WO2022137841A1

WO2022137841A1 - 異常検出システム、学習装置、異常検出プログラム、および学習プログラム

Info

Publication number: WO2022137841A1
Application number: PCT/JP2021/040920
Authority: WO
Inventors: 貴一奥野; 智也岡▲崎▼; 岳彦指田; 高基舘
Original assignee: コニカミノルタ株式会社
Priority date: 2020-12-25
Filing date: 2021-11-08
Publication date: 2022-06-30
Also published as: US20230410285A1; JPWO2022137841A1

Abstract

物体の外観上の欠陥を検出する異常検出時において、画像サイズに依存せずに、安定した判定精度を確保する。　異常検出システム１００は、所定サイズ以上の複数種類の画像サイズの対象物体の検査画像を入力する入力部１１１と、対象物体の良品画像を含む訓練画像から特徴マップ３５５を抽出するように予め学習された特徴抽出部２０１と、特徴抽出部２０１で抽出された特徴マップ３５５から訓練画像を復元するように予め学習された画像生成部２０２と、検出部１１６と、を備える。検出部１１６では、入力部１１１に入力された、所定サイズ以上の複数種類の画像サイズである、検査対象である対象物体の検査画像と、特徴抽出部２０１および画像生成部２０２により復元された該検査画像の復元画像とを比較することで算出した類似度に基づいて、対象物体の異常を検出する。

Description

異常検出システム、学習装置、異常検出プログラム、および学習プログラム

　本発明は、異常検出システム、学習装置、異常検出プログラム、および学習プログラムに関する。

　オートエンコーダ（ＡＥ：ＡｕｔｏＥｎｃｏｄｅｒ）、または変分オートエンコーダ（ＶＡＥ：Ｖａｒｉａｔｉｏｎａｌ　ＡＥ）に良品の訓練画像を用いて、教師なし学習することで得られた学習モデルに、検査対象の画像を入力し、これをＡＥまたはＶＡＥにより復元された復元画像と比較することで検査対象の異常を検知する技術が知られている。

　このような技術として、特許文献１に開示された異常検出システムは、潜在変数モデルと同時確率モデルとを格納する格納部と、センサが出力するセンサデータを取得する取得部と、格納部によって格納された潜在変数モデルと同時確率モデルとに基づいて、取得部によって取得されたセンサデータの尤度を測定する測定部と、測定部によって測定されたセンサデータの尤度に基づいて、当該センサデータが正常であるかまたは異常であるかを判定する判定部と、センサが出力するセンサデータに基づいて潜在変数モデルと同時確率モデルとを学習する学習部と、を備える。

　また、特許文献２に開示された外観異常検査装置によると、画像復元生成部が、良品である検査対象物の外観を表す複数の良品画像の各々から抽出される特徴ベクトルに基づいて予め求められた、良品特徴を表す特徴空間の部分空間に、入力された検査対象物の外観を表す検査対象画像を復元した復元画像を生成する。そして異常判定部が、生成された復元画像と、検査対象画像とを比較して、検査対象物の外観の異常を検出する。

特開２０２０－１１９６０５号公報特開２０１７－２１９５２９号公報

　しかしながら、特許文献１、２に開示された技術では、入力される検査画像の画像サイズに関する記述はなく、一定の画像サイズの検査画像を入力すると思われる。このように一定の画像サイズを入力した場合には、最適化された規定の画像サイズ以外の検査画像を入力した場合には、良品／不良品判定に関する判定精度を確保できない虞がある。例えば、規定の画像サイズよりも数倍大きいサイズの検査画像を入力する場合には、事前処理として、規定の画像サイズにリサイズしてからＡＥに入力するために、判定に必要な情報が入力する前に失われてしまうために、判定精度が低下する。

　本発明は、上記事情に鑑みてなされたものであり、物体の外観上の欠陥を検出する異常検出時において、画像サイズに依存せずに、安定した判定精度を確保可能な異常検出システム、学習装置、異常検出プログラム、および学習プログラムを提供することを目的とする。

　本発明の上記目的は、下記の手段によって達成される。

　（１）物体の外観上の欠陥を検出する異常検出システムであって、
　所定サイズ以上の複数種類の画像サイズの対象物体の検査画像を入力する入力部と、
　前記対象物体の良品画像を含む訓練画像から特徴マップを抽出するように予め学習された特徴抽出部と、
　前記特徴抽出部で抽出された前記特徴マップから前記訓練画像を復元するように予め学習された画像生成部と、
　前記入力部に入力された、所定サイズ以上の複数種類の画像サイズである、検査対象である対象物体の検査画像と、前記特徴抽出部および前記画像生成部により復元された該検査画像の復元画像とを比較することで算出した類似度に基づいて、前記対象物体の異常を検出する検出部と、を備える、異常検出システム。

　（２）前記検出部は、入力部に入力された画像サイズに依存せずに一定以上の精度で検出するように設定されている、上記（１）に記載の異常検出システム。

　（３）前記特徴抽出部が抽出する前記特徴マップのサイズは、８×８以上である、上記（１）、または上記（２）に記載の異常検出システム。

　（４）前記特徴抽出部は、前記検査画像のサイズをＭ、特徴マップのサイズをＮとした場合、以下の式（１）を満たす特徴マップを抽出する、上記（３）に記載の異常検出システム。
Ｎ≧Ｍ×（１／２）＾^ａ　　　　　式（１）
ただし、Ｍ、Ｎは縦または横の画素数、ａは前記特徴抽出部の畳み込み層の層数である。

　（５）前記特徴抽出部が抽出する前記特徴マップのサイズは、前記入力部に入力された検査画像のサイズに比例した大きさである、上記（３）、または上記（４）に記載の異常検出システム。

　（６）前記特徴抽出部は、画像の空間的情報を喪失していない前記特徴マップを抽出する、上記（１）から上記（５）のいずれかに記載の異常検出システム。

　（７）前記特徴抽出部は、全結合層、またはＧＡＰ（Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない、上記（６）に記載の異常検出システム。

　（８）前記特徴抽出部および前記画像生成部は、入力された前記検査画像のサイズに応じて構造を変更する、上記（１）から上記（７）のいずれかに記載の異常検出システム。

　（９）前記検査画像は、電子回路の画像である、上記（１）から上記（８）のいずれかに記載の異常検出システム。

　（１０）物体の外観上の欠陥を検出する異常検出を行うための学習モデルを学習させる学習装置であって、
　前記学習モデルは、特徴抽出部および画像生成部で構成され、
　対象物体の良品画像を含む訓練画像を入力する入力部と、
　前記入力部に入力された前記訓練画像に基づいて特徴マップを抽出する前記特徴抽出部と、
　前記特徴抽出部で抽出された前記特徴マップから前記訓練画像を復元した復元画像を生成する前記画像生成部と、
　前記訓練画像と前記復元画像に基づいて、前記特徴抽出部および前記画像生成部のパラメータを更新する学習部と、
を備え、
　前記入力部は、所定サイズ以上の複数種類の画像サイズの前記訓練画像を入力する、学習装置。

　（１１）前記特徴抽出部が抽出する前記特徴マップのサイズは、８×８以上である、上記（１０）に記載の学習装置。

　（１２）前記特徴抽出部は、前記訓練画像のサイズをＭ、特徴マップのサイズをＮとした場合、以下の式（１）を満たす特徴マップを抽出する、上記（１１）に記載の学習装置。
Ｎ≧Ｍ×（１／２）＾^ａ　　　　　式（１）
ただし、Ｍ、Ｎは縦または横の画素数、ａは前記特徴抽出部の畳み込み層の層数である。

　（１３）前記特徴抽出部は、画像の空間的情報を喪失していない前記特徴マップを抽出する、上記（１０）から上記（１２）のいずれかに記載の学習装置。

　（１４）前記特徴抽出部は、全結合層、またはＧＡＰ（Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない、上記（１３）に記載の学習装置。

　（１５）上記（１）から上記（９）のいずれかの異常検出システムとしてコンピューターを機能させるための異常検出プログラム。

　（１６）上記（１０）から上記（１４）のいずれかの学習装置としてコンピューターを機能させるための学習プログラム。

　本発明においては、異常検出システムは、所定サイズ以上の複数種類の画像サイズの対象物体の検査画像を入力する入力部と、前記対象物体の良品画像を含む訓練画像から特徴マップを抽出するように予め学習された特徴抽出部と、前記特徴抽出部で抽出された前記特徴マップから前記訓練画像を復元するように予め学習された画像生成部と、前記入力部に入力された、所定サイズ以上の複数種類の画像サイズである、検査対象である対象物体の検査画像と、前記特徴抽出部および前記画像生成部により復元された該検査画像の復元画像とを比較することで算出した類似度に基づいて、前記対象物体の異常を検出する検出部と、を備える。これにより、画像サイズに依存せずに、安定した判定精度を確保できる。

異常検出システムの構成を示す図である。異常検出システムのブロック図である。異常検出システムの学習時における制御部の機能ブロック図である。学習時における制御部の構成例を示す模式図である。異常検出システムで実行される学習処理を示すフローチャートである。異常検出システムの異常検出時における制御部の機能ブロック図である。異常検出時における制御部の構成例を示す模式図である。異常検出システムの異常検出処理を示すフローチャートである。特徴マップのサイズと復元精度との関係を説明する模式図である。

　以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、異常検出システム１００の構成を示す図である。図２は、異常検出システム１００のブロック図である。図１に示すように、異常検出システム１００は、撮影装置５０とネットワーク９０、もしくはケーブルにより接続されている。また、撮影装置５０を異常検出システム１００の構成に含めてもよい。異常検出システム１００は、学習時において学習装置として機能する。

　撮影装置５０は、検査対象の対象物を撮影して画像データを生成し、出力する。この画像データは、検査対象の検査画像３５０（または訓練画像３５１）（後述の図４参照）でもある。撮影装置５０は、例えばカメラにより構成される。検査対象は、例えば、所定の製品であり、製品には、基板その他の電子回路、またはボルト、ナット等の部品が含まれる。検査には、折れ、曲げ、欠け、傷、および汚れ等の異常の有無を検知することによる良品と不良品の選別検査が含まれる。検査は、折れ、曲げ、欠け、傷、および汚れ等の異常の箇所等の検知のみであってもよい。

　撮影装置５０は、検査対象を包含する撮影範囲を撮影し、撮影画像（画像データ）を出力する。撮影画像は、複数種類の画像サイズの撮影画像を出力してもよい。

　例えば、撮影画像は、白黒またはカラーで、画像サイズ（画素数（ピクセル数））が７２０×４８０（ＳＤ画像）、１９２０×１０８０（ＨＤ画像）、または３８４０×２１６０（４Ｋ画像）の撮影画像であり得る。また、これらの撮影画像からトリミング、圧縮等により、５１２×５１２または１０２４×１０２４の画像サイズにしてもよい。なお最大サイズとしては２０００×２０００とし、入力する画像サイズをこれ以下とすることが処理速度の観点から好ましい。撮影装置５０は、生成した撮影画像を異常検出システム１００へ送信する。

　図２に示すように、異常検出システム１００は、制御部１１０、記憶部１２０、通信部１３０、および操作表示部１４０を備える。これらの構成要素は、バス１５０を介して互いに接続される。異常検出システム１００は、例えばコンピューター端末により構成される。なお、異常検出システム１００は、オンプレミスサーバーであってもよく、あるいは商用のクラウドサービスを利用したクラウドサーバーであってもよい。

　制御部１１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等のメモリにより構成され、プログラムに従って異常検出システム１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

　記憶部１２０は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等により構成され、各種プログラムおよび各種データを記憶する。記憶部１２０には、機械学習により学習された学習モデル（後述の学習モデル２００）が記憶される。また、記憶部１２０には、学習に用いる訓練画像を記憶してもよい。

　通信部１３０は、ネットワークを介して、外部の装置と通信するためのインターフェース回路（例えばＬＡＮカード等）である。通信部１３０は、撮影装置５０で生成された撮影画像を受信し、受信した撮影画像を入力部１１１（後述）や記憶部１２０に渡す。

　操作表示部１４０は、例えば、タッチパネル、液晶ディスプレイ、およびシグナルタワーにより構成され得る。操作表示部１４０は、ユーザーからの各種入力を受け付ける。操作表示部１４０は、検査対象の検査結果を表示する。

　（学習処理）
　以下、図３から図５を参照し、制御部１１０の学習機能について説明する。図３は、異常検出システム１００の学習時における制御部１１０の機能を示す機能ブロック図であり、図４は、学習時における制御部１１０の構成例を示す模式図である。図５は、異常検出システム１００の学習処理を示すフローチャートである。上述のように異常検出システム１００は、学習時には、学習装置として機能する。

　図３に示すように、制御部１１０は、入力部１１１、および学習部１１２として機能する。入力部１１１は、複数サイズの撮影画像（訓練画像、検査画像）を入力可能である。学習部１１２は、入力部１１１から入力された多数の訓練画像を用いて学習モデルを学習、および生成する。異常検出システム１００の学習時における訓練画像（学習データ）として、複数の正常な検査対象を撮影して得られた撮影画像（画像データ）を用いる。以下、説明を簡単にするために、撮影画像のうち、正常な対象物体（良品）の画像データを、「訓練画像３５１」と称する。対象物体の例としては例えば電子回路（基板）である。

　異常検出システム１００の学習においては、複数の訓練画像３５１で構成される訓練画像群を入力データとして用いて、オートエンコーダ（ＡＥ：ＡｕｔｏＥｎｃｏｄｅｒ）、または変分オートエンコーダ（ＶＡＥ：Ｖａｒｉａｔｉｏｎａｌ　ＡＥ）で構成される学習モデル２００を生成する。

　図４に示すように、学習モデル２００は、特徴抽出部２０１（エンコーダともいう）、および画像生成部２０２（デコーダともいう）で構成されたニューラルネットワークのモデルである。入力データに対する特徴抽出部２０１による複数の畳み込み層、プーリング層（単に「プーリング層」という場合には、最大プーリング層または平均プーリング層のこと、以下同じ）の演算により得られた特徴マップ３５５が、画像生成部２０２に出力され、画像生成部２０２により入力データが復元され、出力される。学習時においては、訓練画像３５１を入力し、学習モデル２００から出力される復元画像３６０と当該訓練画像３５１との差（ロス）がなくなるように、バックプロパゲーションにより学習する。このようにして学習部１１２は、学習モデルを生成または更新する。

　エンコーダとしての特徴抽出部２０１は、複数の畳み込み層、およびプーリング層で構成される。ここでいうプーリング層は例えば、最大プーリング層である。例えば、２×２領域での最大プーリングを行う。特徴抽出部２０１は、全結合層、または全体平均プーリング（ＧＡＰ：Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない。このようにすることで、入力される撮影画像から得られる特徴マップ３５５は、撮影画像の空間的情報を喪失せずに、保持したままである。

　また、特徴抽出部２０１は、入力する撮影画像の画像サイズに依らず、縦および横のサイズが８ピクセル以上の大きさの特徴マップ３５５を抽出する。このような構成とするため、学習時には、縦および横のサイズが８ピクセル以上（縦横８×８以上）の特徴マップ３５５を抽出するように設定する。

　また、特徴抽出部２０１が抽出する特徴マップ３５５のサイズは、入力された撮影画像のサイズに比例した大きさであり、下記式（１）を満たすように設定されている。
Ｎ≧Ｍ×（１／２）＾^ａ　　　　　式（１）
　ここで、Ｍは検査画像３５０（または訓練画像３５１）の縦または横のサイズ（画素数）であり、Ｎは特徴マップの同サイズであり、ａは、特徴抽出部２０１の畳み込み層の層数である。式（１）とする理由は、特徴抽出部２０１により、入力された撮影画像をダウンサンプリングする際には、その前に畳み込み処理を入れて情報を抽象化する必要があるためである。これを行わないと、ダウンサンプリングするときに、良品画像の特徴的な情報が失われる虞がある。

　また、入力された画像サイズによって特徴抽出部２０１および画像生成部２０２の構造を変更するようにしてもよい。構造の変更とは、例えば、ストライド数、畳み込み層（または逆畳み込み層）の層数、等の変更である（後述の構造１～構造３を参照）。

　また、画像生成部２０２は、特徴抽出部２０１に対応する構成、すなわち、特徴抽出部２０１の構成を逆にした構成を備える。例えば、画像生成部２０２は、特徴抽出部２０１の畳み込み層、およびプーリング層にそれぞれ対応する、逆畳み込み層、アンプーリング層（アップサンプリング層ともいう）を備え、特徴抽出部２０１に入力される撮影画像と、画像生成部２０２から出力される復元画像３６０のサイズは同じである。

　次に図５を参照し、学習装置として機能する異常検出システム１００における学習時の動作を説明する。図５のフローチャートに示す処理は、プログラムに従い、異常検出システム１００の制御部１１０により実行される。

　（ステップＳ４０１）
　入力部１１１は、複数の訓練画像３５１からなる訓練画像群を、撮影装置５０から通信部１３０を介して取得する。あるいは、予めこの訓練画像群を一時的に記憶部１２０に蓄積しておく。そして、入力部１１１は、これを取得する。この訓練画像群には、所定サイズ以上の複数の異なる画像サイズからなる訓練画像３５１が含まれる。所定サイズとは、縦および横のサイズが５１２ピクセル以上であり、より好ましくは１０２４ピクセル以上である。なお、学習モデル２００に用いる訓練画像３５１としては、訓練画像のサンプル数を増加させるために、入力部１１１により各種処理を施した処理画像も用いてもよい。各種処理としては、訓練画像３５１の一部を切り出すトリミング処理、回転処理、反転（鏡像）処理、等がある。

　（ステップＳ４０２）
　制御部１１０は、訓練対象となる訓練画像３５１の画像サイズに応じて、構造が異なる学習モデル２００を選択する。例えば、以下の（構造１）～（構造３）のいずれかを適用できる。
（構造１）異なる構造の要素は、ストライド数であり、全部のカーネル（フィルタ）を共通で用いる。画像サイズが大きいほど、ストライド数を大きくする。なお、この場合、その他の構造（層数、カーネルサイズ、パディング数）は同じである。
（構造２）異なる構造の要素は、層数であり、一部のカーネルを共通に用いる。具体的には、画像サイズに応じて畳み込み層（逆畳み込み層）の層数を異ならせる。画像サイズが所定サイズよりも大きい場合に、層数をより多くする。この場合、同じ層数分に関しては同じカーネルを共通に用いる。すなわち、小サイズ用のエンコーダ、デコーダの前段または後段に層が追加されたものになる。
（構造３）異なる構造の要素は、層数であり、またカーネルは非共通である。具体的には、画像サイズに応じて、層数およびカーネルが異なる複数の学習モデルを選択的に使用し、別々に以下の訓練を行う。

　（ステップＳ４０３）
　ステップＳ４０２で、選択した学習モデル２００を用いて、訓練画像３５１を特徴抽出部２０１に入力し、特徴マップ３５５を経て、画像生成部２０２から復元画像３６０を出力する。

　（ステップＳ４０４）
　学習部１１２は、ステップＳ４０３で入力、および出力された訓練画像３５１、および復元画像３６０との誤差により、学習モデル２００（特徴抽出部２０１および画像生成部２０２）のパラメータを更新する。具体的には、訓練画像３５１と復元画像３６０との差分をとり、両者間の誤差が小さくなるように、学習モデル２００のパラメータを更新する。

　（ステップＳ４０５）
　所定回数の学習が終了したならば（ＹＥＳ）、例えば、訓練画像群に含まれる全ての訓練画像３５１に対する学習が終了すれば、処理をステップＳ４０６に進める。終了していなければ処理をステップＳ４０２に戻し、次の訓練画像３５１を用いた学習を繰り返す。

　（ステップＳ４０６）
　制御部１１０は、このような機械学習により生成または更新された学習モデル２００を記憶部１２０に記憶させ、学習処理を終了する（エンド）。

　（異常検出処理）
　以下、図６から図８を参照し、上述の学習処理により生成された学習モデル２００を用いて実施する異常検出処理について説明する。図６は、異常検出システム１００の異常検出時における制御部１１０の機能ブロック図である。図７は、制御部１１０の構成例を示す模式図であり、図８は、異常検出処理を示すフローチャートである。

　図６、図７に示すように、制御部１１０は、入力部１１１、算出部１１５、および検出部１１６として機能する。

　入力部１１１は、上述の学習時と同様に撮影装置５０から通信部１３０を介して撮影画像を取得する。この撮影画像は、撮影装置５０により、実際の検査の対象である対象物体を撮影して得られたものある。以下、このような検査対象の撮影画像を、単に「検査画像」または「検査画像３５０」という。

　図６、図７に示すように、入力された検査画像３５０は、学習モデル２００に投入され復元画像３６０が出力される。この学習モデル２００のエンコーダとしての特徴抽出部２０１は、その過程で、特徴マップ３５５を生成する。この特徴マップ３５５は入力する検査画像の画像サイズが大きい場合であっても、上述のように学習モデル２００の構造（例えば構造１～３）を変更することにより、８×８ピクセル以上の大きさとなるように設定されている。

　また、特徴マップ３５５は、入力された画像サイズに比例した大きさになるように設定される。本実施形態においては、入力された検査画像を一定の画像サイズ（例えば２５６×２５６、または５１２×５１２）にリサイズすることなく、画像サイズに応じた大きさで入力部１１１から入力する。例えば、そのままのサイズで入力する。そして、このようなことから入力された検査画像の画像サイズに比例した大きさの特徴マップ３５５を抽出する。なお、この場合、画像サイズに応じて、数段階にリサイズするようにしてもよい。あるいは、入力画像サイズの上限を設定するようにし、上限を超えるときは、上限値にリサイズするようにしてもよい。例えば上限を２０００（ピクセル）とした場合、縦横いずれも２０００以下の画像サイズは、そのまま入力し、縦横のいずれかが２０００を超える画像サイズの撮影画像は、超える方が２０００以下になるように全体的にリサイズする。

　また、エンコーダとしての特徴抽出部２０１は、複数の畳み込み層、およびプーリング層で構成されるが、全結合層、または全体平均プーリング（ＧＡＰ：Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない。このようにすることで、入力される検査画像３５０から得られる特徴マップ３５５は、検査画像３５０に比べて特徴抽出部２０１での処理によりサイズは小さくなるが、検査画像３５０の空間的情報を喪失せずに、保持したままである。

　さらに、特徴抽出部２０１が抽出する特徴マップ３５５のサイズは、入力された検査画像３５０のサイズに比例した大きさである。また、上述のように学習した学習モデル２００を用いることで、特徴マップ３５５のサイズは、縦および横のサイズが８ピクセル以上であり、かつ上記の式（１）を満たす。

　算出部１１５は、学習モデル２００から出力された復元データと、この復元データの元になった検査画像との類似度を算出する。例えば、算出部１１５は、復元データと検査画像の画素値のそれぞれ差の絶対値を類似度として算出して出力する。算出部１１５は、復元データと検査画像の画素値のそれぞれ差の絶対値の二乗平均を類似度として算出してもよい。算出部１１５は、ＳＳＩＭやコサイン距離といった周知の方法で、復元データと検査画像の類似度を算出してもよい。類似度はスコアとして出力するようにしてもよい。

　検出部１１６は、算出部１１５により算出された類似度に基づいて、検査画像の異常を検出して検出結果を出力する。例えば、検出部１１６は、復元データと検査画像の画素値の差の絶対値が所定の閾値以上の画素部分を異常（欠陥）として、検査画像を異常と判定し得る。検出部１１６は、復元データと製品画像の画素値のそれぞれ差の絶対値の二乗平均が所定の閾値以上の検査画像を異常と判定してもよい。検出部１１６は、ＳＳＩＭやコサイン距離といった周知の方法で算出した、復元データと検査画像の類似度が所定の閾値未満の製品画像を異常と判定してもよい。これらの閾値は、異常検出システム１００の異常検出精度の観点から、実験により適当に設定され得る。

　次に図８を参照し、異常検出システム１００の異常検出時の動作を説明する。図８のフローチャートに示す処理は、プログラムに従い、異常検出システム１００の制御部１１０により実行される。

　（ステップＳ５０１）
　入力部１１１は、検査対象物の撮影画像（検査画像３５０）を撮影装置５０等から取得する。この検査画像３５０の画像サイズは、所定サイズ以上の複数種類の画像サイズである。所定サイズとは、縦および横のサイズが５１２ピクセル以上であり、より好ましくは１０２４ピクセル以上である。

　（ステップＳ５０２）
　制御部１１０は、検査画像３５０の画像サイズに応じて、学習モデル２００の構造を変更する。例えば上述の（構造１）～（構造３）のいずれかの構造とした学習モデルに変更する。例えば、ストライド数が異なったり（構造１）、層数が異なったり（構造２、３）する学習モデル２００を記憶部１２０から読み出して、使用する。

　（ステップＳ５０３）
　構造を変更した後の学習モデル２００を用いて、検査画像３５０を特徴抽出部２０１に入力し、特徴マップ３５５を経て、画像生成部２０２から復元画像３６０を出力する。

　（ステップＳ５０４）
　算出部１１５は、ステップＳ５０３で得られた復元画像３６０とその元になった検査画像３５０との類似度を算出する。類似度はスコアとして出力される。

　（ステップＳ５０５）
　検出部１１６は、ステップＳ５０４で得られた類似度に基づいて、検査画像の異常、すなわち、検査画像の被写体である対象物体の異常を検出し、判定結果を出力する。

　（本実施形態の効果）
　本実施形態では、以下のことから、入力画像サイズに依存せずに、一定の検出精度で異常を検出できる。すなわち、エンコーダである特徴抽出部２０１により特徴マップ３５５を生成しても、ベクトル情報に変換せずに、画像の空間的情報を保持する。また、その特徴マップ３５５のサイズを８×８以上にすることで、パディング（Ｐａｄｄｉｎｇ）の影響を抑えることができる。図９は、特徴マップのサイズと復元精度との関係を説明する模式図である。特徴マップの外側領域（網掛け領域）は、パディング（パディング数＝１）の影響を受ける領域Ａであり、その内側領域はパディングの影響を受けない（または影響が少ない）領域Ｂである。領域Ｂは、空間方向の情報を意図通りの再構成（復元）に使える。領域Ａは、パディングの影響でただでさえ不完全なカーネル処理でつくられた領域で、その後のデコードにおいて不完全なカーネル処理をさらに重ねることになる。例えば、図示のように、３×３のカーネルで畳み込み処理した場合には、右端の画素は、パディングの影響を受けていない領域ａ１（１つの画素）と、パディングの影響を受けた領域ａ２（３つの画素）と、パディングした領域ａ３（５のパディングで追加した画素）で演算処理される。領域Ａにおいては、算出に用いる画素において領域ａ２、ａ３が多いために不完全性が高くなる。

　図９（ａ）に示すように、特徴マップのサイズが８×８以上の場合には、領域Ａの画素数＜領域Ｂの画素数であるが、６×６以下の場合には、逆に領域Ａの画素数＞領域Ｂの画素数となる。例えば、特徴マップのサイズが８×８で、畳み込み処理においてパディング数「１」のパディングを行った場合に、最も外側の画素以外のパディングの影響を受けない領域Ｂの画素、すなわち空間方向の情報を意図通りに、再構成できる画素を３６個（６×６）だけ確保できる。これは、領域Ａの画素の数（２８個）よりも多く、意図通りに最高できる領域Ｂの数の方が支配的となる。

　一方で、図９（ｂ）の比較例のように画素空間方向に関する制約を設けず、サイズ８×８未満の特徴マップ、例えばサイズ４×４（１６の領域）とした場合、１回の学習で対象画像中の１６の領域に対応する潜在変数が推論される。そして、推論時（検出時）には、特徴学習時に参照した元画像の領域が参照されず、高精度な再構成を行えない。また、図９（ｂ）に示すように領域Ａの画素数＞領域Ｂの画素数の条件を満たすようなサイズ８×８未満、例えばサイズ６×６の場合には、エンコーダの圧縮（次元削減）による情報の損失が大きい。そのため、復元画像３６０において、良品画像を上手く再構成することができず、上述した異常判定での検出精度が低下してしまうことが確認されている。本実施形態においては、特徴マップのサイズを大きくすることで、画素空間方向に密な学習とすることができ、比較例のような状況を避けることができる。

　また、入力の検査画像３５０の画像サイズ（ピクセル）が大きい場合、例えば１０００×１０００以上のような場合には、特徴マップ３５５のサイズを８×８とした場合には、圧縮による情報の損失が大きすぎて、異常判定での検出精度が低下する。このようなことから、本実施形態では、入力された画像サイズに比例した大きさの特徴マップ３５５を抽出するようにする。すなわち、入力部１１１は、入力された画像をその画像サイズのまま、すなわち所定サイズにリサイズしたりせずに、そのまま学習モデル２００に投入し、その大きさに比例した特徴マップ３５５を抽出し、これから復元画像３６０を得る。このようにすることで、本実施形態では、入力部１１１に入力される画像サイズに依存せずに一定以上の精度で異常を検出できる。

　以上に説明した異常検出システム１００の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種種改変することができる。また、一般的な異常検出システム１００が備える構成を排除するものではない。

　上述した実施形態に係る異常検出システム１００（または学習装置）における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。異常検出プログラム、および学習プログラムを含む上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、装置の一機能としてその装置のソフトウエアに組み込まれてもよい。

　本出願は、２０２０年１２月２５日に出願された日本特許出願（特願２０２０－２１６４８８号）に基づいており、その開示内容は、参照され、全体として組み入れられている。

１００　異常検出システム
１１０　制御部
　１１１　入力部
　１１２　学習部
　１１５　算出部
　１１６　検出部
　２００　学習モデル
　　２０１　特徴抽出部
　　２０２　画像生成部
１２０　記憶部
１３０　通信部
１４０　操作表示部
５０　撮影装置
３５０　検査画像
３５１　訓練画像
３５５　特徴マップ
３６０　復元画像

Claims

　物体の外観上の欠陥を検出する異常検出システムであって、
　所定サイズ以上の複数種類の画像サイズの対象物体の検査画像を入力する入力部と、
　前記対象物体の良品画像を含む訓練画像から特徴マップを抽出するように予め学習された特徴抽出部と、
　前記特徴抽出部で抽出された前記特徴マップから前記訓練画像を復元するように予め学習された画像生成部と、
　前記入力部に入力された、所定サイズ以上の複数種類の画像サイズである、検査対象である対象物体の検査画像と、前記特徴抽出部および前記画像生成部により復元された該検査画像の復元画像とを比較することで算出した類似度に基づいて、前記対象物体の異常を検出する検出部と、を備える、異常検出システム。
　前記検出部は、入力部に入力された画像サイズに依存せずに一定以上の精度で検出するように設定されている、請求項１に記載の異常検出システム。
　前記特徴抽出部が抽出する前記特徴マップのサイズは、８×８以上である、請求項１、または請求項２に記載の異常検出システム。
　前記特徴抽出部は、前記検査画像のサイズをＭ、特徴マップのサイズをＮとした場合、以下の式（１）を満たす特徴マップを抽出する、請求項３に記載の異常検出システム。
Ｎ≧Ｍ×（１／２）＾^ａ　　　　　式（１）
ただし、Ｍ、Ｎは縦または横の画素数、ａは前記特徴抽出部の畳み込み層の層数である。
　前記特徴抽出部が抽出する前記特徴マップのサイズは、前記入力部に入力された検査画像のサイズに比例した大きさである、請求項３、または請求項４に記載の異常検出システム。
　前記特徴抽出部は、画像の空間的情報を喪失していない前記特徴マップを抽出する、請求項１から請求項５のいずれかに記載の異常検出システム。
　前記特徴抽出部は、全結合層、またはＧＡＰ（Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない、請求項６に記載の異常検出システム。
　前記特徴抽出部および前記画像生成部は、入力された前記検査画像のサイズに応じて構造を変更する、請求項１から請求項７のいずれかに記載の異常検出システム。
　前記検査画像は、電子回路の画像である、請求項１から請求項８のいずれかに記載の異常検出システム。
　物体の外観上の欠陥を検出する異常検出を行うための学習モデルを学習させる学習装置であって、
　前記学習モデルは、特徴抽出部および画像生成部で構成され、
　対象物体の良品画像を含む訓練画像を入力する入力部と、
　前記入力部に入力された前記訓練画像に基づいて特徴マップを抽出する前記特徴抽出部と、
　前記特徴抽出部で抽出された前記特徴マップから前記訓練画像を復元した復元画像を生成する前記画像生成部と、
　前記訓練画像と前記復元画像に基づいて、前記特徴抽出部および前記画像生成部のパラメータを更新する学習部と、
を備え、
　前記入力部は、所定サイズ以上の複数種類の画像サイズの前記訓練画像を入力する、学習装置。
　前記特徴抽出部が抽出する前記特徴マップのサイズは、８×８以上である、請求項１０に記載の学習装置。
　前記特徴抽出部は、前記訓練画像のサイズをＭ、特徴マップのサイズをＮとした場合、以下の式（１）を満たす特徴マップを抽出する、請求項１１に記載の学習装置。
Ｎ≧Ｍ×（１／２）＾^ａ　　　　　式（１）
ただし、Ｍ、Ｎは縦または横の画素数、ａは前記特徴抽出部の畳み込み層の層数である。
　前記特徴抽出部は、画像の空間的情報を喪失していない前記特徴マップを抽出する、請求項１０から請求項１２のいずれかに記載の学習装置。
　前記特徴抽出部は、全結合層、またはＧＡＰ（Ｇｌｏｂａｌ　Ａｖｅｒａｇｅ　Ｐｏｏｌｉｎｇ）層を備えない、請求項１３に記載の学習装置。
　請求項１から請求項９のいずれかの異常検出システムとしてコンピューターを機能させるための異常検出プログラム。
　請求項１０から請求項１４のいずれかの学習装置としてコンピューターを機能させるための学習プログラム。