WO2022185474A1

WO2022185474A1 - 学習装置、学習方法、検査装置、検査方法、及び、記録媒体

Info

Publication number: WO2022185474A1
Application number: PCT/JP2021/008389
Authority: WO
Inventors: 重哲並木; 拓也小川; 恵子井上; 尚司谷内田; 利憲細井
Original assignee: 日本電気株式会社
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2022-09-09
Also published as: JPWO2022185474A1; US20240153065A1

Abstract

学習装置において、取得手段は、対象物を撮影した時系列の撮影画像を取得する。次に、学習手段は、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する。

Description

学習装置、学習方法、検査装置、検査方法、及び、記録媒体

　本発明は、画像を利用した対象物の検査手法に関する。

　製品の撮影画像を用いて異常検査を行う手法が提案されている。例えば、特許文献１は、検査対象物である錠剤の画像を３方向から撮影し、３方向の画像に対して形状検査、色彩検査、割り欠け検査を行って錠剤の良否を判定する外観検査装置を開示している。

特開２００５－１７２６０８号公報

　特許文献１の外観検査装置では、検査対象物の３方向の画像に対して同じ検査を行っている。しかし、現実には検査対象物の面や部分毎に異常の傾向が異なることが多い。

　本発明の１つの目的は、検査対象物の面や部分毎に適した画像認識方法で異常判定を行うことが可能な検査装置を提供することにある。

　本発明の一つの観点では、学習装置は、
　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、を備える。

　本発明の他の観点では、学習方法は、
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する。

　本発明のさらに他の観点では、記録媒体は、
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録する。

　本発明のさらに他の観点では、検査装置は、
　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
　を備え、
　前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである。

　本発明のさらに他の観点では、検査方法は、
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する。

　本発明のさらに他の観点では、記録媒体は、
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、検査対象物の面や部分毎に適した画像認識方法で異常判定を行うことが可能となる。

検査装置を用いた検査の様子を示す。第１実施形態に係る検査装置のハードウェア構成を示す。第１実施形態に係る検査装置の機能構成を示す。対象物体画像系列を取得するための構成を示す。グループ識別部及び認識器の学習方法を説明する図である。グループ識別部及び認識器の学習のための構成を示す。グループ識別部、認識器の学習処理のフローチャートである。検査装置による検査時（推論時）の構成を示す。検査装置による検査処理のフローチャートである。第２実施形態に係る検査装置の機能構成を示す。ニューラルネットワークの構成を模式的に示す。ニューラルネットワークの学習時の構成を示す。ニューラルネットワークの学習処理のフローチャートである。検査装置による検査時の構成を示す。検査装置による検査処理のフローチャートである。第３実施形態に係る学習装置の機能構成を示す。第３実施形態の学習装置による処理のフローチャートである。第４実施形態に係る検査装置の機能構成を示す。第４実施形態の検査装置による処理のフローチャートである。

　以下、図面を参照して、本発明の好適な実施形態について説明する。
　＜第１実施形態＞
　［検査の概要］
　まず、本発明に係る検査装置１００による検査の概要について説明する。図１（Ａ）は、検査装置１００を用いた検査の様子を示す。本実施形態では、検査の対象物を錠剤５とする。錠剤５は、例えば矢印方向にエアーを送ることによりレール２内を矢印の方向に移動する。なお、図示の便宜上、図１（Ａ）ではレール２の側壁２ｘを破線で示している。

　レール２の上方には照明３と高速カメラ４が配置される。対象物の形状や検出すべき異常の種類に応じて、様々な強度及び照明範囲の照明が複数設置される。特に錠剤５などの小さい対象物の場合、微小な異常の種類、度合い、位置などは様々であるため、複数の照明を用いて照明条件を様々に変えて撮影を行ってもよい。

　高速カメラ４は、照明下の錠剤５を高速撮影し、撮影画像を検査装置１００へ出力する。錠剤５を移動させつつ高速カメラ４で撮影すると、錠剤５に存在する微小な異常個所を逃さず撮影することができる。具体的に、錠剤５に生じる異常としては、髪の毛の付着、微細な欠けなどがある。

　錠剤５は、レール２に設けた反転機構により反転する。図１（Ａ）では、便宜上、反転機構の図示を省略し、レール２上での錠剤の挙動のみを示している。以下、説明の便宜上、錠剤５の割線の設けられた面を「Ａ面」と呼び、割線の無い方の面を「Ｂ面」と呼び、錠剤５を側方から見た面を「側面」と呼ぶ。なお、「割線」とは、錠剤を半分に割るために、錠剤の片面に設けられた切り込みやくぼみを言う。

　図１（Ｂ）は、レール２に設けられた反転機構を模式的に示す。図示のように、レール２の側壁２ｘの内側には、反転機構として、レール２の幅を狭くした狭窄部７が設けられている。狭窄部７は、レール２の側壁２ｘを内側に張り出すように形成したものである。錠剤５は、狭窄部７以外の領域では基本的に倒れた状態で移動するが、狭窄部７を通過する際に立ち上がり、狭窄部７を通過した後に反対側に倒れる。こうして、錠剤５はレール２上で反転する。

　図１（Ｃ）は、高速カメラ４（以下、単に「カメラ４」と呼ぶ。）による撮影画像の例を示す。なお、図１（Ｃ）は、カメラ４による撮影画像のうち、対象物体である錠剤５の領域のみを抽出した画像であり、後述する対象物体画像系列に相当する。錠剤５は、Ａ面が上側になるようにセットされて図１（Ｂ）の左側からレール２上を矢印方向に移動し、その間にカメラ４は錠剤の５のＡ面を撮影する。その後、錠剤５は狭窄部７で立ち上がり、そのときにカメラ４は錠剤５の側面を撮影する。狭窄部７を通過すると、錠剤５は反対側に倒れるので、その後カメラ４は錠剤のＢ面を撮影する。こうして、図１（Ｃ）に示すように、錠剤のＡ面、側面、Ｂ面を含む時系列画像（以下、「画像系列」とも呼ぶ。）が得られる。なお、錠剤５はエアーにより送られているため、狭窄部７では立ち上がり、周方向に回転しつつレール２上を移動する。よって、カメラ４は、錠剤５の側面の全周を撮影することができる。こうして、錠剤５のあらゆる面を撮影することができる。

　［ハードウェア構成］
　図２は、第１実施形態に係る検査装置１００のハードウェア構成を示すブロック図である。図示のように、検査装置１００は、インタフェース（Ｉ／Ｆ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５と、入力部１６と、表示部１７と、を備える。

　インタフェース１１は、外部装置との間でデータの入出力を行う。具体的に、カメラ４により撮影された錠剤の画像系列（時系列画像）は、インタフェース１１を通じて入力される。また、検査装置１００により生成された異常の判定結果は、インタフェース１１を通じて外部の装置へ出力される。

　プロセッサ１２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、検査装置１００の全体を制御する。なお、プロセッサ１２は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）であってもよい。プロセッサ１２は、後述する検査処理を実行する。

　メモリ１３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、検査装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。検査装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

　ＤＢ１５は、必要に応じて、カメラから入力された画像系列を記憶する。入力部１６は、ユーザが指示や入力を行うためのキーボード、マウスなどにより構成される。表示部１７は、例えば液晶ディスプレイなどにより構成され、対象物の認識結果などを表示する。

　［機能構成］
　図３は、第１実施形態に係る検査装置１００の機能構成を示すブロック図である。検査装置１００は、カメラ４から入力された画像系列（以下、「入力画像系列」と呼ぶ。）に基づいて錠剤５の異常を判定し、判定結果を出力する。図示のように、検査装置１００は、対象物体領域抽出部２１と、グループ識別部２２と、複数の認識器２３と、統合部２４とを備える。

　対象物体領域抽出部２１は、入力画像系列から、検査の対象物体である錠剤５の領域を抽出し、対象物体の領域を示す画像系列（以下、「対象物体画像系列」と呼ぶ。）を出力する。対象物体画像系列は、図１（Ｃ）に例示するように、カメラ４で撮影した画像のうち、対象物体の部分のみを抽出した画像の集合である。

　グループ識別部２２は、グループ識別モデルを用いて、対象物体画像系列を構成する複数のフレーム画像を複数のグループにグループ分けする。グループ識別部２２は、グループ分けにより得られた各グループの画像系列を、対応する認識器２３へ出力する。各認識器２３は、認識モデルを用いて、各グループの画像系列に対して画像認識を行い、異常の有無を判定する。各認識器２３は、それぞれ判定結果を統合部２４へ出力する。なお、グループ識別部２２が使用するグループ識別モデル、及び、認識器２３が使用する認識モデルの学習については後述する。

　統合部２４は、複数の認識器２３が出力した判定結果に基づいて、錠剤５の最終的な判定結果を生成する。例えば、各認識器２３が錠剤５の正常／異常を２値判定（０：正常、１：異常）する場合、統合部２４はｍａｘ関数を用いて、複数の認識器２３の判定結果が１つでも異常を含めば、最終判定結果を異常とする。また、認識器２３が錠剤５の異常度を「０」～「１」の値で出力する場合、統合部２４はｍａｘ関数を用いて、最も異常度の高かった画像の異常度を最終判定結果として出力する。

　上記の構成において、対象物体領域抽出部２１は取得手段の一例であり、グループ識別部２２はグループ識別手段の一例であり、認識器２３は認識手段の一例であり、統合部２４は統合手段の一例である。

　［各部の処理］
　（対象物体画像系列の取得）
　図４は、対象物体画像系列を取得するための構成を示す。カメラ４の画角内で反転機構７により対象物体である錠剤５を反転させ、その様子をカメラ４で撮影することにより入力画像系列３１が得られる。対象物体領域抽出部２１は、入力画像系列３１から、対象物体の部分を示す対象物体画像系列３２を出力する。これにより、図１（Ｃ）に例示するような対象物体画像系列が得られる。

　（グループ識別部、認識器の学習）
　図５は、グループ識別部２２及び認識器２３の学習方法を説明する図である。本実施形態では、グループ識別部２２と認識器２３を同時に、即ち時間的に並行して学習する。具体的には、認識器２３の認識モデルの学習とグループ識別部２２のグループ識別モデルの学習とを交互に繰り返し、必要な数の認識モデルを生成する。より具体的には、まず認識器２３を学習し、次にグループ識別部２２を学習する処理を１回のループ処理とし、このループ処理を所定の終了条件が具備されるまで繰り返す。以下、上記のループ処理の繰り返し回数を「ｋ」で示す。また、認識器２３（認識モデル）の数を「Ｎ」で示し、学習処理の開始時には認識モデルの数Ｎ＝１であるものとする。

　図５において、対象物体領域抽出部２１から入力された対象物体画像系列３２に含まれる個々のフレーム画像を「サンプルＳ」と呼ぶ。各サンプルＳは、１つの錠剤５の撮影により得られたものである。学習時には、各サンプルＳに対して、そのサンプルが対象物体の異常を含むか否かを示す入力ラベル（正解ラベル）が予め用意されている。

　図５に示すように、まず、１回目（ｋ＝１）のループ処理では、対象物体画像系列の全サンプルＳを用いて、１つの認識モデルＭ１を学習する。学習の際には、推論結果を予め用意した入力ラベルと比較することにより認識モデルＭ１が学習される。学習が終了すると、学習済みの認識モデルＭ１に全サンプルＳを入力して推論を行い、学習済みの認識モデルＭ１が正しく異常を判定できたか否かを判定する。これにより、全サンプルＳは、認識モデルＭ１が正解したサンプル群（以下、「正解サンプル群」とも呼ぶ。）ｋ１と、認識モデルＭ１が間違えたサンプル群（以下、「不正解サンプル群」とも呼ぶ。）ｋ１’とに分けられる。ここで、認識モデルＭ１が正解した正解サンプル群ｋ１は、認識モデルＭ１により正しく異常判定ができたサンプル群である。これに対し、認識モデルＭ１が間違えた不正解サンプル群ｋ１’は、認識モデルＭ１によっては正しく異常を判定することが難しいサンプルであると考えられる。言い換えると、全サンプルＳの異常判定を正しく行うためには、１つの認識モデルＭ１のみでは不十分であり、認識モデルＭ１が間違えたサンプル群ｋ１’については別の少なくとも１つの認識モデルを用意する必要がある。即ち、必要な認識モデルの数Ｎ＝２となる。

　こうして、認識モデルを２つにする必要が生じたので、全サンプルＳを２つのグループに分けるグループ識別モデルＧを学習する。具体的には、正解サンプル群ｋ１と不正解サンプル群ｋ１’とを用いて、グループ識別モデルＧを学習する。グループ識別モデルＧの学習が終わると、得られたグループ識別モデルＧに全サンプルＳを入力し、不正解サンプル群ｋ１’’を得る。なお、前述の不正解サンプル群ｋ１’は認識モデルＭ１による結果であり、グループ識別モデルＧによる識別結果とは必ずしも一致しないので、グループ識別モデルＧにより得られた不正解サンプル群を「ｋ１’’」として区別している。

　こうして、全サンプルＳを２つのグループに分けるグループ識別モデルＧが得られたので、次に、２つ目の認識モデルを生成する。具体的には、不正解サンプル群ｋ１’’を用いて、認識モデルＭ１とは別の認識モデルＭ２を学習する。そして、得られた認識モデルＭ２に対して不正解サンプル群ｋ１’’を入力して推論を行い、認識モデルＭ２による正解サンプル群ｋ２と、不正解サンプル群ｋ２’とを得る。

　ここで、不正解サンプル群ｋ２’は、追加した認識モデルＭ２によっては正しく異常を判定することが難しいサンプル群である。即ち、全サンプルＳを正しく異常判定するためには、認識モデルＭ１とＭ２では不十分であり、さらに追加の認識モデルが必要ということになる。よって、次に必要な認識モデルの数をさらに１つ増加してＮ＝３とし、全サンプルＳを３つのグループに分けるようにグループ識別モデルＧを学習する。

　こうして、以下の終了条件が具備されるまで、上記のループ処理を繰り返し、グループ識別モデルの更新と、認識モデルの追加を行う。
（ａ）上記のループ処理が所定回数に達する（ｋ＝ｋmax）。
（ｂ）認識モデルが一定の精度を達成し、不正解サンプル群の数が十分に減少する。
（ｃ）認識モデルの精度の改善幅が閾値以下になる（即ち、それ以上精度が改善しない状態となる）。
　こうして、撮影により生成された対象物体画像系列に応じて適切な数の認識器２３を用いて、異常判定を行うことが可能となる。

　なお、認識モデル数の増加に伴ってグループ識別モデルＧを更新する手法は、グループ識別モデルＧの種類によって異なる。例えば、グループ識別モデルＧとしてk-means又はSVM：Support Vector Machine）を用いる場合、モデルを追加して更新を行う。また、グループ識別モデルＧとしてKdtreeを用いる場合、グループ数を増やして再学習を行う。

　実際の学習においては、上記のループ処理を繰り返していくと、不正解サンプル群に属するサンプル数は減少していく。よって、グループ識別モデルや追加する認識モデルの学習のためには、データ拡張などにより学習に用いるデータ数を確保する必要がある。また、ループ処理の繰り返しにより、正解サンプル群と不正解サンプル群のデータ数のインバランスが生じるので、必要に応じてオーバーサンプリングやアンダーサンプリングによりインバランスを解消することが好ましい。

　図６は、グループ識別部２２及び認識器２３の学習のための構成を示す。まず、ループ処理の１ステップ目（ｋ＝１）において、対象物体領域抽出部２１が生成した対象物体画像系列３２がｋ（＝１）番目の認識器２３へ入力される。認識器学習部４１は、対象物体画像系列３２と入力ラベル系列３３を用いて１番目の認識器２３を学習し、１番目の認識器２３に対応する認識器パラメータＰ１を生成する。また、学習により得られた１番目の認識器２３に対象物体画像系列３２が入力されて推論が行われ、正解画像／不正解画像３４が得られる。正解画像は前述の正解サンプル群ｋ１に相当し、不正解画像は前述の不正解サンプル群ｋ１’に相当する。

　不正解画像が得られると、グループ学習部４２は、ループ処理の繰り返し数ｋを１つ増加し（ｋ＝ｋ＋１）、ｋ（＝２）個のグループにグループ分けを行うようにグループ識別モデルを学習し、グループ識別部パラメータＰ２を生成する。

　ループ処理の２ステップ目（ｋ＝２）では、１ステップ目で得られたグループ識別部パラメータＰ２がグループ識別部２２に設定される。グループ識別部２２は、対象物体画像系列３２を２個のグループに分ける推論を行う。これにより、不正解推定画像３５（前述の不正解サンプル群ｋ１’’に対応）が得られる。認識器学習部４１は、不正解推定画像３５と入力ラベル系列３３とを用いて２番目の認識器２３を学習し、２番目の認識器２３に対応する認識器パラメータＰ１を生成する。また、学習により得られた２番目の認識器２３に対象物体画像系列３２が入力されて推論が行われ、正解／不正解画像３４が得られる。正解画像は前述の正解サンプル群ｋ２に相当し、不正解画像は前述の不正解サンプル群ｋ２’に相当する。

　不正解画像が得られると、グループ学習部４２は、ループ処理の繰り返し数ｋをさらに１つ増加し、ｋ（＝３）個のグループにグループ分けを行うようにグループ識別モデルを学習し、グループ識別部パラメータＰ２を生成する。そして、２ステップ目と同様に、３ステップ目（ｋ＝３）の処理が実行される。こうして、前述の終了条件が具備されるまでループ処理が繰り返し実行され、処理が終了した時点における認識器パラメータＰ１とグループ識別部パラメータＰ２により、認識モデルとグループ認識モデルが得られる。

　上記の構成において、対象物体領域抽出部２１は取得手段の一例であり、認識器学習部４１及びグループ学習部４２は、学習手段の一例である。

　図７は、グループ識別部、認識器の学習処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ４で撮影し、入力画像系列３１が生成される（ステップＳ１１）。次に、対象物体領域抽出部２１は、入力画像系列３１から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列３２を出力する（ステップＳ１２）。

　次に、ｋ（＝１）番目の認識器２３により対象物体画像系列３２の推論を行う（ステップＳ１３）。認識器学習部４１は、ｋ番目の認識器２３の推論結果と入力ラベルとによりｋ番目の認識器２３を学習し、認識器パラメータＰ１を得る。また、認識器学習部４１は、学習後の認識器２３で対象物体画像系列３２の推論を行い、正解画像／不正解画像３４を出力する（ステップＳ１４）。

　次に、グループ学習部４２は、繰り返し数ｋを１増加し（ｋ＝ｋ＋１）、正解／不正解画像３４を用いてｋ個のグループを識別するようにグループ識別モデルを学習し、グループ識別部パラメータＰ２を得る（ステップＳ１５）。

　次に、グループ識別部２２は、対象物体画像系列３２から特徴量を抽出し、グループ識別を行い、ｋ個にグループ分けした画像を出力する（ステップＳ１６）。次に、ｋ番目の認識器２３は、ｋ番目のグループ画像（即ち、（ｋ－１）番目の認識器２３の不正解画像と推定される画像）に対して推論を行う（ステップＳ１７）。次に、認識器学習部４１は、ｋ番目の認識器２３の推論結果と入力ラベルとによりｋ番目の認識器２３を学習し、認識器パラメータＰ１を得る。また、認識器学習部４１は、学習後のｋ番目の認識器２３で対象物体画像系列３２の推論を行い、正解画像／不正解画像３４を出力する（ステップＳ１８）。

　次に、グループ学習部４２は、ｋを１増加し（ｋ＝ｋ＋１）、正解／不正解画像３４を用いて、ｋ個のグループへ識別するようにグループ識別モデルを学習し、グループ識別部パラメータＰ２を得る（ステップＳ１９）。

　次に、前述の終了条件が具備されたか否かが判定され（ステップＳ２０）、具備されていない場合（ステップＳ２０：Ｎｏ）、処理はステップＳ１６へ戻る。一方、終了条件が具備された場合（ステップＳ２０：Ｙｅｓ）、学習処理は終了する。

　（検査時（推論時））
　図８は、検査装置１００による検査時（推論時）の構成を示す。検査時においては、実際の検査対象物を撮影した対象物体画像系列３６が入力される。また、グループ識別部２２には、前述の学習処理により得られたグループ識別部パラメータＰ２が設定され、対象物体画像系列３６を、学習処理により決定された数にグループ分けする。さらに、前述の学習処理により決定された数の認識器２３に、前述の学習により得られた認識器パラメータＰ１が設定される。以下の説明では、グループ識別部２２は対象物体画像系列３６をＮ個のグループに分け、Ｎ個の認識器２３により異常の判定が行われるものとする。

　対象物体領域抽出部２１は、入力画像系列から対象物体画像系列３６を生成し、グループ識別部２２へ出力する。グループ識別部２２は、対象物体画像系列３６をＮ個のグループに分け、Ｎ個の認識器２３へ出力する。Ｎ個の認識器２３は、それぞれ入力された画像における異常の有無を判定し、判定結果を統合部２４へ出力する。統合部２４は、入力された判定結果を統合し、最終判定結果を出力する。

　図９は、検査装置１００による検査処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ４で撮影し、入力画像系列が生成される（ステップＳ３１）。この入力画像系列は、実際の検査対象物を撮影した画像である。次に、対象物体領域抽出部２１は、入力画像系列から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列３６を出力する（ステップＳ３２）。

　次に、グループ識別部２２は、対象物体画像系列３６から特徴量を抽出してＮ個のグループ識別を行い、グループ毎に画像系列を出力する（ステップＳ３３）。次に、Ｎ個の認識器は、それぞれ対応するグループの画像系列に基づき異常判定を行う（ステップＳ３４）。次に、統合部２４は、グループ毎の認識器２３の判定結果を統合して最終判定を行う（ステップＳ３５）。そして、処理は終了する。

　なお、グループ識別部２２は、対象物体画像系列を複数のグループにグループ分けするが、複数のグループのうちに、１つの撮影画像も属しないグループがある場合、検査装置１００は検査が不十分と判定し、最終判定結果として出力してもよい。

　以上のように、第１実施形態によれば、認識器２３の認識モデルの学習とグループ識別部２２のグループ識別モデルの学習とを交互に繰り返し、必要な数の認識モデルと、画像系列をその数にグループ分けするグループ識別モデルとを生成する。よって、適切な数の認識器を用いて異常判定の精度を向上させることができる。

　＜第２実施形態＞
　次に、第２実施形態について説明する。第２実施形態では、グループ識別部と認識器をニューラルネットワーク（ＮＮ：Neural Network）で構成し、エンドツーエンド（End to End）の学習を行う。これにより、グループ識別部と認識器が一連となり、一貫して学習が行われる。

　［ハードウェア構成］
　第２実施形態の検査装置２００のハードウェア構成は、第１実施形態と同様であるので説明を省略する。

　［機能構成］
　図１０は、第２実施形態の検査装置２００の機能構成を示す。図示のように、第２実施形態では、検査装置２００は、対象物体領域抽出部２１と、ニューラルネットワーク（ＮＮ）５０と、統合部２４とを備える。対象物体領域抽出部２１と、統合部２４は第１実施形態の検査装置１００と同様である。

　図１１は、ＮＮ５０の構成を模式的に示す。ＮＮ５０は、前段ＮＮと後段ＮＮを備える。前段ＮＮには、対象物体画像系列が入力される。前段ＮＮは、グループ識別部に相当し、比較的軽量な構造を有する。前段ＮＮは、入力された対象物体画像系列に基づき、画像単位で対応する重みを出力する。この重みは、対象物体画像系列に含まれる各画像の特徴量に基づいて算出され、同じような画像特徴を有する画像に対しては同じような重みが割り当てられる。よって、この重みは、各画像を画像特徴により識別した結果と捉えることができる。なお、前段ＮＮは、画素単位で重みを出力するようにしてもよい。重みは、「０」～「１」の値である。前段ＮＮが出力した重みは、後段ＮＮに入力される。

　対象物体画像系列は後段ＮＮにも入力される。後段ＮＮは、異常判定を行う認識器に相当し、比較的重量な構造を有する。後段ＮＮは、入力された対象物体画像系列から画像の特徴量を抽出して異常判定を行い、異常度を出力する。後段ＮＮが出力した異常度は統合部２４により統合され、最終判定結果として出力される。

　後段ＮＮとしては、例えばＣＮＮ（Convolutional Neural Network）やＲＮＮ（Recurrent Neural Network）などを用いることができる。後段ＮＮがＣＮＮである場合、前段ＮＮが出力した重みを、画像単位で算出された損失に掛けて学習を行う。後段ＮＮがＲＮＮである場合、前段ＮＮが出力した重みを、時系列特徴に掛けて学習を行う。なお、前段ＮＮが画素単位で重みを出力する場合、後段ＮＮは、中間層の特徴マップ（feature map）にも重みを掛ける構造とする。この場合には、特徴マップのサイズに応じて、前段ＮＮが出力する重みをリサイズすることが必要となる。

　上記のようにＮＮを前段ＮＮと後段ＮＮにより構成し、同時に一貫して学習することにより、後段ＮＮによる認識精度が上がるように前段ＮＮの重みづけが学習される。その際に、認識の難しい画像に対する重みが増加し、認識の難しい画像の認識能力が向上することが期待される。

　なお、第２実施形態では、認識器に相当する後段ＮＮは１つのＮＮであるが、重みづけをアテンション（Attention）のように使うことで、後段ＮＮ内の異なるパラメータ集合を機能的に複数の認識モデルのように使用している。

　［学習時］
　（学習時の構成）
　図１２は、ＮＮ５０の学習時の構成を示す。ＮＮ５０は、重みづけ部５１と、認識器５２と、学習部５３とを備える。重みづけ部５１は前段ＮＮにより構成され、認識器５２は後段ＮＮにより構成される。重みづけ部５１は、対象物体画像系列３２の画像単位で重み生成し、認識器５２へ出力する。重みづけ部は前述のように、画素単位で重みを出力してもよい。なお、図１２の破線５４は、認識器５２がＲＮＮの場合に、重みが認識器５２に入力されることを示している。

　認識器５２は、重みづけ部５１が出力する重みに基づいて対象物体画像系列３２の特徴量を抽出して異常判定を行い、異常度を出力する。学習部５３は、入力ラベル系列３３と、認識器５２が出力する異常度とに基づいて重みづけ部５１及び認識器５２の学習を行い、重みづけ部パラメータＰ３及び認識器パラメータＰ４を生成する。

　（学習処理）
　図１３は、ＮＮ５０の学習処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ４で撮影し、入力画像系列３１が生成される（ステップＳ４１）。次に、対象物体領域抽出部２１は、入力画像系列３１から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列３２を出力する（ステップＳ４２）。

　次に、重みづけ部５１は、前述の前段ＮＮにより、対象物体画像系列３２について画像単位（又は画素単位）で重みを出力する（ステップＳ４３）。次に、認識器５２は、前述の後段ＮＮにより推論を行う（ステップＳ４４）。なお、ＮＮ５０がＲＮＮである場合、認識器５２はステップＳ４３で出力された重みを用いて時系列特徴に重みづけする。

　次に、学習部５３は、認識器５２の推論結果と入力ラベルとを用いて重みづけ部５１及び認識器５２の学習を行い、重みづけ部パラメータＰ３及び認識器パラメータＰ４を得る（ステップＳ４５）。なお、ＮＮ５０がＣＮＮである場合、学習部５３は、ステップＳ４３で出力された重みを用いて損失に重みづけする。そして、学習処理は終了する。

　［検査時（推論時）］
　（検査時の構成）
　図１４は、検査装置２００の検査時の構成を示す。検査時において、検査装置２００は、重みづけ部５１と、認識器５２と、統合部２４とを備える。重みづけ部５１と認識器５２は、ＮＮ５０により構成される。なお、重みづけ部５１には学習処理で得られた重みづけ部パラメータＰ３が設定され、認識器５２には学習処理で得られた認識器パラメータが設定される。

　重みづけ部５１には、実際の検査対象物を撮影した画像から得られた対象物体画像系列３６が入力される。重みづけ部５１は、対象物体画像系列に基づいて画像単位（又は画素単位）で重みを生成し、認識器５２へ出力する。認識器５２は、対象物体画像系列３２と重みとを用いて異常判定を行い、判定結果として異常度を統合部２４へ出力する。統合部２４は、入力された異常度を統合し、最終判定結果を出力する。

　（検査処理）
　図１５は、検査装置２００による検査処理のフローチャートである。この処理は、図２に示すプロセッサ１２が予め用意されたプログラムを実行することにより実現される。まず、反転機構を通過する対象物体をカメラ４で撮影し、入力画像系列が生成される（ステップＳ５１）。この入力画像系列は、実際の検査対象物を撮影した画像である。次に、対象物体領域抽出部２１は、入力画像系列から背景差分等を用いて対象物体の画像領域を抽出し、追跡することで対象物体画像系列３６を出力する（ステップＳ５２）。

　次に、重みづけ部５１は、対象物体画像系列３６の画像単位（又は画素単位）で重みを出力する（ステップＳ５３）。次に、認識器５２は、対象物体画像系列３６の異常判定を行う（ステップＳ５４）。なお、ＮＮ５０がＲＮＮの場合、認識器５２はステップＳ５３で出力された重みで時系列特徴の重みづけを行う。次に、統合部２４は、認識器５２から出力された異常度を統合して最終判定を行う（ステップＳ５５）。そして、処理は終了する。

　以上のように、第２実施形態では、グループ識別部と認識器をＮＮで構成し、同時に一貫して学習する。具体的に、前段ＮＮでグループ識別器を構成し、後段ＮＮで認識器を構成する。よって、前段ＮＮによりグループ識別を行うとともに、後段ＮＮ内の異なるパラメータ集合を機能的に複数の認識モデルのように使用して異常判定を行うことができる。

　＜第３実施形態＞
　図１６は、第３実施形態に係る学習装置の機能構成を示すブロック図である。学習装置６０は、取得手段６１と、学習手段６２とを備える。

　図１７は、学習装置６０による処理のフローチャートである。まず、取得手段６１は、対象物を撮影した時系列の撮影画像を取得する（ステップＳ６１）。次に、学習手段６２は、画像中の特徴量に基づいて撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する複数の認識モデルと、を同時に学習する（ステップＳ６２）。

　＜第４実施形態＞
　図１８は、第４実施形態に係る検査装置の機能構成を示すブロック図である。検査装置７０は、取得手段７１と、グループ識別手段７２と、認識手段７３と、統合手段７４とを備える。

　図１９は、検査装置７０による処理のフローチャートである。まず、取得手段７１は、対象物を撮影した時系列の撮影画像を取得する（ステップＳ７１）。次に、グループ識別手段７２は、グループ識別モデルを用いて、画像中の特徴量に基づいて撮影画像から複数のグループを識別する（ステップＳ７２）。次に、認識手段７３は、複数の認識モデルを用いて、各グループに属する撮影画像を認識して対象物の異常を判定する（ステップＳ７３）。なお、グループ識別モデルと複数の認識モデルは同時に学習されたものである。そして、統合手段７４は、複数の認識モデルによる判定結果を統合して最終判定結果を出力する（ステップＳ７４）。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、
　を備える学習装置。

　（付記２）
　前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習を交互に繰り返し行う付記１に記載の学習装置。

　（付記３）
　前記学習手段は、前記認識モデルによる推論結果が不正解を含む場合に、前記複数を増加させる付記２に記載の学習装置。

　（付記４）
　前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習の繰り返し回数が所定回数に達するか、前記認識モデルの精度が所定の精度に達するか、前記認識モデルの精度の改善幅が所定の閾値以下になったかのいずれかの場合に、学習を終了する付記２又は３に記載の学習装置。

　（付記５）
　前記認識モデルは、前記撮影画像に含まれる前記対象物の異常を判定する付記１乃至４のいずれか一項に記載の学習装置。

　（付記６）
　前記学習手段は、前段ＮＮと後段ＮＮを含む１つのＮＮを学習し、
　前記グループ識別モデルは前段ＮＮにより構成され、前記複数の認識モデルは後段ＮＮにより構成されている付記１に記載の学習装置。

　（付記７）
　前記前段ＮＮは、前記グループの識別の結果を示す重みを前記後段ＮＮに出力し、
　前記後段ＮＮは、前記撮影画像と前記重みとに基づいて、前記撮影画像に含まれる前記対象物の異常度を出力する付記６に記載の学習装置。

　（付記８）
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習する学習方法。

　（付記９）
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　（付記１０）
　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
　を備え、
　前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである検査装置。

　（付記１１）
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する検査方法。

　（付記１２）
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　４　高速カメラ
　５　錠剤
　７　反転機構
　１２　プロセッサ
　２１　対象物体領域抽出部
　２２　グループ識別部
　２３　認識器
　２４　統合部
　４１　認識器学習部
　４２　グループ学習部
　５０　ニューラルネットワーク（ＮＮ）
　５１　重みづけ部
　５２　認識器
　５３　学習部
　１００、２００　検査装置

Claims

　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習手段と、
　を備える学習装置。
　前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習を交互に繰り返し行う請求項１に記載の学習装置。
　前記学習手段は、前記認識モデルによる推論結果が不正解を含む場合に、前記複数を増加させる請求項２に記載の学習装置。
　前記学習手段は、前記グループ識別モデルの学習と前記認識モデルの学習の繰り返し回数が所定回数に達するか、前記認識モデルの精度が所定の精度に達するか、前記認識モデルの精度の改善幅が所定の閾値以下になったかのいずれかの場合に、学習を終了する請求項２又は３に記載の学習装置。
　前記認識モデルは、前記撮影画像に含まれる前記対象物の異常を判定する請求項１乃至４のいずれか一項に記載の学習装置。
　前記学習手段は、前段ＮＮと後段ＮＮを含む１つのＮＮを学習し、
　前記グループ識別モデルは前段ＮＮにより構成され、前記複数の認識モデルは後段ＮＮにより構成されている請求項１に記載の学習装置。
　前記前段ＮＮは、前記グループの識別の結果を示す重みを前記後段ＮＮに出力し、
　前記後段ＮＮは、前記撮影画像と前記重みとに基づいて、前記撮影画像に含まれる前記対象物の異常度を出力する請求項６に記載の学習装置。
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する学習する学習方法。
　対象物を撮影した時系列の撮影画像を取得し、
　画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別モデルと、各グループに属する撮影画像を認識する前記複数の認識モデルと、を同時に学習する処理をコンピュータに実行させるプログラムを記録した記録媒体。
　対象物を撮影した時系列の撮影画像を取得する取得手段と、
　グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別するグループ識別手段と、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定する認識手段と、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する統合手段と、
　を備え、
　前記グループ識別モデルと前記複数の認識モデルは同時に学習されたものである検査装置。
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する検査方法。
　同時に学習されたグループ識別モデル及び複数の認識モデルを取得し、
　対象物を撮影した時系列の撮影画像を取得し、
　前記グループ識別モデルを用いて、画像中の特徴量に基づいて前記撮影画像から複数のグループを識別し、
　前記複数の認識モデルを用いて、各グループに属する撮影画像を認識して前記対象物の異常を判定し、
　前記複数の認識モデルによる判定結果を統合して最終判定結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。