WO2021166058A1

WO2021166058A1 - 画像認識装置、画像認識方法、及び、記録媒体

Info

Publication number: WO2021166058A1
Application number: PCT/JP2020/006180
Authority: WO
Inventors: 重哲並木; 尚司谷内田; 剛志柴田
Original assignee: 日本電気株式会社
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-08-26
Also published as: US20230053838A1; JPWO2021166058A1; JP7338779B2

Abstract

画像認識装置は、画像選択部と、認識部と、を備える。画像選択部は、対象物を撮影した時系列の撮影画像から、対象物の特徴箇所を示す特徴画像を選択する。特徴画像は、例えば対象物の異常個所を示す画像である。認識部は、特徴画像を用いて、対象物の認識処理を行う。認識処理により、対象物の異常が検出される。

Description

画像認識装置、画像認識方法、及び、記録媒体

　本発明は、画像に含まれる対象物の異常を認識する技術に関する。

　製品の画像を用いて異常検査を行う手法が提案されている。例えば、特許文献１は、移動中の成形シートをカメラで時間的に連続して撮影した画像を用いて、製品の欠陥を検査するシステムを記載している。

特開２０１１－９５１７１号公報

　特許文献１に記載の欠陥検査システムは、カメラにより得られた全ての画像に対して同じ処理を行っている。このため、欠陥が含まれない画像に対しても同じ負荷の処理を行うことになり、画像が多い場合には処理時間が増大するため、製造ラインなどにおけるリアルタイム処理には適さない。

　本発明の１つの目的は、対象物の撮影画像に基づく異常個所の認識を効率化することが可能な画像認識装置を提供することにある。

　本発明の一つの観点では、画像認識装置は、
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
　前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、を備える。

　本発明の他の観点では、画像認識方法は、
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う。

　本発明のさらに他の観点では、記録媒体は、
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、対象物の撮影画像に基づく異常個所の認識を効率化することが可能となる。

画像認識装置を用いた異常検出の様子を示す。時系列画像からの画像選択の概念を説明する図である。第１実施形態に係る画像認識装置のハードウェア構成を示す図である。第１実施形態に係る画像認識装置の機能構成を示す図である。画像選択器の構成を示す図である。画像選択器による処理の例を示す。本実施形態による画像認識処理のフローチャートである。画像選択の範囲を変化させる例を示す。第２実施形態に係る画像選択器の機能構成を示す。第２実施形態に係る画像選択器の実施例を示す。非冗長度合いベクトルの生成方法を模式的に示す。深層学習モデルを用いる画像認識装置の概略構成を示す。第３実施形態に係る画像認識装置の機能構成を示す。

　以下、図面を参照して、本発明の好適な実施形態について説明する。
　［基本原理］
　まず、本発明に係る画像認識装置１００の基本原理について説明する。図１は、画像認識装置１００を用いた異常検出の様子を示す。本実施形態では、異常検出の対象物を錠剤５とする。錠剤５は、矢印の方向に移動するコンベア２上に所定間隔で配置され、コンベア２の移動に伴って移動する。コンベア２の上方には照明３と高速カメラ４が配置される。図１の例では、２つのバー型照明３を用いているが、照明の形態はこれには限られない。対象物の形状や検出すべき異常の種類に応じて、様々な強度及び照明範囲の照明が複数設置される。特に錠剤５などの小さい対象物の場合、微小な異常の種類、度合い、位置などは様々であるため、複数の照明を用いて照明条件を様々に変えて撮影を行う。

　高速カメラ４は、照明下の錠剤５を高速撮影し、撮影画像を画像認識装置１００へ出力する。錠剤５を移動させつつ高速カメラ４で撮影すると、錠剤５に存在する微小な異常個所のＳ／Ｎ（Ｓｉｇｎａｌ　ｔｏ　Ｎｏｉｓｅ　Ｒａｔｉｏ）が高くなったタイミングを逃さず撮影することができる。具体的に、錠剤５に生じる異常としては、髪の毛の付着、微細な欠けなどがある。髪の毛は、その表面の光沢による照明光の鏡面反射成分に基づいて検出できるので、高速カメラ４の光軸に沿った照明光を用いるのが有効である。一方、錠剤５の微細な欠けは、その部分のエッジ周りの明暗に基づいて検出できるので、高速カメラ４の光軸と直交する方向からの照明光を用いるのが有効である。

　上記のように、高速カメラ４で対象物である錠剤５を撮影すると膨大な時系列の撮影画像（以下、「時系列画像」とも呼ぶ。）が得られるが、その後に微小な異常を検出するための処理時間も増えてしまい、異常検出のリアルタイム処理が難しくなる。高速カメラ４で得られる膨大な時系列画像の中で、微小な異常は照明条件がフィットしたタイミングで、一時的に急峻な画像の統計量の変化として現れることが分かっており、その傾向が無いタイミングの画像は冗長であり、不要と考えられる。そこで、本実施形態では、高速カメラ４で得られる時系列画像から微小な異常を含む画像、即ち、一時的な画像の統計量の変化を有する画像を選択し、冗長な画像を破棄する画像選択を行う。

　図２は、時系列画像からの画像選択の概念を説明する図である。移動するコンベア２上の錠剤５を高速カメラ４で撮影することにより、一連の時系列画像が得られる。画像認識装置１００は、この時系列画像のうち、微小な異常を含む画像を選択し、選択された画像の認識を行って異常を検出する。選択されなかった画像は破棄され、その後段における認識処理の対象から除外される。これにより、認識処理の負荷を低減でき、全体の処理速度を上げることができる。

　なお、上記のように対象物が錠剤などの板状の物体である場合、振動などにより対象物を反転させる機構をコンベア２に設ければ、反転の前後の撮影画像を１台のカメラで撮影し、対象物の両面の検査を行うことができる。同様に、対象物が立体の場合でも、コンベア２に対象物を回転させる機構を設ければ、対象物の複数の面を撮影し、異常の判定を行うことができる。

　［第１実施形態］
　（ハードウェア構成）
　図３は、第１実施形態に係る画像認識装置のハードウェア構成を示すブロック図である。図示のように、画像認識装置１００は、インタフェース（Ｉ／Ｆ）１２と、プロセッサ１３と、メモリ１４と、記録媒体１５と、データベース（ＤＢ）１６と、入力部１７と、表示部１８と、を備える。

　インタフェース１２は、外部装置との間でデータの入出力を行う。具体的に、画像認識装置１００による処理の対象となる時系列画像は、インタフェース１２を通じて入力される。また、画像認識装置１００により生成された異常の検出結果などは、インタフェース１２を通じて外部の装置へ出力される。

　プロセッサ１３は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＣＰＵとＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、画像認識装置１００の全体を制御する。具体的に、プロセッサ１３は、後述する画像認識処理を実行する。

　メモリ１４は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１４は、プロセッサ１３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、画像認識装置１００に対して着脱可能に構成される。記録媒体１５は、プロセッサ１３が実行する各種のプログラムを記録している。画像認識装置１００が各種の処理を実行する際には、記録媒体１５に記録されているプログラムがメモリ１４にロードされ、プロセッサ１３により実行される。

　データベース１６は、画像認識の対象となる撮影画像を記憶する。入力部１７は、ユーザが指示や入力を行うためのキーボード、マウスなどにより構成される。表示部１８は、例えば液晶ディスプレイなどにより構成され、対象物の認識結果などを表示する。

　（機能構成）
　図４は、第１実施形態に係る画像認識装置１００の機能構成を示すブロック図である。画像認識装置１００は、物体領域抽出部２０と、画像選択器３０と、認識器４０と、を備える。物体領域抽出部２０は、高速カメラ４から物体の時系列画像を受け取り、各撮影画像から対象物を含む領域である物体領域を抽出する。具体的に、物体領域抽出部２０は、背景差分法などにより、撮影画像中の対象物の物体領域を抽出する。本実施形態では、対象物は錠剤５であるので、物体領域は撮影画像中の錠剤５の領域であり、具体的には図２に示すような錠剤５を含む矩形の領域となる。物体領域抽出部２０は、抽出した物体領域の時系列画像を画像選択器３０に出力する。

　画像選択器３０は、入力された物体領域の時系列画像から、対象物の微小で低頻度な異常の特徴（以下、「微小・低頻度特徴」と呼ぶ。）の箇所を示す画像（以下、「特徴画像」と呼ぶ。）を選択する。本実施形態では、対象物である錠剤５に存在する髪の毛、欠けなどが対象物の異常に相当する。画像選択器３０は、入力された時系列画像から、微小・低頻度特徴を含む特徴画像を選択して認識器４０に出力し、特徴画像以外の画像、即ち、微小・低頻度特徴を含まない画像を破棄する。前述のように、対象物の微小・低頻度特徴は、撮影画像における一時的に急峻な画像の統計量の変化として現れるので、画像選択器３０は、入力された時系列画像から、画像の統計量が一時的に急峻な変化を示す一連の撮影画像を特徴画像として選択する。

　図５は、画像選択器３０の構成を示すブロック図である。画像選択器３０は、セル分割部３１と、セル別変化検出部３２と、選択部３３とを備える。図６は、画像選択器３０による処理の例を示す。物体領域抽出部２０から出力された時系列画像は、セル分割部３１及び選択部３３へ入力される。セル分割部３１は、各撮影画像を複数のセルＣに分割する。図６の例では、セル分割部３１は、各撮影画像を所定サイズ（４×４）の１６個のセルＣに分割している。分割されたセルＣの画像はセル別変化検出部３２に入力される。

　セル別変化検出部３２は、セル毎に画像の統計量を算出する。図６の例では、セル別変化検出部３２は、画像の統計量として明度値を使用している。セル別変化検出部３２は、算出されたセル毎の統計量の時間変化を求める。具体的には、セル別変化検出部３２は、セル毎に各時刻における統計量を求め、その時間変化を示す時間変化データを選択部３３に出力する。図６では、説明の便宜上、１つのセルＣｘの明度値の時間変化の例をグラフに示している。

　選択部３３は、セル毎の統計量の時間変化に基づき、統計量が所定量以上変化しているときの撮影画像を特徴画像として選択する。図６の例では、破線の領域で示すように、選択部３３は、統計量の変化が開始した時刻ｔ_１０の撮影画像Ｘ（ｔ_１０）と、その変化が終了した時刻ｔ_２０の撮影画像Ｘ（ｔ_２０）とを検出し、それらを含む一連の撮影画像Ｘ（ｔ_１０）～Ｘ（ｔ_２０）を特徴画像として選択する。詳しくは、選択部３３は、セル別変化検出部３２から入力された時間変化データに基づいて撮影画像Ｘ（ｔ_１０）～Ｘ（ｔ_２０）を特定し、物体領域抽出部２０から入力される時系列画像から撮影画像Ｘ（ｔ_１０）～Ｘ（ｔ_２０）を選択して、特徴画像として認識器４０へ出力する。このように画像の統計量の変化を検出することにより、時系列の撮影画像のうち、対象物の異常を示す一連の撮影画像のみを選択することができる。

　なお、図６の例では、分割により得られた複数のセルＣのうちの１つのみにおいて統計量の変化が生じているが、１つの対象物の複数の箇所に異常がある場合には、複数のセルＣに同時に統計量の変化が生じる。よって、選択部３３は、複数のセルＣのうち１つでも統計量の変化が生じている場合には、その撮影画像を含む一連の撮影画像を特徴画像として選択する。言い換えると、選択部３３は、いずれのセルＣにおいても統計量の変化が生じていない撮影画像のみを破棄する。

　認識器４０は、画像選択器３０が選択した特徴画像を用いて画像認識処理を行い、認識結果を出力する。具体的には、認識器４０は、ニューラルネットワークなどにより構成され、予め学習済みの認識モデルを用いて、対象物のクラス分類又は異常検知を行い、その結果を認識結果として出力する。

　（画像認識処理）
　図７は、本実施形態による画像認識処理のフローチャートである。この処理は、図３に示すプロセッサ１３が予め用意されたプログラムを実行し、図４及び図５に示す各要素として動作することにより実現される。

　まず、図１に示すように、移動中の対象物を高速カメラ４で撮影し、時系列画像が生成される（ステップＳ１１）。次に、物体領域抽出部２０は、背景差分法などにより、各撮影画像から対象物の物体領域を抽出する（ステップＳ１２）。次に、画像選択器３０は、物体領域の時系列画像から、前述の方法により、微小・低頻度特徴を有する特徴画像を選択する（ステップＳ１３）。認識器４０は、特徴画像を用いて、対象物のクラス分類又は異常検知を行い、認識結果として出力する（ステップＳ１４）。そして、画像認識処理は終了する。

　（変形例）
　上記の実施形態では、セル分割部３１は、物体領域の撮影画像を所定サイズのセルＣに分割しているが、セルの分割方法はこれには限られない。例えば、撮影画像を諧調値や色特徴に基づいてグルーピングして作成したスーパーピクセルをセルＣとして使用してもよい。また、別の例では、撮影画像の各画素をセルＣとして用いてもよい。

　上記の実施形態では、図８（Ａ）のグラフ（図６と同じ）に示すように、画像選択器３０は、画像の統計量の変化が開始した時刻ｔ_１０から、その変化が終了した時刻ｔ_２０までを含む一連の撮影画像を特徴画像として選択している。しかし、画像選択器３０は、特徴画像として選択する一連の撮影画像の量を固定せず、後段の認識器４０の処理負荷に応じて変化させてもよい。例えば、認識器４０の処理負荷が軽いとき、即ち、認識器４０の処理に余裕があるときには、画像選択器３０は、図８（Ａ）に示すように画像の統計量の変化の開始時刻と終了時刻を含む一連の撮影画像を特徴画像として選択する。一方、認識器４０の処理負荷が重いとき、即ち、認識器４０の処理に余裕がないときには、画像選択器３０は、図８（Ｂ）に示すように選択する撮影画像の範囲を狭めてもよい。図８（Ｂ）の例では、画像選択器３０は、統計量の増加が完了した時刻ｔ_１３から、統計量の減少が始まった時刻ｔ_１７までの一連の撮影画像を特徴画像として選択している。このように、認識器４０の処理負荷に応じて、選択する特徴画像の量を調整することにより、リアルタイムの認識処理を安定的に行うことが可能となる。

　［第２実施形態］
　（機能構成）
　次に、第２実施形態について説明する。第２実施形態では、画像選択器３０を深層学習モデルを適用したニューラルネットワークにより構成する。第２実施形態に係る画像認識装置１００のハードウェア構成は図１と同様であり、機能構成は図４と同様である。

　図９（Ａ）は、第２実施形態に係る画像選択器３０の学習時の構成を示す。画像選択器３０は、学習時においては、ニューラルネットワーク３５と、最適化部３７とを備え、ニューラルネットワーク３５に適用される深層学習モデルの教師あり学習を行う。ニューラルネットワーク３５には、学習データとして、物体領域抽出部２０により抽出された物体領域の時系列画像が入力される。ニューラルネットワーク３５には、時系列画像から特徴画像を選択する深層学習モデルが適用される。ニューラルネットワーク３５は、入力された時系列画像から、非冗長な画像を特徴画像として選択し、その撮影画像を示す画像インデックス（例えば画像ＩＤや画像の撮影時刻など）を最適化部３７へ出力する。ここで、非冗長な撮影画像とは、時間的に隣接する撮影画像との間の特徴量の差が大きい画像を意味し、対象物の微小・低頻度特徴を示す特徴画像に相当する。

　学習時には、ニューラルネットワーク３５に入力される時系列画像に対して予め正解付けをした教師ラベルが用意され、最適化部３７に入力される。教師ラベルは、時系列画像の各々が非冗長な画像であるか否かを示す。最適化部３７は、ニューラルネットワーク３５が出力した画像インデックスと、教師ラベルとの間の損失を計算し、損失が小さくなるようにニューラルネットワーク３５のパラメータを最適化する。

　図９（Ｂ）は、第２実施形態に係る画像選択器３０の推論時の構成を示す。推論時には、画像選択器３０は、上記の方法で学習済みの深層学習モデルを適用したニューラルネットワーク３５と、選択部３６とを備える。物体領域抽出部２０から出力された時系列画像がニューラルネットワーク３５及び選択部３６に入力される。ニューラルネットワーク３５は、学習済みの深層学習モデルを用いて、時系列画像から非冗長な撮影画像を検出し、その画像インデックスを選択部３６に出力する。選択部３６は、物体領域抽出部２０から入力された時系列画像から、ニューラルネットワーク３５が出力した画像インデックスに対応する撮影画像のみを選択し、特徴画像として認識器４０へ出力する。こうして、学習済みの深層学習モデルを用いて、時系列画像から非冗長な撮影画像が選択され、特徴画像として認識器４０へ出力される。認識器４０は、選択された特徴画像のみについて画像認識を行うので、認識処理の高速化が可能となる。

　なお、上記の例では、深層学習モデルの学習時に、学習用データとしての撮影画像の単位で教師ラベルを付与しているが、その代わりに、第１実施形態のように撮影画像を複数のセルに分割し、セルの単位で教師ラベルを付与してもよい。その場合、ニューラルネットワーク３５は、入力された撮影画像をまず複数のセルに分割し、セル毎に非冗長性を求めて最適化部３７へ出力する。最適化部３７は、セル毎に求められた非冗長性と、セル毎に用意された教師ラベルとの損失を求めてニューラルネットワーク３５を最適化すればよい。なお、この場合においても、第１実施形態と同様に、所定サイズのセルやスーパーピクセルなどをセルとして使用してもよい。

　（画像選択部の実施例）
　図１０（Ａ）は、深層学習モデルを用いて画像選択器３０を構成した場合の実施例を示す。この実施例では、画像選択器３０は、時系列画像を時間軸方向に連結し、畳み込み演算によりセル毎の評価値を算出して特徴画像を選択する。図示のように、画像選択器３０は、深層学習モデルが適用されたニューラルネットワーク３５と、畳み込み演算部３８とを備える。時系列画像は、ニューラルネットワーク３５及び畳み込み演算部３８に入力される。ニューラルネットワーク３５は、入力された時系列画像から特徴量を抽出し、非冗長度合いベクトルを生成して畳み込み演算部３８に出力する。畳み込み演算部３８は、時系列画像と非冗長度ベクトルとの時間軸方向の積を演算する。

　図１１は、非冗長度合いベクトルの生成方法を模式的に示す。非冗長度合いベクトルは、入力された時系列画像の長さのベクトルである。なお、この長さは、例えば１つの対象物が表れてから消えるまでの時系列画像の長さとする。ニューラルネットワーク３５は、入力された時系列画像に、その時系列の長さの畳み込みフィルタを適用し、その出力にＲｅＬＵ（Ｒｅｃｔｉｆｉｅｄ　Ｌｉｎｅａｒ　Ｕｎｉｔ）などの活性化関数を適用する。この畳み込みフィルタ処理と活性化処理は、計算負荷が低く留まる範囲で繰り返してもよい。これにより、撮影画像の統計量、即ち非冗長度合いが得られる。次に、ニューラルネットワーク３５は、得られた統計量を活性化関数（シグモイド関数）で「０」～「１」の範囲に正規化し、プーリングして時系列の長さの非冗長度合いベクトルを生成する。非冗長度合いベクトルは、各要素が、対応する時刻における撮影画像の非冗長度合いを表す。

　図１０（Ａ）に戻り、畳み込み演算部３８が時系列の撮影画像に非冗長度合いベクトルを畳み込み演算することにより、時系列画像が非冗長度合いベクトルで重み付けされ、特徴画像として出力される。学習時には、この重み付けされた時系列画像と、教師ラベルとを用いて、深層学習モデルが最適化される。なお、画像選択処理は微分不可能な処理であるが、学習時は非冗長度合いベクトルの重み付けのみにすることで微分可能な処理となり、後段の認識器４０と併せて同時に学習可能となるので、エンドツーエンドの処理が可能となる。

　一方、推論時には、図１０（Ｂ）に示すように、ニューラルネットワーク３５から出力された非冗長度合いベクトルに、閾値処理部３９による閾値処理が適用される。閾値処理部３９は、非冗長度合いベクトルの要素のうち、非冗長度合いが上位Ｎ個に属する要素をそのまま保持し、それ以下の要素の値を「０」とする。ここで「Ｎ」は、任意の数であり、画像選択器３０により選択される画像の枚数を示す規定値である。畳み込み演算部３８は、時系列画像と、閾値処理後の非冗長度合いベクトルとの畳み込みを行う。これにより、入力された時系列画像のうち、非冗長度合いが上位Ｎ個に属するの撮影画像が特徴画像として選択される。即ち、後段の認識器４０に渡す撮影画像数がＮ枚までに削減される。なお、「Ｎ」の値は、後段の認識器４０による処理精度と処理速度とのトレードオフの観点で調整可能である。

　なお、画像選択器３０に深層学習モデルを用いる場合、処理負荷の大きいモデルを用いると、画像選択により後段の認識器４０の処理負荷を軽減させる意味がなくなってしまう。そこで、深層学習モデルとしては、画像選択により認識器４０において削減される分の処理負荷よりも小さい処理負荷のモデルを用いる。これにより、画像選択の効果が得られ、安定したリアルタイム処理が可能となる。

　画像選択器３０に深層学習モデルを用いる場合、後段の認識器４０とともに１つのニューラルネットワークで構成することにより、エンドツーエンドな学習が可能となる。つまり、システム構築時に、対象物のデータ特性に合わせて画像選択モデルを複数検討し、別々に学習し、認識器との組み合わせを評価する、といった繰り返し作業の手間が削減される。

　（画像認識装置の実施例）
　次に、深層学習モデルを用いる場合の画像認識装置の実施例を説明する。図１２（Ａ）は、深層学習モデル用いる場合の画像認識装置１００ａの概略構成を示す。この実施例では、認識器４０ａを、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）とＲＮＮ（Ｒｅｃｃｕｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を組み合わせたニューラルネットワークにより構成する。１枚の画像から異常を検知する通常の認識器は計算量が多く、時系列画像に基づく高速な検査には不向きである。この点、本例のように認識器４０に軽量のＣＮＮと回帰（Ｒｅｃｕｒｒｅｎｔ）構造を組み合わせることにより、時系列画像を高速に認識することが可能となる。

　また、本実施例では、画像選択器３０ａにおいてアテンション（Ａｔｔｅｎｔｉｏｎ）マップ系列を生成し、後段の認識器４０ａに入力する。アテンションマップは、画像選択器３０ａにおいて画像選択の判断根拠となったセルのアテンションを示す。画像選択器３０ａでは、時系列画像を用いて時間軸方向におけるセル毎の微小・低頻度特徴を求めてアテンションマップを生成する。アテンションマップ系列を認識器４０ａに入力することにより、認識器４０ａでの微小・低頻度特徴の識別精度の向上が期待できる。

　図１２（Ｂ）は、深層学習モデル用いる場合の別の画像認識装置１００ｂの概略構成を示す。この例でも、画像選択器３０ｂは、特徴画像に加えてアテンションマップ系列を認識器４０ｂに入力する。認識器４０ｂでは、アテンションマップ系列を時間軸方向に連結（ｃｏｎｃａｔ）したベクトルを生成し、これと特徴画像を用いてＣＮＮにより認識を行う。

　［第３実施形態］
　次に、本発明の第３実施形態について説明する。図１３は、第３実施形態に係る画像認識装置の機能構成を示す。画像認識装置７０は、画像選択部７１と、認識部７２と、を備える。画像選択部７１は、対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する。認識部７２は、特徴画像を用いて対象物の認識処理を行う。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
　前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、
　を備える画像認識装置。

　（付記２）
　前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の統計量の変化に基づいて、前記時系列の撮影画像から前記特徴画像を選択する付記１に記載の画像認識装置。

　（付記３）
　前記画像選択部は、前記セル毎の統計量の変化が開始した撮影画像から、前記変化が終了した撮影画像までの連続する撮影画像を前記特徴画像として選択する付記２に記載の画像認識装置。

　（付記４）
　前記セルは、前記撮影画像を分割した所定サイズのセル、スーパーピクセル、及び、前記撮影画像を構成するピクセルのいずれかである付記２又は３に記載の画像認識装置。

　（付記５）
　前記画像選択部は、ニューラルネットワークにより構成され、前記時系列の撮影画像から前記特徴画像を選択するように学習された学習済みモデルを用いて、前記特徴画像を選択する付記１に記載の画像認識装置。

　（付記６）
　前記画像選択部は、前記時系列の撮影画像から特徴量を抽出し、前記特徴量に基づいて前記時系列の撮影画像間の非冗長度合いを示すベクトルを生成し、前記ベクトルを用いて前記時系列の撮影画像から前記特徴画像を選択する付記５に記載の画像認識装置。

　（付記７）
　前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の非冗長度合いに基づいて、前記時系列の撮影画像から前記特徴画像を選択する付記６に記載の画像認識装置。

　（付記８）
　前記画像選択部は、前記特徴画像を選択する根拠となったセルのアテンション情報を前記認識部に出力し、
　前記認識部は、前記アテンション情報を用いて、前記対象物の前記特徴箇所を認識する付記７に記載の画像認識装置。

　（付記９）
　前記画像選択部と前記認識部は、１つのニューラルネットワークにより構成される付記５乃至８のいずれか一項に記載の画像認識装置。

　（付記１０）
　前記特徴箇所は前記対象物に存在する異常を示す箇所であり、
　前記認識部は、前記対象物の異常に関するクラス分類、又は、前記対象物に存在する異常検知を行う付記１乃至９のいずれか一項に記載の画像認識装置。

　（付記１１）
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う画像認識方法。

　（付記１２）
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　４　高速カメラ
　５　錠剤
　２０　物体領域抽出部
　３０　画像選択器
　３１　セル分割部
　３２　セル別変化検出部
　３３　選択部
　３５　ニューラルネットワーク
　３７　最適化部
　３８　畳み込み演算部
　３９　閾値処理部
　４０　認識器
　１００　画像認識装置

Claims

　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択する画像選択部と、
　前記特徴画像を用いて、前記対象物の認識処理を行う認識部と、
　を備える画像認識装置。
　前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の統計量の変化に基づいて、前記時系列の撮影画像から前記特徴画像を選択する請求項１に記載の画像認識装置。
　前記画像選択部は、前記セル毎の統計量の変化が開始した撮影画像から、前記変化が終了した撮影画像までの連続する撮影画像を前記特徴画像として選択する請求項２に記載の画像認識装置。
　前記セルは、前記撮影画像を分割した所定サイズのセル、スーパーピクセル、及び、前記撮影画像を構成するピクセルのいずれかである請求項２又は３に記載の画像認識装置。
　前記画像選択部は、ニューラルネットワークにより構成され、前記時系列の撮影画像から前記特徴画像を選択するように学習された学習済みモデルを用いて、前記特徴画像を選択する請求項１に記載の画像認識装置。
　前記画像選択部は、前記時系列の撮影画像から特徴量を抽出し、前記特徴量に基づいて前記時系列の撮影画像間の非冗長度合いを示すベクトルを生成し、前記ベクトルを用いて前記時系列の撮影画像から前記特徴画像を選択する請求項５に記載の画像認識装置。
　前記画像選択部は、前記撮影画像の各々を複数のセルに分割し、前記撮影画像の前記セル毎の非冗長度合いに基づいて、前記時系列の撮影画像から前記特徴画像を選択する請求項６に記載の画像認識装置。
　前記画像選択部は、前記特徴画像を選択する根拠となったセルのアテンション情報を前記認識部に出力し、
　前記認識部は、前記アテンション情報を用いて、前記対象物の前記特徴箇所を認識する請求項７に記載の画像認識装置。
　前記画像選択部と前記認識部は、１つのニューラルネットワークにより構成される請求項５乃至８のいずれか一項に記載の画像認識装置。
　前記特徴箇所は前記対象物に存在する異常を示す箇所であり、
　前記認識部は、前記対象物の異常に関するクラス分類、又は、前記対象物に存在する異常検知を行う請求項１乃至９のいずれか一項に記載の画像認識装置。
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う画像認識方法。
　対象物を撮影した時系列の撮影画像から、前記対象物の特徴箇所を示す特徴画像を選択し、
　前記特徴画像を用いて、前記対象物の認識処理を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。