WO2017109854A1

WO2017109854A1 - 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム

Info

Publication number: WO2017109854A1
Application number: PCT/JP2015/085821
Authority: WO
Inventors: 成剛温
Original assignee: オリンパス株式会社
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2017-06-29
Also published as: US20180300885A1; JP6639523B2; JPWO2017109854A1; US10679358B2

Abstract

本発明にかかる学習画像自動選別装置は、複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、注目画像における被写体の動き量を検出する動き検出手段と、動き量に基づいて、注目画像を学習候補画像として選択するか否かを判断する判断部と、判断部により学習候補画像として選択された注目画像および学習画像の少なくとも一方を用いて、一つまたは複数の派生画像を生成する派生画像生成部と、学習候補画像と学習画像との類似度、および、一つもしくは複数の派生画像と学習画像との類似度、または一つもしくは複数の派生画像と学習候補画像との類似度を算出する類似度算出部と、類似度算出部により算出された類似度と、統計的に決まる条件とに基づいて、学習候補画像として選択されている注目画像を新たな学習画像として選別する選別部と、学習画像を記憶する記憶部と、を備えた。

Description

学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム

　本発明は、画像をもとに学習画像として記憶する画像を選別する学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラムに関する。

　近年、内視鏡診断の分野において、臓器分類、病変検出、過去の消化器手術状況の確認などに利用できる画像認識技術が知られている。画像認識技術は、例えば、学習画像として過去の内視鏡画像である管腔内画像から抽出された様々なバリエーションの粘膜領域や異常領域の画像を用いて特徴量抽出処理によって特徴量ベクトルを算出し、クラスタリング処理によって、局所的に存在する複数の局所特徴量に対し、各局所特徴量に最も類似した代表的な特徴量（visual　word)を選出して、未知の画像を識別するための学習識別器を構築する。構築した学習識別器に基づいて、今回撮像された画像に対して画像認識を実施する。

　学習識別器を構築するための学習画像は、診断目的に合わせて、想定されるシーンの画像を満遍なく含んでいることが、認識精度を高める点で重要である。過去の内視鏡画像に対して、人が目視で選別することも可能ではあるが、数千枚、数万枚の画像から学習画像を選別するのには膨大な時間を要する。この問題を解決するために、撮像された画像に対し、代表物体を抽出して、該抽出後の画像を学習画像として記憶する学習画像生成技術が知られている（例えば、特許文献１を参照）。また、時系列で前後する画像を用いて、被写体（代表物体）の動きを判断して、動きがあると判断された画像を選別する技術も知られている（例えば、特許文献２を参照）。

特開２０１１－１４５７９１号公報特開２００３－２９８９２７号公報

　しかしながら、特許文献１，２が開示する技術を用いて学習画像を選別して記憶させる場合、幾何変形、濃淡変化、ノイズレベルなどの違いが原因で類似する画像を重複に選んでしまい、記憶される学習画像の枚数が膨大な数となってしまい、管理上で問題が発生するおそれがあった。

　本発明は、上記に鑑みてなされたものであって、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除することができる学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習画像自動選別装置は、時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置であって、前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出する動き検出手段と、前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断する判断部と、前記判断部により前記学習候補画像として選択された前記注目画像および前記学習画像の少なくとも一方を用いて、一つまたは複数の派生画像を生成する派生画像生成部と、前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出する類似度算出部と、前記類似度算出部により算出された類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別する選別部と、前記学習画像を記憶する記憶部と、を備えたことを特徴とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習画像自動選別方法は、時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置が行う学習画像自動選別方法であって、前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出し、前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断し、前記学習候補画像として選択された前記注目画像、または前記学習画像を用いて、一つまたは複数の派生画像を生成し、前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出し、前記類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別し、選別された前記学習候補画像として選ばれた前記注目画像を前記学習画像として記憶することを特徴とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習画像自動選別プログラムは、時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置が行う学習画像自動選別プログラムであって、前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出する検出手順と、前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断する判断手順と、前記学習候補画像として選択された前記注目画像、または前記学習画像を用いて、一つまたは複数の派生画像を生成する派生画像生成手順と、前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出する類似度算出手順と、前記類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別する選別手順と、選別された前記学習候補画像として選ばれた前記注目画像を前記学習画像として記憶する記憶手順と、をコンピュータに実行させることを特徴とする。

　本発明によれば、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除して、効率的に学習画像を選別することができるという効果を奏する。

図１は、本発明の実施の形態１に係る学習画像自動選別装置の機能構成を示すブロック図である。図２は、本発明の実施の形態１に係る学習画像自動選別装置の派生画像生成部が生成する派生画像を説明する図である。図３は、本発明の実施の形態１に係る学習画像自動選別装置が行う処理を示すフローチャートである。図４は、本発明の実施の形態１の変形例１に係る学習画像自動選別装置の動き検出部の構成を示すブロック図である。図５は、本発明の実施の形態１の変形例１に係る学習画像自動選別装置の動き検出部が行う動き検出を説明する図である。図６は、本発明の実施の形態１の変形例２に係る学習画像自動選別装置の機能構成を示すブロック図である。図７は、本発明の実施の形態２に係る学習画像自動選別装置の機能構成を示すブロック図である。図８は、本発明の実施の形態３に係る学習画像自動選別装置の機能構成を示すブロック図である。

　以下、本発明を実施するための形態を図面とともに詳細に説明する。なお、以下の実施の形態により本発明が限定されるものではない。また、以下の説明において参照する各図は、本発明の内容を理解でき得る程度に形状、大きさ、および位置関係を概略的に示してあるに過ぎない。即ち、本発明は、各図で例示された形状、大きさ、および位置関係のみに限定されるものではない。また、同一の構成には同一の符号を付して説明する。

（実施の形態１）
　図１は、本発明の実施の形態１に係る学習画像自動選別装置１の機能構成を示すブロック図である。図１に示す学習画像自動選別装置１は、画像取得部１１と、動き検出部１２と、学習候補画像決定部１３（判断部）と、派生画像生成部１４と、類似度算出部１５と、判定部１６（選別部）と、制御部１７と、記憶部１８と、を備える。記憶部１８は、画像取得部１１が取得した被写体画像を記憶する被写体画像記憶部１８１と、画像認識を行う際に用いる画像であって過去の画像から抽出された様々なバリエーションの画像である学習画像を記憶する学習画像記憶部１８２とを有する。

　画像取得部１１は、画像信号を外部から受信する、または記憶部１８に記憶されている画像を取得する。画像取得部１１は、必要に応じてノイズ除去やＡ／Ｄ変換、同時化処理（例えば、カラーフィルタ等を用いて色成分ごとの撮像信号が得られた場合に行う）などの信号処理を施すことにより、例えばＲＧＢの色成分が付与された３板の被写体画像を含む画像信号を生成する。画像取得部１１は、取得した画像信号、または信号処理後の画像信号を、注目画像を含む画像信号として動き検出部１２に入力する。また、画像取得部１１は、外部から画像信号を取得した場合、動き検出部１２および記憶部１８に入力する。画像取得部１１は、上述した同時化処理などのほか、ＯＢクランプ処理や、ゲイン調整処理などを行ってもよい。画像としては、人などの被写体を含む画像や、内視鏡（カプセル型内視鏡を含む）により取得された被検体内の体腔画像など、時系列に取得（撮像）され、被写体を含む被写体画像が挙げられる。

　動き検出部１２は、画像取得部１１から入力された画像信号に基づく画像（注目画像）を用いて、該画像の動きを検出する。換言すれば、動き検出部１２は、撮像タイミングが異なる（時系列の）動き検出画像間の画像の動きを検出する。動き検出部１２は、類似度算出部１２１と、動き判断部１２２とを有する。

　類似度算出部１２１は、画像取得部１１から、例えばＲＧＢ３板の被写体画像のうちのＧ成分の画像と、被写体画像記憶部１８１に記憶されている被写体画像であって、画像取得部１１から入力された被写体画像の撮影時間よりも時系列的に過去のＲＧＢ３板の被写体画像のうちのＧ成分の画像とを用いて、公知の差分絶対値和（Sum　of　Absolute　Difference：ＳＡＤ）を算出する。ここで、ＳＡＤが０に向かうほど、２枚の被写体画像の類似度が高い。類似度算出部１２１は、このＳＡＤのほか、差の二乗和（Sum　of　Squared　Difference：ＳＳＤ）を求めて類似度としてもよいし、正規化相関（Normalized　Cross-Correction：ＮＣＣ）を求めて類似度としてもよい。

　動き判断部１２２は、記憶部１８に記憶されている動き判断用のＳＡＤ閾値を読み出して、このＳＡＤ閾値と、類似度算出部１２１が算出したＳＡＤ値とを比較する。動き判断部１２２は、ＳＡＤ値がＳＡＤ閾値以上である場合、撮像装置または被写体の物理的な動きがあると判断する。これに対して、ＳＡＤ値がＳＡＤ閾値より小さい場合、撮像装置または被写体の物理的な動きがないと判断する。動き判断部１２２は、判断結果を学習候補画像決定部１３に入力する。

　学習候補画像決定部１３は、入力された画像信号が、動き検出部１２により動きありと判断されている場合、対応する被写体画像を学習候補画像として決定する。学習候補画像決定部１３は、学習候補画像に関する決定情報とともに被写体画像に応じた画像信号を派生画像生成部１４に入力する。これに対し、学習候補画像決定部１３は、入力された画像信号が、動き検出部１２により動きなしと判断されている場合、対応する被写体画像を学習候補画像から除外し、次の画像信号の入力まで待機する。

　派生画像生成部１４は、学習候補画像決定部１３から入力された学習候補画像である画像信号の被写体画像を用いて、一つまたは複数の派生画像を生成する。本実施の形態１では、派生画像生成部１４は、学習候補画像決定部１３から入力された学習候補画像（被写体画像）に対して、公知の幾何学変換（拡大、縮小、平行移動、回転、左右反転、アフィン変換、射影変換などを含む）、濃淡変換（ガンマ変換、トーンカーブ変換、ヒストグラム平坦化、ゲインによる明暗調整）、ノイズ増減、エッジ強調、色変換（彩度、色相、明度）、切り出し処理などを含む画像処理のうちの少なくとも一つを行うことで、派生画像を生成する。派生画像生成部１４は、生成した派生画像を類似度算出部１５に入力する。

　図２は、本発明の実施の形態１に係る学習画像自動選別装置１の派生画像生成部１４が生成する派生画像を説明する図である。図２では、一例として、派生画像生成部１４が、学習候補画像Ｗ₁に対して、被写体Ｓを拡大した派生画像Ｗ₁₁、被写体Ｓを９０°回転した派生画像Ｗ₁₂、被写体画像Ｗ₁の明度を小さくした派生画像Ｗ₁₃を示している。このようにして、派生画像生成部１４は、学習候補画像をベースに画像処理を施して、学習候補画像とは大きさや、明るさ、コントラストなどが異なる派生画像を生成する。

　また、派生画像生成部１４は、学習候補画像の拡大、縮小、回転、平行移動などを、アフィン変換を用いて行ってもよい。アフィン変換では、変換前の座標を（ｘ，ｙ）、変換後の座標を（ｘ’，ｙ’）としたとき、下式（１）で表すことができる。式（１）より、下記式（２）のような３×３の行列が得られ、この行列を使って、変換前の座標を変換後の座標に変換する。

ここで、式（１）のａ～ｄからなる２×２行列が線形変換を行い、ｅ，ｆからなる部分が平行移動の変換を行う。

　類似度算出部１５は、学習候補画像決定部１３が決定した学習候補画像、およびこの学習候補画像をもとに派生画像生成部１４が生成した派生画像と、学習画像記憶部１８２に記憶されている学習画像との類似度をそれぞれ算出する。類似度の算出方法については、上述した類似度算出部１２１が行う類似度の算出方法と同様である。類似度算出部１５は、学習候補画像と学習画像との類似度、派生画像と学習画像との類似度をそれぞれ算出し、算出した結果を判定部１６に入力する。

　判定部１６は、類似度算出部１５から入力された算出結果に基づき、学習候補画像を学習画像として学習画像記憶部１８２に記憶させるか否かを判定する。具体的に、判定部１６は、学習候補画像と学習画像との類似度、派生画像と学習画像との類似度のそれぞれについて、判定用の閾値と比較し、すべての類似度が閾値より小さい場合に、当該学習候補画像が学習画像として学習画像記憶部１８２に記憶させるものであると判定する。一方で、判定部１６は、すべての類似度のうち、一つでも閾値以上となる類似度が存在すれば、当該学習候補画像が学習画像として学習画像記憶部１８２に記憶させるものではないと判定する。

　上述したように、時系列で前後する被写体画像を用いて、動き検出処理を行い、動きがあると判定された場合に当該被写体画像を学習候補画像として決定する。続いて、この学習候補画像に対して、公知の幾何学変換、濃淡変換、ノイズ増減、エッジ強調、色変換などによる画像処理を施して、一つまたは複数の派生画像を生成する。その後、学習候補画像と派生画像とについて、記憶されている学習画像との類似度を算出し、学習画像とするか否かの判定を実施する。そうすることによって、複数の被写体画像から学習画像を選別する処理において、必要最小限の学習画像を選別することが可能となる。

　制御部１７は、ＣＰＵ（Central　Processing　Unit）等を用いて構成され、学習画像自動選別装置１を構成する各構成部の駆動制御、および各構成部に対する情報の入出力制御などを行う。制御部１７は、判定部１６によって学習画像として判定された学習候補画像を学習画像記憶部１８２に記憶させる制御を行う。

　記憶部１８は、学習画像自動選別装置１を動作させるための各種プログラム、例えば、学習画像自動選定プログラムや、学習画像自動選別装置１の動作に必要な各種パラメータ等を含むデータを記録する。記憶部１８は、フラッシュメモリやＤＲＡＭ（Dynamic　Random　Access　Memory）等の半導体メモリを用いて実現される。記憶部１８は、動き判断部１２２による判断処理に用いる閾値や、判定部１６による判定処理に用いる閾値を記憶する。

　続いて、学習画像自動選別装置１の各部が行う処理について図面を参照して説明する。図３は、本発明の実施の形態１に係る学習画像自動選別装置１が行う処理を説明するフローチャートである。以下、制御部１７による制御のもと、各部が動作するものとして説明する。

　画像取得部１１は、画像信号を外部から受信する、または記憶部１８に記憶されている画像を取得する（ステップＳ１０１）。画像取得部１１は、取得した画像信号、または信号処理後の画像信号を、動き検出部１２に入力する。

　動き検出部１２は、画像取得部１１から入力された画像信号に基づく画像を用いて、該画像の動きを検出する（ステップＳ１０２）。動き判断部１２２は、上述したように類似度を求めた後、動きがあるか否かを判断し、該判断結果を学習候補画像決定部１３に入力する。

　学習候補画像決定部１３は、動き検出部１２の判断結果に基づいて、被写体画像を学習候補画像として決定するか否かを判断する（ステップＳ１０３）。学習候補画像決定部１３は、入力された入力画像信号が、動き検出部１２により動きありと判断されている場合、対応する被写体画像を学習候補画像として決定し（ステップＳ１０３：Ｙｅｓ）、学習候補画像に関する決定情報とともに被写体画像に応じた画像信号を派生画像生成部１４に入力し、ステップＳ１０４に移行する。これに対し、学習候補画像決定部１３は、動き検出部１２により動きなしと判断されている場合、対応する被写体画像を学習候補画像とはしない旨を決定し（ステップＳ１０３：Ｎｏ）、ステップＳ１０９に移行する。

　ステップＳ１０４では、制御部１７が、学習画像記憶部１８２に学習画像が記憶されているか否かを判断する。ここで、制御部１７が、学習画像記憶部１８２に学習画像が記憶されていないと判断した場合（ステップＳ１０４：Ｎｏ）、この学習候補画像を学習画像とし、ステップＳ１０８に移行する。これに対し、制御部１７は、学習画像記憶部１８２に学習画像が既に記憶されている場合（ステップＳ１０４：Ｙｅｓ）、ステップＳ１０５に移行する。

　ステップＳ１０５では、派生画像生成部１４は、学習候補画像決定部１３から入力された学習候補画像である画像信号の被写体画像を用いて、一つまたは複数の派生画像を生成する。派生画像生成部１４は、上述したように、学習候補画像に対して画像処理を施して一つまたは複数の派生画像を生成する。派生画像生成部１４は、生成した派生画像を類似度算出部１５に入力する。

　続くステップＳ１０６では、類似度算出部１５が、学習候補画像決定部１３が決定した学習候補画像、およびこの学習候補画像をもとに派生画像生成部１４が生成した派生画像と、学習画像記憶部１８２に記憶されている学習画像との類似度をそれぞれ算出する。類似度算出部１５は、学習候補画像と学習画像との類似度、派生画像と学習画像との類似度をそれぞれ算出し、算出した結果を判定部１６に入力する。

　その後、判定部１６が、類似度算出部１５から入力された算出結果に基づき、学習候補画像を学習画像として学習画像記憶部１８２に記憶させるか否かを判定する（ステップＳ１０７）。判定部１６は、学習候補画像と学習画像との類似度、派生画像と学習画像との類似度のそれぞれについて、判定用の閾値と比較し、すべての類似度が閾値より小さい場合、当該学習候補画像が学習画像として学習画像記憶部１８２に記憶させるものであると判定（ステップＳ１０７：Ｙｅｓ）し、ステップＳ１０８に移行する。一方で、判定部１６は、すべての類似度のうち、一つでも閾値以上となる類似度が存在すれば、当該学習候補画像が学習画像として学習画像記憶部１８２に記憶させるものではないと判定し（ステップＳ１０７：Ｎｏ）、ステップＳ１０９に移行する。

　ステップＳ１０８では、制御部１７が、ステップＳ１０４またはＳ１０７で学習画像として決定された学習候補画像を学習画像として学習画像記憶部１８２に記憶させる登録処理を行う。これにより、学習候補画像として選択された被写体画像が、学習画像として登録される。

　ステップＳ１０９では、制御部１７が、学習画像として選別すべき新たな被写体画像（画像信号）の入力があるか否かを判断する。ここで、制御部１７は、学習画像として選別すべき新たな被写体画像（画像信号）の入力があると判断した場合（ステップＳ１０９：Ｙｅｓ）、ステップＳ１０２に移行して、上述した処理を繰り返す。一方、制御部１７は、学習画像として選別すべき新たな被写体画像（画像信号）の入力がないと判断した場合（ステップＳ１０９：Ｎｏ）、本処理を終了する。

　上述した本実施の形態１によれば、被写体画像を学習画像として選別する際に、動き検出部１２が、複数の撮像画像のうちの選別判断対象である被写体画像と、該被写体画像より時間的に前の被写体画像とを用いて、注目画像における被写体の動きの有無を検出し、学習候補画像決定部１３が、検出された動きの有無に基づいて、被写体画像を学習候補画像として選択するか否かを判断し、派生画像生成部１４が、学習候補画像決定部１３により学習候補画像として選択された被写体画像を用いて、一つまたは複数の派生画像を生成し、類似度算出部１５が、学習候補画像および派生画像と、学習画像との類似度をそれぞれ算出し、判定部１６が、類似度算出部１５により算出された類似度に基づいて、学習候補画像として選択されている被写体画像を新たな学習画像として判定するようにした。これにより、動きのない類似度の高い被写体画像を学習候補画像から排除するとともに、学習候補画像に対して画像処理を施した派生画像と記憶されている学習画像との類似度から当該学習候補画像の学習画像としての登録の要否を判断して、学習候補画像から派生する類似した画像を学習画像から排除するため、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除することができ、記憶する学習画像の数を抑制しつつ精度の高い画像認識処理を行なうことが可能となる。

　なお、上述した実施の形態１では、判定部１６が、すべての類似度が閾値より小さい場合に、当該学習候補画像を学習画像として学習画像記憶部１８２に記憶させると判定するものとして説明したが、これに限らず、例えば、類似度の総数の９割の類似度が閾値より小さい場合に、当該学習候補画像を学習画像として学習画像記憶部１８２に記憶させると判定するものであってもよく、判断基準を統計的に決まる条件に基づいて判定するものとしてもよい。

　また、上述した実施の形態１において、最終的に選ばれた画像を学習画像として保存する場合、画像取得部１１によって取得された画像信号、例えば、Ａ／Ｄ変換後であってノイズ除去や同時化処理前の画像信号に応じた画像データを保存してもよいし、同時化処理などの信号処理が施された後の画像信号に応じた画像データを保存してもよい。ただし、画像取得部１１によって取得された画像信号を保存する場合は、類似度算出部１２１により類似度算出を行う際、この類似度算出を行う前に、画像取得部１１によって同時化処理などの信号処理を施す必要がある。

（実施の形態１の変形例１）
　上述した実施の形態１では、動き検出部１２が、ＳＡＤ値を類似度として算出して動きを検出するものとして説明したが、本発明はこれに限定されない。本変形例１では、被写体画像を複数の領域に分割して、領域ごとにパターンマッチングを行うことで、動きを検出する。

　本変形例１にかかる学習画像自動選別装置は、上述した学習画像自動選別装置１の動き検出部１２に代えて、動き検出部１２Ａを備える。図４は、本発明の実施の形態１の変形例１に係る学習画像自動選別装置の動き検出部１２Ａの構成を示すブロック図である。動き検出部１２Ａは、領域分割部１２３と、バッファ１２４と、類似度算出部１２５と、動き判断部１２６と、係数記憶部１２７とを有する。
　バッファ１２４には、画像取得部１１から入力された被写体画像を含む画像信号を記憶する。バッファ１２４は、容量が不足すると（所定のフレーム数の画像信号を記憶すると）、時系列で最も古い画像信号を最新の画像信号で上書きすることで、最新の画像信号から時系列で所定フレーム数記憶する。
　係数記憶部１２７は、領域分割部１２３が画像を分割するための分割数や分割された領域のサイズ、動き判断部１２６による判断処理に用いられる閾値を記憶する。

　領域分割部１２３は、係数記憶部１２７を参照して所定のブロック領域サイズを抽出し、画像取得部１１から取得した被写体画像を複数のブロック領域に分割する。領域分割部１２３は、領域分割処理後の被写体画像を類似度算出部１２５に入力する。

　類似度算出部１２５は、係数記憶部１２７を参照してテンプレートマッチング処理用の検出領域サイズの情報を取得し、該情報に基づいて領域分割部１２３による領域分割処理後の各領域の被写体画像と、バッファ１２４に記憶されている時系列的に過去の被写体画像に対して公知のテンプレートマッチング処理（ＳＡＤ値、ＳＳＤ値またはＮＣＣ値の算出）を行う。

　図５は、本発明の実施の形態１の変形例１に係る学習画像自動選別装置の動き検出部１２Ａが行う動き検出を説明する図である。図５に示すように、分割領域が、矩形の被写体画像Ｗ₂の横方向をＸ方向、縦方向をＹ方向とする直交座標系の座標（ｘ，ｙ）、例えば画素の位置に相当する座標（ｘ，ｙ）に位置するものとして考える。領域分割部１２３は、係数記憶部１２７を参照して取得した分割領域のサイズ情報に基づいて、画像取得部１１から取得した被写体画像を複数の領域に分割する。分割領域のサイズ情報は、例えば画素数に応じた縦幅および横幅を有する。

　類似度算出部１２５は、注目する分割領域Ｒの中心の位置座標ＳＢ（ｘ，ｙ）を代表点として分割領域Ｒの動き量を検出する。このとき、類似度算出部１２５は、分割領域Ｒと検出領域のテンプレートマッチング処理を行う。分割領域Ｒとは、順次テンプレートマッチング処理される複数の分割領域のうちの、処理対象となっている分割領域である。検出領域のサイズ情報は、検出領域の開始座標ＳＡ（ｘ₀，ｙ₀）と終了座標ＥＡ（ｘ₁，ｙ₁）であり、検出領域の横方向（Ｘ方向）および縦方向（Ｙ方向）の長さは、分割領域の縦方向および横方向の長さより大きい。本変形例１では、類似度算出部１２５は、図５中、各分割領域の左上の画素と、過去の被写体画像にある検出領域の一番左上の画素とを照合して、同じ位置にある画素値に対応し、上述したＳＡＤ値を算出する。その後、Ｘ方向に１画素ずつ移動させながらＳＡＤ値をそれぞれ算出するとともに、Ｙ方向に１画素ずつ移動させながらＳＡＤ値をそれぞれ算出する。検出領域のすべてにおいて、分割領域ＲのＳＡＤ値を算出した後、この複数のＳＡＤ値から最小のＳＡＤ値を抽出して、処理対象の分割領域の代表ＳＡＤ値とする。このようにして、テンプレートマッチング処理によりすべての分割領域の代表ＳＡＤ値を算出する。類似度算出部１２５は、算出した複数の代表ＳＡＤ値を動き判断部１２６に入力する。

　動き判断部１２６は、係数記憶部１２７に記憶されている動き判断用のＳＡＤ閾値を読み出して、この読み出した閾値と、類似度算出部１２５から入力された複数の代表ＳＡＤ値とを比較する。動き判断部１２６は、代表ＳＡＤ値がＳＡＤ閾値以上である場合、動き判断のカウント数を１大きくする。ここで、動き判断のカウント数初期値は０とする。動き判断部１２６は、ＳＡＤ閾値と、すべての分割領域の代表ＳＡＤ値との比較が終了後、係数記憶部１２７を参照して動き判断のカウント閾値を取得して、このカウント閾値と、当該被写体画像の動き判断のカウント数とを比較する。動き判断部１２６は、当該被写体画像の動き判断のカウント数が、カウント閾値以上であると判断した場合、比較した画像間において、撮像装置または被写体の物理的な動きがあると判断する。一方、動き判断部１２６は、当該被写体画像の動き判断のカウント数が、カウント閾値より小さいと判断した場合、比較した画像間において、撮像装置または被写体の物理的な動きがないと判断する。動き判断部１２６は、被写体画像および判定結果を学習候補画像決定部１３に入力する。

　その後は、上述したように、学習候補画像決定部１３が、検出された動きの有無に基づいて、被写体画像を学習候補画像として選択するか否かを判断し、派生画像生成部１４が、学習候補画像決定部１３により学習候補画像として選択された被写体画像を用いて、一つまたは複数の派生画像を生成し、類似度算出部１５が、学習候補画像および派生画像と、学習画像との類似度をそれぞれ算出し、判定部１６が、類似度算出部１５により算出された類似度に基づいて、学習候補画像として選択されている被写体画像を新たな学習画像として判定する。

　これにより、実施の形態１と同様、動きのない類似度の高い被写体画像を学習候補画像から排除するとともに、学習候補画像に対して画像処理を施した派生画像と記憶されている学習画像との類似度から当該学習候補画像の学習画像としての登録の要否を判断して、学習候補画像から派生する類似した画像を学習画像から排除するため、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除することができ、記憶する学習画像の数を抑制しつつ精度の高い画像認識処理を行なうことが可能となる。

　なお、本実施例１では、被写体画像の全画素を用いて類似度を算出するものとして説明したが、この構成に限定しない。例えば、演算量を抑制するため、被写体画像を縮小して、この縮小した被写体画像を用いて、類似度を算出するようにしてもよい。

（実施の形態１の変形例２）
　上述した実施の形態１では、学習候補画像決定部１３が、動き検出部１２から入力された動き検出情報をもとに被写体画像を学習候補画像とするか否かを決定するものとして説明したが、本発明はこれに限定されない。本変形例２では、動き検出情報のほかに、被写体画像のブレを検出して得られたブレ情報を用いて被写体画像を学習候補画像とするか否かを決定する。

　図６は、本発明の実施の形態１の変形例２に係る学習画像自動選別装置１Ａの機能構成を示すブロック図である。本変形例２にかかる学習画像自動選別装置１Ａは、上述した学習画像自動選別装置１の構成に加えて、ブレ検出部１９をさらに備える。

　ブレ検出部１９は、画像取得部１１から被写体画像の入力があると、該被写体画像のブレを検出してブレ情報を生成する。画像のブレの検出は、例えば、特許第２８２９０７３号公報が開示する方法や、センサを用いて検出する方法を用いることが可能である。

　学習候補画像決定部１３は、上述したような動き検出の判断結果に加えて、ブレ情報により被写体画像においてブレが検出された場合に、当該被写体画像を学習候補画像から排除する。

　本変形例２によれば、被写体画像の動きに加え、被写体画像のブレの検出情報から学習候補画像とするか否かを決定するようにしたので、記憶する学習画像の数を抑制しつつ、明瞭な被写体画像のみを学習画像として登録するため、一層精度の高い画像認識処理を行なうことができる。

　なお、本変形例２では、画像のブレを検出するものとして説明したが、合焦度（エッジ）を示すボケを検出するものであってもよい。この場合、ボケ情報が生成され、学習候補画像決定部１３は、動き検出情報とボケ情報とをもとに被写体画像を学習候補画像とするか否かを決定する。

（実施の形態２）
　上述した実施の形態１では、派生画像生成部１４が、学習候補画像に決定された被写体画像を用いて派生画像を生成するものとして説明したが、本発明はこれに限定されない。図７は、本発明の実施の形態２に係る学習画像自動選別装置１Ｂの機能構成を示すブロック図である。本実施の形態２に係る学習画像自動選別装置１Ｂでは、派生画像生成部１４が、学習画像記憶部１８２に記憶されている学習画像の派生画像を生成する。

　派生画像生成部１４は、学習画像記憶部１８２に記憶されている学習画像を取得すると、取得した学習画像について、上述した画像処理を施すことによって一つまたは複数の派生画像を生成する。派生画像生成部１４は、生成した派生画像を類似度算出部１５に入力する。本実施の形態２では、類似度算出部１５は、学習候補画像決定部１３から学習候補画像を取得する。

　類似度算出部１５は、学習候補画像決定部１３が決定した学習候補画像と、学習画像、および学習画像をもとに派生画像生成部１４が生成した派生画像との類似度をそれぞれ算出する。類似度算出部１５は、学習候補画像と学習画像との類似度、学習候補画像と派生画像との類似度をそれぞれ算出し、算出した結果を判定部１６に入力する。

　判定部１６は、上述したように、類似度算出部１５から入力された算出結果に基づき、学習候補画像を学習画像として学習画像記憶部１８２に記憶させるか否かを判定する。

　上述した本実施の形態２によれば、被写体画像を学習画像として選別する際に、動き検出部１２が、複数の撮像画像のうちの選別判断対象である被写体画像と、該被写体画像より時間的に前の被写体画像とを用いて、注目画像における被写体の動きの有無を検出し、学習候補画像決定部１３が、検出された動きの有無に基づいて、被写体画像を学習候補画像として選択するか否かを判断し、派生画像生成部１４が、学習画像記憶部１８２に記憶されている学習画像を用いて、一つまたは複数の派生画像を生成し、類似度算出部１５が、学習候補画像と、学習画像および派生画像との類似度をそれぞれ算出し、判定部１６が、類似度算出部１５により算出された類似度に基づいて、学習候補画像として選択されている被写体画像を新たな学習画像として判定するようにした。これにより、動きのない類似度の高い被写体画像を学習候補画像から排除するとともに、学習候補画像に対して画像処理を施した派生画像と記憶されている学習画像との類似度から当該学習候補画像の学習画像としての登録の要否を判断して、学習候補画像から派生する類似した画像を学習画像から排除するため、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除することができ、記憶する学習画像の数を抑制しつつ精度の高い画像認識処理を行なうことが可能となる。

（実施の形態３）
　上述した実施の形態１，２では、派生画像生成部１４が、学習候補画像に決定された被写体画像、または学習画像のいずれか一方の画像を用いて派生画像を生成するものとして説明したが、本発明はこれに限定されない。本実施の形態３では、派生画像生成部１４が、学習候補画像に決定された被写体画像、および学習画像記憶部１８２に記憶されている学習画像のどちらの画像を用いて派生画像を生成するかの設定を可能とする。

　図８は、本発明の実施の形態３に係る学習画像自動選別装置１Ｃの機能構成を示すブロック図である。本実施の形態３にかかる学習画像自動選別装置１Ｃは、上述した学習画像自動選別装置１の構成に加えて、設定入力部２０をさらに備える。

　設定入力部２０は、学習画像自動選別装置１Ｃに対するユーザからの入力等を行うためのインターフェースであり、例えばキーボードやマウス、タッチパネル、各種スイッチ等の入力デバイスによって実現され、これらの入力デバイスに対する外部からの操作に応じて発生させた指示信号の入力を受け付けて、受け付けた指示信号を制御部１７に入力する。具体的に、設定入力部２０は、例えば、派生画像生成部１４が派生画像を生成する際の画像として、学習候補画像に決定された被写体画像、および学習画像記憶部１８２に記憶されている学習画像のどちらの画像を用いるかの設定を行うための指示信号の入力を受け付ける。

　本実施の形態３によれば、派生画像生成部１４が、学習候補画像に決定された被写体画像、および学習画像記憶部１８２に記憶されている学習画像のどちらの画像を用いて派生画像を生成するかの設定を可能としたので、ユーザの選択によって学習画像を自動選別させることができ、処理の自由度を向上することができる。

　なお、設定入力部２０のほか、被写体画像として入力される画像の数（学習候補画像の数）と、学習画像記憶部１８２に記憶されている学習画像の数とのうち、少ない方または多い方を選択し、該選択した方の画像を用いて派生画像を生成する設定を自動で行うようにしてもよい。

　なお、本発明は、上述した実施の形態および変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上述した実施の形態に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、上述した実施の形態および変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、各実施の形態および変形例で説明した構成要素を適宜組み合わせてもよい。

　このように、本発明は、ここでは記載していない様々な実施の形態等を含み得るものであり、請求の範囲に記載した技術的思想を逸脱しない範囲内において適宜設計変更等を行うことが可能である。

　以上のように、本発明にかかる学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラムは、記憶する学習画像を選別するうえで、幾何変形、濃淡変化、ノイズレベルなどの違いを判別し重複の画像を識別して排除するのに有用である。

　１，１Ａ，１Ｂ，１Ｃ　学習画像自動選別装置
　１１　画像取得部
　１２，１２Ａ　動き検出部
　１３　学習候補画像決定部
　１４　派生画像生成部
　１５　類似度算出部
　１６　判定部
　１７　制御部
　１８　記憶部
　１９　ブレ検出部
　２０　設定入力部
　１８１　被写体画像記憶部
　１８２　学習画像記憶部

Claims

　時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置であって、
　前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出する動き検出手段と、
　前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断する判断部と、
　前記判断部により前記学習候補画像として選択された前記注目画像および前記学習画像の少なくとも一方を用いて、一つまたは複数の派生画像を生成する派生画像生成部と、
　前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出する類似度算出部と、
　前記類似度算出部により算出された類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別する選別部と、
　前記学習画像を記憶する記憶部と、
　を備えたことを特徴とする学習画像自動選別装置。
　選別部は、前記類似度と閾値と比較し、前記類似度算出部が算出した前記類似度の数に対して所定の割合の前記類似度が前記閾値を下回る場合に、前記学習候補画像として選ばれた前記注目画像を新たな学習画像として選別する
ことを特徴とする請求項１に記載の学習画像自動選別装置。
　前記派生画像生成部は、
　前記学習候補画像に対し、幾何変換、濃淡変換、ノイズの増減、彩度強調、エッジ強調及び色変換からなる群から選択される少なくとも一つの画像変換処理を施して前記派生画像を生成する
ことを特徴とする請求項１又は２に記載の学習画像自動選別装置。
　前記注目画像のブレ情報またはボケ情報を検出する検出部をさらに備え、
　前記判断部は、前記ブレ情報または前記ボケ情報により前記注目画像がブレまたはボケが検出された場合、前記注目画像を前記学習候補画像から排除する
ことを特徴とする請求項１から３のいずれか一項に記載の学習画像自動選別装置。
　前記学習候補画像と前記学習画像とのうち派生画像を生成する対象画像の設定を行う設定部
をさらに備えたことを特徴とする請求項１から４のいずれか一項に記載の学習画像自動選別装置。
　前記派生画像生成部は、前記判断部により前記学習候補画像として選択された前記注目画像を用いて、前記一つまたは複数の派生画像を生成する
ことを特徴とする請求項１から４のいずれか一項に記載の学習画像自動選別装置。
　時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置が行う学習画像自動選別方法であって、
　前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出し、
　前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断し、
　前記学習候補画像として選択された前記注目画像、または前記学習画像を用いて、一つまたは複数の派生画像を生成し、
　前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出し、
　前記類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別し、
　選別された前記学習候補画像として選ばれた前記注目画像を前記学習画像として記憶する
　ことを特徴とする学習画像自動選別方法。
　時系列で撮像された複数の撮像画像から画像認識処理用の学習画像を自動選別する学習画像自動選別装置が行う学習画像自動選別プログラムであって、
　前記複数の撮像画像のうちの選別判断対象である注目画像と、該注目画像より時間的に前の撮像画像とを用いて、前記注目画像における被写体の動き量を検出する検出手順と、
　前記動き量に基づいて、前記注目画像を学習候補画像として選択するか否かを判断する判断手順と、
　前記学習候補画像として選択された前記注目画像、または前記学習画像を用いて、一つまたは複数の派生画像を生成する派生画像生成手順と、
　前記学習候補画像と前記学習画像との類似度、および、前記一つもしくは複数の派生画像と前記学習画像との類似度、または前記一つもしくは複数の派生画像と前記学習候補画像との類似度を算出する類似度算出手順と、
　前記類似度と、統計的に決まる条件とに基づいて、前記学習候補画像として選択されている前記注目画像を新たな学習画像として選別する選別手順と、
　選別された前記学習候補画像として選ばれた前記注目画像を前記学習画像として記憶する記憶手順と、
　をコンピュータに実行させることを特徴とする学習画像自動選別プログラム。