WO2022107636A1

WO2022107636A1 - 画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体

Info

Publication number: WO2022107636A1
Application number: PCT/JP2021/041081
Authority: WO
Inventors: 隆義長谷川; 由紀貞深谷
Original assignee: 株式会社タナカ技研
Priority date: 2020-11-17
Filing date: 2021-11-09
Publication date: 2022-05-27
Also published as: JP6902150B1; JP2022079899A; JP2022080248A

Abstract

【課題】従来技術においては、撮影した画像の認識の精度が高くなかった。【解決手段】撮影し、光信号を取得する光信号取得部３１と、光信号を用いて、２以上の異なる元画像を取得する元画像取得部３２と、２以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する認識部３５と、認識結果を出力する出力部４とを具備する画像認識装置Ａにより、高い精度で画像の認識ができる。

Description

画像認識装置、学習システム、画像蓄積装置、画像認識方法、画像蓄積方法、および記録媒体

　本発明は、撮影した画像に対して認識処理を行う画像認識装置等に関するものである。

　従来、撮影された画像に対して、機械学習により画像認識を行い、検出対象物を特定する技術が存在した（例えば、特許文献１参照）。

特開２０１６－２１８７６０号公報

　しかしながら、従来技術においては、高い精度で撮影した画像の認識を行うことは困難であった。なお、撮影した画像を、適宜、撮影画像と言う。

　本第一の発明の画像認識装置は、撮影し、光信号を取得する光信号取得部と、光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、２以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する認識部と、認識結果を出力する出力部とを具備する画像認識装置である。

　かかる構成により、高い精度で撮影画像の認識ができる。

　また、本第二の発明の画像認識装置は、第一の発明に対して、２以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、認識部は、少なくとも合成画像を用いて、画像の認識処理を行い、認識結果を取得する、画像認識装置である。

　かかる構成により、さらに高い精度で撮影画像の認識ができる。

　また、本第三の発明の画像認識装置は、第一または第二の発明に対して、元画像取得部が取得した２以上の元画像を含む候補画像から、認識処理に使用する１以上の対象画像を選択する選択部をさらに具備し、認識部は、１以上の対象画像を用いて、画像の認識処理を行い、認識結果を取得する、画像認識装置である。

　かかる構成により、高い精度で撮影画像の認識ができる。

　また、本第四の発明の画像認識装置は、第三の発明に対して、選択部は、２以上の候補画像のうち、予め決められた条件を満たす１以上の対象画像を選択する、画像認識装置である。

　かかる構成により、高い精度で撮影画像の認識ができる。

　また、本第五の発明の画像認識装置は、第四の発明に対して、選択部は、少なくとも２以上の元画像、および選択された画像を特定する画像識別情報を有する２以上の教師データを用いて、学習処理を行い取得された選択学習器と２以上の候補画像とを用いて、機械学習の予測処理を行い、１以上の対象画像を特定する、画像認識装置である。

　かかる構成により、高い精度で撮影画像の認識ができる。

　また、本第六の発明の画像認識装置は、第一から第五いずれか１つの発明に対して、認識部は、２以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、２以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する、画像認識装置である。

　かかる構成により、より高い精度で撮影画像の認識ができる。

　また、本第七の発明の学習システムは、画像蓄積装置と学習装置とを具備する学習システムであって、画像蓄積装置は、撮影し、光信号を取得する光信号取得部と、光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、光信号に対する認識結果を受け付ける認識結果受付部と、２以上の異なる元画像を含む２以上の候補画像のうちの１以上の候補画像と認識結果とを有する教師データを蓄積する教師データ蓄積部とを具備し、学習装置は、画像蓄積装置が蓄積した２以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、認識学習器を蓄積する学習器蓄積部とを具備する、学習システムである。

　かかる構成により、精度の高い撮影画像の認識を可能にする認識学習器を取得できる。

　また、本第八の発明の学習システムは、第七の発明に対して、画像蓄積装置は、２以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、教師データ蓄積部は、２以上の異なる元画像と合成画像とを含む３以上の候補画像のうちの１以上の候補画像と認識結果とを有する教師データを蓄積する、学習システムである。

　かかる構成により、合成画像をも用いて、より精度の高い撮影画像の認識を可能にする認識学習器を取得できる。

　また、本第九の発明の学習システムは、第七または第八の発明に対して、画像蓄積装置は、２以上の異なる元画像を含む２以上の候補画像を含むセットを出力するセット出力部と、セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、選択受付部が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった１以上の候補画像を負例として、区別する処理を行う区別部とをさらに具備し、学習装置は、正例の一の候補画像と負例の１以上の候補画像とを含む２以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部をさらに具備し、学習器蓄積部は、選択学習器を蓄積する、学習システムである。

　かかる構成により、画像の認識に用いる対象画像を精度高く選択できる。

　本発明による画像認識装置によれば、高い精度で画像の認識ができる。

実施の形態１における画像認識装置Ａのブロック図同画像認識装置Ａの第一の動作例について説明するフローチャート同元画像取得処理の例について説明するフローチャート同合成画像取得処理の例について説明するフローチャート同選択処理の第一の例について説明するフローチャート同選択処理の第二の例について説明するフローチャート同画像認識装置Ａの第二の動作例について説明するフローチャート同候補画像の例を示す図実施の形態２における学習システムＢの概念図同学習システムＢのブロック図同画像蓄積装置５の動作例について説明するフローチャート同選択学習処理の例について、説明するフローチャート同教師データ管理表を示す図上記実施の形態におけるコンピュータシステムのブロック図

　以下、画像認識装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

　（実施の形態１）
　本実施の形態において、撮影により、光信号を取得し、当該光信号を用いて２以上の元画像を取得し、２以上の元画像を用いて、認識処理を行い、認識結果を出力する画像認識装置について説明する。

　また、本実施の形態において、２以上の元画像を合成し、合成画像を取得し、当該合成画像を用いて、認識処理を行い、認識結果を出力する画像認識装置について説明する。

　また、本実施の形態において、２以上の元画像を含む候補画像のセットから、画像認識処理の対象となる対象画像を自動選択し、当該対象画像に対して認識処理を行い、認識結果を出力する画像認識装置について説明する。

　また、本実施の形態において、機械学習のアルゴリズムにより、対象画像を選択する画像認識装置について説明する。

　さらに、本実施の形態において、機械学習のアルゴリズムにより、認識処理を行う画像認識装置について説明する。

　図１は、本実施の形態における画像認識装置Ａのブロック図である。画像認識装置Ａは、格納部１、受付部２、処理部３、および出力部４を備える。処理部３は、光信号取得部３１、元画像取得部３２、合成画像取得部３３、選択部３４、および認識部３５を備える。

　格納部１には、各種の情報が格納される。各種の情報は、例えば、後述する選択学習器、後述する認識学習器、２以上の元画像識別情報、１以上の合成画像識別情報、合成画像フラグである。

　元画像識別情報とは、取得する元画像の種類を識別する情報である。元画像識別情報は、例えば、「ＲＧＢ画像」「ＩＲ画像」「ＮＩＲ画像」である。元画像識別情報は、例えば、元画像を取得するためのプログラムの識別子（例えば、実行モジュール名、関数名、メソッド名）である。元画像識別情報は、例えば、元画像を取得するために行う画像処理識別子である。画像処理識別子は、画像処理を識別する情報であり、例えば、ＩＤ、１以上の画像処理を行うプログラムの識別子（例えば、実行モジュール名、関数名、メソッド名）である。

　元画像とは、光信号を用いて取得される画像である。元画像は、合成されていない画像である。元画像は、例えば、光信号を分光して得られる分光画像である。元画像は、例えば、一の分光画像に対して、所定の１以上の画像処理を施した画像である。元画像は、候補画像になり得る画像である。

　合成画像識別情報とは、取得する合成画像の種類を識別する情報である。合成画像識別情報は、例えば、合成画像を取得するためのプログラムの識別子（例えば、実行モジュール名、関数名、メソッド名）である。合成画像識別情報は、例えば、合成画像を取得する場合に使用する元画像の元画像識別情報を含む。かかる場合の元画像識別情報は、例えば、「ＲＧＢ画像」「ＩＲ画像」「ＮＩＲ画像」である。

　合成画像とは、２以上の画像を合成した画像である。なお、合成方法は問わない。合成画像とは、２以上の画像から取得される画像である。

　合成画像フラグとは、合成画像を取得するか否かを示す情報である。

　受付部２は、各種の指示や情報等を受け付ける。各種の指示や情報等とは、例えば、設定情報である。設定情報は、選択部３４が取得する一の画像を特定するための情報である。

　ここで、受け付けとは、通常、タッチパネルやキーボードやマウスなどの入力デバイスから入力された情報の受け付けである。ただし、受け付けは、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念であっても良い。

　ユーザの指示の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。

　処理部３は、各種の処理を行う。各種の処理は、光信号取得部３１、元画像取得部３２、合成画像取得部３３、選択部３４、認識部３５が行う処理である。

　光信号取得部３１は、撮影し、光信号を取得する。光信号取得部３１は、公知技術であるので詳細な説明を省略する。

　元画像取得部３２は、光信号取得部３１が取得した光信号を用いて、２以上の異なる元画像を取得する。２以上の異なる各元画像の元になる光信号は同じ光信号である。

　また、２以上の異なる元画像の中に含まれる対象は、通常、同じであるが、異なっていても良い。つまり、例えば、一の元画像が光信号と同じ領域の画像であり、他の元画像が当該画像の一部の領域の画像（いわゆるズームした画像）でも良い。例えば、元画像取得部３２は、光信号取得部３１が取得した光信号を分光し、近距離の「ＲＧＢ画像」と遠距離の「ＩＲ画像」とを取得しても良い。かかる場合、遠距離の「ＩＲ画像」の領域は、近距離の「ＲＧＢ画像」の領域より狭い。また、例えば、元画像取得部３２はビームスプリッターを具備し、当該ビームスプリッターにより、単レンズからの光を２分割し、当該２分割した同じ分光特性を持つ光を、それぞれ焦点距離の違うセンサーに入力し、焦点距離が違う２つの画像（例えば、「近ＲＧＢ画像」と「遠ＲＧＢ画像」）を取得する。

　元画像取得部３２は、例えば、光信号取得部３１が取得した光信号をから一部の波長を抽出した２以上の分光画像を取得する。かかる場合、元画像は、分光画像である。２以上の分光画像は、例えば、ＲＧＢ画像（カラー画像）とＩＲ画像（赤外線画像）とＮＩＲ画像（近赤外線）のうちの２以上の画像である。

　元画像取得部３２は、例えば、ＲＧＢとＮＩＲを同時撮影できるセンサー（例えば、「http://www.optronics-media.com/news/20160606/42937/」参照（令和２年１１月１日検索）を用いて実現できる。

　元画像取得部３２は、例えば、光信号取得部３１が取得した光信号からＲＧＢ画像を取得し、当該ＲＧＢ画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、ＲＧＢ画像と所定の画像処理が施された画像である。所定の画像処理は、例えば、シャープネス処理、ノイズ低減処理、明度向上の処理等であり、種々の公知の画像処理が該当し得る。

　元画像取得部３２は、例えば、光信号取得部３１が取得した光信号からＩＲ画像を取得し、当該ＩＲ画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、ＩＲ画像と所定の画像処理が施された画像である。所定の画像処理は、例えば、シャープネス処理、ノイズ低減処理、明度向上の処理等であり、種々の公知の画像処理が該当し得る。

　元画像取得部３２は、例えば、光信号取得部３１が取得した光信号を分光し、ＲＧＢ画像とＩＲ画像とを取得する。そして、元画像取得部３２は、例えば、当該ＲＧＢ画像に対して所定の画像処理が施された画像と、当該ＩＲ画像に対して所定の画像処理が施された画像を取得する。かかる場合、元画像は、例えば、ＲＧＢ画像とＩＲ画像とＲＧＢ画像に対して所定の画像処理が施された画像とＩＲ画像に対して所定の画像処理が施された画像である。

　なお、元画像取得部３２が取得する２以上の異なる元画像の撮影対象は同一である。

　合成画像取得部３３は、２以上の元画像を合成し、合成画像を取得する。合成画像取得部３３は、元画像と合成画像とを合成し、新たな合成画像を取得しても良い。元画像の合成方法は問わない。

　合成画像取得部３３は、例えば、２以上の元画像のうちのいずれか１以上の元画像の一部の領域の部分元画像を、一部の領域に対応する領域に採用した合成画像を取得する。

　合成画像取得部３３は、例えば、２以上の元画像のうちの第一の元画像の第一の領域の第一の部分元画像を、第一の領域に対応する領域に採用した合成画像であり、２以上の元画像のうちの第二の元画像の第二の領域の第二の部分元画像を、第二の領域に対応する領域に採用した合成画像を取得する。

　合成画像取得部３３は、例えば、２以上の各元画像から信号強度の強い画素を選択し、一の合成画像を取得する。例えば、合成画像取得部３３は、２以上の異なる元画像（例えば、ＲＧＢ画像とＩＲ画像）をＮＡＭ回路で合成する。つまり、合成画像取得部３３は、例えば、ＮＡＭ回路を用いて、二つの元画像の同じ位置の各画素のうち、レベルの高い画素値を優先して出力し、合成画像を取得する。

　合成画像取得部３３は、例えば、２以上の各元画像を予め決められた領域に区切り、同じ位置の領域ごとに、信号強度の強い方の領域を決定し、当該決定した領域の画素集合を組み合わせて、合成画像を取得する。なお、領域は、２以上の画素を有する。

　合成画像取得部３３は、例えば、２以上の元画像と学習器とを、機械学習の予測処理のモジュールに与え、２以上の元画像が合成された合成画像を取得しても良い。かかる場合の学習器は、２以上の元画像と合成画像とからなる２以上の教師データを、機械学習の学習処理のモジュールに与え、当該モジュールが実行され、取得された学習器である。なお、機械学習のアルゴリズムは問わないことは、上述した通りである。また、かかる学習器は、２以上の元画像を入力し、合成画像を出力する予測処理で使用される。

　なお、合成画像と２以上の元画像の中のオブジェクトは、通常、同じオブジェクトであるが異なっていても良い。

　選択部３４は、元画像取得部３２が取得した２以上の元画像を含む候補画像から、認識処理に使用する１以上の対象画像を選択する。

　選択部３４は、２以上の元画像と合成画像を含む３以上の候補画像のうち、一の対象画像を取得することは好適である。

　選択部３４は、２以上の候補画像のうち、予め決められた条件を満たす１以上の対象画像を自動的に選択する。

　なお、予め決められた条件は、例えば、後述する機械学習の予測処理により選択されることである。予め決められた条件は、例えば、後述する機械学習の予測処理により取得されたスコアが最大であることである。予め決められた条件は、例えば、候補画像が有する各画素の代表値（例えば、平均値、中央値）が最大であることである。予め決められた条件は、例えば、候補画像が有する各画素の属性値（例えば、輝度，明度）の代表値（例えば、平均値、中央値）が最大であることである。

　選択部３４は、選択学習器と２以上の候補画像とを用いて、機械学習の予測処理を行い、１以上の対象画像を特定する。なお、選択学習器は、少なくとも２以上の元画像、および選択された画像を特定する画像識別情報を有する２以上の教師データを用いて、学習処理を行い取得された情報である。選択学習器は、後述する学習装置６が取得した学習器であることは好適である。

　選択部３４は、例えば、選択学習器と２以上の候補画像とを用いて、機械学習の予測処理を行い、一の対象画像を特定する画像識別情報を取得し、画像識別情報により特定される一の対象画像を取得する。なお、機械学習のアルゴリズムは、例えば、ランダムフォレスト、決定木、深層学習、ＳＶＭ等であり、機械学習のアルゴリズムは問わない。また、機械学習の予測処理には、例えば、ＴｅｎｓｏｒＦｌｏｗのライブラリ、ｔｉｎｙＳＶＭ、Ｒ言語のｒａｎｄｏｍ　ｆｏｒｅｓｔのモジュール等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。また、選択学習器は、例えば、後述する実施の形態２における学習装置６が取得した学習器である。なお、学習器は、分類器、モデルと言っても良い。

　また、ここでの選択学習器は、例えば、２以上の候補画像を入力し、一の候補画像または一の候補画像の識別子を出力するための情報である。選択学習器は、例えば、２以上の候補画像のうちのいずれかの候補画像を入力し、当該候補画像を対象画像として選択されるか否かを示すフラグ（真または偽）を出力するめの情報である。選択学習器は、例えば、２以上の候補画像のうちのいずれかの候補画像を入力し、当該候補画像を対象画像として選択されるか否かを示すフラグ（真または偽）およびスコアを出力するめの情報である。なお、対象画像は、画像認識の対象となる画像である。

　つまり、選択部３４は、例えば、選択学習器を格納部１から取得し、当該選択学習器と２以上の候補画像とを、機械学習の予測処理のモジュールに与え、当該モジュールを実行し、一の候補画像を、対象画像として決定する。

　また、選択部３４は、例えば、選択学習器を格納部１から取得する。そして選択部３４は、例えば、２以上の候補画像のうちの一の候補画像と選択学習器との組を、順に、機械学習の予測処理のモジュールに与え、選択されるか否かを示すフラグと、スコアとを取得する。そして、選択部３４は、例えば、選択されることを示すフラグが得られた候補画像であり、スコアが最大の候補画像を、対象画像として決定する。

　また、選択部３４は、例えば、選択学習器を格納部１から取得し、当該選択学習器と２以上の候補画像とを、機械学習の予測処理のモジュールに与え、当該モジュールを実行し、２以上の候補画像を、対象画像として決定する。

　また、選択部３４は、例えば、選択学習器を格納部１から取得する。そして選択部３４は、例えば、２以上の候補画像のうちの一の候補画像と選択学習器との組を、順に、機械学習の予測処理のモジュールに与え、選択されるか否かを示すフラグと、スコアとを取得する。そして、選択部３４は、例えば、選択されることを示すフラグが得られた候補画像であり、スコアが閾値以上または閾値より大きい１または２以上の候補画像を、対象画像として決定する。

　選択部３４は、例えば、２以上の候補画像から、ユーザの指示に応じた一の候補画像を、対象画像として選択する。例えば、ユーザの指示が設定情報である場合、選択部３４は、２以上の候補画像から、格納部１の設定情報に対応する候補画像を対象画像として選択する。設定情報は、例えば、２以上の候補画像の種類のうち、一の候補画像の種類を示す種類識別子である。種類識別子は、例えば、「ＲＧＢ画像」「ＩＲ画像」「合成画像」である。

　認識部３５は、２以上の元画像を用いて、光信号に関する認識処理を行い、認識結果を取得する。光信号に関する認識処理とは、通常、対象画像に対する画像認識処理である。

　認識部３５は、例えば、少なくとも合成画像を用いて、画像認識処理を行い、認識結果を取得する。認識部３５は、例えば、２以上の元画像と合成画像とを用いて、画像の認識処理を行い、認識結果を取得する。

　認識部３５は、通常、１または２以上の対象画像を用いて、画像認識処理を行い、認識結果を取得する。１以上の対象画像は、２以上の候補画像から選択部３４が選択した画像である。

　認識部３５は、例えば、２以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、２以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する。２以上の元画像とを用いることは、２以上の元画像から取得された対象画像を用いることでも良い。

　認識部３５は、機械学習のアルゴリズム以外の技術を用いて、対象画像に対して認識処理を行い、認識結果を取得しても良い。なお、機械学習のアルゴリズム以外の技術は、例えば、公知のオブジェクト認識技術、文字認識技術である。つまり、認識部３５は、画像認識処理により、対象画像の中のオブジェクトを認識し、当該オブジェクトを識別するオブジェクト識別子を取得しても良い。また、認識部３５は、対象画像の中のオブジェクトの色や形状を、画像認識処理により取得しても良い。

　認識結果は、例えば、撮影された光信号の中に含まれるオブジェクトのオブジェクト名、撮影された光信号の中に含まれる文字列（数字列でも良い）、当該オブジェクトの属性値（色、形状、サイズなど）である。また、光信号の中の情報とは、対象画像の中の情報である。

　認識部３５は、２以上の各対象画像に対して認識処理を行い、２以上の各対象画像から異なる種類の認識結果を取得し、当該２以上の種類の認識結果を用いて、出力する認識結果を取得しても良い。認識部３５は、例えば、一の対象画像から自動車の車種名と色とを有する認識結果を取得し、他の対象画像からナンバープレートの情報を取得しても良い。また、認識部３５は、２以上の各対象画像に対して認識処理を行い、２以上の各対象画像から異なる認識結果を取得する場合に、２以上の各対象画像に対して異なる２以上のアルゴリズムを用いて、認識処理を行っても良い。例えば、認識部３５は、一の対象画像に対して、機械学習の予測処理を行い車種名を取得し、当該一の対象画像に対して、画像認識を行い、自動車の輪郭を抽出し、当該自動車の領域の色情報（例えば、「白」）を取得し、他の対象画像からナンバープレートの領域の輪郭を抽出し、当該領域に対して文字認識処理を行い、ナンバープレートの番号を取得しても良い。なお、上記した通り、認識部３５は、一つの対象画像に対して、２以上の異なるアルゴリズムにより、２以上の認識結果を取得しても良い。

　認識部３５は、例えば、対象画像に写っている指紋の領域を検知し、指紋認証処理を行い、当該指紋に対応する人物の識別情報を図示しない格納部から取得する。かかる場合、格納部には、指紋の情報と人物の識別情報とを対応付ける情報が格納されている。

　認識部３５は、例えば、対象画像に写っている人物の顔の領域を検出し、当該顔の領域の画像を用いて顔認証処理を行い、当該顔の画像に対応する人物の識別情報を図示しない格納部から取得する。かかる場合、格納部には、顔の画像と人物の識別情報とを対応付ける情報が格納されている。

　認識部３５は、例えば、元画像取得部３２が取得した焦点距離が違う２つの画像（近焦点側の画像をＷ、遠焦点側の画像をＴとする）で得られた画像信号からパターン認識または機械学習等により、画像内のオブジェクト（例えば、前方の車）を認識する。そして、ＷとＴとの画像の差をＸとすると、認識部３５は、Xを基準としてＷとＴの信号量を比較し、オブジェクトとの距離を算出する。なお、予めＷの最大信号となる焦点距離を、例えば、１．０メーターとし、Ｔの信号が最大となる焦点距離を３．０メーターと設定しておけば、Ｘとの関連を取る事により、認識部３５は、距離は取得できる。つまり、認識部３５は、光信号取得部３１から画像内のオブジェクトへの距離を、認識結果を構成する情報として取得できる。

　出力部４は、認識部３５が取得した認識結果を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

　格納部１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

　格納部１に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１で記憶されるようになってもよい。

　受付部２は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

　処理部３、元画像取得部３２、合成画像取得部３３、選択部３４、および認識部３５は、通常、プロセッサやメモリ等から実現され得る。処理部３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、プロセッサは、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等であり、その種類は問わない。

　光信号取得部３１は、例えば、いわゆるカメラの光学部品と撮像素子とにより実現される。

　出力部４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

　次に、画像認識装置Ａの第一の動作例について、図２のフローチャートを用いて説明する。

　（ステップＳ２０１）光信号取得部３１は、光信号を取得する。

　（ステップＳ２０２）元画像取得部３２は、光信号取得部３１が取得した光信号を用いて、２以上の異なる元画像を取得する。かかる元画像取得処理の例について、図３のフローチャートを用いて説明する。

　（ステップＳ２０３）合成画像取得部３３は、合成画像を取得するか否かを判断する。合成画像を取得する場合はステップＳ２０５に行き、合成画像を取得しない場合はステップＳ２０６に行く。なお、合成画像取得部３３は、常に、合成画像を取得しても良い。また、合成画像取得部３３は、例えば、格納部１の合成画像フラグが合成画像を取得する旨を示す情報である場合に、合成画像を取得すると判断しても良い。ただし、合成画像を取得すると判断するための条件は問わない。

　（ステップＳ２０４）合成画像取得部３３は、合成画像を取得する。かかる合成画像取得処理の例について、図４のフローチャートを用いて説明する。

　（ステップＳ２０５）選択部３４は、元画像取得部３２が取得した２以上の元画像を含む候補画像のうち、一の対象画像を取得する。なお、選択部３４は、２以上の元画像と合成画像を含む３以上の候補画像のうち、一の対象画像を取得することは好適である。かかる選択処理の例について、図５、図６のフローチャートを用いて説明する。

　（ステップＳ２０６）認識部３５は、ステップＳ２０５で取得された一の対象画像に対して、画像認識処理を行い、認識結果を取得する。

　（ステップＳ２０７）出力部４は、ステップＳ２０６で取得された認識結果を出力する。

　（ステップＳ２０８）処理部３は、処理を終了するか否かを判断する。処理を終了すると判断した場合は処理を終了し、処理を終了しないと判断した場合はステップＳ２０１に戻る。ここで、処理を終了するための条件は問わない。画像認識装置Ａが、例えば、自動車等に搭載される車載装置である場合、処理を終了するための条件は、例えば、自動車等の移動体のエンジンがＯＦＦになったことである。

　次に、ステップＳ２０２の元画像取得処理の例について、図３のフローチャートを用いて説明する。

　（ステップＳ３０１）元画像取得部３２は、カウンタｉに１を代入する。

　（ステップＳ３０２）元画像取得部３２は、元画像を取得するためのｉ番目の元画像識別情報が格納部１に存在するか否かを判断する。

　（ステップＳ３０３）元画像取得部３２は、ｉ番目の元画像識別情報に対応するｉ番目の元画像を取得し、図示しないバッファに一時蓄積する。

　（ステップＳ３０４）元画像取得部３２は、カウンタｉを１、インクリメントする。ステップＳ３０２に戻る。

　次に、ステップＳ２０４の合成画像取得処理の例について、図４のフローチャートを用いて説明する。

　（ステップＳ４０１）合成画像取得部３３は、カウンタｉに１を代入する。

　（ステップＳ４０２）合成画像取得部３３は、ｉ番目の合成画像を取得するか否かを判断する。ｉ番目の合成画像を取得する場合はステップＳ４０３に行き、ｉ番目の合成画像を取得しない場合は上位処理にリターンする。なお、例えば、合成画像取得部３３は、格納部１にｉ番目の合成画像識別情報が存在するか否かにより、ｉ番目の合成画像を取得するか否かを判断する。

　（ステップＳ４０３）合成画像取得部３３は、ｉ番目の合成画像を取得するために使用する２以上の元画像を図示しないバッファから取得する。

　（ステップＳ４０４）合成画像取得部３３は、ステップＳ４０３で取得した２以上の元画像を用いて、ｉ番目の合成画像を取得し、当該合成画像を図示しないバッファに一時蓄積する。

　（ステップＳ４０５）合成画像取得部３３は、カウンタｉを１、インクリメントする。ステップＳ４０２に戻る。

　次に、ステップＳ２０５の選択処理の第一の例について、図５のフローチャートを用いて説明する。

　（ステップＳ５０１）選択部３４は、格納部１から選択学習器を取得する。

　（ステップＳ５０２）選択部３４は、カウンタｉに１を代入する。

　（ステップＳ５０３）選択部３４は、図示しないバッファにｉ番目の候補画像が存在するか否かを判断する。ｉ番目の候補画像が存在する場合はステップＳ５０４に行き、ｉ番目の候補画像が存在しない場合はステップＳ５０８に行く。

　（ステップＳ５０４）選択部３４は、図示しないバッファからｉ番目の候補画像を取得する。

　（ステップＳ５０５）選択部３４は、選択学習器とｉ番目の候補画像とを機械学習の予測モジュールに与え、当該予測モジュールを実行し、予測結果を取得する。なお、予測結果は、ここでは、選択されるか否かを示すフラグ（予測値）とスコアである。スコアは高いほど、選択される尤度が大きい、とする。

　（ステップＳ５０６）選択部３４は、ｉ番目の候補画像に対応付けて、予測値とスコアとを図示しないバッファに一時蓄積する。

　（ステップＳ５０７）選択部３４は、カウンタｉを１、インクリメントする。ステップＳ５０３に戻る。

　（ステップＳ５０８）選択部３４は、選択されることを示す予測値であり、最大のスコアと対になる候補画像を、対象画像に決定する。上位処理にリターンする。

　次に、ステップＳ２０５の選択処理の第二の例について、図６のフローチャートを用いて説明する。図６のフローチャートにおいて、図５のフローチャートと同一のステップについて説明を省略する。

　（ステップＳ６０１）選択部３４は、２以上の候補画像を図示しないバッファから取得する。

　（ステップＳ６０２）選択部３４は、選択学習器と２以上の候補画像とを機械学習の予測モジュールに与え、当該予測モジュールを実行し、予測結果を取得する。なお、予測結果は、ここでは、対象画像を特定する情報である。対象画像を特定する情報は、対象画像でも良いし、対象画像の識別子（例えば、ファイル名）等でも良い。

　（ステップＳ６０３）選択部３４は、予測結果に対応する候補画像を対象画像に決定する。

　次に、画像認識装置Ａの第二の動作例について、図７のフローチャートを用いて説明する。図７のフローチャートにおいて、図２のフローチャートと同一のステップについて説明を省略する。

　（ステップＳ７０１）認識部３５は、カウンタｉに１を代入する。

　（ステップＳ７０２）認識部３５は、画像認識処理の対象であるｉ番目の対象画像が存在するか否かを判断する。ｉ番目の対象画像が存在する場合はステップＳ７０３に行き、ｉ番目の対象画像が存在しない場合はステップＳ７０５に行く。

　（ステップＳ７０３）認識部３５は、ｉ番目の対象画像に対して画像認識処理を行い、ｉ番目の認識結果を取得し、図示しないバッファに一時蓄積する。

　（ステップＳ７０４）認識部３５は、カウンタｉを１、インクリメントする。ステップＳ７０２に戻る。

　（ステップＳ７０５）認識部３５は、図示しないバッファ内の１以上の認識結果を用いて、出力する認識結果を取得する。ステップＳ２０７に行く。

　なお、認識部３５は、例えば、画像認識処理の結果、取得された最大のスコアに対応する認識結果を取得する。認識部３５は、例えば、２以上の認識結果のうち、最も多い認識結果を、出力する認識結果として取得する。

　なお、図７のフローチャートにおいて、すべての候補画像に対して、画像認識処理を行った。しかし、候補画像から１または２以上の対象画像を選択し、当該１以上の対象画像に対して、画像認識処理を行っても良い。

　以下、本実施の形態における撮影装置Ａの具体的な動作について説明する。撮影装置Ａの外観は、例えば、カメラである。

　今、格納部１には、「ＲＧＢ画像」「ＩＲ画像」の２つの元画像識別情報が格納されている、とする。また、格納部１には、合成画像を取得する一のプログラムのモジュール名である合成画像識別情報が格納されている、とする。当該一のプログラムは、「ＲＧＢ画像」「ＩＲ画像」のうちの輝度の平均値が高い方の元画像をベースとして採用し、ナンバープレートの領域を検知し、ナンバープレートの領域のシャープネスが大きい方の元画像のナンバープレートの領域を採用するプログラムである、とする。

　また、格納部１には、３つの候補画像から一の候補画像を選択する選択学習器が格納されている。

　さらに、格納部１には、対象画像を与えると、当該対象画像に写っている自動車の車種を識別する車種情報を取得する認識学習器が格納されている、とする。なお、かかる認識学習器は、自動車を撮影した画像と車種情報とを有する２以上の教師データに対して、機械学習の学習処理を行い取得された情報である。

　以上の状況において、撮影装置Ａの光信号取得部３１は、撮影し、光信号を取得した、とする。

　次に、元画像取得部３２は、光信号取得部３１が取得した光信号を用いて、「ＲＧＢ画像」「ＩＲ画像」の２つの元画像を取得する。「ＲＧＢ画像」は、図８の８１である。「ＩＲ画像」は、図８の８２である。

　また、合成画像取得部３３は、合成画像識別情報が示すモジュール名で識別されるモジュールを実行し、合成画像を取得する。かかる合成画像は、図８の８３である。

　次に、選択部３４は、格納部１の選択学習器を取得する。選択部３４は、３つの候補画像（「ＲＧＢ画像８１」「ＩＲ画像８２」「合成画像８３」）と選択学習器とを、機械学習の予測モジュールに与え、一の画像（ここでは、合成画像８３）を取得した、とする。

　次に、認識部３５は、合成画像８３に対して、画像認識処理を行い、ナンバープレートの番号「２０－２０」を取得する。また、認識部３５は、自動車の色「白」を取得する。

　また、認識部３５は、格納部１の認識学習器を取得する。そして、認識部３５は、合成画像８３と認識学習器とを、機械学習の予測モジュールに与え、当該予測モジュールを実行し、合成画像８３に写っている自動車の車種「ＸＸＸ」を取得した、とする。

　次に、出力部４は、認識結果「＜車種＞ＸＸＸ　＜色＞白　＜ナンバープレート＞２０－２０」を出力する。

　以上、本実施の形態によれば、高い精度で画像の認識ができる。つまり、本実施の形態によれば、２以上の候補画像から画像認識対象の対象画像を選択し、当該対象画像に対して画像認識処理を行うことにより、高い精度で画像の認識ができる。

　なお、本実施の形態における画像認識装置Ａの用途は問わないことは言うまでもない。画像認識装置Ａは、例えば、監視カメラとして利用可能である。監視カメラは、例えば、車の自動運転やドライブレコーダ用の監視カメラである。また、監視カメラは、例えば、ドライブレコーダの車内監視のためのカメラ、後部座席の監視のためのカメラ、運転者の動向や居眠り監視のためのカメラである。画像認識装置Ａは、例えば、車の自動運転のためのカメラ、ドライブレコーダの車外監視のためのカメラである。

　また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布されても良い。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布されても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における画像認識装置Ａを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、撮影し、光信号を取得する光信号取得部と、前記光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、前記２以上の元画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、前記認識結果を出力する出力部として機能させるためのプログラムである。

　（実施の形態２）
　本実施の形態において、画像認識装置Ａが使用し得る選択学習器、認識学習器を取得する学習システムについて説明する。

　図９は、本実施の形態における学習システムＢの概念図である。学習システムＢは、１または２以上の画像蓄積装置５、および学習装置６を備える。なお、学習システムＢは、一の装置で実現されても良いし、３以上の装置で実現されても良い。

　画像蓄積装置５は、画像を撮影し、当該画像を用いて、２以上の候補画像のセットを取得し、当該セットから一の選択を受け付ける。そして、画像蓄積装置５は、セットの中で、選択された候補画像と選択されなかった候補画像とを区別可能な状態で、セットを蓄積する。また、画像蓄積装置５は、画像の中のオブジェクトに関するオブジェクト情報を受け付ける。オブジェクト情報は、上述した認識結果に相当する情報である。画像蓄積装置５は、例えば、カメラ、またはカメラ付きのコンピュータである。カメラは、静止画を撮影できるものでも、動画を撮影できるものでも良い。

　学習装置６は、２以上のセットを用いて学習処理を行い、２以上の候補画像から一の画像を選択するための選択学習器を構成する装置である。また、学習装置６は、画像とオブジェクト情報とを有する２以上の教師データを学習し、認識学習器を構成する装置である。

　図１０は、本実施の形態における学習システムＢのブロック図である。学習システムＢを構成する画像蓄積装置５は、格納部５１、受付部５２、処理部５３、および出力部５４を備える。受付部５２は、選択受付部５２１、および認識結果受付部５２２を備える。処理部５３は、光信号取得部３１、元画像取得部３２、合成画像取得部３３、教師データ蓄積部５３１、および区別部５３２を備える。出力部５４は、セット出力部５４１を備える。

　学習装置６は、学習格納部６１、選択学習部６２、認識学習部６３、および学習器蓄積部６４を備える。

　画像蓄積装置５を構成する格納部５１には、各種の情報が格納される。各種の情報は、例えば、２以上の候補画像のセットである。

　受付部５２は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、撮影指示、選択指示、後述する認識結果である。選択指示は、画像の選択の指示である。選択指示は、単に、選択と言っても良い。

　各種の指示や情報の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。

　選択受付部５２１は、セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける。

　認識結果受付部５２２は、光信号に対する認識結果を受け付ける。光信号に対する認識結果は、画像に対する認識結果と同じ意味である。認識結果は、光信号に対する画像の中のオブジェクトに関するオブジェクト情報である。

　処理部５３は、各種の処理を行う。各種の処理は、例えば、光信号取得部３１、元画像取得部３２、合成画像取得部３３、セット蓄積部５３１、区別部５３２が行う処理である。

　教師データ蓄積部５３１は、２以上の教師データを蓄積する。教師データは、元画像取得部３２が取得した２以上の異なる元画像を含む２以上の候補画像のうちの１以上の候補画像を含む。教師データは、例えば、選択受付部５２１が受け付けた選択に対応する候補画像と、選択に対応しない１以上の候補画像とを区別可能な候補画像のセットを含む。教師データは、例えば、認識結果受付部５２２が受け付けた認識結果を有する。

　なお、教師データが有する１以上の候補画像は、選択受付部５２１が受け付けられた選択に対応する一つの候補画像でも良いし、２以上の候補画像のセットでも良い。２以上の候補画像は、例えば、元画像取得部３２が取得した２以上の元画像である。２以上の候補画像は、例えば、元画像取得部３２が取得した２以上の元画像と合成画像取得部３３が取得した１以上の合成画像である。２以上の候補画像は、例えば、選択受付部５２１が受け付けた選択に対応する２以上の候補画像である。

　教師データ蓄積部５３１は、例えば、元画像取得部３２が取得した２以上の異なる元画像を含む２以上の候補画像のうち、選択受付部５２１が受け付けた候補画像と、認識結果受付部５２２が受け付けた認識結果とを有する教師データを蓄積する。

　教師データ蓄積部５３１は、２以上の異なる元画像と合成画像とを含む３以上の候補画像のうちの１以上の候補画像と認識結果とを有する教師データを蓄積する。

　区別部５３２は、選択受付部５２１が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった１以上の候補画像を負例として、区別する処理を行う。区別する処理とは、例えば、選択された一の候補画像に、正例フラグを対応付ける処理である。区別する処理とは、例えば、選択されなかった１以上の各候補画像に、負例フラグを対応付ける処理である。区別する処理とは、例えば、選択された一の候補画像に、正例フラグを対応付け、選択されなかった１以上の各候補画像に、負例フラグを対応付ける処理である。区別する処理とは、例えば、選択された一の候補画像と、選択されなかった１以上の候補画像とを、異なるフォルダに蓄積する処理である。選択された一の候補画像と、選択されなかった１以上の候補画像とを区別できれば良く、区別する処理、方法は問わない。

　出力部５４は、各種の情報を出力する。各種の情報は、２以上の候補画像のセットである。また、ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

　セット出力部５４１は、２以上の異なる元画像を含む２以上の候補画像を含むセットを出力する。

　学習装置６を構成する学習格納部６１には、各種の情報が格納される。各種の情報は、２以上の教師データである。２以上の教師データは、画像蓄積装置５が蓄積したデータである。

　教師データは、例えば、正例画像と１以上の負例画像とを含む。なお、正例画像は、正例の候補画像である。負例画像は、負例の候補画像である。また、かかる教師データは、選択学習器を取得するためのデータである。

　教師データは、例えば、画像と認識結果とを含む。かかる教師データは、認識学習器を取得するためのデータである。

　選択学習部６２は、一の正例画像と１以上の負例画像とを含む２以上のセットを用いて、学習処理を行い、選択学習器を取得する。選択学習器は、２以上の候補画像から、１以上の対象画像を決定するための学習器である。

　かかる学習処理は、機械学習のアルゴリズムを用いた学習処理である。なお、機械学習のアルゴリズムは、例えば、ランダムフォレスト、決定木、深層学習、ＳＶＭ等であり、機械学習のアルゴリズムは問わない。また、機械学習の学習処理には、例えば、ＴｅｎｓｏｒＦｌｏｗのライブラリ、ｔｉｎｙＳＶＭ、Ｒ言語のｒａｎｄｏｍ　ｆｏｒｅｓｔのモジュール等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。

　選択学習部６２は、例えば、一の正例画像と１以上の負例画像とを含む２以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得する。

　選択学習部６２は、例えば、一の正例画像と、当該一の正例画像と同じ撮影対象の一の負例画像の組を、２以上のセットから構成する。選択学習部６２は、構成した２以上の画像の組を、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得する。

　認識学習部６３は、画像蓄積装置５が蓄積した２以上の教師データを用いて、学習処理を行い、認識学習器を取得する。ここでの教師データは、一の対象画像と認識結果である。なお、教師データは、２以上の対象画像と認識結果でも良い。

　認識学習部６３は、２以上の教師データを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得する。

　なお、かかる学習処理も、機械学習のアルゴリズムを用いた学習処理であり、そのアルゴリズムは問わない。

　学習器蓄積部６４は、選択学習部６２が取得した選択学習器を蓄積する。学習器蓄積部６４は、認識学習部６３が取得した認識学習器を蓄積する。なお、学習器の蓄積先は問わない。

　格納部５１、および学習格納部６１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

　格納部５１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部５１等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部５１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部５１等で記憶されるようになってもよい。

　受付部５２、選択受付部５２１、および認識結果受付部５２２は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

　処理部５３、教師データ蓄積部５３１、区別部５３２、選択学習部６２、認識学習部６３、および学習器蓄積部６４は、通常、プロセッサやメモリ等から実現され得る。処理部５３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、プロセッサは、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等であり、その種類は問わない。

　次に、学習システムＢの動作例について説明する。まず、画像蓄積装置５の動作例について、図１１のフローチャートを用いて説明する。図１１のフローチャートにおいて、図２のフローチャートと同一のステップについて、説明を省略する。

　（ステップＳ１１０１）処理部５３は、撮影を行うか否かを判断する。撮影を行う場合はステップＳ２０２に行き、撮影を行わない場合はステップＳ２０１に戻る。なお、処理部５３は、例えば、受付部５２が撮影指示を受け付けた場合に、撮影を行うと判断する。また、処理部５３は、例えば、受付部５２が撮影指示を受け付けた後、撮影終了の指示を受け付けるまで、撮影を行うと判断する。処理部５３が撮影を行うと判断する条件は問わない。

　（ステップＳ１１０２）出力部５４は、取得された２以上の候補画像を出力する。なお、２以上の候補画像は、例えば、２以上の元画像である。２以上の候補画像は、例えば、２以上の元画像と１以上の合成画像である。なお、かかる出力は、通常、ディスプレイへの出力である。

　（ステップＳ１１０３）選択受付部５２１は、ユーザからの選択を受け付けたか否かを判断する。選択を受け付けた場合はステップＳ１１０４に行き、選択を受け付けなかった場合はステップＳ１１０３に戻る。

　（ステップＳ１１０４）区別部５３２は、ステップＳ１１０３で選択された候補画像に、正例フラグを対応付ける。

　（ステップＳ１１０５）認識結果受付部５２２は、認識結果を受け付けたか否かを判断する。認識結果を受け付けた場合はステップＳ１１０６に行き、認識結果を受け付けなかった場合はステップＳ１１０５に戻る。なお、かかる認識結果は、通常、ユーザが入力した情報である。

　（ステップＳ１１０６）教師データ蓄積部５３１は、教師データを構成する。教師データ蓄積部５３１は、例えば、一の正例画像と１以上の負例画像と認識結果とを有する教師データを構成する。教師データ蓄積部５３１は、例えば、２以上の正例画像と１以上の負例画像と認識結果とを有する教師データを構成する。

　（ステップＳ１１０７）教師データ蓄積部５３１は、ステップＳ１１０６で構成した教師データを図示しないバッファに蓄積する。ステップＳ１１０１に戻る。

　なお、図１１のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　次に、学習装置６が選択学習器を取得する選択学習処理の例について、図１２のフローチャートを用いて説明する。なお、学習格納部６１には、２以上のセットが格納されている、とする。なお、セットは、例えば、選択された一の正例の候補画像と１以上の負例の候補画像のセットである。つまり、セットとは、正例画像と負例画像が区別された２以上の候補画像を有する。

　（ステップＳ１２０１）学習装置６は、学習を開始するか否かを判断する。学習を開始する場合はステップＳ１２０２に行き、学習を開始しない場合はステップＳ１２０１に戻る。なお、学習を開始する条件は問わない。例えば、ユーザの指示により、学習装置６は、学習を開始すると判断する。

　（ステップＳ１２０２）選択学習部６２は、カウンタｉに１を代入する。

　（ステップＳ１２０３）選択学習部６２は、学習格納部６１に、ｉ番目のセットが存在するか否かを判断する。

　（ステップＳ１２０４）選択学習部６２は、ｉ番目のセットが有する一の正例画像を取得する。なお、正例画像とは、正例フラグに対応付く候補画像である。

　（ステップＳ１２０５）選択学習部６２は、カウンタｊに１を代入する。

　（ステップＳ１２０６）選択学習部６２は、ｉ番目のセットが有するｊ番目の負例画像を取得する。

　（ステップＳ１２０７）選択学習部６２は、ステップＳ１２０４で取得した正例画像とステップＳ１２０６で取得したｊ番目の負例画像との組を取得し、図示しないバッファに一時蓄積する。

　（ステップＳ１２０８）選択学習部６２は、カウンタｊを１、インクリメントする。ステップＳ１２０６に戻る。

　（ステップＳ１２０９）選択学習部６２は、カウンタｉを１、インクリメントする。ステップＳ１２０３に戻る。

　（ステップＳ１２１０）選択学習部６２は、図示しないバッファに一時蓄積した２以上の正例画像と負例画像との組を学習モジュールに与え、当該モジュールを実行し、選択学習器を取得する。

　（ステップＳ１２１１）学習器蓄積部６４は、ステップＳ１２１０で取得された選択学習器を蓄積する。ステップＳ１２０１に戻る。

　なお、図１１のフローチャートにおいて、選択学習部６２は、２以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得しても良い。

　また、図１１のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

　次に、学習装置６が認識学習器を取得する認識学習処理の例について説明する。認識学習部６３は、２以上の教師データを学習格納部６１から取得する。次に、認識学習部６３は、当該２以上の教師データを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得する。なお、ここでの教師データは、例えば、一の対象画像と認識結果とを有する。

　以下、本実施の形態における学習システムＢの具体的な動作について説明する。

　画像蓄積装置５の出力部５４は、上述した処理により、格納部５１の中の各セットの４つ候補画像を出力する。なお、４つ候補画像は、２つの元画像と２つの合成画像である、とする。また、２つの元画像は、「ＲＧＢ画像」と「ＩＲ画像」である、とする。

　そして、ユーザは、セットごとに、一の候補画像を選択する。すると、選択受付部５２１は、かかる選択を受け付ける。次に、区別部５３２は、選択された候補画像に対応付けて、正例フラグを蓄積する。

　また、ユーザは、選択された候補画像に写っているオブジェクトの名称を入力する。すると、画像蓄積装置５の認識結果受付部５２２は、オブジェクト名を受け付ける。そして、処理部５３は、当該オブジェクト名を選択された候補画像に対応付けて蓄積する。

　以上の処理により、格納部５１に、図１３に示す教師データ管理表が蓄積された、とする。教師データ管理表は「ＩＤ」「元画像１」「元画像２」「合成画像１」「合成画像２」「認識結果」を有する２以上の教師データを有する。「ＩＤ」は、セットを識別する情報である。「元画像１」はＲＧＢ画像、「元画像２」はＩＲ画像である。「合成画像１」「合成画像２」は、各々、異なるアルゴリズムにより合成された画像であり、元画像１と元画像２とを用いて合成された画像である、とする。「認識結果」は、選択された候補画像に写っているオブジェクトの名称である。

　また、図１３において、ユーザにより選択された候補画像には、正例であることを示す「○」が付与され、ユーザにより選択されなかった候補画像には、負例であることを示す「×」が付与されている。

　そして、かかる教師データ管理表は、学習装置６の学習格納部６１にも蓄積された、する。

　次に、学習装置６は、学習を開始する、と判断した、とする。

　次に、学習装置６の選択学習部６２は、例えば、図１２のフローチャートに従って、選択学習処理を行う。つまり、選択学習部６２は、教師データ管理表の各教師データから、一の正例画像と３つの負例画像とを有するセットを取得する。そして、選択学習部６２は、２以上のセットを、機械学習の学習モジュールに与え、当該学習モジュールを実行し、選択学習器を取得し、当該選択学習器を学習格納部６１に蓄積する。なお、かかる選択学習器は、上述した撮影装置Ａが選択処理のために利用することは好適である。

　また、認識学習部６３は、例えば、教師データ管理表の各教師データから、一の正例画像（○に対応する候補画像）と認識結果とを取得する。そして、認識学習部６３は、一の正例画像と認識結果との組、２組以上を、機械学習の学習モジュールに与え、当該学習モジュールを実行し、認識学習器を取得し、当該認識学習器を学習格納部６１に蓄積する。なお、かかる認識学習器は、上述した撮影装置Ａが画像認識処理のために利用することは好適である。

　以上、本実施の形態によれば、画像認識に必要な画像を選択するための選択学習器が得られる。

　また、本実施の形態によれば、画像認識に必要な認識学習器が得られる。

　なお、本実施の形態における画像蓄積装置５を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、撮影し、光信号を取得する光信号取得部と、前記光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、前記元画像取得部が取得した２以上の元画像を含む２以上の候補画像を出力する出力部と、ユーザからの一の候補画像の選択を受け付ける選択受付部と、前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、選択されなかった１以上の候補画像を負例として、区別する処理を行う区別部と、光信号に対する認識結果を受け付ける認識結果受付部と、正例画像と１以上の負例画像と認識結果とを含む教師データを蓄積する教師データ蓄積部として機能させるためのプログラムである。

　また、学習装置６を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、このプログラムは、正例画像と１以上の負例画像と認識結果とを含む２以上の教師データが格納される学習格納部にアクセス可能なコンピュータを、前記２以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部と２以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、選択学習器と認識学習器とを蓄積する学習器蓄積部として機能させるためのプログラムである。なお、学習装置６を実現するソフトウェアは、選択学習器と認識学習器のうちの一方の学習器のみを取得し、蓄積するものでも良い。

　また、上述の実施の形態において、認識結果をどのように用いても良い。つまり、例えば、画像認識装置Ａを自動運転に用いても良い。例えば、画像認識装置Ａの出力部４が出力した認識結果が有する距離を用いて、当該距離が閾値以内であると判断した場合には、自動車のブレーキをかける制御を行っても良い。

　また、上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１４は、撮影装置Ａ、画像蓄積装置５、学習装置６を実現し得るコンピュータシステム３００のブロック図である。

　図１４において、コンピュータシステム３００は、ＣＤ－ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

　図１４において、コンピュータ３０１は、ＣＤ－ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＣＤ－ＲＯＭドライブ３０１２等に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

　コンピュータシステム３００に、上述した実施の形態の撮影装置Ａ等の機能を実行させるプログラムは、ＣＤ－ＲＯＭ３１０１に記憶されて、ＣＤ－ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ－ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

　プログラムは、コンピュータ３０１に、上述した実施の形態の撮影装置Ａの機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

　また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。つまり、画像蓄積装置５等は、スタンドアロンの装置であっても良く、２以上の装置から構成されても良い。

　また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

　本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

　以上のように、本発明にかかる画像認識装置は、高い精度で画像の認識ができる、という効果を有し、画像認識装置等として有用である。

Claims

撮影し、光信号を取得する光信号取得部と、
前記光信号から一部の波長を抽出した２以上の分光画像である２以上の異なる元画像を取得する元画像取得部と、
少なくとも２以上の元画像、および選択された画像を特定する画像識別情報を有する２以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した２以上の元画像を含む２以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する１以上の対象画像を特定する選択部と、
前記１以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、
前記認識結果を出力する出力部とを具備する画像認識装置。
前記２以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、
前記選択部は、
前記選択学習器と、少なくとも前記合成画像を含む２以上の候補画像とを用いて、機械学習の予測処理を行い、前記１以上の対象画像を特定する、請求項１記載の画像認識装置。
前記認識部は、
２以上の元画像を含むセットと認識結果とを用いて、学習処理を行い取得された認識学習器と、前記２以上の元画像とを用いて、機械学習の予測処理を行い、認識結果を取得する、請求項１記載の画像認識装置。
前記認識部は、
前記１以上の対象画像を用いて、前記光信号に関する認識処理を行い、オブジェクトを認識し、当該オブジェクトを識別するオブジェクト識別子である認識結果を取得する、請求項１記載の画像認識装置。
画像蓄積装置と学習装置とを具備する学習システムであって、
前記画像蓄積装置は、
撮影し、光信号を取得する光信号取得部と、
前記光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、
前記光信号に対する認識結果を受け付ける認識結果受付部と、
前記２以上の異なる元画像を含む２以上の候補画像のうちの１以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部とを具備し、
前記学習装置は、
前記画像蓄積装置が蓄積した２以上の教師データを用いて、学習処理を行い、認識学習器を取得する認識学習部と、
前記認識学習器を蓄積する学習器蓄積部とを具備し、
前記画像蓄積装置は、
前記２以上の異なる元画像を含む２以上の候補画像を含むセットを出力するセット出力部と、
前記セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、
前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった１以上の候補画像を負例として、区別する処理を行う区別部とをさらに具備し、
前記学習装置は、
正例の一の候補画像と負例の１以上の候補画像とを含む２以上のセットを用いて、学習処理を行い、選択学習器を取得する選択学習部をさらに具備し、
前記学習器蓄積部は、
前記選択学習器を蓄積する、学習システム。
前記画像蓄積装置は、
前記２以上の元画像を合成し、合成画像を取得する合成画像取得部をさらに具備し、
前記教師データ蓄積部は、
前記２以上の異なる元画像と前記合成画像とを含む３以上の候補画像のうちの１以上の候補画像と前記認識結果とを有する教師データを蓄積する、請求項５記載の学習システム。
撮影し、光信号を取得する光信号取得部と、
前記光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、
前記光信号に対する認識結果を受け付ける認識結果受付部と、
前記２以上の異なる元画像を含む２以上の候補画像のうちの１以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部と、
前記２以上の異なる元画像を含む２以上の候補画像を含むセットを出力するセット出力部と、
前記セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部とをさらに具備し、
前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった１以上の候補画像を負例として、区別する処理を行う区別部とを具備し、
前記２以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
前記正例の一の候補画像と負例の１以上の候補画像とを含む２以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、画像蓄積装置。
光信号取得部と、元画像取得部と、選択部と、認識部と、出力部とにより実現される画像認識方法であって、
前記光信号取得部が、撮影し、光信号を取得する光信号取得ステップと、
前記元画像取得部が、前記光信号から一部の波長を抽出した２以上の分光画像である２以上の異なる元画像を取得する元画像取得ステップと、
前記選択部が、少なくとも２以上の元画像、および選択された画像を特定する画像識別情報を有する２以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した２以上の元画像を含む２以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する１以上の対象画像を特定する選択ステップと、
前記認識部が、前記１以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識ステップと、
前記出力部が、前記認識結果を出力する出力ステップとを具備する画像認識方法。
光信号取得部と、元画像取得部と、認識結果受付部と、教師データ蓄積部と、セット出力部と、選択受付部と、区別部とにより実現される画像蓄積方法であって、
前記光信号取得部が、撮影し、光信号を取得する光信号取得ステップと、
前記元画像取得部が、前記光信号を用いて、２以上の異なる元画像を取得する元画像取得ステップと、
前記セット出力部が、前記２以上の異なる元画像を含む２以上の候補画像を含むセットを出力するセット出力ステップと、
前記選択受付部が、前記セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける選択受付ステップと、
前記区別部が、前記選択受付ステップで受け付けられた選択に対応する一の候補画像を正例とし、当該選択されなかった１以上の候補画像を負例として、区別する処理を行う区別ステップとを具備し、
前記２以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
前記正例の一の候補画像と負例の１以上の候補画像とを含む２以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、画像蓄積方法。
コンピュータを、
撮影し、光信号を取得する光信号取得部と、
前記光信号から一部の波長を抽出した２以上の分光画像である２以上の異なる元画像を取得する元画像取得部と、
少なくとも２以上の元画像、および選択された画像を特定する画像識別情報を有する２以上の教師データを用いて、学習処理を行い取得された選択学習器と、前記元画像取得部が取得した２以上の元画像を含む２以上の候補画像とを用いて、機械学習の予測処理を行い、認識処理に使用する１以上の対象画像を特定する選択部と、
前記１以上の対象画像を用いて、前記光信号に関する認識処理を行い、認識結果を取得する認識部と、
前記認識結果を出力する出力部として機能させるためのプログラムを記録した記録媒体。
コンピュータを、
撮影し、光信号を取得する光信号取得部と、
前記光信号を用いて、２以上の異なる元画像を取得する元画像取得部と、
前記光信号に対する認識結果を受け付ける認識結果受付部と、
前記２以上の異なる元画像を含む２以上の候補画像のうちの１以上の候補画像と前記認識結果とを有する教師データを蓄積する教師データ蓄積部と、
前記２以上の異なる元画像を含む２以上の候補画像を含むセットを出力するセット出力部と、
前記セットに含まれる２以上候補画像のうち、一の候補画像の選択を受け付ける選択受付部として機能させるためのプログラムであって、
前記選択受付部が受け付けた選択に対応する一の候補画像を正例とし、当該選択されなかった１以上の候補画像を負例として、区別する処理を行う区別部とを具備し、
前記２以上の教師データを用いて、学習処理が行われ、認識学習器が取得され、蓄積され、
前記正例の一の候補画像と負例の１以上の候補画像とを含む２以上のセットが用いられて、学習処理が行われ、選択学習器が取得され、蓄積される、プログラムを記録した記録媒体。