WO2022003973A1

WO2022003973A1 - 訓練データ選別装置、訓練データ選別方法及びプログラム

Info

Publication number: WO2022003973A1
Application number: PCT/JP2020/026262
Authority: WO
Inventors: 祥悟佐藤
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-01-06
Also published as: JP7449385B2; US20230230342A1; JPWO2022003973A1

Abstract

識別器に学習させる訓練データを選別できる訓練データ選別装置、訓練データ選別方法及びプログラムを提供する。正例訓練データ記憶部（５０）は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する。サンプル画像取得部（６０）は、サンプルを新たに撮影した新たなサンプル画像を取得する。特徴量抽出部（６２）は、新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する。記憶制御部（６４）は，正例訓練データ記憶部（５０）に記憶されている訓練データが示す特徴量と、特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを訓練データとして正例訓練データ記憶部（５０）に記憶させるか、当該特徴量データを破棄するか、を制御する。

Description

訓練データ選別装置、訓練データ選別方法及びプログラム

　本発明は、訓練データ選別装置、訓練データ選別方法及びプログラムに関する。

　識別精度の高い識別器を生成するには、正例や負例として用いられる充分な数の訓練データを収集して、これらの訓練データを識別器に学習させる必要がある。

　例えば、サンプルを撮影した画像、あるいは、サンプルを撮影した画像からＲＰＮ（Region Proposal Network）などの技術を用いて抽出される領域の画像に基づいて、サンプル画像に対応する特徴量を示す上述の訓練データを生成することが考えられる。

　ここでサンプルを撮影した画像に、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していると、このような画像に基づく訓練データを識別器に学習させることは適切ではない。また、サンプルを撮影した画像からの領域の抽出がうまくいかない場合も、当該領域の画像に基づく訓練データを識別器に学習させることは適切ではない。

　しかし従来技術では、以上で説明したような、識別器に学習させることが適切でない訓練データを識別器への学習対象から除外することができなかった。

　本発明は上記実情に鑑みてなされたものであって、その目的の一つは、識別器に学習させる訓練データを選別できる訓練データ選別装置、訓練データ選別方法及びプログラムを提供することにある。

　上記課題を解決するために、本発明に係る訓練データ選別装置は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する訓練データ記憶部と、前記サンプルを新たに撮影した新たなサンプル画像を取得するサンプル画像取得部と、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する特徴量データ生成部と、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する記憶制御部と、を含む。

　本発明の一態様では、前記記憶制御部は、前記訓練データ記憶部に記憶されている複数の前記訓練データのそれぞれが示す特徴量のうち前記特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する。

　また、本発明の一態様では、前記記憶制御部は、前記差が所与の差よりも大きい場合に、当該特徴量データが破棄されるよう制御する。

　また、本発明の一態様では、前記記憶制御部は、前記差が所与の差よりも小さい場合に、当該特徴量データが破棄されるよう制御する。

　また、本発明の一態様では、前記サンプルを撮影した複数の候補画像を取得する候補画像取得部と、前記複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する基準画像選択部と、をさらに含み、前記記憶制御部は、前記基準画像に対応する特徴量を示す前記特徴量データを最初の前記訓練データとして前記訓練データ記憶部に記憶させる。

　この態様では、前記基準画像選択部は、他の所定数の前記候補画像のそれぞれとの前記特徴量の差の合計の小ささに基づいて、前記複数の候補画像のうちから基準画像を選択してもよい。

　また、本発明に係る訓練データ選別方法は、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させるステップと、前記サンプルを新たに撮影した新たなサンプル画像を取得するステップと、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成するステップと、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御するステップと、を含む。

　また、本発明に係るプログラムは、サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させる手順、前記サンプルを新たに撮影した新たなサンプル画像を取得する手順、前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する手順、前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する手順、をコンピュータに実行させる。

本発明の一実施形態に係る情報処理装置の構成の一例を示す図である。本発明の一実施形態における識別器の学習の一例を示す図である。本発明の一実施形態における学習済の識別器を用いた識別の一例を示す図である。画像の一例を示す図である。画像の一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置において行われる処理の流れの一例を示すフロー図である。本発明の一実施形態に係る情報処理装置において行われる処理の流れの一例を示すフロー図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。

　図１は、本発明の一実施形態に係る情報処理装置１０の構成の一例を示す図である。本実施形態に係る情報処理装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る情報処理装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８、撮影部２０を含んでいる。

　プロセッサ１２は、例えば情報処理装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

　記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やソリッドステートドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

　操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

　表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

　撮影部２０は、デジタルカメラ等の撮影デバイスである。本実施形態に係る撮影部２０は、動画像の撮影が可能なビデオカメラであることとする。

　なお、情報処理装置１０は、マイクやスピーカなどといった音声入出力デバイスを含んでいてもよい。また、情報処理装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

　本実施形態では、図２に示すように、複数の正例訓練データを正例とし複数の負例訓練データを負例として学習させた、ＳＶＭ（Support Vector Machine）などの識別器３０（学習済の識別器３０）が生成される。複数の正例訓練データのそれぞれは、例えば、識別器３０における正クラスに属するオブジェクトが写るサンプル画像（以下、正例サンプル画像と呼ぶ。）に基づいて生成される。また、複数の負例訓練データのそれぞれは、例えば、識別器３０における負クラスに属するオブジェクトが写るサンプル画像（以下、負例サンプル画像と呼ぶ。）に基づいて生成される。

　そして、図３に示すように、学習済の識別器３０は、入力画像に対応する特徴量を示す入力特徴量データの入力に応じて、当該入力画像に写るオブジェクトが識別器３０における正クラスに属するものである確率を示す識別スコアを出力する。

　本実施形態に係る情報処理装置１０には、例えば、予め学習済であるＲＰＮ（Regional Proposal Network）が記憶されている。そして本実施形態では、当該ＲＰＮを用いて、サンプル画像から、何らかの物体が写っていると推定される領域が抽出される。この処理によって、計算の無駄を低減でき、環境に対してもある程度のロバストネスが確保できる。

　そして、抽出された領域の画像に対して、例えば、背景の除去処理（マスク処理）などといった正規化処理が実行される。この処理によって、背景や照明条件によるドメインギャップを縮小させることができ、その結果、限られた環境下で収集されたデータだけからでも識別器３０の学習を完了させることが可能になる。

　また、本実施形態に係る情報処理装置１０には、予めメトリック学習が実行済であるＣＮＮ（Convolutional Neural Network）が記憶されている。このＣＮＮは、画像の入力に応じて、当該画像に対応する特徴量を示す特徴量データを出力する。このＣＮＮは、事前のメトリック学習によって、正クラスに属するオブジェクトが写る画像については互いに近い特徴量を示す特徴量データを出力するようチューニングされている。本実施形態に係る特徴量データが示す特徴量は、例えば、ノルムが１となるよう正規化されたベクトル量である。

　本実施形態では、このＣＮＮを用いて、正規化処理が実行された画像に対応する特徴量を示す特徴量データの生成が行われる。予めメトリック学習が実行済であるＣＮＮを用いることで、１つのクラスに属するサンプルの特徴量が、条件に依らずコンパクトな領域に集約されることとなる。その結果、本実施形態に係る情報処理装置１０は、識別器３０における妥当な識別境界を少数のサンプルからでも決定できるようになっている。

　本実施形態では、正例サンプル画像からＲＰＮによって抽出された領域の画像に対して正規化処理を実行した画像を、メトリック学習が実行済であるＣＮＮに入力することで、当該正例サンプル画像に対応する特徴量を示す特徴量データが生成される。このようにして正例サンプル画像から生成される特徴量データが、図２に示す正例訓練データに相当する。

　また、本実施形態では、負例サンプル画像からＲＰＮによって抽出された領域の画像に対して正規化処理を実行した画像を、メトリック学習が実行済であるＣＮＮに入力することで、当該負例サンプル画像に対応する特徴量を示す特徴量データが生成される。このようにして負例サンプル画像から生成される特徴量データが、図２に示す負例訓練データに相当する。

　本実施形態では、写っているオブジェクトの推定対象となる入力画像についても、同様にして、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるＣＮＮを用いた特徴量データの生成によって、入力画像に対応する入力特徴量データが生成される。そして、このようにして生成された入力特徴量データを学習済の識別器３０に入力することで、学習済の識別器３０は、当該入力画像に写るオブジェクトが正クラスに属するものである確率を示す識別スコアを出力する。

　識別精度の高い識別器３０を生成するには、正例や負例として用いられる充分な数の訓練データを収集して、これらの訓練データを識別器３０に学習させる必要がある。

　ここで例えば、サンプルを撮影した画像、あるいは、サンプルを撮影した画像からＲＰＮなどの技術を用いて抽出される領域の画像に基づいて、サンプル画像に対応する特徴量を示す上述の訓練データを生成することが考えられる。

　ここでサンプルを撮影した画像に、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していると、このような画像に基づく訓練データを識別器３０に学習させることは適切ではない。また、図４Ａに示す画像のように、サンプルを撮影した画像からのＲＰＮを用いた領域の抽出がうまくいかないことがある。また、図４Ｂに示す画像のように、背景の除去処理がうまくいかないことがある。これらの場合も、このような画像に基づく訓練データを識別器３０に学習させることは適切ではない。

　以上の点を踏まえ、本実施形態では以下のようにして、識別器３０に学習させる訓練データを選別できるようにした。

　以下、本実施形態に係る情報処理装置１０で実装されている機能、及び、本実施形態に係る情報処理装置１０で実行される処理について、説明する。

　図５Ａ、及び、図５Ｂは、本実施形態に係る情報処理装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１０で、図５Ａ、及び、図５Ｂに示す機能のすべてが実装される必要はなく、また、図５Ａ、及び、図５Ｂに示す機能以外の機能が実装されていても構わない。

　図５Ａに示すように、本実施形態に係る情報処理装置１０には、機能的には例えば、識別器３０、データ記憶部３２、正例訓練データ生成部３４、負例訓練データ生成部３６、学習部３８、入力画像取得部４０、入力特徴量データ生成部４２、推定部４４、が含まれる。

　そして、データ記憶部３２には、正例訓練データ記憶部５０、負例訓練データ記憶部５２が、含まれる。

　図５Ｂには、図５Ａに示す正例訓練データ生成部３４で実装されている機能の詳細が示されている。図５Ｂに示すように、正例訓練データ生成部３４には、機能的には例えば、サンプル画像取得部６０、特徴量抽出部６２、記憶制御部６４、基準画像選択部６６が含まれる。

　正例訓練データ記憶部５０、負例訓練データ記憶部５２は、記憶部１４を主として実装される。識別器３０は、プロセッサ１２、及び、記憶部１４を主として実装される。入力画像取得部４０、サンプル画像取得部６０は、プロセッサ１２、及び、撮影部２０を主として実装される。負例訓練データ生成部３６、学習部３８、入力特徴量データ生成部４２、推定部４４、特徴量抽出部６２、記憶制御部６４、基準画像選択部６６は、プロセッサ１２を主として実装される。

　識別器３０は、本実施形態では、例えば、図２及び図３を参照して説明したような、入力画像に写るオブジェクトが正クラスに属するものであるか否かを識別するＳＶＭなどの機械学習モデルである。

　正例訓練データ生成部３４は、本実施形態では例えば、識別器３０に正例として学習させる上述の正例訓練データを生成する。正例訓練データ生成部３４は、生成される正例訓練データを正例訓練データ記憶部５０に記憶させる。

　正例訓練データ生成部３４は、例えば、撮影部２０によって撮影される複数の正例サンプル画像のそれぞれについて、当該正例サンプル画像に対応する特徴量を示す特徴量データである正例特徴量データを生成する。これらの正例サンプル画像のそれぞれには、識別器３０における正クラスに属するオブジェクトが写っている。ここで、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるＣＮＮを用いた特徴量データの生成が実行されることで、正例サンプル画像に対応する正例特徴量データが生成されてもよい。

　負例訓練データ生成部３６は、本実施形態では例えば、識別器３０に負例として学習させる上述の負例訓練データを生成する。負例訓練データ生成部３６は、生成される負例訓練データを負例訓練データ記憶部５２に記憶させる。

　本実施形態では例えば、撮影部２０によって撮影された画像やＷｅｂから収集された画像である、負例サンプル画像が予め情報処理装置１０に蓄積されている。これらの負例サンプル画像のそれぞれには、識別器３０における負クラスに属するオブジェクトが写っている。そして、負例訓練データ生成部３６は、これらの負例サンプル画像のそれぞれについて、当該負例サンプル画像に対応する特徴量を示す特徴量データである負例特徴量データを生成する。ここで、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるＣＮＮを用いた特徴量データの生成が実行されることで、負例サンプル画像に対応する負例特徴量データが生成されてもよい。

　学習部３８は、本実施形態では例えば、正例訓練データ記憶部５０に記憶されている正例訓練データを正例とし、負例訓練データ記憶部５２に記憶されている負例訓練データを負例として学習させた識別器３０（学習済の識別器３０）を生成する。

　入力画像取得部４０は、本実施形態では例えば、撮影部２０によって撮影された、写っているオブジェクトの推定対象となる入力画像を取得する。

　入力特徴量データ生成部４２は、本実施形態では例えば、上述のようにして、入力画像に対応する特徴量を示す入力特徴量データを生成する。

　推定部４４は、本実施形態では例えば、入力特徴量データを識別器３０に入力することで、入力画像に写るオブジェクトが識別器３０における正クラスに属するものであるか否かを推定する。ここで推定部４４は、例えば、入力特徴量データの入力に応じて識別器３０から出力される識別スコアの値を特定してもよい。

　本実施形態では例えば、入力画像の撮影及び取得、入力特徴量データの生成、及び、入力画像に写るオブジェクトが正クラスに属するものであるか否かの推定が、所定のフレームレートで繰り返し実行される。このようにして、本実施形態では、フレームごとに、当該フレームで撮影された入力画像に写るオブジェクトが正クラスに属するものであるか否かが推定される。そのため、本実施形態によれば、高速な物体検出が実現可能となっている。また、本実施形態によれば、ユーザが用意した少量のデータによる識別器３０の学習が可能となっており、従来技術のように識別器３０の学習のために大量のラベル付きデータを用意する必要はない。

　以下、正例訓練データ生成部３４の機能についてさらに説明する。上述のように、正例訓練データ生成部３４には、機能的には例えば、サンプル画像取得部６０、特徴量抽出部６２、記憶制御部６４、基準画像選択部６６、が含まれる。

　サンプル画像取得部６０は、本実施形態では例えば、サンプルを撮影した画像であるサンプル画像を繰り返し取得する。サンプル画像取得部６０は、例えば、正クラスに属するオブジェクトが写る正例サンプル画像を繰り返し取得する。例えば、ユーザは撮影部２０を動かしながら様々な角度からサンプルを撮影した動画像を撮影する。サンプル画像取得部６０は、このようにして撮影された動画像に含まれるフレーム画像を取得する。

　特徴量抽出部６２は、本実施形態では例えば、サンプル画像に基づいて、当該サンプル画像に対応する特徴量を示す特徴量データを生成する。ここでサンプル画像に対して、上述した領域の抽出、正規化処理、及び、メトリック学習が実行済であるＣＮＮを用いた特徴量データの生成が実行されることで、サンプル画像に対応する特徴量データが生成されてもよい。

　上述のように、正例サンプル画像の取得が行われる場合には、特徴量抽出部６２は、例えば、当該正例サンプル画像に対応する特徴量を示す正例特徴量データを生成する。

　記憶制御部６４は、本実施形態では例えば、新たな正例サンプル画像に基づいて生成される、当該正例サンプル画像に対応する新たな正例特徴量データを正例訓練データとして正例訓練データ記憶部５０に記憶させるか、当該正例特徴量データを破棄するかを制御する。本実施形態では、記憶制御部６４は、例えば、正例訓練データ記憶部５０に記憶されている正例訓練データが示す特徴量と、新たなサンプル画像に基づいて生成される、当該サンプル画像に対応する新たな正例特徴量データと、の差を特定する。ここで、正例訓練データ記憶部５０に記憶されている複数の訓練データのそれぞれが示す特徴量のうち新たなサンプル画像に対応する特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差が特定されてもよい。そして、記憶制御部６４は、特定される差に基づいて、当該正例特徴量データを正例訓練データとして正例訓練データ記憶部５０に記憶させるか、当該正例特徴量データを破棄するかを制御する。

　基準画像選択部６６は、本実施形態では例えば、サンプルを撮影した複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する。

　本実施形態では例えば、所定数（例えば５０）の候補画像がサンプル画像取得部６０によって取得される。ここでは例えば、識別器３０における正クラスに属するオブジェクトが写る候補画像が取得される。そして、特徴量抽出部６２は、これらの候補画像のそれぞれについて、当該候補画像に対応する正例特徴量データを生成する。

　以下、例えば、これら５０個の候補画像のそれぞれを候補画像Ｐ（１）～Ｐ（５０）と表現し、候補画像Ｐ（ｎ）（ｎ＝１～５０）に基づいて生成される正例特徴量データが示す特徴量をＣ（ｎ）と表現することとする。

　そして、特徴量抽出部６２は、これらの候補画像のそれぞれについて、対応する正例特徴量データが示す特徴量が近いものから順に所定数（例えばＮ個）の他の候補画像を特定する。そして、特徴量抽出部６２は、特定された他の候補画像に対応する特徴量と当該候補画像の特徴量との差の合計（以下、近傍特徴量差合計と呼ぶ。）を特定する。

　例えば候補画像Ｐ（１）について、特徴量Ｃ（２）～Ｃ（５０）のうちから、Ｃ（１）との差が小さなものから順にＮ個を選択する。これらの特徴量をＤ（１）～Ｄ（Ｎ）と表現する。この場合、例えば、（Ｃ（１）とＤ（１）との間の距離）＋（Ｃ（１）とＤ（２）の間の距離）＋・・・＋（Ｃ（１）とＤ（Ｎ）との間の距離）が候補画像Ｐ（１）についての近傍特徴量差合計として特定される。同様にして、候補画像Ｐ（２）～Ｐ（５０）についても近傍特徴量差合計が特定される。そして、基準画像選択部６６は、対応する近傍特徴量差合計が最も小さな候補画像を基準画像に選択する。

　このように、基準画像選択部６６が、他の所定数の候補画像のそれぞれとの特徴量の差の合計の小ささに基づいて、複数の候補画像のうちから基準画像を選択してもよい。

　そして、記憶制御部６４は、基準画像に対応する特徴量を示す正例特徴量データを最初の正例訓練データとして正例訓練データ記憶部５０に記憶させる。

　ここで、本実施形態に係る情報処理装置１０において実行される、特徴量データの選別処理の流れの一例を、図６Ａ、及び、図６Ｂに例示するフロー図を参照しながら説明する。なお、以下に示す処理例では、ユーザは撮影部２０を動かしながら様々な角度からサンプルを撮影した動画像を撮影することとする。そして、撮影部２０は、サンプルを撮影したフレーム画像を所定のフレームレートで生成することとする。また、正例訓練データ記憶部５０には、正例訓練データが１つも記憶されていないこととする。

　まず、サンプル画像取得部６０が、撮影部２０によって正クラスに属するオブジェクトのサンプルが撮影された最新の画像である候補画像を取得する（Ｓ１０１）。

　そして、特徴量抽出部６２が、Ｓ１０１に示す処理で取得された候補画像に基づいて、当該候補画像に対応する特徴量を示す正例特徴量データを生成する（Ｓ１０２）。

　そして、特徴量抽出部６２が、Ｓ１０２に示す処理で生成された正例特徴量データの数が所定数（例えば５０）に達したか否かを確認する（Ｓ１０３）。

　生成された特徴量データの数が所定数に達していない場合は（Ｓ１０３：Ｎ）、Ｓ１０１に示す処理に戻る。

　生成された正例特徴量データの数が所定数に達した場合は（Ｓ１０３：Ｙ）、特徴量抽出部６２が、上述のようにして、所定の基準に従って、Ｓ１０１に示す処理で取得された所定数の候補画像のうちの１つを基準画像として選択する（Ｓ１０４）。

　そして、記憶制御部６４が、Ｓ１０４に示す処理で選択された基準画像に基づいてＳ１０２に示す処理で生成された正例特徴量データを正例訓練データとして正例訓練データ記憶部５０に記憶させる（Ｓ１０５）。

　Ｓ１０１～Ｓ１０５に示す処理が実行されている間は、サンプルの正面の比較的狭い範囲において撮影部２０による撮影が行われることが望ましい。また、Ｓ１０５に示す処理が終了したタイミングで、その旨が、表示部１８への表示や音声出力などによって、ユーザに通知されることが望ましい。

　Ｓ１０５に示す処理が終了すると、サンプル画像取得部６０が、当該サンプルが撮影された最新の画像であるサンプル画像を取得する（Ｓ１０６）。

　そして、特徴量抽出部６２が、Ｓ１０６に示す処理で取得されたサンプル画像に基づいて、当該サンプル画像に対応する特徴量を示す正例特徴量データを生成する（Ｓ１０７）。

　そして、記憶制御部６４が、Ｓ１０７に示す処理で生成された特徴量データが所定の条件を満足するか否かを判定する（Ｓ１０８）。

　Ｓ１０８に示す処理では例えば、正例訓練データ記憶部５０に記憶されている正例訓練データのうちから、示されている特徴量がＳ１０７に示す処理で生成された正例特徴量データが示す特徴量に最も近いものが選択される。そして、選択された正例訓練データが示す特徴量とＳ１０７に示す処理で生成された正例特徴量データが示す特徴量との間のコサイン距離を示す値Ｄ＿ｍｉｎが特定される。

　そして、このコサイン距離を示す値Ｄ＿ｍｉｎが所定の第１の閾値Ｔｈ＿ｂより大きく所定の第２の閾値Ｔｈ＿ｕより小さい場合は、Ｓ１０７に示す処理で生成された特徴量データが所定の条件を満足すると判定される。そうでない場合は、Ｓ１０７に示す処理で生成された特徴量データが所定の条件を満足しないと判定される。

　Ｓ１０７に示す処理で生成された正例特徴量データが所定の条件を満足すると判定された場合は（Ｓ１０８：Ｙ）、記憶制御部６４は、Ｓ１０７に示す処理で生成された正例特徴量データを正例訓練データとして正例訓練データ記憶部５０に記憶させる（Ｓ１０９）。

　Ｓ１０７に示す処理で生成された正例特徴量データが所定の条件を満足しないと判定された場合は（Ｓ１０８：Ｎ）、記憶制御部６４は、Ｓ１０７に示す処理で生成された正例特徴量データを破棄する（Ｓ１１０）。

　そして、記憶制御部６４は、所定の終了条件（例えば、正例訓練データ記憶部５０に記憶された正例訓練データの数が所定数以上となった、など）を満足するか否かを確認する（Ｓ１１１）。

　所定の終了条件を満足しない場合は（Ｓ１１１：Ｎ）、Ｓ１０６に示す処理に戻る。

　所定の終了条件を満足する場合は（Ｓ１１１：Ｙ）、本処理例に示す処理は終了される。

　図６Ａ、及び、図６Ｂに示す処理によって最終的に正例訓練データ記憶部５０に記憶された正例訓練データと負例訓練データ記憶部５２に記憶された負例訓練データを、学習部３８は、識別器３０に学習させることとなる。

　本処理例に示す処理において、閾値ＴＨ＿ｂの値や閾値ＴＨ＿ｕの値は、基準画像の選択時における当該候補画像の特徴量と他の候補画像の特徴量との差に応じて決定される動的な値であってもよい。例えば、特徴量抽出部６２が、各候補画像について、対応する正例特徴量データが示す特徴量が近いものから順に所定数（例えばＭ個（Ｍ＜Ｎ））の他の候補画像を特定してもよい。そして、特徴量抽出部６２が、各候補画像について、特定されたＭ個の他の候補画像に対応する特徴量と当該候補画像の特徴量との差を特定してもよい。そして、特徴量抽出部６２が、特定された差の平均値の半分の値を閾値ＴＨ＿ｂの値として決定してもよい。

　また、トラッキングを行うことにより直前の撮影との空間的な連続性がないと判定されるサンプル画像に対応する正例特徴量データは破棄されるようにしてもよい。

　本実施形態では、以上のようにして、正例訓練データ記憶部５０に記憶されている正例訓練データが示す特徴量を基準にして、新たな特徴量データを正例訓練データとして正例訓練データ記憶部５０に記憶させるか破棄するかが制御される。このようにして本実施形態によれば、識別器３０に学習させる訓練データを選別できることとなる。

　また、本実施形態において、記憶制御部６４が、正例訓練データ記憶部５０に記憶されている正例訓練データが示す特徴量と、新たな特徴量データが示す特徴量と、の差が所定の差よりも小さい場合に、新たな特徴量データが破棄されるよう制御してもよい。例えば、上述のように、記憶制御部６４が、上述の値Ｄ＿ｍｉｎが上述の第１の閾値Ｔｈ＿ｂよりも小さい場合に、新たな特徴量データが破棄されるよう制御してもよい。このようにすることで、例えば、似たような特徴量を示す正例訓練データが重複して正例訓練データ記憶部５０に記憶されることを防ぐことができる。

　また、本実施形態において、記憶制御部６４が、正例訓練データ記憶部５０に記憶されている正例訓練データが示す特徴量と、新たな特徴量データが示す特徴量と、の差が所定の差よりも大きい場合に、新たな特徴量データが破棄されるよう制御してもよい。例えば、上述のように、記憶制御部６４が、上述の値Ｄ＿ｍｉｎが上述の第２の閾値Ｔｈ＿ｕよりも大きい場合に、新たな特徴量データが破棄されるよう制御してもよい。このようにすることで、例えば、ブレ、ボケ、サンプル以外の物体の写りこみ、などが発生していた際に撮影されたサンプル画像に基づく特徴量データが破棄されるよう制御できる。

　なお、本発明は上述の実施形態に限定されるものではない。

　例えば、Ｓ１０８に示す処理での判定に用いられる距離は、上述のようなコサイン距離である必要はない。例えば、選択された正例訓練データが示す特徴量とＳ１０７に示す処理で生成された特徴量データが示す特徴量との間のユークリッド距離を示す値が値Ｄ＿ｍｉｎとして特定されてもよい。そして、このユークリッド距離を示す値Ｄ＿ｍｉｎが所定の第１の閾値Ｔｈ＿ｂより大きく所定の第２の閾値Ｔｈ＿ｕより小さい場合は、Ｓ１０７に示す処理で生成された特徴量データが所定の条件を満足すると判定されてもよい。そして、そうでない場合は、Ｓ１０７に示す処理で生成された特徴量データが所定の条件を満足しないと判定されてもよい。

　また、例えば、識別器３０は、任意のカーネルのＳＶＭであってもよい。また、識別器３０は、Ｋ近傍法、ロジスティック回帰、アダブースト等のブースティング手法などの手法を用いた識別器であってもよい。また、識別器３０が、ニューラルネットワーク、ナイーブベイズ分類器、ランダムフォレスト、決定木などによって実装されてもよい。また、識別器３０の分類クラスは２クラスである必要はなく、３クラス以上の分類が可能であるもの（すなわち、互いに異なる正クラスが複数存在するもの）であってもよい。

　また、識別器３０が、入力画像に写るオブジェクトが正クラスに属するものであることを示すか否かを示す二値の識別スコアを出力するものであってもよい。

　また、入力画像から複数の領域が抽出されて、それぞれの領域について、推定部４４にって、当該領域の画像に写るオブジェクトが正クラスに属するものであるか否かが推定されてもよい。

　また、上述した手法は、負例のサンプルを撮影した負例サンプル画像に基づいて、負例訓練データを生成して、生成された複数の負例訓練データを負例訓練データ記憶部５２に蓄積させる場面にも適用可能である。この場合、負例サンプル画像に基づいて生成される負例特徴量データを負例訓練データとして負例訓練データ記憶部５２に記憶させるか、当該負例特徴量データを破棄するか、が制御されることとなる。

　また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

　サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを記憶する訓練データ記憶部と、
　前記サンプルを新たに撮影した新たなサンプル画像を取得するサンプル画像取得部と、
　前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する特徴量データ生成部と、
　前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する記憶制御部と、
　を含むことを特徴とする訓練データ選別装置。
　前記記憶制御部は、前記訓練データ記憶部に記憶されている複数の前記訓練データのそれぞれが示す特徴量のうち前記特徴量データが示す特徴量に最も近いものと、当該特徴量データが示す特徴量との差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する、
　ことを特徴とする請求項１に記載の訓練データ選別装置。
　前記記憶制御部は、前記差が所与の差よりも大きい場合に、当該特徴量データが破棄されるよう制御する、
　ことを特徴とする請求項１又は２に記載の訓練データ選別装置。
　前記記憶制御部は、前記差が所与の差よりも小さい場合に、当該特徴量データが破棄されるよう制御する、
　ことを特徴とする請求項１から３のいずれか一項に記載の訓練データ選別装置。
　前記サンプルを撮影した複数の候補画像を取得する候補画像取得部と、
　前記複数の候補画像のそれぞれに対応する特徴量に基づいて、当該複数の候補画像のうちから基準画像を選択する基準画像選択部と、をさらに含み、
　前記記憶制御部は、前記基準画像に対応する特徴量を示す前記特徴量データを最初の前記訓練データとして前記訓練データ記憶部に記憶させる、
　ことを特徴とする請求項１から４のいずれか一項に記載の訓練データ選別装置。
　前記基準画像選択部は、他の所定数の前記候補画像のそれぞれとの前記特徴量の差の合計の小ささに基づいて、前記複数の候補画像のうちから基準画像を選択する、
　ことを特徴とする請求項５に記載の訓練データ選別装置。
　サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させるステップと、
　前記サンプルを新たに撮影した新たなサンプル画像を取得するステップと、
　前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成するステップと、
　前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御するステップと、
　を含むことを特徴とする訓練データ選別方法。
　サンプルを撮影したサンプル画像に対応する特徴量を示す訓練データを訓練データ記憶部に記憶させる手順、
　前記サンプルを新たに撮影した新たなサンプル画像を取得する手順、
　前記新たなサンプル画像に基づいて、当該新たなサンプル画像に対応する特徴量を示す特徴量データを生成する手順、
　前記訓練データ記憶部に記憶されている前記訓練データが示す特徴量と、前記特徴量データが示す特徴量と、の差に基づいて、当該特徴量データを前記訓練データとして前記訓練データ記憶部に記憶させるか、当該特徴量データを破棄するか、を制御する手順、
　をコンピュータに実行させることを特徴とするプログラム。