WO2016157499A1

WO2016157499A1 - 画像処理装置、物体検知装置、画像処理方法

Info

Publication number: WO2016157499A1
Application number: PCT/JP2015/060482
Authority: WO
Inventors: 克行中村; 秋山　靖浩; 達彦影広
Original assignee: 株式会社日立製作所
Priority date: 2015-04-02
Filing date: 2015-04-02
Publication date: 2016-10-06
Also published as: US10373024B2; JPWO2016157499A1; JP6546271B2; US20180107901A1

Abstract

　入力された画像中の対象物を識別して前記対象物を複数の種別のいずれかに分類する識別器を評価するための画像処理装置であって、前記識別器を用いて、前記対象物の種別が既知である複数の検証用画像にそれぞれ含まれる前記対象物を識別して前記複数の種別のいずれかを前記検証用画像ごとに出力することで、前記識別器の識別性能を求める識別部と、前記識別部により求められた前記識別器の識別性能に基づいて、前記識別器に対する評価結果を出力する評価部と、を備える。

Description

画像処理装置、物体検知装置、画像処理方法

　本発明は、画像処理装置、物体検知装置および画像処理方法に関する。

　画像処理分野において、機械学習に基づく物体認識技術は広く普及している。この技術を利用して、たとえば、交通事故を未然に防ぐ車載予防安全システムや、不審者の侵入を報知する監視システムなどの実用化が進められている。こうしたシステムでは、認識対象とする物体の教師画像を収集および整備することで、サポートベクターマシン、ブースティング、多層ニューラルネットワーク等に代表される機械学習手法を用いて、物体認識を行う識別器の学習を行っている。

　機械学習に用いる教師データの整備の効率化に関して、特許文献１に記載の技術が知られている。特許文献１には、CG（Computer Graphics）を活用して、任意視点から見た三次元形状モデルの学習用画像を生成し、生成された学習用画像を用いて識別器の生成および学習を行う技術が開示されている。

日本国特開２０１４－１５７５０９号公報

　特許文献１の技術では、任意視点の学習用画像を生成することはできるが、その学習用画像を用いて生成および学習された識別器の識別性能がどの程度であるかを適切に評価することができない。

　本発明による画像処理装置は、入力された画像中の対象物を識別して前記対象物を複数の種別のいずれかに分類する識別器を評価するためのものであって、前記識別器を用いて、前記対象物の種別が既知である複数の検証用画像にそれぞれ含まれる前記対象物を識別して前記複数の種別のいずれかを前記検証用画像ごとに出力することで、前記識別器の識別性能を求める識別部と、前記識別部により求められた前記識別器の識別性能に基づいて、前記識別器に対する評価結果を出力する評価部と、を備える。
　本発明による物体検知装置は、上記の画像処理装置を用いて学習が行われた識別器を用いて、カメラから入力された映像中の物体を検出する物体検出部と、前記物体検出部により検出された物体の危険度を判定する危険度判定部と、を備える。
　本発明による画像処理方法は、入力された画像中の対象物を識別して前記対象物を複数の種別のいずれかに分類する識別器を評価するための、コンピュータを用いたものであって、前記コンピュータにより、前記識別器を用いて、前記対象物の種別が既知である複数の検証用画像にそれぞれ含まれる前記対象物を識別して前記複数の種別のいずれかを前記検証用画像ごとに出力することで、前記識別器の識別性能を求め、前記コンピュータにより、求められた前記識別器の識別性能に基づいて、前記識別器に対する評価結果を出力する。

　本発明によれば、識別器の識別性能を適切に評価することができる。

第一の実施形態による画像処理装置の構成を示すブロック図である。第一の実施形態による画像処理装置の動作を説明するフローチャートである。識別器の識別性能を表すテーブルの一例を示す図である。カテゴリごとの未検知率の変化の様子を示す図である。教師データ生成部の一構成例を示すブロック図である。教師データ生成部の動作を説明するフローチャートである。教師画像の生成方法を説明する図である。正解データの生成方法を説明する図である。第二の実施形態による画像処理装置の構成を示すブロック図である。識別器の学習の収束状況の一例を示す図である。第三の実施形態による画像処理システムの構成を示すブロック図である。

（第一の実施形態）
　図１は、本発明の第一の実施形態による画像処理装置１０の構成を示すブロック図である。図１に示す画像処理装置１０は、入力部１０１、学習部１０２、識別部１０３、評価部１０４、教師データ生成部１０５、出力部１０６を備える。画像処理装置１０には、検証データが格納されたデータベース１０７と、識別器１０８とが接続されている。なお、データベース１０７や識別器１０８は、画像処理装置１０の内部にそれぞれ設けられていてもよい。画像処理装置１０の各部は、ハードウェアによって構成されてもよいし、コンピュータで実行されるソフトウェアによって構成されていてもよい。また、ハードウェアとソフトウェアを組み合わせたモジュールであってもよい。

　入力部１０１は、学習部１０２に対する入力データの設定を行う部分である。学習部１０２は、入力部１０１から入力されたデータを用いて識別器１０８の学習を行う部分である。識別部１０３は、識別器１０８を用いて、データベース１０７に格納された検証データから対象物の識別を行い、その識別結果に基づいて識別器１０８の識別性能を求める部分である。評価部１０４は、識別部１０３で求められた識別器１０８の識別性能に基づいて、識別器１０８の評価を行う部分である。教師データ生成部１０５は、評価部１０４による識別器１０８の評価結果に基づいて、学習部１０２が識別器１０８の学習に用いるための教師データを生成する部分である。出力部１０６は、学習部１０２による識別器１０８の学習状況を判断し、学習済みの識別器１０８を出力する部分である。

　識別器１０８は、入力された画像中の対象物を識別してその対象物を複数の種別のいずれかに分類する。識別器１０８の識別性能は、学習部１０２が行う学習によって向上させることができる。データベース１０７に格納された検証データは、識別器１０８が識別を行う対象物の画像をそれぞれ含み、その対象物の種別が既知である複数の検証用画像と、各検証用画像における対象物の種別が何であるかを示す種別情報とによって構成されている。なお、検証用画像には実画像を用いることが好ましいが、CG画像を含めても構わない。

　図２は、本発明の第一の実施形態による画像処理装置１０の動作を説明するフローチャートである。

　ステップＳ２００１において、入力部１０１は、評価および学習の対象とする識別器１０８の入力を受け付け、教師データ生成部１０５から出力される教師データに基づいて、学習部１０２が識別器１０８の学習において用いる教師データおよび学習パラメータを設定する。そして、入力された識別器１０８と、設定したこれらのデータとを、学習部１０２への入力データとして出力する。

　ステップＳ２００２において、学習部１０２は、入力部１０１からの入力データに含まれる教師データおよび学習パラメータに基づいて、識別器１０８の学習を行う。ここで、識別器１０８には、たとえばDeep Convolutional Neural Network（DCNN）に代表される多クラス識別器などを用いることができる。また、学習部１０２が識別器１０８の学習に用いる学習アルゴリズムとしては、たとえば最急降下法、ニュートン法、確率的勾配降下法（SGD ：Stochastic Gradient Descent）などの最適化アルゴリズムを用いることができる。この場合、学習パラメータとしては、学習率、各種活性化関数（たとえば、シグモイド関数、ReLU、双曲線関数など）、バッチサイズ、フィルタサイズ、フィルタ数などを用いることができる。なお、識別器１０８はDCNNに限定されるものではない。全結合型のネットワークであるDeep Neural Network（DNN）や、マルチクラスサポートベクターマシン、ロジスティック回帰などを利用して、識別器１０８を構成してもよい。

　ステップＳ２００３において、識別部１０３は、データベース１０７に格納された検証データを用いて、ステップＳ２００２で学習を行った識別器１０８の識別性能を評価する。ここでは、識別部１０３は、識別器１０８を用いて、検証データにおける複数の検証用画像にそれぞれ含まれる対象物の識別を行い、その対象物を予め決められた複数の種別のうちいずれかに分類する。そして、得られた各検証用画像に対する対象物の種別分類結果と、検証データの種別情報とを照合することで、識別器１０８による対象物の識別結果が正解であるか否かを検証用画像ごとに判断する。この判断結果を集計することで、識別部１０３は、識別器１０８の識別性能を求めることができる。

　図３は、識別部１０３により求められた識別器１０８の識別性能を表すテーブルの一例を示す図である。図３では、識別器１０８の識別性能をテーブル形式で表した例として、検証用画像に対する対象物の識別結果を上位カテゴリおよびサブカテゴリごとに集計した評価テーブル３０１を示している。

　図３の評価テーブル３０１において、上位カテゴリは、識別器１０８が行う多クラス識別における各クラス種別を表す。たとえば、車両の周囲を撮影した画像における様々な被写体を対象物として、識別器１０８が識別を行う場合には、大型車、中型車、小型車、バイク、自転車、歩行者、背景などが上位カテゴリとして設定される。一方、サブカテゴリは、各上位カテゴリをさらに細分化した属性を表す。たとえば、上記の各上位カテゴリに対して、セダン・軽自動車・トラック・バスといった車両種別や、赤・白・黒といった車体色や、０度・４５度・９０度といったカメラから見た物体姿勢や、市街地・郊外・山間部といった背景種別などがサブカテゴリとして設定される。

　識別部１０３は、各検証用画像に対する識別器１０８での対象物の識別結果に基づいて、これらの上位カテゴリおよびサブカテゴリごとに、様々な評価基準に応じた評価値を算出する。そして、算出した評価値を集計することで、評価テーブル３０１を作成することができる。図３では、Ｎ種類の評価基準が設定されており、各評価基準に対する評価値を評価テーブル３０１にまとめた例を示している。なお、上記の評価値には、識別器１０８の識別性能を規定するための指標として、様々なものを用いることができる。たとえば、対象物の検知性能、すなわち画像から識別すべき対象物を検知する際の網羅性に対する指標である再現率（Recall）や、対象物の検知精度、すなわち画像から識別すべき対象物を検知する際の正確性に対する指標である適合率（Precision）や、検知性能と検知精度の両方を考慮した指標であるＦ値（F-measure）などを、評価値として用いることができる。また、サブカテゴリごとの分類結果に対する評価値としては、最大確信度、最小確信度、平均確信度などを用いることができる。

　図２の説明に戻ると、ステップＳ２００４において、評価部１０４は、ステップＳ２００３での識別部１０３による識別性能の評価結果に基づいて、識別器１０８の識別誤差特性を評価する。ここでは、評価部１０４は、図３に例示した評価テーブル３０１において集計された評価値に基づいて、上位カテゴリのいずれか少なくとも一つと、サブカテゴリのいずれか少なくとも一つとを、教師データが不足しているカテゴリとして特定する。たとえば、評価テーブル３０１において再現率（Recall）が所定値以下である上位カテゴリとサブカテゴリの組み合わせや、平均確信度が負であるカテゴリとサブカテゴリの組み合わせを、教師データが不足しているカテゴリとして特定する。このようにして、識別部１０３による識別性能の評価結果から、どのカテゴリで教師データが不足しているかを評価部１０４において判断することにより、識別器１０８の識別誤差特性の評価を行うことができる。その後、評価部１０４は、教師データが不足しているカテゴリとして特定した上位カテゴリおよびサブカテゴリの情報を、識別器１０８に対する評価結果として、教師データ生成部１０５に出力する。

　なお、ステップＳ２００４で識別器１０８に対する評価結果を出力する際に、評価部１０４は、各サブカテゴリ間の相関性に基づいて、上記のようにして特定した以外のサブカテゴリの情報を出力してもよい。たとえば、車両種別を表すサブカテゴリとして、RVとSUVが設定されていたとする。このような場合、これらの車両種別に該当する車両同士は形状が似ており、互いに相関が高いと考えられる。したがって、これらのサブカテゴリのいずれか一方が特定された場合には、もう一方のサブカテゴリの情報も併せて出力するようにしてもよい。

　ステップＳ２００５において、教師データ生成部１０５は、ステップＳ２００４で識別器１０８に対する評価結果として評価部１０４から出力されたカテゴリの情報に基づいて、教師データを生成する。なお、教師データ生成部１０５が教師データを生成する手法の詳細については、図４、図５、図６、図７を用いて後述する。

　ステップＳ２００６において、出力部１０６は、学習部１０２による識別器１０８の学習状況が所定の終了条件を満たしたか否かを判定する。ここでは、ステップＳ２００３で識別部１０３により求められた識別性能の評価結果に基づいて、識別器１０８の学習状況を判断する。たとえば、図３に例示した評価テーブル３０１における全ての評価値が所定値以上となった場合や、学習によるコスト低減量が所定値未満となった場合などに、識別器１０８の学習状況が終了条件を満たしたと判断することができる。その結果、識別器１０８の学習状況が終了条件を満たしたと判定した場合には、図２の処理をステップＳ２００７に進める。一方、識別器１０８の学習状況が終了条件を満たしていないと判定した場合には、ステップＳ２００１に戻って前述の処理を繰り返す。

　または、ステップＳ２００６において、出力部１０６は、評価テーブル３０１における各カテゴリの評価値から、識別器１０８の学習状況を表す指標値を算出し、その指標値と所定の基準値とを比較することで、識別器１０８の学習状況が終了条件を満たしたか否かを判定してもよい。この場合の具体的な処理内容について、図４を参照して以下に説明する。

　図４は、評価テーブル３０１における評価値のうち、前述の再現率（Recall）に基づいて計算されたカテゴリごとの未検知率の変化の様子を示す図である。ここで、未検知率の値をVuとし、再現率の値をVrとすると、Vu＝１.0－Vrと計算できる。図４において、実線３０２は、１回目の学習で得られたカテゴリごとの未検知率Vuの様子を表しており、破線３０３は、２回目の学習で得られたカテゴリごとの未検知率Vuの様子を表している。また、一点鎖線３０４は、Ｎ回目の学習で得られたカテゴリごとの未検知率Vuの様子を表している。図４に示すように、実線３０２および破線３０３は閾値Vthを上回っている区間（カテゴリ）が存在するのに対して、一点鎖線３０４は、全ての区間（カテゴリ）で閾値Vthを下回っている。これにより、未検知率Vuを識別器１０８の学習状況の指標値とし、この未検知率Vuが閾値Vth以下であることを終了条件とすることで、Ｎ回目の学習により、識別器１０８の学習状況が終了条件を満たしたと判定することができる。

　図２の説明に戻ると、ステップＳ２００７において、出力部１０６は、それまでの学習で得られた学習済みの識別器１０８を出力する。これにより、画像処理装置１０において、学習部１０２による識別器１０８の学習が終了する。

　ステップＳ２００７の処理が実行されたら、画像処理装置１０は、図２のフローチャートに示す処理を完了する。

　次に、図２のステップＳ２００５で教師データ生成部１０５が教師データを生成する手法の詳細について説明する。図５は、教師データ生成部１０５の一構成例を示すブロック図である。図５に示す教師データ生成部１０５は、物体データ４０１、背景データ４０２、パラメータ履歴情報４０３、物体設定部４０４、背景設定部４０５、パラメータ設定部４０６、教師画像生成部４０７およびアノテーション部４０８を備える。なお、図５では、物体設定部４０４、背景設定部４０５およびパラメータ設定部４０６をまとめて、設定部４０として示している。

　物体データ４０１は、識別器１０８が識別対象とする物体の三次元形状モデルを表すデータであり、幾何情報とマテリアル情報からなる。幾何情報は、点・線・面などの物体の形状に関する情報や、ヘッドライト・ナンバープレート・タイヤといった構造化された物体の部位に関する情報などを含む。マテリアル情報は、反射、透過、屈折、発光などの物体の材質特性に関する情報である。背景データ４０２は、識別器１０８が識別対象とする背景の三次元形状モデルである。なお、イメージベーストライティング（IBL）を想定して、背景データ４０２を三次元形状モデルではなく、全球画像で保持してもよい。この場合には、全球画像と物理シェーダを組み合わせることで、極めて実画像に近い画像を生成できる。パラメータ履歴情報４０３は、過去に教師データを生成する際に用いたパラメータの履歴情報である。

　物体設定部４０４は、物体データ４０１のうちで教師画像の生成に用いる物体データの設定を行う。背景設定部４０５は、背景データ４０２のうちで教師画像の生成に用いる背景データの設定を行う。パラメータ設定部４０６は、教師画像を生成するためのパラメータ設定を行う。

　教師画像生成部４０７は、設定部４０での設定結果に基づいて教師画像を生成する。アノテーション部４０８は、教師画像生成部４０７で生成された教師画像に基づいて教師データを生成し、出力する。

　図６は、教師データ生成部１０５の動作を説明するフローチャートである。

　ステップＳ５００１において、設定部４０は、図２のステップＳ２００４で評価部１０４から出力された上位カテゴリおよびサブカテゴリの情報を受信する。前述のように、評価部１０４は、識別器１０８の識別誤差特性の評価結果として、教師データが不足しているカテゴリとして特定した上位カテゴリおよびサブカテゴリの情報を出力する。ステップＳ５００１では、この情報が、設定部４０の物体設定部４０４、背景設定部４０５、パラメータ設定部４０６にそれぞれ入力される。

　ステップＳ５００２において、物体設定部４０４は、ステップＳ５００１で受信した上位カテゴリおよびサブカテゴリの情報に基づいて、教師画像を生成する物体データを設定する。ここでは、受信した上位カテゴリおよびサブカテゴリの情報から、教師データが不足しているカテゴリとして、たとえば「車種：クーペ」、「車体色：黒」などの物体種別が分かる。そのため、このような物体種別に該当する物体データを物体データ４０１から取得し、教師画像を生成する物体データとして設定する。なお、色に関しては、物体データ４０１において同じ色情報が存在しない場合には、その色情報を置換することで近似色や新たな色を生成し、物体データを設定してもよい。また、物体設定部４０４が設定する物体データは、単一の物体に関するデータに限らず、複数種類の物体に関するデータであってもよい。

　ステップＳ５００３において、背景設定部４０５は、ステップＳ５００１で受信した上位カテゴリおよびサブカテゴリの情報に基づいて、教師画像を生成する背景データを設定する。ここでは、受信した上位カテゴリおよびサブカテゴリの情報から、教師データが不足しているカテゴリとして、たとえば「市街地」「西日直射」などの背景種別が分かる。そのため、このような背景種別に関する背景データを背景データ４０２から取得し、教師画像を生成する背景データとして設定する。なお、背景設定部４０５が設定する背景データは、単一の背景に関するデータに限らず、複数種類の背景に関するデータであってもよい。

　ステップＳ５００４において、パラメータ設定部４０６は、ステップＳ５００１で受信した上位カテゴリおよびサブカテゴリの情報に基づいて、教師画像を生成するためのパラメータを設定する。ここでは、受信した上位カテゴリおよびサブカテゴリの情報から、教師データが不足しているカテゴリとして、たとえば「カメラからみて斜め４５度」「撮像距離は５０ｍ遠方」などの画像生成パラメータが分かる。そのため、このような画像生成パラメータを、教師画像を生成するためのパラメータとして設定する。このとき、複数種類のパラメータを設定してもよい。

　なお、ステップＳ５００４でパラメータを設定する際、パラメータ設定部４０６は、パラメータ履歴情報４０３を参照し、その内容に基づいて、過去に使用済みのパラメータと同一のパラメータは設定しないようにする。これにより、教師データ生成部１０５は、過去に使用済みのパラメータとは異なるパラメータを用いて、教師データの生成を行うことができる。

　ステップＳ５００５において、教師画像生成部４０７は、ステップＳ５００２～Ｓ５００４で物体設定部４０４、背景設定部４０５、パラメータ設定部４０６によりそれぞれ設定された物体データ、背景データおよびパラメータに基づいて、教師画像を生成する。ここでは、たとえば、パストレーシングに基づく物理ベースレンダリングを用いて、反射、屈折、透過、シャドウなどが物理的に正しく再現されるように物体データと背景データとを合成することで、教師画像を生成する。これにより、路面に落ちた影なども写実的に再現できる。また、物理カメラを考慮して教師画像を生成してもよい。これにより、焦点距離や画角といった基本的なカメラ内部パラメータに加えて、レンズ収差なども考慮に入れて、教師画像を生成することができる。なお、前述したように、ステップＳ５００２～Ｓ５００４では、物体データ、背景データ、パラメータをそれぞれ複数種類ずつ設定しても構わない。この場合、それぞれの設定数に応じて、教師画像も複数生成されることになる。たとえば、物体データ、背景データ、パラメータをそれぞれ５種類ずつ設定した場合、教師画像生成部４０７は全部で１２５枚の教師画像を生成する。

　ステップＳ５００６において、アノテーション部４０８は、ステップＳ５００５で教師画像生成部４０７により生成された教師画像に対する正解データを生成する。ここでは、教師データの生成に用いた物体データ、背景データおよびパラメータに基づいて、生成された教師画像において識別すべき対象物がどの部分にあるか、対象物がどの上位カテゴリおよびサブカテゴリに属するのか、などを判断する。この判断結果を基に、アノテーション部４０８は正解データを生成することができる。

　ステップＳ５００６の処理が実行されたら、教師データ生成部１０５は、得られた教師画像および正解データを教師データとして出力し、図６のフローチャートに示す処理を完了する。

　ここで、図６のステップＳ５００５、Ｓ５００６における教師画像および正解データの生成方法の詳細について、図７および図８を用いて以下に説明する。

　図７は、教師画像の生成方法を説明する図である。図７では、車両である認識対象物６０１に対してカメラ６０２、６０３、６０４を設置し、これらのカメラで認識対象物６０１を撮影してそれぞれ得られる撮影画像に相当するCG画像を、教師画像として生成する状況を示している。認識対象物６０１は、三軸の回転・並進パラメータと、三軸のスケーリングパラメータとを有している。また、カメラ６０２、６０３、６０４は、三軸の回転・並進パラメータと、三軸のスケーリングパラメータと、内部パラメータ（焦点距離、撮像素子のサイズ、画像主点など）と、レンズ収差パラメータ（歪み係数、像高関数など）とをそれぞれ有している。これらのパラメータは、パラメータ設定部４０６により設定される。

　図８は、正解データの生成方法を説明する図である。図８では、図７の状況でカメラ６０３から認識対象物６０１を撮影して得られる撮影画像に相当するCG画像を、教師画像の例として示している。この教師画像では、図７の認識対象物６０１をCG画像で表現した物体画像７０１と、背景部分の路面をCG画像で表現した背景画像７０２とが合成されている。また、物体画像７０１には、車両である認識対象物６０１の全体部分、ナンバープレート部分、右ヘッドライト部分、左ヘッドライト部分にそれぞれ対応する、バウンディングボックス７０３、７０４、７０５および７０６が設定されている。

　前述したように、図８の教師画像の生成において用いられる物体データ、背景データ、カメラパラメータは既知である。そのため、生成された教師画像における物体画像７０１の位置は、透視投影法によって計算可能である。たとえば、物体データが表す認識対象物６０１の三次元形状情報の全体を画像上に透視投影することで、バウンディングボックス７０３を計算することができる。また、物体データにおいて認識対象物６０１の各部分の幾何情報を構造化しておくことで、バウンディングボックス７０３と同様にして、バウンディングボックス７０４、７０５、７０６を計算することができる。これらのバウンディングボックス７０３～７０６の計算結果から、正解データを生成することができる。なお、教師画像に対して正解データを画素単位でラベリングすることもできる。たとえば、物体画像７０１の透過率を０％とし、それ以外の部分の透過率を１００％としてレンダリングすることにより、教師画像の中で物体画像７０１の部分に対して、画素単位の正解ラベルを付与することができる。

　教師データ生成部１０５は、以上説明したようにして教師画像および正解データを生成し、教師データとして出力する。これにより、教師データ生成部１０５は、生成した教師画像と、その教師画像における対象物の座標情報、対象物のうち特定の部位の座標情報、対象物の上位カテゴリ（種別）の情報、対象物のサブカテゴリ（属性）の情報のいずれか少なくとも一つの情報とを、教師データとして出力することができる。

　以上説明したように、本発明の第一の実施形態では、評価部１０４により、学習部１０２での学習が行われた識別器１０８の識別誤差特性を評価する。これにより、現在の識別器１０８が識別するのが苦手な上位カテゴリおよびサブカテゴリを自動で特定することができる。

　また、本発明の第一の実施形態では、画像処理装置１０に教師データ生成部１０５を設けている。これにより、学習が不足している部分に対して、教師データを自動で生成することができる。

　また、本発明の第一の実施形態では、教師データ生成部１０５により、教師画像における対象物の座標情報を含む教師データを出力する。この座標情報を用いることで、さらにデータ拡大（Data Augmentation）の手法を用いて２次元画像上の回転・並進・任意変換等を行い、これにより教師データを増加させることも可能である。

　また、本発明の第一の実施形態では、教師データ生成部１０５において、パストレーシングに基づく物理ベースレンダリングを用いてCG合成を行うことにより、教師画像を生成する。これにより、反射、屈折、透過、シャドウなどを物理的に正しく再現できる。したがって、この教師データを用いて識別器１０８の学習を行うことで、実画像による学習の性能と大差がない識別性能を実現することができる。

　また、本発明の第一の実施形態では、画像処理装置１０において、評価部１０４と教師データ生成部１０５を組み合わせて用いている。これにより、学習した識別器１０８の識別誤差特性に基づいて、誤認識を低減するための教師データを特定および生成し、その教師データによって識別器１０８を更新し続ける画像処理装置を提供することができる。

　また、本発明の第一の実施形態では、出力部１０６において、識別器１０８の更新学習に対して終了条件を設けている。これにより、好適なタイミングで学習を終えることができる。その結果、２４時間３６５日休みなく、予測誤差を低減する方向に永続的に学習を継続することができる。

　以上説明した本発明の第一の実施形態によれば、以下の作用効果を奏する。

（１）画像処理装置１０は、入力された画像中の対象物を識別してその対象物を複数の種別のいずれかに分類する識別器１０８を評価する。この画像処理装置１０は、識別部１０３と、評価部１０４とを備える。識別部１０３は、識別器１０８を用いて、対象物の種別が既知である複数の検証用画像にそれぞれ含まれる対象物を識別して複数の種別のいずれかを検証用画像ごとに出力することで、識別器１０８の識別性能を求める（ステップＳ２００３）。評価部１０４は、識別部１０３により求められた識別器１０８の識別性能に基づいて、識別器１０８に対する評価結果を出力する（ステップＳ２００４）。このようにしたので、識別器１０８の識別性能を適切に評価することができる。

（２）識別器１０８が対象物を識別して分類する複数の種別は、複数の上位カテゴリと、複数の上位カテゴリの各々をさらに細分化した複数のサブカテゴリとを含んで構成される。識別部１０３は、識別器１０８の識別性能として、図３の評価テーブル３０１に示したように、所定の評価基準に基づく評価値を上位カテゴリおよびサブカテゴリごとに求める。評価部１０４は、この評価値に基づいて、複数の上位カテゴリのいずれか少なくとも一つと、複数のサブカテゴリのいずれか少なくとも一つとを、識別器１０８に対する評価結果として出力する。このようにしたので、識別器１０８に対する評価結果を分かりやすく出力することができる。

（３）評価部１０４は、評価値および各サブカテゴリ間の相関性に基づいて、識別器１０８に対する評価結果として出力するサブカテゴリを決定することもできる。このようにすれば、互いに相関が高いサブカテゴリ同士を評価結果として出力できるため、識別器１０８の識別性能に対する評価をより一層適切に行うことができる。

（４）画像処理装置１０は、教師データ生成部１０５と、学習部１０２とをさらに備える。教師データ生成部１０５は、評価部１０４から出力された識別器１０８に対する評価結果に基づいて、識別器１０８の学習に用いるための教師データを生成する（ステップＳ２００５）。学習部１０２は、教師データ生成部１０５により生成された教師データに基づいて、識別器１０８の学習を行う（ステップＳ２００２）。このようにしたので、識別器１０８の識別性能を自動的に、かつ確実に向上させることができる。

（５）教師データ生成部１０５は、幾何情報およびマテリアル情報を有する物体データと、全球画像または三次元形状情報を有する背景データとを、物理ベースレンダリングで合成することにより、教師データに用いられる教師画像を生成する（ステップＳ５００５）。このようにしたので、識別器１０８の学習に用いるのに適切な教師画像を確実に生成することができる。

（６）教師データ生成部１０５は、生成した教師画像と、その教師画像における対象物の座標情報、対象物のうち特定の部位の座標情報、対象物の種別情報、対象物の属性情報のいずれか少なくとも一つの情報とを、教師データとして出力することができる。この教師データを用いて識別器１０８の学習を行うことで、識別器１０８の識別性能を確実に向上させることができる。

（７）教師データ生成部１０５は、過去に教師データを生成した際に用いたパラメータの履歴情報４０３を記憶している。このパラメータ履歴情報４０３に基づいて、教師データ生成部１０５は、過去に使用済みのパラメータとは異なるパラメータを用いて教師データを生成する。このようにしたので、識別器１０８の学習に効果的な教師データを確実に生成することができる。

（８）画像処理装置１０は、出力部１０６をさらに備える。出力部１０６は、学習部１０２による識別器１０８の学習状況が所定の終了条件を満たしたか否かを判定する（Ｓ２００６）。学習部１０２は、出力部１０６により識別器１０８の学習状況が終了条件を満たしたと判定された場合に、識別器１０８の学習を終了する。このようにしたので、適切なタイミングで識別器１０８の学習を終了することができる。

（第二の実施形態）
　次に、本発明の第二の実施形態として、クラウドサービスに適用した実施形態を説明する。

　図９は、本発明の第二の実施形態による画像処理装置８０の構成を示すブロック図である。図９に示す画像処理装置８０は、クラウドサービスを利用するユーザ８１に情報を伝達する通知部８０１と、ユーザ８１からの情報を受信する受信部８０２をさらに備える。なお、本実施形態に係る画像処理装置８０の構成要素のうち、図１に示した第一の実施形態に係る画像処理装置１０の構成要素と同じものには、図９において図１と同じ符号を付している。以下では、これらの構成要素については、説明を省略する。

　通知部８０１は、出力部１０６から出力される情報に基づいて、学習部１０２による識別器１０８の学習状況をユーザ８１に通知する。通知部８０１からの通知には、たとえば、評価部１０４で求められた識別器１０８の識別誤差特性や、出力部１０６で判断された学習の収束状況など、識別器１０８の学習に関する様々な情報が含まれる。これによって、ユーザ８１は画像処理装置８０における処理状況を把握することができる。

　通知部８０１からの通知内容について、図１０を参照して説明する。図１０は、学習部１０２による識別器１０８の学習の収束状況の一例を示す図である。図１０において、横軸は学習回数を表し、縦軸は予測誤差を表している。一般に、機械学習では、曲線９０１に示すように、学習を繰り返すたびに予測誤差が低減していく。しかしながら、学習の方法が不適切な場合、曲線９０２に示すように、学習を繰り返しても予測誤差が低減しない場合がある。その要因としては、学習パラメータが不適切であること、検証データが不足していること、教師データ生成で用いるデータが不足していること、そもそも識別が困難なカテゴリ設計になっていること、などが挙げられる。そこで、本実施形態における通知部８０１は、曲線９０２のように予測誤差が十分に低減しない場合には、ユーザ８１に対して、その要因を通知する。ユーザ８１は通知された情報を受けて、データベース１０７への検証データの追加や、教師データ生成部１０５で教師データの生成に用いる図５の物体データ４０１や背景データ４０２の追加や、学習部１０２の設計変更など、要因を除去するための各種動作を画像処理装置８０に対して指示する。受信部８０２は、ユーザ８１からの指示を受けて、識別器１０８が識別すべき対象物の識別精度を向上させるための上記のような各種動作を行い、画像処理装置８０の処理を好適化する。

　以上説明したように、本発明の第二の実施形態では、画像処理装置８０に、ユーザへの情報通知を行う通知部８０１と、ユーザからの情報を受信する受信部８０２とを設けている。これにより、２４時間３６５日休みなく学習を実行するクラウドサービスを実現することができる。また、ユーザがデータを適宜更新する構成とすることで、小さな規模から機械学習をスモールスタートすることができる。また、ユーザは逐次更新された識別器１０８を受け取ることで、より好適なサービスに活用することができる。

　以上説明した本発明の第二の実施形態によれば、第一の実施形態で説明した（１）～（８）に加えて、さらに以下の作用効果を奏する。

（９）画像処理装置８０は、学習部１０２による識別器１０８の学習状況をユーザに通知する通知部８０１をさらに備える。これにより、ユーザは識別器１０８の学習状況を確認することができる。

（１０）画像処理装置８０は、ユーザからの指示を受けて、識別器１０８による対象物の識別精度を向上させるための動作を行う受信部８０２をさらに備える。これにより、ユーザは識別器１０８を必要に応じて適宜改善することができる。

（第三の実施形態）
　次に、本発明の第三の実施形態として、車載システムにおける接近物警報や、監視システムにおける侵入者警報に適用した実施形態を説明する。

　図１１は、本発明の第三の実施形態による画像処理システムの構成を示すブロック図である。図１１に示す画像処理システムは、接近物または侵入者を検知する物体検知装置１０００と、画像処理装置１００１と、カメラ１００２と、出力装置１００３とを備える。カメラ１００２は、物体検知装置１０００の周辺を撮影した映像を取得し、その映像に基づく映像信号を物体検知装置１０００に出力する。出力装置１００３は、ディスプレイまたはスピーカーなどを用いて、物体検知装置１０００から出力される警報信号に基づく警報を発する。

　物体検知装置１０００は、各種データの入出力などを行う入出力インタフェースとして機能するＩ／Ｏ部１００４と、各種演算を実行する処理部として機能するＣＰＵ１００５と、メモリ１００６とを備える。ＣＰＵ１００５は、その機能として、物体検知を実行する物体検出部１００８と、危険度を判定する危険度判定部１００９とを備える。

　なお、物体検知装置１０００と画像処理装置１００１は、必ずしも同一の場所に設置されなくてもよい。たとえば、サーバに画像処理装置１００１を置き、物体検知装置１０００をクライアントで動作させるクライアントサーバシステムにより、本実施形態の画像処理システムを実現することもできる。また、ＣＰＵ１００５における処理は、ＧＰＵを活用した並列処理であっても構わない。

　画像処理装置１００１は、物体検知装置１０００との間で通信を行うことにより、物体検知装置１０００で用いられる識別器１００７を出力する。この画像処理装置１００１には、第一の実施形態における画像処理装置１０または第二の実施形態における画像処理装置８０を用いることができる。すなわち、画像処理装置１００１は、識別器１００７として、図１または図９に示した学習部１０２により学習が行われた識別器１０８を、物体検知装置１０００に出力する。識別器１００７は、物体検知装置１０００においてメモリ１００６に格納される。

　物体検出部１００８は、カメラ１００２で取得した映像に対して、識別器１００７を用いた物体検出を行う。すなわち、物体検出部１００８は、カメラ１００２から入力された映像に含まれる対象物を識別器１００７で識別することで、その映像中での対象物の位置や大きさを検出する。ここで、映像の単一フレームだけで物体検出を行うのではなく、時系列情報を用いた既知のトラッキング手法を併用して、複数フレームにおける物体検出を行っても構わない。危険度判定部１００９は、物体検出部１００８が検出した物体に対して、接近度や異常度合といった既知の指標に基づき、危険度を判定する。その結果、危険度が高いと判定した場合は、出力装置１００３に警報信号を送信する。この警報信号を受けると、出力装置１００３は、ディスプレイまたはスピーカーなどによってユーザへの警報を行う。ここで、車両に搭載されるシステムとして物体検知装置１０００を適用する場合は、警報信号を出力装置１００３に出力する代わりに、ブレーキ制御やステアリング制御を行うための制御信号を車両に出力してもよい。

　以上説明したように、本発明の第三の実施形態では、画像処理装置１００１で学習した識別器１００７を用いて、物体検知装置１０００が物体検知を行う。そのため、車載システムにおける接近物警報や、監視システムにおける侵入者警報を実現することができる。また、危険度に応じて出力信号を変更することで、警報システムだけではなく、制御システムとして利用することも可能である。また、画像処理装置１００１と物体検知装置１０００をネットワークで接続することにより、オンラインで識別器１００７を更新し、より好適な物体検知を行うこともできる。たとえば、工場や販売店において識別器１００７を書き換えることも容易である。

　以上説明した本発明の第三の実施形態によれば、第一および第二の実施形態で説明した（１）～（１０）に加えて、さらに以下の作用効果を奏する。

（１１）物体検知装置１０００は、物体検出部１００８と、危険度判定部１００９とを備える。物体検出部１００８は、画像処理装置１００１を用いて学習が行われた識別器１００７を用いて、カメラ１００２から入力された映像中の物体を検出する。危険度判定部１００９は、物体検出部１００８により検出された物体の危険度を判定する。このようにしたので、確実かつ正確に物体を検出し、その危険度を判定することができる。

　なお、本発明は、上述の各実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々の変更が可能である。たとえば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることが可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、たとえば集積回路等のハードウェアで実現してもよい。また、各構成や機能等を実現するためのプログラム、データ、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置に記録してもよいし、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に記録してもよい。さらに、必要に応じてこれらの情報を無線ネットワーク等を介してダウンロード、インストロールすることも可能である。

１０，８０，１００１・・・画像処理装置
１０１・・・入力部
１０２・・・学習部
１０３・・・識別部
１０４・・・評価部
１０５・・・教師データ生成部
１０６・・・出力部
１０７・・・データベース
１０８・・・識別器
４０１・・・物体データ
４０２・・・背景データ
４０３・・・パラメータ履歴情報
４０４・・・物体設定部
４０５・・・背景設定部
４０６・・・パラメータ設定部
４０７・・・教師画像生成部
４０８・・・アノテーション部
８０１・・・通知部
８０２・・・受信部
１０００・・・物体検知装置

Claims

　入力された画像中の対象物を識別して前記対象物を複数の種別のいずれかに分類する識別器を評価するための画像処理装置であって、
　前記識別器を用いて、前記対象物の種別が既知である複数の検証用画像にそれぞれ含まれる前記対象物を識別して前記複数の種別のいずれかを前記検証用画像ごとに出力することで、前記識別器の識別性能を求める識別部と、
　前記識別部により求められた前記識別器の識別性能に基づいて、前記識別器に対する評価結果を出力する評価部と、を備える画像処理装置。
　請求項１に記載の画像処理装置において、
　前記複数の種別は、複数の上位カテゴリと、前記複数の上位カテゴリの各々をさらに細分化した複数のサブカテゴリとを含んで構成され、
　前記識別部は、前記識別器の識別性能として、所定の評価基準に基づく評価値を前記上位カテゴリおよび前記サブカテゴリごとに求め、
　前記評価部は、前記評価値に基づいて、前記複数の上位カテゴリのいずれか少なくとも一つと、前記複数のサブカテゴリのいずれか少なくとも一つとを、前記識別器に対する評価結果として出力する画像処理装置。
　請求項２に記載の画像処理装置において、
　前記評価部は、前記評価値および各サブカテゴリ間の相関性に基づいて、前記識別器に対する評価結果として出力するサブカテゴリを決定する画像処理装置。
　請求項１乃至３のいずれか一項に記載の画像処理装置において、
　前記評価結果に基づいて、前記識別器の学習に用いるための教師データを生成する教師データ生成部と、
　前記教師データに基づいて、前記識別器の学習を行う学習部と、をさらに備える画像処理装置。
　請求項４に記載の画像処理装置において、
　前記教師データ生成部は、幾何情報およびマテリアル情報を有する物体データと、全球画像または三次元形状情報を有する背景データとを、物理ベースレンダリングで合成することにより、前記教師データに用いられる教師画像を生成する画像処理装置。
　請求項４に記載の画像処理装置において、
　前記教師データ生成部は、教師画像と、前記教師画像における前記対象物の座標情報、前記対象物のうち特定の部位の座標情報、前記対象物の種別情報、前記対象物の属性情報のいずれか少なくとも一つの情報とを、前記教師データとして出力する画像処理装置。
　請求項４に記載の画像処理装置において、
　前記教師データ生成部は、過去に前記教師データを生成した際に用いたパラメータの履歴情報を記憶しており、前記履歴情報に基づいて、過去に使用済みのパラメータとは異なるパラメータを用いて前記教師データを生成する画像処理装置。
　請求項４に記載の画像処理装置において、
　前記学習部による前記識別器の学習状況が所定の終了条件を満たしたか否かを判定する出力部をさらに備え、
　前記学習部は、前記出力部により前記識別器の学習状況が前記終了条件を満たしたと判定された場合に、前記識別器の学習を終了する画像処理装置。
　請求項４に記載の画像処理装置において、
　前記学習部による前記識別器の学習状況をユーザに通知する通知部をさらに備える画像処理装置。
　請求項９に記載の画像処理装置において、
　前記ユーザからの指示を受けて、前記識別器による前記対象物の識別精度を向上させるための動作を行う受信部をさらに備える画像処理装置。
　請求項４に記載の画像処理装置を用いて学習が行われた識別器を用いて、カメラから入力された映像中の物体を検出する物体検出部と、
　前記物体検出部により検出された物体の危険度を判定する危険度判定部と、を備える物体検知装置。
　入力された画像中の対象物を識別して前記対象物を複数の種別のいずれかに分類する識別器を評価するための、コンピュータを用いた画像処理方法であって、
　前記コンピュータにより、前記識別器を用いて、前記対象物の種別が既知である複数の検証用画像にそれぞれ含まれる前記対象物を識別して前記複数の種別のいずれかを前記検証用画像ごとに出力することで、前記識別器の識別性能を求め、
　前記コンピュータにより、求められた前記識別器の識別性能に基づいて、前記識別器に対する評価結果を出力する画像処理方法。