WO2014174932A1

WO2014174932A1 - 画像処理装置、プログラム及び画像処理方法

Info

Publication number: WO2014174932A1
Application number: PCT/JP2014/056886
Authority: WO
Inventors: 淳安藤
Original assignee: オリンパス株式会社
Priority date: 2013-04-26
Filing date: 2014-03-14
Publication date: 2014-10-30
Also published as: CN105144239A; US9552536B2; CN105144239B; JP6188400B2; JP2014215852A; US20160026900A1

Abstract

　画像処理装置は、学習画像と正解ラベルの入力を受け付ける入力受付部１１０と、分類器データと処理対象画像の生成処理を行う処理部１２０と、分類器データを記憶する記憶部１３０を含む。処理部１２０は、学習画像の全体画像又は部分画像である処理対象画像を生成し、処理対象画像の特徴量を算出し、特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組である教師データに基づき、分類器データを生成し、学習画像又は処理対象画像に基づき画像群を生成し、分類器データを用いて画像群の各画像を分類して、各画像の分類スコアを算出し、分類スコアと画像群に基づき処理対象画像を再生成する。

Description

画像処理装置、プログラム及び画像処理方法

　本発明は、画像処理装置、プログラム及び画像処理方法等に関係する。

　近年、機械学習の分野において、教師あり学習の研究が進められている。学習の結果として生成される判別器（分類器）を用いて画像の内容を判別（分類）する際の特有のケースとして、画像中における対象物の位置を検出したいケースが考えられる。また、正解ラベルを表す対象物等が一部にしか映っていない画像を分類するケースも考えられる。例えば、特許文献１では、そのような画像に対して、対象画像の一部分の特徴量に基づき分類を行う発明が開示されている。

　また、一般的に、学習に用いる教師データが多ければ多い程、生成される判別器（分類器）の判別精度（分類精度）は向上し、未ラベルデータに対して自動的に正しいラベル付けを行うことが可能になる。

　しかし、教師データの正解ラベルは人の手によって付与される場合がほとんどである。そのため、大量の教師データを準備することが困難であったり、教師データの生成コストが非常に大きくなったりする場合が多い。

　そこで、教師あり学習を発展させた手法の一つに、正解ラベル付きデータだけでなく、未ラベルデータも教師データとして用いる半教師あり学習という手法がある。そして、その半教師あり学習の中でも、主に画像データを学習・判別対象とする手法であり、正解ラベル付き画像から新たな画像を生成して、学習に用いる生成型学習という手法が提案されている。

特開２００８－２８２２６７号公報

　正解ラベルを表すシーン又は物体が部分的に含まれるような画像から、物体（対象物）等の位置を検出するための分類器の学習を行うには、画像中の対象物の位置や形状等を教師データとして用意する必要がある。しかし、画像に対してその画像が属するクラスのラベルを付与する作業と比較しても、物体の位置や形状情報まで手動で作成する作業はさらに手間がかかる作業である。その結果、用意できる教師データ数が少なくなってしまい、学習結果である分類器の性能も低下してしまう。

　また、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」という前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えることができず、多くの画像を新たに生成できないという問題があった。そのため、この場合には、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。

　一方、「新たな画像を生成する際に、正解ラベルが変わっても良い」とした場合には、正解ラベル付き画像から新たな画像を生成する方法として、例えば元の正解ラベル付き画像を複数の画像に分割し、新たに生成した画像群に対して、正解ラベルを人が付与して、新たな教師データとして学習に用いる方法が考えられる。この場合には、教師データの数を十分に増やすことができる一方で、教師データのラベル付けコストが膨大になるという問題点がある。

　本発明の幾つかの態様によれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体の位置検出ができる画像処理装置、プログラム及び画像処理方法等を提供することができる。

　また、本発明の幾つかの態様によれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体等の位置の検出ができ、生成される分類器の分類精度を向上させることができる画像処理装置、プログラム及び画像処理方法等を提供することができる。

　本発明の一態様は、学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、生成された前記分類器データを記憶する記憶部と、を含み、前記処理部は、前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する画像処理装置に関係する。

　本発明の一態様では、学習画像に正解ラベルを付与するだけで、自動的に新たな処理対象画像を生成して、教師データを修正しながら、又は増やしながら、学習を行う。

　新たな処理対象画像は、画像群の各画像の分類結果及び分類スコアに基づいて生成され、生成される処理対象画像の内容に応じた正解ラベルが自動的に付与される。すなわち、正解ラベルが表す内容をより正確に表現する処理対象画像を自動的に生成することができる。そのため、教師データの生成コストを削減し、多くの教師データを学習に用いることができる。

　よって、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、画像中における物体の位置検出が可能になることに加え、生成される分類器データによる分類精度を向上させることも可能となる。

　また、本発明の一態様では、前記処理部は、再生成した前記処理対象画像と、前記処理対象画像を再生成する際に前記画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、前記分類器データを再生成してもよい。

　これにより、元の学習画像に付与された正解ラベルが表す内容とは異なる内容の画像についても追加して学習すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記画像群の前記各画像の前記分類スコアと所与の閾値との比較処理を行い、前記画像群の中から、前記所与の閾値以上の前記分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、前記処理対象画像を再生成してもよい。

　これにより、同じ対象物が映っている可能性の高い画像を選択画像として選択して、処理対象画像を生成すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記処理対象画像を再生成する処理を行うごとに、前記分類スコアとの前記比較処理に用いる前記所与の閾値を変更してもよい。

　これにより、処理対象画像から正解ラベルが表す領域の一部が削除されることを防ぐこと等が可能になる。

　また、本発明の一態様では、前記処理部は、前記学習画像の前記全体画像を最初の前記処理対象画像として設定してもよい。

　これにより、学習の初期段階においても、学習画像において処理対象画像とする領域を指定するコストを削減すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前回の前記処理対象画像よりも画素数又は面積の小さい前記処理対象画像を生成してもよい。

　これにより、正解ラベルが表す内容以外の部分を削除して、正解ラベルが表す対象物が占める面積（割合）が大きい画像を処理対象画像として用いて学習を行うこと等が可能になる。

　また、本発明の一態様では、前記処理部は、前記学習画像に基づいて前記画像群を生成し、前回の前記処理対象画像よりも画素数又は面積の大きい前記処理対象画像を生成してもよい。

　これにより、前の処理対象画像の生成処理で誤って削除してしまった領域を含む処理対象画像を再生成して、学習を行うこと等が可能になる。

　また、本発明の一態様では、前記処理部は、前記分類器データと前記処理対象画像の前記生成処理を所与の回数繰り返して行ってもよい。

　これにより、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。

　また、本発明の一態様では、前記処理部は、前回の前記処理対象画像と今回の前記処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、前記分類器データと前記処理対象画像の前記生成処理の繰り返しを終了してもよい。

　また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。

　これにより、学習に用いるための画像を新たに撮像するコストをかけずに、準備すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に重複分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。

　これにより、学習により効果的な処理対象画像を容易に生成すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に過分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。

　これにより、輪郭・色情報に応じて、対象物と背景の境界をより正確に判定すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記分類器データと前記処理対象画像の前記生成処理を行う度に、前記学習画像又は前記処理対象画像の分割サイズを変更してもよい。

　これにより、生成される処理対象画像の輪郭を、付与される正解ラベルが表す対象物の輪郭に沿った形にすること等が可能になる。

　また、本発明の一態様では、前記処理部は、処理対象画像群を表示部に表示させ、前記処理対象画像群に対する修正指示情報を取得し、前記修正指示情報に基づいて、前記処理対象画像群の修正処理を行ってもよい。

　これにより、処理対象画像群のうち、学習結果に悪影響を及ぼす処理対象画像を修正すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記処理対象画像群を前記表示部に一覧表示させ、前記修正指示情報として、前記処理対象画像群の中から、不要な前記処理対象画像の指定情報を取得し、前記処理対象画像群の中から、前記指定情報が示す前記処理対象画像を削除してもよい。

　これにより、学習結果に悪影響を及ぼす処理対象画像を用いて学習を行ってしまうことを抑制すること等が可能になる。

　また、本発明の一態様では、前記処理部は、Bag of featuresを用いて、前記処理対象
画像の前記特徴量を算出してもよい。

　これにより、例えば実際の学習画像に映る対象物と種類は同じだが、違う個体が映る画像や、学習画像とは対象物の映り込む角度が異なる画像等も、正しく分類することができる分類器データを生成すること等が可能になる。

　また、本発明の一態様では、前記処理部は、前記画像群の前記各画像の前記分類スコアに基づいて、物体検出処理を行ってもよい。

　これにより、分類器データの生成処理を繰り返せば繰り返すほど、元の学習画像における、正解ラベルが表す物体等の位置を正確に検出すること等が可能になる。

　また、本発明の他の態様では、上記各部としてコンピュータを機能させるプログラムに関係する。

　また、本発明の他の態様では、学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行い、画像を分類するための分類器データを生成するために用い、前記学習画像の全体画像又は部分画像である処理対象画像を生成する処理を行い、前記処理対象画像の特徴量を算出する処理を行い、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データの生成処理を行い、前記学習画像又は前記処理対象画像に基づいて画像群を生成する処理を行い、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出する処理を行い、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する処理を行い、生成された前記分類器データを記憶する処理を行う画像処理方法に関係する。

図１は、本実施形態のシステム構成例。図２は、本実施形態の処理の流れを説明するフローチャート。図３は、学習画像又は処理対象画像から画像群を生成する処理の説明図。図４（Ａ）、図４（Ｂ）は、画像群から処理対象画像を生成する処理の説明図。図５（Ａ）～図５（Ｃ）は、各回において生成される処理対象画像の説明図。図６（Ａ）、図６（Ｂ）は、処理対象画像の面積が大きくなる例の説明図。図７（Ａ）～図７（Ｄ）は、分類スコアの閾値の説明図。図８（Ａ）、図８（Ｂ）は、画像群を生成する処理の他の説明図。図９（Ａ）～図９（Ｃ）は、分割サイズの説明図。図１０は処理対象画像群を修正する場合の処理の流れを説明するフローチャート。図１１は処理対象画像群を一覧表示する処理の説明図。

　以下、本実施形態について説明する。まず、本実施形態の概要を説明し、次にシステム構成例について説明する。そして、フローチャート等を用いて本実施形態で行う処理の詳細について説明する。最後に、本実施形態の手法についてまとめる。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

　１．概要
　近年、機械学習の分野において、教師あり学習の研究が進められている。教師あり学習とは、正解ラベルが付与されたデータを用いて、学習を行い、判別器（分類器）を生成する手法のことをいう。そして、学習後には、正解ラベルが付与されていない未ラベルデータの内容を、生成した判別器を用いて判別し、判別した未ラベルデータに対してラベル付けを行う。このような教師あり学習は、大量のデータの内容を自動的に判別する必要がある検索エンジンやログ解析システム等において用いられている。

　さらに、生成した分類器を用いて画像の内容を分類する際の特有のケースとして、画像中における対象物の位置を検出したいケースが考えられる。また、ユーザが検出したい対象物等が画像の一部にしか映っていない画像を分類するケースもある。画像に映る対象物の位置を検出したり、画像の内容を分類したりする方法としては、前述した特許文献１に記載する方法等があるが、これらの方法では、一部にしか対象物が映っていない画像を用いて学習を行うために、正解ラベルが表す対象物等の画像中での位置や形状等のデータを教師データとして用意する必要がある。

　しかし、画像に対してその画像が属するクラスのラベルを付与する作業と比較しても、物体の位置や形状情報まで手動で作成する作業はさらに手間がかかる作業である。その結果、用意できる教師データ数が少なくなってしまい、学習結果である分類器の性能も低下してしまう。

　また、一般的に、学習に用いる教師データが多ければ多い程、生成される判別器の判別精度（分類精度）は向上し、未ラベルデータに対して自動的に正しいラベル付けを行うことが可能になる。しかし、教師データの正解ラベルは人の手によって付与される場合がほとんどであるため、大量の教師データを準備することが困難であったり、教師データの生成コストが非常に大きくなったりする場合が多い。

　従来の生成型学習では、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」ということを前提としていた。

　例えば、正解ラベル付き画像に画像処理を行って、新たな画像を生成する方法として、正解ラベル付き画像に微小なノイズを加えたり、明るさを少し変えたりする方法などが考えられる。

　しかし、実際には、新たに生成する画像の正解ラベルを元の画像の正解ラベルから変えずに、どの程度までなら画像の明るさ等を変更できるか分からないことが多い。すなわち、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」という前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えることができず、多くの画像を新たに生成できないという問題があった。そのため、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。

　一方、「新たな画像を生成する際に、正解ラベルが変わっても良い」とした場合には、正解ラベル付き画像から新たな画像を生成する方法として、例えば元の正解ラベル付き画像を複数の画像に分割する方法等が考えられる。

　しかし、元の正解ラベル付き画像を分割した場合には、新たに生成される画像の正解ラベルは、元の正解ラベル付き画像の正解ラベルと同じになるとは限らない。例えば、元の正解ラベル付き画像に、「花」と「空」が映っており、「花」という正解ラベルが付与されている場合には、正解ラベル付き画像を分割した結果、「花」だけが映っている画像や、「空」だけが映っている画像等の様々な画像が生成されることになり、新たに生成される画像の正解ラベルも全て「花」にはなることは少ない。従って、新たに生成される画像は未ラベル画像になってしまい、そのままでは学習に用いることはできない。

　そこで、正解ラベル付き画像を分割して新たに生成した画像群に対して、正解ラベルを人が付与して、新たな教師データとして学習に用いる方法が考えられる。この場合には、教師データの数を十分に増やすことができる一方で、教師データのラベル付けコストが膨大になるという問題点がある。

　そこで、本実施形態では、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体等の位置の検出ができ、生成される分類器の分類精度を向上させることができる画像処理装置、プログラム及び画像処理方法等を提供する。

　２．システム構成例
　次に、図１に本実施形態の画像処理装置の構成例を示す。

　画像処理装置は、入力受付部１１０と、処理部１２０と、記憶部１３０と、を含む。入力受付部１１０は、処理部１２０に接続されており、処理部１２０と記憶部１３０は互いに接続されている。なお、画像処理装置は、図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加したりするなどの種々の変形実施が可能である。また、画像処理装置の一部又は全部の機能は、ネットワーク上のサーバにより実現されてもよいし、表示部等を含む端末装置により実現されてもよい。

　次に各部で行われる処理について説明する。

　まず、入力受付部１１０は、学習画像と、学習画像の正解ラベルの入力を受け付ける処理を行う。入力受付部１１０は、有線又は無線の少なくとも一方を含むネットワークを介して、外部のサーバや記憶部と通信を行う通信部であってもよいし、ユーザが正解ラベル等を入力するためのインターフェースであって、キーボードやマウス等により構成されていてもよい。

　次に、処理部１２０は、画像を分類するために用いる分類器データと、分類器データを生成するために用いる処理対象画像の生成処理を行う。なお、処理部１２０の機能は、各種プロセッサ（ＣＰＵ等）、ＡＳＩＣ（ゲートアレイ等）などのハードウェアや、プログラムなどにより実現できる。処理部１２０の処理の詳細については後述する。

　そして、記憶部１３０は、生成された分類器データ等を記憶したり、処理部１２０等のワーク領域となったりするもので、その機能はＲＡＭ等のメモリやＨＤＤなどにより実現できる。

　３．処理の詳細
　以下では、図２のフローチャートを用いて、本実施形態の処理の流れについて説明する。

　はじめに、入力受付部１１０に対して、学習に用いる学習画像群と各学習画像に付与された帰属クラスのラベル（正解ラベル）を入力する（Ｓ１０１）。

　次に、処理部１２０が、各学習画像について画像全体を処理対象画像に設定する（Ｓ１０２）。最初の処理対象画像を学習画像の全体とすることで、各学習画像における検出対象の位置や形状情報の付与が不要となる。

　次に、処理部１２０が、各処理対象画像の特徴量を計算する（Ｓ１０３）。計算する特徴量にはBag of features（ＢｏＦ）を用いる。なお、処理対象画像のサイズが異なる場合には、ＢｏＦのヒストグラムの度数を処理対象画像のサイズに応じて正規化する必要がある。

　次に、処理部１２０が、計算した特徴量と帰属クラスの組を教師データとして学習を行い、分類器データを生成する（Ｓ１０４）。なお、分類器データの生成にはSupport Vector Machine（ＳＶＭ）を用いる。また、その他にKernel Discriminant Analysis（ＫＤＡ）等の他の教師有り学習器を用いることもできる。

　次に、処理部１２０が、各学習画像を分割（若しくは重複分割又は過分割）して画像群を生成する（Ｓ１０５）。本実施形態では学習画像を、重複を許した複数個のブロックに分割し、それらの画像の集合である画像群を生成する。また、その他にＪＳＥＧ領域分割等を用いて画像を過分割する方法を用いることもできる。この方法を用いることで、輪郭・色情報に応じたより正確な検出対象領域と背景の境界を決定することができる。

　次に、処理部１２０が、生成した画像群のうちの各画像を分類器データで分類して分類スコアを算出する（Ｓ１０６）。

　そして、終了条件を満たしているか否かを判定し（Ｓ１０７）、終了条件を満たしている場合には、処理を終了する。

　一方で、終了条件を満たしていない場合には、生成した画像群のうち、分類スコアが所与の閾値よりも大きい画像の和を新たな処理対象画像として再生成する（Ｓ１０８）。そして、以上で述べたＳ１０３～Ｓ１０８の処理を、終了条件を満たすまで繰り返し行う。

　４．本実施形態の手法
　次に、本実施形態の手法について説明する。

　以上の本実施形態の画像処理装置は、学習画像と、学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部１１０と、画像を分類するために用いる分類器データと、分類器データを生成するために用いる処理対象画像の生成処理を行う処理部１２０と、生成された分類器データを記憶する記憶部１３０と、を含む。そして、処理部１２０は、学習画像の全体画像又は部分画像である処理対象画像を生成する。さらに、処理部１２０は、処理対象画像の特徴量を算出し、特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組である教師データに基づいて、分類器データを生成する。次に、処理部１２０は、学習画像又は処理対象画像に基づいて画像群を生成し、分類器データを用いて、生成した画像群の各画像を分類して、各画像の分類スコアを算出し、算出した分類スコアと画像群とに基づいて、処理対象画像を再生成する。

　ここで、学習画像とは、学習に用いる画像のことを言い、本実施形態では後述する処理対象画像や画像群の元となる画像のことを言う。なお、学習画像は、あらかじめ正解ラベルが付与されている画像であってもよいし、正解ラベルが付与されていない画像であってもよい。

　また、ラベル（クラス）とは、データ（画像データ）の内容を表す言葉や記号等のことをいう。さらに、正解ラベルとは、データの内容を正しく表している（と定められた）ラベルのことをいう。すなわち、正解ラベルは、データが帰属するクラス（帰属クラス）のラベルであるとも言える。例えば、「車（くるま）」と「車ではない」という二種類のラベルがあり、「車」が映っているか否かで画像を分類する場合には、図３の「２台の車と空（雲）」が映されている学習画像ＬＩＭ１の正解ラベルは「車」となる。

　次に、分類器（判別器、学習判別器、分類モデル、判別モデル）とは、テストデータに付与すべきラベルを判別する基準やルール等のことをいう。分類器は、例えば、ＳＶＭ（Support Vector Machine）などの学習アルゴリズムと教師データを用いて、学習を行うことにより得られる学習結果（分類器データ）とも言える。

　そして、処理対象画像とは、分類器データを生成するために直接用いる画像であって、学習画像の全体画像又は部分画像である。具体的な処理対象画像の生成方法については、後に詳述する。

　また、教師データとは、学習アルゴリズムの直接の入力データであって、本実施形態では、処理対象画像の特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組からなるデータである。なお、特徴量に対応する学習画像とは、その特徴量を有する処理対象画像の元となった学習画像のことをいう。また、このように最初の教師データとしては、処理対象画像と、処理対象画像の元となった学習画像と同じ正解ラベルの組を用いるが、必ずしもこれに限定されず、処理対象画像の内容によっては、元の学習画像の正解ラベルとは異なる正解ラベルを用いてもよい。

　さらに、学習画像又は処理対象画像から生成される画像群とは、処理対象画像を再生成するために用いられる画像の集合である。具体的に、図３では、学習画像ＬＩＭ１から４枚の画像ＩＭ１～ＩＭ４（画像群）を生成している。なお、図３にも示すように、画像ＩＭ１～ＩＭ４の内容は互いに異なっており、画像群の各画像の正解ラベルは、学習画像ＬＩＭ１の正解ラベルと同じであるとは限らない。そのため、生成直後の画像群の各画像には、正解ラベルは付与されておらず、分類器データを用いてこれらの各画像にラベル付けを行う。また、画像群に含まれる画像は、図３のように４枚とは限らず、何枚であってもよい。

　そして、分類スコア（判別スコア）とは、分類結果（判別結果）の確からしさを表す度合いのことをいう。分類スコアは、例えば分類手法（判別手法、識別手法）としてＳＶＭを用いる場合には、分類境界面からの距離であるし、判別分析法を用いる場合には、クラスタ中心からの（マハラノビス）距離の差である。さらに、分類スコアは、分類手法として統計的（ベイズ）判別器を用いる場合には、尤度であるし、ブースティングを用いる場合には、弱識別器の重み付け投票の和である。

　以上のように本実施形態では、学習画像に正解ラベルを付与するだけで、自動的に新たな処理対象画像を生成して、教師データを修正しながら、又は増やしながら、学習を行うことができる。

　また、新たな処理対象画像は、画像群の各画像の分類結果及び分類スコアに基づいて生成されるため、生成される処理対象画像の内容に応じた正解ラベルを自動的に付与することが可能になる。

　基本的には、新たに生成する処理対象画像には、元となった学習画像と同じ正解ラベルを付与するが、これに限定されない。

　すなわち、処理部１２０は、再生成した処理対象画像と、処理対象画像を再生成する際に画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、分類器データを再生成してもよい。

　図４（Ａ）及び図４（Ｂ）を用いて具体例を説明する。まず、図３の学習画像ＬＩＭ１から生成した画像群の各画像ＩＭ１～ＩＭ４を、分類器データに基づいて分類した結果、図４（Ａ）に示すように、画像ＩＭ１及びＩＭ２には「車ではない」というラベルが付与され、画像ＩＭ３及びＩＭ４には「車」というラベルが付与されたものとする。

　この時、「車」というラベルが付与された画像ＩＭ３及びＩＭ４を結合して、図４（Ｂ）に示す処理対象画像ＬＩＭ２を生成する場合には、処理対象画像ＬＩＭ２に「車」というラベルが付与される。

　一方で、「車ではない」というラベルが付与された画像ＩＭ１及びＩＭ２を用いて生成された処理対象画像には、「車ではない」というラベルが付与される。どちらも場合にも、処理対象画像の内容を表す正解ラベルが自動的に付与される。

　そのため、新たに生成した画像群の各画像及び処理対象画像に人がラベル付けをするコストを削減することが可能である。さらに、学習画像において、正解ラベルが表す物体等が映る位置を指定するコスト等も削減することも可能である。その結果、教師データを大量に用意できるようになり、分類器データによる分類精度を向上させることができる。

　すなわち、本実施形態を用いれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、画像中における物体の位置検出が可能になることに加え、生成される分類器データによる分類精度を向上させることも可能となる。

　また、再生成した処理対象画像に対して自動的にラベル付けを行って、新たな教師データを生成して学習に用いることにより、元の学習画像に付与された正解ラベルが表す内容とは異なる内容の画像も教師データに追加して学習すること等が可能になる。

　例えば、「車」を表す画像のみを教師データに追加するだけなく、「車ではない」というラベルが付与された画像も教師データに追加して学習を行うことが可能になる。その結果、「車ではない」対象物が映っている画像をより正確に分類すること等が可能になり、ひいては「車」についての分類精度も向上させること等が可能になる。

　また、処理対象画像を生成するために用いる画像（選択画像）には、同じ対象物が映っている方がよい。そして、分類スコアが高ければ高いほど、分類器データによる分類結果が確からしいものであると判定できる。つまり、同じ分類結果で、かつ分類スコアが高い画像には同じ対象物が映っている可能性が高い。

　そこで、処理部１２０は、画像群の各画像の分類スコアと所与の閾値との比較処理を行い、画像群の中から、所与の閾値以上の分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、処理対象画像を再生成してもよい。

　例えば、前述した図４（Ｂ）の処理対象画像ＬＩＭ２を生成する例では、選択画像は図４（Ａ）の画像ＩＭ３及びＩＭ４である。なお、選択画像は何枚でもよく、必ずしも図４（Ｂ）のように選択画像を結合して処理対象画像を生成する必要もない。

　また、処理部１２０は、学習画像の全体画像を最初の処理対象画像として設定してもよい。

　また、処理部１２０は、前回の処理対象画像よりも画素数又は面積の小さい処理対象画像を生成してもよい。

　具体例を図５（Ａ）～図５（Ｃ）に示す。図５（Ａ）では、まず学習画像ＬＩＭ１を点線で示す領域に分割し、この各領域の画像（画像群）から選択画像を選択し、選択画像を再度結合して、図５（Ｂ）に示すような処理対象画像ＬＩＭ３を生成する。最初の処理対象画像を学習画像ＬＩＭ１の全体画像であるものとすると、処理対象画像ＬＩＭ３は、「車」以外が映っている領域が削られ、画素数又は面積が小さくなっている。さらに、後述するように分割サイズをより小さくして処理を進めると、図５（Ｃ）に示す処理対象画像ＬＩＭ４を生成することができる。処理対象画像ＬＩＭ４は、「車」の輪郭に沿って学習画像から切り取られたような画像になっており、処理対象画像ＬＩＭ３と比べて「車」以外が映る領域がさらに削られ、さらに画素数又は面積の小さい画像になっている。

　これにより、正解ラベルが表す内容以外の部分を削除して、正解ラベルが表す対象物が占める面積（割合）が大きい画像を処理対象画像として用いて学習を行うこと等が可能になる。よって、元の学習画像のうち、正解ラベルが表す対象物が映る領域を指定した場合と同様に、正解ラベルが表す対象物を正確に学習すること等が可能になる。

　一方で、処理部１２０は、学習画像に基づいて画像群を生成し、前回の処理対象画像よりも画素数又は面積の大きい処理対象画像を生成してもよい。

　処理対象画像から画像群を生成する場合には、新たに生成される処理対象画像の画素数又は面積は次第に小さくなっていく（又は変わらない）が、元の学習画像から画像群を生成する場合には、処理対象画像の画素数又は面積が大きくなることもある。

　具体例を図６（Ａ）及び図６（Ｂ）に示す。図６（Ａ）の処理対象画像ＬＩＭ５は、「車」の画像であるが、タイヤ部分が欠けている。これは、「車」のタイヤ部分の画像が、「車ではない」と判定されたか、又は「車」の画像であると判定されたものの、分類スコアが所与の閾値に満たなかったため、処理対象画像を生成する際に、削除されてしまった例である。

　しかし、このような場合でも、学習を繰り返し、分類モデルの分類精度が向上した場合には、元の学習画像から画像群を生成すれば、図６（Ｂ）に示すようなタイヤＴＹ部分が復活した処理対象画像ＬＩＭ６を生成することも可能である。

　また、図６（Ａ）のように、正解ラベルを表す領域の一部が削除された処理対象画像が生成される原因としては、学習がまだ十分に進んでおらず、分類器データによる分類精度が低い状態であるにも関わらず、選択画像を選択するための分類スコアの閾値を高く設定していることが考えられる。

　そこで、処理部１２０は、処理対象画像を再生成する処理を行うごとに、分類スコアとの比較処理に用いる所与の閾値を変更してもよい。

　具体例を図７（Ａ）～図７（Ｄ）に示す。本例では、分類器データと処理対象画像の生成処理を４回行うものとする。

　まず、図７（Ａ）は、生成処理の回数（横軸）と閾値（縦軸）の関係を表すグラフであり、ケース１（ＣＳ１）とケース２（ＣＳ２）の二つのケースについて閾値の変動を表している。ケース１では、グラフの直線ＣＳ１に表すように、生成処理の回を追う毎に、閾値を大きくしていき、かつ後述するように回が進む毎に学習画像の分割サイズを小さくするものとする。一方で、ケース２では、グラフの直線ＣＳ２に表すように、閾値は初回からＴＨ４で固定であり、かつ学習画像の分割サイズも最初から最小値を用いるものとする。

　この時、ケース１の初回では閾値ＴＨ１を用い、分割サイズも大きいため、「車」の輪郭に沿っておらず、「車」以外が映る領域も多く含む処理対象画像ＬＩＭ７が生成される。「車」以外が映る領域も多く含む理由は、閾値が小さいためであり、分類スコアが小さい画像も処理対象画像の生成に用いられるためである。

　一方で、ケース２では初回から閾値ＴＨ４を用い、分割サイズも最小であるため、「車」の輪郭に沿った処理対象画像ＬＩＭ８が生成される。しかし、処理対象画像ＬＩＭ８では、「車」のタイヤ部分が欠けてしまっている。さらに、他の教師データでタイヤが「車」の一部であると学習しなかった場合には、学習が進んで、４回目の処理対象画像の生成処理においても、欠けたタイヤ部分が復活する可能性は低い。

　これに対して、ケース１の４回目では十分に学習が進んでから、閾値としてＴＨ４を用いるため、タイヤ部分が削除されず、「車」の輪郭に沿った処理対象画像ＬＩＭ９を生成することができる。

　これにより、処理対象画像から正解ラベルが表す領域の一部が削除されることを防ぐこと等が可能になる。さらに、回毎に異なる処理対象画像が生成されるため、より多くの種類の教師データを用いて学習を行うことができ、分類精度を向上させること等が可能になる。

　また、処理部１２０は、Bag of featuresを用いて、処理対象画像の特徴量を算出してもよい。

　ここで、Bag of Features（ＢｏＶＷ：Bag of visual words）とは、画像を局所特徴の集合と捉えた画像の表現方法である。

　また、画像（画素）の特徴量（局所特徴量）として用いる値は、ＨＳＶ（Hue、Saturation、Value）のような色特徴量であっても良いし、ＳＩＦＴ（Scale-Invariant Feature Transform）やＨＯＧ（Histograms of Oriented Gradients）のような勾配特徴量、ＬＢＰ（Local Binary Pattern）のようなテクスチャ特徴量であっても良い。さらに、画像の特徴量としては、例えばその画像の撮像時の撮像条件や焦点位置等のカメラの設定情報も併せて用いても良い。

　また、前述した図３に示すように、処理部１２０は、学習画像又は処理対象画像を複数の領域に分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。

　また、処理部１２０は、学習画像又は処理対象画像を複数の領域に重複分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。

　例えば、図８（Ａ）に示すように、学習画像ＬＩＭ（又は処理対象画像）を互いに重複する領域ＣＡＲ１～ＣＡＲ６に分割して、画像群を生成する。この場合には、面積の大きい領域（ＣＡＲ１～ＣＡＲ４）の上に面積の小さい領域（ＣＡＲ５、ＣＡＲ６）を設定することができる。この際、「車」が映る処理対象画像を生成する場合には、領域ＣＡＲ５と領域ＣＡＲ６の画像を用いればよい。

　このように、学習により効果的な処理対象画像を容易に生成すること等が可能になる。

　また、処理部１２０は、学習画像又は処理対象画像を複数の領域に過分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。

　ここで、過分割（オーバーセグメンテーション）とは、物体と物体との境界で画像を分割するだけでなく、一つの物体内も複数の領域に分割することをいう。

　例えば、図８（Ｂ）に示すように、学習画像ＬＩＭ（又は処理対象画像）を領域ＣＡＲ１～ＣＡＲ１５に分割して、画像群を生成する。図８（Ｂ）の例では、車の内部を更に細かい領域（ＣＡＲ１１～ＣＡＲ１５）に分割している。

　また、処理部１２０は、分類器データと処理対象画像の生成処理を行う度に、学習画像又は処理対象画像の分割サイズを変更してもよい。

　これにより、生成される処理対象画像の輪郭を、付与される正解ラベルが表す対象物の輪郭に沿った形にすること等が可能になる。すなわち、対象物の形状をより正確に表す処理対象画像を生成すること等が可能になる。

　また、分類器データの生成処理の繰り返し回数が多い程、生成される分類器データの分類精度の向上が期待できる。逆に、生成処理を所定の回数だけ繰り返した後に生成される分類器データでは、前回生成された分類器データと比べて、分類精度の改善率が徐々に低くなるとも予想できる。この場合には、同じ学習時間に対して、回を重ねる程、分類精度の改善率が低くなる。すなわち、回を重ねる程、分類器データの生成処理のコストパフォーマンスが悪くなる。

　そこで、処理部１２０は、分類器データと処理対象画像の生成処理を所与の回数繰り返して行ってもよい。

　また、分類器データの分類精度の改善率が低下する原因の一つとしては、生成処理を繰り返すほどに、学習に用いる処理対象画像が前回の処理対象画像と比べてほとんど差がなくなってしまうことが考えられる。

　そこで、処理部１２０は、前回の処理対象画像と今回の処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、分類器データと処理対象画像の生成処理の繰り返しを終了してもよい。

　図９（Ａ）～図９（Ｃ）を用いて具体例を説明する。図９（Ａ）は、生成処理の繰り返し回数（横軸）と、各回において生成される処理対象画像の面積又は画素数（縦軸）の関係を表すグラフである。図９（Ａ）のグラフにおいては、初回に生成される処理対象画像の面積はＡＲ１であり、２回目に生成される処理対象画像の面積はＡＲ２であり、３回目に生成される処理対象画像の面積はＡＲ３である。なお、０回目の面積ＡＲ０は、学習画像の面積を表す。また、学習画像と初回の処理対象画像の面積（又は画素数）の差はΔＡＲ_０１であり、初回と２回目の処理対象画像の面積の差はΔＡＲ_１２となり、同様に、各回の差はΔＡＲ_２３、ΔＡＲ_３４となる。

　この時、所与の閾値ＴＨを、ΔＡＲ_２３＜ＴＨ＜ΔＡＲ_３４とすると、図９（Ｂ）に示す３回目に生成される処理対象画像ＬＩＭ１０と、図９（Ｃ）に示す４回目に生成される処理対象画像ＬＩＭ１１と、の面積の差がΔＡＲ_３４となり、所与の閾値を超えるため、４回目で生成処理の繰り返しを終了する。

　これにより、前述した例と同様に、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。また、繰り返し回数を直接指定することと比較して、学習画像群に依存せずに終了条件を決定すること等が可能になる。

　また、処理部１２０は、処理対象画像群を表示部に表示させ、処理対象画像群に対する修正指示情報を取得し、修正指示情報に基づいて、処理対象画像群の修正処理を行ってもよい。

　ここで、修正指示情報とは、処理対象画像群の修正処理の内容を指示する情報であって、ユーザにより入力されるものである。

　具体的には、処理部１２０は、処理対象画像群を表示部に一覧表示させ、修正指示情報として、処理対象画像群の中から、不要な処理対象画像の指定情報を取得し、処理対象画像群の中から、指定情報が示す処理対象画像を削除してもよい。

　この時の処理の流れについて、図１０のフローチャートを用いて説明する。図２のフローチャートと同一の番号が付与された処理ステップは、図２を用いて説明した処理と同様のため、説明を省略し、ここでは差分についてのみ述べる。

　図１０に示すように、処理対象画像群の修正処理は、ステップＳ１０８の後に、処理部１２０が行う（Ｓ２０１）。

　処理対象画像群の修正は、図１１に示すように処理対象画像群を表示部ＤＳに一覧表示し、ユーザが処理対象画像として不適切であると判断したもの（図１１では、カーソルＣＳに囲まれている画像）について編集あるいは削除をすることによって行われる。

　なお、修正指示情報として、処理対象画像のうち、正解ラベルが表す対象物等が映る正しい領域の情報を入力してもよい。その場合には、修正処理において、処理部１２０は、正解ラベルが表す対象物等が正しく（例えば画像の正面に）映るように、処理対象画像を再生成してもよい。

　また、前述したように、学習画像又は処理対象画像から画像群を生成し、処理対象画像を生成していくと、例えば図５（Ａ）～図５（Ｃ）を用いて説明したように、学習画像において処理対象画像が占める領域が、「車」が映っている領域に収束していく。このように、元の学習画像における「車」の存在及び「車」の位置を検出できる。

　すなわち、処理部１２０は、画像群の各画像の分類スコアに基づいて、物体検出処理を行ってもよい。

　なお、上記では主に画像認識への応用について述べたが、本実施形態の手法は、文書認識や音声認識などのマルチメディア認識にも応用することが可能である。

　なお、本実施形態の画像処理装置等は、その処理の一部または大部分をプログラムにより実現してもよい。この場合には、ＣＰＵ等のプロセッサがプログラムを実行することで、本実施形態の画像処理装置等が実現される。具体的には、情報記憶媒体に記憶されたプログラムが読み出され、読み出されたプログラムをＣＰＵ等のプロセッサが実行する。ここで、情報記憶媒体（コンピュータにより読み取り可能な媒体）は、プログラムやデータなどを格納するものであり、その機能は、光ディスク（ＤＶＤ、ＣＤ等）、ＨＤＤ（ハードディスクドライブ）、或いはメモリ（カード型メモリ、ＲＯＭ等）などにより実現できる。そして、ＣＰＵ等のプロセッサは、情報記憶媒体に格納されるプログラム（データ）に基づいて本実施形態の種々の処理を行う。即ち、情報記憶媒体には、本実施形態の各部としてコンピュータ（操作部、処理部、記憶部、出力部を備える装置）を機能させるためのプログラム（各部の処理をコンピュータに実行させるためのプログラム）が記憶される。

　以上のように本実施形態について詳細に説明したが、本発明の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本発明の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また、画像処理装置及びプログラム等の構成、動作も本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１１０　入力受付部、１２０　処理部、１３０　記憶部

Claims

　学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、
　画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、
　生成された前記分類器データを記憶する記憶部と、
　を含み、
　前記処理部は、
　前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成することを特徴とする画像処理装置。
　請求項１において、
　前記処理部は、
　再生成した前記処理対象画像と、前記処理対象画像を再生成する際に前記画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、前記分類器データを再生成することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記画像群の前記各画像の前記分類スコアと所与の閾値との比較処理を行い、前記画像群の中から、前記所与の閾値以上の前記分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、前記処理対象画像を再生成することを特徴とする画像処理装置。
　請求項３において、
　前記処理部は、
　前記処理対象画像を再生成する処理を行うごとに、前記分類スコアとの前記比較処理に用いる前記所与の閾値を変更することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記学習画像の前記全体画像を最初の前記処理対象画像として設定することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前回の前記処理対象画像よりも画素数又は面積の小さい前記処理対象画像を生成することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記学習画像に基づいて前記画像群を生成し、前回の前記処理対象画像よりも画素数又は面積の大きい前記処理対象画像を生成することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記分類器データと前記処理対象画像の前記生成処理を所与の回数繰り返して行うことを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前回の前記処理対象画像と今回の前記処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、前記分類器データと前記処理対象画像の前記生成処理の繰り返しを終了することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記学習画像又は前記処理対象画像を複数の領域に分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記学習画像又は前記処理対象画像を複数の領域に重複分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記学習画像又は前記処理対象画像を複数の領域に過分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
　請求項１０又は１１又は１２において、
　前記処理部は、
　前記分類器データと前記処理対象画像の前記生成処理を行う度に、前記学習画像又は前記処理対象画像の分割サイズを変更することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　処理対象画像群を表示部に表示させ、前記処理対象画像群に対する修正指示情報を取得し、前記修正指示情報に基づいて、前記処理対象画像群の修正処理を行うことを特徴とする画像処理装置。
　請求項１４において、
　前記処理部は、
　前記処理対象画像群を前記表示部に一覧表示させ、前記修正指示情報として、前記処理対象画像群の中から、不要な前記処理対象画像の指定情報を取得し、前記処理対象画像群の中から、前記指定情報が示す前記処理対象画像を削除することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　Bag of featuresを用いて、前記処理対象画像の前記特徴量を算出することを特徴とする画像処理装置。
　請求項１又は２において、
　前記処理部は、
　前記画像群の前記各画像の前記分類スコアに基づいて、物体検出処理を行うことを特徴とする画像処理装置。
　学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、
　画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、
　生成された前記分類器データを記憶する記憶部として、
　コンピュータを機能させ、
　前記処理部は、
　前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成することを特徴とするプログラム。
　学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行い、
　画像を分類するための分類器データを生成するために用い、前記学習画像の全体画像又は部分画像である処理対象画像を生成する処理を行い、
　前記処理対象画像の特徴量を算出する処理を行い、
　前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データの生成処理を行い、
　前記学習画像又は前記処理対象画像に基づいて画像群を生成する処理を行い、
　前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出する処理を行い、
　算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する処理を行い、
　生成された前記分類器データを記憶する処理を行うことを特徴とする画像処理方法。