WO2014174932A1 - 画像処理装置、プログラム及び画像処理方法 - Google Patents

画像処理装置、プログラム及び画像処理方法 Download PDF

Info

Publication number
WO2014174932A1
WO2014174932A1 PCT/JP2014/056886 JP2014056886W WO2014174932A1 WO 2014174932 A1 WO2014174932 A1 WO 2014174932A1 JP 2014056886 W JP2014056886 W JP 2014056886W WO 2014174932 A1 WO2014174932 A1 WO 2014174932A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
processing target
target image
learning
processing
Prior art date
Application number
PCT/JP2014/056886
Other languages
English (en)
French (fr)
Inventor
淳 安藤
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to CN201480022915.0A priority Critical patent/CN105144239B/zh
Publication of WO2014174932A1 publication Critical patent/WO2014174932A1/ja
Priority to US14/878,210 priority patent/US9552536B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

 画像処理装置は、学習画像と正解ラベルの入力を受け付ける入力受付部110と、分類器データと処理対象画像の生成処理を行う処理部120と、分類器データを記憶する記憶部130を含む。処理部120は、学習画像の全体画像又は部分画像である処理対象画像を生成し、処理対象画像の特徴量を算出し、特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組である教師データに基づき、分類器データを生成し、学習画像又は処理対象画像に基づき画像群を生成し、分類器データを用いて画像群の各画像を分類して、各画像の分類スコアを算出し、分類スコアと画像群に基づき処理対象画像を再生成する。

Description

画像処理装置、プログラム及び画像処理方法
 本発明は、画像処理装置、プログラム及び画像処理方法等に関係する。
 近年、機械学習の分野において、教師あり学習の研究が進められている。学習の結果として生成される判別器(分類器)を用いて画像の内容を判別(分類)する際の特有のケースとして、画像中における対象物の位置を検出したいケースが考えられる。また、正解ラベルを表す対象物等が一部にしか映っていない画像を分類するケースも考えられる。例えば、特許文献1では、そのような画像に対して、対象画像の一部分の特徴量に基づき分類を行う発明が開示されている。
 また、一般的に、学習に用いる教師データが多ければ多い程、生成される判別器(分類器)の判別精度(分類精度)は向上し、未ラベルデータに対して自動的に正しいラベル付けを行うことが可能になる。
 しかし、教師データの正解ラベルは人の手によって付与される場合がほとんどである。そのため、大量の教師データを準備することが困難であったり、教師データの生成コストが非常に大きくなったりする場合が多い。
 そこで、教師あり学習を発展させた手法の一つに、正解ラベル付きデータだけでなく、未ラベルデータも教師データとして用いる半教師あり学習という手法がある。そして、その半教師あり学習の中でも、主に画像データを学習・判別対象とする手法であり、正解ラベル付き画像から新たな画像を生成して、学習に用いる生成型学習という手法が提案されている。
特開2008-282267号公報
 正解ラベルを表すシーン又は物体が部分的に含まれるような画像から、物体(対象物)等の位置を検出するための分類器の学習を行うには、画像中の対象物の位置や形状等を教師データとして用意する必要がある。しかし、画像に対してその画像が属するクラスのラベルを付与する作業と比較しても、物体の位置や形状情報まで手動で作成する作業はさらに手間がかかる作業である。その結果、用意できる教師データ数が少なくなってしまい、学習結果である分類器の性能も低下してしまう。
 また、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」という前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えることができず、多くの画像を新たに生成できないという問題があった。そのため、この場合には、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。
 一方、「新たな画像を生成する際に、正解ラベルが変わっても良い」とした場合には、正解ラベル付き画像から新たな画像を生成する方法として、例えば元の正解ラベル付き画像を複数の画像に分割し、新たに生成した画像群に対して、正解ラベルを人が付与して、新たな教師データとして学習に用いる方法が考えられる。この場合には、教師データの数を十分に増やすことができる一方で、教師データのラベル付けコストが膨大になるという問題点がある。
 本発明の幾つかの態様によれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体の位置検出ができる画像処理装置、プログラム及び画像処理方法等を提供することができる。
 また、本発明の幾つかの態様によれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体等の位置の検出ができ、生成される分類器の分類精度を向上させることができる画像処理装置、プログラム及び画像処理方法等を提供することができる。
 本発明の一態様は、学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、生成された前記分類器データを記憶する記憶部と、を含み、前記処理部は、前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する画像処理装置に関係する。
 本発明の一態様では、学習画像に正解ラベルを付与するだけで、自動的に新たな処理対象画像を生成して、教師データを修正しながら、又は増やしながら、学習を行う。
 新たな処理対象画像は、画像群の各画像の分類結果及び分類スコアに基づいて生成され、生成される処理対象画像の内容に応じた正解ラベルが自動的に付与される。すなわち、正解ラベルが表す内容をより正確に表現する処理対象画像を自動的に生成することができる。そのため、教師データの生成コストを削減し、多くの教師データを学習に用いることができる。
 よって、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、画像中における物体の位置検出が可能になることに加え、生成される分類器データによる分類精度を向上させることも可能となる。
 また、本発明の一態様では、前記処理部は、再生成した前記処理対象画像と、前記処理対象画像を再生成する際に前記画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、前記分類器データを再生成してもよい。
 これにより、元の学習画像に付与された正解ラベルが表す内容とは異なる内容の画像についても追加して学習すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記画像群の前記各画像の前記分類スコアと所与の閾値との比較処理を行い、前記画像群の中から、前記所与の閾値以上の前記分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、前記処理対象画像を再生成してもよい。
 これにより、同じ対象物が映っている可能性の高い画像を選択画像として選択して、処理対象画像を生成すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記処理対象画像を再生成する処理を行うごとに、前記分類スコアとの前記比較処理に用いる前記所与の閾値を変更してもよい。
 これにより、処理対象画像から正解ラベルが表す領域の一部が削除されることを防ぐこと等が可能になる。
 また、本発明の一態様では、前記処理部は、前記学習画像の前記全体画像を最初の前記処理対象画像として設定してもよい。
 これにより、学習の初期段階においても、学習画像において処理対象画像とする領域を指定するコストを削減すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前回の前記処理対象画像よりも画素数又は面積の小さい前記処理対象画像を生成してもよい。
 これにより、正解ラベルが表す内容以外の部分を削除して、正解ラベルが表す対象物が占める面積(割合)が大きい画像を処理対象画像として用いて学習を行うこと等が可能になる。
 また、本発明の一態様では、前記処理部は、前記学習画像に基づいて前記画像群を生成し、前回の前記処理対象画像よりも画素数又は面積の大きい前記処理対象画像を生成してもよい。
 これにより、前の処理対象画像の生成処理で誤って削除してしまった領域を含む処理対象画像を再生成して、学習を行うこと等が可能になる。
 また、本発明の一態様では、前記処理部は、前記分類器データと前記処理対象画像の前記生成処理を所与の回数繰り返して行ってもよい。
 これにより、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。
 また、本発明の一態様では、前記処理部は、前回の前記処理対象画像と今回の前記処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、前記分類器データと前記処理対象画像の前記生成処理の繰り返しを終了してもよい。
 これにより、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。
 また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。
 これにより、学習に用いるための画像を新たに撮像するコストをかけずに、準備すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に重複分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。
 これにより、学習により効果的な処理対象画像を容易に生成すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記学習画像又は前記処理対象画像を複数の領域に過分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成してもよい。
 これにより、輪郭・色情報に応じて、対象物と背景の境界をより正確に判定すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記分類器データと前記処理対象画像の前記生成処理を行う度に、前記学習画像又は前記処理対象画像の分割サイズを変更してもよい。
 これにより、生成される処理対象画像の輪郭を、付与される正解ラベルが表す対象物の輪郭に沿った形にすること等が可能になる。
 また、本発明の一態様では、前記処理部は、処理対象画像群を表示部に表示させ、前記処理対象画像群に対する修正指示情報を取得し、前記修正指示情報に基づいて、前記処理対象画像群の修正処理を行ってもよい。
 これにより、処理対象画像群のうち、学習結果に悪影響を及ぼす処理対象画像を修正すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記処理対象画像群を前記表示部に一覧表示させ、前記修正指示情報として、前記処理対象画像群の中から、不要な前記処理対象画像の指定情報を取得し、前記処理対象画像群の中から、前記指定情報が示す前記処理対象画像を削除してもよい。
 これにより、学習結果に悪影響を及ぼす処理対象画像を用いて学習を行ってしまうことを抑制すること等が可能になる。
 また、本発明の一態様では、前記処理部は、Bag of featuresを用いて、前記処理対象
画像の前記特徴量を算出してもよい。
 これにより、例えば実際の学習画像に映る対象物と種類は同じだが、違う個体が映る画像や、学習画像とは対象物の映り込む角度が異なる画像等も、正しく分類することができる分類器データを生成すること等が可能になる。
 また、本発明の一態様では、前記処理部は、前記画像群の前記各画像の前記分類スコアに基づいて、物体検出処理を行ってもよい。
 これにより、分類器データの生成処理を繰り返せば繰り返すほど、元の学習画像における、正解ラベルが表す物体等の位置を正確に検出すること等が可能になる。
 また、本発明の他の態様では、上記各部としてコンピュータを機能させるプログラムに関係する。
 また、本発明の他の態様では、学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行い、画像を分類するための分類器データを生成するために用い、前記学習画像の全体画像又は部分画像である処理対象画像を生成する処理を行い、前記処理対象画像の特徴量を算出する処理を行い、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データの生成処理を行い、前記学習画像又は前記処理対象画像に基づいて画像群を生成する処理を行い、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出する処理を行い、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する処理を行い、生成された前記分類器データを記憶する処理を行う画像処理方法に関係する。
図1は、本実施形態のシステム構成例。 図2は、本実施形態の処理の流れを説明するフローチャート。 図3は、学習画像又は処理対象画像から画像群を生成する処理の説明図。 図4(A)、図4(B)は、画像群から処理対象画像を生成する処理の説明図。 図5(A)~図5(C)は、各回において生成される処理対象画像の説明図。 図6(A)、図6(B)は、処理対象画像の面積が大きくなる例の説明図。 図7(A)~図7(D)は、分類スコアの閾値の説明図。 図8(A)、図8(B)は、画像群を生成する処理の他の説明図。 図9(A)~図9(C)は、分割サイズの説明図。 図10は処理対象画像群を修正する場合の処理の流れを説明するフローチャート。 図11は処理対象画像群を一覧表示する処理の説明図。
 以下、本実施形態について説明する。まず、本実施形態の概要を説明し、次にシステム構成例について説明する。そして、フローチャート等を用いて本実施形態で行う処理の詳細について説明する。最後に、本実施形態の手法についてまとめる。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
 1.概要
 近年、機械学習の分野において、教師あり学習の研究が進められている。教師あり学習とは、正解ラベルが付与されたデータを用いて、学習を行い、判別器(分類器)を生成する手法のことをいう。そして、学習後には、正解ラベルが付与されていない未ラベルデータの内容を、生成した判別器を用いて判別し、判別した未ラベルデータに対してラベル付けを行う。このような教師あり学習は、大量のデータの内容を自動的に判別する必要がある検索エンジンやログ解析システム等において用いられている。
 さらに、生成した分類器を用いて画像の内容を分類する際の特有のケースとして、画像中における対象物の位置を検出したいケースが考えられる。また、ユーザが検出したい対象物等が画像の一部にしか映っていない画像を分類するケースもある。画像に映る対象物の位置を検出したり、画像の内容を分類したりする方法としては、前述した特許文献1に記載する方法等があるが、これらの方法では、一部にしか対象物が映っていない画像を用いて学習を行うために、正解ラベルが表す対象物等の画像中での位置や形状等のデータを教師データとして用意する必要がある。
 しかし、画像に対してその画像が属するクラスのラベルを付与する作業と比較しても、物体の位置や形状情報まで手動で作成する作業はさらに手間がかかる作業である。その結果、用意できる教師データ数が少なくなってしまい、学習結果である分類器の性能も低下してしまう。
 また、一般的に、学習に用いる教師データが多ければ多い程、生成される判別器の判別精度(分類精度)は向上し、未ラベルデータに対して自動的に正しいラベル付けを行うことが可能になる。しかし、教師データの正解ラベルは人の手によって付与される場合がほとんどであるため、大量の教師データを準備することが困難であったり、教師データの生成コストが非常に大きくなったりする場合が多い。
 そこで、教師あり学習を発展させた手法の一つに、正解ラベル付きデータだけでなく、未ラベルデータも教師データとして用いる半教師あり学習という手法がある。そして、その半教師あり学習の中でも、主に画像データを学習・判別対象とする手法であり、正解ラベル付き画像から新たな画像を生成して、学習に用いる生成型学習という手法が提案されている。
 従来の生成型学習では、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」ということを前提としていた。
 例えば、正解ラベル付き画像に画像処理を行って、新たな画像を生成する方法として、正解ラベル付き画像に微小なノイズを加えたり、明るさを少し変えたりする方法などが考えられる。
 しかし、実際には、新たに生成する画像の正解ラベルを元の画像の正解ラベルから変えずに、どの程度までなら画像の明るさ等を変更できるか分からないことが多い。すなわち、「正解ラベル付き画像から新たな画像を生成した場合に、新たな画像の正解ラベルは、元の画像の正解ラベルと同じである」という前提の下では、新たな画像を生成する際に、正解ラベルが変わらない程度でしか、正解ラベル付き画像に変化を与えることができず、多くの画像を新たに生成できないという問題があった。そのため、教師データの数を十分に増やすことができず、判別器の判別精度を十分に向上させることができなかった。
 一方、「新たな画像を生成する際に、正解ラベルが変わっても良い」とした場合には、正解ラベル付き画像から新たな画像を生成する方法として、例えば元の正解ラベル付き画像を複数の画像に分割する方法等が考えられる。
 しかし、元の正解ラベル付き画像を分割した場合には、新たに生成される画像の正解ラベルは、元の正解ラベル付き画像の正解ラベルと同じになるとは限らない。例えば、元の正解ラベル付き画像に、「花」と「空」が映っており、「花」という正解ラベルが付与されている場合には、正解ラベル付き画像を分割した結果、「花」だけが映っている画像や、「空」だけが映っている画像等の様々な画像が生成されることになり、新たに生成される画像の正解ラベルも全て「花」にはなることは少ない。従って、新たに生成される画像は未ラベル画像になってしまい、そのままでは学習に用いることはできない。
 そこで、正解ラベル付き画像を分割して新たに生成した画像群に対して、正解ラベルを人が付与して、新たな教師データとして学習に用いる方法が考えられる。この場合には、教師データの数を十分に増やすことができる一方で、教師データのラベル付けコストが膨大になるという問題点がある。
 そこで、本実施形態では、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、物体等の位置の検出ができ、生成される分類器の分類精度を向上させることができる画像処理装置、プログラム及び画像処理方法等を提供する。
 2.システム構成例
 次に、図1に本実施形態の画像処理装置の構成例を示す。
 画像処理装置は、入力受付部110と、処理部120と、記憶部130と、を含む。入力受付部110は、処理部120に接続されており、処理部120と記憶部130は互いに接続されている。なお、画像処理装置は、図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加したりするなどの種々の変形実施が可能である。また、画像処理装置の一部又は全部の機能は、ネットワーク上のサーバにより実現されてもよいし、表示部等を含む端末装置により実現されてもよい。
 次に各部で行われる処理について説明する。
 まず、入力受付部110は、学習画像と、学習画像の正解ラベルの入力を受け付ける処理を行う。入力受付部110は、有線又は無線の少なくとも一方を含むネットワークを介して、外部のサーバや記憶部と通信を行う通信部であってもよいし、ユーザが正解ラベル等を入力するためのインターフェースであって、キーボードやマウス等により構成されていてもよい。
 次に、処理部120は、画像を分類するために用いる分類器データと、分類器データを生成するために用いる処理対象画像の生成処理を行う。なお、処理部120の機能は、各種プロセッサ(CPU等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムなどにより実現できる。処理部120の処理の詳細については後述する。
 そして、記憶部130は、生成された分類器データ等を記憶したり、処理部120等のワーク領域となったりするもので、その機能はRAM等のメモリやHDDなどにより実現できる。
 3.処理の詳細
 以下では、図2のフローチャートを用いて、本実施形態の処理の流れについて説明する。
 はじめに、入力受付部110に対して、学習に用いる学習画像群と各学習画像に付与された帰属クラスのラベル(正解ラベル)を入力する(S101)。
 次に、処理部120が、各学習画像について画像全体を処理対象画像に設定する(S102)。最初の処理対象画像を学習画像の全体とすることで、各学習画像における検出対象の位置や形状情報の付与が不要となる。
 次に、処理部120が、各処理対象画像の特徴量を計算する(S103)。計算する特徴量にはBag of features(BoF)を用いる。なお、処理対象画像のサイズが異なる場合には、BoFのヒストグラムの度数を処理対象画像のサイズに応じて正規化する必要がある。
 次に、処理部120が、計算した特徴量と帰属クラスの組を教師データとして学習を行い、分類器データを生成する(S104)。なお、分類器データの生成にはSupport Vector Machine(SVM)を用いる。また、その他にKernel Discriminant Analysis(KDA)等の他の教師有り学習器を用いることもできる。
 次に、処理部120が、各学習画像を分割(若しくは重複分割又は過分割)して画像群を生成する(S105)。本実施形態では学習画像を、重複を許した複数個のブロックに分割し、それらの画像の集合である画像群を生成する。また、その他にJSEG領域分割等を用いて画像を過分割する方法を用いることもできる。この方法を用いることで、輪郭・色情報に応じたより正確な検出対象領域と背景の境界を決定することができる。
 次に、処理部120が、生成した画像群のうちの各画像を分類器データで分類して分類スコアを算出する(S106)。
 そして、終了条件を満たしているか否かを判定し(S107)、終了条件を満たしている場合には、処理を終了する。
 一方で、終了条件を満たしていない場合には、生成した画像群のうち、分類スコアが所与の閾値よりも大きい画像の和を新たな処理対象画像として再生成する(S108)。そして、以上で述べたS103~S108の処理を、終了条件を満たすまで繰り返し行う。
 4.本実施形態の手法
 次に、本実施形態の手法について説明する。
 以上の本実施形態の画像処理装置は、学習画像と、学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部110と、画像を分類するために用いる分類器データと、分類器データを生成するために用いる処理対象画像の生成処理を行う処理部120と、生成された分類器データを記憶する記憶部130と、を含む。そして、処理部120は、学習画像の全体画像又は部分画像である処理対象画像を生成する。さらに、処理部120は、処理対象画像の特徴量を算出し、特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組である教師データに基づいて、分類器データを生成する。次に、処理部120は、学習画像又は処理対象画像に基づいて画像群を生成し、分類器データを用いて、生成した画像群の各画像を分類して、各画像の分類スコアを算出し、算出した分類スコアと画像群とに基づいて、処理対象画像を再生成する。
 ここで、学習画像とは、学習に用いる画像のことを言い、本実施形態では後述する処理対象画像や画像群の元となる画像のことを言う。なお、学習画像は、あらかじめ正解ラベルが付与されている画像であってもよいし、正解ラベルが付与されていない画像であってもよい。
 また、ラベル(クラス)とは、データ(画像データ)の内容を表す言葉や記号等のことをいう。さらに、正解ラベルとは、データの内容を正しく表している(と定められた)ラベルのことをいう。すなわち、正解ラベルは、データが帰属するクラス(帰属クラス)のラベルであるとも言える。例えば、「車(くるま)」と「車ではない」という二種類のラベルがあり、「車」が映っているか否かで画像を分類する場合には、図3の「2台の車と空(雲)」が映されている学習画像LIM1の正解ラベルは「車」となる。
 次に、分類器(判別器、学習判別器、分類モデル、判別モデル)とは、テストデータに付与すべきラベルを判別する基準やルール等のことをいう。分類器は、例えば、SVM(Support Vector Machine)などの学習アルゴリズムと教師データを用いて、学習を行うことにより得られる学習結果(分類器データ)とも言える。
 そして、処理対象画像とは、分類器データを生成するために直接用いる画像であって、学習画像の全体画像又は部分画像である。具体的な処理対象画像の生成方法については、後に詳述する。
 また、教師データとは、学習アルゴリズムの直接の入力データであって、本実施形態では、処理対象画像の特徴量と、特徴量に対応する学習画像に付与された正解ラベルとの組からなるデータである。なお、特徴量に対応する学習画像とは、その特徴量を有する処理対象画像の元となった学習画像のことをいう。また、このように最初の教師データとしては、処理対象画像と、処理対象画像の元となった学習画像と同じ正解ラベルの組を用いるが、必ずしもこれに限定されず、処理対象画像の内容によっては、元の学習画像の正解ラベルとは異なる正解ラベルを用いてもよい。
 さらに、学習画像又は処理対象画像から生成される画像群とは、処理対象画像を再生成するために用いられる画像の集合である。具体的に、図3では、学習画像LIM1から4枚の画像IM1~IM4(画像群)を生成している。なお、図3にも示すように、画像IM1~IM4の内容は互いに異なっており、画像群の各画像の正解ラベルは、学習画像LIM1の正解ラベルと同じであるとは限らない。そのため、生成直後の画像群の各画像には、正解ラベルは付与されておらず、分類器データを用いてこれらの各画像にラベル付けを行う。また、画像群に含まれる画像は、図3のように4枚とは限らず、何枚であってもよい。
 そして、分類スコア(判別スコア)とは、分類結果(判別結果)の確からしさを表す度合いのことをいう。分類スコアは、例えば分類手法(判別手法、識別手法)としてSVMを用いる場合には、分類境界面からの距離であるし、判別分析法を用いる場合には、クラスタ中心からの(マハラノビス)距離の差である。さらに、分類スコアは、分類手法として統計的(ベイズ)判別器を用いる場合には、尤度であるし、ブースティングを用いる場合には、弱識別器の重み付け投票の和である。
 以上のように本実施形態では、学習画像に正解ラベルを付与するだけで、自動的に新たな処理対象画像を生成して、教師データを修正しながら、又は増やしながら、学習を行うことができる。
 また、新たな処理対象画像は、画像群の各画像の分類結果及び分類スコアに基づいて生成されるため、生成される処理対象画像の内容に応じた正解ラベルを自動的に付与することが可能になる。
 基本的には、新たに生成する処理対象画像には、元となった学習画像と同じ正解ラベルを付与するが、これに限定されない。
 すなわち、処理部120は、再生成した処理対象画像と、処理対象画像を再生成する際に画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、分類器データを再生成してもよい。
 図4(A)及び図4(B)を用いて具体例を説明する。まず、図3の学習画像LIM1から生成した画像群の各画像IM1~IM4を、分類器データに基づいて分類した結果、図4(A)に示すように、画像IM1及びIM2には「車ではない」というラベルが付与され、画像IM3及びIM4には「車」というラベルが付与されたものとする。
 この時、「車」というラベルが付与された画像IM3及びIM4を結合して、図4(B)に示す処理対象画像LIM2を生成する場合には、処理対象画像LIM2に「車」というラベルが付与される。
 一方で、「車ではない」というラベルが付与された画像IM1及びIM2を用いて生成された処理対象画像には、「車ではない」というラベルが付与される。どちらも場合にも、処理対象画像の内容を表す正解ラベルが自動的に付与される。
 そのため、新たに生成した画像群の各画像及び処理対象画像に人がラベル付けをするコストを削減することが可能である。さらに、学習画像において、正解ラベルが表す物体等が映る位置を指定するコスト等も削減することも可能である。その結果、教師データを大量に用意できるようになり、分類器データによる分類精度を向上させることができる。
 すなわち、本実施形態を用いれば、正解ラベルを表す物体等が一部に映る学習画像を用いて学習を行う場合に、学習画像にラベル付けを行うだけで、画像中における物体の位置検出が可能になることに加え、生成される分類器データによる分類精度を向上させることも可能となる。
 また、再生成した処理対象画像に対して自動的にラベル付けを行って、新たな教師データを生成して学習に用いることにより、元の学習画像に付与された正解ラベルが表す内容とは異なる内容の画像も教師データに追加して学習すること等が可能になる。
 例えば、「車」を表す画像のみを教師データに追加するだけなく、「車ではない」というラベルが付与された画像も教師データに追加して学習を行うことが可能になる。その結果、「車ではない」対象物が映っている画像をより正確に分類すること等が可能になり、ひいては「車」についての分類精度も向上させること等が可能になる。
 また、処理対象画像を生成するために用いる画像(選択画像)には、同じ対象物が映っている方がよい。そして、分類スコアが高ければ高いほど、分類器データによる分類結果が確からしいものであると判定できる。つまり、同じ分類結果で、かつ分類スコアが高い画像には同じ対象物が映っている可能性が高い。
 そこで、処理部120は、画像群の各画像の分類スコアと所与の閾値との比較処理を行い、画像群の中から、所与の閾値以上の分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、処理対象画像を再生成してもよい。
 例えば、前述した図4(B)の処理対象画像LIM2を生成する例では、選択画像は図4(A)の画像IM3及びIM4である。なお、選択画像は何枚でもよく、必ずしも図4(B)のように選択画像を結合して処理対象画像を生成する必要もない。
 これにより、同じ対象物が映っている可能性の高い画像を選択画像として選択して、処理対象画像を生成すること等が可能になる。
 また、処理部120は、学習画像の全体画像を最初の処理対象画像として設定してもよい。
 これにより、学習の初期段階においても、学習画像において処理対象画像とする領域を指定するコストを削減すること等が可能になる。
 また、処理部120は、前回の処理対象画像よりも画素数又は面積の小さい処理対象画像を生成してもよい。
 具体例を図5(A)~図5(C)に示す。図5(A)では、まず学習画像LIM1を点線で示す領域に分割し、この各領域の画像(画像群)から選択画像を選択し、選択画像を再度結合して、図5(B)に示すような処理対象画像LIM3を生成する。最初の処理対象画像を学習画像LIM1の全体画像であるものとすると、処理対象画像LIM3は、「車」以外が映っている領域が削られ、画素数又は面積が小さくなっている。さらに、後述するように分割サイズをより小さくして処理を進めると、図5(C)に示す処理対象画像LIM4を生成することができる。処理対象画像LIM4は、「車」の輪郭に沿って学習画像から切り取られたような画像になっており、処理対象画像LIM3と比べて「車」以外が映る領域がさらに削られ、さらに画素数又は面積の小さい画像になっている。
 これにより、正解ラベルが表す内容以外の部分を削除して、正解ラベルが表す対象物が占める面積(割合)が大きい画像を処理対象画像として用いて学習を行うこと等が可能になる。よって、元の学習画像のうち、正解ラベルが表す対象物が映る領域を指定した場合と同様に、正解ラベルが表す対象物を正確に学習すること等が可能になる。
 一方で、処理部120は、学習画像に基づいて画像群を生成し、前回の処理対象画像よりも画素数又は面積の大きい処理対象画像を生成してもよい。
 処理対象画像から画像群を生成する場合には、新たに生成される処理対象画像の画素数又は面積は次第に小さくなっていく(又は変わらない)が、元の学習画像から画像群を生成する場合には、処理対象画像の画素数又は面積が大きくなることもある。
 具体例を図6(A)及び図6(B)に示す。図6(A)の処理対象画像LIM5は、「車」の画像であるが、タイヤ部分が欠けている。これは、「車」のタイヤ部分の画像が、「車ではない」と判定されたか、又は「車」の画像であると判定されたものの、分類スコアが所与の閾値に満たなかったため、処理対象画像を生成する際に、削除されてしまった例である。
 しかし、このような場合でも、学習を繰り返し、分類モデルの分類精度が向上した場合には、元の学習画像から画像群を生成すれば、図6(B)に示すようなタイヤTY部分が復活した処理対象画像LIM6を生成することも可能である。
 これにより、前の処理対象画像の生成処理で誤って削除してしまった領域を含む処理対象画像を再生成して、学習を行うこと等が可能になる。
 また、図6(A)のように、正解ラベルを表す領域の一部が削除された処理対象画像が生成される原因としては、学習がまだ十分に進んでおらず、分類器データによる分類精度が低い状態であるにも関わらず、選択画像を選択するための分類スコアの閾値を高く設定していることが考えられる。
 そこで、処理部120は、処理対象画像を再生成する処理を行うごとに、分類スコアとの比較処理に用いる所与の閾値を変更してもよい。
 具体例を図7(A)~図7(D)に示す。本例では、分類器データと処理対象画像の生成処理を4回行うものとする。
 まず、図7(A)は、生成処理の回数(横軸)と閾値(縦軸)の関係を表すグラフであり、ケース1(CS1)とケース2(CS2)の二つのケースについて閾値の変動を表している。ケース1では、グラフの直線CS1に表すように、生成処理の回を追う毎に、閾値を大きくしていき、かつ後述するように回が進む毎に学習画像の分割サイズを小さくするものとする。一方で、ケース2では、グラフの直線CS2に表すように、閾値は初回からTH4で固定であり、かつ学習画像の分割サイズも最初から最小値を用いるものとする。
 この時、ケース1の初回では閾値TH1を用い、分割サイズも大きいため、「車」の輪郭に沿っておらず、「車」以外が映る領域も多く含む処理対象画像LIM7が生成される。「車」以外が映る領域も多く含む理由は、閾値が小さいためであり、分類スコアが小さい画像も処理対象画像の生成に用いられるためである。
 一方で、ケース2では初回から閾値TH4を用い、分割サイズも最小であるため、「車」の輪郭に沿った処理対象画像LIM8が生成される。しかし、処理対象画像LIM8では、「車」のタイヤ部分が欠けてしまっている。さらに、他の教師データでタイヤが「車」の一部であると学習しなかった場合には、学習が進んで、4回目の処理対象画像の生成処理においても、欠けたタイヤ部分が復活する可能性は低い。
 これに対して、ケース1の4回目では十分に学習が進んでから、閾値としてTH4を用いるため、タイヤ部分が削除されず、「車」の輪郭に沿った処理対象画像LIM9を生成することができる。
 これにより、処理対象画像から正解ラベルが表す領域の一部が削除されることを防ぐこと等が可能になる。さらに、回毎に異なる処理対象画像が生成されるため、より多くの種類の教師データを用いて学習を行うことができ、分類精度を向上させること等が可能になる。
 また、処理部120は、Bag of featuresを用いて、処理対象画像の特徴量を算出してもよい。
 ここで、Bag of Features(BoVW:Bag of visual words)とは、画像を局所特徴の集合と捉えた画像の表現方法である。
 これにより、例えば実際の学習画像に映る対象物と種類は同じだが、違う個体が映る画像や、学習画像とは対象物の映り込む角度が異なる画像等も、正しく分類することができる分類器データを生成すること等が可能になる。
 また、画像(画素)の特徴量(局所特徴量)として用いる値は、HSV(Hue、Saturation、Value)のような色特徴量であっても良いし、SIFT(Scale-Invariant Feature Transform)やHOG(Histograms of Oriented Gradients)のような勾配特徴量、LBP(Local Binary Pattern)のようなテクスチャ特徴量であっても良い。さらに、画像の特徴量としては、例えばその画像の撮像時の撮像条件や焦点位置等のカメラの設定情報も併せて用いても良い。
 また、前述した図3に示すように、処理部120は、学習画像又は処理対象画像を複数の領域に分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。
 これにより、学習に用いるための画像を新たに撮像するコストをかけずに、準備すること等が可能になる。
 また、処理部120は、学習画像又は処理対象画像を複数の領域に重複分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。
 例えば、図8(A)に示すように、学習画像LIM(又は処理対象画像)を互いに重複する領域CAR1~CAR6に分割して、画像群を生成する。この場合には、面積の大きい領域(CAR1~CAR4)の上に面積の小さい領域(CAR5、CAR6)を設定することができる。この際、「車」が映る処理対象画像を生成する場合には、領域CAR5と領域CAR6の画像を用いればよい。
 このように、学習により効果的な処理対象画像を容易に生成すること等が可能になる。
 また、処理部120は、学習画像又は処理対象画像を複数の領域に過分割し、複数の領域の各領域の画像の集合である画像群を生成してもよい。
 ここで、過分割(オーバーセグメンテーション)とは、物体と物体との境界で画像を分割するだけでなく、一つの物体内も複数の領域に分割することをいう。
 例えば、図8(B)に示すように、学習画像LIM(又は処理対象画像)を領域CAR1~CAR15に分割して、画像群を生成する。図8(B)の例では、車の内部を更に細かい領域(CAR11~CAR15)に分割している。
 これにより、輪郭・色情報に応じて、対象物と背景の境界をより正確に判定すること等が可能になる。
 また、処理部120は、分類器データと処理対象画像の生成処理を行う度に、学習画像又は処理対象画像の分割サイズを変更してもよい。
 これにより、生成される処理対象画像の輪郭を、付与される正解ラベルが表す対象物の輪郭に沿った形にすること等が可能になる。すなわち、対象物の形状をより正確に表す処理対象画像を生成すること等が可能になる。
 また、分類器データの生成処理の繰り返し回数が多い程、生成される分類器データの分類精度の向上が期待できる。逆に、生成処理を所定の回数だけ繰り返した後に生成される分類器データでは、前回生成された分類器データと比べて、分類精度の改善率が徐々に低くなるとも予想できる。この場合には、同じ学習時間に対して、回を重ねる程、分類精度の改善率が低くなる。すなわち、回を重ねる程、分類器データの生成処理のコストパフォーマンスが悪くなる。
 そこで、処理部120は、分類器データと処理対象画像の生成処理を所与の回数繰り返して行ってもよい。
 これにより、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。
 また、分類器データの分類精度の改善率が低下する原因の一つとしては、生成処理を繰り返すほどに、学習に用いる処理対象画像が前回の処理対象画像と比べてほとんど差がなくなってしまうことが考えられる。
 そこで、処理部120は、前回の処理対象画像と今回の処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、分類器データと処理対象画像の生成処理の繰り返しを終了してもよい。
 図9(A)~図9(C)を用いて具体例を説明する。図9(A)は、生成処理の繰り返し回数(横軸)と、各回において生成される処理対象画像の面積又は画素数(縦軸)の関係を表すグラフである。図9(A)のグラフにおいては、初回に生成される処理対象画像の面積はAR1であり、2回目に生成される処理対象画像の面積はAR2であり、3回目に生成される処理対象画像の面積はAR3である。なお、0回目の面積AR0は、学習画像の面積を表す。また、学習画像と初回の処理対象画像の面積(又は画素数)の差はΔAR01であり、初回と2回目の処理対象画像の面積の差はΔAR12となり、同様に、各回の差はΔAR23、ΔAR34となる。
 この時、所与の閾値THを、ΔAR23<TH<ΔAR34とすると、図9(B)に示す3回目に生成される処理対象画像LIM10と、図9(C)に示す4回目に生成される処理対象画像LIM11と、の面積の差がΔAR34となり、所与の閾値を超えるため、4回目で生成処理の繰り返しを終了する。
 これにより、前述した例と同様に、所定のコストパフォーマンスを維持できる回数だけ、分類器データと処理対象画像の生成処理を行うこと等が可能になる。また、繰り返し回数を直接指定することと比較して、学習画像群に依存せずに終了条件を決定すること等が可能になる。
 また、処理部120は、処理対象画像群を表示部に表示させ、処理対象画像群に対する修正指示情報を取得し、修正指示情報に基づいて、処理対象画像群の修正処理を行ってもよい。
 ここで、修正指示情報とは、処理対象画像群の修正処理の内容を指示する情報であって、ユーザにより入力されるものである。
 これにより、処理対象画像群のうち、学習結果に悪影響を及ぼす処理対象画像を修正すること等が可能になる。
 具体的には、処理部120は、処理対象画像群を表示部に一覧表示させ、修正指示情報として、処理対象画像群の中から、不要な処理対象画像の指定情報を取得し、処理対象画像群の中から、指定情報が示す処理対象画像を削除してもよい。
 この時の処理の流れについて、図10のフローチャートを用いて説明する。図2のフローチャートと同一の番号が付与された処理ステップは、図2を用いて説明した処理と同様のため、説明を省略し、ここでは差分についてのみ述べる。
 図10に示すように、処理対象画像群の修正処理は、ステップS108の後に、処理部120が行う(S201)。
 処理対象画像群の修正は、図11に示すように処理対象画像群を表示部DSに一覧表示し、ユーザが処理対象画像として不適切であると判断したもの(図11では、カーソルCSに囲まれている画像)について編集あるいは削除をすることによって行われる。
 これにより、学習結果に悪影響を及ぼす処理対象画像を用いて学習を行ってしまうことを抑制すること等が可能になる。
 なお、修正指示情報として、処理対象画像のうち、正解ラベルが表す対象物等が映る正しい領域の情報を入力してもよい。その場合には、修正処理において、処理部120は、正解ラベルが表す対象物等が正しく(例えば画像の正面に)映るように、処理対象画像を再生成してもよい。
 また、前述したように、学習画像又は処理対象画像から画像群を生成し、処理対象画像を生成していくと、例えば図5(A)~図5(C)を用いて説明したように、学習画像において処理対象画像が占める領域が、「車」が映っている領域に収束していく。このように、元の学習画像における「車」の存在及び「車」の位置を検出できる。
 すなわち、処理部120は、画像群の各画像の分類スコアに基づいて、物体検出処理を行ってもよい。
 これにより、分類器データの生成処理を繰り返せば繰り返すほど、元の学習画像における、正解ラベルが表す物体等の位置を正確に検出すること等が可能になる。
 なお、上記では主に画像認識への応用について述べたが、本実施形態の手法は、文書認識や音声認識などのマルチメディア認識にも応用することが可能である。
 なお、本実施形態の画像処理装置等は、その処理の一部または大部分をプログラムにより実現してもよい。この場合には、CPU等のプロセッサがプログラムを実行することで、本実施形態の画像処理装置等が実現される。具体的には、情報記憶媒体に記憶されたプログラムが読み出され、読み出されたプログラムをCPU等のプロセッサが実行する。ここで、情報記憶媒体(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(DVD、CD等)、HDD(ハードディスクドライブ)、或いはメモリ(カード型メモリ、ROM等)などにより実現できる。そして、CPU等のプロセッサは、情報記憶媒体に格納されるプログラム(データ)に基づいて本実施形態の種々の処理を行う。即ち、情報記憶媒体には、本実施形態の各部としてコンピュータ(操作部、処理部、記憶部、出力部を備える装置)を機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。
 以上のように本実施形態について詳細に説明したが、本発明の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本発明の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また、画像処理装置及びプログラム等の構成、動作も本実施形態で説明したものに限定されず、種々の変形実施が可能である。
110 入力受付部、120 処理部、130 記憶部

Claims (19)

  1.  学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、
     画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、
     生成された前記分類器データを記憶する記憶部と、
     を含み、
     前記処理部は、
     前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成することを特徴とする画像処理装置。
  2.  請求項1において、
     前記処理部は、
     再生成した前記処理対象画像と、前記処理対象画像を再生成する際に前記画像群の中から選択された選択画像に付与された正解ラベルとの組である新たな教師データに基づいて、前記分類器データを再生成することを特徴とする画像処理装置。
  3.  請求項1又は2において、
     前記処理部は、
     前記画像群の前記各画像の前記分類スコアと所与の閾値との比較処理を行い、前記画像群の中から、前記所与の閾値以上の前記分類スコアが算出された画像を選択画像として選択し、選択画像群に基づいて、前記処理対象画像を再生成することを特徴とする画像処理装置。
  4.  請求項3において、
     前記処理部は、
     前記処理対象画像を再生成する処理を行うごとに、前記分類スコアとの前記比較処理に用いる前記所与の閾値を変更することを特徴とする画像処理装置。
  5.  請求項1又は2において、
     前記処理部は、
     前記学習画像の前記全体画像を最初の前記処理対象画像として設定することを特徴とする画像処理装置。
  6.  請求項1又は2において、
     前記処理部は、
     前回の前記処理対象画像よりも画素数又は面積の小さい前記処理対象画像を生成することを特徴とする画像処理装置。
  7.  請求項1又は2において、
     前記処理部は、
     前記学習画像に基づいて前記画像群を生成し、前回の前記処理対象画像よりも画素数又は面積の大きい前記処理対象画像を生成することを特徴とする画像処理装置。
  8.  請求項1又は2において、
     前記処理部は、
     前記分類器データと前記処理対象画像の前記生成処理を所与の回数繰り返して行うことを特徴とする画像処理装置。
  9.  請求項1又は2において、
     前記処理部は、
     前回の前記処理対象画像と今回の前記処理対象画像との面積又は画素数の差が所与の閾値未満である場合に、前記分類器データと前記処理対象画像の前記生成処理の繰り返しを終了することを特徴とする画像処理装置。
  10.  請求項1又は2において、
     前記処理部は、
     前記学習画像又は前記処理対象画像を複数の領域に分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
  11.  請求項1又は2において、
     前記処理部は、
     前記学習画像又は前記処理対象画像を複数の領域に重複分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
  12.  請求項1又は2において、
     前記処理部は、
     前記学習画像又は前記処理対象画像を複数の領域に過分割し、前記複数の領域の各領域の画像の集合である前記画像群を生成することを特徴とする画像処理装置。
  13.  請求項10又は11又は12において、
     前記処理部は、
     前記分類器データと前記処理対象画像の前記生成処理を行う度に、前記学習画像又は前記処理対象画像の分割サイズを変更することを特徴とする画像処理装置。
  14.  請求項1又は2において、
     前記処理部は、
     処理対象画像群を表示部に表示させ、前記処理対象画像群に対する修正指示情報を取得し、前記修正指示情報に基づいて、前記処理対象画像群の修正処理を行うことを特徴とする画像処理装置。
  15.  請求項14において、
     前記処理部は、
     前記処理対象画像群を前記表示部に一覧表示させ、前記修正指示情報として、前記処理対象画像群の中から、不要な前記処理対象画像の指定情報を取得し、前記処理対象画像群の中から、前記指定情報が示す前記処理対象画像を削除することを特徴とする画像処理装置。
  16.  請求項1又は2において、
     前記処理部は、
     Bag of featuresを用いて、前記処理対象画像の前記特徴量を算出することを特徴とする画像処理装置。
  17.  請求項1又は2において、
     前記処理部は、
     前記画像群の前記各画像の前記分類スコアに基づいて、物体検出処理を行うことを特徴とする画像処理装置。
  18.  学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行う入力受付部と、
     画像を分類するために用いる分類器データと、前記分類器データを生成するために用いる処理対象画像の生成処理を行う処理部と、
     生成された前記分類器データを記憶する記憶部として、
     コンピュータを機能させ、
     前記処理部は、
     前記学習画像の全体画像又は部分画像である前記処理対象画像を生成し、前記処理対象画像の特徴量を算出し、前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データを生成し、前記学習画像又は前記処理対象画像に基づいて画像群を生成し、前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出し、算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成することを特徴とするプログラム。
  19.  学習画像と、前記学習画像の正解ラベルの入力を受け付ける処理を行い、
     画像を分類するための分類器データを生成するために用い、前記学習画像の全体画像又は部分画像である処理対象画像を生成する処理を行い、
     前記処理対象画像の特徴量を算出する処理を行い、
     前記特徴量と、前記特徴量に対応する前記学習画像に付与された前記正解ラベルとの組である教師データに基づいて、前記分類器データの生成処理を行い、
     前記学習画像又は前記処理対象画像に基づいて画像群を生成する処理を行い、
     前記分類器データを用いて、生成した前記画像群の各画像を分類して、前記各画像の分類スコアを算出する処理を行い、
     算出した前記分類スコアと前記画像群とに基づいて、前記処理対象画像を再生成する処理を行い、
     生成された前記分類器データを記憶する処理を行うことを特徴とする画像処理方法。
PCT/JP2014/056886 2013-04-26 2014-03-14 画像処理装置、プログラム及び画像処理方法 WO2014174932A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201480022915.0A CN105144239B (zh) 2013-04-26 2014-03-14 图像处理装置、图像处理方法
US14/878,210 US9552536B2 (en) 2013-04-26 2015-10-08 Image processing device, information storage device, and image processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013093344A JP6188400B2 (ja) 2013-04-26 2013-04-26 画像処理装置、プログラム及び画像処理方法
JP2013-093344 2013-04-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/878,210 Continuation US9552536B2 (en) 2013-04-26 2015-10-08 Image processing device, information storage device, and image processing method

Publications (1)

Publication Number Publication Date
WO2014174932A1 true WO2014174932A1 (ja) 2014-10-30

Family

ID=51791517

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/056886 WO2014174932A1 (ja) 2013-04-26 2014-03-14 画像処理装置、プログラム及び画像処理方法

Country Status (4)

Country Link
US (1) US9552536B2 (ja)
JP (1) JP6188400B2 (ja)
CN (1) CN105144239B (ja)
WO (1) WO2014174932A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304848A (zh) * 2018-01-10 2018-07-20 链家网(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
WO2018173478A1 (ja) * 2017-03-23 2018-09-27 日本電気株式会社 学習装置、学習方法および学習プログラム
CN111104881A (zh) * 2019-12-09 2020-05-05 科大讯飞股份有限公司 一种图像处理的方法和相关装置
US11508173B2 (en) * 2019-10-30 2022-11-22 Adobe Inc. Machine learning prediction and document rendering improvement based on content order

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2016315938B2 (en) * 2015-08-31 2022-02-24 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery
JP6116650B1 (ja) * 2015-11-17 2017-04-19 エヌ・ティ・ティ・コムウェア株式会社 学習支援システム、学習支援方法、学習支援装置、および学習支援プログラム
JP6639523B2 (ja) * 2015-12-22 2020-02-05 オリンパス株式会社 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
US10963676B2 (en) 2016-12-23 2021-03-30 Samsung Electronics Co., Ltd. Image processing method and apparatus
TWI653885B (zh) * 2017-03-03 2019-03-11 宏碁股份有限公司 影像輸出方法及影像擷取裝置
JP6542824B2 (ja) * 2017-03-13 2019-07-10 ファナック株式会社 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法
CN110914864A (zh) * 2017-07-31 2020-03-24 富士通株式会社 信息处理装置、信息处理程序和信息处理方法
JP6853159B2 (ja) * 2017-10-31 2021-03-31 トヨタ自動車株式会社 状態推定装置
JP6936957B2 (ja) * 2017-11-07 2021-09-22 オムロン株式会社 検査装置、データ生成装置、データ生成方法及びデータ生成プログラム
CN107864333B (zh) * 2017-11-08 2020-04-21 Oppo广东移动通信有限公司 图像处理方法、装置、终端及存储介质
JP6928876B2 (ja) * 2017-12-15 2021-09-01 京セラドキュメントソリューションズ株式会社 フォーム種別学習システムおよび画像処理装置
WO2019123544A1 (ja) 2017-12-19 2019-06-27 オリンパス株式会社 データ処理方法およびデータ処理装置
JP6933164B2 (ja) * 2018-03-08 2021-09-08 株式会社Jvcケンウッド 学習用データ作成装置、学習用モデル作成システム、学習用データ作成方法、及びプログラム
WO2019203924A1 (en) * 2018-04-16 2019-10-24 Exxonmobil Research And Engineering Company Automation of visual machine part ratings
JP6542445B1 (ja) 2018-07-31 2019-07-10 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP6996633B2 (ja) * 2018-08-06 2022-01-17 株式会社島津製作所 教師ラベル画像修正方法、学習済みモデルの作成方法および画像解析装置
JP7196529B2 (ja) * 2018-10-18 2022-12-27 コニカミノルタ株式会社 情報処理装置及びプログラム
CN109523518B (zh) * 2018-10-24 2020-11-10 浙江工业大学 一种轮胎x光病疵检测方法
JP2022043364A (ja) * 2018-11-16 2022-03-16 株式会社Preferred Networks 学習装置、物体検出装置、学習方法、およびプログラム
US10956487B2 (en) * 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
KR102119136B1 (ko) * 2018-12-26 2020-06-05 인천대학교 산학협력단 지능형 이미지 분류 방법
JP7075056B2 (ja) 2018-12-27 2022-05-25 オムロン株式会社 画像判定装置、画像判定方法及び画像判定プログラム
US11068718B2 (en) * 2019-01-09 2021-07-20 International Business Machines Corporation Attribute classifiers for image classification
CN109785313B (zh) * 2019-01-21 2023-03-14 山东女子学院 一种基于lbp的轮胎合格检测方法
JP7111088B2 (ja) * 2019-01-24 2022-08-02 カシオ計算機株式会社 画像検索装置、学習方法及びプログラム
JP7107431B2 (ja) * 2019-03-14 2022-07-27 日本電気株式会社 生成方法、学習データ生成装置及びプログラム
JP7374453B2 (ja) * 2019-03-28 2023-11-07 株式会社イシダ 学習済みモデル生成方法、学習済みモデル生成装置、商品判別方法、商品判別装置、商品判別システム及び計量装置
JP6651189B1 (ja) 2019-03-29 2020-02-19 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
JP6607589B1 (ja) 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP6607590B1 (ja) * 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
US11555701B2 (en) * 2019-05-02 2023-01-17 Corelogic Solutions, Llc Use of a convolutional neural network to auto-determine a floor height and floor height elevation of a building
CN110490237B (zh) * 2019-08-02 2022-05-17 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
WO2022082007A1 (en) 2020-10-15 2022-04-21 Cape Analytics, Inc. Method and system for automated debris detection
US11875413B2 (en) 2021-07-06 2024-01-16 Cape Analytics, Inc. System and method for property condition analysis
US11676298B1 (en) 2021-12-16 2023-06-13 Cape Analytics, Inc. System and method for change analysis
WO2023141192A1 (en) 2022-01-19 2023-07-27 Cape Analytics, Inc. System and method for object analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145791A (ja) * 2010-01-13 2011-07-28 Hitachi Ltd 識別器学習画像生成プログラム、方法、及びシステム
JP2011150541A (ja) * 2010-01-21 2011-08-04 Sony Corp 学習装置、学習方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5862259A (en) * 1996-03-27 1999-01-19 Caere Corporation Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US7260259B2 (en) * 2002-01-08 2007-08-21 Siemens Medical Solutions Usa, Inc. Image segmentation using statistical clustering with saddle point detection
US7295700B2 (en) * 2003-10-24 2007-11-13 Adobe Systems Incorporated Object extraction based on color and visual texture
JP2008282267A (ja) 2007-05-11 2008-11-20 Seiko Epson Corp シーン識別装置、及び、シーン識別方法
JP4641537B2 (ja) * 2007-08-08 2011-03-02 株式会社日立製作所 データ分類方法および装置
CN101853400B (zh) * 2010-05-20 2012-09-26 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN101937510B (zh) * 2010-09-14 2015-05-20 南京信息工程大学 基于类Haar和AdaBoost分类器的快速增量学习方法
CN102208037B (zh) * 2011-06-10 2012-10-24 西安电子科技大学 基于高斯过程分类器协同训练算法的高光谱图像分类方法
CN102436583B (zh) * 2011-09-26 2013-10-30 哈尔滨工程大学 基于对标注图像学习的图像分割方法
CN102508859B (zh) * 2011-09-29 2014-10-29 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN102542295B (zh) * 2012-01-08 2013-10-16 西北工业大学 一种采用图像分类技术从遥感图像中进行滑坡检测的方法
US9031331B2 (en) * 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers
CN103049760B (zh) * 2012-12-27 2016-05-18 北京师范大学 基于图像分块和位置加权的稀疏表示目标识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145791A (ja) * 2010-01-13 2011-07-28 Hitachi Ltd 識別器学習画像生成プログラム、方法、及びシステム
JP2011150541A (ja) * 2010-01-21 2011-08-04 Sony Corp 学習装置、学習方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018173478A1 (ja) * 2017-03-23 2018-09-27 日本電気株式会社 学習装置、学習方法および学習プログラム
JPWO2018173478A1 (ja) * 2017-03-23 2019-11-21 日本電気株式会社 学習装置、学習方法および学習プログラム
US10963739B2 (en) 2017-03-23 2021-03-30 Nec Corporation Learning device, learning method, and learning program
CN108304848A (zh) * 2018-01-10 2018-07-20 链家网(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
CN108304848B (zh) * 2018-01-10 2020-04-28 贝壳找房(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
US11508173B2 (en) * 2019-10-30 2022-11-22 Adobe Inc. Machine learning prediction and document rendering improvement based on content order
CN111104881A (zh) * 2019-12-09 2020-05-05 科大讯飞股份有限公司 一种图像处理的方法和相关装置
CN111104881B (zh) * 2019-12-09 2023-12-01 科大讯飞股份有限公司 一种图像处理的方法和相关装置

Also Published As

Publication number Publication date
CN105144239A (zh) 2015-12-09
US9552536B2 (en) 2017-01-24
CN105144239B (zh) 2018-11-20
JP6188400B2 (ja) 2017-08-30
JP2014215852A (ja) 2014-11-17
US20160026900A1 (en) 2016-01-28

Similar Documents

Publication Publication Date Title
JP6188400B2 (ja) 画像処理装置、プログラム及び画像処理方法
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
US10936911B2 (en) Logo detection
CN108388879B (zh) 目标的检测方法、装置和存储介质
CN109918969B (zh) 人脸检测方法及装置、计算机装置和计算机可读存储介质
US10395136B2 (en) Image processing apparatus, image processing method, and recording medium
US9886669B2 (en) Interactive visualization of machine-learning performance
CN110276342B (zh) 车牌辨识方法以及其系统
US9911033B1 (en) Semi-supervised price tag detection
WO2017059576A1 (en) Apparatus and method for pedestrian detection
JP2018200685A (ja) 完全教師あり学習用のデータセットの形成
US20170039723A1 (en) Image Object Segmentation Using Examples
WO2017079522A1 (en) Subcategory-aware convolutional neural networks for object detection
JP2013125322A (ja) 学習装置、プログラム及び学習方法
US10762389B2 (en) Methods and systems of segmentation of a document
US20150063697A1 (en) Method and apparatus for segmenting object in image
US11403560B2 (en) Training apparatus, image recognition apparatus, training method, and program
US11915362B2 (en) UV mapping on 3D objects with the use of artificial intelligence
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
CN114998595B (zh) 弱监督语义分割方法、语义分割方法及可读存储介质
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
US20200364517A1 (en) Information processing device, information processing method, and recording medium
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
US11715197B2 (en) Image segmentation method and device
CN112580624A (zh) 基于边界预测的多方向文本区域检测方法和装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480022915.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14788446

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14788446

Country of ref document: EP

Kind code of ref document: A1