JPWO2012032788A1 - 排他的分類器による一般物体の画像認識装置及び方法 - Google Patents

排他的分類器による一般物体の画像認識装置及び方法 Download PDF

Info

Publication number
JPWO2012032788A1
JPWO2012032788A1 JP2012532872A JP2012532872A JPWO2012032788A1 JP WO2012032788 A1 JPWO2012032788 A1 JP WO2012032788A1 JP 2012532872 A JP2012532872 A JP 2012532872A JP 2012532872 A JP2012532872 A JP 2012532872A JP WO2012032788 A1 JPWO2012032788 A1 JP WO2012032788A1
Authority
JP
Japan
Prior art keywords
image
exclusive
objects
existence probability
recognition apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012532872A
Other languages
English (en)
Other versions
JP5782037B2 (ja
Inventor
ヤン フア
ヤン フア
シュイチェン イェン
シュイチェン イェン
チョンヤン ヒュアン
チョンヤン ヒュアン
シェンメイ シェン
シェンメイ シェン
亮一 川西
亮一 川西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2012032788A1 publication Critical patent/JPWO2012032788A1/ja
Application granted granted Critical
Publication of JP5782037B2 publication Critical patent/JP5782037B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

一般物体の画像認識の性能及び確実性を高めることができる画像認識装置を提供する。画像認識装置1は、画像分類情報蓄積手段20が、学習時処理により得られた、複数種の物体それぞれの画像特徴を示す特徴情報を記憶しており、入力画像を分類する場合には、画像特徴量算出手段18が入力画像から特徴量を表す記述子を抽出し、記述子に対応する画像語彙に投票し、分類手段19が、投票の結果に基づいて、1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定し、各物体の存在確率を算出する際に、排他的分類器により、同一画像内に共存しないと推定された複数の異種物体(物体ラベル)の組合せを表す排他的関係情報を用いて存在確率を調整する。

Description

本発明は、画像処理およびコンピュータビジョンに関し、特に、一般物体の画像認識及び索引付けに関する。
近年、画像分類/認識についての研究が盛んであり、特に、コンテキスト(人の行動やオブジェクトの場所といった実世界の状況や状態に依存する概念をいう。例えば共起関係、相対位置関係、相対スケール、背景と前景の関係などがこれに該当する。)情報を用いて一般物体の画像認識の性能及び確実性を高める手法が多く開発されている(非特許文献1〜4参照)。
Serhat S. Bucak et al, Efficient Multi-label Ranking for Multi-class Learning: Application to Object Recognition. ,ICCV 2009 Chaitanya Desai et al, Discriminative Models for Multi-class Object Layout ,ICCV2009 H. Liu and S. Yan, Robust graph mode seeking by graph shift. ,ICML 2010 P. Tseng, On accelerated proximal gradient methods for convex-concave optimization. ,Submitted to SIAM Journal of Optimization 2008
しかしながら、画像認識の確実性は、人間の能力レベルに達するまでには至っておらず、一層の向上が求められている。
本願は、従来よりも一般物体の画像認識の確実性を高めることができる一般物体の画像認識装置を提供することを目的とする。
上記課題を解決するために、本発明は、一般物体認識を行う画像認識装置であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。
本発明の画像認識装置は、上述の構成を備えることにより、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。
本発明の一実施の形態に係る、入力画像に対し物体ラベルを付する処理(分類時処理)の全体を示すフローチャートである。 本発明の一実施の形態に係る、排他的分類器による一般物体の画像認識装置の構成を示すブロック図である。 本発明の一実施の形態に係る、排他的ラベルセットの抽出処理を示す図である。 本発明の一実施の形態に係る、手動でラベルが付与された収集画像の一例を示す図である。 本発明の一実施の形態に係る、排他的ラベルセットの集合の例を示す図である。 本発明の一実施の形態に係る、画像語彙構築処理を示すフローチャートである。 本発明の一実施の形態に係る、画像語彙構築の基本概念を説明するための図である。 本発明の一実施の形態に係る、画像ヒストグラム生成処理の一例を示すフローチャートである。 本発明の一実施の形態に係る、各収集画像の特徴量について説明するための図である。 排他的分類器による一般物体の画像認識の概念を示す図である。
1.実施の形態
以下、本発明を実施するための形態について説明する。
本発明の一実施の形態に係る画像認識装置は、入力画像に現れている一般物体を画像認識し、この認識した一般物体を表すラベル(物体ラベル)を入力画像に付するものである。本画像認識装置は、この画像認識の際に、画像中に現れる物体の排他的コンテキスト(排他的関係情報)を利用して、一般物体の画像認識の確実性、性能を高める。排他的コンテキストの一例としては、同じ画像に一緒に現れることがほとんどない物体について、これらの物体を表す物体ラベルをセットにした排他的ラベルセットを用いる。
図1は、入力画像に対し物体ラベルを付する処理(分類時処理)の全体を示すフローチャートである。
まず、入力画像を取得し(S1)、入力画像を標準サイズに変換する(S2)。そして、入力画像に関し、複数の記述子群を抽出(S3)する。各記述子は、入力画像における局所的な領域の特徴量を示す。次に、抽出した記述子それぞれに対応する画像語彙に投票を行い入力画像を表現するヒストグラム(入力画像の特徴量)を生成する(S4)。ここで、画像語彙は、特徴量が近い複数の記述子を代表する記述子である。この画像語彙は、分類時処理に先立ち行われる、複数の収集画像について特徴量を学習する学習時処理において生成される。次に、排他的分類器によって、S4で生成された入力画像の特徴量と学習時処理による学習結果とを比較し、また排他的ラベルセットを用い、入力画像に関する信頼性スコア(入力画像における物体それぞれの存在確率)を算出する(S5)。そして、入力画像に関する信頼性スコアを基に1以上の物体ラベルを割り当てる(S6)。
次に、画像認識装置について詳細に説明する。
図2は、本発明の一実施の形態に係る、排他的分類器による一般物体の画像認識装置1の構成を示すブロック図である。
画像認識装置1は、画像蓄積部11、学習画像入力手段12、画像特徴量算出手段13、排他的ラベルセット抽出手段14、分類辞書生成手段15、分類モデル情報蓄積手段16、分類画像入力手段17、画像特徴量算出手段18、分類手段19、及び画像分類情報蓄積手段20を含んで構成される。学習時処理は、学習画像入力手段12、画像特徴量算出手段13、排他的ラベルセット抽出手段14、分類辞書生成手段15、及び分類モデル情報蓄積手段16により実行され、学習結果に基づき入力画像に現れている物体について実際に分類する分類時処理は、種類特定手段としての、分類画像入力手段17、画像特徴量算出手段18、分類手段19、及び画像分類情報蓄積手段20により実行される。
画像蓄積部11は、学習時処理に用いる学習用画像としての収集画像、及び実際に物体認識の対象となる入力画像を蓄積する蓄積デバイスである。
本実施の形態では、収集画像としては、PASCAL Visual Object Classes Challenge 2010(VOC2010)学習用データセットに含まれるラベル付画像を用いる。
VOC2010学習用データセットは、20個のクラスのいずれかに属する「物体」(人物、動物、車両、家具)が含まれる複数(一例として1万枚程度)の画像から成る。各収集画像には、画像に現れている物体のクラスを示すラベルが付されている。20個のクラスに対応するラベルは、具体的には、「猫」「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「いす」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「列車」「TVセット」「牛」「ソファ」であるが、もちろんこれに限るものではない。また、クラスについても20個に限る必要はない。1枚の収集画像の中には複数の物体が含まれることもある。また、それら複数物体のクラスが同じ場合もあるし、異なる場合もある。
図4は、収集画像の一例であり、ラベルとして「いす」「ダイニングテーブル」「TVセット」が付されている。
次に学習時処理の動作に係る、学習画像入力手段12、画像特徴量算出手段13、排他的ラベルセット抽出手段14、分類辞書生成手段15、及び分類モデル情報蓄積手段16について説明する。
学習画像入力手段12は、画像蓄積部11から収集画像を順に読み出して、排他的ラベルセット抽出手段14と画像特徴量算出手段13とに出力する。
画像特徴量算出手段13は、入力された画像から特徴量を算出して画像語彙を生成する。
図6は、画像特徴量算出手段13による画像語彙構築処理を示すフローチャートである。
図7は、入力された画像を用いて構築される画像語彙の概念を説明するための図である。
画像特徴量算出手段13は、まず、収集画像(一例として図7の収集画像111)を取得し(S21)、画像上の一定間隔で位置する格子点(以下、密な点という。一例として画像112に示す格子状に配された点である。)と、特徴的な離散点(以下、離散点という。一例として画像113に示す点である。)とを算出する(S22)。特徴的な離散点は、輝度、形状が急激に変化するような特徴的な点であり、例えば、猫の目の一部や、耳の先端を示す点などが該当する。なお、以下、密な点と離散点とを総称して特徴点という場合もある。次いで、画像特徴量算出手段13は、特徴点とその周辺で記述子を抽出する(S23)。記述子の抽出は、一例として、既知のSIFT(Scale Invariant Feature Transform)アルゴリズムを用いる。SIFTは、特徴点の代表輝度勾配方向を決定し、その方向を基準として、他方向の輝度勾配ヒストグラムを作成し、多次元ベクトルで特徴量を記述するものである。これにより、回転・スケール変化・照明変化に頑強であるという特徴を持つ。
図7の画像114は、抽出された記述子を模式的に示している。ここで、上述の記述子は、1枚の画像内における局所的な領域の特徴を表す局所的記述子であるが、記述子として、画像全体の領域の特徴(例えば、画像全体の色相分布など)を表す全体的記述子を用いることとしてもよい。また、局所的記述子、全体的記述子の両方を組み合わせて用いてもよい。
次に、画像特徴量算出手段13は、抽出した記述子を全て記述子プールに入れる。図7の画像115は、密な点についての記述子プールを模式的に示す図であり、画像116は、離散点についての記述子プールを模式的に示す図である。
そして、画像特徴量算出手段13は、各記述子プールからランダムに記述子を選択し画像語彙を構築する。画像語彙は、前述のように特徴量が近い複数の記述子を代表する記述子である。画像語彙としては、各記述子をベクトル量子化したものを用いてもよい。
画像117は、「猫」について生成された画像語彙を模式的に示し、密な点の記述子プールから選択された記述子を含む画像語彙(一例を画像118に示す。)と、密な点の記述子プールから選択された記述子を含む画像語彙(一例を画像119に示す。)とを含んでいる。
次に、画像特徴量算出手段13は、収集画像それぞれについて画像語彙に係るヒストグラムを生成する。
図8は、画像ヒストグラム生成処理を示すフローチャートである。
画像特徴量算出手段13は、まず、収集画像を取得し(S31)、収集画像について特徴点を算出し(S32)、特徴点及びその周辺についての記述子を抽出する(S33)。このS31〜S33までの処理は、上述のS21〜S23として説明したのと同じ動作である。
そして、収集画像の各記述子に最も近似する画像語彙に対し投票を行うことで、各収集画像を表現するヒストグラムを導出する(S34)。以下、画像を表現するヒストグラムを、画像の特徴量という。
図9は、各収集画像の特徴量について説明するための図である。
図9の特徴量211は、図7で説明した方法で構築された画像語彙への投票結果に基づいて算出した収集画像の特徴量を模式的に表す。ここで、画像における空間情報を画像の特徴量に追加することとしてもよい。一例として、画像を空間的に4等分、3等分などし、その各々についてヒストグラムを生成してもよい(図9の画像221等)。
なお、収集画像および入力画像を表現する複数の画像ヒストグラムは、bag-of-wordsモデルで表現することとしてもよい。
排他的ラベルセット抽出手段14は、排他的ラベルセットの抽出を行う。
図5は、排他的ラベルセットの集合の例を示している。
上述のように「列車」「TVセット」それぞれがラベルであり、ラベルの集合である{列車、TVセット、ボート、ダイニングテーブル}が、1つの排他的ラベルセットである。1つの排他的ラベルセットは、1画像中に同時に現れない物体の組合せを示している。排他的ラベルセット{列車、TVセット、羊、ボート、ダイニングテーブル}の場合であれば、1画像中に「列車」が現れているときには、その画像中にはTVセット、羊、ボート、ダイニングテーブルのいずれもが現れないことを示す。
このような排他的ラベルセットは、手動で(人間の経験則から導きだされて)定めていてもよいし、収集画像などから統計的手法により抽出してもよい。本実施の形態では、排他的ラベルセット抽出手段14は、予め、既知の排他的ラベルセットを保持しているものとする。統計的手法により抽出する例については、後ほど変形例として説明する。また、排他的ラベルセットが充実しているほど、物体を分類する効果が向上するので、分類について効果的であると推測される排他的ラベルセットを手動で作成したり、特に分類したいカテゴリだけに注目した排他的ラベルセットを作成してもよい。
分類辞書生成手段15は、各収集画像の特徴量と、排他的ラベルセットとを分類辞書として分類モデル情報蓄積手段16に蓄積させる。
次に、分類時処理に係る、分類画像入力手段17、画像特徴量算出手段18、分類手段19、及び画像分類情報蓄積手段20について説明する。
分類画像入力手段17は、画像蓄積部11から物体ラベル付与の対象となる画像(入力画像)を読み出して、画像特徴量算出手段18に供給する。
画像特徴量算出手段18は、入力画像について、入力画像を表現する特徴量を算出する。この特徴量を算出する処理は、画像特徴量算出手段13について図8及び図9を用いて説明した処理と同様なので説明を省略する。
分類手段19は、排他的分類器を有し、排他的分類器による一般物体の画像認識処理を行う。分類手段19は、画像特徴量算出手段18により生成された入力画像の特徴量と、学習時処理により算出されている各収集画像の特徴量に基づき、入力画像に含まれる各物体の信頼性スコアを算出し、信頼性スコアに基づき入力画像中に存在する物体の種類を特定する。本実施の形態における排他的分類器は、排他的コンテキストを用い、LASSO(Least Absolute Shrinkage and Selection Operator)推定を利用する種類の分類器である。従来、LASSOフレームワークでは、最適化の対象は、復元エラー値及び復元係数wの正則値の2つの値を示す項目から成る。復元エラー値は、入力画像の特徴量と、全収集画像の特徴量から復元係数を用いて線形的に復元した特徴量との差(復元した特徴量の妥当性)を測るのに用いられ、妥当性が低いほど復元エラー値は高くなる。
これに対し、本実施の形態では、排他的ラベルセットを用いた復元係数に対応する新たな正則化条件を定義している。この新たな正則化条件を用いた、特徴量y∈Rを有する入力画像に関する、ラベル排他的線形表現モデルは下記の通り表される。

Figure 2012032788
この新しい公式において、X∈Rmxn(i.e.X=[x,x,・・・,x],x∈R)は、各収集画像の特徴量を示す。これら各収集画像の特徴量は、上述の通り画像特徴量算出手段13により算出されたものである。ここでnは収集画像の数である。また、mは、記述子の次元数であり画像語彙を構成する記述子の数に一致する。w∈Rは、入力画像に関して評価される、全ての物体クラスに関する線形復元係数である。また、u∈Rは、入力画像に関して評価される信頼性スコアである。Gは収集画像データセットから統計的手法により得られる排他的ラベルセット群を表し、各排他的ラベルセットGに規定されている物体ラベルは、同一の画像内に多くても1つしか現れない。特に、uGiは、添え字Gが付されたuの並びを表現したものであり、式(1)の演算過程において排他的ラベルセットが検出された場合に設定されるペナルティ値である。uGiにL1ノルムをあてはめて、Gに関しスパース性を得る。ここで、それぞれのGの中では、多くても1つのラベルのみが必ず選択される。また、uGiにおけるL2ノルムは、同じ物体を含む全ての成立し得る排他的セットを相互に結びつける。換言すれば、これらの排他的セットは、同じオブジェクトについては、重複していることがあり得ることを示している。具体的には、排他的ラベルセットGは、それぞれp個の要素を持つベクトルであり、各要素が、物体(「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「猫」「いす」「牛」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「ソファ」「列車」「TVセット」)それぞれに対応し、排他的関係にある物体について値1、その他に値0が設定されている。例えば、図5の「列車、TVセット、羊、ボート、ダイニングテーブル」が含まれる排他的ラベルセットを示すベクトルは、[0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1]である。
ここで、上述のw、uについて、図10を用いて補足説明する。
図10は、排他的分類器による一般物体の画像認識の概念を示す図である。
図10のw*x+w*x・・・w*x(=Xw)は、全収集画像の特徴量x,x,・・・xから入力画像の特徴量yを線形的に復元することを模式的に示している。そして、この復元過程で生成されたwは信頼性スコアを算出するのに用いられる。
信頼性スコアu∈Rは、図10中の式u=w*l+w*l・・・w*lにより算出する。pは収集画像セットにおける物体クラスの総数を示す。ラベルL∈Rp×n(i.e.L=[l,l,・・・l])は、ラベルに対応する画像(画像1、画像2、・・・画像n)に含まれる物体のラベルを表す。l,l,・・・,lは、それぞれp個の要素を持つベクトル(ラベルベクトル)であり、各要素が、物体(「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「猫」「いす」「牛」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「ソファ」「列車」「TVセット」)の存在有無(存在する場合1、存在しない場合0)を表している。例えば、図4のいす、ダイニングテーブル、TVセットが存在する画像のラベルベクトルは、[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1]である。図10では、l,l,・・・,lについて、各要素について値「1」である場合を黒丸で表し、値「0」である場合を白丸で模式的に表現している。一例として猫に対する信頼性スコアは、猫についての要素に「1」が設定されている各ラベルのwを加算することで算出できる。以上で図10についての補足説明を終え、上述の式(1)の説明に戻る。
式(1)の第1項は、上述したように復元エラー値であり、具体的には、入力画像の特徴量yと全収集画像から線形的に復元した特徴量Xwとの差の大きさを示す。復元エラー値が小さいほど全収集画像から線形的に復元した特徴量の妥当性、すなわちwの妥当性が高いことを表している。
また式(1)の第2項は、入力画像の中に排他的ラベルセットに含まれる2以上の物体が同時に現れていると判断される場合に値が大きくなるペナルティ項である。なおλは正則化の比率であり、第2項をどの程度考慮するかを表す任意定数である。
この式(1)全体を最小化するw∈Rが最適な復元係数であり、このwは、式(1)のいわゆる最適化問題を解くことで導出することができる。最適化問題については、既知のアルゴリズム(最急降下法、直線探索など)を用いて解くことができる。実際の処理としては、wについて初期点が与えられ、式全体の値の算出、評価をし、その後、最急降下法や、直線探索等の手法により仮のwの決定、式全体の値の算出、評価を繰り返して、最終的に式(1)全体が最小になる最適なwを求めていくことになる。
この繰り返し過程において、仮のwを決定したときに、仮のwを用いて仮の信頼性スコアを算出し、算出した仮の信頼性スコアに基づき2個以上の物体が存在すると判断された場合において、その2以上の物体が排他的ラベルセットGに属している場合、式(1)の第2項のuGiに規定のペナルティ値(例えば「1」)が設定される。その結果、式(1)の第2項の値が大きくなり、式(1)全体の値が大きくなる。よって、次回仮に決定されるwは、その排他的ラベルセットに含まれる2以上の物体それぞれの信頼性スコアが低下するよう調整されることになる。
以上のように最適化問題を解き、最終的に決定されたwを用いて算出された信頼性スコアは、入力画像に現れている物体が排他的ラベルセットで表される物体の組合せに該当するか否かを反映しているので、従来よりも信頼性スコアの妥当性が高くなる。また、仮にwを決定する際に排他的ラベルセットに該当するか否かを考慮しているので、仮のwの妥当性も従来より高くなるので、最終の妥当な結果wが得られるまでに要する時間は短くなる。すなわち、演算効率が従来より向上することになる。
なお、一般的な分類器であるGMM(Gaussian mixture model)やSVM(Support Vector Machine)などを併用して利用し、複数の分類器から算出される信頼性スコアを合成して最終的な信頼性スコアを算出し利用することで、分類性能を向上させることも考えられる。
2.変形例
なお、本発明を上記の実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
(A)上述の式(1)の最適化問題を解くため、ラグランジェ未定乗数法を適用することができる。よって、式(1)で表される制約付き最適化問題を解くのに代えて、式(2)に記載する緩和された非制約最適化問題を解くこととしてもよい。

Figure 2012032788
ここで、μは、いわゆるラグランジェ乗数でありμ≧0である。式(2)は、一般的な二次計画(QP)ソルバーにより解くことができる。QPソルバーの1種である、非特許文献4に記載のAPG(Accelerated Proximal Gradient:高速近接勾配)手法は、式(2)を解くのに効果的であり、かつ実装が容易である。
(B)排他的ラベルセット抽出手段14は、排他的ラベルセットを予め保持しているものとしたが、これに限らず収集画像からグラフシフト法(非特許文献3参照)などを用いて生成することとしてもよい。グラフシフト法は、元々、共起性の度合を抽出するための手法であるが、画像内に物体が共起しないグラフを取得することで排他的ラベルセットを生成することができる。
排他的ラベルセットを効果的かつ効率的に得るために、グラフシフト法は、排他的ラベルセットを、収集画像から適切に定義された排他的重み付けラベルグラフにおける密なサブグラフとして学習するための典型的な手法として用いられている。
図3は、排他的ラベルセットの抽出処理を示す図である。
本処理では、まず、画像を収集し(S11)、次に収集画像から正解付けされた情報(グラウンドトルース情報)を付与し(S12)、グラウンドトルース情報に基づいて排他的ラベルセットを求める(S13)。以下に、詳細に説明する。
先ず、排他的重み付けラベルグラフG^=<V,E>は、収集画像からグラウンドトルース情報を用いて構成することができる。ここで、ノード集合Vの濃度はp(収集画像における物体ラベル群のサイズを示している)である。そして、辺集合E⊆V×Vは、排他的グラフトポロジーを表している。またG^については、排他的重み付けマトリックスW={wij}∈Rp×pという形で表現しても等価である。計算処理のために、排他的重み付けマトリックスは、以下のように定義することができる。すなわち、収集画像に含まれる画像のいずれにおいてもvおよびvが同時に出現しない場合にはwij=1と定義し、そうでない場合にはwij=0と定義する。排他的グラフの構築手順に自己ループは存在しない。
排他的で密なサブグラフを発見するため、以下の標準的な二次最適化問題(QP)が用いられる。

Figure 2012032788
上の式において、xは、排他的重み付けラベルグラフG^における1つの密なサブグラフ(すなわち、1つの排他的画像セット)を示す。ここで、排他的ラベルセットの原則(収集画像データセットのいずれの画像においても、排他的ラベルセットに含まれるラベルは、多くても1つしか出現しない)に従えば、xは、制約x≧0,||x||=1に拘束される。||x||は、1枚の画像にたった1つのラベルしか現れないことを表現するため値1が設定されるxのL1ノルムを示している。
以上のグラフシフト法によれば、観測されない排他的ラベルセットを統計的に抽出するだけではなく、排他的ラベルセットの重みを加味するためにグラフとして共起して現れないラベル組合せを抽出できる。そして、出現しないラベル組合せほど密なサブグラフとして得られるので、排他的ラベルセットに優先度的な重みを付与して抽出できる。
(C)以下、更に本発明の一実施形態としての画像認識装置と効果について説明する。
本発明の一実施態様である画像認識装置は、一般物体認識を行う画像認識装置であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。
また、前記調整は、前記排他的関係情報により表された組合せに該当する物体の存在確率を低下させることであることとしてもよい。
また、前記存在確率の算出には、LASSO推定が用いられ、前記存在確率の低下は、LASSO正則化項にペナルティ値を与えることで行うこととしてもよい。
また、前記排他的関係情報は、異種物体の組合せを複数規定しており、前記ペナルティ値は、前記所定確率以上の存在確率が算出された各物体を所定個ずつ組み合わせたときに、前記排他的関係情報で規定された組合せに該当する数が多いほど大きい値が与えられることとしてもよい。
また、前記調整は、式

Figure 2012032788
を用いて行われ、y∈Rは入力画像の特徴量であり、X∈Rm×nは、各収集画像の特徴量であり、nは学習用の画像である収集画像の数であり、mは記述子の次元数であり、w∈Rは入力画像に関して評価される、全ての物体クラスに関する線形復元係数であり、Gは排他的ラベルセットであり、uGiはGに該当する物体の存在確率を低下させるペナルティ値であることとしてもよい。
また、前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群から統計的手法を用いて決定することとしてもよい。
この構成によれば、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。
また、前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群からグラフシフト法を用いて決定することとしてもよい。
この構成によれば、共存しない関係にある物体ラベルほど密なサブグラフとして得られるので、優先度的な重みを付与した排他的関係情報を生成することができる。
また、本発明の一実施の態様である画像認識方法は、一般物体認識を行う画像認識装置に用いられる画像認識方法であって、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとを含み、前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する。
また、本発明の一実施の態様であるコンピュータプログラムは、一般物体認識を行う画像認識装置に用いられるコンピュータプログラムであって、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとをコンピュータに実行させ、前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する。
また、本発明の一実施の態様である集積回路は、一般物体認識を行う画像認識装置に用いられる集積回路であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。
この構成によれば、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。
(D)上記の各装置を構成する構成要素の一部又は全部について、画像認識装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
(E)上記の各装置を構成する構成要素の一部又は全部は、構成要素の機能を実現する回路で構成し、若しくは、構成要素の機能を実現するプログラムとそのプログラムを実行するプロセッサとで構成し、又は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
また、ここでは、システムLSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
(F)上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なICカード又は単体のモジュールから構成されているとしてもよい。前記ICカード又は前記モジュールは、マイクロプロセッサ、ROM、RAM、などから構成されるコンピュータシステムである。前記ICカード又は前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、前記ICカード又は前記モジュールは、その機能を達成する。このICカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
(G)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD―ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(H)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、一般物体が撮影される写真データなどを大量に保存する際に、写真データそれぞれにラベル付けを行い管理するデータ管理装置に組み込む等して用いるのに好適である。
1 画像認識装置
11 画像蓄積部
12 学習画像入力手段
13 画像特徴量算出手段
14 排他的ラベルセット抽出手段
15 分類辞書生成手段
16 分類モデル情報蓄積手段
17 分類画像入力手段
18 画像特徴量算出手段
19 分類手段
20 画像分類情報蓄積手段

Claims (10)

  1. 一般物体認識を行う画像認識装置であって、
    複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、
    同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、
    前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する
    ことを特徴とする画像認識装置。
  2. 前記調整は、前記排他的関係情報により表された組合せに該当する物体の存在確率を低下させることである
    ことを特徴とする請求項1記載の画像認識装置。
  3. 前記存在確率の算出には、LASSO(Least Absolute Shrinkage and Selection Operator)推定が用いられ、
    前記存在確率の低下は、LASSO正則化項にペナルティ値を与えることで行う
    ことを特徴とする請求項2記載の画像認識装置。
  4. 前記排他的関係情報は、異種物体の組合せを複数規定しており、
    前記ペナルティ値は、前記所定確率以上の存在確率が算出された各物体を所定個ずつ組み合わせたときに、前記排他的関係情報で規定された組合せに該当する数が多いほど大きい値が与えられる
    ことを特徴とする請求項3記載の画像認識装置。
  5. 前記調整は、式

    Figure 2012032788

    を用いて行われ、
    y∈Rは入力画像の特徴量であり、X∈Rm×nは、各収集画像の特徴量であり、nは学習用の画像である収集画像の数であり、mは記述子の次元数であり、w∈Rは入力画像に関して評価される、全ての物体クラスに関する線形復元係数であり、Gは排他的ラベルセットであり、uGiはGに該当する物体の存在確率を低下させるペナルティ値である
    ことを特徴とする請求項2記載の画像認識装置。
  6. 前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群から統計的手法を用いて決定する
    ことを特徴とする請求項1記載の画像認識装置。
  7. 前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群からグラフシフト法を用いて決定する
    ことを特徴とする請求項1記載の画像認識装置。
  8. 一般物体認識を行う画像認識装置に用いられる画像認識方法であって、
    同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、
    複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとを含み、
    前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する
    ことを特徴とする画像認識方法。
  9. 一般物体認識を行う画像認識装置に用いられるコンピュータプログラムであって、
    同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、
    複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとをコンピュータに実行させ、
    前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する
    ことを特徴とするコンピュータプログラム。
  10. 一般物体認識を行う画像認識装置に用いられる集積回路であって、
    複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において1以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、
    同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、
    前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する
    ことを特徴とする集積回路。
JP2012532872A 2010-09-10 2011-09-09 排他的分類器による一般物体の画像認識装置及び方法 Active JP5782037B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38160810P 2010-09-10 2010-09-10
US61/381,608 2010-09-10
PCT/JP2011/005081 WO2012032788A1 (ja) 2010-09-10 2011-09-09 排他的分類器による一般物体の画像認識装置及び方法

Publications (2)

Publication Number Publication Date
JPWO2012032788A1 true JPWO2012032788A1 (ja) 2014-01-20
JP5782037B2 JP5782037B2 (ja) 2015-09-24

Family

ID=45810398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012532872A Active JP5782037B2 (ja) 2010-09-10 2011-09-09 排他的分類器による一般物体の画像認識装置及び方法

Country Status (4)

Country Link
US (1) US8687851B2 (ja)
JP (1) JP5782037B2 (ja)
CN (1) CN102667859B (ja)
WO (1) WO2012032788A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164713B (zh) 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
CN102867193B (zh) * 2012-09-14 2015-06-17 成都国科海博信息技术股份有限公司 一种生物检测方法、装置及生物检测器
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
CN104899820B (zh) * 2014-03-11 2018-11-20 腾讯科技(北京)有限公司 为图像添加标签的方法、系统和装置
CN105718937B (zh) * 2014-12-03 2019-04-05 财团法人资讯工业策进会 多类别对象分类方法及系统
US9842390B2 (en) * 2015-02-06 2017-12-12 International Business Machines Corporation Automatic ground truth generation for medical image collections
JP6402653B2 (ja) * 2015-03-05 2018-10-10 オムロン株式会社 物体認識装置、物体認識方法、およびプログラム
US9864931B2 (en) 2016-04-13 2018-01-09 Conduent Business Services, Llc Target domain characterization for data augmentation
US20180146624A1 (en) * 2016-11-28 2018-05-31 The Climate Corporation Determining intra-field yield variation data based on soil characteristics data and satellite images
US10838699B2 (en) 2017-01-18 2020-11-17 Oracle International Corporation Generating data mappings for user interface screens and screen components for an application
US10733754B2 (en) * 2017-01-18 2020-08-04 Oracle International Corporation Generating a graphical user interface model from an image
JP2019220163A (ja) * 2018-06-06 2019-12-26 コグネックス・コーポレイション ビジョンシステムでラインを検出するためのシステム及び方法
CN111738274B (zh) * 2020-05-08 2022-04-22 华南理工大学 基于局部光滑投影的抗对抗攻击相机源识别方法
CN112598648B (zh) * 2020-12-24 2022-08-26 重庆邮电大学 一种基于图像梯度方向的图像接缝裁剪篡改检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101536035B (zh) * 2006-08-31 2012-09-26 公立大学法人大阪府立大学 图像识别方法、以及图像识别装置
JP2008217706A (ja) 2007-03-07 2008-09-18 Tokyo Institute Of Technology ラベリング装置、ラベリング方法及びプログラム
US8320679B2 (en) * 2007-04-23 2012-11-27 Siemens Corporate Research, Inc. Method for detecting objects using flexible edge arrangements
US8538102B2 (en) * 2008-12-17 2013-09-17 Synarc Inc Optimised region of interest selection

Also Published As

Publication number Publication date
CN102667859B (zh) 2016-01-20
CN102667859A (zh) 2012-09-12
JP5782037B2 (ja) 2015-09-24
US8687851B2 (en) 2014-04-01
US20120230546A1 (en) 2012-09-13
WO2012032788A1 (ja) 2012-03-15

Similar Documents

Publication Publication Date Title
JP5782037B2 (ja) 排他的分類器による一般物体の画像認識装置及び方法
JP6843086B2 (ja) 画像処理システム、画像においてマルチラベル意味エッジ検出を行う方法、および、非一時的コンピューター可読記憶媒体
US11687781B2 (en) Image classification and labeling
Van Horn et al. The inaturalist species classification and detection dataset
CN105981008B (zh) 学习深度人脸表示
CN105144239B (zh) 图像处理装置、图像处理方法
US9355337B2 (en) Consistent hierarchical labeling of image and image regions
Lucchi et al. Are spatial and global constraints really necessary for segmentation?
Amer et al. Sum-product networks for modeling activities with stochastic structure
Liu et al. Label to region by bi-layer sparsity priors
US9563822B2 (en) Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system
CN111027600B (zh) 图像类别预测方法和装置
Xu et al. Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions
CN107004116A (zh) 用于预测脸部属性的方法和设备
Awang et al. Vehicle counting system based on vehicle type classification using deep learning method
Cogswell et al. Combining the best of graphical models and convnets for semantic segmentation
CN114266927A (zh) 一种无监督的显著性目标检测方法、系统、设备及介质
CN107203788B (zh) 一种中级视觉毒品图像识别方法
Khelifi et al. Mc-SSM: nonparametric semantic image segmentation with the ICM algorithm
Goldfarb Understanding deep neural networks using topological data analysis
JP2015109024A (ja) 画像辞書生成装置、画像辞書生成方法及びコンピュータプログラム
Xie et al. Markov random field based fusion for supervised and semi-supervised multi-modal image classification
Carvajal et al. Comparative evaluation of action recognition methods via Riemannian manifolds, Fisher vectors and GMMs: Ideal and challenging conditions
CN113408546A (zh) 基于相互全局上下文注意力机制的单样本目标检测方法
CN112949728A (zh) 基于切片图像筛选和特征聚合的mri图像分类方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140307

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150716

R150 Certificate of patent or registration of utility model

Ref document number: 5782037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250