JPWO2012032788A1

JPWO2012032788A1 - 排他的分類器による一般物体の画像認識装置及び方法

Info

Publication number: JPWO2012032788A1
Application number: JP2012532872A
Authority: JP
Inventors: ヤンフア; シュイチェンイェン; チョンヤンヒュアン; シェンメイシェン; 亮一川西
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2010-09-10
Filing date: 2011-09-09
Publication date: 2014-01-20
Anticipated expiration: 2031-09-09
Also published as: CN102667859B; CN102667859A; JP5782037B2; US8687851B2; US20120230546A1; WO2012032788A1

Abstract

一般物体の画像認識の性能及び確実性を高めることができる画像認識装置を提供する。画像認識装置１は、画像分類情報蓄積手段２０が、学習時処理により得られた、複数種の物体それぞれの画像特徴を示す特徴情報を記憶しており、入力画像を分類する場合には、画像特徴量算出手段１８が入力画像から特徴量を表す記述子を抽出し、記述子に対応する画像語彙に投票し、分類手段１９が、投票の結果に基づいて、１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定し、各物体の存在確率を算出する際に、排他的分類器により、同一画像内に共存しないと推定された複数の異種物体（物体ラベル）の組合せを表す排他的関係情報を用いて存在確率を調整する。

Description

本発明は、画像処理およびコンピュータビジョンに関し、特に、一般物体の画像認識及び索引付けに関する。

近年、画像分類／認識についての研究が盛んであり、特に、コンテキスト（人の行動やオブジェクトの場所といった実世界の状況や状態に依存する概念をいう。例えば共起関係、相対位置関係、相対スケール、背景と前景の関係などがこれに該当する。）情報を用いて一般物体の画像認識の性能及び確実性を高める手法が多く開発されている（非特許文献１〜４参照）。

Serhat S. Bucak et al, Efficient Multi-label Ranking for Multi-class Learning: Application to Object Recognition. ,ICCV 2009 Chaitanya Desai et al, Discriminative Models for Multi-class Object Layout ,ICCV2009 H. Liu and S. Yan, Robust graph mode seeking by graph shift. ,ICML 2010 P. Tseng, On accelerated proximal gradient methods for convex-concave optimization. ,Submitted to SIAM Journal of Optimization 2008

しかしながら、画像認識の確実性は、人間の能力レベルに達するまでには至っておらず、一層の向上が求められている。

本願は、従来よりも一般物体の画像認識の確実性を高めることができる一般物体の画像認識装置を提供することを目的とする。

上記課題を解決するために、本発明は、一般物体認識を行う画像認識装置であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。

本発明の画像認識装置は、上述の構成を備えることにより、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。

本発明の一実施の形態に係る、入力画像に対し物体ラベルを付する処理（分類時処理）の全体を示すフローチャートである。本発明の一実施の形態に係る、排他的分類器による一般物体の画像認識装置の構成を示すブロック図である。本発明の一実施の形態に係る、排他的ラベルセットの抽出処理を示す図である。本発明の一実施の形態に係る、手動でラベルが付与された収集画像の一例を示す図である。本発明の一実施の形態に係る、排他的ラベルセットの集合の例を示す図である。本発明の一実施の形態に係る、画像語彙構築処理を示すフローチャートである。本発明の一実施の形態に係る、画像語彙構築の基本概念を説明するための図である。本発明の一実施の形態に係る、画像ヒストグラム生成処理の一例を示すフローチャートである。本発明の一実施の形態に係る、各収集画像の特徴量について説明するための図である。排他的分類器による一般物体の画像認識の概念を示す図である。

１．実施の形態
以下、本発明を実施するための形態について説明する。

本発明の一実施の形態に係る画像認識装置は、入力画像に現れている一般物体を画像認識し、この認識した一般物体を表すラベル（物体ラベル）を入力画像に付するものである。本画像認識装置は、この画像認識の際に、画像中に現れる物体の排他的コンテキスト（排他的関係情報）を利用して、一般物体の画像認識の確実性、性能を高める。排他的コンテキストの一例としては、同じ画像に一緒に現れることがほとんどない物体について、これらの物体を表す物体ラベルをセットにした排他的ラベルセットを用いる。

図１は、入力画像に対し物体ラベルを付する処理（分類時処理）の全体を示すフローチャートである。

まず、入力画像を取得し（Ｓ１）、入力画像を標準サイズに変換する（Ｓ２）。そして、入力画像に関し、複数の記述子群を抽出（Ｓ３）する。各記述子は、入力画像における局所的な領域の特徴量を示す。次に、抽出した記述子それぞれに対応する画像語彙に投票を行い入力画像を表現するヒストグラム（入力画像の特徴量）を生成する（Ｓ４）。ここで、画像語彙は、特徴量が近い複数の記述子を代表する記述子である。この画像語彙は、分類時処理に先立ち行われる、複数の収集画像について特徴量を学習する学習時処理において生成される。次に、排他的分類器によって、Ｓ４で生成された入力画像の特徴量と学習時処理による学習結果とを比較し、また排他的ラベルセットを用い、入力画像に関する信頼性スコア（入力画像における物体それぞれの存在確率）を算出する（Ｓ５）。そして、入力画像に関する信頼性スコアを基に１以上の物体ラベルを割り当てる（Ｓ６）。

次に、画像認識装置について詳細に説明する。

図２は、本発明の一実施の形態に係る、排他的分類器による一般物体の画像認識装置１の構成を示すブロック図である。

画像認識装置１は、画像蓄積部１１、学習画像入力手段１２、画像特徴量算出手段１３、排他的ラベルセット抽出手段１４、分類辞書生成手段１５、分類モデル情報蓄積手段１６、分類画像入力手段１７、画像特徴量算出手段１８、分類手段１９、及び画像分類情報蓄積手段２０を含んで構成される。学習時処理は、学習画像入力手段１２、画像特徴量算出手段１３、排他的ラベルセット抽出手段１４、分類辞書生成手段１５、及び分類モデル情報蓄積手段１６により実行され、学習結果に基づき入力画像に現れている物体について実際に分類する分類時処理は、種類特定手段としての、分類画像入力手段１７、画像特徴量算出手段１８、分類手段１９、及び画像分類情報蓄積手段２０により実行される。

画像蓄積部１１は、学習時処理に用いる学習用画像としての収集画像、及び実際に物体認識の対象となる入力画像を蓄積する蓄積デバイスである。

本実施の形態では、収集画像としては、ＰＡＳＣＡＬＶｉｓｕａｌＯｂｊｅｃｔＣｌａｓｓｅｓＣｈａｌｌｅｎｇｅ２０１０（ＶＯＣ２０１０）学習用データセットに含まれるラベル付画像を用いる。

ＶＯＣ２０１０学習用データセットは、２０個のクラスのいずれかに属する「物体」（人物、動物、車両、家具）が含まれる複数（一例として１万枚程度）の画像から成る。各収集画像には、画像に現れている物体のクラスを示すラベルが付されている。２０個のクラスに対応するラベルは、具体的には、「猫」「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「いす」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「列車」「ＴＶセット」「牛」「ソファ」であるが、もちろんこれに限るものではない。また、クラスについても２０個に限る必要はない。１枚の収集画像の中には複数の物体が含まれることもある。また、それら複数物体のクラスが同じ場合もあるし、異なる場合もある。

図４は、収集画像の一例であり、ラベルとして「いす」「ダイニングテーブル」「ＴＶセット」が付されている。

次に学習時処理の動作に係る、学習画像入力手段１２、画像特徴量算出手段１３、排他的ラベルセット抽出手段１４、分類辞書生成手段１５、及び分類モデル情報蓄積手段１６について説明する。

学習画像入力手段１２は、画像蓄積部１１から収集画像を順に読み出して、排他的ラベルセット抽出手段１４と画像特徴量算出手段１３とに出力する。

画像特徴量算出手段１３は、入力された画像から特徴量を算出して画像語彙を生成する。

図６は、画像特徴量算出手段１３による画像語彙構築処理を示すフローチャートである。

図７は、入力された画像を用いて構築される画像語彙の概念を説明するための図である。

画像特徴量算出手段１３は、まず、収集画像（一例として図７の収集画像１１１）を取得し（Ｓ２１）、画像上の一定間隔で位置する格子点（以下、密な点という。一例として画像１１２に示す格子状に配された点である。）と、特徴的な離散点（以下、離散点という。一例として画像１１３に示す点である。）とを算出する（Ｓ２２）。特徴的な離散点は、輝度、形状が急激に変化するような特徴的な点であり、例えば、猫の目の一部や、耳の先端を示す点などが該当する。なお、以下、密な点と離散点とを総称して特徴点という場合もある。次いで、画像特徴量算出手段１３は、特徴点とその周辺で記述子を抽出する（Ｓ２３）。記述子の抽出は、一例として、既知のＳＩＦＴ（ＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）アルゴリズムを用いる。ＳＩＦＴは、特徴点の代表輝度勾配方向を決定し、その方向を基準として、他方向の輝度勾配ヒストグラムを作成し、多次元ベクトルで特徴量を記述するものである。これにより、回転・スケール変化・照明変化に頑強であるという特徴を持つ。

図７の画像１１４は、抽出された記述子を模式的に示している。ここで、上述の記述子は、１枚の画像内における局所的な領域の特徴を表す局所的記述子であるが、記述子として、画像全体の領域の特徴（例えば、画像全体の色相分布など）を表す全体的記述子を用いることとしてもよい。また、局所的記述子、全体的記述子の両方を組み合わせて用いてもよい。

次に、画像特徴量算出手段１３は、抽出した記述子を全て記述子プールに入れる。図７の画像１１５は、密な点についての記述子プールを模式的に示す図であり、画像１１６は、離散点についての記述子プールを模式的に示す図である。

そして、画像特徴量算出手段１３は、各記述子プールからランダムに記述子を選択し画像語彙を構築する。画像語彙は、前述のように特徴量が近い複数の記述子を代表する記述子である。画像語彙としては、各記述子をベクトル量子化したものを用いてもよい。

画像１１７は、「猫」について生成された画像語彙を模式的に示し、密な点の記述子プールから選択された記述子を含む画像語彙（一例を画像１１８に示す。）と、密な点の記述子プールから選択された記述子を含む画像語彙（一例を画像１１９に示す。）とを含んでいる。

次に、画像特徴量算出手段１３は、収集画像それぞれについて画像語彙に係るヒストグラムを生成する。

図８は、画像ヒストグラム生成処理を示すフローチャートである。

画像特徴量算出手段１３は、まず、収集画像を取得し（Ｓ３１）、収集画像について特徴点を算出し（Ｓ３２）、特徴点及びその周辺についての記述子を抽出する（Ｓ３３）。このＳ３１〜Ｓ３３までの処理は、上述のＳ２１〜Ｓ２３として説明したのと同じ動作である。

そして、収集画像の各記述子に最も近似する画像語彙に対し投票を行うことで、各収集画像を表現するヒストグラムを導出する（Ｓ３４）。以下、画像を表現するヒストグラムを、画像の特徴量という。

図９は、各収集画像の特徴量について説明するための図である。

図９の特徴量２１１は、図７で説明した方法で構築された画像語彙への投票結果に基づいて算出した収集画像の特徴量を模式的に表す。ここで、画像における空間情報を画像の特徴量に追加することとしてもよい。一例として、画像を空間的に４等分、３等分などし、その各々についてヒストグラムを生成してもよい（図９の画像２２１等）。

なお、収集画像および入力画像を表現する複数の画像ヒストグラムは、bag-of-wordsモデルで表現することとしてもよい。

排他的ラベルセット抽出手段１４は、排他的ラベルセットの抽出を行う。

図５は、排他的ラベルセットの集合の例を示している。

上述のように「列車」「ＴＶセット」それぞれがラベルであり、ラベルの集合である｛列車、ＴＶセット、ボート、ダイニングテーブル｝が、１つの排他的ラベルセットである。１つの排他的ラベルセットは、１画像中に同時に現れない物体の組合せを示している。排他的ラベルセット｛列車、ＴＶセット、羊、ボート、ダイニングテーブル｝の場合であれば、１画像中に「列車」が現れているときには、その画像中にはＴＶセット、羊、ボート、ダイニングテーブルのいずれもが現れないことを示す。

このような排他的ラベルセットは、手動で（人間の経験則から導きだされて）定めていてもよいし、収集画像などから統計的手法により抽出してもよい。本実施の形態では、排他的ラベルセット抽出手段１４は、予め、既知の排他的ラベルセットを保持しているものとする。統計的手法により抽出する例については、後ほど変形例として説明する。また、排他的ラベルセットが充実しているほど、物体を分類する効果が向上するので、分類について効果的であると推測される排他的ラベルセットを手動で作成したり、特に分類したいカテゴリだけに注目した排他的ラベルセットを作成してもよい。

分類辞書生成手段１５は、各収集画像の特徴量と、排他的ラベルセットとを分類辞書として分類モデル情報蓄積手段１６に蓄積させる。

次に、分類時処理に係る、分類画像入力手段１７、画像特徴量算出手段１８、分類手段１９、及び画像分類情報蓄積手段２０について説明する。

分類画像入力手段１７は、画像蓄積部１１から物体ラベル付与の対象となる画像（入力画像）を読み出して、画像特徴量算出手段１８に供給する。

画像特徴量算出手段１８は、入力画像について、入力画像を表現する特徴量を算出する。この特徴量を算出する処理は、画像特徴量算出手段１３について図８及び図９を用いて説明した処理と同様なので説明を省略する。

分類手段１９は、排他的分類器を有し、排他的分類器による一般物体の画像認識処理を行う。分類手段１９は、画像特徴量算出手段１８により生成された入力画像の特徴量と、学習時処理により算出されている各収集画像の特徴量に基づき、入力画像に含まれる各物体の信頼性スコアを算出し、信頼性スコアに基づき入力画像中に存在する物体の種類を特定する。本実施の形態における排他的分類器は、排他的コンテキストを用い、ＬＡＳＳＯ（Least Absolute Shrinkage and Selection Operator）推定を利用する種類の分類器である。従来、ＬＡＳＳＯフレームワークでは、最適化の対象は、復元エラー値及び復元係数ｗの正則値の２つの値を示す項目から成る。復元エラー値は、入力画像の特徴量と、全収集画像の特徴量から復元係数を用いて線形的に復元した特徴量との差（復元した特徴量の妥当性）を測るのに用いられ、妥当性が低いほど復元エラー値は高くなる。

これに対し、本実施の形態では、排他的ラベルセットを用いた復元係数に対応する新たな正則化条件を定義している。この新たな正則化条件を用いた、特徴量ｙ∈Ｒ^ｍを有する入力画像に関する、ラベル排他的線形表現モデルは下記の通り表される。

この新しい公式において、Ｘ∈Ｒ^ｍｘｎ（ｉ．ｅ．Ｘ＝［ｘ_１，ｘ_２，・・・，ｘ_ｎ］，ｘ_ｉ∈Ｒ^ｍ）は、各収集画像の特徴量を示す。これら各収集画像の特徴量は、上述の通り画像特徴量算出手段１３により算出されたものである。ここでｎは収集画像の数である。また、ｍは、記述子の次元数であり画像語彙を構成する記述子の数に一致する。ｗ∈Ｒ^ｎは、入力画像に関して評価される、全ての物体クラスに関する線形復元係数である。また、ｕ∈Ｒ^ｐは、入力画像に関して評価される信頼性スコアである。Ｇは収集画像データセットから統計的手法により得られる排他的ラベルセット群を表し、各排他的ラベルセットＧ_ｉに規定されている物体ラベルは、同一の画像内に多くても１つしか現れない。特に、ｕ_Ｇｉは、添え字Ｇ_ｉが付されたｕの並びを表現したものであり、式（１）の演算過程において排他的ラベルセットが検出された場合に設定されるペナルティ値である。ｕ_ＧｉにL1ノルムをあてはめて、Ｇ_ｉに関しスパース性を得る。ここで、それぞれのＧ_ｉの中では、多くても１つのラベルのみが必ず選択される。また、ｕ_ＧｉにおけるＬ２ノルムは、同じ物体を含む全ての成立し得る排他的セットを相互に結びつける。換言すれば、これらの排他的セットは、同じオブジェクトについては、重複していることがあり得ることを示している。具体的には、排他的ラベルセットＧ_ｉは、それぞれｐ個の要素を持つベクトルであり、各要素が、物体（「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「猫」「いす」「牛」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「ソファ」「列車」「ＴＶセット」）それぞれに対応し、排他的関係にある物体について値１、その他に値０が設定されている。例えば、図５の「列車、ＴＶセット、羊、ボート、ダイニングテーブル」が含まれる排他的ラベルセットを示すベクトルは、［０００１００００００１０００００１０１１］である。

ここで、上述のｗ、ｕについて、図１０を用いて補足説明する。

図１０は、排他的分類器による一般物体の画像認識の概念を示す図である。

図１０のｗ_１＊ｘ_１＋ｗ_２＊ｘ_２・・・ｗ_ｎ＊ｘ_ｎ（＝Ｘｗ）は、全収集画像の特徴量ｘ_１，ｘ_２，・・・ｘ_ｎから入力画像の特徴量ｙを線形的に復元することを模式的に示している。そして、この復元過程で生成されたｗは信頼性スコアを算出するのに用いられる。

信頼性スコアｕ∈Ｒ^ｐは、図１０中の式ｕ＝ｗ_１＊ｌ_１＋ｗ_２＊ｌ_２・・・ｗ_ｎ＊ｌ_ｎにより算出する。ｐは収集画像セットにおける物体クラスの総数を示す。ラベルＬ∈Ｒ^ｐ×ｎ(i.e.Ｌ＝［ｌ_１，ｌ_２,・・・ｌ_ｎ］)は、ラベルに対応する画像（画像１、画像２、・・・画像ｎ）に含まれる物体のラベルを表す。ｌ_１，ｌ_２,・・・,ｌ_ｎは、それぞれｐ個の要素を持つベクトル（ラベルベクトル）であり、各要素が、物体（「飛行機」「自転車」「鳥」「ボート」「ボトル」「バス」「車」「猫」「いす」「牛」「ダイニングテーブル」「犬」「馬」「バイク」「人物」「植物」「羊」「ソファ」「列車」「ＴＶセット」）の存在有無（存在する場合１、存在しない場合０）を表している。例えば、図４のいす、ダイニングテーブル、ＴＶセットが存在する画像のラベルベクトルは、［０００００００１０１０００００００００１］である。図１０では、ｌ_１，ｌ_２,・・・,ｌ_ｎについて、各要素について値「１」である場合を黒丸で表し、値「０」である場合を白丸で模式的に表現している。一例として猫に対する信頼性スコアは、猫についての要素に「１」が設定されている各ラベルのｗを加算することで算出できる。以上で図１０についての補足説明を終え、上述の式（１）の説明に戻る。

式（１）の第１項は、上述したように復元エラー値であり、具体的には、入力画像の特徴量ｙと全収集画像から線形的に復元した特徴量Ｘｗとの差の大きさを示す。復元エラー値が小さいほど全収集画像から線形的に復元した特徴量の妥当性、すなわちｗの妥当性が高いことを表している。

また式（１）の第２項は、入力画像の中に排他的ラベルセットに含まれる２以上の物体が同時に現れていると判断される場合に値が大きくなるペナルティ項である。なおλは正則化の比率であり、第２項をどの程度考慮するかを表す任意定数である。

この式（１）全体を最小化するｗ∈Ｒ^ｎが最適な復元係数であり、このｗは、式（１）のいわゆる最適化問題を解くことで導出することができる。最適化問題については、既知のアルゴリズム（最急降下法、直線探索など）を用いて解くことができる。実際の処理としては、ｗについて初期点が与えられ、式全体の値の算出、評価をし、その後、最急降下法や、直線探索等の手法により仮のｗの決定、式全体の値の算出、評価を繰り返して、最終的に式（１）全体が最小になる最適なｗを求めていくことになる。

この繰り返し過程において、仮のｗを決定したときに、仮のｗを用いて仮の信頼性スコアを算出し、算出した仮の信頼性スコアに基づき２個以上の物体が存在すると判断された場合において、その２以上の物体が排他的ラベルセットＧ_ｉに属している場合、式（１）の第２項のｕ_Ｇｉに規定のペナルティ値（例えば「１」）が設定される。その結果、式（１）の第２項の値が大きくなり、式（１）全体の値が大きくなる。よって、次回仮に決定されるｗは、その排他的ラベルセットに含まれる２以上の物体それぞれの信頼性スコアが低下するよう調整されることになる。

以上のように最適化問題を解き、最終的に決定されたｗを用いて算出された信頼性スコアは、入力画像に現れている物体が排他的ラベルセットで表される物体の組合せに該当するか否かを反映しているので、従来よりも信頼性スコアの妥当性が高くなる。また、仮にｗを決定する際に排他的ラベルセットに該当するか否かを考慮しているので、仮のｗの妥当性も従来より高くなるので、最終の妥当な結果ｗが得られるまでに要する時間は短くなる。すなわち、演算効率が従来より向上することになる。

なお、一般的な分類器であるＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）やＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などを併用して利用し、複数の分類器から算出される信頼性スコアを合成して最終的な信頼性スコアを算出し利用することで、分類性能を向上させることも考えられる。
２．変形例
なお、本発明を上記の実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
（Ａ）上述の式（１）の最適化問題を解くため、ラグランジェ未定乗数法を適用することができる。よって、式（１）で表される制約付き最適化問題を解くのに代えて、式（２）に記載する緩和された非制約最適化問題を解くこととしてもよい。

ここで、μは、いわゆるラグランジェ乗数でありμ≧０である。式（２）は、一般的な二次計画（ＱＰ）ソルバーにより解くことができる。ＱＰソルバーの１種である、非特許文献４に記載のＡＰＧ（ＡｃｃｅｌｅｒａｔｅｄＰｒｏｘｉｍａｌＧｒａｄｉｅｎｔ：高速近接勾配）手法は、式（２）を解くのに効果的であり、かつ実装が容易である。
（Ｂ）排他的ラベルセット抽出手段１４は、排他的ラベルセットを予め保持しているものとしたが、これに限らず収集画像からグラフシフト法（非特許文献３参照）などを用いて生成することとしてもよい。グラフシフト法は、元々、共起性の度合を抽出するための手法であるが、画像内に物体が共起しないグラフを取得することで排他的ラベルセットを生成することができる。

排他的ラベルセットを効果的かつ効率的に得るために、グラフシフト法は、排他的ラベルセットを、収集画像から適切に定義された排他的重み付けラベルグラフにおける密なサブグラフとして学習するための典型的な手法として用いられている。

図３は、排他的ラベルセットの抽出処理を示す図である。

本処理では、まず、画像を収集し（Ｓ１１）、次に収集画像から正解付けされた情報（グラウンドトルース情報）を付与し（Ｓ１２）、グラウンドトルース情報に基づいて排他的ラベルセットを求める（Ｓ１３）。以下に、詳細に説明する。

先ず、排他的重み付けラベルグラフＧ＾＝＜Ｖ，Ｅ＞は、収集画像からグラウンドトルース情報を用いて構成することができる。ここで、ノード集合Ｖの濃度はｐ（収集画像における物体ラベル群のサイズを示している）である。そして、辺集合Ｅ⊆Ｖ×Ｖは、排他的グラフトポロジーを表している。またＧ＾については、排他的重み付けマトリックスＷ＝｛ｗ_ｉｊ｝∈Ｒ^ｐ×ｐという形で表現しても等価である。計算処理のために、排他的重み付けマトリックスは、以下のように定義することができる。すなわち、収集画像に含まれる画像のいずれにおいてもｖ_ｉおよびｖ_ｊが同時に出現しない場合にはｗ_ｉｊ＝１と定義し、そうでない場合にはｗ_ｉｊ＝０と定義する。排他的グラフの構築手順に自己ループは存在しない。

排他的で密なサブグラフを発見するため、以下の標準的な二次最適化問題（QP）が用いられる。

上の式において、ｘは、排他的重み付けラベルグラフＧ＾における１つの密なサブグラフ（すなわち、１つの排他的画像セット）を示す。ここで、排他的ラベルセットの原則（収集画像データセットのいずれの画像においても、排他的ラベルセットに含まれるラベルは、多くても１つしか出現しない）に従えば、ｘは、制約ｘ≧０，||ｘ||_１＝１に拘束される。||ｘ||_１は、１枚の画像にたった１つのラベルしか現れないことを表現するため値１が設定されるｘのＬ１ノルムを示している。

以上のグラフシフト法によれば、観測されない排他的ラベルセットを統計的に抽出するだけではなく、排他的ラベルセットの重みを加味するためにグラフとして共起して現れないラベル組合せを抽出できる。そして、出現しないラベル組合せほど密なサブグラフとして得られるので、排他的ラベルセットに優先度的な重みを付与して抽出できる。
（Ｃ）以下、更に本発明の一実施形態としての画像認識装置と効果について説明する。

本発明の一実施態様である画像認識装置は、一般物体認識を行う画像認識装置であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。

また、前記調整は、前記排他的関係情報により表された組合せに該当する物体の存在確率を低下させることであることとしてもよい。

また、前記存在確率の算出には、ＬＡＳＳＯ推定が用いられ、前記存在確率の低下は、ＬＡＳＳＯ正則化項にペナルティ値を与えることで行うこととしてもよい。

また、前記排他的関係情報は、異種物体の組合せを複数規定しており、前記ペナルティ値は、前記所定確率以上の存在確率が算出された各物体を所定個ずつ組み合わせたときに、前記排他的関係情報で規定された組合せに該当する数が多いほど大きい値が与えられることとしてもよい。

また、前記調整は、式

を用いて行われ、ｙ∈Ｒ^ｍは入力画像の特徴量であり、Ｘ∈Ｒ^ｍ×ｎは、各収集画像の特徴量であり、ｎは学習用の画像である収集画像の数であり、ｍは記述子の次元数であり、ｗ∈Ｒ^ｎは入力画像に関して評価される、全ての物体クラスに関する線形復元係数であり、Ｇ_ｉは排他的ラベルセットであり、ｕ_ＧｉはＧ_ｉに該当する物体の存在確率を低下させるペナルティ値であることとしてもよい。

また、前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群から統計的手法を用いて決定することとしてもよい。

この構成によれば、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。

また、前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群からグラフシフト法を用いて決定することとしてもよい。

この構成によれば、共存しない関係にある物体ラベルほど密なサブグラフとして得られるので、優先度的な重みを付与した排他的関係情報を生成することができる。

また、本発明の一実施の態様である画像認識方法は、一般物体認識を行う画像認識装置に用いられる画像認識方法であって、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとを含み、前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する。

また、本発明の一実施の態様であるコンピュータプログラムは、一般物体認識を行う画像認識装置に用いられるコンピュータプログラムであって、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとをコンピュータに実行させ、前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する。

また、本発明の一実施の態様である集積回路は、一般物体認識を行う画像認識装置に用いられる集積回路であって、複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する。

この構成によれば、各物体の存在確率の算出過程において、誤りである可能性が高い同一画像内に共存しないと推定した物体が、共存するとの結果とならないように存在確率が調整されるので、各物体について誤った存在確率が算出される可能性を低減し、一般物体の認識の確実性を高めることができる。
（Ｄ）上記の各装置を構成する構成要素の一部又は全部について、画像認識装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
（Ｅ）上記の各装置を構成する構成要素の一部又は全部は、構成要素の機能を実現する回路で構成し、若しくは、構成要素の機能を実現するプログラムとそのプログラムを実行するプロセッサとで構成し、又は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムに従って動作することにより、システムＬＳＩは、その機能を達成する。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

また、ここでは、システムＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
（Ｆ）上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、などから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。
（Ｇ）本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラム又は前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ―ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）、半導体メモリなど、に記録したものとしてもよい。また、これらの記録媒体に記録されている前記コンピュータプログラム又は前記デジタル信号であるとしてもよい。

また、本発明は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
（Ｈ）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

本発明は、一般物体が撮影される写真データなどを大量に保存する際に、写真データそれぞれにラベル付けを行い管理するデータ管理装置に組み込む等して用いるのに好適である。

１画像認識装置
１１画像蓄積部
１２学習画像入力手段
１３画像特徴量算出手段
１４排他的ラベルセット抽出手段
１５分類辞書生成手段
１６分類モデル情報蓄積手段
１７分類画像入力手段
１８画像特徴量算出手段
１９分類手段
２０画像分類情報蓄積手段

Claims

一般物体認識を行う画像認識装置であって、
複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、
同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、
前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する
ことを特徴とする画像認識装置。
前記調整は、前記排他的関係情報により表された組合せに該当する物体の存在確率を低下させることである
ことを特徴とする請求項１記載の画像認識装置。
前記存在確率の算出には、ＬＡＳＳＯ（Least Absolute Shrinkage and Selection Operator）推定が用いられ、
前記存在確率の低下は、ＬＡＳＳＯ正則化項にペナルティ値を与えることで行う
ことを特徴とする請求項２記載の画像認識装置。
前記排他的関係情報は、異種物体の組合せを複数規定しており、
前記ペナルティ値は、前記所定確率以上の存在確率が算出された各物体を所定個ずつ組み合わせたときに、前記排他的関係情報で規定された組合せに該当する数が多いほど大きい値が与えられる
ことを特徴とする請求項３記載の画像認識装置。
前記調整は、式

を用いて行われ、
ｙ∈Ｒ^ｍは入力画像の特徴量であり、Ｘ∈Ｒ^ｍ×ｎは、各収集画像の特徴量であり、ｎは学習用の画像である収集画像の数であり、ｍは記述子の次元数であり、ｗ∈Ｒ^ｎは入力画像に関して評価される、全ての物体クラスに関する線形復元係数であり、Ｇ_ｉは排他的ラベルセットであり、ｕ_ＧｉはＧ_ｉに該当する物体の存在確率を低下させるペナルティ値である
ことを特徴とする請求項２記載の画像認識装置。
前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群から統計的手法を用いて決定する
ことを特徴とする請求項１記載の画像認識装置。
前記排他的関係情報は、画像内に存在する物体が既知である学習用の画像群からグラフシフト法を用いて決定する
ことを特徴とする請求項１記載の画像認識装置。
一般物体認識を行う画像認識装置に用いられる画像認識方法であって、
同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、
複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとを含み、
前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する
ことを特徴とする画像認識方法。
一般物体認識を行う画像認識装置に用いられるコンピュータプログラムであって、
同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積ステップと、
複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定ステップとをコンピュータに実行させ、
前記種類特定ステップにおいて、前記存在確率の算出にあたり、前記排他的関係情報を用いて各物体の存在確率を調整する
ことを特徴とするコンピュータプログラム。
一般物体認識を行う画像認識装置に用いられる集積回路であって、
複数種の物体それぞれの画像特徴を示す特徴情報を参照し、入力画像において１以上の物体の存在確率を算出し、前記存在確率に基づき、存在する物体の種類を特定する種類特定手段と、
同一画像内に共存しないと推定された異種物体の組合せを表す排他的関係情報を記憶する情報蓄積手段とを備え、
前記種類特定手段は、前記排他的関係情報を用いて各物体の存在確率を調整する
ことを特徴とする集積回路。