JPWO2012046426A1

JPWO2012046426A1 - 物体検出装置、物体検出方法および物体検出プログラム

Info

Publication number: JPWO2012046426A1
Application number: JP2012537577A
Authority: JP
Inventors: 哲夫井下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-10-06
Filing date: 2011-09-30
Publication date: 2014-02-24
Also published as: WO2012046426A1

Abstract

画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備える。

Description

本発明は、ユーザが制約なく撮影した画像中の物体を検出する物体検出装置、物体検出方法および物体検出プログラムに関する。

スチルカメラやビデオカメラといった撮影システムで撮影した画像から物体を検出する機能を利用すると、物体に適したシャッタースピードやフォーカスの調整、画像処理が行えるので、簡単にきれいな画像を撮影することができる。また、物体に関する情報をその位置に重畳表示することができるので、カメラ産業や情報表示分野への適用が期待されている。画像中の物体を検出する方法として、物体検出用の矩形領域を設定し、画像全体を走査してその矩形領域内に所望の物体が存在するかどうかを判定する方法が提案されている。

例えば、非特許文献１には、検出対象として「人」を想定した物体検出方法が記載されている。非特許文献１に記載されている物体検出方法では、画像中から「人」を検出する際の矩形領域サイズを３種類の縦横比から設定し、画像全体に対して矩形領域を走査して「人」を検出している。

また、非特許文献２には、検出対象として「猫の顔」を想定した物体検出方法が記載されている。非特許文献２に記載されている物体検出方法では、「猫の顔」を検出する際の矩形領域サイズを特徴の種類ごとに設定し、画像全体に対して矩形領域を走査した後、２種類の特徴による結果を統合して「猫の顔」を検出している。

また、特許文献１には、車両前方の路上にある物体（白線、先行車両、路上障害物）を検出することを想定した物体検出方法が記載されている。特許文献１に記載されている物体検出方法では、画像中から物体の特徴点を検出する領域を限定した上で、物体検出を行っている。

また、特許文献２には、データベースに登録されているモデルが画像中のどこにあるかを検出することを想定した物体検出方法が記載されている。特許文献２に記載されている物体検出方法では、物体が存在する確率が高いと推定される範囲を求め、その領域に対して物体検出を行っている。

特開平９−９５１９４号公報特開２００２−８３２９７号公報

Q.ZhusS, Avidan, M.Yeh and K.Cheng, "Fast Human Detection Using a Cascade of Histograms of Oriented Gradients", IEEE Computer Vision and Pattern Recognition, Vol. 2, Jun 2006, p.1491-1498. Weiwei Zhang, Jian Sun, and Xiaoou Tang, "Cat Head Detection -How to Effectively Exploit Shape and Texture Features", The 10th ECCV, LNSC.5305. Marseille, France, IEEE, Oct 2008, p.802-816.

非特許文献１や非特許文献２に記載されている物体検出方法では、物体を検出するための矩形領域や検出領域が断定的に決定される。そのため、撮影されたシーンに対して好適に矩形領域や検出領域が決定されるとは言い難い。例えば、街で撮影された「人」は立位が多いが、公園や砂浜で撮影された「人」は横になっている場合もある。すなわち、同じ物体でもシーンによって矩形領域が異なる場合がある。また、画像中から物体が存在しえない領域を検出領域としてしまう場合もある。これらの場合、物体検出率の低下および誤検出率の増加が考えられる。

なお、特許文献１や特許文献２に記載されている物体検出方法では、物体検出を行う領域を制限することで、検出対象物体以外を検出してしまう誤検出を低減している。しかし、特許文献１に記載されている物体検出方法では、検出領域をヒューリスティックに設定している。そのため、カメラの高さや画角が変わった場合や、ユーザが一般的に撮影した画像を利用する場合、検出領域を設定することは困難である。また、特許文献２に記載されている物体検出方法では、物体が存在する確率が高い領域を、前後フレームの差分情報から求めている。そのため、一枚の撮影画像からその領域を求めることは困難である。

そこで、本発明は、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる物体検出装置、物体検出方法および物体検出プログラムを提供することを目的とする。

本発明による物体検出装置は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備えたことを特徴とする。

また、本発明による物体検出方法は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出し、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出し、算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出することを特徴とする。

また、本発明による物体検出プログラムは、コンピュータに、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する処理、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する処理、および算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する処理を実行させることを特徴とする。

本発明によれば、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる。

第１の実施形態の物体検出装置の構成例を示すブロック図である。第１の実施形態の動作の一例を示すフローチャートである。生起情報の例を示す説明図である。物体撮影情報を画像領域内の存在位置確率によって示す説明図である。物体撮影情報のデータ例を示す説明図である。画像平面上の存在確率と配列データとの対応関係を示す説明図である。入力画像の例を示す説明図である。入力画像に対するシーン帰属度の算出結果の一例を示す説明図である。入力画像に対する各物体の生起確率の算出結果の一例を示す説明図である。入力画像「街」に対する「車」の存在位置確率の算出例を示す説明図である。物体検出方法の例および物体検出器による検出結果の例を示す説明図である。入力画像に対する「車」についての物体位置尤度の算出例を示す説明図である。物体「車」「人」「机」について、物体検出器による検出結果と本実施形態によって求めた物体位置尤度による物体検出結果とを比較して示す説明図である。物体検出結果の他の表示例を示す説明図である。第２の実施形態の物体検出装置の構成例を示すブロック図である。検出領域を限定した場合の算出例を示す説明図である。本発明の概要を示すブロック図である。本発明の物体検出装置の他の構成例を示すブロック図である。

実施形態１．
以下、本発明の実施形態を図面を参照して説明する。図１は、本発明の第１の実施形態の物体検出装置の構成例を示すブロック図である。図１に示す物体検出装置１００は、画像入力装置１１０と、データ処理部１２０と、データ記憶部１３０と、物体検出結果出力装置１４０とを備える。

画像入力装置１１０は、スチルカメラやビデオカメラといった撮像システムで撮影した画像をシーン帰属度算出手段１２１に入力する。

また、データ処理部１２０は、シーン帰属度算出手段１２１と、物体生起確率算出手段１２２と、物体検出手段１２３とを含む。データ処理部１２０は、例えば、プログラムに従って動作するＣＰＵによって実現される。なお、図１では、シーン帰属度算出手段１２１、物体生起確率算出手段１２２、物体検出手段１２３が１つのデータ処理部１２０によって実現される例を示しているが、各手段はそれぞれ別々のユニットとして実現することも可能である。

また、データ記憶部１３０は、シーン特徴記憶部１３１と、物体生起情報記憶部１３２と、物体撮影情報記憶部１３３とを含む。データ記憶部１３０は、メモリ等の記憶装置によって実現される。なお、図１では、シーン特徴記憶部１３１、物体生起情報記憶部１３２、物体撮影情報記憶部１３３が１つのデータ記憶部１３０によって実現される例を示しているが、各記憶部はそれぞれ別々のユニットとして実現することも可能である。

シーン帰属度算出手段１２１は、入力された画像から特徴を抽出する。シーン帰属度算出手段１２１は、抽出した特徴とシーン特徴記憶部１３１に格納されているシーン毎の特徴と照合して、その画像がどのようなシーン（場面、舞台等）を撮影したものか判断する。すなわち、シーン帰属度算出手段１２１は、その画像がどのシーンに属しているかを割合で表した帰属度を算出する。シーン特徴記憶部１３１は、シーン毎の特徴を示す情報として、シーンを記述する特徴ベクトル群を格納している。これらの特徴ベクトルは、あらかじめシーンと対応付けされている。シーン帰属度算出手段１２１は、ある画像から抽出された特徴ベクトルと、シーンと対応付けされた特徴ベクトルとの照合を行うことで、シーン帰属度を算出する。

物体生起確率算出手段１２２は、シーン帰属度算出手段１２１によって算出されたシーンの帰属度と、物体生起情報記憶部１３２に格納されているシーン毎の物体生起情報とに基づいて、入力画像に対する物体の生起確率を算出する。物体生起情報記憶部１３２は、シーン毎に生起する物体の情報、すなわちシーン毎の物体生起情報を格納している。

物体撮影情報記憶部１３３は、シーン毎に物体が撮影時にどのような位置や大きさで撮影される傾向にあるかを示す物体撮影情報を格納している。物体撮影情報は、例えば、シーンごとの撮影画像に出現しやすい物体の位置や大きさといった撮影画像において物体が出現しやすい領域を示す情報である。物体撮影情報は、統計的な情報であることが好ましい。なお、物体撮影情報は、出現する物体の位置や大きさといった物体の出現しやすい領域の範囲等を直接に示す情報に限られない。物体撮影情報は、例えば、物体にありそうな色の情報であってもよい。このような場合には、物体にありそうな色を元に検出領域を決定すればよい。

物体検出手段１２３は、物体撮影情報記憶部１３３に格納されている物体撮影情報に基づいて、入力画像に適用する検出領域を設定する。物体検出手段１２３は、物体検出器を用いて入力画像の検出領域を走査し、検出結果を信頼度として算出する。なお、ここでいう信頼度とは、入力画像の検出領域に含まれる判定単位とされた各領域について、当該領域に写っているものが検出対象の物体である信頼度である。さらに、物体検出手段１２３は、物体生起確率算出手段１２２によって算出された入力画像に対する物体の生起確率と、算出した信頼度とに基づいて、入力画像における物体位置尤度を求める。

物体検出結果出力装置１４０は、物体検出手段１２３によって物体位置尤度が一定値以上とされた領域を物体検出結果と決定する。そして、物体検出結果出力装置１４０は、その物体検出結果をディスプレイ等の表示デバイスに出力する。

次に、本実施形態の動作を説明する。図２は、本実施形態の動作の一例を示すフローチャートである。

まず、画像入力装置１１０は、スチルカメラやビデオカメラから取得した画像やＷＥＢに投稿された画像を取得し、シーン帰属度算出手段１２１にその画像を入力する（ステップＳ１）。

シーン帰属度算出手段１２１は、入力画像から特徴抽出を行い、シーンを識別するための特徴ベクトルを生成する（ステップＳ２）。そして、シーン帰属度算出手段１２１は、生成した特徴ベクトルをシーン特徴記憶部１３１に格納されているシーン毎の特徴ベクトルと照合し、入力画像がどのようなシーンに属しているかを割合で表した帰属度を算出する（ステップＳ３）。

例えば、入力画像から生成した特徴ベクトルとシーンＡの特徴ベクトルとの距離をＬＡ、シーンＢとの特徴ベクトルとの距離をＬＢとする。このとき、シーン帰属度算出手段１２１は、シーンＡへの入力画像の帰属度をＬＡ／（ＬＡ＋ＬＢ）と算出し、シーンＢへの入力画像の帰属度をＬＢ／（ＬＡ＋ＬＢ）と算出する。

特徴ベクトルとして、ＳＩＦＴ（Scale-Invariant Feature Transform ）やＨＯＧ（Histograms of Oriented Gradients）といった特徴を利用してもよい。例えば、クラスタリング手法を用いて数百程度の代表特徴を算出し、代表特徴をビン（階級）とするヒストグラム表現で示したものを特徴ベクトルとして用いてもよい。シーン特徴記憶部１３１にはシーンに対応付けされた特徴ベクトルが格納されているので、入力画像から算出された特徴ベクトルと照合することで、各シーンへの帰属度Ｐｒ（Ｓｊ｜Ｉ）を算出する。照合方法は、特徴ベクトル間のヒストグラムマッチングでもよいし、ＳＶＭ（Support vector machine）といった識別器を用いた学習による照合でもよい。

物体生起確率算出手段１２２は、シーン帰属度算出手段１２１で算出したシーンへの帰属度Ｐｒ（Ｓｊ｜Ｉ）と、物体生起情報記憶部１３２に格納されている、シーンごとに存在する物体の生起情報から、入力画像に対する物体の生起確率Ｐｒ（Ｏ_ｉ｜Ｉ）を以下の式（１）に基づいて算出する（ステップＳ４）。ここでは生起情報として、各シーンにおける各物体の生起確率Ｐｒ（Ｏ_ｉ｜Ｓ_ｊ）を用いている。なお、式（１）において、係数ｉは物体種類数を表し、係数ｊはシーン種類数を表している。

また、物体検出手段１２３は、シーン毎に出現する物体の位置や大きさといった物体撮影情報を格納している物体撮影情報記憶部１３３を参照して、画像領域内での物体の出現しやすさを表す物体の存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）を以下の式（２）に基づいて算出する（ステップＳ５）。このとき、算出した物体の存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）を基に物体検出器の検出領域を決定してもよい。例えば、物体の存在位置確率が０％または所定のしきい値未満である領域を検出領域から除外するようにしてもよい。ここで検出領域を限定すれば、物体検出器の検出処理の処理時間を短縮させることができる。

次いで、物体検出手段１２３は、物体検出器を用いて画像を走査し、画像中の物体位置を信頼度Ｐｒ_{ｄｅｔｅｃｔｏｒ}（ＰｏｓＯ_ｉ｜Ｉ）として算出する（ステップＳ６）。物体検出手段１２３は、物体の画像領域内での存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）、入力画像に対する物体の生起確率Ｐｒ（Ｏｉ｜Ｉ）と共に、物体位置尤度Ｐｒ（ＰｏｓＯ_ｉ｜Ｉ）を式（３）に基づいて算出する（ステップＳ７）。

物体検出結果出力装置１４０は、算出した物体位置尤度に対して閾値を設定することで物体位置を決定する。そして、物体検出結果出力装置１４０は、決定した物体位置をディスプレイ等の表示デバイスに出力する。

次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。

まず、データ記憶部１３０に格納しているデータの生成方法を説明する。シーン特徴記憶部１３１は、あらかじめ識別対象としたいシーンを含む画像から特徴抽出が行われたシーンを識別するための辞書を記憶する。

例えば、「街」「紅葉」「オフィス」「公園」「室内」「山」「浜辺」のシーンに分類した画像群からＳＩＦＴ特徴が抽出される。全画像から抽出された特徴から、Ｋ−ｍｅａｎｓといったクラスタリング手法を用いて、クラスタ中心を代表の特徴ベクトルとする代表特徴ベクトルが算出される。そして、ビンに代表特徴ベクトルを用いたヒストグラムを画像ごとに生成する。ヒストグラムのビン数は認識率が高くなるように実験により数を決定してもよい。

次に、シーンを識別するための辞書を生成する。生成したヒストグラムを用いてシーン識別を行うため、ＳＶＭを用いてヒストグラムを学習し、学習結果のサポートベクターを辞書としてシーン特徴記憶部１３１に格納する。なお、ここでは、識別器にＳＶＭを用いたが、識別器は、ＳＶＭに限定されるものではない。ヒストグラム間の距離でシーンを識別してもよい。その場合、ヒストグラムを辞書としてシーン特徴記憶部１３１に格納する。

物体生起情報記憶部１３２は、あらかじめシーンごとに、そのシーンに存在する物体の生起情報を記憶する。例えば、生起情報として生起確率を算出し、その結果を物体生起情報記憶部１３２に格納してもよい。生起確率は、（シーン中にある物体が含まれる枚数）／（全シーン枚数）で表される。

例えば、あらかじめシーンについて分類した「街」画像１００枚中に、「車」「バイク」「建物」「人」「道路」「木」「机」が含まれている画像がそれぞれ、２５枚、５枚、４枚、５枚、１５枚、１枚、０枚であったとする。この場合、「街」シーンにおける各物体の生起確率は、０．２５、０．０５、０．０４、０．０５、０．１５、０．０１、０となる。同様にして他のシーンについても物体の生起確率が算出される。例えば、シーン「街」（Ｓ_１）、シーン「紅葉」（Ｓ_２）についての各物体Ｏ_ｉの生起確率Ｐｒ（Ｏ_ｉ｜Ｓ_１）、Ｐｒ（Ｏ_ｉ｜Ｓ_２）が図３のように格納される。図３（ａ）は生起情報を求める物体の一例を示す説明図であり、（ｂ）は生起情報を求めるシーンの一例を示す説明図であり、（ｃ）はシーンＳ_１、Ｓ_２についての各物体の生起確率の一例を示す説明図である。なお、物体生起情報記憶部１３２は、物体ＩＤと物体名とを含む物体一覧と、シーンＩＤとシーン分類名とを含むシーン一覧と、一覧にある各シーンについての各物体の生起確率とを記憶してもよい。

また、物体生起情報記憶部１３２は、生起情報として、シーン中に当該物体が含まれる枚数を記憶してもよい。このようにすることで、物体生起情報記憶部１３２は、シーン中に当該物体が含まれる枚数のみを加算するだけでよく、追加が頻繁に発生する場合の確率の再計算時間を抑えることができる。なお、この場合、生起確率を、実行時に一度だけ物体生起確率算出手段１２２が求めてもよい。

また、生起情報が、シーン中に物体が含まれるかどうかに加えて、その物体の個数を重み付けとする情報を含んでいてもよい。例えば、あらかじめシーンについて分類した「街」画像１００枚中に「車」が含まれている画像が１枚であったとする。なお、その１枚の画像に含まれている「車」の台数は９台である。一方で、シーン「公園」として分類された画像１００枚中に「車」が含まれている画像も１枚であったとする。なお、その１枚の画像に含まれている「車」の台数は１台である。そのような場合、物体の生起確率は（シーン中に当該物体が含まれる枚数）／（全シーン枚数）で算出されるため、シーン「街」およびシーン「公園」はともに同じ生起確率（０．０１）になる。さらに、車の台数を考慮して、シーン「街」の生起確率をシーン「公園」の生起確率の９倍としてもよい。

物体撮影情報記憶部１３３は、画像中に物体がどの位置や大きさで撮影されているかといった物体撮影情報を格納している。例えば、シーン「街」において、「車」が画像の中央部を中心に位置する場合、物体撮影情報Ｐｒ（ＰｏｓＯ_１｜Ｓ_１）は、図４のように表現される。

図４は、画像上での「車」の位置を表しており、色が濃くなるほど「車」が存在しやすい領域を示している。なお、図４では物体の位置情報として、シーン「街」の場合に「車」が存在する確率を画像平面上の模様で表している。実際には、このような画像平面上の確率を配列のデータに変換して物体撮影情報として格納する。例えば、図５に示すように、１００×１００の配列を用意し、画面平面状の各位置に「車」が存在する確率を各配列の成分と対応させる。そして、この配列を、シーン「街」の場合に画面平面上の各位置において「車」が存在する確率Ｐｒ（ＰｏｓＯ_１｜Ｓ_１）を示すデータとして用いてもよい。そのような場合には、各成分の値にはその成分が対応する位置に物体が存在する確率を保持すればよい。また、図６は、画像平面上の存在確率と配列データとの対応関係を示す説明図である。図６に示すように、配列データでは配列の中心付近に確率０．９が設定されていることから、画像では、シーン「街」の場合に中心付近に「車」が０．９（９０％）の確率で存在することがわかる。

なお、物体撮影情報には、このような位置情報以外に、物体を検出するための矩形領域の大きさを示す情報を含んでいてもよい。

次に、ユーザにより撮影された画像（入力）から物体を検出する動作を説明する。以下では、図７に示す画像が入力された場合を例に説明する。なお、図７に示す画像は白黒表示となっているが、実際はカラー表示であるとする。

まず、シーン帰属度算出手段１２１は、シーン特徴記憶部１３１に格納されている特徴ベクトルを生成した場合と同様の処理を入力画像に対して行う。つまり、シーン帰属度算出手段１２１は、入力画像から前述のＳＩＦＴ特徴を抽出し、ビンに代表特徴ベクトルを用いたヒストグラムを、シーンを記述する特徴ベクトルとして生成する。特徴ベクトルが識別器に入力されることにより、各シーンに対する帰属度が算出される。図８は、本例における入力画像に対するシーン帰属度の算出結果の一例を示す説明図である。図８に示すように、ここでは、シーン「街」（Ｓ_１）に対する帰属度として０．８が求まり、シーン「紅葉」（Ｓ_２）に対する帰属度として０．０１が求まり、シーン「オフィス」（Ｓ_３）に対する帰属度として０．０２が求まり、シーン「公園」（Ｓ_４）に対する帰属度として０．０４が求まり、シーン「室内」（Ｓ_５）に対する帰属度として０．０５が求まり、シーン「山」（Ｓ_６）に対する帰属度として０．０５が求まり、シーン「浜辺」（Ｓ_７）に対する帰属度として０．０３が求まったものとする。

次に、物体生起確率算出手段１２２は、算出された各シーンの帰属度を基に、シーンごとの物体生起確率から画像中に含まれる物体の生起確率を上述の式（１）に基づいて算出する。例えば、シーン毎の物体生起確率が図３（ｃ）のように与えられたとする。この場合、シーン「街」（Ｓ_１）に対する帰属度Ｐｒ（Ｓ_１｜Ｉ）は０．８であり（図８参照。）、シーン「街」（Ｓ_１）における「車」（Ｏ_１）の生起確率Ｐｒ（Ｏ_１｜Ｓ_１）は０．２５（図３（ｃ）参照。）である。よって、当該入力画像が街のシーンであると仮定した場合の当該画像（街）における「車」（Ｏ_１）の生起確率は、０．８＊０．２５＝０．２となる。同様に、シーン「紅葉」（Ｓ_２）に対する帰属度Ｐｒ（Ｓ_２｜Ｉ）は０．０１であり、シーン「紅葉」（Ｓ_２）における「車」（Ｏ_１）の生起確率Ｐｒ（Ｏ_１｜Ｓ_２）は０．０１である。よって、当該入力画像が紅葉のシーンであると仮定した場合の当該画像（紅葉）における「車」（Ｏ_１）の生起確率は、０．０１＊０．０１＝０．０００１となる。このように、物体生起確率算出手段１２２は、すべてのシーンについて各物体の生起確率を算出した後、式（１）に基づき正規化を行うことで、入力画像に対する各物体の生起確率を算出する。図９は、入力画像に対する各物体の生起確率の算出結果の一例を示す説明図である。

なお、図９では、入力画像に対する「車」（Ｏ_１）の生起確率Ｐｒ（Ｏ_１｜Ｉ）として０．３が求まり、入力画像に対する「バイク」（Ｏ_２）の生起確率Ｐｒ（Ｏ_２｜Ｉ）として０．２が求まり、入力画像に対する「建物」（Ｏ_３）の生起確率Ｐｒ（Ｏ_３｜Ｉ）として０．２が求まり、入力画像に対する「人」（Ｏ_４）の生起確率Ｐｒ（Ｏ_４｜Ｉ）として０．１が求まり、入力画像に対する「道路」（Ｏ_５）の生起確率Ｐｒ（Ｏ_５｜Ｉ）として０．１５が求まり、入力画像に対する「木」（Ｏ_６）の生起確率Ｐｒ（Ｏ_６｜Ｉ）として０．０５が求まり、入力画像に対する「机」（Ｏ_７）の生起確率Ｐｒ（Ｏ_７｜Ｉ）として０が求まった例を示している。

次に、物体検出手段１２３は、物体撮影情報記憶部１３３に格納されている物体撮影情報を参照して、上述の式（２）に基づき物体検出器で走査する検出領域を決定する。なお、物体の大きさ情報がある場合、物体検出手段１２３は、物体検出器を適用する大きさも同時に決定してもよい。

例えば、物体撮影情報として図４に示すような、シーンごとの物体の位置情報として、画像平面上の存在確率が与えられたとする。この場合、式（２）の左辺の分子は、それら各確率に、その物体のシーン帰属度を掛けることで算出される。図１０は、入力画像「街」に対する「車」の存在位置確率の算出例を示す説明図である。図１０に示す例では、物体検出手段１２３は、入力画像「街」に対する「車」の位置を示す確率、すなわち入力画像がシーン「街」である場合に「車」がどこに存在しそうかを表す存在位置確率を算出している。具体的には、物体検出手段１２３は、物体撮影情報に含まれるシーン「街」における「車」の存在位置確率Ｐｒ（ＰｏｓＯ_１｜Ｓ_１）と、入力画像のシーン「街」（Ｓ_１）に対する帰属度Ｐｒ（Ｓ_１｜Ｉ）＝０．８とを乗算して存在位置確率を求めている。同様に、物体検出手段１２３は、入力画像「紅葉」に対する「車」の位置を示す確率、入力画像「オフィス」に対する「車」の位置を示す確率、・・・、入力画像「街」における「バイク」の位置を表す確率、・・・、入力画像「浜辺」における「机」位置を表す確率など、各物体について全てのシーンについて存在しそうな位置を算出する。その後、物体検出手段１２３は、分母の算出結果をもとに正規化を行うことで、入力画像における物体の出現位置分布として、各物体の画像領域内での存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）を求める。

次いで、物体検出手段１２３は、物体検出を実行する。図１１は、物体検出方法の例および物体検出器による検出結果の例を示す説明図である。図１１に示すように、本例では、物体検出器に入力画像を矩形領域αを用いて走査させることによって、矩形領域αに対して「車」らしさの値を示す確率を得る。このとき、図１１に示すように、物体検出の精度によっては誤検出が発生する場合がある。

物体検出結果が得られると、物体検出手段１２３は、式（３）を用いて、物体検出結果に対して、入力画像に対する物体の生起確率Ｐｒ（Ｏｉ｜Ｉ））と、画像領域内の各領域での物体の出現しやすさを表した物体の存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）とを適用し、物体ごとに画像中の物体位置尤度を算出する。すなわち、その画像内の領域について対象物体が存在している確からしさを算出する。図１２は、入力画像に対する「車」についての物体位置尤度の算出例を示す説明図である。なお、図１２では、配列のデータの正しい計算結果は図示省略しているが、最終的には上段に示す図のような結果が得られる。本例では、算出した物体位置尤度に対して閾値を設定し、閾値以上の尤度を持つ領域を物体検出結果とする。

また、図１３は、物体「車」「人」「机」について、物体検出器による検出結果と本実施形態によって求めた物体位置尤度による物体検出結果とを比較した例を示す説明図である。図１３に示す例では、左側に物体検出器による各物体の検出結果を示し、右側に本実施形態で求める物体の物体位置尤度による各物体の検出結果を示している。図１３に示す例では、各物体の物体位置尤度に基づき、各物体について閾値以上の尤度を持つ領域をその物体が検出された領域として示している。

図１３にも示すように、本実施形態によれば、物体検出器のみの結果で発生していた、出現しにくい場所での誤検出を低減することができる。また、本実施形態によれば、検出対象とする物体が限定されないので、ユーザが特に制約なく撮影した画像中から物体を精度よく検出することができる。

すなわち、本実施形態では、撮影画像からシーン帰属度を算出し、シーンに含まれる物体の生起情報や、シーン毎に出現する物体の位置や大きさといった統計的な情報（物体撮影情報）を用いて、検出対象物体や検出対象領域を設定または重み付けをしている。これにより、同じ物体でもシーンによって好適な矩形領域や検出領域を設定したのと同様の状態で物体検出を行うことができ、物体検出精度の向上、誤検出の低下が可能になる。また、統計的な情報に基づくため、ユーザが撮影した一般的な静止画に対しても、自動で矩形領域サイズや検出領域を算出することが可能になる。

また、図１４は、物体検出結果の他の表示例を示す説明図である。物体検出結果の表示としては、例えば、図１４に示すように、各各物体の検出結果領域を統合させて画像全体における物体の検出結果にして表示してもよい。なお、図１４に示す例では、図１３に示した各物体の物体検出結果から、画像全体における物体の検出結果として「車」と「人」のみが検出されたものとして物体検出結果を表示している。

なお、上記説明では、物体検出器の検出結果に対して、統計情報に基づき算出した物体の生起確率と出現位置分布とを適用する例を示したが、物体の生起確率のみを適用して物体位置尤度を求めるといった実施形態も可能である。物体生起確率算出手段１２２によって算出される入力画像に対する物体生起確率を適用した場合には、例えば、シーンによっては物体が存在しえない画像から誤って検出された物体を検出結果から除外することができる。なお、物体の生起確率のみを適用する場合には、物体撮影情報記憶部１３３を省略してもよい。

実施形態２．
次に、本発明の第２の実施形態について説明する。図１５は、本発明の第２の実施形態の物体検出装置の構成例を示すブロック図である。図１５に示すように、本実施形態の物体検出装置は、図１に示す第１の実施形態と比べて、データ処理部１２０が、さらに検出優先度算出手段１２４を備える点が異なる。

検出優先度算出手段１２４は、物体検出器が検出する物体や領域の優先度を算出する。処理時間が限られた環境では、効率よく画像中から物体を検出する必要がある。そのため、検出優先度算出手段１２４は、与えられた条件に合致するよう、検出対象とする物体や検出領域に対して優先度を算出して、必要に応じて検出対象とする物体や検出領域を限定する設定を行う。

検出処理時間は、検出物体数と検出対象領域の大きさに比例する。そのため、検出処理時間が決まっている場合には、検出優先度算出手段１２４は、検出物体数の割合を設定した後で、検出対象領域を検出処理時間と検出物体数とから算出する。今、検出物体数の割合を８０％と設定したとする。この場合、図９に示す例では、画像中に含まれる物体の生起確率の高い順から「車」「バイク」「建物」が検出対象物体となる。さらに、検出優先度算出手段１２４は、指定した検出処理時間に収まるまで、各物体の画像領域内での存在位置確率Ｐｒ_ａｒｅａ（ＰｏｓＯ_ｉ｜Ｉ）に基づき、存在位置確率が高い領域から順に検出対象領域を選定する。なお、本実施形態では、物体検出手段１２３に代わり、検出優先度算出手段１２４が各物体の画像領域内での存在位置確率を求める。

例えば、処理時間上、４つの要素（領域）しか処理できないとする。この場合、検出優先度算出手段１２４は、物体の存在位置確率の高い値を持つ要素での位置（例えば、図１６の領域β）についてのみ、物体検出結果Ｐｒ_{ｄｅｔｅｃｔｏｒ}（ＰｏｓＯ_ｉ｜Ｉ）を算出するようにする。なお、検出対象物体と検出領域を求めた後の処理は、第１の実施形態と同じである。なお、検出領域を限定した場合、物体検出手段１２３は、限定された検出領域の検出結果に対して、同様に領域を限定した出現位置分布を適用することにより、その領域のみの物体位置尤度Ｐｒ_{ｄｅｔｅｃｔｏｒ}（ＰｏｓＯ_ｉ｜Ｉ）を算出する。図１６は、検出領域を限定した場合の算出例を示す説明図である。

第２の実施形態では、検出優先度算出手段１２４が、処理時間に収まる検出対象物体数や検出領域を統計情報から算出する。このため、処理時間が限られた環境でも精度のよい物体検出を行うことができる。

次に、本発明の概要を説明する。図１７は、本発明の概要を示すブロック図である。図１７に示す物体検出装置は、シーン帰属度算出手段２０１と、物体生起確率算出手段２０２と、物体検出手段２０３とを備えている。

シーン帰属度算出手段２０１は、画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する。シーン帰属度算出手段２０１は、上記実施形態では、例えば、シーン帰属度算出手段１２１として開示されている。

物体生起確率算出手段２０２は、シーン毎に物体の生起確率を示す物体生起情報と、シーン帰属度算出手段２０１によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する。物体生起確率算出手段２０２は、上記実施形態では、例えば、物体生起確率算出手段１２２として開示されている。

物体検出手段２０３は、物体生起確率算出手段２０２によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する。物体検出手段２０３は、上記実施形態では、例えば、物体検出手段１２３として開示されている。

例えば、物体検出手段２０３は、物体検出器（図示省略）から得られる検出結果に、物体生起確率算出手段２０２によって算出された入力画像に対する物体の生起確率を反映させて、入力画像内の各領域において対象物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出してもよい。

例えば、物体生起情報が示すシーン毎の物体の生起確率は、予めシーン別に分類された撮影画像に含まれる物体数に基づいて算出された情報であってもよい。

また、物体生起確率算出手段２０２は、入力画像に対して、すべてのシーンについての物体の生起確率を算出し、算出されたすべてのシーンについての物体の生起確率を基に、入力画像に対する物体の生起確率を算出してもよい。

また、図１８は、本発明による物体検出装置の他の構成例を示すブロック図である。図１８に示すように、物体検出装置は、さらに、物体出現位置分布算出手段２０４や、検出優先度算出手段２０５を備えていてもよい。

物体出現位置分布算出手段２０４は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布を算出する。物体出現分布算出手段２０４は、上記実施形態では、例えば、物体検出手段１２３の一機能として開示されている。

例えば、物体撮影情報は、予め分類されたシーン毎に、当該シーンで撮影された画像において物体が出現しやすい位置および大きさを示す情報であってもよい。

また、物体出現位置分布算出手段２０４を備える構成において、例えば、物体検出手段２０３は、さらに物体出現位置分布算出手段２０４によって算出された入力画像における物体の出現位置分布を用いて、入力画像から物体を検出してもよい。

また、例えば、物体検出手段２０３は、物体出現位置分布算出手段２０４によって算出された入力画像における物体の出現位置分布に基づいて検出対象領域を決定し、物体検出器から得られる検出対象領域に対する検出結果に、入力画像に対する物体の生起確率を反映させることによって、入力画像から物体を検出してもよい。

また、物体出現位置分布算出手段２０４は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布として、入力画像の各領域に対する物体の存在位置確率を算出してもよい。そのような場合には、物体検出手段２０３は、物体検出器から得られる入力画像に対する検出結果に、入力画像に対する物体の生起確率と、入力画像の各領域に対する物体の存在位置確率とを反映させて、入力画像の各領域において物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出してもよい。

また、検出優先度算出手段２０５は、物体生起確率算出手段２０２によって算出された入力画像に対する物体の生起確率に基づいて、検出対象とする物体の優先度を設定する。

また、検出優先度算出手段２０５は、物体検出処理にかかる時間が所定の時間内に収まるように、検出対象とする物体を設定するとともに、入力画像のシーン帰属度と撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて算出される入力画像の各領域に対する物体の存在位置確率に基づいて検出対象領域を設定してもよい。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１０年１０月６日に出願された日本特許出願２０１０−２２６７２５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明を、画像から所望の物体を検出する物体検出装置や、物体検出装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、本発明を、物体検出機能を用いて、画像中の物体に応じてフォーカスを変更したり、物体毎に画像処理を行う用途にも適用できる。

１００物体検出装置
１１０画像入力装置
１２０データ処理部
１２１シーン帰属度算出手段
１２２物体生起確率算出手段
１２３物体検出手段
１２４検出優先度算出手段
１３０データ記憶部
１３１シーン特徴記憶部
１３２物体生起情報記憶部
１３３物体撮影情報記憶部
１４０物体検出結果出力装置
２０１シーン帰属度算出手段
２０２物体生起確率算出手段
２０３物体検出手段
２０４物体出現位置分布算出手段
２０５検出優先度算出手段

Claims

画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出するシーン帰属度算出手段と、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する物体生起確率算出手段と、
前記物体生起確率算出手段によって算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する物体検出手段とを備えた
ことを特徴とする物体検出装置。
入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布を算出する物体出現位置分布算出手段を備え、
物体検出手段は、さらに前記物体出現位置分布算出手段によって算出された入力画像における物体の出現位置分布を用いて、入力画像から物体を検出する
請求項１に記載の物体検出装置。
物体検出手段は、物体出現位置分布算出手段によって算出された入力画像における物体の出現位置分布に基づいて検出対象領域を決定し、物体検出器から得られる検出対象領域に対する検出結果に、入力画像に対する物体の生起確率を反映させることによって、入力画像から物体を検出する
請求項２に記載の物体検出装置。
物体出現位置分布算出手段は、入力画像のシーン帰属度と、撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて、入力画像における物体の出現位置分布として、入力画像の各領域に対する物体の存在位置確率を算出し、
物体検出手段は、物体検出器から得られる入力画像に対する検出結果に、入力画像に対する物体の生起確率と、入力画像の各領域に対する物体の存在位置確率とを反映させて、入力画像の各領域において物体が存在している確からしさを表す物体位置尤度を算出することによって、入力画像から物体を検出する
請求項２に記載の物体検出装置。
物体生起情報が示すシーン毎の物体の生起確率は、予めシーン別に分類された撮影画像に含まれる物体数に基づいて算出された情報である
請求項１から請求項４のうちのいずれか１項に記載の物体検出装置。
物体生起確率算出手段は、入力画像に対して、すべてのシーンについての物体の生起確率を算出し、算出されたすべてのシーンについての物体の生起確率を基に、入力画像に対する物体の生起確率を算出する
請求項１から請求項５のうちのいずれか１項に記載の物体検出装置。
物体生起確率算出手段によって算出された入力画像に対する物体の生起確率に基づいて、検出対象とする物体の優先度を設定する検出優先度算出手段を備えた
請求項１から請求項６のうちのいずれか１項に記載の物体検出装置。
検出優先度算出手段は、物体検出処理にかかる時間が所定の時間内に収まるように、検出対象とする物体を設定するとともに、入力画像のシーン帰属度と撮影画像において物体が出現しやすい領域をシーン毎に示す情報である物体撮影情報とに基づいて算出される入力画像の各領域に対する物体の存在位置確率に基づいて検出対象領域を設定する
請求項７に記載の物体検出装置。
画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出し、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出し、
算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する
ことを特徴とする物体検出方法。
コンピュータに、
画像が撮影されるシーンと対応づけられた当該シーンで撮影された画像の特徴を示す情報と、入力画像から抽出される特徴とに基づいて、入力画像がどのシーンに属しているかを割合で表した情報であるシーン帰属度を算出する処理、
シーン毎に物体の生起確率を示す物体生起情報と、前記シーン帰属度算出手段によって算出された入力画像のシーン帰属度とに基づいて、入力画像に対する物体の生起確率を算出する処理、および
算出された入力画像に対する物体の生起確率を用いて、入力画像から物体を検出する処理
を実行させるための物体検出プログラム。