WO2013118218A1

WO2013118218A1 - 画像認識装置、画像認識方法、プログラムおよび集積回路

Info

Publication number: WO2013118218A1
Application number: PCT/JP2012/007582
Authority: WO
Inventors: 健一矢谷; 亮一川西; 上野山　努; 小沼　知浩
Original assignee: パナソニック株式会社
Priority date: 2012-02-09
Filing date: 2012-11-27
Publication date: 2013-08-15
Also published as: CN103348381A; US20140112530A1; JPWO2013118218A1; US9082013B2; CN103348381B; JP6014037B2

Abstract

　画像認識装置は、画像内から第１物体を認識する第１認識手段と、認識された第１物体の属性を示す属性情報を算出する算出手段と、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、を備える。

Description

画像認識装置、画像認識方法、プログラムおよび集積回路

　本発明は、画像内の物体を認識する画像認識装置に関するものである。

　従来から、画像内の物体を認識する技術が知られている（例えば、特許文献１，２，３参照）。

　ここで、物体の精度認識は物体によって異なる。例えば、画像の物体認識手法のコンテストであるPASCAL Visual Object Classes Challenge (VOC2011)の結果（非特許文献１参照）によれば、２０種類の物体のうちの低いものでは、認識精度は６割程度に留まる。

特開２００８－１３９９４１号公報特許第４６２４５９４号公報特許第４６８７３８１号公報

PASCAL Visual Object Classes Challenge (VOC2011)、［online］、［2012年10月10日検索］、インターネット<URL:http://pascallin.ecs.soton.ac.uk/challenges/VOC/voc2011/workshop/voc#cls.pdf>

　上述のように、物体によっては認識精度が低いものがあり、認識精度の向上が望まれる。

　そこで、本発明は、認識の精度の向上に寄与できる画像認識装置を提供することを目的とする。

　上記課題を解決するために、本発明に係る画像認識装置は、画像内から第１物体を認識する第１認識手段と、認識された第１物体の属性を示す属性情報を算出する算出手段と、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、を備えることを特徴とする。

　課題を解決するための手段に記載した構成によれば、第１物体の属性情報に基づき、第２物体を示す識別子を特定することにより第２認識手段における処理の対象を特定する。また、特定された第２物体を示す識別子に対応する領域の特定に用いる値を用いて、第２認識手段による処理の対象となる第２領域を特定する。これらの特定によれば、物体の認識精度の向上に寄与し得る。

実施の形態１における、画像認識装置１００の機能ブロック図実施の形態１における、画像認識装置１００の全体動作の一例を示すフローチャート実施の形態１における、検出された基準物体の属性を算出する処理の一例を示すフローチャート実施の形態１における、探索物体を特定する処理の一例を示すフローチャート実施の形態１における、探索領域を特定する処理の一例を示すフローチャート実施の形態１における、探索物体の認識を行う処理の一例を示すフローチャート画像管理情報の一例を示す図人領域管理情報の一例を示す図属性管理情報の一例を示す図実施の形態１における属性・物体対応情報の一例を示す図実施の形態１における探索物体管理情報の一例を示す図実施の形態１における物体・大きさ対応情報の一例を示す図実施の形態１における物体・探索領域種別対応情報の一例を示す図実施の形態１における探索領域パラメータ情報の一例を示す図探索領域管理情報の一例を示す図物体認識管理情報の一例を示す図物体・探索領域パラメータ情報の一例を示す図顔領域および人領域の一例を示す図探索領域種別が手の場合の探索領域の一例を示す図探索領域種別が足の場合の探索領域の一例を示す図探索領域種別が左隣の場合の探索領域の一例を示す図探索領域種別が右隣の場合の探索領域の一例を示す図探索物体がブーケの場合の探索領域の一例を示す図実施の形態１における入力画像の一例を示す図実施の形態２における、画像認識装置２５００の機能ブロック図実施の形態２における、探索物体を特定する処理の一例を示すフローチャート実施の形態２における、探索領域を特定する処理の一例を示すフローチャート実施の形態２における属性・物体対応情報の一例を示す図実施の形態２における探索物体管理情報の一例を示す図実施の形態２における物体・大きさ対応情報の一例を示す図実施の形態２における物体・探索領域種別対応情報の一例を示す図実施の形態２における探索領域パラメータ情報の一例を示す図２人の前方の探索領域種別の一例を示す図２人の間の探索領域種別の一例を示す図実施の形態２における入力画像の一例を示す図実施の形態３における、画像認識装置３６００の機能ブロック図実施の形態３における、画像蓄積装置１１０から入力された画像に基づいて、物体を認識するフローチャート実施の形態３における、撮影イベントを特定する処理の一例を示すフローチャート実施の形態３における、探索領域を特定する処理の一例を示すフローチャートイベント条件情報の一例を示す図撮影イベント管理情報の一例を示す図属性・イベント・物体対応情報の一例を示す図実施の形態３における入力画像の一例を示す図物体・場面情報、認識結果情報の一例を示す図基準物体が車の場合の、属性管理情報４５０１および物体・探索領域種別対応情報４５０２の例を示す図物体認識結果の利用形態の例を示す図機器とクラウドサーバーとを連携させる例を示す図物体認識処理の結果の表示例を示す図変形例における探索領域を特定する処理の一例を示すフローチャート図４９のＳ４９０２の処理を説明するための図

（実施の形態１）
　＜実施の形態１に至った経緯＞
　画像内から物体を認識する場合においては、認識すべき物体を特に制約せずに雑多な物体毎に物体認識を繰り返すというような総当たり的な手法も考えられる。もっとも、このような手法では、処理の効率が良くない上、画像にそぐわない物体の誤認識を招くことがある。

　そこで、本実施の形態においては、画像内の人を検出すると、その人の属性情報を算出する。そして、予め記憶している属性情報と探索対象とする物体との対応関係を参照して、算出された属性情報に対応する探索対象の物体を特定する。

　これにより、画像内の人の属性情報に応じた適切な物体を探索対象として特定し、物体の認識精度の向上を図る。

　また、探索対象の物体の特定後には、予め記憶している探索対象とする物体と人の領域に基づいて探索すべき領域を特定するためのパラメーターを参照して、探索すべき領域を特定する。

　このような領域の特定により、領域外において対象物体と似た画像特徴量を持つ部分を対象物体と誤認識することを防ぎ、もって物体の認識精度の向上を図る。

　以下、実施の形態１における画像認識装置について、図面を参照しながら説明する。

　＜構成＞
　図１は、画像認識装置１００の機能ブロック図である。

　画像認識装置１００は、画像蓄積装置１１０と、例えばＵＳＢ（Universal Serial Bus）ケーブルのようなケーブルを介して接続されている。

　画像蓄積装置１１０は、撮影された画像を蓄積する機能を有する装置である。また、蓄積機能のみならず画像を撮影する機能を備えていても構わない。このような画像蓄積装置１１０は、例えば、ハードディスクや、デジタルスチルカメラ等から構成される。

　次に、画像認識装置１００の内部構成について説明する。

　図１に示すように、画像認識装置１００は、画像取得部１０１、基準物体検出部１０２、属性算出部１０３、探索物体特定部１０４、探索領域特定部１０５および物体認識部１０６から構成される。

　画像取得部１０１は、画像蓄積装置１１０が蓄積している画像を取得し、取得した画像をそれぞれ固有の画像ＩＤと対応づけて画像管理情報記憶部１２０に記憶させる。画像取得部１０１は、例えば、ＵＳＢケーブルを挿入するためのＵＳＢポートおよびＵＳＢドライバ等のインターフェイスを制御するソフトウェアから構成される。

　基準物体検出部１０２は、画像において、認識処理の基準となる物体を検出する。具体的には、画像取得部１０１が取得した画像から、認識対象とする物体や認識を行う領域を特定する際の基準となる、基準物体を検出する。基準物体の種類としては、人や車等が考えられる。本実施の形態では、基準物体として人を用いる場合について説明する。

　また、基準物体検出部１０２は、人が写っている領域である人領域の位置を検出し、検出した人領域毎に固有の人ＩＤを付与するとともにその人領域の大きさを算出する。そして、基準物体検出部１０２は、これら人領域毎の人ＩＤとその人領域の位置と大きさを特定する情報とを、画像ＩＤと対応づけて基準物体領域管理情報記憶部１２１に記憶させる。

　ここで、人領域とは、画像に写る１人の人が画像において占有する領域をいう。

　また、人領域の位置と大きさを特定する情報とは、画像の左上隅の１点を原点とする座標軸を定めた場合において、矩形の４頂点のうちの１頂点の座標と、矩形の幅及び高さとから構成される。

　以下の例では、人領域を検出する方法として、あらかじめ用意された顔の学習モデルを用いて顔領域を検出し、顔と人との一般的な位置関係・大きさ割合に基づき切り出す手法を用いる。なお、これに限らず画像において、１人の人の全身を内側に含む面積最小の矩形の領域を人領域としても構わない。

　属性算出部１０３は、基準物体検出部１０２が検出した基準物体の属性を示す属性情報を算出する。この属性情報は、基準物体の外観の特徴から得られる情報であり、本実施の形態では、基準物体である人の属性を示す属性情報として、服装と性別を用いる場合について説明する。この場合、属性算出部１０３は、人領域毎に服装と性別とを判定し、その人領域の人ＩＤと対応付けて属性管理情報記憶部１２２に記憶させる。

　探索物体特定部１０４は、基準物体の属性情報に基づき、基準物体の属性と関連する物体を、探索対象の物体として特定する（以後、物体認識処理の対象とする物体を、「探索物体」と呼ぶ。）。具体的には、探索物体特定部１０４は、属性・物体対応情報記憶部１２３が予め記憶している属性と探索物体との対応関係を参照して、属性算出部１０３が算出した属性情報に対応する物体を探索物体として特定する。そして、特定した探索物体を人ＩＤに対応付けて探索物体管理情報記憶部１２４に記憶させる。

　探索領域特定部１０５は、基準物体が占める領域の位置に基づいて、探索物体の認識処理を行うべき領域を特定する。以後、探索物体の認識処理を行うべき領域を、「探索領域」と呼ぶ。具体的には、探索領域特定部１０５は、領域値情報記憶部１２６ａが予め記憶している、基準物体が占める領域に基づいて探索領域を特定するために用いるパラメータと探索物体との対応関係を参照して、探索物体特定部１０４が特定した探索物体に対応する領域を探索領域として特定する。

　なお、この領域の特定とは、領域の位置と大きさとを特定可能な情報を算出することをいう。本実施の形態では、矩形な領域について、画像の左上隅の点を原点とする座標軸を定めた場合において、矩形の４頂点のうちの１頂点の座標と、矩形の幅及び高さとを算出することをいう。

　物体認識部１０６は、探索領域特定部１０５で特定した画像内の探索領域に対して、探索物体特定部１０４で特定した探索物体の認識処理を行う。認識処理は、例えばあらかじめ用意された物体学習辞書とのパターンマッチングによる検出手法や、ＳＶＭ（Support Vector Machine）を用いた機械学習による分類手法等がある。

　なお、これら基準物体検出部１０２、属性算出部１０３、探索物体特定部１０４、探索領域特定部１０５および物体認識部１０６は、それぞれの処理用のプログラムを格納するＲＯＭなどのメモリと、プログラムを実行するＣＰＵと、プログラムのデータを展開するためのＲＡＭなどのメモリとから例えば構成することができる。

　記憶部関係は次の通りである。各情報の詳細については動作の説明の中で述べる。

　画像管理情報記憶部１２０は、画像管理情報７０１（図７参照）を記憶している。

　基準物体領域管理情報記憶部１２１は、人領域管理情報８０１（図８参照）を記憶している。

　属性管理情報記憶部１２２は、属性管理情報９０１（図９参照）を記憶している。

　属性・物体対応情報記憶部１２３は、属性・物体対応情報１００１（図１０参照）を記憶している。

　探索物体管理情報記憶部１２４は、探索物体管理情報１１０１（図１１参照）を記憶している
　物体・大きさ対応情報記憶部１２５は、物体・大きさ対応情報１２０１（図１２参照）を記憶している。

　領域値情報記憶部１２６ａは、物体・探索領域種別対応情報１３０１（図１３参照）を記憶する物体・探索領域種別対応情報記憶部１２６と、物体領域パラメータ情報１４０１（図１４参照）を記憶する探索領域パラメータ記憶部１２７とを有する。

　探索領域管理情報記憶部１２８は、探索領域管理情報１５０１（図１５参照）を記憶している。

　物体認識管理情報記憶部１２９は、物体認識管理情報１６０１（図１６参照）を記憶している。

　＜動作＞
　図２のフローチャートを用いて、画像認識装置１００が行う全体動作の概要を説明する。また、図２におけるＳ２０３、Ｓ２０４、Ｓ２０５、Ｓ２０６の詳細を、それぞれ図３、図４、図５、図６を用いて説明する。

　画像取得部１０１は、画像蓄積装置１１０から画像を取得する（Ｓ２０１）。そして、画像取得部１０１は、取得した画像と、各画像に固有な画像ＩＤとを対応付けて画像管理情報７０１として画像管理情報記憶部１２０に記憶させる。

　図７に、画像管理情報７０１の例を示す。図７の例では、ＰＰＭ（Portable Pixmap Format）フォーマットの画像を、画像の撮影日時情報とともに、画像ＩＤと対応付けて管理している。図７の例では、２０１０年６月１０日１０時３５分１０秒に撮影された、ブーケを持った新婦の画像が、画像ＩＤが１１の画像として管理されていることを表している。ここで、画像の撮影日時情報は、画像ファイルが保存された日時を利用してもよいし、画像に付与されているＥｘｉｆ（Exchangeable image file format）情報の撮影日時情報を利用してもよい。

　なお、画像の格納方式は、先に述べた方式に限られない。ＰＰＭフォーマットで画像を格納する代わりに、ＪＰＥＧ（Ｊｏｉｎｔ　Ｐｈｏｔｏｇｒａｐｈｉｃ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）フォーマットで画像を格納してもよいし、画像蓄積装置１１０における画像のファイルパスを格納してもよい。

　次に、基準物体検出部１０２は、画像管理情報記憶部１２０に記憶されている各画像に対して、画像から基準物体となる人を検出する（Ｓ２０２）。本実施の形態においては、人の検出として、顔と体を含む人全体が映っている領域を検出するものとする。このような人の検出は、例えば下記のようにして行う。まず、画像から顔領域を検出する。顔領域の検出は、例えば画像とあらかじめ用意された顔の学習モデルとのパターンマッチング等によって行う。次に、顔領域から人領域を算出する。人領域の算出方法は、例えば顔と人との一般的位置・大きさの関係に基づき、顔領域から、顔領域を含む一定の下部領域を切り出す方法がある。

　図１８の例では、検出された顔領域が矩形であるとし、この矩形を顔領域の直下に６つ分並べた大きさの長方形を体領域としている。そして、顔領域と体領域を合わせた全体を人領域としている。例えば、顔領域が幅５０ピクセル、高さ５０ピクセルであるとすると、人領域として、顔領域の左上頂点座標から、幅５０ピクセル、高さ３５０ピクセルの矩形領域を人領域として切り出す。

　なお、体領域の大きさは、体領域を適切に包含しうるものであれば、図１８の例に限らない。また、顔領域、体領域、さらにこれらをあわせた人領域の形状はそれぞれ矩形に限らず、画像に写る顔、体、人を包含することができればどのような形状であってもよい。また、人の検出方法は上記の例に限られず、例えば、Fujiyoshi著「Detecting Humans and Visualizing Human Motions for People Image Analysis」に示されているような、画像のエッジ特徴量を用いた人検出手法を用いても良い。

　基準物体検出部１０２は、検出された人それぞれに対応する人領域に対して、固有の人ＩＤを付与し、画像ＩＤと対応付ける。そして、人ＩＤ、画像ＩＤおよび人領域の位置・大きさを対応付けた人領域管理情報８０１として基準物体領域管理情報記憶部１２１に記憶させる。

　図８に、人領域管理情報８０１の例を示す。図８の例では、人領域が矩形であるとして、矩形の左上頂点のＸ座標、左上頂点のＹ座標、幅、高さおよび画像ＩＤを、人ＩＤと対応づけて管理している。なお、頂点の座標については、画像の左上隅を原点、画像の幅方向をＸ軸、高さ方向をＹ軸としたピクセル単位のＸＹ座標系により表現している。また、図８の例では、人ＩＤが１１と付与された人の人領域は、左上頂点の座標を（７５，５０）とし、幅５０ピクセル、高さ３５０ピクセルの矩形領域であることを表している。

　次に、属性算出部１０３は、基準物体領域管理情報記憶部１２１に記憶された人領域管理情報８０１をもとに、検出された人の属性情報を算出する（Ｓ２０３）。

　ここで、検出された基準物体の属性情報を算出する処理Ｓ２０３の一例を、図３のフローチャートを用いて説明する。

　まず、属性算出部１０３は、画像において検出した人の人ＩＤから１つ選ぶ（Ｓ３０１）。具体的には、図８のような人領域管理情報８０１において、ある人ＩＤを含む１行分の情報を選択する。

　次に、属性算出部１０３は、画像において検出された各人領域について、人領域に属する人の服装を判定する（Ｓ３０２）。服装判定の方法については、例えば特許文献１等の方法がある。

　次に、属性算出部１０３は、画像において検出された各人領域について、人領域に属する人の性別を判定する（Ｓ３０３）。性別判定の方法については、画像の顔領域における画像特徴量を、一般的な男女それぞれの画像特徴量を定義した学習モデルと比較することにより行う方法がある。

　なお、上記の例では、属性情報として服装、性別を判定したが、画像における人領域の位置、画像全体に対する人領域の面積比率、年齢（年代）、顔の向き、体の向き、姿勢等を判定してもよい。例えば、人領域の位置、画面全体に対する人領域の面積比率は、基準物体領域管理情報記憶部１２１に記憶された情報と、画像の大きさから算出することができる。人の年齢（年代）および顔の向きは、例えば画像の顔領域における画像特徴量を、年齢（年代）および顔の向きごとの学習モデルと比較することにより判定できる。体の向きおよび姿勢は、例えば画像の人領域における画像特徴量を、体の向きおよび姿勢ごとの学習モデルと比較することにより判定できる。また、これらの属性情報は、すべてが判定できる必要はなく、少なくとも１つが判定できればよい。

　属性算出部１０３は、以上のようにして各人領域に対して算出した属性情報を、その人領域の人ＩＤと対応付けて、属性管理情報９０１として属性管理情報記憶部１２２に記憶させる。

　図９に、属性管理情報９０１の例を示す。図９の例では、人の服装・性別の属性情報を、人ＩＤと対応付けて管理している。この例では、人ＩＤが１１と付与された人の属性情報は、服装がウェディングドレス、性別が女性であることを表している。

　Ｓ３０３の処理の後、属性算出部１０３は、画像に含まれるすべての人について、属性の算出が終了したかどうかを判定する（Ｓ３０４）。まだ属性を算出していない人が残っている場合（Ｓ３０４がＮｏ）、Ｓ３０１の処理に戻る。Ｓ３０４において、すべての人について、属性の算出が終了した場合（Ｓ３０４がＹｅｓ）、Ｓ２０３の処理を終了する。

　図２に戻り、次に、探索物体特定部１０４は、属性管理情報９０１をもとに、探索物体を特定する（Ｓ２０４）。

　ここで、Ｓ２０４の処理の一例を、図４のフローチャートを用いて説明する。

　まず、探索物体特定部１０４は、画像において検出した人の人ＩＤから１つ選ぶ（Ｓ４０１）。具体的には、図９のような属性管理情報９０１において、ある人ＩＤを含む１行分の情報を選択する。

　次に、探索物体特定部１０４は、選ばれた人ＩＤに対応する属性情報に基づき、探索物体を特定する（Ｓ４０２）。探索物体の特定は、属性・物体対応情報記憶部１２３に記憶されている、属性情報と探索物体との対応関係を示す属性・物体対応情報１００１を用いて、選択した人ＩＤの属性情報と合致する探索物体を選択することにより行う。

　図１０に、属性・物体対応情報１００１の例を示す。図１０の例では、人の服装と性別属性と対応付けて探索物体を保持している。この例では、属性情報として服装が和服、性別が男性である場合、千歳飴と下駄を探索物体とすることを示している。

　そして、探索物体特定部１０４は、特定された探索物体を、固有の探索物体ＩＤと対応付けて、探索物体管理情報１１０１として探索物体管理情報記憶部１２４に記憶させる。

　図１１に、探索物体管理情報１１０１の例を示す。図１１の例では、探索物体ＩＤと対応付けて人ＩＤおよび探索物体を管理している。この例では、探索物体ＩＤ１１の物体は、人ＩＤ１１に対応する物体であり、探索物体はブーケであることを示している。

　Ｓ４０２の処理の後、探索物体特定部１０４は、画像に含まれるすべての人について、探索物体の特定が終了したかどうかを判定する（Ｓ４０３）。まだ探索物体を特定していない人が残っている場合（Ｓ４０３がＮｏ）、Ｓ４０１の処理に戻る。Ｓ４０３において、すべての人について、探索物体の特定が終了した場合（Ｓ４０３がＹｅｓ）、Ｓ２０４の処理を終了する。

　図２に戻り、次に、探索領域特定部１０５は、人領域管理情報８０１、探索物体管理情報１１０１および物体・大きさ対応情報１２０１をもとに、探索領域を特定する（Ｓ２０５）。

　ここで、Ｓ２０５の処理の一例を、図５のフローチャートを用いて説明する。

　まず、Ｓ２０４において、探索領域特定部１０５は、画像に写る人のそれぞれに対して特定された探索物体ＩＤから１つ選ぶ（Ｓ５０１）。具体的に探索領域特定部１０５は、図１１のような探索物体管理情報１１０１において、ある探索物体ＩＤを含む１行分の情報を選択する。

　次に、探索領域特定部１０５は、選択した探索物体ＩＤに対応する探索物体について、物体・大きさ対応情報１２０１に基づいて探索物体大きさ比率を選択する（Ｓ５０２）。

　物体・大きさ対応情報１２０１は、物体・大きさ対応情報記憶部１２５に記憶されている情報であり、探索物体毎に、人領域の大きさに対する探索物体の大きさの比率を示す探索物体大きさ比率を対応付けている。本実施の形態では人領域は矩形であるため、人領域の幅に対する探索物体の幅の比率と、人領域の高さに対する探索物体の高さの比率として示される。

　物体・大きさ対応情報１２０１の例を図１２に示す。図１２の例では、探索物体と対応付けて、人の幅・高さに対する探索物体の幅の比率をそれぞれ保持している。この例では、ブーケの幅は、人の幅の０．５倍であり、ブーケの高さは、人の高さの０．１倍であることを示している。

　この場合、探索領域特定部１０５はステップＳ５０１で選んだ探索物体ＩＤに対応する、探索物体の幅の比率と高さの比率とを大きさ比率として選択する。

　選択された探索物体大きさ比率は、後述するステップＳ５０４で探索領域を算出するために用いられる。

　次に、探索領域特定部１０５は、選択した探索物体ＩＤに対応する探索物体について、探索領域種別を選択する（Ｓ５０３）。ここで、探索領域種別とは、探索物体が近くに存在しうる、基準物体付近の特定の領域の種別である。探索領域種別の例としては、基準物体が人の場合、手、足、右隣、左隣等がある。探索領域種別の特定は、物体・探索領域種別対応情報記憶部１２６に記憶されている、物体・探索領域種別対応情報１３０１を用いて、探索物体と合致する探索領域種別を選択することにより行う。

　図１３に、物体・探索領域種別対応情報１３０１の一例を示す。図１３の例では、探索物体と対応付けて、探索領域種別を保持している。この例では、ブーケに対する探索領域種別は手であることを示している。

　選択された探索領域種別は、後述するステップＳ５０４で、探索領域を算出するために用いられる。

　次に、探索領域特定部１０５は、選択した探索物体ＩＤに対応する、探索領域を算出する（Ｓ５０４）。

　探索領域の算出は、人領域の拡大縮小・平行移動によって行う。具体的には後述する探索領域算出式に、探索領域パラメータ記憶部１２７に記憶されている探索領域パラメータ情報１４０１および選択した人ＩＤの人領域情報を代入することにより、探索領域を算出することができる。ここで、探索領域算出式は、矩形の人領域を拡大縮小・平行移動することにより、矩形の探索領域を算出するための式である。探索領域算出式は、例えば、人の左上座標から探索領域の左上座標への移動量（移動の方向と大きさとを示す。）を算出する式と、探索領域の幅を算出する式と、探索領域の高さを算出する式とからなる。人の左上座標から探索領域の左上座標への移動量を（ｄＸ，ｄＹ）、探索領域の幅をＷ、探索領域の高さをＨとすると、ｄＸ、ｄＹ、ＷおよびＨは、それぞれ例えば以下の式のように表すことができる。
ｄＸ＝α１×ｗ＋α２×Ｓｗ×ｗ　　　　（式１）
ｄＹ＝β１×ｈ＋β２×Ｓｈ×ｈ　　　　（式２）
Ｗ＝γ１×ｗ＋γ２×Ｓｗ×ｗ　　　　（式３）
Ｈ＝δ１×ｈ＋δ２×Ｓｈ×ｈ　　　　（式４）
ここで、ｗは人領域の幅、ｈは人領域の高さであり、人領域管理情報８０１から、選ばれた人ＩＤを含む１行分の情報を選択することで取得することができる。Ｓｗは人領域の幅に対する探索物体の幅の比率、Ｓｈは人の高さに対する探索物体の高さの比率であり、Ｓ５０２で特定した値である。また、探索領域パラメータα１、α２、β１、β２、γ１、γ２、δ１およびδ２は、人領域と探索領域種別から探索領域を算出するためのパラメータである。具体的には、α１、α２は、それぞれ人領域の幅、探索物体の幅の、ｄＸへの寄与度合い、β１、β２は、それぞれ人領域の高さ、探索物体の高さの、ｄＹへの寄与度合い、γ１、γ２は、それぞれ人領域の幅、探索物体の幅の、探索領域の幅への寄与度合い、δ１、δ２は、それぞれ人領域の高さ、探索物体の高さの、探索領域の高さへの寄与度合いを示している。探索領域パラメータの選択は、探索領域パラメータ記憶部１２７に記憶されている、探索領域パラメータ情報１４０１を用いて、探索領域種別と合致する探索領域パラメータを選択することにより行う。

　図１４に、探索領域パラメータ情報１４０１の例を示す。図１４の例では、探索領域種別に対応付けて、探索領域算出式の係数を保持している。つまり、手、足、左端、右端の各探索領域種別に、探索領域算出式の係数α１、α２、β１、β２、γ１、γ２、δ１およびδ２を格納している。

　以下では、この探索領域パラメータ情報を用いた探索領域の特定例について、次の（１）～（４）の探索領域種別毎に説明する。
（１）手の場合
　図１９は、人領域（実線の矩形）に対する、探索領域種別が手の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、人領域と重心（図の星印）が一致した、幅２×ｗ＋２×Ｓｗ×ｗ、高さ０．２×ｈ＋２×Ｓｈ×ｈの矩形である。ここで、２×ｗおよび０．２×ｈの項は、手が動く可能性のある範囲である手の可動範囲を探索領域内に収めるためのものである。

　また、２×Ｓｗ×ｗ、２×Ｓｈ×ｈの項は、物体の大きさに比例して探索領域が変動することを意味する。また、図１９から、人領域の左上座標から探索領域の左上座標の移動量（ｄＸ，ｄＹ）は（－ｗ－Ｓｗ×ｗ，０．４ｈ－Ｓｈ×ｈ）である。

　このように探索領域の重心と人領域の重心とを一致させ、また手が動く可能性のある範囲をカバーするために、手の探索領域パラメータは、α１＝－１、α２＝－１、β１＝０．４、β２＝－１、γ１＝２、γ２＝２、δ１＝０．２、δ２＝２と設定している（図１４の１行目の情報を参照）。
（２）足の場合
　図２０は、人領域（実線の矩形）に対する、探索領域種別が足の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、人領域の最下部の辺の中央（図の星印）を重心とする、幅ｗ＋２×Ｓｗ×ｗ、高さ０．１×ｈ＋２×Ｓｈ×ｈの矩形である。ここで、ｗおよび０．１×ｈの項は、足の可動範囲を探索領域内に収めるためのものである。

　また、２×Ｓｗ×ｗ、２×Ｓｈ×ｈの項は、物体の大きさに比例して探索領域が変動することを意味する。また、図２０から、人領域の左上座標から探索領域の左上座標の移動量は（－Ｓｗ×ｗ，０．９５ｈ－Ｓｈ×ｈ）である。

　このように探索領域の重心と人領域の重心とを一致させ、また足が動く可能性のある範囲をカバーするために、足の探索領域パラメータは、α１＝０、α２＝－１、β１＝０．９５、β２＝－１、γ１＝１、γ２＝２、δ１＝０．１、δ２＝２と設定している（図１４の２行目の情報を参照）。
（３）左隣
　図２１は、人領域（実線の矩形）に対する、探索領域種別が左端の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、右下座標が人領域の左下座標と一致した、幅２×Ｓｗ×ｗ、高さ２×Ｓｈ×ｈの矩形である。ｗ、ｈの定数倍の項が存在しないのは、探索領域の大きさが人領域の大きさに依存せず、物体の大きさのみに依存して探索領域が変動することを意味する。

　また、図２１から、人領域の左上座標から探索領域の左上座標の移動量は（－２×Ｓｗ×ｗ，ｈ－２×Ｓｈ×ｈ）である。

　これらの探索領域の幅・高さ及び移動量を設定するために、左端の探索領域パラメータは、α１＝０、α２＝－２、β１＝０、β２＝－２、γ１＝０、γ２＝２、δ１＝０、δ２＝２と設定している（図１４の３行目の情報を参照）。
（４）右隣
　図２２は、人領域（実線の矩形）に対する、探索領域種別が右端の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、左下座標が人領域右下座標と一致した、幅２×Ｓｗ×ｗ、高さ２×Ｓｈ×ｈの矩形である。ｗ、ｈの定数倍の項が存在しないのは、探索領域の大きさが人領域の大きさに依存せず、物体の大きさのみに依存して探索領域が変動することを意味する。また、図２２から、人領域の左上座標から探索領域の左上座標の移動量は（ｗ，ｈ－２×Ｓｈ×ｈ）である。

　これらの探索領域の幅・高さ及び移動量を設定するために、右端の探索領域パラメータは、α１＝１、α２＝０、β１＝０、β２＝－２、γ１＝０、γ２＝２、δ１＝０、δ２＝２と設定している（図１４の４行目の情報を参照）。

　なお、探索領域特定部１０５は、Ｓ５０４において算出された探索領域の一部が画面外へはみでている場合は、画面内に収まっている部分のみを探索領域としてもよい。また、Ｓ５０４において算出された探索領域がすべて画面外へはみ出ている場合は、Ｓ５０１で選択された探索物体を除外してもよい。

　以下、図５の説明に戻る。

　探索領域特定部１０５は、Ｓ５０４で特定された探索領域に関する情報を、その探索物体の探索物体ＩＤと対応付けて、探索領域管理情報１５０１として探索領域管理情報記憶部１２８に記憶させる。

　図１５に、探索領域管理情報１５０１の例を示す。図１５の例では、探索物体ＩＤと対応付けて、矩形の探索領域の左上座標、幅、高さを保持している。この例では、探索物体ＩＤ１１の探索領域が、左上座標（０，１５５）、幅１５０、高さ１４０であることを示している。

　Ｓ５０４の処理の後、すべての探索物体について、探索領域の算出が終了したかどうかを確認判定する（Ｓ５０５）。まだ探索領域を算出するべき探索物体が残っている場合（Ｓ５０５がＮｏ）、Ｓ５０１の処理に戻る。Ｓ５０５において、すべての探索物体について、探索領域の算出が終了した場合（Ｓ５０５がＹｅｓ）、Ｓ２０５の処理を終了する。

　以上が図２におけるＳ２０５の処理の詳細の説明である。

　　＜探索領域特定部１０５の変形例＞
　ここで、探索領域特定部１０５については、以下の（１）～（３）の変形例が考えられる。

　（１）上述の説明では、探索領域特定部１０５は、人領域情報から探索領域種別に基づき探索領域を算出する方法について説明したが、これに限られない。探索領域種別である部位を直接検出することができれば、その検出情報を全部または一部利用して探索領域を算出してもよい。例えば、探索領域種別が手の探索物体の探索領域を算出する際には、山田、松尾、島田、白井著「手話認識のための見えの学習による手領域検出と形状識別」の方法により手領域を検出し、手領域の左上座標、幅、高さおよび探索物体大きさ比率から、手周辺の探索領域を算出してもよい。

　（２）上述の説明では、探索領域特定部１０５は、Ｓ５０３において、探索物体の種類に基づき探索領域種別を選択した上で、Ｓ５０４において、探索領域種別に基づき探索領域パラメータを選択する方法について説明したが、これに限られない。探索物体の種類から、直接探索領域パラメータを選択してもよい。この場合、探索物体の種類自体に対応した探索領域を特定することができる。

　具体的には、領域値情報記憶部１２６ａにおいて、基準物体が占める領域に対する相対的な位置関係を示す探索領域のパラメータを探索物体毎に示す物体・探索領域パラメータ情報を記憶させておく。そして、探索領域特定部１０５は、この物体・探索領域パラメータ情報１７０１を用いて、探索領域パラメータを選択するとしてもよい。

　図１７に示すように、この物体・探索領域パラメータ情報１７０１は、図１３の物体・探索領域種別対応情報１３０１と図１４の探索領域パラメータ情報１４０１とをマージしたような情報となっている。図１７の例では、ブーケの探索物体に対する探索領域パラメータが、α１＝－０．２５、α２＝－１、β１＝０．４、β２＝－１、γ１＝１．５、γ２＝２、δ１＝０．２、δ２＝２であることを示している。

　人領域・探索領域が矩形で表現される場合の探索領域パラメータについて、図２３の例を挙げて詳しく説明する。図２３は、人領域（実線の矩形）に対する、探索物体がブーケの場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、人領域と重心（図の星印）が一致した、幅１．５×ｗ＋２×Ｓｗ×ｗ、高さ０．２×ｈ＋２×Ｓｈ×ｈの矩形である。ここで、１．５×ｗおよび０．２×ｈの項は、手が動く可能性のある範囲である手の可動範囲を探索領域内に収めるためのものである。また、２×Ｓｗ×ｗ、２×Ｓｈ×ｈの項は、物体の大きさに比例して探索領域が変動することを意味する。また、図１９から、人領域の左上座標から探索領域の左上座標の移動量（ｄＸ，ｄＹ）は（－０．２５×ｗ－Ｓｗ×ｗ，０．４ｈ－Ｓｈ×ｈ）である。これらの探索領域の幅・高さ及び移動量を設定するために、手の探索領域パラメータは、α１＝－０．２５、α２＝－１、β１＝０．４、β２＝－１、γ１＝１．５、γ２＝２、δ１＝０．２、δ２＝２と設定している（図１７の１行目の情報を参照）。

　（３）上述の説明では、探索領域特定部１０５は、物体に対する探索領域種別の対応関係が、探索領域種別が１物体に対して１種別が割り当てられている場合について説明したが、これに限られない。探索領域種別が１物体に対して２種別以上が割り当てられている場合は、探索領域種別に対する探索領域それぞれの和集合を、対応する探索物体の探索領域としてもよい。例えば、図１３の物体・探索領域種別対応情報１３０１の例では、入学式の看板の探索物体に対しては、左隣と右隣の２つの探索領域種別が割り当てられている。つまり、探索物体が入学式の看板の場合は、左端・右側の各探索領域パラメータを選択、各探索領域の算出を行い、２つの探索領域の和集合を探索領域とする。

　以上の（１）～（３）が探索領域特定部１０５の変形例として考えられる。

　さて、図２に戻ってフローの説明を続ける。次に、物体認識部１０６は、Ｓ２０５で特定した画像内の探索領域に対して、Ｓ２０４で特定した探索物体の認識処理を行う（Ｓ２０６）。この処理は、画像管理情報７０１、探索物体管理情報１１０１および探索領域管理情報１５０１を用いて行う。

　ここで、Ｓ２０６の処理の一例を、図６のフローチャートを用いて説明する。

　まず、画像に写る人のそれぞれに対してＳ２０４において特定された探索物体ＩＤから１つ選ぶ（Ｓ６０１）。具体的には、図１１のような探索物体管理情報１１０１において、ある探索物体ＩＤを含む１行分の情報を選択する。

　次に、選択した探索物体についての、画像における探索領域の画像特徴量を算出する（Ｓ６０２）。具体的には、探索領域管理情報１５０１を参照して、選択した探索物体ＩＤに対応する探索領域を特定し、特定した領域の画像特徴量を算出する。

　そして、Ｓ６０２で算出した画像特徴量をもとに探索物体の認識を行う（Ｓ６０３）。例えば、ＳＶＭによる機械学習による分類手法を用いる場合は、画像特徴量とＳＶＭの分類器およびあらかじめ複数の画像で学習したモデルにより、分類したい物体の確からしさを表す尤度を算出し、尤度があらかじめ決められた閾値を越えているかどうかによって、分類したい物体が探索領域に存在するか否かを判定する。

　Ｓ６０３の処理の後、すべての探索物体の認識処理が終わったかどうかを判定する（Ｓ６０４）。認識処理が終わっていない探索物体が残っている場合（Ｓ６０４がＮｏ）は、Ｓ６０１に戻る。Ｓ６０４において、すべての探索物体について、認識処理が終了した場合（Ｓ６０４がＹｅｓ）は、Ｓ２０６の処理を終了する。

　このようにして、物体認識部１０６は、すべての探索物体に関して物体認識を行い、認識結果を、その探索物体の探索物体ＩＤと対応付けて、物体認識管理情報１６０１として物体認識管理情報記憶部１２９に記憶させる。

　図１６に、物体認識管理情報１６０１の一例を示す。図１６の例では、探索物体ＩＤと対応付けて探索物体の認識結果を、ＹｅｓまたはＮｏで保持している。この例では、探索物体ＩＤ１１の物体について、物体認識結果はＹｅｓであること、つまり探索ＩＤ１１の物体を認識できたことを示している。また、探索物体ＩＤ１２の物体に対しては、認識結果はＮｏであること、つまり、探索物体ＩＤ１２の物体を認識できなかったことを示している。

　以上、実施の形態１に係る画像認識装置の構成および画像認識装置が行う処理について説明したが、以下では、実施の形態１に係る画像認識装置の動作の具体例について説明する。

　＜実施の形態１の具体例＞
　ここで、画像認識装置１００が探索物体・探索領域を特定し、物体認識を行うまでの一連の流れについて、図２のフローチャートや図２４を用いて具体的に説明する。図２４の画像２４０１は、ウェディングドレスを着てブーケを持つ１人の女性が写っている写真である。

　まず、図２４（ａ）に示すように、画像取得部１０１は、画像２４０１を取得する（Ｓ２０１）。そして、画像取得部１０１は、取得した画像２４０１に画像ＩＤ１１を付与し、画像管理情報７０１として、画像管理情報記憶部１２０に記憶させる。画像２４０１の画像管理情報は、図７の１行目（画像ＩＤ１１が付与された画像）のような情報として管理される。

　次に、図２４（ｂ）に示すように、基準物体検出部１０２は、入力された画像から人を検出する（Ｓ２０２）。基準物体検出部１０２は、まず顔検出を行う。顔領域の左上座標が（ｘ，ｙ）＝（７５，５０）、幅が５０ピクセル、高さが５０ピクセルであったとする。この場合、図２４（ｃ）に示すように、図１８と同様に、検出された顔領域の直下６つ分並べた大きさの長方形と顔領域を合わせた全体である領域を人領域とする。すなわち、人領域は左上座標が（ｘ，ｙ）＝（７５，５０）、幅が５０ピクセル、高さが３５０ピクセルの領域となる。基準物体検出部１０２は、検出された人に、人ＩＤ１１を付与し、人領域の位置と大きさを特定する情報とともに人領域管理情報８０１に記憶させる。画像２４０１は、基準物体として人が１人検出されたものであるので、その人領域管理情報は図８のような情報として管理される。

　次に、図２４（ｄ）に示すように、属性算出部１０３は、人ＩＤ１１の属性を算出する（Ｓ２０３）。Ｓ２０３の具体例を、図３のフローチャートを用いて説明する。属性算出部１０３は、人領域管理情報８０１から、人ＩＤ１１を選択する（Ｓ３０１）。そして、属性算出部１０３は、人ＩＤ１１の服装をウェディングドレスと判定する（Ｓ３０２）。続いて、画像の人領域から、人ＩＤ１１の性別を女性と判定する（Ｓ３０３）。そして、属性算出部１０３は、すべての人について属性判定が終了したと判定し（Ｓ３０４でＹｅｓ）、Ｓ２０３の処理を終了する。以上の処理により算出された属性「ウェディングドレス・女性」は、図９の属性管理情報９０１の１行目（人ＩＤ１１が対応付けられている。）のような情報として管理される。

　次に、図２４（ｅ）に示すように、探索物体特定部１０４は探索物体を特定する（Ｓ２０４）。Ｓ２０４の具体例を、図４のフローチャートを用いて説明する。探索物体特定部１０４は、属性管理情報記憶部１２２に管理された情報から、人ＩＤ１１および人ＩＤ１１の属性「ウェディングドレス・女性」を選択する（Ｓ４０１）。その後、探索物体特定部１０４は、属性・物体対応情報１００１を参照して、属性「ウェディングドレス・女性」と対応付いた探索物体としてブーケ、ケーキ、マイクを特定する。探索物体特定部１０４は、これらの探索物体には、それぞれ探索物体ＩＤ１１、１２、１３を付与し、人ＩＤ１１とともに探索物体管理情報１１０１として探索物体管理情報記憶部１２４に記憶させる。続いて、探索物体特定部１０４は、すべての人について探索物体の選択が終了したと判定し（Ｓ４０３でＹｅｓ）、Ｓ２０４の処理を終了する。以上の処理により特定された探索物体「ブーケ、ケーキ、マイク」に関する情報は、図１１の探索物体管理情報１１０１の１行目、２行目、３行目（探索物体ＩＤ１１、１２、１３が付与された探索物体）のような情報として管理される。

　次に、図２４（ｆ）に示すように、探索領域特定部１０５は探索領域を特定する（Ｓ２０５）。Ｓ２０５の具体例を、図５のフローチャートを用いて説明する。まず、探索領域特定部１０５は、探索物体管理情報１１０１に管理された情報から「探索物体ＩＤ＝１１、人ＩＤ＝１１、探索物体＝ブーケ」を選択する（Ｓ５０１）。続いて、探索領域特定部１０５は、物体・大きさ対応情報１２０１によって、人に対するブーケの幅の比率としてＳｗ＝０．５、人に対するブーケの高さの比率としてＳｈ＝０．１を特定する（Ｓ５０２）。その後、探索領域特定部１０５は、物体・探索領域種別対応情報１３０１によって、ブーケと対応付いた探索領域種別として手を選択する（Ｓ５０３）。探索領域特定部１０５は、Ｓ５０４では、探索領域パラメータ情報１４０１によって、手の探索領域種別と対応付いた探索領域パラメータとしてα１＝－１、α２＝－１、β１＝０．４、β２＝－１、γ１＝２、γ２＝２、δ１＝０．２、δ２＝２を選択する。式１、式２、式３、式４および探索領域パラメータからブーケの探索領域算出式は、それぞれ下記の式５、式６、式７、式８で表される。
ｄＸ＝－ｗ－Ｓｗ×ｗ　　　　（式５）
ｄＹ＝０．４×ｈ－Ｓｈ×ｈ　　　　（式６）
Ｗ＝２×ｗ＋２×Ｓｗ×ｗ　　　　（式７）
Ｈ＝０．２×ｈ＋２×Ｓｈ×ｈ　　　　（式８）
　ここで、人領域管理情報８０１によって、人ＩＤ１１の人領域として左上座標（ｘ，ｙ）＝（７５，５０）、幅ｗ＝５０、高さｈ＝３５０が特定される。したがって、式５、式６、式７、式８から、ｄＸ＝－７５、ｄＹ＝１０５、Ｗ＝１５０、Ｈ＝１４０となる。すなわち、ブーケの探索領域として、左上座標が（０，１５５）、幅１５０、高さ１４０の矩形領域が算出される。以上のように、探索領域特定部１０５は、探索物体ＩＤ１１の探索物体（ブーケ）に関する探索領域の算出を終えると（Ｓ５０５がＮｏ）、探索物体ＩＤ１２（ケーキ）、ＩＤ１３（マイク）に対しても同様にＳ５０１～Ｓ５０４の処理を行って探索領域を算出する。探索領域特定部１０５は、すべての探索物体の探索領域を算出し終えると（Ｓ５０５がＹｅｓ）、Ｓ２０５の処理を終了する。算出された探索領域情報は、探索物体ＩＤと対応付けて、探索領域管理情報１５０１に管理され、画像２４０１に関するものとしては、図１５の１行目、２行目、３行目（探索物体ＩＤ１１、１２、１３が付与された探索物体）のような情報として管理される。

　そして、物体認識部１０６は物体認識処理を行う（Ｓ２０６）。Ｓ２０６の具体例を、図６のフローチャートを用いて説明する。まず、物体認識部１０６は、探索物体管理情報１１０１から「探索物体ＩＤ＝１１、人ＩＤ＝１１、探索物体＝ブーケ」を選択する（Ｓ６０１）。続いて、物体認識部１０６は、探索領域管理情報１５０１から探索物体ＩＤ１１に対応する探索領域を特定し、特定した領域の画像特徴量を算出する（Ｓ６０２）。そして、物体認識部１０６は、Ｓ６０２で算出した画像特徴量を用いて、ＳＶＭにより、探索領域にブーケが存在するか否かを判定する（Ｓ６０３）。図２４（ｇ）にブーケについての物体認識処理のイメージを示す。

　その後、物体認識部１０６は、探索物体ＩＤ１２、１３に対しても同様にして物体認識処理を行う。物体認識結果は、探索物体ＩＤと対応付けて、物体認識管理情報１６０１に管理される。物体認識部１０６は、すべての探索物体について認識処理が終了したと判定すると（Ｓ６０４がＹｅｓ）、Ｓ２０６の処理を終了する。以上の処理による物体認識結果は、図１６の例では、１行目、２行目、３行目（探索物体ＩＤ１１、１２、１３が付与された探索物体）のような情報として管理される。

　本具体例では、人の属性「ウェディングドレス・女性」に基づき、探索物体「ブーケ」などに限定する。これにより、例えば、ウェディングドレス・女性という属性には適した探索物体に限定し、この属性には適さない物体を探索の対象から除くことができる。これにより物体認識の精度向上が期待できる。また、認識処理に要する負荷も軽減できる。

　また、探索領域もブーケの存在が推定される領域である女性の手のあたりに限定することにより、誤認識の要因となるブーケと画像特徴量が似た他の物体を、領域から外すことができ、物体の認識精度の向上が期待できる。

　以上のように、実施の形態１に係る画像認識装置１００は、人の属性に基づき探索物体および探索領域を限定することで、人の属性に関連する物体を精度よく認識することができる。また、認識したい物体と属性が関係の無い人に付随する物体や、背景の画像特徴量が似ている部分における誤認識を防ぐことができる。

　なお、実施の形態１で説明した画像認識装置は、典型的には、画像がどのような場面において撮影されたかを分類するために用いることができる。例えば、実施の形態１に係る画像認識装置において、ある画像の基準物体の属性としてウェディングドレスの服装を着た女性を検出できた場合、この検出結果に基づき、その画像が結婚式イベントで撮影されたものであると分類することができる。さらに、基準物体と共起（画像中に共に出現すること。）しうる物体であるケーキを検出できた場合、この検出結果に基づき、その画像が、結婚式イベントのケーキカットの場面で撮影されたものであると分類することが可能となる。
（実施の形態２）
　実施の形態１では、１つの基準物体の属性情報に基づき探索物体・探索領域を選択する方法について説明を行ったが、属性情報を利用する基準物体は複数であってもよい。複数の基準物体の属性情報との関連性により、画像において存在しうる物体と、その物体が画像において存在しうる領域を絞り込むことができる。例えば、画像において横一列に並んだ基準物体が複数検出され、それらのうち隣接するいずれか２つの基準物体の間隔が他の隣接する２つの基準物体の間隔より大きい場合、間隔の大きい２つの基準物体の間に探索物体が存在する可能性が高いと考えられる。

　実施の形態２に係る画像認識装置は、このような考えに基づき画像認識処理を行うものである。

　＜構成＞
　以下、本実施の形態２における画像認識装置について説明する。ここでは、属性算出部１０３で算出される複数の基準物体の属性情報を用いることによって、探索物体および探索領域を特定する実施例について説明する。

　実施の形態２に係る画像認識装置２５００の機能ブロック図を図２５に示す。画像認識装置２５００の構成は、図１の画像認識装置１００と比較して、探索物体特定部および探索領域特定部の内部動作が異なる。以下では、実施の形態１と構成の異なる探索物体特定部２５０１および探索領域特定部２５０２について説明を行う。

　探索物体特定部２５０１は、基準物体検出部１０２で取得した複数の基準物体の領域情報と、属性算出部１０３で取得した複数の基準物体の属性情報とから、探索物体を特定する。

　探索領域特定部２５０２は、複数の基準物体の領域情報と、探索物体特定部２５０１で特定した探索物体情報とに基づき、その探索物体に対応付いた基準物体の相対探索領域種別を特定し、探索領域を算出する。

　＜動作＞
　次に、画像認識装置２５００の動作について説明する。画像認識装置２５００の全体動作は、図２と基本的には同様である。ただし、前述のように、探索物体特定部２５０１および探索領域特定部２５０２の動作が実施の形態１と異なることに伴い、図２におけるＳ２０４およびＳ２０５の具体的な処理が実施の形態１と異なっている。以下では、この点を中心に説明する。

　図２６は、実施の形態２における探索物体特定部２５０１の処理の一例を示すフローチャートである。なお、以下の例では、基準物体は人であり、複数とは２人であるとして説明を行う。

　まず、探索物体特定部２５０１は、属性算出部１０３で検出した人の人ＩＤから２つ選ぶ（Ｓ２６０１）。具体的には、図９のような属性管理情報において、ある画像において検出した２人分の人の人ＩＤに対応する２行分の情報を選択する。

　次に、探索物体特定部２５０１は、選択した２つの人ＩＤに対応する属性情報および人領域情報に基づき、探索物体を特定する（Ｓ２６０２）。探索物体の特定は、例えば、複数人（この例では２人）の人の属性情報および人領域情報と探索物体との対応関係を示す属性・物体対応情報２８０１を用いて、選択した２つの人ＩＤの属性情報と合致する探索物体を選択することにより行うことができる。ここで、属性・物体対応情報２８０１は、属性・物体対応情報記憶部１２３に記憶されている。

　図２８に、属性・物体対応情報２８０１の一例を示す。図２８の例では、２人それぞれの服装・性別属性と対応付けて、２人の間の距離の条件と探索物体を保持している。この例では、ウェディングドレスを着用している女性とスーツを着用している男性の組に対して、２人の左上座標のＸ座標の差が２人の人領域の幅の和の０．３倍以下ならば、「ウェディングケーキ」を探索物体とすることを示している。

　なお、属性・物体対応情報２８０１における１人目・２人目の順序と、Ｓ２６０１において選択した２つの人ＩＤの順序は逆でも良い。

　探索物体特定部２５０１は、特定された探索物体を、固有の探索物体ＩＤと対応付けて、探索物体管理情報２９０１として探索物体管理情報記憶部１２４に記憶させる。

　図２９に、探索物体管理情報２９０１の例を示す。図２９の例では、探索物体ＩＤと対応付けて人ＩＤおよび探索物体を管理している。この例では、探索物体ＩＤ２１の物体は、人ＩＤ２１および人ＩＤ２２に対応する物体であり、探索物体は「入学式の看板」であることを示している。

　探索物体特定部２５０１は、Ｓ２６０２の処理の後、画像に含まれるすべての２人の組合せについて、探索物体の特定が終了したかを判定する（Ｓ２６０３）。まだ探索物体を特定するべき組合せが残っている場合（Ｓ２６０３がＮｏ）は、Ｓ２６０１の処理に戻る。Ｓ２６０３について、すべての２人の組合せにおいて、探索物体の特定が終了した場合（Ｓ２６０３がＹｅｓ）は、探索物体特定部２５０１は処理を終了する。

　次に、本実施の形態における探索領域特定部２５０２の処理の一例を、図２７のフローチャートを用いて説明する。

　まず、探索領域特定部２５０２は、Ｓ２０４において、画像に写る２人の組のそれぞれに対して特定された探索物体ＩＤから１つ選ぶ（Ｓ２７０１）。具体的には、図２９のような探索物体管理情報２９０１において、ある探索物体ＩＤを含む１行分の情報を選択する。

　次に、探索領域特定部２５０２選択した探索物体ＩＤに対応する探索物体について、探索物体大きさ比率を選択する（Ｓ２７０２）。なお、探索物体大きさ比率とは、実施の形態１で説明したものと同様である。探索物体大きさ比率の特定は、例えば、探索物体と探索物体大きさ比率との対応関係を示す物体・大きさ対応情報３００１から、選択した探索物体ＩＤと合致する探索物体大きさ比率を選択することにより行うことができる。

　図３０に、物体・大きさ対応情報３００１の一例を示す。図３０の例では、探索物体と対応付けて、人の幅・高さに対する探索物体の幅の比率をそれぞれ保持している。この例では「ウェディングケーキ」の幅は、人の幅の０．５倍であり、高さは、人の高さの０．１倍であることを示している。

　次に、選択した探索物体ＩＤに対応する探索物体について、探索領域種別を特定する（Ｓ２７０３）。ここで、探索領域種別とは、探索物体が存在しうる領域の種別を、複数の基準物体との相対位置で定義した情報である。探索領域種別の例としては「２人の前方」「２人の間」等がある。探索領域種別の特定は、例えば、物体・探索領域種別対応情報記憶部１２６に記憶されている、物体・探索領域種別対応情報３１０１を用いて、探索物体と合致する探索領域種別を選択することにより行うことができる。

　図３１に、物体・探索領域種別対応情報３１０１の一例を示す。図３１の例では、探索物体と対応付けて、探索領域種別を保持している。この例では、「ウェディングケーキ」に対する探索領域種別は「２人の前方」であることを示している。

　特定された探索領域種別は、後述するステップＳ２７０４で、探索領域を算出するために用いられる。

　次に、探索領域特定部２５０２は、特定した探索物体について、探索領域の位置と大きさを算出する（Ｓ２７０４）。探索領域の算出は、例えば、複数人の人領域から特定される領域の拡大縮小・平行移動によって行うことができる。例えば、人領域が矩形で表現されている場合は、探索領域パラメータ記憶部１２７に記憶されている探索領域パラメータ情報、および、選択した人ＩＤの人領域情報から特定される値を、探索領域算出式に代入することにより、探索領域を算出することができる。ここで、探索領域算出式は、複数人の人領域のそれぞれの左上座標の平均値の座標を求め、求めた平均値の座標を左上座標とする領域を、拡大縮小・平行移動することにより、矩形の探索領域を算出する式である。

　なお、この平均値は、以下の例では、単純平均として説明するが、人領域の大きさや人ＩＤの重要性などに基づいて重み付けをした加重平均を用いても構わない。

　探索領域算出式は、例えば、２人の人領域それぞれの左上座標の中点から探索領域の左上座標への移動量を算出する式と、探索領域の幅を算出する式と、探索領域の高さを算出する式からなる。２人の人領域の左上座標の中点から探索領域の左上座標への移動量を（ｄＸ，ｄＹ）、探索領域の幅をＷ、探索領域の高さをＨとすると、ｄＸ、ｄＹ、ＷおよびＨは、それぞれ例えば以下の式のように表すことができる。
ｄＸ＝α１×ｗ０＋α２×Ｓｗ×ｗ０　　　　（式９）
ｄＹ＝β１×ｈ０＋β２×Ｓｈ×ｈ０　　　　（式１０）
Ｗ＝γ１×ｗ０＋γ２×Ｓｗ×ｗ０　　　　（式１１）
Ｈ＝δ１×ｈ０＋δ２×Ｓｈ×ｈ０　　　　（式１２）
　ここで、ｗ０は２人の人領域の幅の平均、ｈ０は２人の人領域の高さの平均ｈ０であり、人領域管理情報８０１から、選ばれた人ＩＤを含む２行分の情報を選択することで算出することができる。Ｓｗは人領域の幅に対する探索物体の幅の比率、Ｓｈは人領域の高さに対する探索物体の高さの比率であり、Ｓ２７０２で特定した値である。また、α１、α２、β１、β２、γ１、γ２、δ１およびδ２は、探索領域種別により決まるパラメータである。具体的には、α１、α２は、それぞれ人領域の幅、探索物体の幅の、ｄＸへの寄与度合い、β１、β２は、それぞれ人領域の高さ、探索物体の高さの、ｄＹへの寄与度合い、γ１、γ２は、それぞれ人領域の幅、探索物体の幅の、探索領域の幅への寄与度合い、δ１、δ２は、それぞれ人領域の高さ、探索物体の高さの、探索領域の高さへの寄与度合いを示している。探索領域パラメータの選択は、例えば、探索領域パラメータ記憶部１２７に記憶されている、探索領域パラメータ情報３２０１を用いて、探索領域種別と合致する探索領域パラメータを選択することにより行うことができる。

　本実施の形態では、上記の方法により探索領域の位置と大きさを算出するために、２人に対する相対探索領域の種別と、式９から式１２に示した探索領域算出式の各係数とを対応付けて、探索領域パラメータ情報３２０１として探索領域パラメータ記憶部１２７に記憶している。

　図３２に、探索領域パラメータ情報３２０１の一例を示す。図３２の例では、探索領域種別に対応付けて、探索領域算出式の係数の値を保持している。

　以下では、人領域・探索領域が矩形で表現される場合の探索領域パラメータについて、図３３、図３４の例を挙げて詳しく説明する。図３３は、２つの人領域（実線の矩形）に対する、探索物体種別が「２人の前方」の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、幅２×ｗ０＋２×Ｓｗ×ｗ０、高さ０．２×ｈ０＋２×Ｓｈ×ｈ０の矩形である。ここで、２×ｗ０および０．２×ｈ０の項は、手等の体の部位の存在範囲が幅２×ｗ０、高さ０．２×ｈ０の範囲で変動することに起因して探索領域が変動することを意味する。また、２×Ｓｗ×ｗ０、２×Ｓｈ×ｈ０の項は、物体の大きさに比例して探索領域が変動することを意味する。また、図３３において、２人の人領域の左上座標の中点から探索領域の左上座標の移動量は（－０．５×ｗ０－Ｓｗ×ｗ０，０．４×ｈ０－Ｓｈ×ｈ０）である。

　これらの探索領域パラメータの、α１＝－０．５、α２＝－１、β１＝０．４、β２＝－１、γ１＝２、γ２＝２、δ１＝０．２、δ２＝２は（図３２の１行目の情報参照）、２人の人領域の重心の中心（図の星印）と、算出すべき探索領域の重心とが一致する値となるように設定されている。

　図３４は、人領域（実線の矩形）に対する、探索物体種別が「２人の間」の場合の探索領域（破線の矩形）の例を示している。この例における探索領域は、最下部の辺の中点が点Ｐ０に一致し、幅２×Ｓｗ×ｗ０、高さ２×Ｓｈ×ｈ０の矩形である。ここで、２人の人領域の最下部の辺の中点をそれぞれ点Ｐ１、点Ｐ２とするとき、点Ｐ０は点Ｐ１と点Ｐ２の中点である。ｗ０、ｈ０の定数倍の項が存在しないのは、探索領域の大きさが人領域の大きさに依存せず、物体の大きさのみに依存して探索領域が変動することを意味する。また、図３４において、最下部の辺の中点が点Ｐ０に一致する条件から、２人の人領域の左上座標の中点から探索領域の左上座標の移動量は（０．５×ｗ０－Ｓｗ×ｗ０，ｈ０－Ｓｈ×ｈ０）である。この探索領域を設定するために用いる探索領域パラメータは、α１＝０．５、α２＝－１、β１＝１、β２＝－１、γ１＝０、γ２＝２、δ１＝０、δ２＝２である（図３２の２行目の情報参照）。

　以下、図２７の説明に戻る。

　探索領域特定部２５０２は、Ｓ２７０４で特定された探索領域に関する情報を、その探索物体の探索物体ＩＤと対応付けて、探索領域管理情報１５０１として探索領域管理情報記憶部１２８に記憶する。なお、探索領域管理情報１５０１は、例えば、図１５と同様の形式で、探索領域管理情報記憶部１２８に記憶されている。

　Ｓ２７０４の処理の後、探索領域特定部２５０２は、すべての探索物体について、探索領域の算出が終了したかどうかを判定する（Ｓ２７０５）。まだ探索領域を算出するべき探索物体が残っている場合（Ｓ２７０５がＮｏ）は、Ｓ２７０１の処理に戻る。Ｓ２７０５において、すべての探索物体について、探索領域の算出が終了した場合（Ｓ２７０５がＹｅｓ）は、探索領域特定部２５０２は処理を終了する。

　以上、実施の形態２に係る画像認識装置の構成および画像認識装置が行う処理について説明したが、以下では、実施の形態２に係る画像認識装置の動作の具体例について説明する。

　＜実施の形態２の具体例＞
　ここで、図３５に示す画像３５０１に対して、画像認識装置２５００が探索物体・探索領域を特定し、物体認識を行うまでの一連の流れについて、図２のフローチャートや図３５を用いて具体的に説明する。図３５の画像３５０１は、２人のスーツを着た男の子の間に、入学式の看板が写っている写真である。

　まず、図３５（ａ）に示すように、画像取得部１０１は、画像３５０１を取得する（Ｓ２０１）。取得した画像には画像ＩＤ２１を付与し、画像管理情報７０１に管理する。画像３５０１に関する情報は、図７の２行目（画像ＩＤ２１が付与された画像）のような情報として管理される。

　次に、基準物体検出部１０２は、入力された画像から人を検出する（Ｓ２０２）。基準物体検出部１０２は、図３５（ｂ）に示すように、まず顔検出を行う。１人目の顔領域の左上座標が（ｘ，ｙ）＝（５０，２００）、幅が４８ピクセル、高さが４８ピクセル、２人目の顔領域の左上座標が（ｘ，ｙ）＝（３００，１８０）、幅が６０ピクセル、高さが６０ピクセルであったとする。この場合、図１８と同様に、検出された顔領域の直下６つ分並べた大きさの長方形と顔領域を合わせた全体である領域を人領域とする。すなわち、１人目の人領域は左上座標が（ｘ，ｙ）＝（５０，２００）、幅が４８ピクセル、高さが３３６ピクセルの領域、２人目の人領域は左上座標が（ｘ，ｙ）＝（３００，１８０）、幅が６０ピクセル、高さが４２０ピクセルの領域となる。図３５（ｃ）に示すように、基準物体検出部１０２は、検出された人には順に人ＩＤ２１、２２を付与し、人領域とともに人領域管理情報８０１に記憶させる。検出された人に関する情報は、図８の２行目、３行目（人ＩＤ２１、２２が付与された人）のような情報として管理される。

　次に、属性算出部１０３は、人の属性を算出する（Ｓ２０３）。Ｓ２０３の具体例を、図３のフローチャートを用いて説明する。まず、属性算出部１０３は、人領域管理情報８０１から、人ＩＤ２１を選択する（Ｓ３０１）。続いて、属性算出部１０３は、人ＩＤ２１の服装をスーツと、性別を男性と判定する（Ｓ３０２，Ｓ３０３）。この結果、属性管理情報９０１には、人ＩＤ２１と対応付けて「スーツ・男性」の属性が記憶される。属性算出部１０３は、人ＩＤ２２の属性が算出されていないためＳ３０４でＮｏと判定し、Ｓ３０１に戻る。次に、Ｓ３０１では、属性算出部１０３は、人領域管理情報８０１から、人ＩＤ２２を選択する。属性算出部１０３は、Ｓ３０２では、人ＩＤ２２の服装をスーツと判定し、Ｓ３０３では、人ＩＤ２２の性別を男性と判定する。この結果、属性管理情報９０１には、人ＩＤ２２と対応付けて「スーツ・男性」の属性が記憶される。Ｓ３０４では、属性算出部１０３は、すべての人について属性判定が終了したと判定し（Ｓ３０４でＹｅｓ）、Ｓ２０３の処理を終了する。以上の処理により算出された属性に関する情報は、図９の２行目、３行目（人ＩＤ２１、人ＩＤ２２が付与された人）のような情報として管理される。

　次に、図３５（ｄ）に示すように、探索物体特定部２５０１は、探索物体を特定する。具体例を図２６のフローチャートを用いて説明する。まずＳ２６０１では、探索物体特定部２５０１は、人領域管理情報８０１から、人ＩＤ２１、２２およびそれぞれの人領域を選択する。Ｓ２６０２では、探索物体特定部２５０１は、属性・物体対応情報２８０１によって、人ＩＤ２１、２２に対応する探索物体を選択する。人ＩＤ２１、２２の人領域の左上座標のＸ座標の差は３００－５０＝２５０であり、これは人ＩＤ２１、２２の人領域の幅の和（４８＋６０＝１０８）以上である。また、人ＩＤ２１、２２の属性はともに「スーツ・男性」であるため、探索物体特定部２５０１は、探索物体として「入学式看板」を選択する。探索物体特定部２５０１は、この探索物体に、探索物体ＩＤ２１を付与し、人ＩＤ２１、２２とともに探索物体管理情報２９０１に記憶させる。Ｓ２６０３では、探索物体特定部２５０１は、すべての人ＩＤの組合せについて探索物体の選択が終了したと判定し（Ｓ２６０３でＹｅｓ）、探索物体特定部２５０１の処理を終了する。以上の処理により特定された探索物体に関する情報は、図２９の例では、１行目（探索物体ＩＤ２１が付与された探索物体）のような情報として管理される。

　次に、図３５（ｅ）に示すように、探索領域特定部２５０２は探索領域を特定する。具体例を図２７のフローチャートを用いて説明する。まず、探索領域特定部２５０２は、Ｓ２７０１では、探索物体管理情報２９０１から「探索物体ＩＤ＝２１、１人目人ＩＤ＝２１、２人目人ＩＤ＝２２、探索物体＝入学式の看板」を選択する。探索領域特定部２５０２は、Ｓ２７０２では、物体・大きさ対応情報３００１を参照して、人に対するブーケの幅の比率としてＳｗ＝０．５、人に対するブーケの高さの比率としてＳｈ＝０．１が選択する。Ｓ２７０３では、探索領域特定部２５０２は、物体・探索領域種別対応情報３１０１を参照して、「入学式の看板」と対応付いた探索領域種別として「２人の間」が選択する。Ｓ２７０４では、特定した探索物体の探索領域の位置と大きさを算出する。本実施の形態では、人領域管理情報８０１に記憶した２人の人領域に関する情報と、探索領域パラメータ情報３２０１に記憶した係数とを用いて、式９から式１２で示した探索領域算出式により、探索領域の位置と大きさを算出する。探索領域パラメータ情報３２０１によって、「２人の間」の探索領域種別と対応付いた探索領域パラメータとしてα１＝０．５、α２＝－１、β１＝１、β２＝－１、γ１＝０、γ２＝２、δ１＝０、δ２＝２が選択される。式９、式１０、式１１、式１２および探索領域パラメータから、探索領域算出式は下記の式１３、式１４、式１５、式１６で表される。
ｄＸ＝０．５×ｗ０－Ｓｗ×ｗ０　　　　（式１３）
ｄＹ＝ｈ０－Ｓｈ×ｈ０　　　　（式１４）
Ｗ＝２×Ｓｗ×ｗ０　　　　（式１５）
Ｈ＝２×Ｓｈ×ｈ０　　　　（式１６）
　ここで、人領域管理情報８０１において、人ＩＤ２１の人領域として左上座標（５０，２００）、幅４８、高さ３３６が、人ＩＤ２１の人領域として左上座標（３００，１８０）、幅６０、高さ４２０が記憶されている。これより、人ＩＤ２１、２２の人領域の左上座標の中点Ｍは（ｘ０，ｙ０）＝（１７５，１９０）、幅の平均はｗ０＝５４、高さの平均はｈ０＝３７８である。したがって、式１３、式１４、式１５、式１６から、ｄＸ＝－５４、ｄＹ＝－１８９、Ｗ＝１６２、Ｈ＝１１３４となる。すなわち、探索領域として、左上座標が（１２１，１）、幅１６２、高さ１１３４の矩形領域が算出される。算出された探索領域情報は、探索物体ＩＤ２１と対応付けて、探索領域管理情報１５０１に管理される。Ｓ２７０５では、すべての探索物体について探索領域の算出が終了したと判定され、探索領域特定部の処理が終了する。以上の処理により算出された探索領域情報は、図１５の例では、４行目（探索物体ＩＤ２１が付与された探索物体）のような情報として管理される。

　そして、物体認識部１０６は物体認識処理を行う。具体例を、図６のフローチャートを用いて説明する。まず、Ｓ６０１では、探索物体管理情報２９０１から「探索物体ＩＤ＝２１、探索物体＝入学式の看板」を取得する。Ｓ６０２では、探索領域管理情報１５０１から探索物体ＩＤ２１に対応する探索領域「左上座標（１２１，１）、幅１６２、高さ１１３４」を特定し、特定した領域の画像特徴量を算出する。Ｓ６０３では、Ｓ６０２で算出した画像特徴量を用いて、ＳＶＭにより、探索領域に探索物体が存在するか否かを判定する。物体認識結果は、探索物体ＩＤ２１と対応付けて、物体認識管理情報１６０１に管理される。Ｓ６０４では、すべての探索物体について認識処理が終了したと判定され、物体認識部の処理が終了する。以上の処理による物体認識結果は、図１６の例では、４行目（探索物体ＩＤ２１が付与された探索物体）のような情報として管理される。

　以上のように、本実施の形態に係る画像認識装置２５００は、複数の基準物体の属性から探索物体を特定し、探索物体に対応付けて相対探索領域を特定する。したがって、画像に複数人が写っている場合に、複数人の属性に関連する物体を、複数人の属性や位置関係を考慮した探索領域で探索することができる。例えば、入学式の看板（入学式のイベントにおいて「入学式」と書かれた看板）を認識する場合、人が１人しか写っていない場合は、人の左右両方に入学式の看板が存在しうるため、人の両側を探索範囲として設定する。一方、ある程度離れた間隔で２人が写っている場合には、２人の間に２人の属性と関連する物体がある可能性が高い。そのため、入学式の看板の探索範囲を２人の間に設定する。このように、物体認識の探索領域を人の数と属性・位置関係に応じて設定することができる。
（実施の形態３）
　実施の形態１では、基準物体の属性情報に基づき探索物体・探索領域を選択する方法について説明を行った。これに加え、画像の撮影イベントに関する情報を用いることができる場合、探索物体を、撮影イベントにおいて存在しうる物体へとさらに絞り込むことができる。例えば、画像に和服を着用している女性が検出された場合、その写真が七五三のイベントの写真だと分かれば、千歳飴や草履といった七五三に関連する物体に探索物体を絞り込むことができ、その写真が結婚式のイベントの写真だと分かれば、ケーキやマイクといった結婚式に関連する物体に探索物体を絞り込むことができる。

　実施の形態３に係る画像認識装置は、このような考えに基づき画像認識処理を行うものである。

　＜構成＞
　以下、本実施の形態３における画像認識装置について、図面を参照しながら説明する。

　以下では、基準物体が人であるとし、人の属性に加えて、画像の撮影イベントに基づき探索物体を限定することにより、上記実施の形態１とは違う効果を奏する実施例について説明する。

　図３６に、本実施の形態３における画像認識装置３６００の機能ブロック図を示す。なお、本実施の形態において、上記実施の形態１と同じ機能構成については同じ番号を付し、その説明は省略する。実施の形態３に係る画像認識装置３６００では、撮影イベント特定部３６０１、探索物体特定部３６０２が、実施の形態１に係る画像認識装置１００と異なる。以下では、実施の形態１と構成の異なる撮影イベント特定部３６０１および探索物体特定部３６０２について説明を行う。

　撮影イベント特定部３６０１は、画像取得部１０１で取得した画像情報および属性算出部１０３で取得した属性情報から、撮影イベントを特定する。

　探索物体特定部３６０２は、基準物体検出部１０２で取得した領域情報と、属性算出部１０３で取得した属性情報と、撮影イベント特定部３６０１で特定した撮影イベント管理情報から、探索物体を特定する。

　＜動作＞
　次に、本実施の形態に係る画像分離装置の全体動作について説明する。図３７は、本実施の形態における、画像認識装置の全体動作の一例を示すフローチャートである。

　ここで、Ｓ２０１からＳ２０３までの処理は、前述した図２のＳ２０１からＳ２０３までと同様であるため、説明を省略する。

　撮影イベント特定部３６０１は、画像取得部１０１で取得した画像情報と、属性管理情報９０１からイベントを特定する（Ｓ３７０１）。具体的には、例えば、画像の撮影日時と、画像において検出された人の属性情報から、撮影イベントを特定する。人の属性情報は、例えば服装・性別等がある。

　探索物体特定部３６０２は、属性管理情報９０１と、撮影イベント特定部３６０１で特定した撮影イベントとをもとに、探索物体を特定する（Ｓ３７０２）。

　この後に続くＳ２０５からＳ２０６までの処理は、前述した図２のＳ２０５からＳ２０６までと同様であるため、説明を省略する。

　次に、図３７におけるＳ３７０１の処理の一例を、図３８のフローチャートを用いて説明する。

　まず、撮影イベント特定部３６０１は、画像取得部１０１で取得された画像の画像ＩＤから１つ選ぶ（Ｓ３８０１）。具体的には、図７のような画像管理情報において、ある画像ＩＤを含む１行分の情報を選択する。

　次に、画像の撮影日時情報を取得する（Ｓ３８０２）。具体的には、Ｓ３８０１で画像管理情報７０１から取得した撮影日時情報を、画像の撮影日時とすることができる。

　次に、画像に写る人の属性を取得する（Ｓ３８０３）。具体的には、人領域管理情報８０１において該当する画像ＩＤを含む行から、画像に含まれる人に付与された人ＩＤを取得し、属性管理情報９０１において該当する人ＩＤを含む行から、画像に含まれる人の属性を取得することができる。

　次に、Ｓ３８０２で取得した画像の撮影日時情報と、画像において検出された人の属性情報から、撮影イベントを特定する（Ｓ３８０４）。撮影イベントの特定は、例えば、画像から検出された人の属性や撮影日時と撮影イベントを対応づけたイベント条件情報を用いて、Ｓ３８０２で取得した撮影日時情報およびＳ３８０３で取得した人の属性情報が条件をみたす撮影イベントを選択することにより行うことができる。ここで、イベント条件情報は、イベント条件情報記憶部３６２１に記憶されている。

　図４０に、イベント条件情報記憶部３６２１が記憶するイベント条件情報４００１の一例を示す。図４０の例では、撮影イベントと対応付けて、撮影イベントに関連する服装・性別・撮影日時の条件を保持している。図４０の１行目の例は、属性がウェディングドレス・女性の人が画像に写っていれば、撮影日時を問わず結婚式イベントを選択することを示す。また、２行目の例は、属性が和服・女性の人が画像に写っており、撮影日時が１月ならば成人式イベントを選択することを示す。これは、日本では、１月に成人の日が設定されていることに基づいている。さらに、３行目の例は、属性が和服の人が画像に写っていて撮影日時が１１月ならば七五三イベントを選択することを示す。これは、７歳５歳３歳の子どもが神社に参詣するイベントである七五三は、通常１１月に行われることに基づいている。

　図４０のようなイベント条件情報を用いて、撮影イベント特定部３６０１は、例えば、イベント条件情報４００１の上の行から順に、服装・性別の条件を満たす人が写っており、かつ、撮影日時が条件を満たすイベントが見つかるまでイベント条件情報４００１の検索を行うことにより、撮影イベントを特定する。

　そして、撮影イベント特定部３６０１は、特定されたイベントを、撮影イベント管理情報４１０１として撮影イベント管理情報記憶部３６２２に記憶させる。

　図４１に、撮影イベント管理情報４１０１の例を示す。図４１の例では、画像ＩＤと対応付けて、撮影イベントを管理している。この例では、画像ＩＤ３１の撮影イベントが七五三であることを示している。

　Ｓ３８０４の処理の後、撮影イベント特定部３６０１は、すべての画像において、イベントの特定が終了したかどうかを判定する（Ｓ３８０５）。まだイベントを特定していない画像が残っている場合（Ｓ３８０５がＮｏ）、Ｓ３８０１の処理に戻る。Ｓ３８０５において、すべての人について、探索物体の選択が終了した場合（Ｓ３８０５がＹｅｓ）、Ｓ３７０１の処理を終了する。

　なお、上記の説明では、１つの画像にはイベントがただ１つ特定される場合について説明したが、これに限られない。例えば、特定された属性および撮影日時がイベント条件情報４００１の条件を満たすすべてのイベントを、撮影イベント管理情報４１０１に記憶してもよい。例えば、１月に撮影された画像で、属性が「服装＝和服、性別＝女性」の人と、「服装＝ウェディングドレス、性別＝女性」の人が検出された場合は、イベント条件情報４００１の条件を満たす「結婚式」「成人式」の両撮影イベントを、画像ＩＤと対応付けて撮影イベント管理情報４１０１に記憶してもよい。

　また、上記の説明では、すべての属性および撮影日時を特定し、撮影イベントの特定を行う場合について説明を行ったが、これに限られない。属性および撮影日時の中で一部の情報を特定し、撮影イベントの特定を行ってもよい。この場合、特定された属性および撮影日時が満たしうるすべての撮影イベントを、撮影イベント管理情報４１０１に記憶してもよい。例えば、撮影日時情報が特定されていない画像で、属性が「服装＝和服、性別＝女性」の人が検出された場合は、イベント条件情報４００１の条件を満たす「成人式」「七五三」を、画像ＩＤと対応付けて撮影イベント管理情報４１０１に記憶してもよい。

　また、上記の説明では、撮影イベント情報は画像情報および属性情報を用いて特定する場合について説明したが、撮影イベント情報の特定方法はこれに限られない。例えばユーザの入力により撮影イベント情報を特定してもよい。具体的には、撮影イベント特定部３６０１で撮影イベントを特定する代わりに、画像管理情報記憶部１２０で管理されている各画像に対してユーザに撮影イベント情報を入力させ、ユーザが入力した撮影イベント情報を画像ＩＤと対応付けて撮影イベント管理情報記憶部３６２２に管理してもよい。

　次に、本実施の形態におけるＳ３７０２の処理の一例を、図３９のフローチャートを用いて説明する。

　まず、探索物体特定部３６０２は、画像において検出した人の人ＩＤから１つ選び、その人ＩＤの属性を取得する（Ｓ３９０１）。具体的には、図９のような属性管理情報９０１において、ある人ＩＤを含む１行分の情報を選択する。

　次に、探索物体特定部３６０２は、選ばれた人ＩＤに対応するイベント情報を取得する（Ｓ３９０２）。具体的には、人領域管理情報８０１において、選ばれた人ＩＤを含む行の画像ＩＤを取得することで、選ばれた人ＩＤが撮影された画像の画像ＩＤを特定する。そして、撮影イベント管理情報４１０１において、特定された画像ＩＤを含む行の撮影イベントを取得する。

　次に、探索物体特定部３６０２は、選ばれた人ＩＤに対応する属性情報およびイベント情報に基づき、探索物体を特定する（Ｓ３９０３）。探索物体の特定は、例えば、属性・イベント・物体対応情報記憶部３６２３に記憶されている、属性情報・イベント情報と探索物体との対応関係を示す属性・イベント・物体対応情報４２０１を用いて、選択した人ＩＤの属性情報と合致する探索物体を選択することにより行うことができる。

　図４２に、属性・イベント・物体対応情報４２０１の例を示す。図４２の例では、人の服装と性別属性および撮影イベントに対応付けて探索物体を保持している。図４２の１行目の例は、結婚式イベントにおいてスーツを着用している男性に対しては、ケーキ・マイクを探索物体とすることを示している。また、４行目の例は、七五三イベントにおいて和服を着る男性に対しては、七五三の祝いに定番の千歳飴（細長い棒状の飴を長い袋に入れたものである）などを探索物体とすることを示している。

　そして、探索物体特定部３６０２は、特定された探索物体を、固有の探索物体ＩＤと対応付けて、探索物体管理情報１１０１として探索物体管理情報記憶部１２４に記憶させる。

　なお、１つの画像ＩＤに対して、撮影イベント管理情報４１０１に、複数の撮影イベントが対応付けて記憶されている場合は、それぞれの撮影イベントについて探索物体を特定し、探索物体管理情報１１０１に記憶してもよい。例えば、１つの画像ＩＤに対応付いた撮影イベントとして、撮影イベント管理情報４１０１に「結婚式」「七五三」が記憶されているとする。この場合、服装が和服、性別が女性の人に対応する探索物体は、「結婚式」の撮影イベントに対応する探索物体として「ケーキ」「マイク」を特定し、「七五三」の撮影イベントに対応する探索物体として「千歳飴」「草履」を特定する。そして、その人と対応付けて探索物体管理情報１１０１に「ケーキ」「マイク」「千歳飴」「草履」の探索物体を記憶してもよい。

　Ｓ３９０３の処理の後、画像に含まれるすべての人において、探索物体の特定が終了したかどうかを判定する（Ｓ３９０４）。まだ探索物体を選択していない人が残っている場合（Ｓ３９０４がＮｏ）は、Ｓ３９０１の処理に戻る。Ｓ３９０４において、すべての人について、探索物体の選択が終了した場合（Ｓ３９０４がＹｅｓ）は、Ｓ３７０２の処理を終了する。

　＜実施の形態３の具体例＞
　ここで、図４３に示す画像４３０１に対して、画像認識装置３６００が探索物体を特定する（探索物体管理情報１１０１が探索物体管理情報記憶部１２４に管理される）までの一連の流れについて、図３７のフローチャートや図４３を用いて具体的に説明する。図４３の画像４３０１は、２０１１年１１月６日９時２０分１５秒に撮影された、和服を着た女の子と和服を着て千歳飴を持った男の子が並んで写っている写真である。

　まず、図４３（ａ）に示すように、画像取得部１０１は、画像４３０１を取得する（Ｓ２０１）。取得した画像には画像ＩＤ３１を付与し、撮影日時情報とともに、画像管理情報７０１に管理する。図４３に示す画像に関する情報は、図７の例では、３行目（画像ＩＤ３１が付与された画像）のような情報として管理される。

　次に、図４３（ｂ）に示すように、基準物体検出部１０２は、入力された画像から人を検出する（Ｓ２０２）。基準物体検出部１０２はまず顔検出を行う。１人目の顔領域の左上座標が（ｘ，ｙ）＝（７５，５０）、幅が５０ピクセル、高さが５０ピクセル、２人目の顔領域の左上座標が（ｘ，ｙ）＝（１５０，３６）、幅が５２ピクセル、高さが５２ピクセルであったとする。この場合、図４３（ｃ）に示すように、図１８と同様、検出された顔領域の直下６つ分並べた大きさの長方形と顔領域を合わせた全体である領域を人領域とする。すなわち、１人目の人領域は左上座標が（ｘ，ｙ）＝（７５，５０）、幅が５０ピクセル、高さが３５０ピクセルの領域、２人目の人領域は左上座標が（ｘ，ｙ）＝（１５０，３６）、幅が５２ピクセル、高さが３６４ピクセルの領域となる。検出された人には順に人ＩＤ３１、３２が付与され、画像ＩＤ３１、人領域とともに、人領域管理情報８０１に管理される。検出された人に関する情報は、図８の例では、４、５行目（人ＩＤ３１、３２が付与された人）のような情報として管理される。

　次に、属性算出部１０３は、人の属性を算出する（Ｓ２０３）。Ｓ２０３の具体例を、図３のフローチャートを用いて説明する。まず、Ｓ３０１では、人領域管理情報８０１から、人ＩＤ３１が選択される。Ｓ３０２では、人ＩＤ３１の服装を和服と判定する。Ｓ３０３では、人ＩＤ３１の性別を女性と判定する。属性管理情報９０１には、人ＩＤ３１と対応付けて「和服・女性」の属性が管理される。属性算出部１０３は、Ｓ３０４では、人ＩＤ３２の属性が算出されていないためＮｏと判定し、Ｓ３０１に戻る。次に、Ｓ３０１では、人領域管理情報８０１から、人ＩＤ３２を選択する。Ｓ３０２では、人ＩＤ３２の服装を和服と判定する。Ｓ３０３では、人ＩＤ３２の性別を男性と判定する。属性管理情報９０１には、人ＩＤ３２と対応付けて「和服・男性」の属性が記憶される。Ｓ３０４では、すべての人について属性判定が終了したと判定され（Ｓ３０４でＹｅｓ）、Ｓ２０３の処理が終了する。以上の処理により算出された属性に関する情報は、図９の例では、４行目、５行目（人ＩＤ３１、人ＩＤ３２が付与された人）のような情報として管理される。

　次に、図４３（ｄ）に示すように、撮影イベント特定部３６０１は撮影イベントを特定する（Ｓ３７０１）。具体例を図３８のフローチャートを用いて説明する。まず、Ｓ３８０１では、画像管理情報７０１から、画像ＩＤ３１を選択する。Ｓ３８０２では、画像管理情報７０１に管理されている情報から、撮影日時として２０１１年１１月６日９時２０分１５秒を取得する。Ｓ３８０３では、撮影イベント特定部３６０１は人領域管理情報８０１を参照して、画像ＩＤ３１で検出された人として人ＩＤ３１、３２が選択する。属性管理情報９０１から、人ＩＤ３１の属性として「和服・女性」を、人ＩＤ３２の属性として「和服・男性」を特定する。Ｓ３８０４では、イベント条件情報４００１において撮影日時と人ＩＤ３１の属性が七五三の条件を満たすことから、イベントとして七五三を特定する。そして、撮影イベント特定部３６０１は、七五三イベント情報を、画像ＩＤ３１と対応付けて、撮影イベント管理情報４１０１に記憶させる。Ｓ３８０５では、撮影イベント特定部３６０１は、すべての画像についてイベント判定が終了したと判定し（Ｓ３８０５でＹｅｓ）、Ｓ３７０１の処理を終了する。以上の処理により特定された撮影イベントに関する情報は、図４１の例では、１行目（画像ＩＤ３１が付与された画像）のような情報として管理される。

　そして、図４３（ｅ）に示すように、探索物体特定部３６０２は探索物体を特定する（Ｓ３７０２）。具体例を図３９のフローチャートを用いて説明する。まずＳ３９０１では、属性管理情報９０１に管理された情報から、人ＩＤ３１の属性「和服・女性」を選択する。Ｓ３９０２では、人領域管理情報８０１から人ＩＤ３１に対応する画像ＩＤ３１が特定し、撮影イベント管理情報４１０１から画像ＩＤ３１の撮影イベントとして七五三が特定する。Ｓ３９０３では、探索物体特定部３６０２は属性・イベント・物体対応情報４２０１を参照して、人ＩＤ３１に対応する探索物体として「千歳飴、草履」を特定する。探索物体特定部３６０２は、これらの探索物体に、順に探索物体ＩＤ３１、３２を付与し、人ＩＤ３１とともに探索物体管理情報１１０１に記憶させる。Ｓ３９０４では、探索物体特定部３６０２は人ＩＤ３２の属性が算出されていないためＮｏと判定し、Ｓ３９０１に戻る。

　次に、探索物体特定部３６０２は、Ｓ３９０１では、属性管理情報９０１に管理された情報から、人ＩＤ３２の属性「和服・男性」を特定する。Ｓ３９０２では、人領域管理情報８０１から人ＩＤ３２に対応する画像ＩＤ３１が特定され、撮影イベント管理情報４１０１から撮影イベントとして七五三が特定される。Ｓ３９０３では、属性・イベント・物体対応情報４２０１によって、人ＩＤ３２に対応する探索物体として「千歳飴、下駄」が特定される。探索物体特定部３６０２はこれらの探索物体に、順に探索物体ＩＤ３３、３４が付与し、人ＩＤ３２とともに探索物体管理情報１１０１に記憶させる。Ｓ３９０３では、人について探索物体の選択が終了した（Ｙｅｓ）なので、Ｓ３７０２の処理を終了する。以上の処理により特定された探索物体に関する情報は、図１１の例では、４行目、５行目、６行目、７行目（探索物体ＩＤ３１、３２、３３、３４が付与された探索物体）のような情報として管理される。

　以上のように、本実施の形態に係る画像認識装置３６００は、基準物体の属性に加え撮影イベントにより探索物体を特定する。したがって、基準物体の属性だけから探索物体を特定する場合と比較して、より探索物体を限定することができる。

　なお、一連のイベントの中で撮影された複数の画像を入力とする場合は、撮影イベント特定部３６０１において、各画像の撮影時間および各画像で検出された人の属性に基づき一連の画像の撮影イベントを特定してもよい。具体的には、例えば、各画像で検出された人の属性のうち、１つでも特徴的な属性が判定された場合、一連の画像のすべてを、その特徴的な属性から特定される撮影イベントと特定してもよい。例えば、一連のイベントの中で撮影された複数の画像の中に、ウェディングドレスの服装が１つ以上判定されれば、それら複数の画像が撮影されたイベントを結婚式であると特定してもよい。さらに、例えば、各画像で検出された人の各属性のうち、最も多く特定された属性に基づき、撮影イベントを特定してもよい。例えば、一連のイベントの中で撮影された複数の画像の中で、最も多く現れる服装が和服であり、かつ複数の画像の撮影日が１１月ならば、それら複数の画像のイベントを七五三と特定してもよい。

　これにより、複数の画像に写る複数の人の属性情報に基づいて、撮影イベントをロバストに特定することができる。
（変形例）
　以上、実施の形態に係る画像認識装置について説明したが、実施の形態は上で示したものに限らず以下のような変形例が考えられる。

　（１）実施の形態１に係る画像認識装置は、画像がどのような場面において撮影されたかを分類するために用いることができることを説明した。とくに、１枚ずつ画像の物体認識をして、その結果を場面判定に利用する場合には、それまでの物体認識結果に基づいて、以降の画像に対して行う探索物体を絞り込むようにしてもよい。

　つまり、１つのイベントにおいて同じ場面は２回以上現れないと考えられる（例えば、結婚式のイベントにおいてブーケトスのイベントは２回現れないだろう。）ため、それまでの処理において画像において既に認識された物体については、以降の処理においてその物体を探索対象から除外してもよい。

　例えば、図４４のように、画像認識装置１００は、同じイベント結婚式に属する９枚の画像（画像１－１～画像４－２）の撮影日時を画像管理情報記憶部１２０から取得する。なお、９枚の画像は、その撮影日時や画像同士の撮影日時の間隔などに基づいて、内容不明の場面１～場面４として分けられているものとする。

　そして、画像認識装置１００は、画像１－１から画像４－２まで順番に図３７のフローで説明した処理を行い、検出された物体を物体・場面情報４４０１に参照して、その画像が属する場面を決定する。

　この一連の処理において、画像認識処理１００は、画像１－２からマイクが検出され、画像１－１～画像１－３の場面がスピーチであると判定したとする。

　そうすると、画像認識処理１００は、その後の処理においては、マイクは探索物体から除外する。

　続く処理において、画像２－２からウェディングケーキが検出され、画像２－１～画像２－２の場面がケーキカットであると判定されたとする。

　そうすると、画像認識処理１００は、その後の処理においては、マイク・ウェディングケーキ・ナイフは探索物体から除外して処理を続けることとなる。

　なお、実際に検出されたマイク・ウェディングケーキに加えてナイフも探索物体から除外しているのは、物体・場面情報４４０１よりナイフはケーキカットの場面に特徴的な物体であるから、他の場面３，４では再登場しないだろうという推測に基づいている。

　本変形例によれば、一連のイベントで撮影された画像群について、基準物体の属性に関連する物体に基づき場面を判定する際に、既に判定した場面情報を用いて、より探索物体を限定できる。

　（２）前述の実施の形態１では、基準物体として比較的認識しやすい物体（オブジェクト）である人を利用する例について説明したが、基準物体は人以外の物体としてもよい。

　例えば、基準物体を車としても良い。本変形例における画像認識装置１００では、基準物体検出部１０２において画像から車を検出する。車の検出方法については、尾崎、山内、藤吉著「Ｊｏｉｎｔ　ＨＯＧ特徴を用いた２段階ＡｄａＢｏｏｓｔによる車両検出」に示されている方法を用いても良い。属性算出部１０３においては、物体に特徴的意味を付与する属性を検出する。属性としては、例えばドアの開閉やスピードが考えられる。探索物体特定部１０４では、車の属性に関連する物体を、探索物体として選択する。

　例えば、ドアが開いている車に対しては、人を探索物体として選択し、スピードが０の車に対しては、信号機を探索物体として選択する。探索領域特定部１０５では、探索物体に基づき、車に対する相対探索領域種別を選択し、車の領域情報と、車に対する相対探索領域種別とに基づき、探索領域を算出する。例えば、人の探索物体に対しては、車に対する相対探索領域種別として車のドアの横が、信号機の探索物体に対しては、車に対する相対探索領域種別として車の上側が選択され、各相対探索領域種別と対応付けられた探索領域算出式の係数から、探索領域を算出する。物体認識部１０６は、探索物体特定部１０４で特定された探索物体を、探索領域特定部１０５で特定された探索領域において物体認識を行い、物体認識の結果を物体認識管理情報記憶部１２９に管理する。

　本変形例によれば、車の属性に基づき探索物体および探索領域を限定することで、車の属性に関連する物体（人や信号機等）を認識することができる。

　基準物体が車の場合の、属性管理情報４５０１および物体・探索領域種別対応情報４５０２の例を図４５に示す。

　また、基準物体としては、人、車の他にも犬、猫などのペットを用いてもよい。

　この基準物体の要件としては、探索物体を認識する手がかりとなるように、対象物体より比較的認識しやすい物体（人を含む）であれば構わない。

　ここで、基準物体が探索物体より「比較的認識しやすい」とは、基本的には物体認識技術の分野において高精度に認識が可能であることが知られたものであることを示す。もっとも、本実施の形態の手法を採用する画像認識装置において実際に実行可能な物体認識手法の種類や、認識処理に許容される処理負荷・処理時間など様々な要因に応じて、基準物体および探索物体たり得るものは変わり得る。また、将来的な物体認識技術の動向に応じてこれら基準物体および探索物体たり得るものは変わる可能性がある。

　（３）上記の各実施の形態で説明した画像認識装置は、例えば、当該画像認識装置の機能を備える、ＢＤレコーダ等のＡＶ機器、パーソナルコンピュータ、およびサーバ端末などの据置き型端末、または、デジタルカメラや携帯電話などのモバイル型端末などとして実現することが可能である。

　さらに、上記の実施の形態で説明した手法をネットワークサービスとして提供するサーバ装置とすることも可能である。この場合、コンテンツが蓄積されたＡＶ機器、パーソナルコンピュータ、デジタルカメラなどからネットワークを介してコンテンツを受信すると、受信したコンテンツに対して上記の実施の形態で説明した手法による画像認識処理を行い、その処理結果を、ネットワークを介してＡＶ機器、パーソナルコンピュータ、デジタルカメラなどに送信するようにすればよい。

　なお、この場合において、画像認識装置が外部機器から受信したコンテンツと内部で蓄積しているコンテンツとの双方を対象として、上記の実施の形態で説明した手法による画像認識処理を行うようにしてもよい。

　また、上記の実施の形態で説明した手法の手順を記述したプログラムをメモリに記憶しておき、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などがメモリからプログラムを読み出して、読み出したプログラムを実行することによって、上記の手法が実現されるようにしてもよい。

　また、当該手法の手順を記述したプログラムをＤＶＤ等の記録媒体に格納して、頒布するようにしてもよい。また、当該手法の手順を記述したプログラムをインターネット等の伝送媒体を介して広く流通させてもよい。

　上記の各実施の形態に係る各構成は、集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現されてもよい。これらの構成は、１チップ化されても良いし、一部又はすべてを含むように１チップ化されてもよい。ここでは、ＬＳＩと表現したが、回路の集積度の違いによっては、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと称呼されることもある。また、集積回路化の手法は、ＬＳＩに限られるものではなく、専用回路または汎用プロセッサで集積回路化を行ってもよい。また、ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサー（ＲｅＣｏｎｆｉｇｕｒａｂｌｅ　Ｐｒｏｃｅｓｓｏｒ）を用いてもよい。あるいは、これらの機能ブロックの演算は、例えば、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）やＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを用いて演算することもできる。さらに、これらの処理ステップはプログラムとして記録媒体に記録して実行することで処理することもできる。

　（４）認識された物体や、その物体に基づいて分類された場面については、以下のような利用形態が考えられる。

　第一に、認識された物体に応じたデコアイテムを付加するようにしてもよい。

　図４６（ａ）の例では、「ウェディングドレス・女性」という属性情報に基づいて画像４６０１からブーケが認識されている。そして、このブーケに対応する結婚式専用の花束のデコアイテム４６０１ａを付加している。

　このような処理は、例えば認識された物体とデコアイテムとを対応付けた情報を、画像認識処理装置内に予め準備しておくことにより実現できる。

　なお、このようなデコアイテムは、デジタルスチルカメラなどの撮影機器を用いて撮影する際に、その表示画面上においてリアルタイムに自動的に付加するような例も考えられる。

　第二に、画像のトリミングにおいて認識された物体を利用して行うことが考えられる。

　図４６（ｂ）の例では、画像４６０２には、属性情報が「スーツ・男性」の人と「ウェディングドレス・女性」の人とが写っている。また２人の前方からはウェディングケーキが認識されている。この場合、画像認識処理は、この２人とウェディングケーキとが入るようにトリミングした画像４６０３を生成する。このように属性が特別な人物や認識された物体が入るようトリミングするとしてもよい。

　第三に、レイアウトの構成に利用することができる。

　図４６（ｃ）の例では、１ページ目のページ枠４６０４の画像４６０４ａからウェディングケーキが物体認識処理により認識され、２ページ目のページ枠４６０５の画像４６０５ａからはブーケが物体認識処理により認識されたものである。この認識結果に基づいて、画像認識装置の場面判定部は、画像４６０４ａ、４６０５ａにそれぞれケーキカットの場面、ブーケトスの場面として判定している。なお、画像４６０５ｂ，４６０５ｃは、例えば、画像４６０５ａに撮影日時が近い画像である。

　このように、物体認識処理の結果により判定された場面をアルバムやスライドショーの作成に利用することができ、場面の流れに応じたレイアウト構成が可能となる。

　（５）各実施の形態で説明した構成を、機器とクラウドサーバーとを連携させて実現する構成も考えられる。

　例えば、図４７（ａ）（ｂ）の例では、機器４７０１からクラウドサーバー４７０２に対して、画像をアップロードする。クラウドサーバー４７０２側では、アップロードされた画像に対して、図２で説明したような一連の処理を行い、機器４７０１に対して認識結果を通知する。

　このような構成によれば、特に負荷の大きい処理をクラウドサーバー４７０２側に担わせることで、処理の分散化や高速化をもたらすことができる。また、図４７（ａ）に示すように、クラウドサーバー４７０２の探索物体ＤＢ４７０２ａや分類モデル４７０２ｂのデータを適宜更新することにより、認識可能な物体の対象数の増加や認識精度の向上を期待できる。

　なお、機器４７０１で比較的軽い処理（例えば、図２のＳ２０２の人検出処理）を行い、画像に加えてその処理結果を機器４７０１からクラウドサーバー４７０２側にアップロードするような構成でもよい。

　また、図４７（ｂ）に示すように、機器４７０１で基準物体検出処理（図２：Ｓ２０２）を行い、その処理結果を機器４７０１からクラウドサーバー４７０２に送るとしてもよい。このような構成は、クラウドサーバー上での基準物体検出処理を避けたい場合に有用である。

　また、図４７（ｃ）に示すように、機器４７０１で属性算出処理（図２：Ｓ２０３）を行い、その処理結果を機器４７０１からクラウドサーバー４７０２に送り、クラウドサーバー４７０２から機器４７０１へはその属性と共起する可能性のある物体を特定する情報（例えば、属性「ウェディングドレス・女性」に対するブーケ）とその物体のモデル（例えばブーケのモデル）とを送るとしてもよい。このような構成によれば、多種多様な物体毎の物体のモデルを機器４７０１側で保持する必要がなくなるので、物体のモデルの容量がもたらす機器のストレージ容量の圧迫を避けることができる。

　（６）図２４（ｇ）では、物体認識処理の結果は存在有り（Ｙｅｓ）、存在無し（Ｎｏ）のいずれかであるとして説明したが、モデルとの一致度を示す尤度に基づいて表示を段階的に変更するとしてもよい。

　例えば、尤度がそれほど高くはない場合には、図４８に示すように「ブーケがあるかも？」というメッセージを表示している。

　ブーケのように物体認識精度が比較的低いものについては、このように曖昧な表示をすることによりその精度の不確定さをユーザに知らせることができ、ユーザの使いやすさ向上が見込まれる。

　（７）探索領域特定部１０５による探索領域の特定に際しては、探索物体に合わせたデプス範囲を加味して行うようにしてもよい。

　図４９に本変形例における探索領域を特定する処理の一例を示すフローチャートである。

　図５と同じステップ番号を付したＳ５０１～Ｓ５０５は実施の形態１で説明した処理と同様である。

　基準物体が人、探索物体がウェディングケーキである例を用いてＳ４９０１、Ｓ４９０２を以下説明する。

　探索領域特定部１０５は、属性管理情報４９０３を参照して、基準物体が「人」、探索物体が「ウェディングケーキ」に対応するデプス範囲１ｍ～０ｍを取得する（Ｓ４９０１）。なお、図４９に例示したデプス範囲は、焦点距離を基準の０ｍとし、その部分より手前をプラス、その部分より奥をマイナスであるとしている。

　取得後、探索領域特定部１０５は、探索領域管理情報記憶部１２８が記憶する探索領域管理情報１５０１を参照して、Ｓ５０４で算出された「ウェディングケーキ」の探索領域の座標値、幅、高さを取得する。そして、探索領域特定部１０５は、取得した探索領域の中からデプス範囲０ｍ～１ｍの範囲外を除外した修正後の探索領域を算出し、算出した探索領域の座標値、幅、高さを探索領域管理情報１５０１に上書きする（Ｓ４９０２）。

　図５０の例では、画像５００１は、男女２名の前方にウェディングケーキが写っている。この例の場合、Ｓ５０４により算出された探索領域のうち、男性の左側の奥の領域が写り込んだ部分のデプス範囲はマイナスであることから、探索領域特定部１０５は、この部分を除外した領域を修正後の探索領域として算出している。

　なお、画像のデプスを特定する方法については、例えば、ピクセル毎にデプス情報の埋め込みがなされている画像を用いる場合には、その埋め込まれたデプス情報をそのまま利用することができる。複眼カメラにより撮影された画像ならば、このようなデプス情報の埋め込みは容易である。もっとも、このような埋め込みの無い画像であっても、画素情報やＥｘｉｆ情報に含まれる被写体までの焦点距離などを利用して、探索領域特定部１０５において画像からデプスマップを予め推定するとしてもよい。

　なお、属性管理情報４９０３としては、「相対探索領域種別」の列は省略しても構わない。

　（８）実施の形態１では、探索領域を決めるに際しては、移動量（ｄＸ，ｄＹ）や、人の幅・高さに対する大きさの比率を考慮するとして説明したが、これに限られない。

　例えば、移動量（ｄＸ，ｄＹ）は、移動の方向と大きさとの双方を示すとしたが、移動の方向だけを規定するようにしてもよい。具体的には、正面を向いた人々が多数写るような集合写真の画像においては、人々が向いている方向を移動の方向とし、人領域の下側を探索領域として特定するようにしてもよい。また、画像の左半分側に人が写る画像においては、その人の領域から右方向に移動させた領域を探索領域としても構わない。

　（９）実施の形態１，２では、図２４，図３５のように、人領域に関係する左上座標を移動させた後で、移動先の座標を起点としてある高さと幅を持った探索領域を算出するとして説明したが、座標点の移動は必ずしも必須ではない。

　例えば、図２３の例では、人領域の重心（図２３の星印）を先に求めた上で、この重心を中心としてある高さと幅とを持った探索領域を算出するとしてもよい。

　また、図３３の例では、２人の人領域の重心（図３３の星印）を先に求めた上で、この重心を中心としてある高さと幅とを持った探索領域を算出するとしてもよい。

　（１０）実施の形態１においては、探索物体の名称を説明に用いる都合上、図１０～図１３、図１７、図２８～図３１などの各情報において、探索物体の名称を含めていたが、これらの名称を探索物体の識別子（ＩＤ）にすべて置き換えても構わない。また、置き換えた上で、探索物体の識別子と探索物体の名称とを対応付けたテーブルを別途用意しておき、ユーザへの認識結果の表示の際においては同テーブルを参照して探索物体の名称を表示に供するとしてもよい。
（補足）
　以上述べた実施の形態およびその変形例は、以下の態様を含むものである。

　（１）実施の形態に係る画像認識装置は、画像内から第１物体を認識する第１認識手段と、認識された第１物体の属性を示す属性情報を算出する算出手段と、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、を備える。

　（２）（１）において、前記第２領域の特定に用いる値とは、前記第１領域に対する第２領域の相対的な位置関係を示す値であるとしても構わない。

　（３）（２）において、前記相対的な位置関係を示す値は、前記第１領域に基づく点に対する特定すべき第２領域内の点への移動の方向の値とその大きさの値とを含み、前記領域特定手段は、前記領域値情報を参照し、前記特定された識別子に対応する移動の方向の値とその大きさの値とに基づいて、認識された第１物体が占める第１領域に基づく点を移動させ、移動先の点を含む領域を前記第２領域として特定するとしても構わない。

　（４）（３）において、前記相対的な位置関係を示す値は、前記第１領域の幅と高さとのそれぞれに対する特定すべき第２領域の幅および高さの比率の値を含み、前記領域特定手段は、前記領域値情報を参照し、前記特定された識別子に対応する幅と高さとのそれぞれの比率に基づいて特定すべき第２領域の幅と高さとを求め、前記移動先の点を含み求めた幅および高さを有する領域を前記第２領域として特定するとしても構わない。

　（５）（１）において、前記第１認識手段は、複数の第１物体を認識し、前記算出手段は、認識された複数の第１物体毎に、それぞれの属性情報を算出し、前記物体対応情報は、複数の属性情報の組合せと第２物体を示す識別子とを対応付けており、前記物体特定手段は、前記物体対応情報を参照し、算出された複数の属性情報に基づいて、前記第２物体を示す識別子を特定するとしても構わない。

　（６）（５）において、前記物体対応情報における前記組合せは、認識された複数の第１物体それぞれが占める第１領域同士の間隔に関する大きさの項目を含み、前記物体特定手段は、前記物体対応情報を参照し、算出された複数の属性情報と、認識された複数の第１物体それぞれが占める第１領域同士の間隔の大きさとに基づいて、前記第２物体を示す識別子を特定するとしても構わない。

　（７）（５）において、前記領域値情報は、前記第２領域の特定に用いる値として、前記第１領域同士の間隔が第１値以上の場合には、前記各第１領域とは重ならない前記第１領域同士の間の領域を特定すべき第２領域とする旨の値と、前記第１領域同士の間隔が前記第１値より小さい第２値以下の場合には、前記画像内の前記第１領域と部分的に重なる領域を特定すべき第２領域とする旨の値とを含むとしても構わない。

　（８）（１）において、前記物体対応情報は、前記属性情報とイベントとの組合せ毎に第２物体を示す識別子を対応付けたものであって、さらに、前記画像が撮影されたイベントを特定する撮影イベント特定手段を備え、前記物体特定手段は、前記物体対応情報を参照して、前記算出された属性情報に基づくことに加えて、前記特定されたイベントに基づいて、前記第２物体を示す識別子を特定するとしても構わない。

　この構成によれば、画像が撮影されたイベントに基づいて、第２物体を示す識別子を特定でき、適切な特定が可能となる。

　（９）（１）において、前記画像が撮影されたイベントを特定する撮影イベント特定手段と、イベントを構成する場面毎に第２物体の識別子を対応付けた場面情報を参照して、前記第２認識手段により認識された第２物体に対応する識別子に基づいて、認識対象とした画像の場面を判定する場面判定手段と、を備えるとしても構わない。

　この構成によれば、場面の判定結果を、例えば画像の分類に利用することができる。

　（１０）（９）において、前記撮影イベント特定手段により特定されたイベント情報が同一のイベントをそれぞれ示す複数の画像に対して、逐次画像毎に前記各手段による処理を行う場合において、前記第２認識手段により前記複数の画像の内の一の画像において一の第２物体が認識された後、それ以降前記複数の画像の内の他の画像に対して前記物体特定手段が前記特定を行うときには、前記場面情報を参照し、その認識された第２物体の識別子の場面と同一の場面が対応付けられた第２物体の識別子に対応する第２物体については、その特定の対象から除外するとしても構わない。

　この構成によれば、特定の対象から除外することで、以降の処理においてより限定した適切な物体を第２物体として特定することに寄与する。

　（１１）実施の形態に係る画像認識方法は、画像内から第１物体を認識する第１認識ステップと、認識された第１物体の属性を示す属性情報を算出する算出ステップと、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定ステップと、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定ステップと、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識ステップと、を含む。

　（１２）実施の形態に係るプログラムは、コンピュータに画像認識処理を実行させるためのプログラムであって、前記画像認識処理は、画像内から第１物体を認識する第１認識ステップと、認識された第１物体の属性を示す属性情報を算出する算出ステップと、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定ステップと、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定ステップと、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識ステップと、を含む。

　（１３）実施の形態に係る集積回路は、画像内から第１物体を認識する第１認識手段と、認識された第１物体の属性を示す属性情報を算出する算出手段と、属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、を備える。

　本発明に係る画像認識装置は、デジタルスチルカメラ、カメラ付き携帯電話やムービーカメラ等の静止画または動画を蓄積する撮像装置、および、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等に適用することができる。

　　１００、２５００、３６００　画像認識装置
　　１０１　画像取得部
　　１０２　基準物体検出部（第１物体認識部）
　　１０３　属性算出部
　　１０４、２５０１、３６０２　探索物体特定部
　　１０５、２５０２　探索領域特定部
　　１０６　物体認識部（第２物体認識部）
　　１１０　画像蓄積装置
　　１２０　画像管理情報記憶部
　　１２１　基準物体領域管理情報記憶部
　　１２２　属性管理情報記憶部
　　１２３　属性・物体対応情報記憶部
　　１２４　探索物体管理情報記憶部
　　１２５　物体・大きさ対応情報記憶部
　　１２６　物体・探索領域種別対応情報記憶部
　　１２６ａ　領域値情報記憶部
　　１２７　探索領域パラメータ記憶部
　　１２８　探索領域管理情報記憶部
　　１２９　物体認識管理情報記憶部
　　１３０　物体・探索領域パラメータ記憶部
　　７０１　画像管理情報
　　８０１　人領域管理情報
　　９０１　属性管理情報
　１００１、２８０１　属性・物体対応情報
　１１０１、２９０１　探索物体管理情報
　１２０１、３００１　物体・大きさ対応情報
　１３０１、３１０１　物体・探索領域種別対応情報
　１４０１、３２０１　探索領域パラメータ情報
　１５０１　探索領域管理情報
　１６０１　物体認識管理情報
　１７０１　物体・探索領域パラメータ情報（領域値情報）
　２４０１、３５０１、４３０１　画像
　３６０１　撮影イベント特定部
　３６２１　イベント条件情報記憶部
　３６２２　撮影イベント管理情報記憶部
　３６２３　属性・イベント・物体対応情報記憶部
　４００１　イベント条件情報
　４１０１　撮影イベント管理情報
　４２０１　属性・イベント・物体対応情報
　４４０１　物体・場面情報

Claims

　画像内から第１物体を認識する第１認識手段と、
　認識された第１物体の属性を示す属性情報を算出する算出手段と、
　属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、
　前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、
　特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、
　を備えることを特徴とする画像認識装置。
　前記第２領域の特定に用いる値とは、前記第１領域に対する第２領域の相対的な位置関係を示す値である
ことを特徴とする請求項１に記載の画像認識装置。
　前記相対的な位置関係を示す値は、前記第１領域に基づく点に対する特定すべき第２領域内の点への移動の方向の値とその大きさの値とを含み、
　前記領域特定手段は、前記領域値情報を参照し、前記特定された識別子に対応する移動の方向の値とその大きさの値とに基づいて、認識された第１物体が占める第１領域に基づく点を移動させ、移動先の点を含む領域を前記第２領域として特定する
ことを特徴とする請求項２に記載の画像認識装置。
　前記相対的な位置関係を示す値は、前記第１領域の幅と高さとのそれぞれに対する特定すべき第２領域の幅および高さの比率の値を含み、
　前記領域特定手段は、前記領域値情報を参照し、前記特定された識別子に対応する幅と高さとのそれぞれの比率に基づいて特定すべき第２領域の幅と高さとを求め、前記移動先の点を含み求めた幅および高さを有する領域を前記第２領域として特定する
ことを特徴とする請求項３に記載の画像認識装置。
　前記第１認識手段は、複数の第１物体を認識し、
　前記算出手段は、認識された複数の第１物体毎に、それぞれの属性情報を算出し、
　前記物体対応情報は、複数の属性情報の組合せと第２物体を示す識別子とを対応付けており、
　前記物体特定手段は、前記物体対応情報を参照し、算出された複数の属性情報に基づいて、前記第２物体を示す識別子を特定する
ことを特徴とする請求項１に記載の画像認識装置。
　前記物体対応情報における前記組合せは、認識された複数の第１物体それぞれが占める第１領域同士の間隔に関する大きさの項目を含み、
　前記物体特定手段は、前記物体対応情報を参照し、算出された複数の属性情報と、認識された複数の第１物体それぞれが占める第１領域同士の間隔の大きさとに基づいて、前記第２物体を示す識別子を特定する
ことを特徴とする請求項５に記載の画像認識装置。
　前記領域値情報は、前記第２領域の特定に用いる値として、
　前記第１領域同士の間隔が第１値以上の場合には、前記各第１領域とは重ならない前記第１領域同士の間の領域を特定すべき第２領域とする旨の値と、
　前記第１領域同士の間隔が前記第１値より小さい第２値以下の場合には、前記画像内の前記第１領域と部分的に重なる領域を特定すべき第２領域とする旨の値とを含む
ことを特徴とする請求項５に記載の画像認識装置。
　前記物体対応情報は、前記属性情報とイベントとの組合せ毎に第２物体を示す識別子を対応付けたものであって、
　さらに、前記画像が撮影されたイベントを特定する撮影イベント特定手段を備え、
　前記物体特定手段は、前記物体対応情報を参照して、前記算出された属性情報に基づくことに加えて、前記特定されたイベントに基づいて、前記第２物体を示す識別子を特定する
ことを特徴とする請求項１に記載の画像認識装置。
　前記画像が撮影されたイベントを特定する撮影イベント特定手段と、
　イベントを構成する場面毎に第２物体の識別子を対応付けた場面情報を参照して、前記第２認識手段により認識された第２物体に対応する識別子に基づいて、認識対象とした画像の場面を判定する場面判定手段と、
を備えることを特徴とする請求項１に記載の画像認識装置。
　前記撮影イベント特定手段により特定されたイベント情報が同一のイベントをそれぞれ示す複数の画像に対して、逐次画像毎に前記各手段による処理を行う場合において、
　前記第２認識手段により前記複数の画像の内の一の画像において一の第２物体が認識された後、それ以降前記複数の画像の内の他の画像に対して前記物体特定手段が前記特定を行うときには、前記場面情報を参照し、その認識された第２物体の識別子の場面と同一の場面が対応付けられた第２物体の識別子に対応する第２物体については、その特定の対象から除外する
ことを特徴とする請求項９に記載の画像認識装置。
　画像内から第１物体を認識する第１認識ステップと、
　認識された第１物体の属性を示す属性情報を算出する算出ステップと、
　属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定ステップと、
　前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定ステップと、
　特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識ステップと、
　を含むことを特徴とする画像認識方法。
　コンピュータに画像認識処理を実行させるためのプログラムであって、
　前記画像認識処理は、
　画像内から第１物体を認識する第１認識ステップと、
　認識された第１物体の属性を示す属性情報を算出する算出ステップと、
　属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定ステップと、
　前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定ステップと、
　特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識ステップと、
　を含むことを特徴とするプログラム。
　画像内から第１物体を認識する第１認識手段と、
　認識された第１物体の属性を示す属性情報を算出する算出手段と、
　属性情報毎に第２物体を示す識別子を対応付けた物体対応情報を参照して、算出された属性情報に対応する第２物体を示す識別子を特定する物体特定手段と、
　前記第１物体が占める第１領域に基づいて第２領域を特定するために用いる値を第２物体を示す識別子毎に対応付けた領域値情報を参照して、特定された識別子に対応する値を用いて第２領域を特定する領域特定手段と、
　特定された第２領域を対象として、前記特定された識別子に対応する第２物体を認識する第２認識手段と、
　を備えることを特徴とする集積回路。