WO2011148562A1

WO2011148562A1 - 画像情報処理装置

Info

Publication number: WO2011148562A1
Application number: PCT/JP2011/002235
Authority: WO
Inventors: 亮一川西; 上野山　努; 小沼　知浩
Original assignee: パナソニック株式会社
Priority date: 2010-05-26
Filing date: 2011-04-15
Publication date: 2011-12-01
Also published as: JPWO2011148562A1; CN102906790A; JP5837484B2; CN102906790B; US8908976B2; US20130058579A1

Abstract

画像からオブジェクトを抽出する抽出手段と、抽出されたオブジェクトが向いている方向を算出する算出手段と、前記画像に、算出された方向に応じてタグを付与する付与手段とを備える。

Description

画像情報処理装置

　画像に分類用のタグの付与を支援する技術に関する。

　近年、DSC（Digital Still Camera）が広く普及しており、ユーザは気軽な写真撮影が可能となっている。このため、ユーザが保有する画像の枚数は膨大となってきており、ユーザが所望する画像を効率的に探せるように、画像のタグ付けを支援する技術が注目されている。

　非特許文献１では、複数の画像に写っている複数の顔を検出し、その後検出した複数の顔を類似性に基づきグループに分け、このグループに一括で名前タグを追加できるとしている。

特表2009-526495号公報特開2009-290255号公報特開2010-16796号公報特開2008-250444号公報

Google、「Picasa ウェブアルバムで名前タグを追加する」、[online]、[2010/04/27閲覧]、インターネット＜URL：http://picasa.google.com/support/bin/answer.py?hl=jp&answer=93973 Itti L, Koch C, Niebur E著、「A model of saliency-based visual attention for rapid scene analysis」、IEEE、1998年（Vol.20, No.11, pp.1254-1259） Yuji Yamauchi，Hironobu Fujiyoshi，Yuji Iwahori，and Takeo Kanade著、「People Detection Based on Co-occurrence of Appearance and Spatio-temporal Features」、National Institute of Informatics Transactions on Progress in Informatics、2010年（No. 7, pp. 33-42）

　従来の技術は、例えば画像内にあるユーザ「Ａさん」が写っていれば、「Ａさん」というタグをその画像に付与するというように、画像中の人の顔に着目して画像にタグ付けするものである。

　このように従来の技術は、画像に写っている人を識別するタグを付与できるものの、人ではなく画像自体の分類を的確に表すタグを付与できているとは言いにくい。

　ところで、本発明者らによる入念な検討の結果、画像に写っている人物の向きは、画像に対する適切なタグ付与の糸口として有効利用できるということを見出した。

　例えばポートレートの画像であれば、画像に写っている人物はカメラ方向（正面方向）を向いている可能性が高いと考えられる。また、例えば人が多数集まるパーティ会場の様子を撮影した画像であれば、画像に写っている人物は会話相手などの方向（カメラ方向ではない方向）を向いている可能性が高いと考えられる。

　本発明はこのような背景の下になされたものであって、人物などのオブジェクトの向きに着目することにより、適切なタグを画像に付与することができる画像情報処理装置を提供することを目的とする。

　本発明に係る画像情報処理装置は、画像からオブジェクトを抽出する抽出手段と、抽出されたオブジェクトが向いている方向を算出する算出手段と、前記画像に、算出された方向に応じてタグを付与する付与手段と、を備えることを特徴としている。

　本発明に係る画像情報処理装置によれば、オブジェクトの向きに着目することにより、適切なタグを画像に付与することができる。

画像情報処理装置１０の機能ブロック図画像記憶部１２の記憶内容を説明するための図オブジェクト抽出部１４や算出部１６により行われる処理の全体的な流れを示す図顔の回転や向きの区分を表すテーブルを示す図オブジェクト情報記憶部１８の記憶内容を示す図（ａ）画像Ａを示す図、（ｂ）画像Ａにおける注目ベクトルの領域を示す図、（ｃ）注目ベクトルを示す図注目ベクトル情報記憶部２０の記憶内容を示す図タグ付与処理の流れを示すフローチャートタグ付与処理の流れを示すフローチャート（ａ）画像Ａの注目ベクトルなどを示す図、（ｂ）画像Ｂの注目ベクトルなどを示す図（ｃ）画像Ｃの注目ベクトルなどを示す図、（ｄ）画像Ｄの注目ベクトルなどを示す図タグ、タグの別名およびタグを示すアイコンの例を示す図画像情報処理装置１１の機能ブロック図注目領域設定処理の流れを示すフローチャート画像ＡのオブジェクトＯ３に関する注目度を設定するイメージを示す図（ａ）画像Ａの人物Ａ，Ｂ（オブジェクトＯ１～Ｏ４）に関する注目度を設定するイメージを示す図、（ｂ）画像Ａの人物Ｃ，Ｄ（オブジェクトＯ５～Ｏ８）に関する注目度を設定するイメージを示す図（ａ）画像Ａの総合注目度マップを示す図、（ｂ）画像Ａの注目領域を示す図（ａ）画像Ｄの総合注目度マップを示す図、（ｂ）画像Ｄの注目領域を示す図画像情報処理装置１００の機能ブロック図総合関心領域の設定処理の流れを示すフローチャート画像Ａの顕著性マップを示す図（ａ）画像Ａの総合関心度マップを示す図、（ｂ）画像Ａの総合関心領域を示す図画像情報処理装置１０２の機能ブロック図（ａ）画像Ｐを示す図、（ｂ）画像Ｐの中でタグ付与に用いるオブジェクトを示す図グループ化処理（手法２）の流れを示すフローチャート（ａ）画像Ｋを示す図、（ｂ）画像Ｋを真上から見たときの注目ベクトルを示す図画像Ａを示す図画像情報処理装置１０４の機能ブロック図領域設定処理の流れを示すフローチャート（ａ）画像Ｌを示す図、（ｂ）画像Ｌにおいて収束している位置を示す図画像Ｍを示す図インデクスを説明する図画像群を時間軸上で示す図画像情報処理装置１０６の機能ブロック図アルバムの例を示す図スライドショーの例を示す図

　（実施の形態１）
　図１に示すように、画像情報処理装置１０は、画像記憶部１２、オブジェクト抽出部１４、算出部１６、オブジェクト情報記憶部１８、注目ベクトル情報記憶部２０、付与条件記憶部２２、付与部２４、入力Ｉ／Ｆ（インターフェイス）部２６、出力Ｉ／Ｆ部２８、画像タグ記憶部３０を備える。なお、各種記憶部１２，１８，２０，２２、３０はＨＤＤ（Hard Disk Drive）やＲＡＭ（Random Access Memory）などのハードウェアから構成される。なお、画像情報処理装置１０としては、一般的なＰＣ（Personal Computer）を用いることができる。

　画像記憶部１２は、多数の画像を記憶している。

　図２を用いて、画像記憶部１２の記憶内容について説明する。

　図２に示すように、画像記憶部１２は、"画像Ａ"、"画像Ｂ"、"画像Ｃ"と多数（例えば、数千枚）の画像を記憶している。

　これらの画像は、ユーザが家庭内で扱っている画像であり、例えばデジタルムービーカメラ１を用いてユーザが撮影した動画中の画像（フレーム画像）や、ユーザがＤＳＣ（Digital still camera）２を用いて撮影した画像である。

　機能ブロックの説明を続ける。

　オブジェクト抽出部１４は、画像記憶部１２が記憶する画像を対象として、画像に含まれる人物の体と人物の顔のオブジェクトを抽出する。ここで人物の体のオブジェクトとは、人体全体のオブジェクトであり、人物の顔（頭部）、胴体、および手足を含む。なお、人物の体のオブジェクトとして上半身だけを抽出する方法も採用し得る。

　この抽出の手法は一般的なものである。

　例えば、人物の顔の認識・抽出に関しては、特許文献４（特開2008-250444号公報）に記載されている抽出の手法を利用することができる。また、抽出した顔認識して、その種類を分類することを行ってもよい。

　また、人物の体の認識・抽出に関しては、非特許文献３に記載された手法を利用することができる。

　算出部１６は、人物の顔や体がその画像において占めている割合を示す占有割合の大きさを求める。

　また、算出部１６は、オブジェクト抽出部１４が抽出した人物に関する情報に基づいて、人物の顔や体の回転や向きを算出する。

　そして、算出部１６は、算出した結果をベクトル情報記憶部１８に記憶させる。

　オブジェクト抽出部１４や算出部１６により行われる処理の全体的な流れについて、図３を用いて説明する。

　図３に示すように、ひとりの人物が写っている画像Ｘを抽出や算出の対象画像であるとする。オブジェクト抽出部１４は、画像Ｘから人物の顔と体を抽出する（Ｓ１）。

　そして、算出部１６は、抽出された人物の体および顔それぞれについて回転や向きを求める（Ｓ２）。

　そして、算出部１６は、抽出された人物の体を囲む矩形領域の面積（Ｓ_Ｂ）を、画像Ｘ全体の面積（Ｓ_Ａ）で除することにより人物の体の占有割合を算出する。同様に、人物の顔を囲む矩形領域の面積（Ｓ_ｃ）を画像Ｘ全体の面積（Ｓ_Ａ）で除することにより人物の顔の占有割合を算出する（Ｓ３）。

　最後に、算出部１６は、各オブジェクトの「回転」「向き」「占有割合」などに基づいて注目ベクトルを算出する（Ｓ４）。

　続いて、算出部１６において、人物の顔の向きや回転を算出するステップＳ２の詳細について説明する。

　算出部１６は、オブジェクト抽出部１４により抽出された人物の顔を、図４に示すようなテーブル１７と照らし合わせることにより、顔の回転や向きを決定する。

　テーブル１７は、ａ："-90～-25.5"、ｂ："-25.5～25.5"、ｃ："25.5～90"（いずれの範囲も単位は角度）の横回転に関する３つの区分を示す「回転」１７ａと、Ａ："-90～-67.5"、Ｂ："-67.5～-25.5"、Ｃ："-25.5～25.5"、Ｄ："25.5～67.5"、Ｅ："67.5～90"の顔向き度に関する５つの区分を示す「向き」１７ｂとを含む。特に「向き」１７ｂの区分Ｃは、顔が正面向きであることを示している。

　なお、顔でなく体の場合の向きを判定する方法に関しては、（１）移動する人物のフレーム間差分から得られる移動方向から判定する方法、（２）向き別のモデルで行うマッチング結果を利用する方法、などの手法を算出部１６は用いることができる。

　算出部１６はテーブル１７に準じたテーブルに基づいて「回転」と「向き」との区分を決定する。そして決定した区分をオブジェクト情報記憶部１８に記憶させる。

　図５に示すように、オブジェクト情報記憶部１８は、画像毎に、画像内に含まれるオブジェクトそれぞれについての「種別」、「向き」、「回転」、「占有割合」の項目を含むオブジェクト情報を記憶する。

　「種別」は、オブジェクトの種別を示し、「顔」、人物の上半身を示す「人（上）」などの値がある。

　「向き」は、種別が顔の場合は、図４のテーブル１７に対応する向きの区分を示す。種別が体の場合は体の向きの区分を示す。

　「回転」は、図４のテーブル１７に対応し、顔の回転の区分を示す（体の場合は体の回転の区分を示す。）。

　「占有割合」は、図３で説明したように、オブジェクトがその画像において占めている割合である。

　図６（ａ）は、画像Ａからオブジェクトを抽出する様子を示す図である。画像Ａは、画像手前右の人物2名（人物Ａ，人物Ｂ）、画像左の人物2名（人物Ｃ，人物Ｄ）、タワー、雲などが写っている。

　オブジェクト抽出部１４は、Ｏ１，Ｏ２，Ｏ５，Ｏ６の人物の顔と、Ｏ３，Ｏ４，Ｏ７，Ｏ８の人物の体との合計８個のオブジェクトを抽出する。なお、本実施の形態では、オブジェクト抽出部１４は、画像に含まれる人物のオブジェクトのみを抽出して、タワーなどの物体は抽出しないとしている。

　そして、算出部１６は、抽出された８個のオブジェクトそれぞれについて、その「種別」、「向き」、「回転」、「占有割合」を算出する。

　例えば、算出部１６は、オブジェクトＯ１に関しては、「種別」が顔、「向き」が正面を示す区分である"Ｃ"、「回転」が回転無しを示す"ｂ"、「占有割合」が"3.7%"と算出してオブジェクト情報記憶部１８に記憶させる。

　抽出後、算出部１６は、人物の体の領域の中に、顔の領域を含んでいれば、その顔と体とを同一人物のものであると認識する。例えば図６（ａ）の画像Ａにおいては、Ｏ１とＯ３とを人物Ａ、Ｏ２とＯ４とを人物Ｂ、Ｏ５とＯ７とが人物Ｃ、Ｏ６とＯ８とが人物Ｄというように認識する。

　認識後、算出部１６は、認識した人物に領域を設定する。

　この領域の設定は人物ごとに設定しても構わないが、本実施の形態では、距離が近い人物どうしをまとめてひとつの領域として設定している。

　例えば、図６（ａ）の画像Ａにおいては、人物Ａと人物Ｂとの距離が近い（例えば、10ピクセル以内。）ので、算出部１６は、人物Ａと人物Ｂの占める領域を「領域１」と設定する。また同様に、算出部１６は、人物Ｃと人物Ｄの占める領域を「領域２」と設定する。各領域１，２を図６（ｂ）に示す。

　領域の設定後、算出部１６は、領域に含まれるオブジェクトのオブジェクト情報をオブジェクト情報記憶部１８から取得し、取得したオブジェクト情報に含まれるオブジェクトの「向き」、「回転」、「占有割合」に基づいて注目ベクトルを求める。

　具体的には、あるオブジェクトの「向き」と「占有割合」とに基づいて、注目ベクトルの向き成分を求め、あるオブジェクトの「回転」と「占有割合」とに基づいて、注目ベクトルの回転成分を求める。

　例えば、図６（ａ）の画像Ａの例においては、算出部１６は、Ｏ１～Ｏ４を含む領域１から、まず顔のオブジェクトであるＯ１，Ｏ２それぞれの「向き」（"Ｃ"，"Ｃ"）を取得する。そして、算出部１６は「向き」Ｃで、Ｏ１，Ｏ２の「占有割合」"3.7"に対応する大きさのベクトルＶ_{Ｏ１，Ｏ２}を求める（算出の具体的な式は後述の式１参照）。

　なお、ベクトルＶ_{Ｏ１，Ｏ２}は、Ｖ_Ｏ１，Ｖ_Ｏ２の２つのベクトルを別々に算出したのちに両者を合成することで求めてもよい。

　また、ベクトルの大きさについては、「占有割合」だけでなく、顔認識の精度を示す値であるマッチング精度を用い、このマッチング精度が高ければ高いほど（顔である確からしさが高いほど）ベクトルの大きさを大きくするようにしてもよい。

　ベクトルＶ_{Ｏ１，Ｏ２}と同様に、算出部１６は、領域１から体のオブジェクトであるＯ３，Ｏ４に係るＶ_{Ｏ３，Ｏ４}を求める。

　このようにして算出部１６が算出した注目ベクトル１，２の向き成分・回転成分を図６（ｃ）に示す。

　図６（ｃ）左側の注目ベクトル１，２の向きの成分は、画像Ａを真上から見たと仮定した際の方向を表している。このため、Ｖ_{Ｏ１，Ｏ２}やＶ_{Ｏ３，Ｏ４}が向いている図中下方向は、正面方向を示している。

　図６（ｃ）右側の注目ベクトルの回転の成分は、その大きさが非常に小さいため存在していないものとして扱っている。

　算出部１６による注目ベクトルの算出に用いる式の例を以下説明する。

　オブジェクト数をｋ、オブジェクトの占有割合をＲ_ｊ［％］、オブジェクトのベクトルの向きをＤ_ｋ［度］、注目ベクトルの区分数をｉ、各区分の最小角度をＭｉ_ｉ、最大角度をＭａ_ｉとすると、注目ベクトルの大きさＦ（ｉ）は、

の（式１）によって算出することができる。

　注目ベクトル情報記憶部２０の記憶内容を図７に示す。

　図７に示すように、注目ベクトル情報記憶部２０は、画像毎に、画像内にある注目ベクトルについての「種別」、その「大きさ」、ベクトル算出に際して占有割合として用いた「領域」の項目を記憶する。

　図１に戻って機能ブロックの説明を続ける。

　付与条件記憶部２２は、タグの付与に関する条件を記憶している。具体的には、次の（１）～（５）の条件と、各条件に適合する組合せに対応して付与すべきタグの名称とを記憶している。なお、次の（１）～（５）の条件はあくまでも一例であって分岐の条件などは適宜変更することができる。

　（１）注目ベクトルの大きさが所定値以上（例えば、0.10以上）か。注目ベクトルが複数の場合は、いずれかの注目ベクトルの大きさが所定値以上であれば条件満足とする。

　（２）注目ベクトルの向きが正面か非正面か。

　（３）画像の一定以上の大きさの領域の数が２個以上か１個か。なお、この領域の大きさとは、その領域に対応する注目ベクトルの大きさであり、この
注目ベクトルの大きさが一定以上（例えば、0.15以上）のものを有効領域として数える。

　例えば、図７の画像Ａにおいて、領域１に対応する注目ベクトル１の大きさは0.23（≧0.15）なので領域１は有効領域とする。

　これに対して、画像Ａの領域２に対応する注目ベクトル２の大きさは0.11（＜0.15）なので領域２は有効領域としない。

　（４）（３）で２個以上のときのオブジェクトの配置が規則的か不規則的か。例えば、２個以上のオブジェクトの大きさのバラツキが一定の範囲内であれば配置が規則的とする。特に、オブジェクトの数が３個以上ならば、オブジェクトが並ぶ間隔が等間隔に近ければ規則的とする。

　（５）有効領域（画像内の領域のうち、（３）で領域と数えられた領域のこと。）のオブジェクトが人物か背景か。ここで、有効領域の占有割合が1/3以上（約33%以上）であれば人物とし、1/3未満であれば背景とする。なお、有効領域が複数の場合には、有効領域の占有割合を加算した値が1/3以上であるかどうか判断する。

　付与部２４は、注目ベクトル情報記憶部２０に記憶された注目ベクトル情報を、付与条件記憶部２０の記憶内容に照らし合わせることにより、画像毎にタグを付与する。

　なお、付与部２４がタグを付与するやり方は、一般的なものであり、画像とその画像に付与したタグを示す情報とを対応付けて画像タグ記憶部３０に記憶してもよい。これに限らず、各画像のＥｘｉｆ（Exchangeable Image File Format）データ内にタグを直接書き込むようにしてもよい。

　入力Ｉ／Ｆ部２６は、キーボード３やマウス４といった一般的な入力デバイスからの入力を受け付ける。

　出力Ｉ／Ｆ部２８は、ディスプレイ５に各種表示を行わせる。

　続いて、画像情報処理装置１００において、画像にタグを付与する動作の流れについて図８，図９を用いて説明する。なお、図８，図９の各ステップの処理主体は基本的に付与部２４である。

　まず、付与部２４は、付与対象の画像を特定する（Ｓ１１）。この特定は、出力Ｉ／Ｆ部２８がディスプレイ５にメニューなどを表示し、入力Ｉ／Ｆ部２６がユーザから入力を受け付けることで特定してもよい。あるいは、画像記憶部１２に新しい画像が追加されたことを契機として、その新しい画像を自動的に付与対象と特定してもよい。

　特定後、付与部２４は、注目ベクトル情報記憶部２０から特定した画像の情報を取得する（Ｓ１２）。例えば、画像Ａが付与対象として特定されたのであれば、画像Ａの注目ベクトル１，２（図７参照）の情報を取得する。

　そして、付与部２４は、注目ベクトルの大きさが所定値以上（例えば、0.1以上）かどうか判断する（Ｓ１３）。このステップＳ１３は、画像における注目性の有無を判断するものである。

　所定値未満と判断すると（Ｓ１３：Ｎｏ）、付与部２４は、人のオブジェクト数を数え（Ｓ２０）、１以上であれば「街中風景」のタグを付与し、０であれば「自然風景」のタグを付与する（Ｓ２１）。

　これに対して、所定値以上と判断すると（Ｓ１３：Ｙｅｓ）、付与部２４は、注目ベクトルの向きが正面か非正面か判断する（Ｓ１４）。

　正面と判断すると（Ｓ１４：正面）、付与部２４は、対応する注目ベクトルの大きさが一定以上である領域（有効領域）の数を数える（Ｓ１５）。２以上であれば（Ｓ１５：２以上）、配置が規則的か不規則的かを判定する（Ｓ１６）。

　ステップＳ１７～Ｓ１９の３つのステップは同様のステップであり、付与部２４は、有効領域の占有割合が1/3以上かどうか判断する。なお、有効領域が２個以上の場合は、それぞれの占有割合を加算した総占有割合を判断対象とする。

　通常、人が大きく写った画像は、占有割合は1/3以上となる（Ｓ１７：1/3以上，Ｓ１８：1/3以上，Ｓ１９：1/3以上）ので、付与部２４は、ポートレート系統のタグを付与することとなる（Ｓ２１）
　これに対して、人が小さく写って背景が大きく写った画像は、占有割合は1/3未満となり（Ｓ１７：1/3未満，Ｓ１８：1/3未満，Ｓ１９：1/3未満）、付与部２４は、ランドマーク系統のタグを付与することとなる（Ｓ２１）
　なお、ステップＳ１４において、非正面と判断すると、図９のフローに移行する。図９のステップＳ２３は図８のステップＳ１５と同様、ステップＳ２４はステップＳ１６と同様、ステップＳ２５～Ｓ２７は、ステップＳ１７と同様、ステップＳ２８はステップＳ２１と同様であるので説明を省略する。

　次に図８，図９のフローに沿って、画像Ａ～画像Ｄにタグを付与する流れについて図１０～図１１を参照しながら説明する。

　・画像Ａ（図１０（ａ））
　付与部２４は、注目ベクトル情報記憶部２０から画像Ａに対応する注目ベクトル情報（注目ベクトル１，２）を取得する（Ｓ１２）。

　注目ベクトル１の大きさは、"0.23"（図７参照）と"0.10"より大きいので、ステップＳ１３はＹｅｓとなる。そして、図６（ｃ）に示すように、注目ベクトル１，２の向き成分については、正面を向いたＶ_{Ｏ１，Ｏ２}やＶ_Ｏ3，Ｏ4が、左向きのＶ_{Ｏ５，Ｏ６}やＶ_{Ｏ７，Ｏ８}と比べて十分大きいので、付与部２４は、向き成分を正面と判定する（Ｓ１４：正面）。

　ステップＳ１５の領域の数については、領域１に対応する注目ベクトル１の大きさが"0.23”、領域２に対応する注目ベクトル２の大きさが"0.11"であるので、大きさ"0.15"以上の領域は領域１の1個である（Ｓ１５：１）。つまり、領域１は有効領域であるのに対して、領域２は有効ではない領域（無効領域）となる。

　画像Ａの有効領域は領域１のみであり、領域１の占有割合は1/3未満であるので、付与部２４は、有効領域の占有割合を1/3未満と判断する（ステップＳ１９：1/3未満）。

　この結果、付与部２４は、画像Ａに"ランドマーク３"のタグを付与する。

　・画像Ｂ（図１０（ｂ））
　画像Ｂは、カメラを向いたふたりの人物が並んで写っている画像である。

　画像Ａと同様、注目ベクトルが正面向きで（Ｓ１４：正面、Ｓ１５：１）、一定以上の大きさの領域の数が１個である。

　もっとも、画像Ａと異なり、画像Ｂの有効領域の大きさは1/3以上である（Ｓ１９：1/3以上）。

　この結果、付与部２４は画像Ｂに"ポートレート３"のタグを付与する。

　・画像Ｃ（図１１（ｃ））
　画像Ｃは、自転車で移動する複数の人物が写っている画像である。

　注目ベクトルの成分のうち、特に「向き」成分は斜め左下方向であるので、付与部２４は注目ベクトルの向きを非正面と判断する（Ｓ１４：非正面）。

　また、付与部２４は、有効領域の数が２個と判断し（Ｓ２３：２以上）、２個の有効領域の大きさは同程度であるので、配置は規則的と判断する（Ｓ２４：規則的）。

　また、２個の有効領域の占有割合を加算して得られる総占有割合が1/3以上である（Ｓ２５：1/3以上）ので、付与部２４は、"人物周辺１"のタグを付与する。

　・画像Ｄ（図１１（ｄ））
　画像Ｄは、犬を呼ぶ人物が写っている画像である。

　注目ベクトルの向き・回転成分はともに斜め左下方向であるので、付与部２４は注目ベクトルの向きを非正面と判断する（Ｓ１４：非正面）。

　また、有効領域の数は１個であり（Ｓ２３：１）、その有効領域の占有割合は1/3未満であるので（Ｓ２７：1/3未満）、付与部２４は、"注目対象３"のタグを付与する。

　上に述べた"ランドマーク３"などのタグは、ユーザにタグの意味をすぐ把握できるようにするために図１２に示すような別名やアイコンを関連付けてもよい。

　以上説明したように本実施の形態によれば、各画像における注目ベクトルに基づいて、各画像にタグを付与することが可能となる。このようなタグは、画像の分類、画像の検索利用、または、ユーザがタグから画像の内容を理解する手がかりとして有用である。

　（実施の形態２）
　本実施の形態２は、画像内のオブジェクトの注目ベクトルを総合的に考慮し画像内における注目度の高低を算出し、特に注目度が高い領域を抽出する仕組みに関するものである。

　具体的には、画像における注目ベクトルの向きとその注目ベクトル算出の基礎とした領域とに基づいて、画像内にオブジェクトが注目していると推定される領域（注目領域）を設定する。

　なお、本実施の形態において、実施の形態１と同じ機能を有する構成には同じ符号を付して、その説明を省略する。

　図１３は、実施の形態２に係る画像情報処理装置１１の機能ブロック図である。

　画像情報処理装置１１は、注目度マップ算出部３２と、領域設定部３４を備える。

　注目度マップ作成部３２は、画像に含まれるオブジェクト毎に、対応する注目度マップを生成する。この注目度マップは、画像が撮影された状況において注目された程度を示す注目度を画像上に示すものである。つまり注目度が高い箇所は、その画像の撮影状況において注目された可能性が高いことを示す。その画像の撮影者が注目した可能性が高いとも言える。

　そして、注目度マップ作成部３２は、生成した注目度マップをすべて加算することにより総合注目度マップを生成する。

　領域設定部３４は、上記総合注目度マップにおいて、注目度が閾値以上の矩形領域を注目領域として設定する。

　次に、注目度マップ作成部３２による注目度の高低の決め方について説明する。図１４のフローに示すように、注目度マップ作成部３２は、オブジェクト情報記憶部１８および注目ベクトル情報記憶部２０から必要な情報を取得する（Ｓ３１）。

　そして、注目度マップ作成部３２は、画像内の１つのオブジェクトをマップの作成対象に設定する（Ｓ３２）。

　続いて、注目度マップ作成部３２は、対象にしたオブジェクトに係るオブジェクト情報・注目ベクトル情報を基に注目度マップを作成する（Ｓ３３）。

　ステップＳ３３をさらに説明すると、次の（１）～（３）の流れとなる。

　（１）対象にしたオブジェクトの注目ベクトルの方向を特定する。

　（２）画像において、オブジェクトの重心を起点（オブジェクトが占めている領域であれば起点はこれに限られない。）として、特定した方向の余白と、特定した方向と反対方向の余白とのいずれが広いかを決定する。

　（３）オブジェクトが占めている領域に対して余白が広い側に、特定した方向の軸に近いほど高い注目度を割りふる。

　このような処理を行うのは、余白が狭い側と比べて広い側の方が画像が撮影された状況下で撮影者などが注目したであろうと推測できるからである。例えば、画像Ａ（図６（ａ）参照）では、画像Ａの手前に写る２人の人物Ａ，Ｂの後ろのタワーが注目されたであろうと考えられる。

　さらに具体的に、画像Ａの体のオブジェクトＯ３を基に、画像Ａ内に注目度マップを作成する例を説明する。

　図１５に示すように、オブジェクトＯ３の注目ベクトルは画像Ａの下方向となっている。オブジェクトＯ３が占めている領域を基準に、この注目ベクトルの下方向の余白と、上方向の余白とを比べると、上方向の余白の方が広い。したがって、オブジェクトＯ３が占めている領域に対して、上方向側に高い注目度を設定する。

　図１４のフローの説明を続ける。注目度マップ作成部３２は、注目度マップが未作成なオブジェクトが無くなるまで、ステップＳ３２，Ｓ３３の処理を繰り返す（Ｓ３４）。画像Ａ（図６参照）の場合は、Ｏ１～Ｏ８の８つのオブジェクトが存在するので、注目度マップ作成部３２はステップＳ３２，Ｓ３３を８回繰り返して、８個分の注目度マップを作成することとなる。

　そして、注目度マップ作成部３２は、すべての注目度マップの加算することにより、総合注目度マップを算出する（Ｓ３５）。図１６（ａ）に画像Ａの人物Ａ，Ｂ（Ｏ１～Ｏ４）に対応する注目度マップを示し、図１６（ｂ）に画像Ａの人物Ｃ，Ｄ（Ｏ５～Ｏ８）に対応する注目度マップを示す。人物Ｃ，ＤのオブジェクトＯ５～Ｏ８はその大きさが比較的小さいため、図１６（ｂ）の注目度マップは、図１６（ａ）のものに比べて比較的低い値の注目度の分布となっている。

　算出後、領域設定部３４は、総合注目度マップにおいて、閾値Ｔｈ以上の領域を注目領域と設定する（注目領域として抽出する。）（Ｓ３６）。

　この設定について画像Ａの例を用いて説明すると、注目度マップ作成部３２は、図１６（ａ），図１６（ｂ）の注目度マップを加算することにより、図１７（ａ）に示す総合注目度マップを作成する。領域Ａは注目度が存在する領域である。図１７（ｂ）に示すように、領域設定部３４はこの領域Ａの中でも、閾値Ｔｈ以上の領域を囲む矩形領域Ｂを注目領域として設定する。

　図１８に、画像Ｄ（図１１（ｄ）参照）の総合注目度マップと注目領域である領域Ｃを示す。

　上に述べたように、本実施の形態によれば、画像内に、その画像の撮影状況において注目された可能性が高いことを示す注目領域を設定することができる。

　上では、注目度マップ作成部３２によるマップ作成の考え方を簡単を説明したに留めたが、より厳密には下記のような式を用いて算出することができる。

　すなわち、基本的にはオブジェクトの大きさと方向とその方向からの距離に応じて注目度の高低を算出する。なお、注目性が有り正面向きである場合、顔からは画像内の注目方向を推定しにくいため、主に人体の方向を用いて注目度を算出する。

　オブジェクト数をＮ、オブジェクト番号をｋ、人体の大きさをｈｈ_ｋ、人体の方向からの垂直距離をｈｄ_ｋ、画像サイズの正規化及び領域サイズの重み付けを行うための定数をｈｗ_ｋとすると、ｉ番目の注目ベクトルの注目度マップＦｈ（ｉ）は、

の（式２）によって算出される。

　ただし、画像全体の領域に対してオブジェクト領域から見て非オブジェクト領域が最大の方向にのみ有効であるとする。

　また、ｈｄ_ｋの算出には、人体の向きと回転方向を合成し、２次元画像内での方向に変換する。

　また、注目性が有り非正面向きである場合には、主に顔から画像内の注目方向を推定できるため、主に顔の方向を用いて注目度を算出する。

　顔のオブジェクト数をＱ、オブジェクト番号をｐ、顔の大きさをｆｈ_ｐ、顔の方向からの垂直距離をｆｄ_ｐ、画像サイズの正規化及び領域サイズの重み付けを行うための定数をｆｗ_ｐとすると、ｊ番目の注目ベクトルの注目度マップＦｆ（ｊ）は、

の（式３）によって算出される。

　また、オブジェクトとして同一人物から得られる顔と人体であった場合、顔に対する注目度の重みをｃｗ１、人体に対する重みをｃｗ２として融合される人物Ｘの注目度マップＦａ（ｘ）は、

の（式４）によって算出される。

　なお、オブジェクトとして人物特に顔と人体の検出情報を利用する場合のみを説明したが、検出可能な情報として、例えば犬や猫などのペットや一般物体認識であっても確度が高く検出可能な物体であれば、オブジェクト情報として利用する事が可能である。注目度マップの算出に関してもオブジェクトの種類毎に重み付けを変えて利用する事や、画像の構成種別毎にその利用するオブジェクトの種類及び重み付けの値を変更することが考えられる。

　また、注目性が有り正面向きでかつ有効領域がオブジェクトである人に占有されている場合つまり中心占有領域が１/３以上である場合は、画像内に特に算出する注目領域が無いと判断して注目度の算出を行わないことも考えられる。

　注目領域の用途は様々であり、次の（１）～（３）が挙げられる。

　（１）注目領域（および注目度マップ）を可視化してユーザが領域選択する際の補助情報として利用できる。

　（２）注目領域の画像だけを切り出してサムネイル画像化の様な編集用途に応用できる。

　（３）注目領域は特徴量（例えば、エッジ情報、テクスチャ、輝度や色情報など）の抽出対称として設定し、抽出した特徴量を用いてより適切なタグを付与することができる。例えば、注目領域内から緑色成分が多く抽出されたのであれば、「緑色」というタグを付与したり、緑色と親和性の高い自然風景系統のタグを付与することができる。また例えば、画像Ａの注目領域である領域Ｂから「タワー」という建造物が抽出されたのであれば、「タワー」をタグとして付与することもできる。

　（実施の形態３）
　実施の形態３は、撮影状況におけるオブジェクトの注目度合いだけではなく、撮影された画像を閲覧する際の情報（例えば顕著性マップ）を考慮することで、より適切なタグ付与を可能にしようとするものである。

　実施の形態３に係る画像情報処理装置１００は、図１９に示すように、顕著性マップ作成部３６、被写界深度マップ作成部３８、検出内容判定部４０、総合関心度マップ作成部４２を備える。他の機能ブロックは、図１３と同様のため説明を省略する。

　顕著性マップ作成部３６は、画像において、どの部分が人の注意を引き、どの部分が注意を引かないかという、人の視覚注意の強弱を表すマップである顕著性マップ(Saliency Maps)を作成する。

　この作成の手法は、入力画像の輝度成分（intensity）、色成分（colors）および方向成分（orientations）を基に所定の演算を行うことにより作成するものである。詳細は、非特許文献２[Itti L, Koch C, Niebur E著、「A model of saliency-based visual attention for rapid scene analysis」、IEEE、1998年（Vol.20, No.11, pp.1254-1259）]などに記載された一般的な技術を用いることができるので説明を省略する。

　被写界深度マップ作成部３８は、画像において、どの部分が被写界深度が深いか、どの部分が被写界深度が浅いかという、被写界深度の深浅を示す被写界深度マップを作成する。

　検出内容判定部４０は、オブジェクト情報記憶部１８または注目ベクトル情報記憶部２０における「種別」（図７参照）または注目度マップ作成部３２が作成した総合注目度マップの値に応じて検出すべき内容を判定する。

　判定の例としては、ポートレート系の画像は人物を中心にタグ付けを行うので検出を行わない。また、ランドマーク系の画像では、人物より手前に注目領域がある場合や背景に物体系がある場合には、建物系を中心に探索を行う。人物周辺系の画像では、人物を中心に人が身につけているまたは保持している物体系を中心に探索を行う。注目対象系の画像では、注目領域の内部に物体が存在するかどうかを判定する。

　本実施の形態３では、実施の形態２で説明した総合注目度マップと、顕著性マップ（または被写界深度）とを掛け合わせた総合注目度マップを作成し、総合注目度マップを基に領域（総合関心領域）を設定することを行う。

　この処理の流れを図２０を参照しながら説明する。

　まず、検出内容判定部４０は、画像の総合注目度マップから検出内容を判定する（Ｓ４１）。

　続いて、顕著性マップ作成部３６は、顕著性マップを作成する（Ｓ４２）。

　総合関心度マップ作成部４２は、注目度マップ作成部３２により作成された総合注目度マップと、顕著性マップとを掛け合わせることにより総合関心度マップを作成する（Ｓ４３）。

　そして、領域設定部３４は、総合関心度マップにおいて、閾値以上の領域を総合関心領域として設定（抽出）する（Ｓ４４）。

　この一連の処理の流れを画像Ａの例に用いて説明する。

　図２１は、顕著性マップ作成部３６が作成した画像Ａの顕著性マップである。４人の人物Ａ～Ｄが存在する矩形領域、人物Ｃ，Ｄの背後に存する２つの雲に対応する領域、人物Ａ，Ｂの背後に存するタワーに対応する領域などが顕著性が高くなっている。

　図２２は、総合関心度マップ作成部４２が、図２１の顕著性マップと、図１７（ａ）の総合注目度マップとを掛け合わせることにより作成した総合関心度マップを示す。

　図２１の顕著性マップでは、人物Ａ，Ｂの背後のタワーの顕著性が比較的高く、しかも図１７（ａ）の総合注目度マップにおいても、人物Ａ，Ｂの背後の注目度が比較的高かったので、図２２の総合関心度マップにおいてもタワー付近の領域が特に高い総合関心度となっている。

　領域設定部３４は、総合関心度が閾値Ｔａ以上である領域を含む矩形領域Ｄを総合関心領域として設定することとなる。

　以上説明したように実施の形態３によれば、人間が画像を見た際に注目し易い部分を示す顕著性マップを用いて、より妥当な領域を設定することができる。

　例えば、図２２では、領域Ｄ（総合関心領域）はちょうどタワーを囲む位置であるので、領域Ｄを各種特徴量の抽出対称とすれば、タワーを検出することができ、タワーに関係するタグを付与することができる。

　なお、図２０のステップＳ４２，Ｓ４３においては、顕著性マップの代わりに被写界深度マップを用いても構わない。被写界深度には、画像の撮影意図（ピントを度合いをどう合わせるかなど）が反映されていることが多いのでより適切な領域設定を期待できる。

　あるいは、総合注目度マップ×顕著性マップ×被写界深度マップというように、３種類のマップを組み合わせて総合関心度マップを算出するようにしても構わない。

　また、検出内容判定部４０が判定した画像の種別は、種別毎に利用する視覚特性情報や撮影者意図情報の種類を変えたり種類毎に重み付けをすること等が考えられる。

　なお、顕著性マップは、人間の視覚注意性を数式モデル化した手法であれば上で説明したタイプの顕著性マップに限られない。

　（実施の形態４）
　実施の形態４は、画像内に多数のオブジェクトが存在する場合に、重要なオブジェクト（そのオブジェクトを含む領域）と、些末なオブジェクト（そのオブジェクトを含む領域）とに選別し、些末なオブジェクトはノイズとみなしてタグの付与の考慮から除外する。

　これにより、タグ付与に用いるオブジェクトを絞り込んで処理負荷を軽減したり、妥当なタグの付与を図ったりする。

　図２３は、画像情報処理装置１０２の機能ブロック図である。図１と同じ機能ブロックについては同じ符号を付して説明を省略する。

　画像情報処理装置１０２は、選別部４４を備える。

　選別部４４は、画像内の多数のオブジェクトを上述の重要なオブジェクトと些末なオブジェクトとに選別するものである。

　選別の手法には、
　（１）手法１：複数の人物から一部の人物のみを重要なオブジェクトとして選別する。

　（２）手法２：複数の人物のうちの一部の人物をグループ化し、グループ化された人物を重要なオブジェクトとして選別する。

　この２種類がある。

　まず、手法１について説明する。

　図２４（ａ）に示すように、画像Ｐは、１０名の人物ａ～人物ｊが写っている画像である。図中に示す実線矢印は各人物に対応する注目ベクトルである。

　この画像Ｐは、人の多い街中で撮影されたため、人物ａ～人物ｂだけでなく人物ｃ～人物ｊも写っている。

　選別部４４は、人物ａ～人物ｊの中で信頼性が高い人物のみを選別する。

　この信頼性は、人物として抽出されたときのマッチング精度や、その人物の領域の占有割合が大きさに基づいて定める。

　この結果、図２４(ｂ)に示すように、人物ａ，人物ｂの２名をタグ付与の基礎とするオブジェクトとすることができる。

　続いて、手法２について説明する。

　手法２は、複数の人物のうちの一部の人物をグループ化し、グループ化された人物を重要なオブジェクトとして選別するものである。

　図２５に示すように、選別部４４は、画像内に人物の領域が複数存在するかどうか判定する（Ｓ５１）。

　複数存在すれば（Ｓ５１：Ｙｅｓ）、算出部１６は、各人物の注目ベクトルを算出する（Ｓ５２）。

　そして選別部４４は、算出された複数の注目ベクトルの向きから多角形を検出し、多角形を構成する人物（人物を含む領域）をグループ化する（Ｓ５３）。

　最後に、選別部４４は、グループ化された人物を重要なオブジェクトとして選別する（Ｓ５４）。

　ここで、ステップＳ５３の処理の例を図２６を用いて説明する。

　図２６（ａ）の画像Ｋは、左側から人物Ｐ，Ｑ，Ｒ，Ｓの４名の人物が写った画像である。

　図２６（ｂ）は、画像Ｋを真上から見たと想定したときの４つの注目ベクトルを示す図である。選別部４４は、各注目ベクトルの向きと大きさとに基づいて、人物Ｐ，Ｒ，Ｓの注目ベクトルにより三角形を検出し、この三角形を構成する人物Ｐ，Ｒ，Ｓの３名をグループ化する。そして、選別部４４は、人物Ｐ，Ｒ，Ｓの３名を重要なオブジェクトとして選別し、人物Ｑについては些末なオブジェクトとして選別することとなる。

　手法２の変形例として、オブジェクトの注目ベクトルの類似性に基づいてグループ化しても構わない。

　例えば、図２７に示すように、注目ベクトルが共に正面向きの人物Ａ、人物Ｂの２名をグループ化し、また注目ベクトルが共に左向きの人物Ｃ，人物Ｄの２名をグループ化するようにしてもよい。

　（実施の形態５）
　実施の形態５は、画像から複数の線分を抽出し、抽出された複数の線分が収束する方向に収束領域を設定する。設定した収束領域は、実施の形態２の注目領域と同様、様々な用途に利用することができる。

　図２８は、画像情報処理装置１０４の機能ブロック図である。図１と同じ機能ブロックについては同じ符号を付して説明を省略する。

　エッジ抽出部４６は、画像の濃淡が急激に変化する場所をエッジとして抽出する。この抽出されたエッジは、円、曲線および線分など任意の２次元形状があり得る。

　領域設定部４８は、画像から抽出された複数の線分が収束する方向側に収束領域を設定する。

　図２９は、領域設定部４８により領域設定処理の流れを示すフローチャートである。

　まず、領域設定部４８は、エッジ抽出部４６から画像の線分を取得する（Ｓ６１）。

　そして、領域設定部４８は取得した線分に一定の収束性があるかどうかを判定する（Ｓ６２）。この収束性とは、各線分を延長した直線が一定の位置に集まっているか（収束しているか）どうかを判定するものである。

　収束性があれば（Ｓ６２：Ｙｅｓ）、領域設定部４８は、収束方向先または収束方向が存在する領域を設定する（収束領域として抽出する）（Ｓ６３）。

　例えば、図３０（ａ）に示すように、凱旋門が写っている画像Ｌにおいては、図３０（ｂ）に示すように、道路にペイントされた区画線やバスから抽出された線分をそれぞれ延長した軸（直線）が考えられる。

　そして、この複数の軸は一定の位置に収束している（一定の位置に集まっていて、その位置で多くの軸どうしが交差している）。

　領域設定部４８は、この位置を囲むようにして領域Ｅを設定する。

　なお、ステップＳ６２においては、取得した線分の中から主要な線分を用いて判定するようにしてもよい。

　実施の形態５に関しては以下の変形例（１）～（４）が考えられる。

　（１）領域の設定に用いる２次元形状は線分に限られない。

　例えば、特定の物体を大きく撮影している場合には、楕円型のエッジ特徴量が抽出される。このとき、領域設定部４８は、この楕円内の閉領域を領域設定の対象としてもよい。

　（２）上記収束領域と実施の形態２で説明した注目領域とを組み合わせて利用すること等も考えられる。

　また、ひとつの画像を構成する複数の要素を、その収束方向性の違いを利用することで、異なる種別に分類しても良い。

　（３）線分などの２次元形状はエッジ抽出部４６により抽出するとして説明したが、２次元形状の抽出方法はエッジを用いた手法に限られず、他の一般的な手法を利用できる。

　（４）画像の特徴量であれば、エッジの成分に限らず、テクスチャや輝度や色情報などを用いて収束領域を設定するとしてもよい。

　（実施の形態６）
　実施の形態６では、タグを付与した画像のそれぞれに、さらに詳細なインデクスを設定する。設定したインデクスは、個々の画像の分析、評価および画像検索に用いることができる。

　図３２を用いて説明する。

　（１）人中心のタグ（ポートレート、人物周辺）の画像に関しては、オブジェクト抽出部１４が、画像を対象に人認識処理（例えば、画像から顔領域を抽出して顔認識する処理など）を実行して画像に写っている人を特定する。

　そして、算出部１６が特定した人の種別（人インデクスの種別）や、種別毎の出現頻度を算出し、付与部２４は算出結果をインデクスとして設定する。

　（２）背景強調のタグ（ランドマーク、注目対象）の画像に関しては、算出部１６が、注目領域とその度合い（領域の大きさや注目の大きさの濃淡などを含む。）を算出する。

　また、注目領域内を対象にオブジェクト抽出部１４が物体認識を行い、付与部１６は、認識された物体の有無やその種別を示す情報をインデクスとして設定する。

　（３）人なしのタグ（街中風景、自然風景）の画像については、付与部１６は、風景の種別、その種別毎の出現頻度、物体認識の結果を示す情報をインデクスとして設定する。

　（実施の形態７）
　実施の形態７は、タグが付与された画像群（図３３参照）を対象としたアルバムやスライドショーの生成を支援する。

　図３４に示すように、画像情報処理装置１０６は、テンプレート記憶部５２および生成部５４を備える。他の機能ブロックは、図１の画像情報処理装置１０と同様なので説明を省略する。

　生成部５４は、テンプレート記憶部５２に記憶されたアルバムやスライドショーに関するテンプレートを用いて、アルバムおよびスライドショーを生成する。

　（１）アルバムの生成
　図３５（ａ）に示すように、テンプレート記憶部５２は、アルバムのレイアウト５２ａとテーブル５２ｂを記憶している。

　レイアウト５２ａは、フレームａからフレームｅまでの５つのフレームの配置を示す。テーブル５２ｂは、レイアウト５２ａ内のフレームとタグとの対応を示す。

　生成部５４は、レイアウト５２ａとテーブル５２ｂとに基づいて、各フレームに対応するタグが付与された１枚の画像を挿入することにより、アルバムを生成する。生成したアルバムの例を図３５（ｂ）に示す。

　なお、図３３のように、同一のタグが付与された画像が複数枚ある場合には、そのうちの１枚を選ぶこととなる。選択の方法は、ユーザからの受け付けに基づいて行うとしてもよいし、また、画像毎に設定されたインデクス（実施の形態６参照）に基づいて個々の画像のスコアを算出し、例えば最高のスコアの画像を自動的に選択するとしてもよい。

　このように、本実施の形態によれば、アルバムの生成を支援することができる。特に、その生成は、画像に付与されたタグを利用するので、人物、風景およびランドマークなどがバランス良く配置されたアルバムを作成することができる。

　なお、テンプレート記憶部５２に複数種類のアルバム用のテンプレートを用意しておき、その中から、アルバムのフレームに挿入予定の画像のタグの種類に応じたテンプレートを生成部５４が自動的に選択する（あるいは選択をユーザに薦める）ようにしても構わない。

　例えば、フレームに挿入予定の画像のタグが「自然風景」「街中風景」である場合には、生成部５４はテンプレート記憶部５２に記憶された複数種類のテンプレートの中から風景用のテンプレートを選ぶことが考えられる。

　他にも、挿入予定の画像のタグに応じてフレーム自体やその周辺のデコレーションを生成部５４が設定するとしてもよい。これらのデコレーションに関する情報は上記アルバム用のテンプレートに含まれることもあり得る。

　フレーム自体のデコレーションとしては、フレーム枠の大きさ、形及び枠の装飾などが考えられる。

　フレームの周辺のデコレーションとしては、タグの名称、タグの種類を示す記号及びタグを示すアイコンなどが考えられる。

　例えば、図３５（ａ）のフレームｃに挿入予定の画像のタグは「ポートレート」であるので、生成部５４はアルバム作成に際して、フレームｃの形を肖像画向けに楕円形と設定したり、フレームｃの枠を肖像画用の額縁に設定したり、フレームｃの周辺にタグの名称である「ポートレート」という文字列を表示したりするようにしても構わない。

　（２）スライドショーの生成
　生成部５４は、画像内の人物の領域および注目領域を利用してスライドショーを生成する。

　その例を図３６に示す。図３６のスライドショーでは、画像Ｄの人物の領域や注目領域をズームしたり、人物の領域から注目領域へとパンしたりというアクションパターンが設定されている。

　このように人物の領域や注目領域を利用して、アクションパターンの設定を容易にすることに貢献する。

　このアクションパターンとしては、図３６で説明した例に限られず、一般的なスライドショー作成アプリケーションやプレゼンテーションアプリケーションなどで用いられている各種パターンを設定することができる。

　なお、上記「アクションパターン」は、「アニメーション」と呼ばれたり、「視覚効果」と呼ばれることもある。

　また、テンプレート記憶部５２に複数種類のスライドショー用のテンプレートを用意しておき、その中から、スライドショーとして用いる画像のタグの種類に応じたテンプレートを生成部５４が自動的に選択する（あるいは選択をユーザに薦める）ようにしても構わない。

　例えば、画像Ｄのタグは「注目対象３」（個別注目写真）であるので、注目対象へのパン／スライドやズームのアクションパターンの使用に適している。このため、生成部５４はテンプレート記憶部５２に記憶された複数種類のテンプレートの中から、パン／スライドやズームを含むスライドショー用のテンプレートを選択することが考えられる。

＜補足１＞
　以上、本実施の形態について説明したが、本発明は上記の内容に限定されず、本発明の目的とそれに関連又は付随する目的を達成するための各種形態においても実施可能であり、例えば、以下であっても構わない。

　（１）オブジェクト情報記憶部１８や注目ベクトル情報記憶部２０における「種別」の項目は次のように利用できる。

　例えば、正面向きの画像の場合には体の向きが間接的に注目対象を表すことが多いため人体の注目ベクトルを重視してもよい。

　あるいは、非正面向きの場合には、顔の注目する方向に対象が存在することが多いため顔の注目ベクトルを重視してベクトル値を利用したりしても良い。

　（２）画像から、画像の基本的な属性情報を抽出し、抽出した属性情報を用いてタグを付与するとしてもよい。

　属性情報としては、例えば、ＥＸＩＦ(Exchangeable Image File Format)情報がある。このＥＸＩＦで規定される撮影日時やＧＰＳ（Global Positioning System）情報や撮影モード情報や各種撮影時のカメラパラメータ等の情報を利用できる。

　例えば、ＧＰＳの緯度経度から撮影位置が山中であると推定されるのであれば、自然風景のタグがより付与されやすいように、付与部２４の付与条件を変更するようにしてもよい。

　また、エッジや色やテクスチャ等の画像の基本的な低次特徴量を抽出する構成としても良い。

　（３）実施の形態２の総合注目度マップや、実施の形態３の総合関心度マップの作成の際には、画像の変化特性を表す基本的な特徴量や撮影時に取得可能なカメラパラメータ情報を用いても構わない。

　ここで、「画像の変化特性を表す基本的な特徴量」とは、画像の輝度情報、色情報、方向情報、エッジ情報やテクスチャ情報であり、「カメラパラメータ情報」とは、フォーカス領域情報、被写界深度情報、日時情報、場所情報、シャッター速度、感度、ホワイトバランスやフラッシュ情報などである。

　例えば、日時情報に示される時間帯が夜間であれば、夜間に親和性が高いタグ（例えば、夜景、パーティ、花火など）を付与したりすることができる。

　（４）付与部２４によりタグの付与に先立って、画像から特徴量の抽出を行い、その特徴量を用いて既存のモデルデータとのマッチング処理を行い、入力データがどのモデルと適合しているかの判定処理を行ってもよい。既存のモデルデータとしては、犬や猫や車等の一般物体や海や山等の風景シーン等が考えられる。

　そして、この判定処理で適合していると判定されたモデルを利用して付与部２４がタグを付与するようにしてもよい。

　（５）各実施の形態においては、図３、図６、図１０、図１１などの各種領域は矩形領域として説明したが、領域の形状は矩形に限らず円形、楕円形または多角形とすることができる。また、特に形状を限定せずに、画像のピクセル単位で領域を設定するようにしてもよい。

　（６）各実施の形態においては、図８のステップＳ２１のように、付与部２４は１枚の画像に対して１個のタグを付与するとしたが、１枚の画像に複数個のタグを付与してもよい。

　（７）各実施の形態では、抽出対象とするオブジェクトは、人であったがこれに限られない。例えば、犬や猫などのペット（生体）、あるいは草花、建造物、自動車などの物体でもよい。つまりは、抽出の対象として、ある程度の確度を維持して検出可能な物体であれば、抽出対象とすることができる。

　このような物体の抽出に関しては、物体の形状特徴を現すＨＯＧ（Histogram of Oriented Gradient）等を用いた方法を利用できる。

　また、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子であるＳＩＦＴ（Scale-Invariant Feature Transform）等の特徴量記述子を用いることも可能である。このＳＩＦＴについては、参考文献１（藤吉弘亘著「Gradientベースの特徴抽出- SIFTとHOG -」,情報処理学会研究報告 CVIM 160, pp. 211-224, 2007）に、詳細が記載されている。

　（８）各実施の形態では、図６（ｃ）の注目ベクトル１，２の向き成分において、ステップＳ１４の判断に際して、大きさが小さいＶ_{Ｏ５，Ｏ６}やＶ_{Ｏ７，Ｏ８}のベクトルは考慮から除くとして説明したが、２つの顔のベクトル（Ｖ_{Ｏ５，Ｏ６}とＶ_{Ｏ１，Ｏ２}）を合成し、合成したベクトルが正面向きかどうか判定するようにしてもよい。要は、画像内に、複数のベクトルの成分が存在する場合には、各種成分を総合して画像全体としてのベクトルを算出するようにすれば足りる。

　（９）図１などの各機能ブロックは、集積回路であるＬＳＩとしてもよい。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。

　（１０）実施の形態で示した動作などを各種情報処理装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路を介して流通させ頒布することもできる。

　このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ等の非一時的な（not-transitory）記録媒体がある。

　流通、頒布された制御プログラムは、プロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより実施の形態で示したような各種機能が実現されるようになる。
＜補足２＞
　本実施の形態は、次の態様を含むものである。

　（１）実施の形態に係る画像情報処理装置は、画像からオブジェクトを抽出する抽出手段と、抽出されたオブジェクトが向いている方向を算出する算出手段と、前記画像に、算出された方向に応じてタグを付与する付与手段と、を備えることを特徴とする。

　（２）前記算出手段は、前記抽出されたオブジェクトが前記画像内において占めている割合の大きさを算出し、前記付与手段は、算出された方向または大きさを基に、前記画像にタグを付与するとしても構わない。

　この構成によれば、付与手段は、算出された方向または、算出された大きさを基に、画像にタグを付与する。このため、算出された大きさの大小に応じてタグを付与することに資する。

　（３）前記抽出手段は、前記画像から人物の顔または人物の体を含む領域を前記オブジェクトとして抽出し、前記算出手段は、抽出された領域における人物の顔または体の、向きもしくは回転方向に基づいて前記方向を算出するとともに、前記抽出された領域における人物の顔または体が前記画像内において占めている割合に基づいて前記大きさを算出するとしても構わない。

　（４）前記抽出手段は、前記画像から複数のオブジェクトを抽出し、前記算出手段は、抽出されたオブジェクトそれぞれについて、当該オブジェクトが注目している方向と前記画像内において占めている割合の大きさとからなるベクトルを算出し、算出した複数のベクトルを総合して、前記画像全体のベクトルを計算し、前記付与手段は、計算された前記画像全体のベクトルの方向または大きさに基づいて、前記画像にタグを付与するとしても構わない。

　（５）前記付与手段は、前記画像全体のベクトルの方向が、正面であればポートレートであることを示す第１タグを付与し、正面でなければ前記第１タグとは異なる第２タグを付与するとしても構わない。

　この構成によれば、画像全体のベクトルの方向に応じて、ポートレートであることを示す第１タグあるいは第１タグとは異なる第２タグを付与することができる。

　（６）前記付与手段は、前記画像全体のベクトルの大きさが、所定値よりも大きければ人物を注目していることを示すタグを付与し、所定値以下であれば背景を注目していることを示すタグを付与するとしても構わない。

　（７）前記抽出手段は、前記画像から複数のオブジェクトを抽出し、前記抽出手段は、前記画像から顔と体を含む人物の領域を前記オブジェクトとして抽出し、前記付与手段は、抽出手段により抽出されたオブジェクトの数が単数か複数かに応じて付与するタグを異ならせるとしても構わない。

　（８）前記算出された算出された方向と大きさとに基づいて、前記画像上に、前記オブジェクトが注目している度合いの高低を示す第１マップを作成する作成手段と、作成された第１マップにおいて、前記度合いが所定値以上の場所を含む領域を設定する設定手段と、を備えるとしても構わない。

　（９）前記作成手段は、前記画像における人の視覚注意の度合いの高低を示す第２マップを作成し、作成後、前記第１マップにおける前記注目している度合いの高低と前記第２マップにおける前記視覚注意の度合いの高低とを総合した度合いを示す総合マップを作成し、前記設定手段は、作成された総合マップにおける度合いが所定値以上の場所を含む領域を設定するとしても構わない。

　（１０）前記第２マップは、前記画像の色、輝度および方向性を基にした顕著性マップであるとしても構わない。

　（１１）前記作成手段は、前記画像における被写界深度の深浅を示す第３マップを作成し、作成後、前記第１マップにおける前記注目している度合いの高低と前記第３マップにおける前記被写界深度の深浅とを総合した度合いを示す総合マップを作成前記設定手段は、作成された総合マップにおける度合いが所定値以上の場所を含む領域を設定するとしても構わない。

　（１２）前記抽出手段は、前記画像から、それぞれ人物を含む複数の領域を前記オブジェクトとして抽出し、抽出された複数の領域の中から、一部の領域をタグの付与に用いる領域として選別する選別手段を備え、前記付与手段は、前記一部の領域において人物が向いている方向または人物が画像内において占めている割合に基づいてタグを付与するとしても構わない。

　（１３）前記選別手段は、抽出された複数の領域それぞれの人物が向いている方向に基づいて、複数の領域の中から、２以上の領域をグループ化し、このグループを構成する領域を前記一部の領域として選別するとしても構わない。

　（１４）前記抽出手段は、前記画像から複数の線分を抽出し、前記画像に対して、抽出された複数の線分が収束する方向上に領域を設定する設定手段を備えるとしても構わない。

　（１５）前記設定手段は、抽出された複数の線分をそれぞれ延長した複数の軸を規定し、この複数の軸が交差する位置を囲むように前記領域を設定するとしても構わない。

　（１６）画像からオブジェクトを抽出する抽出ステップと、抽出されたオブジェクトが向いている方向を算出する算出ステップと、前記画像に、算出された方向に応じてタグを付与する付与ステップと、を含むタグ付与方法としても構わない。

　（１７）画像からオブジェクトを抽出する抽出ステップと、抽出されたオブジェクトが向いている方向を算出する算出ステップと、前記画像に、算出された方向に応じてタグを付与する付与ステップと、を含むタグ付与処理をコンピュータに実行させる、プログラムとしてもよい。

　（１８）画像からオブジェクトを抽出する抽出手段と、抽出されたオブジェクトが向いている方向を算出する算出手段と、前記画像に、算出された方向に応じてタグを付与する付与手段と、を備える集積回路としても構わない。
＜参考文献＞
　（１）参考文献１
　藤吉弘亘著「Gradientベースの特徴抽出- SIFTとHOG -」, 情報処理学会研究報告 CVIM 160, pp. 211-224, 2007

　本発明に係る画像情報処理装置は、分類用のタグを画像に付与することができるので有用である。

　１０，１００，１０２，１０４，１０６　画像情報処理装置
　１２　画像記憶部
　１４　オブジェクト抽出部
　１６　算出部
　１８　オブジェクト情報記憶部
　２０　注目ベクトル情報記憶部
　２２　付与条件記憶部
　２４　付与部
　３２　注目度マップ作成部
　３４　領域設定部
　３６　顕著性マップ作成部
　３８　被写界深度マップ作成部
　４０　検出内容判定部
　４２　総合関心度マップ作成部
　４４　選別部
　４６　エッジ抽出部
　４８　領域設定部

Claims

　画像からオブジェクトを抽出する抽出手段と、
　抽出されたオブジェクトが向いている方向を算出する算出手段と、
　前記画像に、算出された方向に応じてタグを付与する付与手段と、
を備えることを特徴とする画像情報処理装置。
　前記算出手段は、前記抽出されたオブジェクトが前記画像内において占めている割合の大きさを算出し、
　前記付与手段は、算出された方向または大きさを基に、前記画像にタグを付与する
ことを特徴とする請求項１記載の画像情報処理装置。
　前記抽出手段は、前記画像から人物の顔または人物の体を含む領域を前記オブジェクトとして抽出し、
　前記算出手段は、抽出された領域における人物の顔または体の、向きもしくは回転方向に基づいて前記方向を算出するとともに、前記抽出された領域における人物の顔または体が前記画像内において占めている割合に基づいて前記大きさを算出する
ことを特徴とする請求項２に記載の画像情報処理装置。
　前記抽出手段は、前記画像から複数のオブジェクトを抽出し、
　前記算出手段は、抽出されたオブジェクトそれぞれについて、当該オブジェクトが注目している方向と前記画像内において占めている割合の大きさとからなるベクトルを算出し、
　算出した複数のベクトルを総合して、前記画像全体のベクトルを計算し、
　前記付与手段は、計算された前記画像全体のベクトルの方向または大きさに基づいて、前記画像にタグを付与する
ことを特徴とする請求項２に記載の画像情報処理装置。
　前記付与手段は、前記画像全体のベクトルの方向が、正面であればポートレートであることを示す第１タグを付与し、正面でなければ前記第１タグとは異なる第２タグを付与する
ことを特徴とする請求項４に記載の画像情報処理装置。
　前記付与手段は、前記画像全体のベクトルの大きさが、所定値よりも大きければ人物を注目していることを示すタグを付与し、所定値以下であれば背景を注目していることを示すタグを付与する
ことを特徴とする請求項４に記載の画像情報処理装置。
　前記抽出手段は、前記画像から複数のオブジェクトを抽出し、
　前記抽出手段は、前記画像から顔と体を含む人物の領域を前記オブジェクトとして抽出し、
　前記付与手段は、抽出手段により抽出されたオブジェクトの数が単数か複数かに応じて付与するタグを異ならせる
ことを特徴とする請求項４に記載の情報処理装置。
　
　前記算出された算出された方向と大きさとに基づいて、
　前記画像上に、前記オブジェクトが注目している度合いの高低を示す第１マップを作成する作成手段と、
　作成された第１マップにおいて、前記度合いが所定値以上の場所を含む領域を設定する設定手段と、
を備えることを特徴とする請求項２に記載の画像情報処理装置。
　前記作成手段は、前記画像における人の視覚注意の度合いの高低を示す第２マップを作成し、作成後、前記第１マップにおける前記注目している度合いの高低と前記第２マップにおける前記視覚注意の度合いの高低とを総合した度合いを示す総合マップを作成し、
　前記設定手段は、作成された総合マップにおける度合いが所定値以上の場所を含む領域を設定する
ことを特徴とする請求項８に記載の画像情報処理装置。
　前記第２マップは、前記画像の色、輝度および方向性を基にした顕著性マップである
ことを特徴とする請求項９に記載の画像情報処理装置。
　前記作成手段は、前記画像における被写界深度の深浅を示す第３マップを作成し、作成後、前記第１マップにおける前記注目している度合いの高低と前記第３マップにおける前記被写界深度の深浅とを総合した度合いを示す総合マップを作成し、
　前記設定手段は、作成された総合マップにおける度合いが所定値以上の場所を含む領域を設定する
ことを特徴とする請求項８に記載の画像情報処理装置。
　前記抽出手段は、前記画像から、それぞれ人物を含む複数の領域を前記オブジェクトとして抽出し、
　抽出された複数の領域の中から、一部の領域をタグの付与に用いる領域として選別する選別手段を備え、
　前記付与手段は、前記一部の領域において人物が向いている方向または人物が画像内において占めている割合に基づいてタグを付与する
ことを特徴とする請求項２に記載の画像情報処理装置。
　前記選別手段は、抽出された複数の領域それぞれの人物が向いている方向に基づいて、複数の領域の中から、２以上の領域をグループ化し、このグループを構成する領域を前記一部の領域として選別する
ことを特徴とする請求項１２に記載の画像情報処理装置。
　前記抽出手段は、前記画像から複数の線分を抽出し、
　前記画像に対して、抽出された複数の線分が収束する方向上に領域を設定する設定手段を備える
ことを特徴とする請求項１に記載の画像情報処理装置。
　前記設定手段は、抽出された複数の線分をそれぞれ延長した複数の軸を規定し、この複数の軸が交差する位置を囲むように前記領域を設定する
ことを特徴とする請求項１４に記載の画像情報処理装置。
　画像からオブジェクトを抽出する抽出ステップと、
　抽出されたオブジェクトが向いている方向を算出する算出ステップと、
　前記画像に、算出された方向に応じてタグを付与する付与ステップと、
を含むタグ付与方法。
　画像からオブジェクトを抽出する抽出ステップと、
　抽出されたオブジェクトが向いている方向を算出する算出ステップと、
　前記画像に、算出された方向に応じてタグを付与する付与ステップと、
を含むタグ付与処理をコンピュータに実行させることを特徴とするプログラム。
　画像からオブジェクトを抽出する抽出手段と、
　抽出されたオブジェクトが向いている方向を算出する算出手段と、
　前記画像に、算出された方向に応じてタグを付与する付与手段と、
を備えることを特徴とする集積回路。