WO2016139964A1

WO2016139964A1 - 注目領域抽出装置および注目領域抽出方法

Info

Publication number: WO2016139964A1
Application number: PCT/JP2016/050344
Authority: WO
Inventors: 翔阮; 安田　成留; 艶萍呂; 湖川盧
Original assignee: オムロン株式会社
Priority date: 2015-03-05
Filing date: 2016-01-07
Publication date: 2016-09-09
Also published as: DE112016001039T5; US20170352162A1; CN105989174B; CN105989174A

Abstract

注目領域抽出装置は、入力画像から１つまたは複数の部分領域を抽出する抽出手段と、前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、を備える。これにより、画像中から注目領域を精度良く抽出し、かつその関心度を算出できる。

Description

注目領域抽出装置および注目領域抽出方法

　本発明は、画像から注目領域を抽出する技術に関する。

　従来、画像中の注目領域（人間が注目すると予想される画像領域あるいは注目すべき画像領域）を検出（抽出）する様々な既存技術が存在する。なお、注目領域検出は、顕著領域検出（Saliency Detection）、オブジェクトネス検出（Objectness Detection）、前景検出（Foreground Detection）、アテンション検出（Attention Detection）などとも呼ばれる。これらの既存技術は、学習ベースのアルゴリズムとモデルベースのアルゴリズムの２つに大別される。

　学習ベースのアルゴリズムでは、学習対象についての多数の画像データに基づいて検出したい領域のパターンを学習し、この学習結果に基づいて注目領域の検出が行われる。例えば、特許文献１には、学習対象となる複数の画像データに基づいて特徴の種類を事前に学習して決定しておき、決定された特徴の種類と顕著度の算出対象となる対象画像データとに基づいて、当該対象画像データにおける各部の特徴を抽出することが記載されている。

　モデルベースのアルゴリズムでは、画像を見たときの人間の脳の反応モデルを数式化し、この反応モデルを用いて画像中の注目領域が抽出される。例えば、非特許文献１では、眼の網膜にある網膜神経節細胞の中の受容野と呼ばれる領域が光による刺激を受けた際に脳に伝達される情報をモデル化している。受容野は中央領域と周辺領域とで構成されており、非特許文献１では、中央領域と周辺領域への刺激により信号が強くなる箇所（注意を引く場所）を数値化するようなモデルを構築している。

特開２００１－２３６５０８号公報

Laurent Itti, Christof Koch,Ernst Niebur, "A Model of Saliency-based Visual Attention for Rapid Scene Analysis", IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20. No. 11, pp. 1254-1259, 1998年11月

　学習ベースのアルゴリズムでは、脳の反応モデルを構築する必要は無いものの、検出結果が学習データに依存し、学習データと類似しない対象は検出できないという欠点がある。一方、モデルベースのアルゴリズムでは、事前知識なしに注目領域を検出できるが、モデルの構築が困難であり、注目領域の検出精度が十分ではないという欠点がある。したがって、いずれの方式であっても、検出対象を限定することなく注目領域を精度良く抽出することはできない。

　また、学習ベースおよびモデルベースのいずれのアルゴリズムであっても、１つの画像から複数の領域が検出された場合に、どの領域がより重要であり、より人の関心が高いかを判断することができない。複数の領域が検出された場合には、関心度の高さをランク付けすることが望まれる。

　本発明は上記実情に鑑みなされたものであって、本発明の目的は、画像中から注目領域を精度良く抽出し、かつその関心度を算出可能な技術を提供することにある。

　本発明は、入力画像から抽出される部分領域と類似する画像を画像データベースから検索し、検索結果を用いて上記部分領域の関心度を求める。これにより、画像データベースに格納されている画像に関する情報を反映した精度の高い注目領域抽出が可能となる。

　より具体的には、本発明にかかる注目領域抽出装置は、入力画像から１つまたは複数の部分領域を抽出する抽出手段と、前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、を備える。

　上記部分領域は、入力画像中において人間が注目すると予想される画像領域あるいは注目すべき画像領域の候補、すなわち注目領域の候補であることが好ましい。抽出手段による部分領域の抽出は、既存の任意の手法を用いて行える。抽出手段は、例えば、学習ベースやモデルベースのアルゴリズムを用いた注目領域抽出手法によって部分領域を抽出する。

　画像データベースは、複数の画像データを検索可能に記憶する装置である。画像データベースは、注目領域抽出装置と一体として構築されてもよいし、注目領域抽出装置とは別に構築されてもよい。例えば、画像データベースは注目領域抽出装置が備える記憶装置に構築されることができる。また、画像データベースは、注目領域抽出装置が通信ネットワークを介してアクセス可能な別の装置に構築されることができる。画像データベースの作成・管理者は、注目領域抽出装置の作成・管理者と同一である必要はない。本発明における画像データベースとして、例えば、第三者によって管理されインターネット上で公開されている画像データベースを利用することもできる。

　検索手段は、抽出手段によって抽出された部分領域と類似する画像を、画像データベースから検索し、検索結果を取得する。具体的には、検索手段は、部分領域と類似する画像の取得を求める問い合わせ（クエリ）を作成し、画像データベースに当該クエリを送信し、画像データベースから当該クエリに対する応答を取得する。画像データベースにおける類似画像の検索は、既存の任意の手法を用いて行える。例えば、画像の全領域同士の比較、画像の全体と部分の比較、あるいは、画像の部分と部分の比較に基づいて類似度を算出するアルゴリズムを用いて類似画像を検索することができる。

　関心度決定手段は、検索手段による検索結果に基づいて、それぞれの部分領域について関心度を決定する。関心度は、人間が当該部分領域に対して持つと予想される関心の高さ、あるいは、当該部分領域に対して持つべき関心の高さを表す指標である。ある部分領域についての関心度が高いということは、人間は当該部分領域についてより高い関心を持つか、あるいは当該部分領域についてより高い関心を持つべきであることを意味する。なお、関心度は、人間全般を対象として決定してもよいし、あるグループの人間（特定の属性を有する人間）を対象として決定してもよいし、特定の個人を対象として決定してもよい。

　関心度決定手段は、検索手段によって検索された部分領域と類似する画像（以下、単に類似画像とも称する）の統計情報を用いて、当該部分領域の関心度を決定することが好ましい。統計情報は、検索の結果として得られる情報に統計的な処理を施して得られる情報である。

　例えば、統計情報として部分領域と類似する画像の数を採用し、類似画像の数が多いほど関心度を高く決定することができる。これは、画像データベースに格納されている数が多い物体（対象）ほど、注目される可能性が高いと考えられるためである。なお、類似画像の数は、抽出手段によって抽出された領域が注目領域である確からしさ（精度）を表すとも考えられる。したがって、類似画像数が少ない部分領域は本来は注目領域ではないもかかわらず誤って検出されたといえるので、関心度決定手段は類似画像数が閾値よりも少ない部分領域については、関心度を決定しないことも好ましい。

　また、統計情報として類似画像に関連付けられているタグ情報を採用することもできる。タグ情報は、画像データベース中の画像データと関連付けられて記憶される、自然言語によって指定される画像データの内容や特徴などを表す情報である。タグ情報は、画像データに埋め込まれて記憶されてもよいし、画像データとは異なるファイルとして記憶されてもよい。タグ情報の付加はどのように行われてもよく、例えば、人間が手動入力でタグ情報を付加してもよく、コンピュータによる画像処理によって自動的にタグ情報を付加してもよい。統計情報としてタグ情報を採用する場合、関心度決定手段は、類似画像に関連付けられているタグ情報の意味の収束性が高いほど、部分領域の関心度を高く決定することが好ましい。これは、タグの意味あいが収束しているほど、その領域に対する認識が一致しており、高い関心が寄せられると考えられるためである。タグ情報の意味あいの収束性は自然言語処理によって行われることが好ましく、例えば、タグ情報の文言は異なっていても同一概念や近い概念であれば意味合いが近いと判断することが好ましい。

　また、統計情報として部分領域と類似する画像についての部分領域との類似度の平均値、最頻値、中央値、中間値、分散、標準偏差などを採用することもできる。類似画像の類似度が高いほど、また類似度のばらつきが小さいほど、関心度を高く決定することができる。また、統計情報として、類似画像の類似度だけでなく、類似画像の大きさ（面積あるいは画素数）や、画像中の位置、色なども採用することができる。例えば、類似画像の大きさは、類似画像全体の大きさや、部分領域と類似する領域の大きさ（絶対的な大きさあるいは画像全体に対する相対的な大きさ）などを採用できる。また、画像中の位置は、部分画像と類似する領域の画像全体における位置を採用できる。関心度決定手段は、これらの情報の平均値、最頻値、中央値、中間値、分散、標準偏差などに基づいて関心度を決定することができる。

　また、統計情報として、類似画像に付加されるメタ情報の平均等も採用可能である。メタ情報には、画像自体についての属性情報（大きさ、色空間など）、画像撮影時の条件（撮影日時、シャッタースピード、絞り、ＩＳＯ感度、測光モード、フラッシュ有無、焦点距離、撮影位置など）が含まれる。関心度決定手段は、これらのメタ情報に基づいて関心度を決定してもよい。

　また、関心度決定手段は、部分領域の大きさまたは位置に基づいて、当該部分領域の関心度を決定することもできる。部分領域の大きさは、絶対的な大きさであってもよいし入力画像に対する相対的な大きさであってもよい。関心度決定手段は、部分領域の大きさが大きいほど関心度を高く決定してもよいし、部分領域の大きさが小さいほど関心度を高く決定してもよい。関心度決定手段は、また、部分領域が入力画像の中心に近いほど関心度を高く決定してもよいし、部分領域が入力画像の周辺に近いほど関心度を高く決定してもよい。関心度決定手段は、部分領域の大きさあるいは位置に加えて、部分領域に含まれる物体の種類も考慮して関心度を決定することも好ましい。

　また、関心度決定手段は、上記述べた複数の情報に基づいて関心度を複数求めて、これら複数の関心度を統合して最終的な関心度を決定することも好ましい。複数の関心度の統合方法は特に限定されず、例えば、全ての関心度の積や重み付け平均を最終的な関心度とすることができる。

　また、本発明にかかる注目領域抽出装置は、関心度の算出基準の入力を受け付ける算出基準取得手段をさらに含み、前記関心度決定手段は、あらかじめ定められた算出基準にしたがって算出される第１の関心度と、前記算出基準取得手段によって取得される算出基準にしたがって算出される第２の関心度と、に基づいて最終的な関心度を算出する、ことも好ましい。ここで、上記のあらかじめ定められた算出基準は、一般的な人間を対象とした関心度の算出基準、すなわち汎用的な算出基準であることが好ましい。一方、算出基準取得手段によって取得される算出基準は、状況に応じた算出基準、例えば、画像を見るユーザに応じた算出基準や、抽出された注目領域を利用するアプリケーションに応じた算出基準であることが好ましい。

　また、本発明にかかる注目領域抽出装置は、前記入力画像に含まれる部分領域のうち、近接する複数の部分領域を一つの部分領域として統合する統合手段をさらに有することも好ましい。部分領域が近接するとは、部分領域同士が隣接する場合や、その間の距離が所定距離（画素数）以内である場合が含まれる。上記の所定距離は、部分領域の大きさや部分領域に含まれる物体の種類などに応じて決定されてもよい。

　また、本発明にかかる注目領域抽出装置は、前記入力画像に含まれる部分領域の位置と、それぞれの部分領域に対する関心度とを出力する出力手段をさらに有する、ことも好ましい。部分領域の位置の出力は、例えば、入力画像に対して部分領域の場所を示す枠線を重畳して表示したり、部分領域の色や輝度をその他の領域と異ならせて表示したりすることによって行える。関心度の出力は、関心度の数値を表示してもよいし、関心度に応じた色や大きさのマーカーを表示したりすることによって行える。この際、出力手段は、関心度が閾値未満の部分領域については関心度の表示あるいは部分領域の表示を行わずに、関心度が閾値以上の部分領域についてのみ、部分領域の位置および関心度の出力を行うようにすることもできる。

　なお、本発明は、上記手段の少なくとも一部を含む注目領域抽出装置として捉えることができる。また、本発明は、注目領域抽出方法あるいは関心度算出方法として捉えることもできる。また、これらの方法の各ステップをコンピュータに実行させるためのコンピュータプログラムや、当該プログラムを非一時的に記憶したコンピュータ読取可能な記憶媒体として捉えることもできる。上記構成および処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

　本発明によれば、画像中から注目領域を精度良く抽出し、かつその関心度を算出可能となる。

図１（Ａ）および図１（Ｂ）はそれぞれ、第１の実施形態にかかる注目領域抽出装置のハードウェア構成および機能ブロックを示す図である。図２は、第１の実施形態における注目領域抽出処理の流れを示すフローチャートである。図３（Ａ）および図３（Ｂ）はそれぞれ、入力画像の例および入力画像から抽出される注目領域の例を示す図である。図４は、注目領域の関心度算出を説明する概念図である。図５（Ａ）および図５（Ｂ）はそれぞれ、類似画像検索の結果の例および検索結果に基づく関心度算出の例を示す図である。図６（Ａ）および図６（Ｂ）はそれぞれ、関心度の出力処理の流れを示すフローチャートおよび関心度の出力例を示す図である。図７は、第２の実施形態における注目領域抽出処理の流れを示すフローチャートである。図８は、第３の実施形態にかかる注目領域抽出装置の機能ブロックを示す図である。図９は、第３の実施形態における注目領域抽出処理の流れを示すフローチャートである。図１０は、第４の実施形態にかかる注目領域抽出装置の機能ブロックを示す図である。図１１は、第４の実施形態における注目領域抽出処理の流れを示すフローチャートである。図１２（Ａ）および図１２（Ｂ）はそれぞれ、第４の実施形態における注目領域統合処理前および注目領域統合処理後を示す図である。

（第１の実施形態）
　本実施形態にかかる注目領域抽出装置は、画像データベースに対して類似画像検索を行うことで、入力画像から注目領域を精度良く抽出し、かつ、各注目領域の関心度を算出することができる装置である。画像データベースに対して検索を行うことで、入力画像のみからでは得られない情報を利用することが可能となり、精度の良い注目領域の抽出および関心度の算出が可能となる。

＜構成＞
　図１（Ａ）は、本実施形態にかかる注目領域抽出装置１０のハードウェア構成を示す図である。注目領域抽出装置１０は、画像入力部１１、演算装置１２、記憶装置１３、通信装置１４、入力装置１５、出力装置１６を含む。画像入力部１１は、カメラ２０から画像データを受け取るインタフェースである。なお本実施形態ではカメラ２０から直接画像データを受け取っているが、通信装置１４を介して画像データを受け取ったり、記録媒体を経由して画像データを受け取ったりしてもよい。演算装置１２は、ＣＰＵ（Central Processing Unit）などの汎用のプロセッサであり、記憶装置１３に格納されたプログラムを実行して、後述する機能を実現する。記憶装置１３は、主記憶装置および補助記憶装置を含み、演算装置１２によって実行されるプログラムを格納するとともに、画像データやプログラム実行中の一時データを格納する。通信装置１４は、注目領域抽出装置１０が外部のコンピュータと通信を行うための装置である。通信の形態は、有線であっても無線であってもよく、通信規格は任意であってよい。本実施形態においては、注目領域抽出装置１０は通信装置１４を介して、画像データベース３０にアクセスする。入力装置１５は、キーボードやマウスなどからなり、ユーザが注目領域抽出装置に指示を入力するための装置である。出力装置１６は、表示装置やスピーカーなどからなり、注目領域抽出装置がユーザに対する出力を行うための装置である。

　画像データベース３０は、演算装置や記憶装置などを含むコンピュータであり、複数の画像データを検索可能に記憶する装置である。画像データベース３０は、１台のコンピュータから構成されてもよいし、複数のコンピュータから構成されてもよい。画像データベース３０に格納される画像データには、画像そのもののデータ（画素ごとの色情報など）以外に、種々の属性情報が関連付けられる。例えば、画像データのデータファイルは、Ｅｘｉｆフォーマットにしたがって種々の属性情報を含むことができる。また、画像データベース３０は、画像データのデータファイルとは異なるファイルに記憶された属性情報を、画像データと関連付けて記憶することができる。属性情報には、例えば、画像の大きさ、色空間、画像の撮影条件（撮影日時、シャッタースピード、絞り、ＩＳＯ感度、測光モード、フラッシュ有無、焦点距離、撮影位置など）、画像の内容や特徴について自然言語で記述された情報（タグ情報）などが含まれる。これらの属性情報は、画像データについてのメタ情報である。画像データベース３０は、インターネットなどの公衆網を介して一般に公開されており、画像データの登録や検索を受け付ける。

　画像データベース３０に誰が画像を登録するかや、登録される画像の数は特に限定されない。例えば、注目領域抽出装置１０のユーザが注目すべき物体についての画像を登録してもよい。この場合は、登録画像が注目領域抽出処理に適合した画像であるといえるので、登録画像の数はそれほど多くなくてもよい。また、第三者である一般ユーザや検索サービスなどの提供者が画像を登録してもよい。この場合、登録画像は注目領域抽出処理に適合した画像でない可能性がある。そのため、このような場合には、多くの画像が画像データベース３０に登録されていることが好ましい。

＜注目領域抽出装置の機能と処理＞
　演算装置１２は、プログラムを実行することにより、図１（Ｂ）に示すような機能を実現する。すなわち、演算装置１２は、領域抽出部１１０、類似画像検索部１２０、関心度算出部１３０、出力部１４０の各機能を提供する。各部の処理内容については以下で説明する。

　図２は、注目領域抽出装置１０によって実行される注目領域抽出処理の流れを示すフローチャートである。ステップＳ１０において、注目領域抽出装置１０は画像（入力画像）を取得する。入力画像は、画像入力部１１を介してカメラ２０から取得されてもよいし、通信装置１４を介して他のコンピュータから取得されてもよいし、記憶装置１３を介して記憶媒体から取得されてもよい。図３（Ａ）は、入力画像４００の一例を示す図である。

　ステップＳ２０において、領域抽出部１１０が入力画像から注目領域（部分領域）を抽出する。領域抽出部１１０が用いる注目領域抽出アルゴリズムは特に限定されず、学習ベースアルゴリズムおよびモデルベースアルゴリズムを含む既存の任意のアルゴリズムを採用可能である。また、採用するアルゴリズムは一つに限る必要はなく、複数のアルゴリズムにしたがって注目領域が抽出されてもよい。なお、学習ベースの抽出アルゴリズムでは学習済みの対象しか抽出できないため、モデルベースの抽出アルゴリズムを用いることが好ましい。

　図３（Ｂ）は、入力画像４００から抽出された注目領域の例を示す図である。この例では、入力画像４００から４つの注目領域４０１－４０４が抽出されている。領域４０１は車両、領域４０２は人物、領域４０３は道路標識である。領域４０４は本来は注目される領域ではないが、領域抽出部１１０によって注目領域であると誤検出された領域である。

　次に、類似画像検索部１２０が、図４に示すように、ステップＳ２０において抽出された注目領域のそれぞれに対して、類似画像の検索処理を行い、検索結果に基づいて当該注目領域の関心度を算出する（ループＬ１）。より詳細には、ステップＳ３０において、類似画像検索部１２０は、各注目領域と類似する画像を検索するクエリを画像データベース３０に発行して、画像データベース３０から検索結果を取得する。画像データベース３０は、検索クエリを受け付けると、検索クエリに含まれる検索画像（注目領域の画像）と類似する画像をデータベースから検索して、検索結果を送信する。画像データベース３０における類似画像検索のアルゴリズムは、既知の任意のアルゴリズムを採用することができる。例えば、画像全体と画像全体の照合を行うアルゴリズムや、画像全体と画像の一部の照合を行うアルゴリズムや、画像の一部と画像の一部の照合を行うアルゴリズムを採用可能である。画像データベース３０は、検索により得られた類似画像とその属性情報を、検索結果として注目領域抽出装置１０に送信する。

　ステップＳ４０において、注目領域抽出装置１０の関心度算出部１３０は、画像データベース３０から得られた検索結果に基づいて、注目領域の関心度を算出する。本実施形態において関心度算出部１３０は、検索結果に基づいて複数の個別関心度（Ｒ１～Ｒ４）を算出し、これら複数の関心度スコアを統合して最終的な関心度（総合関心度）Ｒを算出する。個別関心度は、それぞれ異なる観点から評価された関心度であり、例えば、検索に合致した類似画像の数に基づく関心度（Ｒ１）、類似画像の平均類似度に基づく関心度（Ｒ２）、類似画像における類似領域の相対サイズに基づく関心度（Ｒ３）、および、タグ情報の意味あいの収束性に基づく関心度（Ｒ４）が含まれる。本実施形態においては、個別関心度Ｒ１～Ｒ４は０から１の範囲に正規化された数値であり、総合関心度Ｒはこれらの個別関心度Ｒ１～Ｒ４の積とする（Ｒ＝Ｒ１×Ｒ２×Ｒ３×Ｒ４）。ただし、総合関心度Ｒは、個別関心度Ｒ１～Ｒ４に基づいて定められれば、例えば、個別関心度Ｒ１～Ｒ４の平均（重み付き平均を含む）や最大値や最小値などとして求められてもよい。また、ここで示した個別関心度は一例であり、検索条件に基づいて上記以外の基準にしたがって定められる値を用いても構わない。また、関心度は必ずしも検索結果のみから算出される必要はなく、例えば、抽出領域自体や入力画像を考慮して算出されてもよい。

　図５（Ａ）は、ステップＳ３０における検索結果の例を示す図である。図５（Ａ）では、注目領域（検索画像）と類似する画像（類似度が所定の閾値以上の画像）について、画像番号５０１、類似度５０２、類似画像の全体サイズ５０３、類似画像のうち注目領域と類似する領域のサイズ５０４、類似画像に関連付けて記憶されているタグ情報５０５を示しているが、これら以外の情報が検索結果に含まれてもよい。

　図５（Ｂ）は、関心度算出部１３０が行う関心度算出の例を示す図である。検索に合致した類似画像の数に基づく関心度Ｒ１は、検索ヒット数が多いほど高く算出される。これにより、画像データベース３０に多く登録されている物体ほど、関心度が高く算出される。なお、関心度Ｒ１の算出に用いられる検索ヒット数は、画像データベース３０から送られた類似画像の全体数であってもよいし、検索結果のうち類似度５０２が所定の閾値以上であるものの数であってもよい。

　類似画像の平均類似度に基づく関心度Ｒ２は、検索結果に含まれる類似画像の類似度５０２の平均類似度が高いほど高く算出される。検索ヒット数が多くても類似画像の類似度が低ければ必ずしも関心度の高い物体とは限らないので、平均類似度を考慮することにより関心度算出の精度を向上できる。なお、ここでは関心度Ｒ２の算出に類似度の平均を用いているが、最頻値、中央値、中間値、分散、標準偏差などのその他の統計量に基づいてもよい。

　類似画像における類似領域の相対サイズに基づく関心度（Ｒ３）は、検索結果に含まれる類似画像の全体サイズ５０３に対する類似領域のサイズ５０４の比の平均値が大きいほど高く算出される。これにより、画像中で大きく写されている物体ほど、関心度が高く算出される。なお、関心度Ｒ３は、類似画像の全体サイズ５０３と類似領域のサイズ５０４の比以外にも、これらの値に基づいて別の基準で求めても構わない。

　タグ情報の意味あいの収束性に基づく関心度Ｒ４は、検索結果に含まれるタグ情報の意味あいの収束性が高いほど、高く算出される。これにより、多くの人が同様の意味のタグ情報を付している物体ほど、関心度が高く算出される。意味あいの収束性は、自然言語処理によって判断されることが好ましく、タグ情報の文言が異なっていても同一の概念や近い概念であれば意味あいの収束性が高いと判断されることが好ましい。関心度算出部１３０は、例えば、検索結果に含まれるタグ情報の意味あいをいくつかのカテゴリに分け、最大カテゴリにおける要素数の全体に対する割合を関心度Ｒ４として求めることができる。図５（Ｂ）に示すタグ情報の例では、「自動車」および「クルマ」は同一の概念であり、同じカテゴリに分類できる。「スポーツカー」は、「自動車」および「クルマ」の下位概念であるため、「自動車」および「クルマ」と同じカテゴリに分類できる。一方、「公園」は「自動車」等とは異なる概念であるため、異なるカテゴリに分類される。「モーターショー」は「自動車」等と関連する概念であるため、「自動車」等と同じカテゴリに分類してもよいし、異なるカテゴリと分類してもよい。ここで、「モーターショー」も「自動車」と同じカテゴリに分類され、検索結果が図５（Ｂ）に示す５つのアイテムであるとすると、関心度算出部１３０は関心度Ｒ４を０．８（＝４／５）と算出する。なお、図５（Ｂ）の例では、タグ情報が単語である場合のみを示しているが、タグ情報は文章として表されてもよく、その場合も自然言語処理によって意味を推測できる。

　関心度算出部１３０は、個別関心度Ｒ１～Ｒ４に基づいて上述のように総合関心度Ｒを算出する。ここで、上記の個別関心度Ｒ１～Ｒ４は、一般的な人間が注目すると推測される領域については、大きな値として算出される。すなわち、個別関心度Ｒ１～Ｒ４は人間全般を対象とした汎用的な関心度であり、これらに基づいて算出される総合関心度Ｒも汎用的な関心度といえる。

　全ての注目領域について関心度の算出が終了すると、ステップＳ５０において出力部１４０が、入力画像における注目領域の位置と、それぞれの注目領域に対する関心度とを出力する。ここで、出力部１４０は、ステップＳ２０において抽出された全ての注目領域を出力するのではなく、これらの注目領域のうち関心度が所定の閾値Ｔｈ_Ｒ以上である注目領域を出力する。図６（Ａ）は、ステップＳ５０における出力処理をより詳細に説明するフローチャートである。出力部１４０は、ステップＳ２０において抽出された全ての注目領域について、以下の処理（ループＬ２）を繰り返す。まず、出力部１４０は、注目領域について算出された関心度が、閾値Ｔｈ_Ｒ以上であるか否か判定する（Ｓ５１）。ここで、関心度が閾値Ｔｈ_Ｒ以上であれば（Ｓ５１－ＹＥＳ）、当該注目領域の位置とその関心度を出力し（Ｓ５２）、関心度が閾値Ｔｈ_Ｒより小さければ（Ｓ５１－ＮＯ）、当該注目領域の位置とその関心度は出力しない。

　図６（Ｂ）は、本実施形態における注目領域の位置とその関心度の出力の一例を示す図である。ここでは、図３（Ｂ）に示す注目領域４０１～４０４のうち、関心度が閾値Ｔｈ_Ｒ以上となるのは注目領域４０１～４０３であるとする。したがって、注目領域４０１～４０３については、その領域を囲む枠表示によって位置が表示される。また、注目領域４０１～４０３のそばに、これらの注目領域の関心度を数値として関心度表示部６０１～６０３に表示される。注目領域４０４は関心度が閾値Ｔｈ_Ｒ未満のため表示されない。なお、この例は表示の一例に過ぎず、例えば、注目領域の位置は、注目領域と注目領域以外の領域の表示において輝度や色を変えることによって特定することもできる。また、関心度も数値によって表示する必要はなく、例えば、記号の色や形を変えることで関心度の大きさを示すことができ、また、注目領域を示す枠線の太さや色を変えることで関心度の大きさを示すこともできる。

　なお、ここでは注目領域の抽出結果とその関心度を画面に表示する例を説明したが、これらの結果は、例えば、他の機能部や他のコンピュータに出力されてもよいし、記憶装置に出力（記録）されてもよい。

　＜本実施形態の効果＞
　本実施形態によれば、画像データベースに含まれている画像に関する情報を用いて入力画像から注目領域を抽出することによって、入力画像のみから注目領域を抽出するよりも精度の良い抽出が行える。特に、従来の学習ベースの注目領域抽出と比較すると、抽出可能な注目領域が学習データと類似した対象に限定されず、様々な対象を注目領域として抽出できるという利点がある。また、従来のモデルベースの注目領域抽出と比較すると、画像データベースの検索結果を用いることで、抽出精度を向上させることができる。

（第２の実施形態）
　以下、本発明の第２の実施形態について説明する。本実施形態は第１の実施形態と基本的に同様であるが、類似画像の検索ヒット数に基づいて抽出された注目領域が、正しく抽出されたものであるか否か判定する点が異なる。

　図７は、本実施形態における注目領域抽出処理の流れを示すフローチャートである。第１の実施形態（図２）と比べると、類似画像検索ステップＳ３０の後に、検索された類似画像の数を閾値Ｔｈ_Ｎと比較する処理が加えられている点が異なる。検索された類似画像数が閾値Ｔｈ_Ｎ以上であれば（Ｓ３５－ＹＥＳ）、関心度算出部１３０は、第１の実施形態と同様に注目領域についての関心度を算出する（Ｓ４０）が、類似画像数が閾値Ｔｈ_Ｎ未満であれば（Ｓ３５－ＮＯ）、この注目領域については関心度を算出しない。

　このようにすれば、検索によってヒットする類似画像数が少ない領域については、関心度が算出されない。類似画像数が少ないということは本来はそれほど注目する必要がない領域ともいえ、上記の判定処理は、ステップＳ２０の注目領域抽出処理の抽出精度が閾値以上であるか判定する処理とも捉えることができる。

　抽出精度は、必ずしも類似画像の検索ヒット数によって評価される必要はなく、その他の基準で評価されてもよい。本実施形態は、従来の注目領域抽出処理（Ｓ２０）によって抽出された領域の抽出精度と関心度とを、類似画像検索結果を用いてそれぞれ異なる基準で算出していると捉えることができる。

（第３の実施形態）
　以下、本発明の第３の実施形態について説明する。上記第１および第２の実施形態では、関心度は人間全般を対象とした汎用的な尺度として算出している。しかしながら、注目領域抽出処理が特定のユーザやアプリケーション向けに行われる場合には、事前知識を用いてユーザやアプリケーションに特化した関心度を求めることもできる。本実施形態に係る注目領域抽出装置３１０は、事前知識に基づいて決定される関心度の算出基準を受け取り、ユーザに特化した関心度も求める。

　本実施形態にかかる注目領域抽出装置３１０のハードウェア構成は第１の実施形態（図１（Ａ））と同様である。図８は、本実施形態にかかる注目領域抽出装置３１０の演算装置１２がプログラムを実行することによって実現される機能ブロックを示す図である。注目領域抽出装置３１０の機能ブロックも第１の実施形態（図１（Ｂ））と基本的に同様であるが、関心度算出部１３０が、汎用関心度算出部１３１、関心度算出基準取得部１３２、特定関心度算出部１３３、関心度統合部１３４を含んで構成される。

　図９は、本実施形態に係る注目領域抽出装置３１０によって実行される注目領域抽出処理の流れを示すフローチャートである。第１の実施形態（図２）と同様の処理については、同じ符号を付してその詳細な説明は省略する。

　ステップＳ２５では、関心度算出基準取得部１３２が、特定のユーザやアプリケーション向けの関心度（特定関心度）を算出する基準を取得する。特定関心度の算出基準は、注目領域抽出装置３１０の処理結果を利用するユーザやアプリケーションに応じて変化する。例えば、あるユーザが特定の物体に対して特に関心を持つという事前知識があれば、このユーザに対して当該物体の関心度を大きく算出すべきである。また、アプリケーションがユーザが見落としやすい物体に注意を払うように促すものである場合は、入力画像中におけるサイズが小さかったり周囲の色と似ていたりして視認しづらい物体の関心度を大きく算出すべきである。関心度算出基準取得部１３２は、算出基準自体を外部から受け取るものであってもよいし、ユーザあるいはアプリケーションを特定する情報を取得して、当該ユーザあるいはアプリケーションに対応する関心度算出基準を自ら取得してもよい。後者の場合、関心度算出基準取得部１３２は、ユーザやアプリケーションごとの関心度算出基準を記憶しておくか、外部の装置に問い合わせて取得する。なお、図９ではステップＳ２０の後に関心度算出基準を取得しているが、関心度算出基準の取得は、入力画像の取得処理Ｓ１０や注目領域抽出処理Ｓ２０の前に行われてもよい。

　ループＬ１において入力画像から抽出された注目領域のそれぞれについて関心度算出部１３０が関心度を算出するという点は、第１の実施形態と同様である。本実施形態では具体的な算出方法が第１の実施形態と異なるので以下説明する。

　ステップＳ３０では、類似画像検索部１２０が注目領域と類似する画像を画像データベース３０から検索して、その検索結果を取得する。この処理は第１の実施形態と同様である。ステップＳ４１では、汎用関心度算出部１３１が、検索結果とあらかじめ定められた算出基準を用いて汎用的な関心度を算出する。この処理は、第１の実施形態における関心度算出処理（Ｓ４０）と同様の処理である。

　次にステップＳ４２において、特定関心度算出部１３３が、類似画像検索部１２０による検索結果と関心度算出基準取得部１３２によって取得された算出基準とを用いて特定ユーザあるいはアプリケーション向けの関心度（特定関心度）を算出する。この処理は、算出基準が異なる点を除けば、汎用関心度算出部１３１による処理と同様である。なお、特定関心度算出部１３３は、異なる基準にしたがって複数の個別関心度を算出し、これら複数の個別関心度を統合することによって特定関心度を算出してもよい。

　ステップＳ４３において、関心度統合部１３４が、汎用関心度算出部１３１によって算出される汎用関心度と、特定関心度算出部１３３によって算出される特定関心度とを統合して、最終的な関心度を算出する。統合の方法は任意であってよく、例えば、汎用関心度と特定関心度の平均（単純平均または加重平均）を最終的な関心度とすることができる。加重平均における重みは固定であってもよいしユーザやアプリケーションに応じて変化させてもよい。また、関心度統合部１３４は、汎用関心度と特定関心度を算出する際に求められた個別関心度の加重平均を最終的な関心度として決定するなど、個別関心度の関数として最終的な関心度を決定してもよい。

　各注目領域についての関心度が算出された後の出力処理（Ｓ５０）は、第１の実施形態と同様である。

　以下、特定関心度の算出基準の例について説明する。上述のように、ユーザの関心の傾向を用いて、ユーザが関心を持つ対象ほど関心度を高く算出することができる。また、ユーザが特定の色を視認しづらい場合には、これらの色を有する物体の関心度を高く算出することができる。また、アプリケーションが、視認しづらいものを検出するためのものであれば、入力画像における注目領域のサイズが小さい物体ほど関心度を高く算出することができる。また、動画像に応用する場合には、突然現れた物体（それ以前のフレームにおいて存在していない物体）の関心度を高く算出したり、あるいは逆に長時間連続して存在している物体の関心度を高く算出したりすることができる。

　本実施形態によれば、汎用的な関心度と特定用途に特化した関心度をそれぞれ算出して、これらを統合して最終的な関心度を求めているので、用途に応じた関心度を算出することができる。

　なお、必ずしも汎用関心度と特定関心度の両方を求める必要はなく、特定関心度のみを求めるようにしても構わない。この場合、関心度算出部１３０において、汎用関心度算出部１３１および関心度統合部１３４は省略可能である。

（第４の実施形態）
　以下、本発明の第４の実施形態について説明する。本実施形態では、第１から第３の実施形態と比較して、注目領域の出力処理が異なる。具体的には、入力画像において互いに隣接する注目領域を統合して１つの注目領域として出力する。

　本実施形態にかかる注目領域抽出装置４１０のハードウェア構成は第１の実施形態（図１（Ａ））と同様である。図１０は、本実施形態にかかる注目領域抽出装置４１０の演算装置１２がプログラムを実行することによって実現される機能ブロックを示す図である。注目領域抽出装置４１０は、第１の実施形態の機能に加えて、領域統合部１５０を備える。

　図１１は、本実施形態に係る注目領域抽出装置４１０によって実行される注目領域抽出処理の流れを示すフローチャートである。第１の実施形態（図２）と同様の処理については、同じ符号を付してその詳細な説明は省略する。本実施形態においては、ループＬ１の処理後のステップＳ４５において、領域統合部１５０が、注目領域の位置関係に基づいて複数の注目領域を統合する。例えば、領域統合部１５０は、注目領域間の距離が所定の閾値Ｔｈ_Ｄ以下であれば、これらの注目領域を統合する。注目領域間の距離は、中心間の距離（画素数）として定義されてもよいし、最近接する境界部同士の距離として定義されてもよい。また、上記の閾値Ｔｈ_Ｄは固定値であってもよいし、注目領域のサイズや注目領域内の物体種類に応じて変化してもよい。

　図１２（Ａ）は、入力画像１２００からステップＳ２０において抽出された注目領域１２０１～１２０３を示す図である。注目領域１２０１は他の注目領域との距離が離れている一方、注目領域１２０２と注目領域１２０３の距離は近い。そこで、領域統合部１５０は、注目領域１２０２と注目領域１２０３を統合する。図１２（Ｂ）は統合処理後の画像１２００を示す図である。図に示すように、注目領域１２０２と注目領域１２０３は、１つの注目領域１２０４に統合される。なお、ここでは統合後の注目領域１２０４は、注目領域１２０２と注目領域１２０３を含む最小矩形としているが、これとは異なる手法によって統合後の注目領域１２０４が生成されてもよい。

　領域統合処理において、関心度が低い注目領域については統合の対象としなくてもよいし、注目領域の関心度が所定の関係を満たす場合（例えば、関心度の平均が閾値以上など）のみこれらの領域を統合するようにしてもよい。すなわち、領域統合部１５０は、注目領域間の距離に加えて注目領域の関心度にも基づいて、統合するか否かを判定してもよい。また、領域統合部１５０は、３つ以上の注目領域を１つの領域に統合してもよい。

　領域統合部１５０は、複数の注目領域を統合した場合には、統合後の注目領域に対する関心度も決定する。統合後の注目領域の関心度は、例えば、統合された注目領域についての関心度の平均値や最大値などを採用することが好ましいが、その他の方式によって決定されてもよい。

　ステップＳ５０の注目領域の関心度出力処理は、統合後の注目領域を対象として行われる点を除けば、第１の実施形態における処理と同様である。

　本実施形態によれば、互いに近い関係にある複数の注目領域を統合することで、出力する注目領域の数を抑制することができる。また、領域を統合するか否かの判定において、画像データベースの検索結果を用いた関心度を採用することで、より適切に領域を統合することができる。

（その他の実施形態）
　上記の実施形態の説明は、本発明を例示的に説明するものに過ぎず、本発明は上記の具体的な形態には限定されない。本発明は、その技術的思想の範囲内で種々の変形が可能である。

　上記の説明において、画像データベースは注目領域抽出装置とは別の装置として構成される例を説明したが、画像データベースは注目領域抽出装置と一体として構成されてもよい。また、画像データベースに含まれる画像データは、注目領域抽出装置の製造者が登録してもよいし、ユーザが登録してもよい。また、注目領域抽出装置は、装置内部の画像データベースと装置外部の画像データベースを含む複数の画像データベースを用いてもよい。

　上記で説明した関心度の算出方法は例示であり、本発明においては注目領域と類似する画像を検索した検索結果を用いて関心度を算出すれば、その算出方法は特に限定されない。関心度は、検索結果の統計情報を用いて算出されることが好ましい。検索結果の統計情報には、検索ヒット数、類似度の統計量、類似画像の大きさの統計量、類似画像における検索画像と類似する領域の位置、タグ情報によって示される意味の収束性などが含まれる。また、類似画像にメタ情報が含まれる場合には、メタ情報の統計量に基づいて関心度を算出できる。なお、統計量とは、複数のデータに対して統計的な処理を施して得られる量であり、典型的には、平均値、最頻値、中央値、中間値、分散、標準偏差などが含まれる。

　注目領域の関心度は、類似画像検索の結果以外の情報を用いて算出されることもできる。例えば、注目領域自体の大きさや色、注目領域の入力画像中における位置などに基づいて算出されることもできる。

　上記の説明では、入力画像が静止画像であることを前提として説明しているが、入力画像が動画像（複数の静止画像）であってもよい。この場合、領域抽出部１１０は、動画像から注目領域を抽出する既存のアルゴリズムを用いて、注目領域を抽出すればよい。また、関心度算出部１３０は、注目領域の位置の時間変化も考慮して関心度を算出することもできる。例えば、注目領域の移動速度や移動方向などを考慮することができる。注目領域の移動速度が大きいほど関心度を高く算出してもよいし、低く算出してもよい。また、移動方向を考慮して関心度を算出する場合は、移動方向自体に基づいて関心度を算出してもよいし、移動方向のばらつきに基づいて関心度を算出してもよい。

　本発明にかかる注目領域抽出装置は、デスクトップ型コンピュータ、ノート型コンピュータ、スレート型コンピュータ、スマートフォン、携帯電話機、デジタルカメラ、デジタルビデオカメラなど任意の情報処理装置（コンピュータ）として実装することができる。

　１０，３１０，４１０：注目領域抽出装置
　２０：カメラ，　　３０：画像データベース
　１１０：領域抽出部，　　１２０：類似画像検索部，　　１３０：関心度算出部
　１４０：出力部，　　１５０：領域統合部
　４００：入力画像，　　４０１，４０２，４０３，４０４：注目領域
　６０１，６０２，６０３：関心度表示部
　１２００：入力画像
　１２０１，１２０２，１２０３：注目領域（統合処理前）
　１２０４：注目領域（統合処理後）

Claims

　入力画像から１つまたは複数の部分領域を抽出する抽出手段と、
　前記抽出手段によって抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索手段と、
　前記検索手段による検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定手段と、
　を備える、注目領域抽出装置。
　前記関心度決定手段は、前記検索手段によって検索された部分領域と類似する画像の統計情報を用いて、当該部分領域の関心度を決定する、
　請求項１に記載の注目領域抽出装置。
　前記関心度決定手段は、部分領域と類似する画像の数が多いほど、当該部分領域の関心度を高く決定する、
　請求項１または２に記載の注目領域抽出装置。
　前記関心度決定手段は、検索して得られる類似画像の数が閾値よりも少ない部分領域については、関心度を決定しない、
　請求項３に記載の注目領域抽出装置。
　前記関心度決定手段は、部分領域と類似する画像に関連付けられているタグ情報の意味の収束性が高いほど、当該部分領域の関心度を高く決定する、
　請求項１から４のいずれか１項に記載の注目領域抽出装置。
　前記関心度決定手段は、部分領域の大きさまたは位置に基づいて、当該部分領域の関心度を決定する、
　請求項１から５のいずれか１項に記載の注目領域抽出装置。
　関心度の算出基準の入力を受け付ける算出基準取得手段をさらに含み、
　前記関心度決定手段は、あらかじめ定められた算出基準にしたがって算出される第１の関心度と、前記算出基準取得手段によって取得される算出基準にしたがって算出される第２の関心度と、に基づいて前記関心度を算出する、
　請求項１から６のいずれか１項に記載の注目領域抽出装置。
　前記入力画像に含まれる部分領域のうち、近接する複数の部分領域を一つの部分領域として統合する統合手段をさらに有する、
　請求項１から７のいずれか１項に記載の注目領域抽出装置。
　前記入力画像に含まれる部分領域の位置と、それぞれの部分領域に対する関心度とを出力する出力手段をさらに有する、
　請求項１から８のいずれか１項に記載の注目領域抽出装置。
　前記出力手段は、前記関心度が閾値以上である部分領域についてのみ、部分領域の位置および関心度の出力を行う、
　請求項９に記載の注目領域抽出装置。
　コンピュータが行う注目領域抽出方法であって、
　入力画像から１つまたは複数の部分領域を抽出する抽出ステップと、
　前記抽出ステップにおいて抽出されたそれぞれの部分領域について、当該部分領域と類似する画像を、複数の画像を記憶する画像データベースから検索する検索ステップと、
　前記検索ステップにおける検索結果に基づいて、それぞれの部分領域の関心度を決定する関心度決定ステップと、
　を含む、注目領域抽出方法。
　請求項１１に記載の方法の各ステップをコンピュータに実行させるためのプログラム。