WO2012124149A1

WO2012124149A1 - 画像処理装置、画像処理方法および制御プログラム

Info

Publication number: WO2012124149A1
Application number: PCT/JP2011/056827
Authority: WO
Inventors: 隆義山下; 翔阮
Original assignee: オムロン株式会社
Priority date: 2011-03-11
Filing date: 2011-03-22
Publication date: 2012-09-20
Also published as: US20140112598A1; EP2685420A4; JP2012190349A; KR20130107366A; CN103415868A; EP2685420A1

Abstract

　人間が直感的にクエリ画像に類似すると考える画像を効率的に検索することを目的とし、本発明の画像処理装置（１）は、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定部（２１）と、クエリ画像からオブジェクトを抽出するオブジェクト抽出部（２２）と、オブジェクト抽出部（２２）の抽出したオブジェクトを複数合成することで、複数のオブジェクトを含む合成クエリ画像を作成する合成クエリ画像作成部（２５）と、合成クエリ画像に類似する画像を検索する検索部（２７）と、を備える。

Description

画像処理装置、画像処理方法および制御プログラム

　本発明は、画像を検索する画像処理装置、画像処理方法および制御プログラムに関するものである。

　近年、クエリ画像に類似する画像を検索する技術が開発されている。

　例えば、特許文献１には、クエリ画像に対してエッジ検出を行い、線分情報のみからなる概略画像に基づいて、クエリ画像に類似する画像を検索する技術が記載されている。より具体的には、特許文献１には、クエリ画像全体のエッジ強度に基づく大局的しきい値と、クエリ画像に含まれる注目画素およびその近傍の画素のエッジ強度に基づく局所的しきい値とを算出し、大局的しきい値および局所的しきい値のうちの大きい方の値に基づいて、注目画素がエッジであるか否かを判定し、クエリ画像から概略画像を作成する概略画像作成装置が記載されている。

　また、特許文献２には、複数のクエリ画像を組み合わせて検索を行う画像処理装置であって、クエリ画像の組み合わせを規定する論理式を感覚的な操作で指定可能な画像処理装置が記載されている。

日本国公開特許公報「特許第２８０６６６６号公報（公開日：１９９８年９月３０日）」日本国公開特許公報「特開２０１０－２５０４２６号公報（公開日：２０１０年１１月４日公開）」

Laurent Itti、外２名、「A Model of Saliency-Based Visual Attention for Rapid Scene Analysis」、IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE、VOL. 20, NO. 11、NOVEMBER 1998 「ディジタル画像処理」、第２版、財団法人　画像情報教育振興協会、２００９年３月２日、ｐ１９６－１９９

　しかしながら、上述のような従来技術は、それぞれ次のような問題がある。

　例えば、建物Ａが写っている画像をユーザが検索しようとしたときに、ユーザがクエリ画像として、建物Ａの画像を用いるとする。また、クエリ画像である建物Ａの画像には、建物Ａ以外に他の物体や背景等が含まれているとする。この場合、特許文献１に記載の技術では、クエリ画像である、建物Ａの画像の全領域（全画素）を概略画像とするため、作成した概略画像には、建物Ａ以外の他の物体や背景等の情報が含まれる。

　そのため、特許文献１に記載の技術を利用した画像検索装置は、作成した概略画像で検索する場合、建物Ａに類似する物体が写っている画像を検索すると共に、建物Ａ以外の他の物体や背景等が写っている画像を検索する。すなわち、上記画像検索装置は、ユーザの所望する建物Ａに類似する画像以外の画像も検索する。よって、特許文献１に記載の技術を利用した場合、画像検索装置が余計な検索処理を行うという問題がある。

　また、上述のように、特許文献１に記載の技術を利用した画像検索装置は、建物Ａに類似する物体が写っている画像以外に、建物Ａが写っておらず、建物Ａ以外の他の物体や背景等が写っている画像も検索結果として表示する。そのため、ユーザが検索結果の中から建物Ａが写っている画像を探すのに手間が掛かる。

　また、例えば、特許文献２に記載の技術において、花Ｂおよび花Ｃが写っている画像をユーザが検索しようとしたときに、ユーザがクエリ画像として、花Ｂの画像と花Ｃの画像を用いるとする。この場合、特許文献２に記載の技術では、花Ｂに類似する物体が写っている画像と、花Ｃに類似する物体が写っている画像とを一旦検索した後、各検索結果の論理積をユーザに提示する。すなわち、特許文献２に記載の画像処理装置は、ユーザの所望する花Ｂに類似する物体および花Ｃに類似する物体が写っている画像以外の画像も検索する。よって、特許文献２に記載の画像処理装置が余計な検索処理を行うという問題がある。

　また、一般的に、論理式を正確に理解しているユーザは多くない。そのため、論理式を理解していないユーザは、クエリ画像の組み合わせによる検索結果を予測することができない。よって、特許文献２に記載の技術では、ユーザはクエリ画像を用いた直感的な検索を行うことが難しい。

　本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間が直感的にクエリ画像に類似すると考える画像を効率的に検索する画像処理装置、画像処理方法および制御プログラムを実現することにある。

　本発明に係る画像処理装置は、上記課題を解決するために、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定手段と、上記クエリ画像からオブジェクトを検出するオブジェクト検出手段と、上記オブジェクト検出手段の検出した上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成手段と、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索手段と、を備えることを特徴としている。

　本発明に係る画像処理方法は、上記課題を解決するために、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定ステップと、上記クエリ画像からオブジェクトを検出するオブジェクト検出ステップと、上記オブジェクト検出ステップにおいて検出された上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成ステップと、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索ステップとを含むことを特徴としている。

　ここで、ユーザは、複数のオブジェクトを含む１または複数のクエリ画像に類似する画像を検索する場合、一般的に、これらのクエリ画像に含まれる複数のオブジェクトを含む画像に類似する画像を探していると予想される。

　上記オブジェクト検出手段は、上記クエリ画像特定手段がユーザからの指定に基づいて特定したクエリ画像からオブジェクトを検出し、上記合成クエリ画像生成手段は、上記オブジェクト検出手段の検出した上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成し、上記画像検索手段は、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する。

　そのため、ユーザの指定したクエリ画像からオブジェクトを自動的に検出することができる。よって、クエリ画像から検出されたオブジェクトを含む合成クエリ画像を用いて検索することにより、ユーザが探している画像を効率的に検索することができる。すなわち、画像処理装置において不要な検索処理を削減することができる。

　そのため、上記クエリ画像に基づいてクエリ画像に類似する画像を検索する際に、複数のオブジェクトを含む合成クエリ画像を使用することによって、ユーザは、上記クエリ画像を指定するだけで、直感的に、所望する画像を検索することができるという効果を奏する。

　また、複数のオブジェクトを含む合成クエリ画像を用いて検索することにより、オブジェクト単位で検索するのではなく、複数のオブジェクトを含む合成クエリ画像単位で検索するため、画像処理装置の処理負荷を軽減することができる。

　以上のように、本発明に係る画像処理装置は、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定手段と、上記クエリ画像からオブジェクトを検出するオブジェクト検出手段と、上記オブジェクト検出手段の検出した上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成手段と、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索手段と、を備えている構成である。

　また、本発明に係る画像処理方法は、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定ステップと、上記クエリ画像からオブジェクトを検出するオブジェクト検出ステップと、上記オブジェクト検出ステップにおいて検出された上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成ステップと、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索ステップとを含む。

　従って、上記クエリ画像に基づいてクエリ画像に類似する画像を検索する際に、複数のオブジェクトを含む合成クエリ画像を使用することによって、ユーザは、上記クエリ画像を指定するだけで、直感的に、所望する画像を検索することができるという効果を奏する。

　本発明のさらに他の目的、特徴、及び優れた点は、以下に示す記載によって十分わかるであろう。また、本発明の利益は、添付図面を参照した次の説明で明白になるであろう。

本発明の実施形態を示すものであり、画像処理装置の要部構成の一例を示すブロック図である。本発明の概要を示す図である。上記画像処理装置の合成クエリ画像調整部が位置および／またはサイズを調整した合成クエリ画像を示す図である。上記画像処理装置における画像検索処理の一例を示すフローチャートである。上記画像検索処理において上記画像処理装置の表示部に表示される表示画面例を示す図である。上記画像検索処理において上記画像処理装置の表示部に表示される表示画面例を示す図である。上記画像検索処理において上記画像処理装置の表示部に表示される他の表示画面例を示す図である。

　〔概要〕
　本発明に係る画像処理装置は、ユーザの指定した１または複数のクエリ画像に基づいて、クエリ画像に類似する画像を検索するための検索用画像情報（合成クエリ画像）を生成するものである。

　具体的には、図２に示すように、画像ＳＰ１のような建物Ｄの前に人物Ｅが写っている画像を探す際に、建物Ｄが写っている画像ＱＰ１および人物Ｅが写っている画像ＱＰ２をクエリ画像としてユーザが選択したとする。このとき、本発明に係る画像処理装置は、画像ＱＰ１およびＱＰ２から、それぞれ建物Ｄを示す情報および人物Ｅを示す情報を抽出する。次に、本発明に係る画像処理装置は、抽出した情報を１つの画像に合成し、画像ＳＰ１を検索するための検索用画像である合成クエリ画像ＣＱＰ１を作成する。

　そして、本発明に係る画像処理装置は、作成した合成クエリ画像ＣＱＰ１に類似する画像を検索し、その検索結果を表示する。ユーザは、表示された検索結果の中から、所望する画像を選択する。

　このように、本発明に係る画像処理装置は、ユーザが所望する画像ＳＰ１に類似する合成クエリ画像ＣＱＰ１を、ユーザが指定したクエリ画像（Ｐ１およびＰ２）から作成するものである。

　以下では、本発明の一実施形態について図１から図７に基づいて説明する。

　〔画像処理装置の構成〕
　図１は、画像処理装置１の要部構成の一例を示すブロック図である。図１に示すように、画像処理装置１は、制御部１１、記憶部１２、画像入力部１３、操作部（入力手段）１４、通信部１５および表示部１６を備えている。なお、画像処理装置１は、音声入力部、音声出力部等の部材を備えていてもよいが、発明の特徴点とは関係がないため当該部材を図示していない。

　画像入力部１３は、画像提供装置３から画像を取得するものである。画像提供装置３は、保持している画像または取得した画像を他の装置に提供する装置であれば何でもよい。例えば、画像提供装置３は、デジタルカメラ、デジタルテレビ、ＰＣ、携帯電話機、ＰＤＡ（Personal Digital Assistant）、ゲーム機、ＵＳＢ（Universal Serial Bus）メモリ等の記憶装置などである。

　操作部１４は、ユーザが画像処理装置１に指示信号を入力し、画像処理装置１を操作するためのものである。操作部１４は、キーボード、マウス、キーパッド、操作ボタンなどの入力機器等で構成されているものであってもよい。また、操作部１４と表示部１６とが一体となっているタッチパネルであってもよい。また、操作部１４は、画像処理装置１と別体のリモートコントローラ等の遠隔制御装置であってもよい。

　通信部１５は、無線通信手段または有線通信手段によって、画像データベース２等の他の装置と通信を行い、制御部１１の指示に従って、データのやりとりを行うものである。例えば、通信部１５は、制御部１１の指示に従って、画像データベース２から画像を取得する。

　画像データベース２は、画像を保持している記憶装置またはＷｅｂサーバ等である。

　表示部１６は、制御部１１の指示に従って画像を表示するものである。表示部１６は、制御部１１の指示に従って画像を表示するものであればよく、例えば、ＬＣＤ（液晶ディスプレイ）、有機ＥＬディスプレイ、プラズマディスプレイなどを適用することが可能である。

　制御部１１は、記憶部１２から一時記憶部（不図示）に読み出されたプログラムを実行することにより、各種の演算を行うと共に、画像処理装置１が備える各部を統括的に制御するものである。

　本実施形態では、制御部１１は、機能ブロックとして、クエリ画像特定部（クエリ画像特定手段）２１、オブジェクト抽出部（オブジェクト検出手段）２２、合成クエリ画像作成部（合成クエリ画像生成手段）２５、合成クエリ画像調整部（合成クエリ画像調整手段）２６および検索部（画像検索手段）２７を備える構成である。これらの制御部１１の各機能ブロック（２１、２２、２５～２７）は、ＣＰＵ（central processing unit）が、ＲＯＭ（read only memory）等で実現された記憶装置に記憶されているプログラムをＲＡＭ（random access memory）等で実現された一時記憶部に読み出して実行することで実現できる。

　クエリ画像特定部２１は、ユーザが指定した画像をクエリ画像として特定するものである。具体的には、表示部１６に表示されている画像をユーザが操作部１４を使用して指定すると、クエリ画像特定部２１は、ユーザの指定した画像を示す情報を操作部１４から取得して、取得した情報の示す画像をクエリ画像として特定する。

　なお、ユーザがクエリ画像として指定する画像は、１つであってもよいし、複数であってもよい。つまり、クエリ画像特定部２１が特定する画像（クエリ画像）は、１つでもよいし、複数であってもよい。

　上記の「表示部１６に表示されている画像」とは、例えば、制御部１１が、画像入力部１３を介して画像提供装置３から画像を取得し、取得した画像を表示部１６に表示した画像であってもよい。また、ユーザがＷｅｂの閲覧をしている状態など、制御部１１が、通信部１５を介して画像データベース２から画像を取得し、取得した画像を表示部１６に表示した画像であってもよい。また、制御部１１が、画像記憶部３１から画像を読み出し、読み出した画像を表示部１６に表示した画像であってもよい。

　また、表示部１６に表示されている画像からユーザがクエリ画像を選択することに限らない。例えば、ユーザは、画像データベース２、画像提供装置３、または画像記憶部３１における画像データのディレクトリアドレス等を指定して、画像データベース２、画像提供装置３、または画像記憶部３１が保持する画像をクエリ画像として指定してもよい。

　クエリ画像特定部２１は、画像入力部１３から、または、通信部１５を介して画像データベース２から、または、画像記憶部３１から、特定した画像（クエリ画像）を取得する。クエリ画像特定部２１は、取得したクエリ画像をオブジェクト抽出部２２に出力する。

　オブジェクト抽出部２２は、クエリ画像特定部２１からクエリ画像を取得し、取得したクエリ画像からオブジェクトを検出して、検出したオブジェクトを抽出するものである。オブジェクト抽出部２２は、抽出したオブジェクトを示すオブジェクト情報を生成し、生成したオブジェクト情報を合成クエリ画像作成部２５に出力する。

　また、オブジェクト抽出部２２は、オブジェクト情報を生成する際に、各オブジェクトのクエリ画像における位置およびサイズをそれぞれ示す位置情報およびサイズ情報を当該オブジェクトの付加情報として、オブジェクト情報に付加してもよい。

　ここで、オブジェクトとは、建物や人物等の物体、海や夕焼け空等の背景、または、「○」や「△」等の抽象的な模様などを含むものである。また、オブジェクト情報とは、画像中のオブジェクトの領域の画素群の画素値を示す情報であってもよいし、また、オブジェクトのエッジ（輪郭）を示すエッジ情報などのオブジェクトの特徴量を示す情報であってもよい。また、上記オブジェクトの付加情報は、位置情報およびサイズ情報の両方を含んでいなくてもよく、少なくとも１つを含んでいればよい。

　オブジェクト抽出部２２は、物体検出部２３および領域抽出部２４を備え、より詳細には、物体検出部２３および領域抽出部２４が、オブジェクト情報を生成する。

　物体検出部２３は、オブジェクトの標準的な画像である画像テンプレートを記憶部１２から読み出し、クエリ画像と画像テンプレートとのマッチングを行い、クエリ画像の中に、マッチングした画像テンプレートと同じオブジェクトが含まれているか否かを判定するものである。物体検出部２３は、マッチングした画像テンプレートと同じオブジェクトが含まれていると判定すると、当該オブジェクトをクエリ画像から抽出し、抽出したオブジェクトを示すオブジェクト情報を生成する。

　また、物体検出部２３は、オブジェクトの標準的な画像の特徴量を示す特徴量テンプレートを記憶部１２から読み出すと共に、クエリ画像の特徴量を算出し、クエリ画像の特徴量と特徴量テンプレートとのマッチングを行う。そして、クエリ画像の中に、マッチングした特徴量テンプレートの示す特徴量を有するオブジェクトと同じオブジェクトが含まれているか否かを判定する。物体検出部２３は、マッチングした特徴量テンプレートの示す特徴量を有するオブジェクトと同じオブジェクトが含まれていると判定すると、当該オブジェクトをクエリ画像から抽出し、抽出したオブジェクトを示すオブジェクト情報を生成する。

　例えば、物体検出部２３は、顔、人（身体）、ペット、車などを検出してもよいし、さらに、個体（個人など）を特定して検出してもよい。また、物体検出部２３は、海、山、夕焼け空などの背景（シーン）を検出してもよい。

　また、物体検出部２３は、画像テンプレートまたは特徴量テンプレートに当該テンプレートの示すオブジェクトの名称が対応付けられている場合、抽出したオブジェクトを示すオブジェクト情報に、当該オブジェクトの名称を示すオブジェクト名称情報を付加情報として付加してもよい。

　領域抽出部２４は、Saliency Map（非特許文献１を参照）や領域分割処理（セグメンテーション：非特許文献２を参照）などのアルゴリズムを用いて、クエリ画像の中から特徴的な領域（画素群）を抽出し、抽出した領域をオブジェクトの領域として特定し、オブジェクト情報を生成するものである。

　領域抽出部２４は、例えば、Saliency Mapを用いる場合、クエリ画像から、色、輝度、エッジ等の特徴量のコントラストを示すfeature mapをそれぞれ生成し、各feature mapの各画素を加算平均してsaliency map（ＳＭ）を生成し、ＳＭにおけるコントラストが高い領域（例えば、画素値が所定値以上の画素群）を抽出する。Saliency Mapは、人間の視覚処理をモデル化したものであり、Saliency Mapを用いて領域を抽出することにより、人間が注目しやすい（注目すると考えられる）領域を自動的に特定することができる。

　また、領域分割処理として、具体的には、近接画素の統合による領域分割処理、画素特徴量のクラス分けによる領域分割処理、または、エッジを利用したスネーク（snakes）と呼ばれる手法による領域分割処理等を適用してもよい。

　合成クエリ画像作成部２５は、オブジェクト抽出部２２が生成したオブジェクト情報の示すオブジェクトの中から、１つまたは複数のオブジェクトを選択し、選択したオブジェクトをブランク画像に貼り付けて合成クエリ画像を作成するものである。

　合成クエリ画像作成部２５は、操作部１４に入力されるユーザからの指示に従って、オブジェクトを選択してもよいし、予め定めた所定の選択ルールに従って、オブジェクトを選択してもよい。

　上記選択ルールとは、例えば、オブジェクトの組み合わせ全てで実施するものであってもよいし、さらに、オブジェクトが２つ以上の組み合わせ全て、オブジェクトが３つ以上の組み合わせ全て等であってもよい。

　具体的には、オブジェクト抽出部２２が「Ｌ」、「Ｍ」、「Ｎ」の３つのオブジェクトをそれぞれ示すオブジェクト情報を生成したとする。この場合、合成クエリ画像作成部２５は、「Ｌ」、「Ｍ」、「Ｎ」、「ＬとＭ」、「ＭとＮ」、「ＮとＬ」、「ＬとＭとＮ」の７通りの組み合わせで選択し、７つの合成クエリ画像を作成してもよい。

　また、各オブジェクトの組み合わせを排除するルールを予め定めておいてもよい。例えば、各オブジェクトの組み合わせを排除するルールとして、「ＭとＮ」の組み合わせを排除するものとして定めている場合、上記の選択ルールに基づいて実施すると、「Ｌ」、「Ｍ」、「Ｎ」、「ＬとＭ」、「ＮとＬ」、「ＬとＭとＮ」の６通りの組み合わせで選択される（なお、このとき、「ＬとＭとＮ」も「ＭとＮ」の組み合わせが含まれているとして排除してもよい）。なお、この場合、物体検出部２３が少なくともオブジェクト「Ｍ」と「Ｎ」の名称を特定しているものとする。

　合成クエリ画像作成部２５は、選択したオブジェクトを示すオブジェクト情報に付加情報が付加されている場合、当該付加情報の示す位置情報およびサイズ情報の示す位置およびサイズに従って、ブランク画像における当該オブジェクトの位置およびサイズを決定する。一方、付加情報が付加されていない場合、合成クエリ画像作成部２５は、ブランク画像における当該オブジェクトの位置およびサイズを、予め定めた所定の配置ルールに従って、決定する。上記配置ルールとは、例えば、選択したオブジェクト数でブランク画像を分割し、分割された各領域に各オブジェクトが収まるように配置するなどである。

　合成クエリ画像作成部２５は、作成した合成クエリ画像を示す合成クエリ画像情報を合成クエリ画像調整部２６に出力する。

　合成クエリ画像調整部２６は、合成クエリ画像作成部２５が作成した合成クエリ画像に含まれるオブジェクトの、当該合成クエリ画像における位置およびサイズを調整するものである。合成クエリ画像調整部２６は、位置およびサイズを調整した合成クエリ画像を示す合成クエリ画像情報を検索部２７に出力する。

　合成クエリ画像調整部２６は、操作部１４に入力されるユーザからの指示に従って、合成クエリ画像におけるオブジェクトの位置およびサイズを調整してもよいし、予め定めた所定の調整ルールに従って、合成クエリ画像におけるオブジェクトの位置およびサイズを調整してもよい。

　上記調整ルールとは、例えば、物体検出部２３によって合成クエリ画像に含まれるオブジェクトの名称が特定されている場合、建物のオブジェクトの前に人物のオブジェクトを配置するなどである。

　例えば、合成クエリ画像調整部２６は、図２に示す合成クエリ画像ＣＱＰ１から、図３の（ａ）または（ｂ）に示す合成クエリ画像のように、オブジェクトの合成クエリ画像における位置および／またはサイズを調整する。

　検索部２７は、合成クエリ画像調整部２６から合成クエリ画像情報を取得し、画像データベース２および／または画像記憶部３１が保持する画像の中から、取得した合成クエリ画像情報の示す合成クエリ画像に類似する画像を検索する。

　検索部２７は、検索結果を表示部１６に表示し、より合成クエリ画像に類似する画像を検索結果の上位に表示する。合成クエリ画像との類似の程度を示す指標を類似度とすると、検索部２７は、類似度が高い画像を、検索結果のより上位に表示する。

　また、検索部２７は、合成クエリ画像におけるオブジェクトの位置および／またはサイズに基づいて、各検索対象画像の合成クエリ画像との類似度を決定してもよい。具体的には、合成クエリ画像に含まれるオブジェクトと同じオブジェクトを有する検索対象画像が複数ある場合、検索対象画像におけるオブジェクトの位置またはサイズが、合成クエリ画像における当該オブジェクトの位置またはサイズと近いものほど、類似度が高くなるようにしてもよい。

　また、検索部２７は、合成クエリ画像が複数ある場合、操作部１４を介して、ユーザから選択（指定）された合成クエリ画像のみを用いて検索を行ってもよい。

　記憶部１２は、制御部１１が参照するプログラムやデータ等を格納するものであり、画像記憶部３１、テンプレート記憶部３２、アルゴリズム記憶部３３、選択ルール記憶部３４、配置ルール記憶部３５および調整ルール記憶部３６を備える。

　画像記憶部３１は、ユーザがクエリ画像として指定する画像や、検索部２７が合成クエリ画像に基づいて検索を行う検索対象の画像等を格納するものである。

　テンプレート記憶部３２は、物体検出部２３が物体を検出する際に使用する画像テンプレートや特徴量テンプレートを格納するものである。

　アルゴリズム記憶部３３は、領域抽出部２４が所定の領域を抽出する際に使用する上述のアルゴリズムを格納するものである。

　選択ルール記憶部３４は、合成クエリ画像作成部２５が自動的にオブジェクトを選択する際に使用する選択ルールを格納するものである。

　配置ルール記憶部３５は、合成クエリ画像作成部２５が自動的にオブジェクトの配置を決定する際に使用する配置ルールを格納するものである。

　調整ルール記憶部３６は、合成クエリ画像調整部２６が自動的にオブジェクトの位置およびサイズを調整する際に使用する調整ルールを格納するものである。

　〔画像検索処理〕
　次に、画像処理装置１における画像検索処理について図４に基づいて説明する。図４は、画像処理装置１における画像検索処理の一例を示すフローチャートである。図４に示す処理例では、合成クエリ画像作成部２５および合成クエリ画像調整部２６がユーザの指示に基づいて、合成クエリ画像を作成および調整を行う例を示す。

　図４に示すように、クエリ画像特定部２１は、操作部１４を介して画像をクエリ画像として指定する指示が入力されるのを待つ（Ｓ１）。ユーザがＷｅｂ閲覧時等に画像をクエリ画像として指定する操作が入力されると（Ｓ１でＹＥＳ）、クエリ画像特定部２１は、入力された指示に従って、ユーザの指定する画像をクエリ画像として特定する（Ｓ２）。そして、クエリ画像特定部２１は、特定したクエリ画像をオブジェクト抽出部２２に出力する。

　オブジェクト抽出部２２は、クエリ画像特定部２１からクエリ画像を取得し、取得したクエリ画像からオブジェクトを抽出する（Ｓ３）。そして、オブジェクト抽出部２２は、抽出したオブジェクトを表示部１６に表示する（Ｓ４）。また、オブジェクト抽出部２２は、抽出したオブジェクトを示すオブジェクト情報を生成し、生成したオブジェクト情報を合成クエリ画像作成部２５に出力する。

　次に、合成クエリ画像作成部２５は、表示部１６に表示しているオブジェクトの中から合成クエリ画像に組み込むオブジェクトを選択するユーザの指示が入力されるのを待つ（Ｓ５）。ここで、所定期間ユーザの指示が入力されなかったり、表示部１６に表示中のオブジェクトを合成クエリ画像に組み込まない旨の指示が入力されたりすると（Ｓ５でＮＯ）、Ｓ１に戻って、クエリ画像が指定されるのを待つ。

　一方、オブジェクトを選択する指示が入力されると（Ｓ５でＹＥＳ）、合成クエリ画像作成部２５は、入力された指示に従って、ユーザの指定するオブジェクトをブランク画像に貼り付けて合成クエリ画像を作成する（Ｓ６）。そして、合成クエリ画像作成部２５は、作成した合成クエリ画像を表示部１６に表示する（Ｓ７）。また、合成クエリ画像作成部２５は、作成した合成クエリ画像を示す合成クエリ画像情報を合成クエリ画像調整部２６に出力する。

　次に、合成クエリ画像調整部２６は、合成クエリ画像のオブジェクトの位置またはサイズを調整する指示が入力されるのを待つ（Ｓ８）。ここで、所定期間ユーザの指示が入力されなかったり、オブジェクトの位置およびサイズを調整しない旨の指示が入力されたりすると（Ｓ８でＮＯ）、合成クエリ画像調整部２６は、合成クエリ画像を示す合成クエリ画像情報を検索部２７に出力する。

　一方、オブジェクトの位置またはサイズを調整する指示が入力されると（Ｓ８でＹＥＳ）、合成クエリ画像調整部２６は、入力された指示に従って、ユーザの指定するオブジェクトの合成クエリ画像における位置またはサイズを調整する（Ｓ９）。そして、合成クエリ画像調整部２６は、調整した合成クエリ画像を表示部１６に表示する（Ｓ１０）。また、合成クエリ画像調整部２６は、調整した合成クエリ画像を示す合成クエリ画像情報を検索部２７に出力する。

　検索部２７は、合成クエリ画像調整部２６から合成クエリ画像情報を取得すると、操作部１４を介して、ユーザから合成終了指示が入力されるのを待つ（Ｓ１１）。ユーザから合成終了指示ではなく、クエリ画像の追加の指示が入力されると（Ｓ１１でＮＯ）、Ｓ１に戻って、クエリ画像が指定されるのを待つ。

　一方、合成終了指示が入力されると（Ｓ１１でＹＥＳ）、検索部２７は、画像データベース２および／または画像記憶部３１が保持する画像の中から、取得した合成クエリ画像情報の示す合成クエリ画像に類似する画像を検索する（Ｓ１２）。そして、検索部２７は、検索結果を表示部１６に表示する（Ｓ１３）。

　なお、合成クエリ画像作成部２５および合成クエリ画像調整部２６が、ユーザの指示ではなく自動で行う場合は、Ｓ５およびＳ８の判断処理は必要ない。また、この場合、Ｓ４、Ｓ７およびＳ１０において、表示部１６にオブジェクトまたは合成クエリ画像を表示しなくてもよい。

　〔表示画面例１〕
　次に、上記画像検索処理において表示部１６に表示される表示画面例を図５および図６に基づいて説明する。図５および図６は、画像検索処理において表示部１６に表示される表示画面例を示す図である。図５および図６に示す例では、画像入力部１３が画像提供装置３から取得した画像をユーザがクエリ画像として選択するものとする。また、オブジェクト抽出部２２が各クエリ画像における最も特徴的なオブジェクトを１つ抽出するものとし、また、合成クエリ画像作成部２５がユーザの指示に基づいて貼り付けるオブジェクトを選択するものとする。

　まず、図５の（ａ）に示すように、画像入力部１３が画像提供装置３から取得した入力画像Ｐ１を制御部１１が表示部１６に表示する。ここで、ユーザが操作部１４を介して表示部１６に表示されている入力画像Ｐ１をクエリ画像として選択すると、クエリ画像特定部２１が入力画像Ｐ１をクエリ画像ＱＰ１として特定する。

　そして、オブジェクト抽出部２２は、クエリ画像ＱＰ１からオブジェクトＯＢＪ１を抽出して、図５の（ｂ）に示すように、抽出したオブジェクトＯＢＪ１を表示部１６に表示する。ここで、ユーザが操作部１４を介して表示部１６に表示されているオブジェクトＯＢＪ１を合成クエリ画像に含めるものとして選択すると、合成クエリ画像作成部２５がブランク画像にオブジェクトＯＢＪ１を貼り付けて、合成クエリ画像ＣＱＰ１ａを作成する。

　合成クエリ画像作成部２５は、図５の（ｃ）に示すように、作成した合成クエリ画像ＣＱＰ１ａを表示部１６に表示する。なお、図５の（ｃ）に示す例では、合成クエリ画像ＣＱＰ１ａに含まれるオブジェクトＯＢＪ１を線画で表示しているがこれに限るものではない。例えば、図５の（ｂ）に示すように、クエリ画像ＱＰ１からそのまま抽出した画像を表示してもよい。

　また、このとき、ユーザが画面表示切替操作を行うことによって、図５の（ｄ）に示すように、制御部１１は、合成クエリ画像を作成するために使用したクエリ画像に関する情報を表示してもよい。図５の（ｄ）に示す例では、制御部１１は、表示部１６に、クエリ画像ＱＰ１のサムネイル画像と、クエリ画像ＱＰ１から抽出したオブジェクトの有無と、顔検出の有無とを表示する。

　合成クエリ画像作成部２５が、図５の（ｃ）に示す合成クエリ画像ＣＱＰ１ａを作成した後、さらに、画像入力部１３が画像提供装置３から入力画像Ｐ２を取得したとする。上述のように、制御部１１は、図６の（ａ）に示すように画像入力部１３が取得した入力画像Ｐ２を表示部１６に表示する。ここで、ユーザが操作部１４を介して表示部１６に表示されている入力画像Ｐ２をクエリ画像として選択すると、クエリ画像特定部２１が入力画像Ｐ２をクエリ画像ＱＰ２として特定する。

　そして、オブジェクト抽出部２２は、クエリ画像ＱＰ２からオブジェクトＯＢＪ２を抽出して、図６の（ｂ）に示すように、抽出したオブジェクトＯＢＪ２を表示部１６に表示する。ここで、ユーザが操作部１４を介して表示部１６に表示されているオブジェクトＯＢＪ２を合成クエリ画像に含めるものとして選択すると、合成クエリ画像作成部２５が先ほど作成した合成クエリ画像ＣＱＰ１ａにオブジェクトＯＢＪ２を貼り付けて、合成クエリ画像ＣＱＰ１を作成する。

　合成クエリ画像作成部２５は、図６の（ｃ）に示すように、作成した合成クエリ画像ＣＱＰ１を表示部１６に表示する。また、このとき、ユーザが画面表示切替操作を行うことによって、図６の（ｄ）に示すように、制御部１１は、合成クエリ画像を作成するために使用したクエリ画像に関する情報を表示してもよい。図６の（ｄ）に示す例では、クエリ画像ＱＰ１およびＱＰ２に関する情報が表示されている。

　〔表示画面例２〕
　次に、上記画像検索処理において表示部１６に表示される他の表示画面例を図７に基づいて説明する。図７は、画像検索処理において表示部１６に表示される他の表示画面例を示す図である。図７に示す例では、画像入力部１３が画像提供装置３から取得した画像Ｐ１およびＰ２をユーザがクエリ画像として選択するものとする。また、オブジェクト抽出部２２が各クエリ画像から複数のオブジェクトを抽出するものとし、また、合成クエリ画像作成部２５が自動的にオブジェクトを選択して合成クエリ画像を作成するものとする。

　オブジェクト抽出部２２は、クエリ画像ＱＰ１およびＱＰ２からそれぞれオブジェクトを抽出して、図７の（ａ）に示すように、クエリ画像ＱＰ１から抽出したオブジェクトＯＢＪ１、ＯＢＪ３およびＯＢＪ４、並びに、クエリ画像ＱＰ２から抽出したオブジェクトＯＢＪ２およびＯＢＪ５を表示部１６に表示する。

　次に、合成クエリ画像作成部２５が自動的にオブジェクトＯＢＪ１～５の中から、オブジェクトを選択して、オブジェクトＯＢＪ１およびＯＢＪ２を含む合成クエリ画像ＣＱＰ１と、オブジェクトＯＢＪ３およびＯＢＪ４を含む合成クエリ画像ＣＱＰ２とを作成する。合成クエリ画像作成部２５は、図７の（ｂ）に示すように、作成した合成クエリ画像ＣＱＰ１およびＣＱＰ２を表示部１６に表示する。

　〔課題を解決するための手段〕
　本発明に係る画像処理装置は、上記課題を解決するために、ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定手段と、上記クエリ画像からオブジェクトを検出するオブジェクト検出手段と、上記オブジェクト検出手段の検出した上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成手段と、上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索手段と、を備えることを特徴としている。

　本発明に係る画像処理装置は、上記合成クエリ画像上における上記オブジェクトの位置およびサイズの少なくとも何れかを調整する合成クエリ画像調整手段をさらに備え、上記画像検索手段は、上記合成クエリ画像調整手段が調整した合成クエリ画像に類似する画像を検索することが好ましい。

　一般的に、ユーザは、２つの画像が類似しているか否かを判断する際に、各画像に含まれるオブジェクトの位置および／またはサイズを相互に比較して判断する。

　上記の構成によれば、上記合成クエリ画像調整手段が上記合成クエリ画像生成手段の生成した合成クエリ画像に含まれるオブジェクトの当該合成クエリ画像上における位置およびサイズの少なくとも何れかを調整する。そして、上記画像検索手段が、上記合成クエリ画像調整手段が調整後の合成クエリ画像に類似する画像を検索する。これにより、合成クエリ画像と類似する画像であって、当該合成クエリ画像上におけるオブジェクトの位置および／またはサイズが類似するオブジェクトを含む画像を検索することができる。よって、ユーザが直感的に類似すると考える画像をより効果的、効率的に検索することができる。

　本発明に係る画像処理装置は、ユーザからの入力を受け付ける入力手段をさらに備え、上記合成クエリ画像生成手段は、上記入力手段に入力された指示に基づいて、上記オブジェクト検出手段の検出した上記オブジェクトを複数選択し、選択した複数のオブジェクトを合成することが好ましい。

　上記の構成によれば、上記合成クエリ画像生成手段は、上記入力手段に入力されたユーザの指示に基づいて、上記オブジェクト検出手段の検出したオブジェクトを複数選択し、選択した複数のオブジェクトを合成する。そのため、上記合成クエリ画像生成手段は、ユーザが探している画像に含まれるオブジェクトと類似するオブジェクトを選択することができる。よって、ユーザが探している画像に含まれるオブジェクトと類似するオブジェクトを含む合成クエリ画像を生成することができる。よって、ユーザが探している画像と類似する画像をより効果的、効率的に検索することができる。

　本発明に係る画像処理装置は、ユーザからの入力を受け付ける入力手段をさらに備え、上記合成クエリ画像調整手段は、上記入力手段に入力された指示に基づいて、上記合成クエリ画像上における上記オブジェクトの位置およびサイズの少なくとも何れかを調整することが好ましい。

　上記の構成によれば、上記合成クエリ画像調整手段は、上記入力手段に入力されたユーザの指示に基づいて、上記合成クエリ画像生成手段の生成した合成クエリ画像上における上記オブジェクトの位置およびサイズの少なくとも何れかを調整する。そのため、ユーザが探している画像に含まれるオブジェクトと、画像上の位置および／またはサイズが類似するオブジェクトを含む合成クエリ画像を生成することができる。よって、ユーザが探している画像と類似する画像をより効果的、効率的に検索することができる。

　なお、上記画像処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記画像処理装置の各手段として動作させることにより、上記画像処理装置をコンピュータにて実現させる制御プログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も本発明の範疇に入る。

　〔補足〕
　本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

　最後に、画像処理装置１の各ブロック、特に制御部１１は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

　すなわち、画像処理装置１は、各機能を実現する制御プログラムの命令を実行するＣＰＵ、上記プログラムを格納したＲＯＭ、上記プログラムを展開するＲＡＭ、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像処理装置１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記画像処理装置１に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

　上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ－ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ－Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

　また、画像処理装置１を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

　本発明は、クエリ画像に類似する画像を検索する画像処理装置に利用することができる。

　１　　画像処理装置
１４　　操作部（入力手段）
２１　　クエリ画像特定部（クエリ画像特定手段）
２２　　オブジェクト抽出部（オブジェクト検出手段）
２５　　合成クエリ画像作成部（合成クエリ画像生成手段）
２６　　合成クエリ画像調整部（合成クエリ画像調整手段）
２７　　検索部（画像検索手段）

Claims

　ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定手段と、
　上記クエリ画像からオブジェクトを検出するオブジェクト検出手段と、
　上記オブジェクト検出手段の検出した上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成手段と、
　上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索手段と、を備えることを特徴とする画像処理装置。
　上記合成クエリ画像上における上記オブジェクトの位置およびサイズの少なくとも何れかを調整する合成クエリ画像調整手段をさらに備え、
　上記画像検索手段は、上記合成クエリ画像調整手段が調整した合成クエリ画像に類似する画像を検索することを特徴とする請求項１に記載の画像処理装置。
　ユーザからの入力を受け付ける入力手段をさらに備え、
　上記合成クエリ画像生成手段は、上記入力手段に入力された指示に基づいて、上記オブジェクト検出手段の検出した上記オブジェクトを複数選択し、選択した複数のオブジェクトを合成することを特徴とする請求項１または２に記載の画像処理装置。
　ユーザからの入力を受け付ける入力手段をさらに備え、
　上記合成クエリ画像調整手段は、上記入力手段に入力された指示に基づいて、上記合成クエリ画像上における上記オブジェクトの位置およびサイズの少なくとも何れかを調整することを特徴とする請求項２に記載の画像処理装置。
　ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定ステップと、
　上記クエリ画像からオブジェクトを検出するオブジェクト検出ステップと、
　上記オブジェクト検出ステップにおいて検出された上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成ステップと、
　上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索ステップとを含むことを特徴とする画像処理方法。
　ユーザからの指定に基づきクエリ画像を特定するクエリ画像特定ステップと、
　上記クエリ画像からオブジェクトを検出するオブジェクト検出ステップと、
　上記オブジェクト検出ステップにおいて検出された上記オブジェクトを複数合成することで、複数の上記オブジェクトを含む合成クエリ画像を生成する合成クエリ画像生成ステップと、
　上記合成クエリ画像に基づいて、上記合成クエリ画像に類似する画像を検索する画像検索ステップとを含む画像処理方法をコンピュータに実行させるための制御プログラム。