WO2018159095A1

WO2018159095A1 - 画像検索装置及び画像検索方法

Info

Publication number: WO2018159095A1
Application number: PCT/JP2017/047398
Authority: WO
Inventors: 裕樹渡邉; 森田　健一; 清柱段; 廣池　敦; 村上　智一
Original assignee: 株式会社日立製作所
Priority date: 2017-02-28
Filing date: 2017-12-28
Publication date: 2018-09-07
Also published as: JP2018142160A; US20200065324A1; EP3591544A4; CN110325983B; CN110325983A; JP6811645B2; US11086924B2; SG11201907883VA; EP3591544A1

Abstract

画像を検索するための検索条件を受け付ける検索条件入力部と、検索条件に基づき第１のクエリを生成するクエリ生成部と、第１のクエリに基づきデータベース内の画像を検索する画像検索部と、検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推定する関連性推定部と、複数画像間の関連性に基づき第２のクエリを生成するクエリ補正部と、クエリ補正部により生成された第２のクエリをインタフェースに表示させる機能と、を備える。

Description

画像検索装置及び画像検索方法

　本発明は、画像検索装置、及び画像検索方法に関する。

　テレビ映像のデジタルアーカイブ化やインターネット上の動画配信サービスの普及により、大規模な画像データを高速に検索・分類する必要性が増加している。また、セキュリティ向けに蓄積された監視画像の解析に対する期待が高まっている。これらの膨大な画像に対して人手でテキスト情報を付与することが困難なことから、画像特徴量による類似画像検索や、画像認識技術によって自動付与されたメタデータを用いて検索が効率を向上することが求められている。

　例えば、特許文献１では、検索対象および検索非対象の物体属性の統計情報にもとづいて、属性ごとの識別性能を評価し、検索対象の属性の偏りに依存することなく、効率的な検索を行うことのできる画像検索装置が開示されている。

特開２０１５－１０６３００

　特許文献１には、ユーザの主観的な検索意図を画像検索に精度よく反映させるための発想については言及されていない。すなわち、画像検索によりヒットした多数の画像のうちユーザに指定された複数画像間の関連性に基づき新たなクエリを生成する構成は開示されておらず、ユーザの検索意図を高精度で画像検索に反映させることはできない。

　上記課題を解決するために、本発明が提供する画像検索装置は、画像を検索するための検索条件を受け付ける検索条件入力部と、検索条件に基づき第１のクエリを生成するクエリ生成部と、第１のクエリに基づきデータベース内の画像を検索する画像検索部と、検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推定する関連性推定部と、複数画像間の関連性に基づき第２のクエリを生成するクエリ補正部と、クエリ補正部により生成された第２のクエリをインタフェースに表示させる機能と、を備える。

　本発明によれば、画像検索によりヒットした多数の画像のうちユーザに指定された複数画像間の関連性に基づき新たなクエリを生成することが可能となる結果、ユーザの検索意図を高精度で画像検索に反映させることができる。

画像検索システムの構成を示すブロック図である。画像検索システムのハードウェア構成を示すブロック図である。画像データベースの構造を示す図である。データベース登録処理を示すフローチャートである。画像検索処理を示すフローチャートである。関連属性推定処理を説明する図である。関連属性推定処理を示すフローチャートである。検索画面を示す図である。検索画面の画面遷移を示す図である。システム全体の処理を示すシーケンス図である。実施例２における関連属性推定を説明する図である。実施例２における画像データベースの構造の拡張例を示す図である。実施例３における関連属性推定処理を示す概念図である。実施例３における関連属性推定処理を示すフローチャートである。実施例４における新規属性生成処理を示すフローチャートである。

　以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。各図において共通の構成については同一の参照符号が付されている。

　本実施形態の画像検索装置は、新規に登録する画像から多数の属性を認識し、認識の信頼度付きの属性情報を画像データベースに登録する。検索時には、入力された検索条件に従い属性集合を取得し、属性集合から検索クエリベクトルを生成し、画像データベースからベクトル間距離の近いデータを取得する。ユーザは取得した検索結果に対して適合性評価を行い画像検索装置に入力する。画像検索装置は、適合検索結果の属性を取得し、統計解析により信頼度の分布をもとめ、所定の条件に合致する属性を追加または除外する属性としてユーザに提示する。ユーザは、提示された属性を参考に検索を繰り返すことで検索意図を反映した属性集合を得ることができ、画像検索の精度が向上する。

　なお、ここでいう「属性」とは人物を特定するための情報を指し、例えば性別や年齢等の身体属性、「黒髪」「メガネ着用」「キャリーケース所持」等の外見属性、「立ち止まる」「しゃがむ」等の行動特性を含むものとする。詳細は後述する。

　また、ここでいう「信頼度」は、属性毎に設定される、当該属性が所定領域内に存在する確率を示す値であり、統計情報に基づき算出される。詳細は後述する。

　また、以下「画像」といったときと動画または静止画を示す情報を意味し、「映像」といったときは画像以外の音声データ等も含む情報を意味するものとする。

　図１は、実施例１の画像検索システム１００の構成例を示すブロック図である画像検索システム１００のユースケースとしては、警察組織職員が特定の駅構内の監視カメラ画像内から特定の不審人物の探索を実施したい場合、大規模商業施設管理会社社員等のユーザが施設内の監視カメラ画像内から迷子や遺失物等の探索を実施したい場合、等が考えられるが、これに限定されるものではない。以下、各構成につき説明する。

　画像検索システム１００は、ユーザが検索条件として入力した属性で画像データベース１０７を検索し、検索結果に対する適合性評価を元に検索条件に追加する属性を推定し、ユーザに提示する機能とインタフェースを備えることで、多数の属性を用いた映画像検索を効率的に実行する。　画像検索システム１００は、画像記憶装置１０１、入力装置１０２、表示装置１０３、及び画像検索装置１０４から構成される。画像記憶装置１０１は、静止画データまたは動画データを保存する記憶媒体であり、コンピュータ内蔵のハードディスクドライブ、または、ＮＡＳ（Ｎｅｔｗｏｒｋ　Ａｔｔａｃｈｅｄ　Ｓｔｏｒａｇｅ）もしくはＳＡＮ（Ｓｔｏｒａｇｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などのネットワークで接続されたストレージシステムを用いて構成される。また、画像記憶装置１０１は、カメラから継続的に入力される画像データを一時的に保持するキャッシュメモリであってもよい。

　入力装置１０２は、マウス、キーボード、タッチデバイスなどの、ユーザの操作を画像検索装置１０４に伝えるための入力インタフェースである。表示装置１０３は、液晶ディスプレイなどの出力インタフェースであり、画像検索装置１０４の検索結果の表示、ユーザとの対話的操作などのために用いられる。

　画像検索装置１０４は、検索に必要な情報を抽出しデータベース化するための登録処理、及び登録されたデータを用いた検索処理を行う装置である。以下、登録処理について説明する。なお、登録処理の詳細は図４のフローチャートでも説明する。登録処理では、画像記憶装置１０１に蓄積された静止画データまたは動画データから、必要に応じて認識対象領域を抽出し、抽出された領域から画像認識処理によって属性を取得し、画像データベース１０７に登録する。なお、この際、一つの処理領域から複数の属性を抽出し、かつ各属性に画像認識処理の信頼度を付与する。属性の信頼度は、0以上1以下の実数値で与えられ、1に近いほど処理領域にその属性が含まれている確率が高いことを示す。例えば外見属性の場合、画像内に存在する人物から顔領域を抽出し、当該顔領域から属性として「メガネ着用」が取得され、信頼度「0.9」が出力された場合、９０％の確率で当該顔領域に「メガネ着用」属性が含まれていることを意味する。信頼度算出の手法については後述する。

　また、画像検索装置１０４は、ユーザが入力装置１０２から指定した検索条件を用いて、画像データベース１０７から検索条件に合致する画像を検索し、表示装置１０３に情報提示するための、検索処理を行う。検索処理において、ユーザは複数の属性を検索条件として指定する。ユーザは、例えば、表示装置１０３に表示される属性ごとのチェックボックスをクリックすることで、検索に使用する属性を決定する。詳細は図８で後述する。なお、使用する属性を特定することができれば、文章や音声で入力してもよい。

　画像検索装置１０４は、画像データベース１０７に蓄積されたデータから、指定された属性に合致する画像を検索し、表示装置１０３に検索結果を表示する。ユーザは、表示された検索結果を確認し、所望の検索結果であるかどうかの適合性判定を行い、画像検索装置１０４に入力する。画像検索装置１０４は、適合する検索結果に共通して現れる属性を調べることで、検索条件に追加する属性を推定し、ユーザに提示する。ユーザは提示された属性を条件に追加して再検索を行うことで、システムに用意された多数の属性のなかから、所望の画像を検索するために好適な属性集合を効率的に選択することができる。

　画像検索装置１０４は、画像入力部１０５、属性認識部１０６、画像データベース１０７、検索条件入力部１０８、クエリ生成部１０９、画像検索部１１０、関連属性推定部１１１、クエリ補正部１１２から構成される。

　画像入力部１０５は、画像記憶装置１０１から、静止画データまたは動画データの入力を受け付け、データを画像検索装置１０４内部で使用するデータ形式に変換する。例えば、画像入力部１０５が受け付けたデータが動画データであった場合には、画像入力部１０５は、フレーム（静止画データ形式）に分解する動画デコード処理を行う。

　属性認識部１０６は、入力された画像に含まれる属性を認識する。属性認識は、システムに規定されたオブジェクト単位で行う。例えば、人物を一つのオブジェクトとして扱うシステムであれば、まず画像に含まれる人物を検出し、検出された領域毎に属性認識処理を行う。検出処理は公知の手法を用いることができる。

　なお、属性認識を行うためには、特定の画像特徴に反応する識別器を事前に用意しておく必要がある。近年の深層学習を用いた画像特徴量の自動学習を用いると、比較的容易に属性識別器を増やすことが可能となる。本実施例の属性認識部１０６は、例えば、数十から数百種類の属性を認識し、統計情報に基づき各属性の信頼度を出力することを想定している。認識する属性は、人物に関するものであれば、例えば、身体的・外見的情報を表す性別（男性、女性）、年齢層（１０代、２０代、３０代）、服装（カジュアル、フォーマル、色の種類）、姿勢（体の向き、顔の向き）などである。また、動画の入力を受け付ける場合は、時系列特徴を用いて行動（歩く、走る、しゃがむ）を属性としてもよい。さらに、映像に含まれる画像の情報以外を属性として認識してもよい。例えば、映像に含まれる音声信号や距離センサ、温度センサなどのデータを属性認識処理の入力として与えても良い。

　画像データベース１０７は、登録処理によって得られた、画像データと属性データとを保持する。画像データベース１０７は、画像検索装置１０４の各部の問合わせに対して、与えられた条件を満たす登録データを検索したり、指定されたＩＤのデータを読み出したりすることができる。画像データベース１０７の構造の詳細は図３で後述する。

　以上が、画像検索装置１０４の登録処理における各部の動作である。次に、画像検索装置１０４の検索処理における各部の動作を説明する。なお、検索処理の詳細は図５のフローチャートでも説明する。

　検索条件入力部１０８は、ユーザが入力装置１０２を介して指定した検索条件を受け付ける。検索条件は、一つ以上の属性からなる属性集合で与えられるが、その指定は必ずしも入力画面にチェックを入れる手法でなくてもよい。例えば、画像そのものを受け付け、属性認識部１０６と同様の処理を行うことで、属性集合に変換してもよい。あるいは、音声やテキストを入力として音声認識や自然言語処理を行うことで、属性集合に変換してもよい。また、検索条件に含まれる各属性には、検索時にどの程度重視するかを表す重み情報を付与してもよい。更に、検索条件入力部１０８は、検索条件として除外対象の属性を指定してもよい。例えば、メガネをかけている人物を除外したい場合には、除外対象の属性集合に「メガネ着用」属性を追加する。

　クエリ生成部１０９は、検索条件入力部１０８で得られた属性集合を検索クエリに変換する。検索クエリは、数値ベクトルで表現される。例えば、属性１と属性２を含み、属性３を含まない画像を探す場合は、検索クエリベクトルＶｑ＝（１，１，０）となる。

　画像検索部１１０は、クエリ生成部１０９で得られたクエリベクトルを用いて画像データベース１０７から該当する登録データを取得する。検索処理では、クエリベクトルと、登録データのベクトル間の距離を計算し、距離の近い順に並び替えて一定数を出力する。距離計算には平方ユークリッド距離が用いられる。例えばクエリベクトルがＶｑ＝（ｑ１，ｑ２，ｑ３、・・・）、登録データのベクトルがＶｐ＝（ｐ１，ｐ２，ｐ３、・・・）とすると、平方ユークリッド距離ｄ（Ｖｐ，Ｖｑ）は、ｄ（Ｖｐ，Ｖｑ）＝（ｐ１―ｑ１）＾２＋（ｐ２―ｑ２）＾２＋（ｐ３―ｑ３）＾２＋・・・で計算される。ここで「＾２」は２乗を意味する。平方ユークリッド距離が小さいほど、検索条件に合致する登録データに近い画像と考えることができる。なお、前述の通り、属性の重要度に応じて重み情報を与えてもよい。例えば、重みベクトルＷ＝（ｗ１，ｗ２，ｗ３，・・・）とすると、ｄ（ｐ１，ｑ１，Ｗ）＝ｗ１×（ｐ１―ｑ１）＾２＋ｗ２×（ｐ２―ｑ２）＾２＋ｗ３×（ｐ３―ｑ３）＾２＋・・・、となる。この例では画像間の類似度の指標として平方ユークリッド距離を用いる例を説明したが、クエリと登録データの合致性を評価できる計算方法であれば、任意の指標を用いてデータを検索することができる。

　関連属性推定部１１１は、検索条件に適合する検索結果の属性情報を画像データベース１０７から取得し関連属性を推定する処理部である。検索結果が検索条件に適合するか否かは、ユーザが検索結果を確認して画像検索装置１０４に入力してもよいし、画像検索部１１０で求めた距離が所定値以下のものを自動的に「適合する」と判定してもよい。関連属性は、検索条件には含まれていなかった属性であり、検索結果に特異に現れる属性である。関連属性推定処理の詳細は図６で後述する。

　クエリ補正部１１２は、関連属性推定部１１１で推定され、ユーザに提示された関連属性をのうち、ユーザが指定した属性を検索条件に追加し、クエリ生成部１０９に伝える。

　以上の検索条件入力処理、検索処理、関連属性推定処理を繰り返し行うことで、ユーザの検索意図に合致する検索結果が絞り込まれる。これにより、ユーザはシステムに提示された大量の属性から、適切な属性集合を効率的に選択することが可能となる。一連の検索処理で得られた適切な属性集合は、ユーザが任意でシステムに登録しておいても良い。また、複数の属性の組み合わせを、一つの新しい属性としてデータベースに登録しておくことで検索を効率化してもよい。

　以上が、画像検索装置１０４の検索処理における各部の動作である。なお、画像検索装置１０４の登録処理と検索処理は、同時に実行することもできる。この場合、ユーザは検索処理の結果得られた属性集合を再利用することで、新たに登録されたデータから質の高い検索結果を得ることができる。

　図２は、本実施例の画像検索システム１００のハードウェア構成例を示すブロック図である。画像検索装置１０４は、相互に接続されたプロセッサ２０１及び記憶装置２０２を備える。記憶装置２０２は、任意の種類の記憶媒体によって構成される。記憶装置２０２は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成される。

　なお、図１に示した画像入力部１０５、属性認識部１０６、検索条件入力部１０８、クエリ生成部１０９、画像検索部１１０、関連属性推定部１１１、クエリ補正部１１２といった機能部は、プロセッサ２０１が記憶装置２０２に格納された処理プログラム２０３を実行することによって実現される。言い換えると、各機能部が実行する処理は、処理プログラム２０３に基づいて、プロセッサ２０１により実行される。また、画像データベース１０７のデータは、記憶装置２０２に格納される。なお、処理負荷分散などを目的として画像検索システム１００を複数の装置で構成する場合は、画像データベース１０７を備える装置と処理プログラム２０３を実行する装置とは、ネットワークで接続された物理的に異なる装置であってもよい。

　画像検索装置１０４は、さらに、プロセッサ２０１に接続されたネットワークインターフェース装置（ＮＩＦ）２０４を含む。画像記憶装置１０１は、ネットワークインターフェース装置２０４を介して画像検索装置１０４に接続された、ＮＡＳまたはＳＡＮであることが想定される。なお、画像記憶装置１０１は、記憶装置２０２に含まれてもよい。

　図３は、本実施例の画像データベース１０７の構成及びデータ例を示す説明図である。なお、本実施形態において、システムが使用する情報は、データ構造に依存せずどのようなデータ構造で表現されていてもよい。図３はテーブル形式の例を示しているが、例えば、テーブル、リスト、データベース又はキューから適切に選択したデータ構造体が、情報を格納することができる。

　画像テーブル３００は、画像ＩＤフィールド３０１、画像データフィールド３０２、及び属性信頼度フィールド３０３から構成される。

　画像ＩＤフィールド３０１は、各画像データの識別番号を保持する。画像データフィールド３０２は、検索結果を表示する際に用いられる画像データをバイナリで保持する。属性信頼度フィールド３０３は、画像から認識された属性の信頼度を保持する。属性の信頼度は、前述の通り、0以上1以下の実数値で与えられ、1に近いほど処理領域にその属性が含まれている確率が高い。また、属性信頼度フィールドは、３０４、３０５のように複数のフィールドを保持していてもよい。

　なお、図３の各テーブル構成及び各テーブルのフィールド構成は、あくまで一例であり、アプリケーションに応じてテーブル及びフィールドが追加されてもよい。例えば、画像の撮影時間や撮影場所の情報を保持することで検索オプションに使用してもよいし、画像特徴量を保持することで画像の類似性に基づく検索機能を追加してもよい。また、同様の情報を保持していれば、テーブル構成を変えてもよい。

　本実施例の画像検索装置１０４は、前述の通り、入力された画像から抽出した多数の属性から、ユーザの検索意図に適した属性集合を推定することにより、特定の属性を持つ画像を効率的に検索することができる。ここで、ユーザが指定した検索条件から属性情報に基づく検索を実行するために、検索対象のデータベース登録処理を実行しておく必要がある。図３で説明したデータベースの構成例の情報が蓄積されていれば登録時の手順は任意で良いが、例えば図４のフローチャートに示す手順を用いることができる。

　図４は、データベース登録の処理フローを表す図である。以下、図４の各ステップについて説明する。なお、データ登録処理フローのトリガーは、ユーザが所定のシーンにおける画像データ群を要求すること等である。トリガーの詳細は、登録処理および検索処理の全体シーケンス図である図１０で後述する。
　画像入力部１０５は、画像記憶装置１０１から画像データを取得し、取得した画像データを必要に応じてシステム内部で利用可能な形式に変換する（Ｓ４０１）。例えば、動画データの入力を受け付けた場合には、動画データをフレーム（静止画データ形式）に分解する動画デコード処理等が変換処理に該当する。

　属性認識部１０６は、入力された画像から認識対象となる領域を検出する。例えば、人物を検索するアプリケーションの場合は、人物の全身または顔領域を検出する（Ｓ４０２）。検出処理には公知の人検出アルゴリズム、顔検出アルゴリズムを用いることができる。また、入力として複数フレームの連続画像が与えられた場合は、フレーム間で物体を追跡することにより、複数枚の領域画像を関連付けて出力してもよい。画像全体から属性を抽出する場合など領域抽出が不要な場合は、Ｓ４０２の処理をスキップしてもよい。

　属性認識部１０６は、ステップＳ４０２で得られた各領域に関して、ステップＳ４０４からステップＳ４０５を実行する（Ｓ４０３）。

　属性認識部１０６は、画像認識処理により画像に含まれる複数の属性情報を抽出する（Ｓ４０４）。この処理は、属性ごとに異なるアルゴリズムを用いてもよいし、多数の属性を同時に認識可能なアルゴリズムを用いてもよい。ただし、後の検索処理では各属性の信頼度が同一の尺度であることを前提とするため、複数の異なるアルゴリズムを用いる場合には、アルゴリズム間で信頼度の正規化処理を行う。

　属性認識部１０６は、ステップＳ４０２で得られた領域画像とステップＳ４０４で得られた属性を関連付けて画像データベース１０７に登録する（Ｓ４０５）。

　画像検索装置１０４は、画像記憶装置１０１に含まれる所定の画像データの処理が完了した場合、処理を終了する（Ｓ４０７）。監視カメラなど継続的に新しいデータが画像記憶装置１０１に記録される場合は、新しいデータが記憶されるまで待ってからステップＳ４０１に戻り登録処理を繰り返す。

　図５は、属性を用いた画像検索の処理フローを表す図である画像検索装置１０４は、属性集合を用いた検索結果に対するユーザの適合性判定を元に、関連属性を推定し検索条件の補正を支援する。以下、図５の各ステップについて説明する。

　検索条件入力部１０８は、ユーザが入力した検索条件を受け付ける（Ｓ５０１）。検索条件は属性の集合である。例えばユーザは表示装置１０３に表示された属性毎のチェックボックスを入力装置１０２によって操作し、システムに検索条件の属性を与える。または、入力された音声やテキストを処理することで、属性集合に変換しても良い。

　クエリ生成部１０９は、ステップＳ５０１で入力された検索条件を画像データベース１０７に対するクエリベクトルに変換する（ステップＳ５０２）。変換方法は、図１で前述したとおり、使用する属性を１、除外する属性を０で表す数値ベクトルで表現する。

　画像検索部１１０は、ステップＳ５０２で得られたクエリベクトルを用いて、画像データベース１０７内のデータを検索する（ステップＳ５０３）。検索処理では、図１で前述したとおり、データベースに登録されている比較対象のデータの属性信頼度から生成した数値ベクトルとクエリベクトルとの平方ユークリッド距離を計算し、距離の小さい順に所定数のデータを取得する。

　画像検索装置１０４は、画像検索部１１０で取得されたデータを表示装置１０３に表示する（ステップＳ５０４）。表示画面の詳細は、図８で後述する。

　画像検索装置１０４は、ユーザから再検索の指示を受けた場合、ステップＳ５０６以降の再検索処理を行い、そうでなければ処理を終了する（ステップＳ５０５）。

　関連属性推定部１１１は、ステップＳ５０３で取得した検索結果の適合性評価を取得する（Ｓ５０６）。適合性の評価は、ユーザが表示装置１０３に表示された検索結果を確認し、ユーザが「適合する」と判断した画像を、入力装置１０２を用いて画像検索装置１０４に指定することにより行われる。他方、前述の通り、適合性評価処理は自動化してもよい。すなわち、ベクトル間のユークリッド距離が所定値以下の検索結果を自動的に「適合する」と判定し、所定値以上の検索結果を自動的に「不適合」と判定してもよい。

　関連性推定部１１１は、ステップＳ５０６で取得した適合性評価結果を用いて、検索条件に含まれない関連属性を推定する（Ｓ５０７）。関連属性の推定方法については、図６及び図７で後述する。

　画像検索装置１０４は、ステップＳ５０７で推定された関連属性を表示装置１０３に表示する（Ｓ５０８）。

　クエリ補正部１１２は、ステップＳ５０８で表示された関連属性を参考にユーザが新たに指定した属性を検索条件に追加し、ステップＳ５０２に戻って検索処理を繰り返す（５０９）。ステップＳ５０２～ステップＳ５０９を繰り返すことで、ユーザの検索意図に合う検索結果を得られやすくなる。
　図６は、関連属性の推定処理（Ｓ５０７）を詳細に説明する図である。本処理では、ユーザが与えた検索結果に対する適合性評価を用いて、再検索の条件に追加または除外する属性を推定する。
　まず、初期の検索条件を用いて画像データベース１０７から取得された検索結果に対して、ユーザが適合・不適合のフラグを与える（６０１）。次に、適合として選択されたデータに付随する属性を取得する（６０２）。個々で取得する属性は、初期の検索条件に含まれないものとする。取得する情報は、各属性の認識処理の信頼度である。図６の６０２では、バーの長い属性ほど信頼度が高いことを表している。次に、得られた信頼度のデータに対して、属性ごとに統計処理を行い、関連性の高い属性を抽出する（６０３）。例えば、選択された複数のデータ内の各属性につき、信頼度のばらつき（分散値）が所定値以下で、かつ平均値が所定値以上のものを追加属性の候補とし（６０４）、信頼度の平均値が所定値以下のものを除外属性の候補とする（６０５）。信頼度が２箇所以上に分かれて分布している場合、追加または除外することで既存の検索結果の並び順が変動する可能性が高いため、係る属性は分岐候補としてユーザに提示してもよい（６０６）。

　図７は、関連属性推定の処理（Ｓ５０７）を詳細なフローチャートで示す図である。以下、各ステップについて説明する。

　関連属性推定部１１１は、ユーザによる検索結果の適合性評価に従い、画像毎に適合検索結果を取得する（Ｓ７０１）。

　関連属性推定部１１１は、すべての適合検索結果に対してステップＳ７０３を実行する（Ｓ７０２）。

　関連属性推定部１１１は、画像データベース１０７から検索結果のデータに付随する属性データを取得する（Ｓ７０３）。この時、すでに検索条件に含まれる属性のデータは取得しない。

　関連属性推定部１１１は、ステップＳ７０３で取得対象となった全ての属性について、ステップＳ７０６、ステップＳ７０７を実行する（Ｓ７０５）。

　関連属性推定部１１１は、ステップＳ７０２からステップＳ７０４で取得された該当属性の信頼度の分布を統計処理によって解析する（Ｓ７０６）。

　関連属性推定部１１１は、ステップＳ７０６で得られた統計情報を元に、該当属性を検索条件に追加する候補とするか、除外候補とするか、分岐候補とするかの判定を行う（Ｓ７０７）。判定方法は、例えば、図６の説明として前述したとおり、属性の信頼度の平均値、分散値を基準とする方法を用いる。

　すべての属性について追加、分岐、又は除外の判定が完了したら、処理を終了する。

　図８は、本実施例の画像検索装置１０４を用いて、画像検索を行うための操作画面の構成例を示す図である。また、同様に図９は画像検索を行う操作画面であり、図８からの画面遷移を説明するための図である。まず図８について説明する。

　操作画面は、表示装置１０３上でユーザに提示される。ユーザは、入力装置１０２を用いて、画面上に表示されたカーソル８００を操作することで、画像検索装置１０４に処理の指示を与える。なお、図８の例は、据え置き型の操作端末であるが、入力と表示が可能なデバイスであれば、様々な形態をとりうる。例えば、スマートフォンやタブレットのように、タッチ操作を用いても良い。また、ヘッドマウント型のディスプレイや、情報表示可能なメガネ型のデバイスを表示装置として用い、音声入力やジェスチャを受け付ける入力装置を使用してもよい。このような、ウェアラブル・携帯デバイスを用いる場合、据え置き型コンピュータに比べて検索条件の入力の簡略化が求められるため、本実施例の関連属性推定と提示機能はより顕著な効果を発揮する。

　操作画面は、検索条件入力領域８０１、検索ボタン８０２、関連属性推定ボタン８０３、及び検索結果表示領域８０４を含む。

　検索条件入力領域８０１に表示される情報は、検索条件入力部１０８およびクエリ補正部１１２によって表示装置１０３に出力される。検索結果表示領域８０４に表示される情報は、画像検索部１１０によって表示装置１０３に出力される。

　この画面において、まず、ユーザは初期の検索条件を入力する（Ｓ５０１に相当）。図８の例では、人物を検索するために、複数の属性ごとにチェックボックスを表示している。ユーザは、チェックボックスをクリックすることで検索したい人物の属性をシステムに入力する。また、検索したい人物のサンプル画像がある場合は、画像を入力するインタフェースを用意し、属性認識を実行した後、認識の信頼度の高い属性に自動的にチェックを入れても良い。この場合、自動入力後に手入力で検索に用いる属性を修正してもよい。

　初期の検索条件の入力後、ユーザが検索ボタン８０２をクリックすると検索が実行される（Ｓ５０３に相当）。なお、動作速度の問題がなければ、明示的に検索ボタンを押すことなく、検索条件が変更された時点で自動的に検索を実行するように変えても良い。

　図９は、検索が実行された後における検索結果表示画面を示す図である。

　検索が実行されると、検索結果表示領域８０４に検索結果９０１の一覧が表示される（Ｓ５０４に相当）。ユーザは、検索結果を確認し、検索意図に適合するか否かの判定を行う（Ｓ５０６に相当）。適合判定評価は、前述の通り、検索結果毎に用意されたチェックボックス９０２のうち、ユーザが「適合する」と判断する画像のチェックボックスをクリックすることにより、適合するものが指定される。

　適合評価の入力後、ユーザが関連属性推定ボタン８０３をクリックすると関連属性推定処理が実行される（Ｓ５０７に相当）。この際、検索と同様に、速度上の問題がなければ、適合評価を入力する度に、関連属性推定処理を実行してもよい。

　関連属性推定処理により、追加又は除外の候補となった属性は、検索条件入力領域でハイライト表示される（９０３）。ユーザは、ハイライト表示にて提示された属性を参考に、検索条件を補正し、所望の検索結果が得られるまで繰り返し検索を行う。

　図１０は、本実施例の画像検索システム１００の処理の一例を説明するシーケンス図である。図１０は、具体的には前述した画像検索システム１００の画像登録及び画像検索処理における、ユーザ１０００、画像記憶装置１０１、計算機１００１、及び画像データベース１０７間の処理シーケンスを示す。なお、計算機１００１は、画像検索装置１０４を実現する計算機である。

　Ｓ１０１０は登録処理を、Ｓ１０２０は検索処理を示す。登録処理Ｓ１０１０は、ステップＳ１０１１～ステップＳ１０１８に示す処理を含む。ユーザ１０００が登録要求を出すと（Ｓ１０１１）、一連の登録処理が開始される（Ｓ１０１２）。Ｓ１０１１の具体的なユースケースは、後述する。一連の登録処理は、図４で説明した処理に相当し、ユーザが指定したファイル数や所定時間、繰り返し実行される。計算機１００１は画像記憶装置１０１に画像データ取得要求を出し（Ｓ１０１３）、画像記憶装置１０１から画像データを取得する（Ｓ１０１４）。計算機１００１は、取得した画像から処理対象となる領域を検出し（Ｓ１０１５）、検出された領域から画像認識により複数の属性データを抽出する（Ｓ１０１６）。得られた画像、属性データは、画像データベース１０７に登録される（Ｓ１０１７）。

　ユーザ１０００が、計算機１００１に対して検索条件を入力すると（Ｓ１０２１）、検索処理Ｓ１０２２が実行される。検索処理Ｓ１０２２は、ステップＳ１０２３～ステップＳ１０３０に示す処理を含み、図５で説明した一連の検索処理に相当する。計算機１００１は、入力された検索条件をクエリベクトルに変換し（Ｓ１０２３）、画像データベース１０７から画像を検索し（Ｓ１０２４）、検索結果をユーザ１０００に提示する（Ｓ１０２５）。ユーザ１０００は検索結果を確認し、適合性評価を計算機１００１に伝える（Ｓ１０２６）。計算機１００１は、適合する検索結果に付随する属性データを画像データベース１０７から取得し（Ｓ１０２７）、関連属性を推定し（Ｓ１０２８）、ユーザ１０００に提示する（Ｓ１０２９）。ユーザ１０００は、提示された属性を参考に検索条件を修正し、計算機１００１に伝える（Ｓ１００１）。以上の一連の検索処理Ｓ１０２２を繰り返し行うことで、ユーザは質の高い検索結果を求めるための属性集合を得ることができる。

　ここで、ユースケース毎の、Ｓ１０１１の位置付けについて説明する。例えば、警察組織職員が特定の駅構内の監視カメラ画像内から特定の不審人物の探索を実施したい場合を想定すると、Ｓ１０１１は、画像記憶装置１０１に相当する駅サーバに対して、不審人物が映っていると思しき画像データ群を要求する処理に該当する。また、大規模商業施設管理会社社員等のユーザが施設内の監視カメラ画像内から迷子や遺失物等の探索を実施したい場合を想定すると、Ｓ１０１１は、画像記憶装置１０１に相当する施設内サーバに対して、迷子や遺失物等が映っていると思しき画像データ群を要求する処理に該当する。なお、Ｓ１０１１の際、ユーザが具体的に日付や時間帯等を指定することで、取得するデータ群の母数を絞り込むこともできる。

　なお、図１０では、登録処理Ｓ１０１０が完了した後に、検索処理Ｓ１０２０を実行しているが、同時に実行されても良い。例えば、監視カメラから継続的に入力される画像に対して常に登録処理を実行し、ユーザは随時、検索処理を実行して監視画像中から人物を検索可能なシステムとしても良い。　また、撮像された画像は、当該画像を撮像した監視カメラのIDと対応付けて管理してもよい。これにより、検索により発見された人物等を撮像した時刻および撮像位置を特定することが容易となり、検索対象物のトレース効率を向上することが可能となる。

　以上述べてきたように、本画像検索システムによれば、多様なユースケースにおいて、ユーザの検索意図に則した画像検索が可能となる。

　実施例１で示した関連属性推定では、図６で示したとおり、ユーザが適合性評価を行った検索結果のみを用いて、属性の信頼度の分布を求める。ここで、ユーザが少数の検索結果しか評価しない場合は、統計解析に十分なデータが集まらない可能性が高い。そこで実施例２の画像検索装置１０４では、関連属性推定部１１１において、ユーザが指定した適合検索結果と外見が類似するデータを画像データベース１０７から自動的に取得し、統計分析に与えるデータを拡張する。

　図１１は、類似データを用いた関連属性推定の処理フローである。図１１は、図７の処理フローを拡張したものである。具体的には、Ｓ７０１とＳ７０２の間に、Ｓ１１０１～Ｓ１１０４が挿入されている。なお、実施例１と共通する処理の説明は省略する。

　関連属性推定部１１１は、ステップＳ７０１で取得された適合検索結果に対してステップＳ１１０２を実行する（Ｓ１１０１）。

　関連属性推定部１１１は、検索結果の類似データを画像データベース１０７から取得する。データの類似性は、例えば、色や形状の特徴を数値化した固定長のベクトルを用いて、ベクトル間の距離が小さいデータを、類似データと解釈する等が想定される。類似データを検索するために、属性認識部１０６は、属性の信頼度に加えて画像特徴量をも抽出し、画像データベース１０７に登録しておく必要がある。

　図１２は、図３のデータベース構成を実施例２に適した構成に拡張したものである。具体的には、図３の画像テーブル１０３に、特徴量フィールド１２０１及び１２０２が挿入されたデータベース構成となっている。なお、実施例１と共通する構成の説明は省略する。

　特徴量は、汎用的な特徴量を１種類のみ保持してもよいし、属性ごとに特化した特徴量を保持してもよい。また、動画像のように連続する時系列データが入力される場合は、属性認識部１０６でフレーム間の物体追跡を行い、追跡ＩＤを映像データベース１０７に登録してもよい。この場合、画像テーブル１０３は、追跡ＩＤフィールド１２０３を挿入する。すなわち、追跡ＩＤが同一のデータを類似データと解釈して用いることができる。

　このように、実施例２に記載の収集データ拡張処理を行うことで、統計処理に十分なデータを収集することができ、関連属性推定の精度を向上させることが可能となる。　

　実施例１で示した関連属性推定部１１１では、関連属性を推定するために画像認識処理の信頼度のみを使用しているため、画像上の特定の領域のみから抽出した属性が検索に使用されることとなる。例えば人物を検索する場合、顔の特徴のみが関連属性として提示され、服装の特徴などが候補に上がらないことも想定し得る。そこで、実施例３の関連属性推定部１１１では、属性の空間分布を用いて、提示する属性を選別する。

　属性の空間分布は、システムの構築時に開発者が予め指定してもよいし、深層学習を用いた畳み込みニューラルネットワークによる属性認識において属性毎に畳み込み層の出力が活性化する画像領域を取得することで特徴量マップを得ても良い。例えば、図１３のように、登録時にある属性の信頼度が高い画像の特徴量マップを集約すると、属性認識に使用される画像領域を注視点マップとして得ることができる。この場合、関連属性選択時には、図１３下部のように、すでに選択済みの属性の注視点マップを重ねあわせたマップを用意しておき、そこに新たな属性を配置可能かどうか判定する。具体的な処理フローについては図１４で後述する。

　図１４は、注視点マップを用いた関連属性の推定処理のフローチャートを表す図である。以下、図１４の各ステップについて説明する。

　関連属性推定部１１１は、累積注視点マップを作成する（Ｓ１４０１）。

　関連属性推定部１１１は、図７の処理の結果得られた関連属性に関して、ステップＳ１４０３～ステップＳ１４０６を実行する（Ｓ１４０２）。

　関連属性推定部１１１は、該当属性の注視点マップを取得する（Ｓ１４０３）。

　関連属性推定部１１１は、ステップＳ１４０３で取得した注視点マップと、ステップＳ１４０１で作成した累計注視点マップとを比較し、該当属性が配置可能かどうかを判定する（Ｓ１４０４）。配置可能であれば、ステップＳ１４０５に移動し、配置不可であれば、ステップＳ１４０７に移動し、次の属性の判定処理に移る。

　関連属性推定部１１１は、累積注視点マップに、ステップＳ１４０３で取得した注視点マップを加算する（Ｓ１４０５）。

　関連属性推定部１１１は、該当属性を関連属性として出力する（Ｓ１４０６）。

　全ての属性についての判定処理が完了したら、処理を終了する。

　このように、実施例３に記載の関連属性推定処理を実施することで、検索に効果的な関連属性をより網羅的にユーザに提示することができ、関連属性推定の精度を向上させることが可能となる。

　図１の説明において、検索処理によって得られた属性の組み合わせを、新たな属性としてシステムに登録可能であることを述べた。しかし、属性間の関連性が低い場合は、新しい属性として不適切な場合も想定し得る。例えば、顔の属性と、靴の属性は関連性が低く、新しい属性としては不適切な場合がある。

　そこで、実施例４の画像検索装置１０４は、属性の登場頻度や空間情報を用いて、属性間の共起性を求めておき、当該共起性に基づき、新しい属性を追加する際に組み合わせを候補として提示するかどうかを決定する。なお、空間情報は、実施例３で述べた注視点マップを利用することができる。注視点マップにおいて類似性の高い属性は、新しい属性の組み合わせとして適切である可能性が高い。例えば、「下半身の服装が紺色である属性」と「ジーンズを履いている属性」は注視点が重なるため、「下半身の服装が紺色のジーンズ」という新しい属性の候補を上げることができる。

　図１５は、属性間の共起性を用いた、新規属性の追加の処理フローである。

　画像検索装置１０４は、図５の一連の検索処理の結果得られた属性集合から属性のペアを生成し、各属性ペアについてステップＳ１５０２～ステップＳ１５０５を実行する（Ｓ１５０１）。

　画像検索装置１０４は、属性ペアの各属性から注視点マップを取得する（Ｓ１５０２）。

　画像検索装置１０４は、ステップＳ１５０２で得られた２つの注視点マップの類似度を計算する（Ｓ１５０３）。類似度計算は、例えば注視点マップをベクトル化して平方ユークリッド距離を求め、距離が小さいほど類似度が高いとして計算する。

　画像検索装置１０４は、ステップ１５０３で求めた類似度が所定値以上（すなわち距離が所定値以下）であればステップＳ１５０５を実行し、そうでなければステップＳ１５０６に遷移し次の属性ペアを評価する。

　画像検索装置１０４は、属性ペアを新たな属性候補として、表示装置１０３を用いてユーザに提示する。

　すべての属性ペアに関して評価が完了したら、処理を終了する。また、上記の処理を繰り返せば３種類以上の属性の組み合わせを評価することも可能である。

　このように、実施例４に記載の新規属性生成処理を実施することで、検索に効果的な新たな属性を生成してユーザに提示することができ、画像検索の精度を向上させることが可能となる。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることも可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

　更に、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims

　画像を検索するための検索条件を受け付ける検索条件入力部と、
　前記検索条件に基づき第１のクエリを生成するクエリ生成部と、
　前記第１のクエリに基づきデータベース内の画像を検索する画像検索部と、を備える画像検索装置において、
　検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推定する関連性推定部と、
　前記複数画像間の関連性に基づき第２のクエリを生成するクエリ補正部と、
　前記クエリ補正部により生成された第２のクエリをインタフェースに表示させる機能と、を更に備えることを特徴とする画像検索装置。
　請求項１に記載の画像検索装置において、
　前記関連性推定部は、前記複数の画像其々につき、画像内に含まれる属性及び当該属性の信頼度を前記データベースから取得し、前記信頼度を用いた所定の統計処理により前記複数画像間の関連性を推定する、ことを特徴とする画像検索装置。
　請求項２に記載の画像検索装置において、
　前記関連性推定部は、各属性における信頼度の分布を所定の統計処理により解析し、信頼度の分散値が所定値以下かつ平均値が所定値以上の属性を追加属性の候補とし、信頼度の平均値が所定値以下の属性を除外属性とすることを以て前記複数の画像間の関連性を推定する、ことを特徴とする画像検索装置。
　請求項３に記載の画像検索装置において、
　前記インタフェースは、関連属性推定ボタンを備えており、
　前記所定操作のトリガーは、ユーザによる画像選択および前記関連性推定ボタンの押下であることを特徴とする画像検索装置。
　請求項４に記載の画像検索装置において、
　前記検索条件は、前記インタフェースに表示される複数の属性からユーザが特定の属性を選択すること、又は、ユーザから入力されたクエリ画像を解析することにより決定される、ことを特徴とする画像検索装置。
　請求項５に記載の画像検索装置において、
　ユーザから指定された所定条件に基づき画像データ群を記憶装置から取得し、所定の変換処理を実施した上で前記データベースに登録する画像入力部を更に備えることを特徴とする画像検索装置。
　請求項６に記載の画像検索装置において、
　前記関連性推定部は、ユーザにより選択された画像との類似度が所定値以上の画像を前記データベースから選択し、前記関連性推定の対象として追加する、ことを特徴とする画像検索装置。
　請求項７に記載の画像検索装置において、
　前記関連性推定部は、信頼性の高い属性が分布する領域を示す注視点マップを属性毎に作成し、前記インタフェースに出力する、ことを特徴とする画像検索装置。
　請求項８に記載の画像検索装置において、
　前記関連性推定部は、属性のペア毎に注視点マップの類似度を算出し、当該類似度が所定値以上となる属性ペアを新たな属性として前記インタフェースに出力する、ことを特徴とする画像検索装置。
　検索条件入力部が画像を検索するための検索条件を受け付けるステップと、
　クエリ生成部が前記検索条件に基づき第１のクエリを生成するステップと、
　画像検索部が前記第１のクエリに基づきデータベース内の画像を検索するステップと、
　関連性推定部が、検索によりヒットした画像のうち、所定操作により選択された複数画像間の関連性を推定するステップと、
　クエリ補正部が、前記複数画像間の関連性に基づき第２のクエリを生成するステップと、を備えることを特徴とする画像検索方法。