JPWO2013035670A1

JPWO2013035670A1 - 物体検索システムおよび物体検索方法

Info

Publication number: JPWO2013035670A1
Application number: JP2013532584A
Authority: JP
Inventors: 貴志住吉; 義崇平松; 洋登永吉
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-09-09
Filing date: 2012-09-03
Publication date: 2015-03-23
Anticipated expiration: 2032-09-03
Also published as: JP5844375B2; WO2013035670A1

Abstract

音声対話に必要となる物体名を空間内で取得した画像から得ることによって、利用者が音声対話によって依頼した物体を簡便に検索する。物体の検索を依頼する音声認識イベントがあると、依頼のキーワードに関連するキー画像を画像データベース１３６から抽出する。抽出件数が０件であれば再発話を促す音声をスピーカ部１６から出力する。抽出件数が１件以上あれば環境設置型カメラが撮影した画像から、抽出したキー画像と類似度の高い画像を抽出する。画像抽出数が０件であれば該当する物体がない旨をスピーカ部１６から出力する。検索画像数が２件以上の場合、絞り込み問い合わせの音声をスピーカ部１６から出力し、絞り込みを行う。問い合わせの結果、絞り込み方法がない場合や検索画像数が１件の場合には、検索画像群から場所を特定し、その場所を説明する音声をスピーカ部１６から出力する。

Description

本発明は、サービスロボットによる物体の検索技術に関し、特に、音声対話による実空間に存在する物体の検索に有効な技術に関する。

現在、ロボット技術の研究開発が盛んであり、その中で人間とコミュニケーションをとりながら様々なサービスを実現するサービスロボットの研究開発も進められている。

サービスロボットは、主に人間に似た外見をしており、脚部や車輪などの移動機構により空間内を移動可能である（例えば、非特許文献１参照）。

さらに、マイク、カメラ、スピーカ、およびジェスチャ機構などのインタフェースを通じて、人間の顔を見ながら音声や身振りでコミュニケーションを実現する。また、上記したコミュニケーションの実現には、例えば、音声認識、画像認識、音声合成、ならびに対話制御などの様々な技術が用いられる。

この種のサービスロボットに搭載される音声認識は、通常、特定の命令コマンドを受け付けることしかできず、あらかじめセットされていない単語は認識できない。なぜなら音声認識のアルゴリズムは通常、利用者の音声と、あらかじめセットされた単語を比較し、音響的な一致度（尤度）が最も近いものを選択するためである。

サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、非特許文献２が知られている。非特許文献２によると、利用者がロボットに物体を見せて名前を発話すると、ロボットは画像とともに、発話された音声のうちその物体の名称を表すと考えられる音声区間を記憶する。

その後、利用者が同じ物体を見せると、ロボットは画像に関連付けられた音声を声質変換し、ロボットの声として利用者に発話する。これにより、ロボットが物の名前を記憶したと利用者に理解させる。

さらに、サービスロボットに新しい物体の名前を覚えさせる技術としては、例えば、自然な対話の中で名前を教示する発話を検出し、その発話の中にある物体の名前を抽出して物体と結びつけて覚える技術が知られている（特許文献１参照）。

一方、音声認識による対話を通して利用者の望む画像を検索する技術としては、検索条件の曖昧さを低減して、効率的にユーザが意図する画像を検索するものが知られている（特許文献２参照）。

この特許文献２は、利用者が音声あるいはテキストによる装置との対話を通して所望の画像の特徴（名称、位置、大きさなど）を入力すると、その特徴を満たす画像の例を生成して利用者に提示する。

Hosoda, Y.; Egawa, S.; Tamamoto, J.; Yamamoto, K.; Nakamura, R.; Togami, M.; , "Basic Design of Human-Symbiotic Robot EMIEW," Intelligent Robots and Systems, 2006 IEEE/RSJ International Conference on , vol., no., pp.5079-5084, 9-15 Oct. 2006 杉浦孔明, 水谷了, 中村友昭, 長井隆行, 岩橋直人, 岡田浩之, 大森隆司, "音声からの未登録語切り出しと画像からの物体抽出の統合による新規物体の学習", 第26回日本ロボット学会学術講演会予稿集, 1N1-05, 2008.09

特開２０１０−２８２１９９号公報特開２００３−１９６３０６号公報

上述したように、サービスロボットは、空間内を移動し、インタフェースを通じて音声や身振りによってコミュニケーションを行い、生活に密着して様々な付加価値サービスを提供するものであるが、これまで、オフィスなどの実空間に存在する物体を、利用者が音声対話により簡便に検索するといった技術が提供されていない。

本発明の目的は、音声対話に必要となる物体名を空間内で取得した画像から得ることによって、利用者が音声対話によって依頼した物体を簡便に検索することのできる技術を提供することにある。

本発明の前記ならびにそのほかの目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。

すなわち、前述の目的を達成するために、本発明では、画像を取得する第１のカメラ（環境設置型カメラ）と、音声対話により物体を検索する対話インタフェースとを備え、利用者が検索したい物体を音声対形式によって検索するシステムを実現する。

本発明は、対話インタフェースが、第１のカメラが取得した画像を格納する第１のデータベース（環境設置型カメラ画像データベース）と、物体の画像と該画像に関連するキーワードリストとを格納する第２のデータベース（画像データベース）と有する物体検索システムである。

対話インタフェースは、制御部を有しており、該制御部によって、音声入力された物体名に基づいて、第２のデータベースから物体名に関連する画像を抽出し、第２のデータベースから抽出した画像と類似度の高い画像を第１のデータベースから検索することにより、前述の課題を解決する。

また、本発明は、音声入力された物体名に基づいて、第２のデータベースから物体名に関連する画像を抽出し、第２のデータベースから抽出した画像と類似度の高い画像を第１のデータベースから検索するシステムによる方法にも適用することができる。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

実空間に存在する物体を音声対話によって簡便に検索することができる。

本発明の実施の形態１による物体検索システムにおける構成の一例を示す説明図である。図１の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図である。図２の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャートである。図２の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図である。図２の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図である。図２の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図である。図２の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。図２の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図である。図２の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャートである。図２の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。本発明の実施の形態２による対話インタフェース装置の一例を示す説明図である。図１１の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャートである。図１１の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図である。図１１の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。

（実施の形態１）
図１は、本発明の実施の形態１による物体検索システムにおける構成の一例を示す説明図、図２は、図１の物体検索システムに設けられた対話インタフェース装置の一例を示すブロック図、図３は、図２の対話インタフェース装置に設けられた記憶装置に格納されている対話制御プログラムにおける動作の一例を示すフローチャート、図４は、図２の対話インタフェース装置に設けられた記憶装置に格納される色特徴表現データベースにおけるデータ内容の一例を示す説明図、図５は、図２の対話インタフェース装置に設けられた記憶装置に格納される大きさ特徴表現データベースにおけるデータ内容の一例を示す説明図、図６は、図２の対話インタフェース装置に設けられた記憶装置に格納される形状特徴表現データベースにおけるデータ内容の一例を示す説明図、図７は、図２の対話インタフェース装置に設けられた記憶装置に格納される画像データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図８は、図２の対話インタフェース装置に設けられた記憶装置に格納されている環境設置型カメラ画像データベースにおけるデータ構造、および格納されるデータ内容の一例を示す説明図、図９は、図２の対話インタフェース装置に設けられた記憶装置に格納されている音声認識プログラムにおける動作の一例を示すフローチャート、図１０は、図２の対話インタフェース装置に設けられた記憶装置に格納される音声認識辞書の一例を示す概念図である。

〈発明の概要〉
本発明の第１の概要は、画像を取得する第１のカメラ（環境設置型カメラ２０ａ〜２０ｃ）と、音声対話により物体を検索する対話インタフェース（対話インタフェース１０）とを備えた物体検索システム（物体検索システム１）であって、前記対話インタフェースは、前記第１のカメラが取得した画像を格納する第１のデータベース（環境設置型カメラ画像データベース１３７）と、物体の画像と前記画像に関連するキーワードリストとが格納された第２のデータベース（画像データベース１３６）と、音声入力された物体名に基づいて、前記第２のデータベースから前記物体名に関連する画像を抽出し、前記第２のデータベースから抽出した前記画像と類似度の高い画像を前記第１のデータベースから検索して抽出する制御部（対話制御プログラム１３１）とを有するものである。

また、本発明の第２の概要は、画像を取得する第１のカメラ（環境設置型カメラ２０ａ〜２０ｃ）と、音声対話により物体を検索する対話インタフェースとを備えた物体検索システム（物体検索システム１）を用いて物体を検索する物体検索方法であって、前記第１のカメラが取得した画像を第１のデータベース（環境設置型カメラ画像データベース１３７）に格納するステップと、画像と前記画像に関連するキーワードリストと第２のデータベース（画像データベース１３６）に格納するステップと、入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第２のデータベースから前記物体名に関連する画像を抽出し、前記第２のデータベースから抽出した前記画像と類似度の高い画像を前記第１のデータベースから検索して抽出するステップとを有するものである。

以下、上記した概要に基づいて、実施の形態を詳細に説明する。

〈物体検索システムの構成〉
本実施の形態１において、物体検索システム１は、オフィスなどの実空間に存在する物体を、音声対話によって検索するシステムである。物体検索システム１は、図１に示すように、対話インタフェース装置１０、環境設置型カメラ２０ａ〜２０ｃ、およびネットワーク３０から構成されている。

対話インタフェース装置１０は、利用者が音声対話などによって入力した物体名から、類似度の高い画像を抽出し、抽出した画像、あるいは抽出した画像の撮影位置を利用者に提示する。環境設置型カメラ２０ａ〜２０ｃは、実空間の任意の位置に設置されており、実空間の静止画像を撮影する。

対話インタフェース装置１０と環境設置型カメラ２０ａ〜２０ｃとは、ネットワーク３０によって相互に接続されており、該ネットワーク３０を介して、データの送受信が可能である。

ネットワーク３０は、例えば、無線ＴＣＰ／ＩＰ（Transmission Control Protocol/Internet Protocol）網などからなる。ＴＣＰ／ＩＰは、インターネットなどにおいて標準的に取り扱われるプロトコルである。

なお、図１においては、３台の環境設置型カメラ２０ａ〜２０ｃが設けられた例を示しているが、環境設置型カメラは、１台以上の任意の台数であってもよい。さらに、ネットワーク３０は、無線ＴＣＰ／ＩＰ網としたが有線であってもよく、通信方式もこれに限定するものではない。

〈対話インタフェース装置の構成〉
図２は、対話インタフェース装置１０の一例を示すブロック図である。

対話インタフェース装置１０は、図示するように、ＣＰＵ(Central Processing Unit)１２、記憶装置１３、ネットワークインタフェース１４、マイク部１５、スピーカ部１６、カメラ部１７、ならびに移動装置１８から構成されている。

これら対話インタフェース装置１０における各構成要素（ＣＰＵ１２、記憶装置１３、ネットワークインタフェース１４、マイク部１５、スピーカ部１６、カメラ部１７、および移動装置１８）は、バス１１によって相互に接続されており、バス１１を介して、例えば、バス型アーキテクチャなどによって通信機能が確立される。なお、各構成要素間における通信方式は、バス型アーキテクチャに限定されるものではなく、バス型アーキテクチャ以外の通信方式によって通信機能が確立するようにしてもよい。

ＣＰＵ１２は、記憶装置１３に格納された各種プログラムを読み込み、読み込んだプログラムの記述に従い、記憶装置１３へのデータ読み書き、四則演算などの演算、ネットワークインタフェース１４、マイク部１５、スピーカ部１６、カメラ部１７や移動装置１８の制御、およびデータ送受信を行う。

本実施の形態では、ＣＰＵ１２を汎用ＣＰＵとして説明するが、例えば各プログラムと同等の機能を実現するハードウェアチップにより構成してもよい。

記憶装置１３は、対話制御プログラム１３１、音声認識プログラム１３２、辞書作成プログラム１３３、環境画像取得プログラム１３４、画像データベース１３６、環境設置型カメラ画像データベース１３７、音声認識辞書１３８、音声認識音響モデル１３９、色特徴表現データベース１４０、大きさ特徴データベース１４１、および形状特徴表現データベースなどを格納する。

また、対話制御プログラム１３１は、音声対話を行い、検索する物体を利用者に提示する処理をＣＰＵ１２に実行させる。この対話制御プログラム１３１は、キー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンなどを有している。

キー画像抽出サブルーチンは、キーワードに関連するキー画像群を画像データベース１３６から抽出する処理を行う。検索画像サブルーチンは、環境設置型カメラ２０ａ，２０ｂ，２０ｃによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する処理を行う。絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行う処理を行う。

さらに、音声認識プログラム１３２は、音声認識を行い、認識結果である音声認識イベントを発行する処理をＣＰＵ１２に実行させる。辞書作成プログラム１３３は、音声認識辞書（図１０）のうち、検索依頼部分の物体名に相当する部分を構築する処理をＣＰＵ１２に実行させる。

環境画像取得プログラム１３４は、環境設置型カメラ２０ａ〜２０ｃからネットワーク３０を通して、画像および画像情報であるメタデータを取得し、環境設置型カメラ画像データベース１３７に新規レコードとして追加することを繰り返す処理をＣＰＵ１２に実行させる。

また、画像データベース１３６、環境設置型カメラ画像データベース１３７、および音声認識辞書１３８におけるデータ構造については、後述する。

ネットワークインタフェース１４は、対話インタフェース装置１０をネットワーク３０（図１）と接続するためのインタフェースである。マイク部１５は、環境内（実空間）の音、特に利用者の音声を収録するために設置されており、該マイク部１５におけるマイクデバイスによって音声波形を観測し、デジタルサンプリングを行い、ＣＰＵ１２からそのデータを参照可能にする。

スピーカ部１６は環境内において、特に利用者に音声を聴かせるために設置されており、ＣＰＵ１２から送信されたデータをアナログ波形に変換し、音波として出力する。

カメラ部１７は、環境内において、人の顔や環境の物体を撮影するために設置されており、カメラデバイスにより映像を観測し、デジタル量子化を行い、ＣＰＵ１２からそのデータを参照可能にする。

ここで、図１では、環境設置型カメラ２０ａ，２０ｂ，２０ｃをネットワーク３０を介して対話インタフェース１０に接続した構成としたが、カメラ部１７を環境設置型カメラ２０ａ，２０ｂ，２０ｃの代わりとして用いる構成であってもよい。

移動装置１８は、例えば、モータ、および該モータを制御する制御部などからなり、ＣＰＵ１２からの命令により動作し、制御部がモータを駆動し、対話インタフェース装置１０それ自体を移動させる。

また、移動装置１８には、ＣＰＵ１２が指定した位置まで正確に移動させるために、対話インタフェース装置１０の現在位置を測定するＧＰＳ（Global Positioning System）やオドメータなどを搭載してもよい。さらには、移動装置１８に障害物との衝突を避けるためレーザレンジファインダやステレオカメラなどを搭載してもよい。また、これらは、移動装置１８とは個別に設け、例えば、バス１１と接続する構成としてもよい。

以上説明した対話インタフェース装置１０の各構成要素（ＣＰＵ１２、記憶装置１３、ネットワークインタフェース１４、マイク部１５、スピーカ部１６、カメラ部１７、および移動装置１８）は、それぞれその数を１として説明するが、それに限定するものではない。

〈対話制御プログラムの動作例〉
図３は、記憶装置１３に格納されている対話制御プログラム１３１における動作の一例を示すフローチャートである。

ここで、対話制御プログラム１３１は、対話インタフェース装置１０が利用されている間、常に実行されているプログラムである。

最初に、音声認識イベントがあるかどうかを調べ（ステップＳ１０１）、音声認識イベントがない場合には、音声認識イベントが発生するまで待機し、あればその音声認識イベントの種別に応じて処理を分岐する。

ステップＳ１０１の処理における音声認識イベントは、後述する音声認識プログラム１３２により、音声認識が行われた際に発行されるものであり、音声認識の認識結果情報が記されている。

音声認識イベントが物体の検索を依頼する「検索依頼」であった場合には、音声認識イベントのキーワードに基づいて、対話制御プログラム１３１における後述するキー画像抽出サブルーチンを実行し、キーワードに関連するキー画像群を画像データベース１３６（図７）から抽出する（ステップＳ１０２）。

ステップＳ１０２の処理において、抽出件数が０件であれば（ステップＳ１０３)、発話されたキーワードに該当するキー画像がないため後続の検索処理が不可能であり、利用者に再発話を促す音声をスピーカから出力させる（ステップＳ１０４）。

また、抽出件数が１件以上あれば、抽出したキー画像群に基づいて、対話制御プログラム１３１における後述する検索画像抽出サブルーチンを実行し（ステップＳ１０５）、環境設置型カメラ２０ａ，２０ｂ，２０ｃによって撮影した画像のうち、キー画像群と類似度の高いものを検索画像群として抽出する。

ステップＳ１０５の処理による検索画像の抽出数が０件であれば（ステップＳ１０６）、環境（物体検索を行う実空間）内にキーワードに該当する物体がなかった旨を伝える音声をスピーカ部１６から出力する（ステップＳ１０７）。

また、ステップＳ１０５の処理による検索画像数が１件以上であれば、検索画像数がしきい値（例えば、検索画像数が２件）以上であるか否かを判断する（ステップＳ１０８）。

ステップＳ１０８の処理において、検索画像数がしきい値以上（２件以上）であれば、検索画像群に基づいて、対話制御プログラム１３１における後述する絞り込み方法決定サブルーチンを実行する（ステップＳ１０９）。

このステップＳ１０９の処理における絞り込み方法決定サブルーチンは、得られた絞り込み方法に対応する絞り込み問い合わせを利用者に行うために、絞り込み問い合わせ音声をスピーカ部１６から出力する。

絞り込み問い合わせの結果、絞り込み方法が存在しないと判断された場合や、検索画像数がしきい値よりも少ない（１件）場合には、検索画像群から場所を特定し、その場所を説明する音声をスピーカ部１６から出力する（ステップＳ１１０）。その後、ステップＳ１０２の処理に戻る。

ここで、スピーカ部１６から出力する音声は、あらかじめ録音した音声を再生してもよいし、音声認識結果の物体名と定型句を組み合わせたテキストから、一般的に知られるText To Speech 技術などを用いて音声波形を合成したものを再生してもよい。

また、対話インタフェース装置１０にディスプレイなどを備えて、音声の代わりに、あるいは音声と共に検索した物体の場所などの説明を該ディスプレイに表示してもよい。ディスプレイを用いる場合は、例えば、空間の地図を表示し、検索画像群をその場所に対応する地図上の位置に関連付けて表示する。

さらに、絞り込み処理の途中の段階（例えば、ステップＳ１０８〜Ｓ１０９の処理）から説明を表示させてもよい。あるいは、利用者の持つモバイル端末やヘッドマウントディスプレイなどのＰＤＡ（Personal Digital Assistant）に指示を送り、該ＰＤＡが表示する地図や撮影画像上の、検索画像群の場所に対応する位置に情報を表示するようにしてもよい。本実施の形態は、対話インタフェース装置１０から利用者への情報提示技術に関して制限を設けるものではない。

続いて、ステップＳ１０１の処理における音声認識イベントが「絞り込み」処理であった場合、音声認識イベントの絞り込み内容に基づき検索画像群を絞り込む絞り込み処理を行う（ステップＳ１１１)。

ここで、絞り込み処理の例について説明する。

例えば、絞り込み内容が「色−赤」であった場合、検索画像群の色相ヒストグラムのうち、赤近傍成分を累積したものの全体の割合が一定以上、あるいは全体の順位が上位であるもののみを選び、新たな検索画像群とする。

この処理を行うために、図４に示す色特徴表現データベース１４０に格納されている色特徴表現の情報を参照する。色特徴表現データベース１４０は、図４に示すように、色名（図４の左側に示す）に対応する色成分を、例えば三原色ＲＧＢ(Red,Green,Blue)の強さ（図４の右側に示す「ＲＧＢ」）としてそれぞれ表した情報である。

また、絞り込み内容が「大きさ−２０ｃｍ」であった場合、検索画像群のオブジェクトの大きさを推定し、その大きさ（例えば、オブジェクトの長辺、あるいは対角線）が２０ｃｍから任意の設定値以内のずれのものあるいは、ずれの小ささが上位であるもののみを選び、新たな検索画像群とする。

この処理を行う場合には、図５に示す大きさ特徴表現データベース１４１に格納されている大きさ特徴表現の情報を参照する。大きさ特徴表現データベース１４１は、大きさ表現（図５の左側に示す「大きさ名」）と対応する値の範囲（図５の右側に示す「値（ｃｍ）」）を、例えばミリメートル単位で大きさ特徴表現として示した情報である。

絞り込み内容が「形−円」であった場合、検索画像群のオブジェクトの形を推定し、その形であるもの、あるいはその形らしさを数値化したものが任意の設定値以上、あるいは上位であるもののみを選び、新たな検索画像群とする。

この処理においては、図６に示す形状特徴表現データベース１４２に格納されている形状特徴表現の情報を参照する。形状特徴表現データベース１４２は、形状表現（図６の左側に示す「型名」）と対応する形状の識別子（図６の右側に示す「識別子」）を形状特徴表現の情報として示した情報である。

そして、ステップＳ１１１の絞り込みを行った後、すでに説明したステップＳ１０６以降の処理を行う。

また、ステップＳ１０１における音声認識イベントが「案内依頼」であった場合、ステップＳ１１０の処理において最後に提示した場所に移動するように移動装置１８に命令し、対話インタフェース装置１０を移動させた後（ステップＳ１１２）、ステップＳ１０２の処理に戻る。

以上の処理において、例外的状況が発生した場合は、その例外を利用者に伝え、音声認識イベントの処理をスキップする。具体的には、例えば音声認識イベントが「絞り込み」であるものの、以前に「検索依頼」の音声認識イベントを処理しておらず、絞り込むべき検索画像群が存在しない場合や、音声認識イベントが「案内依頼」であるが案内すべき場所が確定していない場合などである。

〈画像データベースのデータ構造、およびデータ内容〉
図７は、記憶装置１３に格納される画像データベース１３６のデータ構造、および格納されるデータ内容の一例を示す説明図である。

画像データベース１３６は、図７の左側に示す画像と図７の右側に示すキーワードリストとからなる関係データベースである。画像は、画像そのものを示すデータをデータベース上に直接格納してもよいし、ファイル名などの参照情報のみを格納してもよい。

あるいは、画像そのものではなく、画像から後述する類似画像検索に用いる特徴量データに変換したものを、画像とともに、または画像の代替として格納しておいてもよい。

〈キー画像抽出サブルーチンの処理〉
キー画像抽出サブルーチンの処理は、画像データベース１３６のキーワードリストに対象となるキーワードが含まれるエントリを、該画像データベース１３６から検索し、そのエントリの画像を抽出することによってキー画像群を得る。

画像データベース１３６は、大規模であればあるほど物体検索の精度が上がることが期待される。しかし、その一方で画像データベース１３６の構築（キーワードリストの作成など）のコストも大きくなってしまう。

そこで、構築コストの増大を解消する技術として、インターネットのｈｔｍｌ(Hyper Text Markup Language)ページに代表される画像つき文書を用いて画像データベースを自動構築する方法について、以下に述べる。

インターネットをクローリングすることで、大量のｈｔｍｌページを取得することができる。さらに、ｈｔｍｌページにおいて画像を表示させるタグである<img>タグに含まれる画像ファイルへのＵＲＬ（Uniform Resource Locator）を参照することで、画像を取得することができる。ＵＲＬは、インターネット上に存在する文書や画像などの情報場所を示す記述方式である。

取得した各画像のキーワードリストは、当該<img>タグの属性値や、当該<img>タグの周辺テキストから求めることができる。例えば、属性値やテキストを形態素解析で形態素列に分割したのち、その部分列のスコアをＴＦ／ＩＤＦ(Text Frequency/Inverse Document Frequency)などの尺度（ここで、TFは当該<img>タグに関連するテキスト内に登場する当該部分列の数、IDFは、すべてのhtmlページにおけるすべての<img>タグのうち、当該形態素が出現する数の逆数）にて求めて、スコアが任意の設定値以上、あるいは上位である部分列群をキーワードリストとする。

〈環境設置型カメラ画像データベースのデータ構造、およびデータ内容〉
図８は、環境設置型カメラ画像データベース１３７におけるデータ構造、および格納されるデータ内容の一例を示す説明図である。

環境設置型カメラ画像データベース１３７は、画像とメタデータ（撮影位置、撮影角、撮影日時）とからなる関係データベースである。メタデータは、例えば、撮影位置、撮影角、ならびに撮影日時などのデータから構成されている。

環境設置型カメラ画像データベース１３７は、環境画像取得プログラム１３４の処理により、データベースが構築される。環境画像取得プログラム１３４は、前述したように、環境設置型カメラ２０ａ〜２０ｃからネットワーク３０を通して、様々な物体の画像およびメタデータを取得し、環境設置型カメラ画像データベース１３７に新規レコードとして追加することを繰り返す。

画像を取得するタイミングは、あらかじめ定められた任意の時間間隔、あるいは撮影画像を分析し、画像の変化を検出した時点とするが、これらの方法に限定するものではない。

環境設置型カメラ２０ａ〜２０ｃが移動機能を持つ場合は、ＧＰＳ(Global Positioning System)やオドメータなどの位置測定手段を備えることで、該環境設置型カメラ２０ａ〜２０ｃの位置を求めることができる。

環境設置型カメラ２０ａ〜２０ｃが撮影方向を制御可能な場合は、現在のカメラの位置をＡＰＩ(Application Programming Interface)で取得するなどの技術を用いてカメラの撮影方向を取得できる。

また、環境画像取得プログラム１３４は、環境設置型カメラ２０ａ〜２０ｃから画像を取得するのと同様に、対話インタフェース装置１０に備えたカメラ１７により画像を取得してもよい。

こうすることで、対話インタフェース装置１０がロボットである場合のようにカメラ１７や移動装置１８を備えていれば、それらをそのまま環境画像取得に流用でき、さらに環境設置型カメラと異なる、一般的には利用者たちと同じ視点から物体検索用の画像を取得できるという利点がある。

〈検索画像抽出サブルーチンの処理〉
また、対話制御プログラム１３１における検索画像抽出サブルーチンの処理例について説明する。

検索画像抽出サブルーチンは、キー画像群の各画像をキーに、環境設置型カメラ画像データベース１３７内の画像に含まれるオブジェクトとの一致度を測定し、一致度が任意の設定値以上、あるいは上位のものを検索画像群として抽出する。

１つのキー画像に類似する画像を環境設置型カメラ画像データベース１３７内から検索する技術としては、例えば、文献（１）に記述されているような一般的に知られる類似画像検索のアルゴリズム（例えば、下記文献（１）参照）を用いる。

さらに、環境設置型カメラ画像データベース１３７に含まれる画像が複数のオブジェクトを部分的に含む場合は、文献（１）に記述されているような部分一致型の類似画像検索のアルゴリズム（例えば、文献（１）参照）を用いる。

文献（１）：原田達也, 中山英樹, 國吉康夫,「AI Goggles：追加学習機能を備えたウェアラブル画像アノテーション・リトリーバルシステム」電子情報通信学会論文誌, Vol.J93-D, No.6, pp.857-869, Jun. 2010.
〈絞り込み方法決定サブルーチンの処理〉
続いて、対話制御プログラム１３１における絞り込み方法決定サブルーチンの処理例について説明する。

絞り込み方法決定サブルーチンでは、絞り込み方法として、色、大きさ、および形の３種類を想定する。単純な方法としては、これらを任意の順番に絞り込み方法とするという方法があげられる。

より効果的な絞り込み方法決定方法を以下に示す。

まず、それぞれの方法について、検索画像群のすべての画像の測定値を求める。例えば色の場合、色相ヒストグラムを用いて検索画像の主成分である色を測定する。測定結果の分布を求め、各絞り込み方法で利用者から得られる応答の情報から、期待される平均絞り込み度合いを推定する。

すなわち、方法Ｍにおける可能な応答パターンＸＭ＝｛ＸＭ１，．．．，ＸＭｎ｝（色の場合は、ＸＭ１〜ＸＭｎは色の名前に相当する）における絞り込み後の検索画像数をＮ（ＸＭ１），．．．，Ｎ（ＸＭｎ）とすると、Ｍ’＝argmin#Ｍ(avg#ＸＭ（Ｎ（ＸＭ））)を絞り込み方法と決定する。

〈音声認識プログラムの動作例〉
図９は、音声認識プログラム１３２における動作の一例を示すフローチャートである。

原則として、音声認識プログラム１３２は、対話インタフェース装置１０の起動時に開始させ、音声認識を行いたい時間の間、常に動作させておく。また、マイク部１５で収録した音声波形データを常に参照する。

図９において、まず、マイク部１５が観測した音声波形を解析し、音声が存在しているか否かを判断し、音声が存在する区間を確定する（ステップＳ２０１）。このステップＳ２０１の処理は、例えば、音声区間検出と呼ばれる公知の方法などにより実現できる（文献（２））。

また、音声波形データを解析するかわりに、あるいは補助手段として、スイッチを対話インタフェース装置１０に備えて、利用者がそのスイッチを用いて音声区間を確定する方法や、カメラ部１７で捉えた画像から顔画像や唇画像を検出した結果を音声区間検出に用いてもよい。

音声区間が確定したら、その区間の音声パターンとよく一致する音声認識辞書内のエントリを音声認識音響モデル（音声の音響的な特徴量）に基づき求める（ステップＳ２０２）。これは、例えば、自動音声認識と呼ばれる公知の方法で実現できる（文献（２）参照）。そして、ステップＳ２０２の処理おいて求めたエントリを音声認識イベントとして発行する（ステップＳ２０３）。

文献（２）：「音声認識の基礎」Lawrence Rabiner, Biing-Hwang Juang著、古井貞煕監訳、ＮＴＴアドバンステクノロジ株式会社発行

〈音声認識辞書の構成〉
図１０は、記憶装置１３に格納される音声認識辞書１３８の一例を示す概念図である。

音声認識辞書１３８は、例えば、ＦＳＡ(Finite State Automaton)により記述される。ＦＳＡの遷移に振られたラベルは、音声認識音響モデル１３９が用いる音節などの言語の基本単位の１要素であり、該当する音声認識音響モデル１３９内の確率モデルとの時系列マッチングに用いられる。ＦＳＡの開始状態から終了状態へ向かうすべてのパスがエントリとなる。本実施の形態にて用いる音声認識辞書は、検索依頼（図１０の上段）、絞り込み（図１０の中段）、案内依頼（図１０の下段）の３種類に分類される。

音声認識イベントは、選択されたエントリのラベル系列と、そのエントリが含まれる分類（検索依頼、絞り込み、案内依頼）で構成される。

〈辞書作成プログラムの動作〉
辞書作成プログラムは、図１０において示す音声認識辞書１３８のうち、検索依頼部分の物体名に相当する部分を構築する。以下に、２通りの方法を示す。

第１の方法は、画像データベース１３６の各エントリのキーワードリストに含まれる全キーワードを用いて構築する。

第２の方法は、画像データベース１３６の各画像をキーに、環境設置型カメラ画像データベース１３７の画像の類似画像検索を行い、その検索結果が１件以上存在したキー画像が属したエントリのキーワードリストに含まれるキーワードを用いて構築するものである。

第１の方法は、簡便であるが画像データベース１３６の規模によっては辞書のエントリ数が膨大となり、音声認識の精度を下げる原因となり得る。よって、第２の方法を用いることで、辞書には環境に存在する物体の物体名と考えられる単語の割合が増えることが期待される。

ただし、第２の方法は、類似画像検索の計算量が大きいため、例えば１日に１度といった頻度で実行するなどの工夫が考えられる。

それにより、本実施の形態１によれば、物体検索システム１を用いることにより、利用者が音声対話によって簡便に所望する物体を検索することができる。

（実施の形態２）
図１１は、本発明の実施の形態２による対話インタフェース装置の一例を示す説明図、図１２は、図１１の対話インタフェース装置に設けられた記憶装置に格納された対話制御プログラムにおける動作の一例を示すフローチャート、図１３は、図１１の対話インタフェース装置に設けられた記憶装置に格納された利用者識別データベースのデータ構造、および格納されるデータ内容の一例を示す説明図、図１４は、図１１の対話インタフェース装置に設けられた記憶装置に格納された利用者データベースのデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。

〈対話インタフェース装置の構成〉
本実施の形態２においては、物体検索システム１(図１)が後述する利用者データベース１５６を用いて物体検索を行う例について説明する。物体検索システム１は、前記実施の形態１の図１と同様に、対話インタフェース装置１０、環境設置型カメラ２０ａ〜２０ｃ、およびネットワーク３０から構成されている。

対話インタフェース装置１０は、図１１に示すように、ＣＰＵ１２、記憶装置１３、ネットワークインタフェース１４、マイク部１５、スピーカ部１６、カメラ部１７、ならびに移動装置１８からなる図２の対話インタフェース装置１０と同様の構成からなる。

また、記憶装置１３には、対話制御プログラム１３１、音声認識プログラム１３２、辞書作成プログラム１３３、環境画像取得プログラム１３４、画像データベース１３６、環境設置型カメラ画像データベース１３７、音声認識辞書１３８、および音声認識音響モデル１３９などの前記実施の形態１の図２と同様の情報に加えて、利用者識別データベース１５５、および利用者データベース１５６の情報が新たに格納されている。

さらに、対話制御プログラム１３１には、前記実施の形態１の図２に示したキー画像抽出サブルーチン、検索画像サブルーチン、および絞り込み方法決定サブルーチンに加えて、利用者識別サブルーチンを新たに有している。この利用者識別サブルーチンは、類似度の高い顔画像があるレコードの利用者識別子である利用者ＩＤ（利用者を識別する符号）を選択する処理を行う。

〈対話制御プログラムの動作例〉
図１２は、対話制御プログラム１３１における動作の一例を示すフローチャートである。

図１２において、ステップＳ１０１〜Ｓ１１４の処理は、前記実施の形態１の図３の処理と同様であるので説明は省略し、新たに追加されたステップＳ１１５、およびステップＳ１１６の処理について説明する。

ステップＳ１１５の処理は、音声認識イベント（ステップＳ１０１の処理）が物体の検索を依頼する「検索依頼」の際に最初に実行するステップであり、ステップＳ１１６の処理は、ステップＳ１０７の検索画像抽出サブルーチンを実行した後に行う処理である。

前述したように、ステップＳ１０１の処理において、音声認識イベントが物体の検索を依頼する「検索依頼」の場合、ステップＳ１０２のキー画像抽出サブルーチンに先行して、利用者識別サブルーチンを実行する（ステップＳ１１５）。

ここで、ステップＳ１１５の処理である利用者識別サブルーチンの動作について説明する。

まず、カメラ１７から画像を取得する。続いて、取得した画像から顔領域を検出し、顔画像を抽出する。そして、利用者識別データベース１５５の各レコードの顔画像と抽出顔画像の類似度を算出し、類似度の最も高い顔画像があるレコードの利用者ＩＤを選択する。

ここで、利用者識別データベース１５５について説明する。

図１３は、利用者識別データベース１５５のデータ構造、および格納されるデータ内容の一例を示す説明図である。利用者識別データベース１５５の各レコードは、図示するように、利用者を識別する符号である利用者ＩＤ（図１３の右側に示す）と利用者の顔画像（図１３の左側に示す）とがそれぞれ関連付けされて格納されている。

続いて、ステップＳ１１５の処理である利用者識別サブルーチンにおいて、類似度が一定しきい値を超えるものが存在しない場合には、新規の利用者ＩＤを割り当て、抽出顔画像と関連付けて利用者識別データベース１５５に新規レコードとして追加する。このように、選択あるいは追加した利用者ＩＤを、メインプログラムに返す。

ここで、利用者識別データベース１５５内の顔画像は、顔画像そのものではなく、例えば、顔画像を類似度の計算に必要なベクトルデータなどの特徴量に変換したものであってもよい。この顔領域の検出、および顔画像の類似度の計算については、例えば、前述した文献（１）に記載のアルゴリズムなどを用いて行う。

また、図１２において、ステップＳ１０５の検索画像抽出サブルーチンを実行した後、利用者データベース１５６から選択した利用者ＩＤに該当するレコードの利用者情報を取得する（ステップＳ１１６）。

図１４は、利用者データベース１５６のデータ構造のデータ構造、および格納されるデータ内容の一例を示した説明図である。

利用者データベース１５６における各レコードには、利用者ＩＤ（図１４の左側に示す）と利用者情報とが関連付けされている。利用者情報である特徴のペアのリスト（図１４の右側に示す）は、語彙と既定特徴のペアのリストを含んでおり、語彙と一致する既定特徴により絞り込みを行う。その後、ステップＳ１０６以降の処理を行う。

また、このとき、利用者からの絞り込み要求時、語彙と指定された特徴のペアを、利用者データベース１５６から選択した利用者ＩＤに該当するレコードの利用者情報に追加、あるいは更新する。

それにより、本実施の形態２では、利用者が探したい物体の名前とその特徴を利用者毎に格納することで、特徴について質問することなく利用者が探したい物体を提示することができ、短時間で利用者の要求に答えることを可能にすることができる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、利用者が音声対話によって検索したい物体を簡便に検索することのできる技術に適している。

１物体検索システム
１０対話インタフェース装置
３０ネットワーク
１１バス
１３記憶装置
１４ネットワークインタフェース
１５マイク部
１６スピーカ部
１７カメラ部
１８移動装置
２０ａ環境設置型カメラ
２０ｂ環境設置型カメラ
２０ｃ環境設置型カメラ
１３１対話制御プログラム
１３２音声認識プログラム
１３３辞書作成プログラム
１３４環境画像取得プログラム
１３６画像データベース
１３７環境設置型カメラ画像データベース
１３８音声認識辞書
１３９音声認識音響モデル
１５５利用者識別データベース
１５６利用者データベース

Claims

画像を取得する第１のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムであって、
前記対話インタフェースは、
前記第１のカメラが取得した画像を格納する第１のデータベースと、
物体の画像と前記画像に関連するキーワードリストとが格納された第２のデータベースと、
音声入力された物体名に基づいて、前記第２のデータベースから前記物体名に関連する画像を抽出し、前記第２のデータベースから抽出した前記画像と類似度の高い画像を前記第１のデータベースから検索して抽出する制御部とを有することを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記対話インタフェースは、
音声を取得するマイクと、
前記マイクが取得した音声を認識する音声認識部とを有し、
前記制御部は、
前記マイクが取得した音声を前記音声認識部が認識することにより、前記物体名を得ることを特徴とする物体検索システム。
請求項２記載の物体検索システムにおいて、
前記音声認識部における音声認識の言語モデルは、
前記第２のデータベースに格納された物体名を用いることを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記第１のデータベースは、
前記第１のカメラが取得した画像と、前記画像に関連する画像情報とが格納され、
前記制御部は、
前記第１のデータベースから、類似度の高い画像を検索して抽出した際に、前記第１のデータベースの画像情報に含まれる撮影位置の情報を出力することを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記対話インタフェースは、
利用者を識別する利用者識別子と前記利用者識別子と関連付けされた語彙、およびその語彙の特徴のリストからなる利用者情報とを格納する第３のデータベースと、
前記第３のデータベースから該当する前記利用者識別子と関連付けされた利用者情報を抽出する利用者認識部とを有し、
前記制御部は、
前記利用者認識部が抽出した前記利用者情報に含まれる特徴に則した類似度を決定し、その類似度に基づいて、前記第１のデータベースから抽出した画像を抽出することを特徴とする物体検索システム。
請求項５記載の物体検索システムにおいて、
前記対話インタフェースは、
画像を取得する第２のカメラと、
顔画像、および前記顔画像に関連付けされた利用者識別子を格納した第４のデータベースと、をさらに有し、
前記利用者認識部は、
前記第２のカメラが取得した画像から顔領域を検出し、前記第４のデータベースを検索し、前記顔画像に関連付けされた前記利用者識別子を抽出することを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記制御部は、
インターネットをクローリングしてｈｔｍｌページを取得し、前記ｈｔｍｌページから、物体の画像、および前記画像のキーワードを取得し、前記第２のデータベースに格納することを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記制御部は、
前記第１のデータベースから抽出した類似度の高い画像が複数ある場合に、検索する物体の特徴表現に基づいて、複数の前記画像から類似度の高い画像を抽出することを特徴とする物体検索システム。
請求項８記載の物体検索システムにおいて、
前記制御部が用いる特徴表現は、物体の色、大きさ、または形の少なくとも１つであることを特徴とする物体検索システム。
請求項８記載の物体検索システムにおいて、
前記制御部は、
前記第１のデータベースから抽出した類似度の高い画像が複数ある場合に、複数の前記画像を前記特徴表現に基づき特徴空間に配置し、特徴空間内での分布の形状に応じて物体の特徴の種類を決定することを特徴とする物体検索システム。
請求項１記載の物体検索システムにおいて、
前記対話インタフェースは、
前記対話インタフェースを移動させる移動手段を有し、前記対話インタフェースを任意の位置に移動可能であることを特徴とする物体検索システム。
請求項１１記載の物体検索システムにおいて、
前記移動手段は、
前記第１のデータベースから、類似度の高い画像を検索して抽出した際に、前記第１のデータベースの画像情報に含まれる撮影位置の情報に基づいて、前記対話インタフェースを移動させることを特徴とする物体検索システム。
請求項１１記載の物体検索システムにおいて、
前記対話インタフェースは、
前記第１のカメラを有する構成からなることを特徴とする物体検索システム。
画像を取得する第１のカメラと、音声対話により物体を検索する対話インタフェースとを備えた物体検索システムにより、物体を検索する物体検索方法であって、
前記第１のカメラが取得した画像を第１のデータベースに格納するステップと、
物体の画像と前記画像に関連するキーワードリストとを第２のデータベースに格納するステップと、
入力された音声を認識して得られた物体名に基づいて、前記対話インタフェースが前記第２のデータベースから前記物体名に関連する画像を抽出し、前記第２のデータベースから抽出した前記画像と類似度の高い画像を前記第１のデータベースから検索して抽出するステップとを有することを特徴とする物体検索方法。
請求項１３記載の物体検索方法において、
前記第１のカメラが取得した画像を前記第１のデータベースに格納する際に、前記画像に関連する画像情報を対応付けして格納し、
前記画像と類似度の高い画像を前記第１のデータベースから検索して抽出する際に、前記第１のデータベースの画像情報に含まれる撮影位置の情報を出力し、
前記音声を認識する際における音声認識の言語モデルは、
前記第２のデータベースに格納された物体名を用いることを特徴とする物体検索方法。