WO2015163068A1

WO2015163068A1 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: WO2015163068A1
Application number: PCT/JP2015/058679
Authority: WO
Inventors: 賢一郎小林
Original assignee: ソニー株式会社
Priority date: 2014-04-22
Filing date: 2015-03-23
Publication date: 2015-10-29
Also published as: US10474426B2; US20170003933A1; JP2015207181A; EP3136211A4; EP3136211A1

Abstract

【課題】画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な情報処理装置を提供する。【解決手段】入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法及びコンピュータプログラム

　本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

　画像情報を基に物体を認識する技術が広く用いられている（例えば特許文献１等参照）。例えば、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。

特開２０１３－１７５９５６号公報

　画像情報の認識結果は、画面上のＸ－Ｙの２軸、または奥行きを考慮した３軸上の位置関係として捉えることが出来る。また画像認識の対象が顔や物体など、特定のものであれば、画像中のどこにあるかという位置情報は取得できる。ここで、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定することが出来ると、より効果的に画像情報に対する処理が出来ると考えられる。

　そこで本開示では、画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提案する。

　本開示によれば、入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、を備える、情報処理装置が提供される。

　また本開示によれば、入力された言語情報に基づいて画像の中の領域を特定することと、前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、を含む、情報処理方法が提供される。

　また本開示によれば、コンピュータに、入力された言語情報に基づいて画像の中の領域を特定することと、前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、を実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、画像情報に対する処理内容をユーザから入力される言語情報の内容に応じて決定することが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することが出来る。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システム１の構成例を示す説明図である。本開示の一実施形態に係る情報処理システム１の機能構成例を示す説明図である。画像位置言語情報変換部１２０による画像情報ｉ１０１の画像領域の分割例を示す説明図である。言語位置情報対応テーブルｉ１０２に格納される、領域名と言語としての名称との対応例である。程度副詞レベルテーブルｉ１０３に格納される、レベルと副詞との対応例である。再帰表現テーブルｉ１０７に格納される情報の例を示す説明図である。各領域を再分割する際の、分割領域と程度副詞のレベルと組み合わせを示す説明図である。画像情報ｉ１０１の画像領域の再分割例を示す説明図である。情報処理装置１００が使用する文生成テンプレートｉ１０４の一例を示す説明図である。本開示の一実施形態に係る情報処理装置１００の動作例を示す流れ図である。本開示の一実施形態に係る情報処理装置１００の動作例を示す流れ図である。画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。認識物体の重なりの状態の表現について示す説明図である。画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。情報処理装置１００による物体認識処理の結果の出力例を示す説明図である。情報処理装置１００による物体認識処理の結果の出力例を示す説明図である。情報処理装置１００が認識した物体を強調して表示する例を示す説明図である。情報処理装置１００による物体認識処理の結果の出力例を示す説明図である。情報処理装置１００が画像情報ｉ１０１に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。情報処理装置１００が画像情報ｉ１０１に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。画像情報ｉ１０１とユーザの方向との位置関係の例を示す説明図である。画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。情報処理装置１００による物体認識処理の結果の出力例を示す説明図である。本開示の一実施形態に係る情報処理システム２を示す説明図である。本開示の実施形態にかかる情報処理装置１００のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の一実施形態
　　１．１．概要
　　１．２．システム構成例
　　１．３．機能構成例
　　１．４．動作例
　２．まとめ

　＜１．本開示の一実施形態＞
　［１．１．概要］
　まず、本開示の好適な実施の形態について詳細に説明するにあたり、本実施形態の概要について説明する。上述したように、画像情報を基に物体を認識する技術が広く用いられ、画像情報から顔や所定の物体を認識する技術は、デジタルカメラ、スマートフォン、パーソナルコンピュータで動作する画像処理ソフトウェア、ロボット装置等で広く用いられている。

　そこで、本件開示者は、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定するための技術について検討を行なった。そして本件開示者らは、以下で説明するように、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、画像情報に対する効果的な処理が可能となる技術を想到するに至った。

　［１．２．システム構成例］
　まず、図面を参照しながら本開示の一実施形態に係る情報処理システムの構成例について説明する。図１は、本開示の一実施形態に係る情報処理システム１の構成例を示す説明図である。図１に示した情報処理システム１は、ユーザから入力される言語情報の内容に応じて処理内容を決定することを可能としたシステムである。以下、図１を用いて本開示の一実施形態に係る情報処理システム１の構成例について説明する。

　図１に示したように、本開示の一実施形態に係る情報処理システム１は、ヘッドマウントディスプレイ（ＨＭＤ）１０と、ヘッドマウントディスプレイ１０から情報を取得し、ヘッドマウントディスプレイ１０へ情報を出力する情報処理装置１００と、を含んで構成される。ヘッドマウントディスプレイ１０は、ユーザの頭部に装着されることを目的とした装置である。ヘッドマウントディスプレイ１０は、ユーザの頭部に装着されることで、ユーザの眼前に情報を提示することが出来るように構成される。またヘッドマウントディスプレイ１０は、ユーザの前方または周囲を撮像するカメラや、ユーザが発話した言葉等を収音するマイクを備える。

　情報処理装置１００は、ヘッドマウントディスプレイ１０から取得した情報に対する処理を実行して、その処理結果として得られる情報をヘッドマウントディスプレイ１０へ出力する。本実施形態では、情報処理装置１００は、ヘッドマウントディスプレイ１０から送られる、ヘッドマウントディスプレイ１０に備えられたカメラで撮像された画像に対する処理を実行する。情報処理装置１００が実行する処理は、例えば、カメラで撮像された画像に対する画像認識処理である。情報処理装置１００は、カメラで撮像された画像に対する画像認識処理を実行してその画像認識処理の結果をヘッドマウントディスプレイ１０に出力する。

　そして情報処理装置１００は、ヘッドマウントディスプレイ１０に備えられたカメラで撮像された画像に対する処理を実行する際に、ヘッドマウントディスプレイ１０で入力された言語情報、例えば、ヘッドマウントディスプレイ１０に備えられたマイクで収音されたユーザの言葉に基づいて処理内容を決定する。

　本開示の一実施形態に係る情報処理装置１００は、ヘッドマウントディスプレイ１０に備えられたカメラで撮像された画像に対する処理内容を、ヘッドマウントディスプレイ１０を装着したユーザから入力される言語情報の内容に応じて決定することが可能となる。

　以上、図１を用いて本開示の一実施形態に係る情報処理システム１の構成例について説明した。続いて、本開示の一実施形態に係る情報処理システム１の機能構成例について説明する。

　［１．３．機能構成例］
　図２は、本開示の一実施形態に係る情報処理システム１の機能構成例を示す説明図である。図２には、主に本開示の一実施形態に係る情報処理装置１００の機能構成例が示されている。また図２には、情報処理装置１００の構成と併せ、ヘッドマウントディスプレイ１０の構成も示されている。以下、図２を用いて本開示の一実施形態に係る情報処理システム１の機能構成例について説明する。

　図２に示した情報処理装置１００は、画像入力部１１から送られる画像情報ｉ１０１に対する画像処理を実行し、画像情報ｉ１０１に含まれる物体を認識することを目的とした装置である。また図２に示した情報処理装置１００は、言語情報入力部１４から入力された言語情報に基づいて、画像入力部１１から送られる画像情報ｉ１０１に対する処理を実行することを目的とした装置である。

　図２に示したように、本開示の一実施形態に係る情報処理装置１００は、画像処理部１１０と、画像位置言語情報変換部１２０と、言語生成部１３０と、輪郭情報処理部１４０と、ＲＧＢ色名変換部１５０と、建造物識別部１６０と、言語解析部１７０と、類似画像検索部１７２と、認識領域表示部１７４と、言語画像位置情報変換部１７６と、認識領域特定部１７８と、認識物表示部１８０と、言語情報出力部１９０と、を含んで構成される。

　また図２に示したように、本開示の一実施形態に係るヘッドマウントディスプレイ１０は、画像入力部１１と、出力部１２と、表示装置１３と、言語情報入力部１４と、ＧＰＳ１５と、ジャイロセンサ１６と、を含んで構成される。

　画像処理部１１０は、画像入力部１１が提供する画像情報ｉ１０１に対する画像処理を実行し、画像情報ｉ１０１に含まれる物体を認識する。図２に示したように、画像処理部１１０は、物体認識部１１１と、画像認識領域設定部１１２と、物体位置情報抽出部１１３と、処理内容特定部１１４と、を含んで構成される。

　物体認識部１１１は、画像情報ｉ１０１に含まれている所定の物体の認識を実行する。物体認識部１１１が認識の対象とする物体は特定の物体に限定されるものではなく、様々な物体が認識の対象となり得る。物体認識部１１１は、画像情報ｉ１０１に含まれている物体の認識の実行により、画像情報ｉ１０１にどのような物体がいくつ存在しているか、を認識することが出来る。物体認識部１１１は、画像情報ｉ１０１に対する認識処理の結果として得られる認識物体に関する情報、例えば認識した物体の名称や、認識した物体の数の情報等を画像位置言語情報変換部１２０に送る。

　画像認識領域設定部１１２は、画像情報ｉ１０１に対して物体認識部１１１が物体の認識を実行する範囲を設定する。物体認識部１１１は、画像認識領域設定部１１２が設定した画像情報ｉ１０１の範囲に対して、画像情報ｉ１０１に含まれている所定の物体の認識を実行する。画像認識領域設定部１１２は、最初に画像情報ｉ１０１に対して物体認識部１１１が物体の認識を実行する際には画像情報ｉ１０１の全範囲について処理を実行するように領域を設定し、例えばユーザなどから、言語情報入力部１４を通じて、画像情報ｉ１０１の範囲を限定しての認識の要求や、検出した物体の近傍について再認識の要求があれば、その物体の近傍に限定して処理を実行するように領域を設定してもよい。例えば、認識領域特定部１７８が画像情報ｉ１０１における認識領域を特定すれば、画像認識領域設定部１１２は認識領域特定部１７８が特定した認識領域に基づいて、画像情報ｉ１０１に対して物体認識部１１１が物体の認識を実行する範囲を設定する。

　物体位置情報抽出部１１３は、物体認識部１１１が認識した、画像情報ｉ１０１に含まれている所定の物体の、画像情報ｉ１０１における位置を位置情報として抽出する。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の重心の位置を、位置情報として抽出しても良い。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の重心の位置を、位置情報として抽出する場合は、その重心の位置を積分により求めても良い。物体位置情報抽出部１１３は、画像情報ｉ１０１に含まれている所定の物体の位置情報を画像位置言語情報変換部１２０に送る。

　処理内容特定部１１４は、画像処理部１１０による処理内容を、言語情報入力部１４を通じて送られてくる言語情報ｉ１０６の内容に基づいて特定する。詳細については後述するが、処理内容特定部１１４は、例えば言語情報ｉ１０６に、物体名を問い合わせる内容が含まれている場合は、画像処理部１１０による処理内容として、画像情報ｉ１０１に含まれている物体の名称を取得するための処理を実行することを特定する。処理内容特定部１１４は、また例えば言語情報ｉ１０６に、物体の検索を指示する内容が含まれている場合は、画像処理部１１０による処理内容として、画像情報ｉ１０１に含まれている物体を検索するための処理を実行することを特定する。

　画像位置言語情報変換部１２０は、画像処理部１１０から送られてくる情報、具体的には、物体認識部１１１から送られる認識物体に関する情報、及び物体位置情報抽出部１１３が抽出した位置情報を、言語情報に変換する処理を実行する。画像位置言語情報変換部１２０は、言語情報として、画像情報ｉ１０１のどこにどのような物体が存在しているか、についての情報を生成する。画像位置言語情報変換部１２０による具体的な変換処理については、後に詳述するが、変換に際しては、画像位置言語情報変換部１２０は、言語位置情報対応テーブルｉ１０２と、程度副詞レベルテーブルｉ１０３と、再帰表現テーブルｉ１０７と、を用いる。図３は、画像位置言語情報変換部１２０による画像情報ｉ１０１の画像領域の分割例を示す説明図である。また図４は、言語位置情報対応テーブルｉ１０２に格納される、領域名と言語としての名称との対応例である。また図５は、程度副詞レベルテーブルｉ１０３に格納される、レベルと副詞との対応例である。そして図６は、再帰表現テーブルｉ１０７に格納される情報の例を示す説明図である。画像位置言語情報変換部１２０は、画像処理部１１０から送られてくる情報を言語情報に変換すると、その言語情報を言語生成部１３０に送る。

　図３は、画像位置言語情報変換部１２０による画像情報ｉ１０１の画像領域の分割例を示す説明図である。図３に示した例では、画像位置言語情報変換部１２０は、画像全体のＸ－Ｙ座標の最大値を基に、Ｘ軸、Ｙ軸それぞれに対して３等分するように領域を分割した上で、各領域にＡからＩまでのアルファベットで領域名を付与している。

　また画像位置言語情報変換部１２０は、分割した各領域に対して、言語としての名称を割り当てる。この割り当てに際しては、画像位置言語情報変換部１２０は言語位置情報対応テーブルｉ１０２を参照する。図４は、言語位置情報対応テーブルｉ１０２に格納される、領域名と言語としての名称との対応例である。例えば領域Ａであれば「左上」や「左の上」という名称に対応する。

　副詞の付与に際しては、画像位置言語情報変換部１２０は程度副詞レベルテーブルｉ１０３を参照する。図５は、程度副詞レベルテーブルｉ１０３に格納される、レベルと副詞との対応例である。図５に示した例では、レベル「大」に対応する副詞として「とても」、「かなり」、「すごく」、「たいへん」等の副詞が割り当てられている。

　画像位置言語情報変換部１２０は、「もっと」や「あと少し」などの再帰表現を伴う言語情報への変換に、図６に示した再帰表現テーブルｉ１０７を用いる。図６に示した再帰表現テーブルｉ１０７には、レベル「大」に対応する表現として「もっと」、「さらに」、「それより」等の単語が割り当てられ、レベル「小」に対応する表現として「あと少し」、「もうちょっと」、「ほんのちょっと」等の句が割り当てられている。

　言語生成部１３０は、画像位置言語情報変換部１２０から送られてくる言語情報を用いて、画像情報ｉ１０１の状態を表す言語情報ｉ１０５、すなわち画像情報ｉ１０１の状態を表す文章を生成する。本実施形態では、言語生成部１３０は、画像情報ｉ１０１の状態を表す文章の生成に際し、文生成テンプレートｉ１０４に格納されているテンプレートに、画像位置言語情報変換部１２０から送られてくる言語情報を適用することで、画像情報ｉ１０１の状態を表す文章を生成する。言語生成部１３０による、画像情報ｉ１０１の状態を表す文章の生成処理の詳細については後述する。

　輪郭情報処理部１４０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した物体の輪郭の座標情報を取得する。輪郭情報処理部１４０は、物体の輪郭の座標情報の取得に際し、例えば公知のエッジ検出処理を用いることが出来る。輪郭情報処理部１４０は、物体の輪郭の座標情報を画像位置言語情報変換部１２０に送る。画像位置言語情報変換部１２０は、物体の輪郭の座標情報を取得することで、画像情報ｉ１０１に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。

　ＲＧＢ色名変換部１５０は、画像処理部１１０から送られてくる情報、具体的には、物体認識部１１１から送られる認識物体に関する情報を用いて、その認識物体の色を取得する。ＲＧＢ色名変換部１５０は、認識物体の色の情報を言語生成部１３０に送る。言語生成部１３０は、ＲＧＢ色名変換部１５０から認識物体の色の情報を得ることで、画像情報ｉ１０１の状態を表す文章に、物体認識部１１１が認識した物体の色の情報を加えることが出来る。

　建造物識別部１６０は、画像情報ｉ１０１に写っている建造物を識別する処理を実行する。具体的には、建造物識別部１６０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した認識物体がどのような建造物であるかどうかを識別する。建造物識別部１６０は、画像情報ｉ１０１に写っている建造物に関する情報を言語生成部１３０に送る。言語生成部１３０は、建造物識別部１６０から画像情報ｉ１０１に写っている建造物に関する情報を得ることで、画像情報ｉ１０１の状態を表す文章に、画像情報ｉ１０１に写っている建造物の情報を加える事ができる。建造物識別部１６０は、画像情報ｉ１０１に写っている建造物に関する情報を取得する際に、地図情報ｉ１０８を参照する。また建造物識別部１６０は、画像情報ｉ１０１に写っている建造物に関する情報を取得する際に、ＧＰＳ１５から送られる現在位置の情報や、ジャイロセンサ１６から送られるヘッドマウントディスプレイ１０の向きの情報を参照してもよい。

　言語解析部１７０は、言語情報入力部１４から入力された言語情報（文字列）ｉ１０６に対する解析処理を実行する。言語情報入力部１４から入力された言語情報ｉ１０６は、例えば音声データであってもよく、テキストデータであってもよい。言語情報ｉ１０６が音声データである場合は、言語解析部１７０は、まず音声データをテキストデータへ変換し、変換後のテキストデータに対して解析処理を実行する。言語情報ｉ１０６がテキストデータである場合は、そのテキストデータに対して直接解析処理を実行する。

　言語解析部１７０は、言語情報ｉ１０６に対する解析処理の結果、画像情報ｉ１０１に対する問い合わせであることが解れば、画像処理部１１０に対し、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示する。例えば言語情報ｉ１０６が「あれは何？」というように問いかける文章であった場合は、言語解析部１７０は画像処理部１１０に対し、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示する。

　また言語解析部１７０は、言語情報ｉ１０６に対する解析処理の結果、画像情報ｉ１０１に対する問い合わせであることが解り、かつ、既知の物体に類似する物体に対する問い合わせであることが解れば、画像処理部１１０に対し、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示するとともに、類似画像検索部１７２に対する類似画像の検索を指示する。例えば言語情報ｉ１０６が「あのロケットに似ている物体は何？」というように問いかける文章であった場合は、言語解析部１７０は画像処理部１１０に対し、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示するとともに、類似画像検索部１７２に対し、画像情報ｉ１０１に含まれているロケットに似ている物体を検索する類似画像の検索処理を指示する。

　また言語解析部１７０は、言語情報ｉ１０６に対する解析処理の結果、画像情報ｉ１０１に対する問い合わせであることが解り、かつ、領域を特定した問い合わせであることが解れば、画像処理部１１０に対し、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示するとともに、言語画像位置情報変換部１７６に対し、言語情報ｉ１０６から画像情報ｉ１０１における位置の情報に変換する処理を指示する。例えば言語情報ｉ１０６が「あの右下にある物体は何？」というように問いかける文章であった場合は、画像情報ｉ１０１に含まれている物体に対する物体認識処理の開始を指示するとともに、言語画像位置情報変換部１７６に対し、「右下」という領域を特定した言語情報を画像情報ｉ１０１における位置の情報に変換する処理を指示する。

　言語解析部１７０は、形態素解析により単語単位に分解し、それぞれの単語の品詞、係り受けを認識することで、画像中に領域をどのように設定するのか、その画像を使ってどのような処理を行うのかについて判定する。例えば、入力された言語情報ｉ１０６が「富士山はどこ？」というように問いかける文章であった場合は、言語解析部１７０は、形態素解析により言語情報ｉ１０６を「富士山」「は」「どこ」「？」と分割する。そして言語解析部１７０は、分割された言語情報ｉ１０６における「どこ」というキーワードによって場所検索を行っていると判断し、また分割された言語情報ｉ１０６における「富士山」という名詞が、その場所の対象であると判断する。従って言語解析部１７０は、言語情報ｉ１０６が「富士山はどこ？」というように問いかける文章であった場合、形態素解析により、その言語情報ｉ１０６が富士山の場所の検索を要求するための言語情報であると判定することができる。

　なお、言語解析部１７０は、例えば特開２０１１－２１６０７１号公報や、特開２０１２－２３８０６２号公報などで開示されている言語解析に関する技術を用いて、上述したような形態素解析による言語情報ｉ１０６の解析処理を実行しても良い。もちろん、言語解析部１７０は、上記文献で開示されているもの以外の技術を用いて形態素解析による言語情報ｉ１０６の解析処理を実行しても良いことは言うまでもない。

　類似画像検索部１７２は、類似画像の検索処理を実行する。本実施形態では、類似画像検索部１７２は、言語情報ｉ１０６に含まれている物体に似ている、画像情報ｉ１０１に含まれている物体を検索する処理を実行する。そして本実施形態では、類似画像検索部１７２は、言語情報ｉ１０６に含まれている物体に、画像情報ｉ１０１に含まれている物体がどの程度似ているかを表す指標である類似度を計算する。類似画像検索部１７２は、類似度を計算すると、計算した類似度の値を画像処理部１１０に渡す。

　なお類似度の算出は特定の方法に限定されるものではないが、例えば、特開２０１０－３０２１号公報等に画像の類似度を計算するための技術が開示されており、類似画像検索部１７２は、上記公報に開示されている技術を用いて画像の類似度を計算しても良い。

　言語画像位置情報変換部１７６は、言語解析部１７０での言語情報ｉ１０６に対する解析処理の結果を用いて、言語情報ｉ１０６を画像情報ｉ１０１上の位置情報に変換する処理を実行する。言語画像位置情報変換部１７６は、言語情報ｉ１０６を画像情報ｉ１０１上の位置情報に変換する際に、画像位置言語情報変換部１２０と同様に、言語位置情報対応テーブルｉ１０２と、程度副詞レベルテーブルｉ１０３と、再帰表現テーブルｉ１０７と、を用いる。言語画像位置情報変換部１７６は、言語情報ｉ１０６を画像情報ｉ１０１上の位置情報に変換した結果を認識領域特定部１７８に送る。

　言語画像位置情報変換部１７６は、例えば、画像情報ｉ１０１をＸ軸において「左、中、右」と３分割して、またＹ軸において「上、中、下」と３分割して、またＸ軸とＹ軸との両方で３分割、合計９分割して、言語情報ｉ１０６と対応させる。

　認識領域特定部１７８は、本開示の画像領域特定部の一例であり、言語画像位置情報変換部１７６による変換結果を用いて、言語解析部１７０での言語情報ｉ１０６に対する解析処理の結果から画像情報ｉ１０１上での認識領域を特定する。認識領域特定部１７８は、画像情報ｉ１０１上での認識領域を特定すると、その特定した領域に対して物体の認識を実行するように画像処理部１１０に通知する。

　例えば、言語解析部１７０での言語情報ｉ１０６に対する解析処理の結果、「右下」という言葉が言語情報ｉ１０６に含まれていることが解れば、言語画像位置情報変換部１７６は、画像情報ｉ１０１における「右下」に対応する領域が指定されたと判断し、その判断結果を認識領域特定部１７８に送る。認識領域特定部１７８は、画像情報ｉ１０１における「右下」に対応する領域に対して物体の認識を実行するように画像処理部１１０に通知する。

　認識領域表示部１７４は、画像情報ｉ１０１のどの領域が画像処理部１１０での認識対象になっているかを、画像情報ｉ１０１に重ね合わせて表示する。認識領域表示部１７４による表示については後に詳述するが、例えば画像情報ｉ１０１の中央部分が画像処理部１１０での認識対象となっていれば、認識領域表示部１７４は、その中央部分を枠で囲ったり、中央部分以外の部分を暗くしたりすることで、画像情報ｉ１０１のどの領域が画像処理部１１０での認識対象になっているかを示す。認識領域表示部１７４による認識対象の領域の表示例は後に詳述する。

　認識物表示部１８０は、画像情報ｉ１０１に対する画像処理部１１０での画像認識処理によって認識された物体の情報（例えば名称）や輪郭を、画像情報ｉ１０１に重ねて表示する。認識物表示部１８０による表示については後に詳述するが、例えば画像情報ｉ１０１に対する画像処理部１１０での画像認識処理によって富士山が認識された場合、認識物表示部１８０は、「富士山です。」のような文章を画像情報ｉ１０１に重ねたり、富士山の輪郭を強調したりすることで、画像情報ｉ１０１から富士山が認識されたことを示す。

　言語情報出力部１９０は、言語生成部１３０が生成した言語情報ｉ１０５を出力する。言語情報出力部１９０は、言語情報ｉ１０５を出力する際に文字情報として出力してもよく、文字情報から生成される音声情報として出力してもよい。

　以上、図２を用いて本開示の一実施形態に係る情報処理システム１の機能構成例について説明した。図２を用いて本開示の一実施形態に係る情報処理システム１を構成する情報処理装置１００は、図２に示した様な構成を有することで、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することが出来る。画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、情報処理装置１００は、画像情報に対する効果的な処理が可能となる。

　［１．３．動作例］
　続いて、本開示の一実施形態に係る情報処理装置１００の動作例について説明する。図１０Ａ及び図１０Ｂは、本開示の一実施形態に係る情報処理装置１００の動作例を示す流れ図である。図１０Ａ及び図１０Ｂに示したのは、言語情報入力部１４から言語情報ｉ１０６の入力を受けて、画像情報ｉ１０１の認識結果を表す言語情報ｉ１０５を生成する際の、本開示の一実施形態に係る情報処理装置１００の動作例である。以下、図１０Ａ及び図１０Ｂを用いて本開示の一実施形態に係る情報処理装置１００の動作例について説明する。

　ユーザがヘッドマウントディスプレイ１０の言語情報入力部１４に対して発話すると（ステップＳ１０１）、情報処理装置１００は、ユーザが発話した内容に対する音声認識を行なって、言語情報ｉ１０６を言語情報入力部１４から取得する（ステップＳ１０２）。言語情報ｉ１０６を言語情報入力部１４から取得した情報処理装置１００は、言語情報ｉ１０６に対する言語解析処理を実行する（ステップＳ１０３）。ステップＳ１０３の言語解析処理は、言語解析部１７０が実行する。

　続いて情報処理装置１００は、上記ステップＳ１０３による言語解析処理の結果、ユーザから入力された言語情報ｉ１０６に、物体認識を開始する内容が含まれているかどうかを判断する（ステップＳ１０４）。ステップＳ１０４の処理は処理内容特定部１１４が実行し得る。例えば、ユーザから入力された言語情報ｉ１０６が「あれは何？」というように物体名を問い合わせる内容であった場合は、情報処理装置１００は、物体認識を開始すると判断する。一方、ユーザから入力された言語情報ｉ１０６が「富士山はどこ？」というように物体の位置を問い合わせる内容であった場合は、物体認識を開始するものではないと判断する。

　上記ステップＳ１０４の判断の結果、ユーザから入力された言語情報ｉ１０６に、物体認識を開始する内容が含まれていることが解れば（ステップＳ１０４、Ｙｅｓ）、続いて情報処理装置１００は、上記ステップＳ１０３による言語解析処理の結果、ユーザから入力された言語情報ｉ１０６に、領域を限定する内容が含まれているかどうかを判断する（ステップＳ１０５）。ステップＳ１０５の処理は処理内容特定部１１４が実行し得る。例えば、ユーザから入力された言語情報ｉ１０６が「右下にあるものは何？」というように領域を限定した上で物体名を問い合わせる内容であった場合は、情報処理装置１００は、ユーザから入力された言語情報ｉ１０６に領域を限定する内容が含まれていると判断する。

　上記ステップＳ１０５の判断の結果、ユーザから入力された言語情報ｉ１０６に、領域を限定する内容が含まれていることが解れば（ステップＳ１０５、Ｙｅｓ）、続いて情報処理装置１００は、画像情報ｉ１０１における物体を認識する領域を限定する処理を実行する（ステップＳ１０６）。ステップＳ１０６の領域を限定する処理は、例えば言語画像位置情報変換部１７６及び認識領域特定部１７８が実行し得る。一方、上記ステップＳ１０５の判断の結果、ユーザから入力された言語情報ｉ１０６に、領域を限定する内容が含まれていないことが解れば（ステップＳ１０５、Ｎｏ）、情報処理装置１００はステップＳ１０６の処理をスキップする。

　画像情報ｉ１０１における物体を認識する領域を限定する処理の詳細について説明する。例えばユーザから入力された言語情報ｉ１０６が「右下にあるものは何？」であることが解析処理で解れば、言語解析部１７０は、その「右下」という言語情報を言語画像位置情報変換部１７６に送る。言語画像位置情報変換部１７６は、言語位置情報対応テーブルｉ１０２を参照することで、「右下」という言語情報は図３における「Ｉ」の領域であることを判断する。言語画像位置情報変換部１７６は、この図３における「Ｉ」の領域の情報を認識領域特定部１７８に送る。そして認識領域特定部１７８は、「Ｉ」の領域について物体認識処理を実行するよう画像処理部１１０に指示する。画像処理部１１０は、「Ｉ」の領域について物体認識処理を実行する。

　また例えばユーザから入力された言語情報ｉ１０６が「すごく右下にあるものは何？」や「ちょっと左にあるものは何？」というように、程度を示す副詞が付与されていることが解析処理で解れば、言語画像位置情報変換部１７６は、分割される認識対象領域をさらに分割する。分割される認識対象領域をさらに分割する際には、言語画像位置情報変換部１７６は、程度副詞レベルテーブルｉ１０３を用いる。図７は、各領域を再分割する際の、分割領域と程度副詞のレベルと組み合わせを示す説明図である。そして図８は、画像情報ｉ１０１の画像領域の再分割例を示す説明図である。図８に示したのは、領域「Ｉ」を再分割する際の各領域をアルファベットで示す説明図である。

　例えばユーザから入力された言語情報ｉ１０６が「すごく右下」という表現を含んでいる場合は、言語画像位置情報変換部１７６は、言語位置情報対応テーブルｉ１０２から「右下」という表現は「Ｉ」の領域であり、「すごく」という程度副詞は程度が「大」なので、図８から、領域「Ｉ」を再分割した「Ｉ－Ｆ」、「Ｉ－Ｈ」、「Ｉ－Ｉ」の３つの領域が「すごく右下」の領域として決定する。そして認識領域特定部１７８は、言語画像位置情報変換部１７６が決定した領域を、認識対象の領域として特定する。

　続いて情報処理装置１００は、画像情報ｉ１０１に対する物体認識処理を実行する（ステップＳ１０７）。このステップＳ１０７の物体認識処理は、例えば画像処理部１１０が、具体的には物体認識部１１１が実行する。情報処理装置１００は、ステップＳ１０７の物体認識処理により、物体の名称、物体の色、画像情報ｉ１０１における物体の大きさや位置を取得する。情報処理装置１００は、ステップＳ１０７の認識処理の際に、例えば、公知の物体認識処理を実行することが出来る。入力画像から、人物や自動車等の物体を認識するとともに、その認識した物体が何であるかを認識する技術は広く知られており、この物体認識処理は、例えばカメラの自動シャッタや監視カメラに適用されるなどして広く実用化されているものである。具体的には、この物体認識処理は、入力画像の解析により入力画像中の物体を認識し、その認識した物体が何であるかを、例えばデータベースなどに対する検索により取得することで、入力画像から何が写っているかを把握する処理である。

　画像情報ｉ１０１に含まれる物体の認識をステップＳ１０７で行なうと、続いて情報処理装置１００は、認識した物体が画像中のどの場所にあるかを抽出するために、認識した物体の重心を算出する（ステップＳ１０８）。このステップＳ１０８の処理は、例えば画像処理部１１０が、具体的には物体位置情報抽出部１１３が実行する。ステップＳ１０８では、例えば認識した物体に対する積分により重心が算出されても良い。

　図１１は、画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。図１１には、画像情報ｉ１０１に４つの物体３００、３１０、３２０、３３０が含まれており、情報処理装置１００は、上記ステップＳ１０７の物体認識処理により、この４つの物体３００、３１０、３２０、３３０を認識する。そして情報処理装置１００は、上記ステップＳ１０８の重心算出処理により、それぞれの物体３００、３１０、３２０、３３０の重心位置３０１、３１１、３２１、３３１を求める。

　なお、上記ステップＳ１０７の物体認識処理で認識した物体が複数存在し、言語情報ｉ１０６に領域を限定する内容が含まれていなければ、情報処理装置１００は、所定の規則に基づいて１つの物体を選択する。情報処理装置１００は、所定の規則として、例えば画像情報ｉ１０１の中央付近の物体について物体認識処理を実行してもよく、一番大きな物体について物体認識処理を実行してもよい。

　図３は、画像情報ｉ１０１の画像領域の分割例を示す説明図である。図３に示した例では、画像情報ｉ１０１は、画像全体のＸ－Ｙ座標の最大値を基に、Ｘ軸、Ｙ軸それぞれに対して３等分するように領域が分割された上で、各領域にＡからＩまでのアルファベットで領域名が付与されている。画像情報ｉ１０１の中央付近の物体について物体認識処理を実行する場合は、情報処理装置１００は、画像情報ｉ１０１の「Ｅ」の部分に重心があるものを認識物体として選択する。図１１のように画像情報ｉ１０１に４つの物体３００、３１０、３２０、３３０が含まれている場合は、物体３１０の重心位置３１１が画像情報ｉ１０１の「Ｅ」の部分に存在しているので、情報処理装置１００は、物体３１０を認識物体として選択する。

　上記ステップＳ１０７の物体認識処理で認識した物体が複数存在し、言語情報ｉ１０６に領域を限定する内容が含まれていない場合に、所定の規則として一番大きな物体について物体認識処理を実行するときは、情報処理装置１００は、図１１に示した画像情報ｉ１０１については、最も面積が大きい物体３００を認識物体として選択する。

　また上記ステップＳ１０７の物体認識処理で認識した物体が複数存在し、言語情報ｉ１０６に領域を限定する内容が含まれている場合も、所定の規則として一番大きな物体について物体認識処理を実行するときは、情報処理装置１００は、図１１に示した画像情報ｉ１０１については、その限定された領域の中で最も面積が大きい物体３００を認識物体として選択する。例えばユーザから入力された言語情報ｉ１０６が「右下にあるものは何？」であれば、情報処理装置１００は、図１１に示した画像情報ｉ１０１について、画像情報ｉ１０１の右下部分（図３の「Ｉ」の領域）に存在する最も面積が大きい物体３２０を認識物体として選択する。

　上記ステップＳ１０８で物体の重心を算出すると、続いて情報処理装置１００は、上記ステップＳ１０７の物体認識処理により認識した物体が１つかどうか判断する（ステップＳ１０９）。このステップＳ１０９の判断は、例えば画像位置言語情報変換部１２０が実行し得る。

　上記ステップＳ１０９の判断の結果、上記ステップＳ１０７の物体認識処理で認識した物体が複数あった場合は（ステップＳ１０９、Ｎｏ）、続いて情報処理装置１００は、ユーザから入力された言語情報ｉ１０６の解析によって、物体の類似検索を行なう内容が言語情報ｉ１０６に含まれているかどうか判断する（ステップＳ１１０）。ステップＳ１１０の処理は処理内容特定部１１４が実行し得る。例えば、ユーザから入力された言語情報ｉ１０６が「あのロケットに似たものは何？」というように物体名を問い合わせる内容であり、かつ物体の類似検索を行なう内容であった場合は、情報処理装置１００は、ユーザから入力された言語情報ｉ１０６に物体の類似検索を行なう内容が含まれていると判断する。

　上記ステップＳ１１０の判断の結果、物体の類似検索を行なう内容が言語情報ｉ１０６に含まれていることが解れば（ステップＳ１１０、Ｙｅｓ）、情報処理装置１００は、物体の類似検索を行なう（ステップＳ１１１）。ステップＳ１１１の類似検索処理は、例えば類似画像検索部１７２が実行する。上述した例のように、言語情報ｉ１０６が「あのロケットに似たものは何？」というものであれば、情報処理装置１００はステップＳ１１１でロケットの画像と物体認識処理で認識した物体の画像との類似検索を実行する。

　情報処理装置１００は、物体の類似検索を行なう際に、言語情報ｉ１０６に含まれている物体に、画像情報ｉ１０１に含まれている物体がどの程度似ているかを表す指標である類似度を計算する。情報処理装置１００は、例えば上述したように特開２０１０－３０２１号公報等で開示されている技術を用いて類似度を算出する。

　上記ステップＳ１１１で物体の類似検索を行なうと、続いて情報処理装置１００は、検索候補を選択する（ステップＳ１１２）。具体的には、情報処理装置１００は、上記ステップＳ１１１での物体の類似検索の結果を取得し、複数の認識物体の中から類似度が最も高い物体を選択する。ステップＳ１１１の選択処理は、例えば物体認識部１１１が実行し得る。

　上記ステップＳ１０７の物体認識処理で認識した物体が１つだけであった場合（ステップＳ１０９、Ｙｅｓ）、または、上記ステップＳ１１２で検索候補を選択すると、続いて情報処理装置１００は、文生成テンプレートｉ１０４を参照する（ステップＳ１１３）。このステップＳ１１３の参照処理は、例えば言語生成部１３０が実行する。

　図９は、情報処理装置１００が使用する文生成テンプレートｉ１０４の一例を示す説明図である。図９に示した文生成テンプレートｉ１０４には、物体認識処理の応答用のテンプレート、物体検索処理の応答用のテンプレート、方向指示処理の応答用のテンプレートが含まれている。

　ステップＳ１１３では、情報処理装置１００は、文生成テンプレートｉ１０４に含まれている物体認識処理の応答用のテンプレートを参照する。図９に示した文生成テンプレートｉ１０４の＜ｔａｒｇｅｔ－ｎ＞（ｎ＝１，２，・・・）タグには、物体認識部１１１の認識処理によって得られた物体名が当てはめられる。＜ｓｉｚｅ－ｎ＞（ｎ＝１，２，・・・）タグには、物体認識部１１１の認識処理によって得られた物体の大きさが当てはめられる。＜ｐｏｓｉｔｉｏｎ－ｎ＞（ｎ＝１，２，・・・）タグには、画像位置言語情報変換部１２０の変換処理より得られるその画像の位置の言語情報が当てはめられる。＜ｃｏｌｏｒ－ｎ＞（ｎ＝１，２，・・・）タグには、ＲＧＢ色名変換部１５０より得られる物体の色情報が当てはめられる。

　上記ステップＳ１１３で文生成テンプレートｉ１０４を参照すると、続いて情報処理装置１００は、上記ステップＳ１０７の物体認識処理で認識した物体の名称を文生成テンプレートｉ１０４のテンプレートに補完して、文を作成する（ステップＳ１１４）。このステップＳ１１４の作成処理は、例えば言語生成部１３０が実行する。ステップＳ１１４の処理により、情報処理装置１００は、物体認識処理の応答としての言語情報ｉ１０５を生成することが出来る。

　例えば物体認識部１１１の認識処理によって、画像情報ｉ１０１に含まれている物体が１つだけであり、それが富士山であることが認識出来た場合は、情報処理装置１００は、文生成テンプレートｉ１０４を参照して、「富士山です。」という言語情報ｉ１０５を生成する。

　ユーザが「もっと右にあるのは何？」という発話をさらに行うと、言語解析部１７０は、「もっと」という再帰的な分割を行なう指示とであると判断し、言語画像位置情報変換部１７６は、「右」という方向を表す位置情報から領域を再度絞り込む。言語画像位置情報変換部１７６は、絞り込む領域の決定に際して言語位置情報対応テーブルｉ１０２を用いる。この場合、言語画像位置情報変換部１７６は、元の右下の領域「Ｉ」をさらに絞り込み、領域「Ｉ－Ｆ」を認識対象領域として決定する。

　なお、言語画像位置情報変換部１７６が認識対象領域を再決定した後に、ユーザから言語情報ｉ１０６として取り消しを意味する表現、例えば「やっぱり」、「前の」、「元の」等の言葉を含んだ表現が入力された場合、言語画像位置情報変換部１７６は、１つ前に決定した認識対象領域に戻す。

　図１１のような画像情報ｉ１０１の例では、情報処理装置１００が最初に右下の物体として物体３２０を認識した場合、ユーザの「もっと右にあるのは何？」という発話に対して、情報処理装置１００は認識領域を図８の領域「Ｉ－Ｃ」、「Ｉ－Ｆ」、「Ｉ－Ｉ」に絞り込み、それらの領域にある物体３３０を認識することが出来る。そして情報処理装置１００は、文生成テンプレートｉ１０４を参照して、例えば「人間です。」という言語情報ｉ１０５を生成することが出来る。この再帰的な分割処理は何度も繰り返してもよく、情報処理装置１００は、ユーザの発話に応じて段階的に認識領域を絞り込むことが出来る。

　情報処理装置１００は、認識物体の輪郭から認識物体の面積を求め、画面全体における割合に応じて、認識物体の大きさを言語により表現してもよい。例えば、画面全体の面積に対して認識物体の面積が３０％以上ある場合は「大きい」と定義し、３％以下の場合は「小さい」と定義する。図１１に示した画像情報ｉ１０１の例では、情報処理装置１００は、例えば「小さい東京タワーです。」や、「大きな富士山です。」という言語情報ｉ１０５を生成することができる。

　言語生成部１３０は、物体認識部１１１による、言語情報ｉ１０６に基づいた物体認識結果の度合いに応じた言語情報ｉ１０５を生成してもよい。例えば、物体の類似検索を行なう内容が言語情報ｉ１０６に含まれている場合は、情報処理装置１００は、算出した類似度に応じて生成する言語情報ｉ１０５の中身を変化させても良い。例えば言語情報ｉ１０６が「あのロケットに似ている物体は何？」というように問いかける文章であった場合は、物体の類似検索を行なって算出した類似度がある閾値以上であれば、情報処理装置１００は、「東京タワーです。」と断言するような言語情報ｉ１０５を生成し、類似度がその閾値より低い場合は、情報処理装置１００は、「タワーだと思います。」や、「タワーかもしれません、」のような確信度を下げた表現で言語情報ｉ１０５を生成してもよい。そして物体の類似検索を行なって算出した類似度が所定の閾値より低ければ、情報処理装置１００は、「わかりません。」のような全く確信の無い表現で言語情報ｉ１０５を生成してもよい。

　情報処理装置１００は、認識物体の色を得ることができる。認識物体のＲＧＢ情報はＲＧＢ色名変換部１５０に送られ、ＲＧＢ色名変換部１５０は認識物体の代表的な色を得ることができる。例えば、代表的な色は、認識物体の中で一番多くの面積を占める色とすることができる。

　ＲＧＢ色名変換部１５０で得られた色情報は言語生成部１３０に渡される。言語生成部１３０は、上述したように文生成テンプレートｉ１０４を参照して文の生成を行うが、文の生成の際に、文生成テンプレートｉ１０４上の＜ｃｏｌｏｒ－ｎ＞タグを、ＲＧＢ色名変換部１５０で得られた色情報に置き換える形で文生成を行う。

　上述したように、輪郭情報処理部１４０は、画像処理部１１０から送られてくる情報を用いて、物体認識部１１１が認識した物体の輪郭の座標情報を取得する。そして輪郭情報処理部１４０は、物体の輪郭の座標情報を画像位置言語情報変換部１２０に送る。画像位置言語情報変換部１２０は、物体の輪郭の座標情報を取得することで、画像情報ｉ１０１に物体が複数存在する場合に、その物体が重なっているかどうかを判断することが出来るとともに、その重なりの状態に応じた言語情報を生成することが出来る。

　本実施形態では、「含んでいる／含まれる」「重なっている」「接している」「離れている」という４つのパターンによって認識物体の重なりの状態を表現する。図１２は、それぞれの認識物体の重なりの状態の表現について示す説明図である。図１２には、認識物体である三角形の物体と丸い物体とが、どのような重なりの状態にあるかが示されている。情報処理装置１００は、上記ステップＳ１０７での物体認識処理において、認識物体の重なりを判別し、上記４つのパターンのいずれかを用いて、認識物体の重なり関係を言語に変換してもよい。例えば、認識物体の状態が図１２の左上の状態であれば、情報処理装置１００は、「三角形：接している：丸」というような言語情報に変換することができる。

　情報処理装置１００は、２つの認識物体が重なっている場合は、その重なりの面積の比率の程度によりその重なりの程度を表現しても良い。情報処理装置１００は、例えば２つの認識物体である物体１と物体２とが重なっている場合、物体１と物体２とが重なっている部分の面積が物体１の面積の２５％以下の場合は重なりの程度を「小」、７５％以上の場合は「大」、それ以外の場合を「中」としてもよい。この程度の決定は輪郭情報処理部１４０が実行してもよい。また２つの認識物体が離れている場合は、情報処理装置１００は、それぞれの認識物体の重心の距離を求め、認識物体の重心間の距離に応じて程度情報を決定してもよい。情報処理装置１００は、認識物体の重心間の距離が画面全体の対角線の長さに対して、例えば２５％以内である場合は離れている距離の程度を「小」、７５％以上の場合は「大」、それ以外の場合を「中」としてもよい。

　図１３は、画像入力部１１から情報処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。図１３には、画像情報ｉ１０１として２個の赤いリンゴが机の上に置いてある様子が示されている。従って、図１３に示した画像情報ｉ１０１を情報処理装置１００で処理すると、情報処理装置１００は上述の一連の処理により、言語生成部１３０において「机の上に赤いリンゴと赤いリンゴがあります」ではなく、「机の上に赤いリンゴが２個あります」または「机の上に２つの赤いリンゴがあります」のような文を生成すること出来る。

　図１４は、画像入力部１１から情報処理装置１００へ入力される画像情報ｉ１０１の別の例を示す説明図である。図１４には、机の上に赤いリンゴが２個ある画像情報ｉ１０１が示されている。従って、図１４に示した画像情報ｉ１０１を情報処理装置１００で処理すると、情報処理装置１００は上述の一連の処理により、言語生成部１３０において「机の上と下に赤いリンゴがあります」のような文を生成すること出来る。

　上記ステップＳ１１４で、物体の名称をテンプレートに補完して文を作成すると、続いて情報処理装置１００は、例えばテキストを音声合成することで生成した文を出力する（ステップＳ１１５）。このステップＳ１１５の出力処理は、例えば言語情報出力部１９０が実行し得る。もちろん、情報処理装置１００は、音声合成でなく単に文字列として言語情報ｉ１０５を出力しても良いことは言うまでもない。文字列として言語情報ｉ１０５を出力する場合は、情報処理装置１００は例えばヘッドマウントディスプレイ１０の表示装置１３に言語情報ｉ１０５を出力する。

　一方、上記ステップＳ１０４の判断の結果、ユーザから入力された言語情報ｉ１０６に、物体認識を開始する内容が含まれていないことが解れば（ステップＳ１０４、Ｎｏ）、続いて情報処理装置１００は、上記ステップＳ１０３による言語解析処理の結果、ユーザから入力された言語情報ｉ１０６に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれているかどうかを判断する（ステップＳ１１６）。ステップＳ１１６の処理は、例えば処理内容特定部１１４が実行し得る。

　上記ステップＳ１１６の判断の結果、ユーザから入力された言語情報ｉ１０６に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれていないことが解れば（ステップＳ１１６、Ｎｏ）、情報処理装置１００はユーザから入力された言語情報ｉ１０６に対する処理は実行せず、処理を終了する。一方上記ステップＳ１１６の判断の結果、ユーザから入力された言語情報ｉ１０６に、物体検索を行なって、物体の情報を取得する処理を開始する内容が含まれていることが解れば（ステップＳ１１６、Ｙｅｓ）、続いて情報処理装置１００は、画像情報ｉ１０１に対する物体認識処理を実行する（ステップＳ１１７）。このステップＳ１１７の物体認識処理は、例えば画像処理部１１０が、具体的には物体認識部１１１が実行する。情報処理装置１００は、ステップＳ１１７の物体認識処理により、物体の情報、具体的には、物体の名称、物体の色、画像情報ｉ１０１における物体の大きさや位置を取得する。

　画像情報ｉ１０１に含まれる物体の認識をステップＳ１１７で行なうと、続いて情報処理装置１００は、認識した物体が画像中のどの場所にあるかを抽出するために、認識した物体の重心を算出する（ステップＳ１１８）。このステップＳ１１８の処理は、例えば画像処理部１１０が、具体的には物体位置情報抽出部１１３が実行する。ステップＳ１１８では、例えば認識した物体に対する積分により重心が算出されても良い。

　上記ステップＳ１１８で物体の重心を算出すると、続いて情報処理装置１００は、ユーザから入力された言語情報ｉ１０６に含まれる物体名と、上記ステップＳ１１７で認識した物体の名前とが一致しているかどうか判断する（ステップＳ１１９）。ステップＳ１１９の判断処理は、例えば物体認識部１１１が実行する。例えばユーザから入力された言語情報ｉ１０６が「富士山はどこ？」というものであり、形態素解析により言語情報ｉ１０６が富士山の場所を探すことを意味するものであると判断され、上記ステップＳ１１７で認識した物体が富士山であれば、情報処理装置１００は、ユーザから入力された言語情報ｉ１０６に含まれる物体名と、上記ステップＳ１１７で認識した物体の名前とが一致していると判断することができる。

　上記ステップＳ１１９の判断の結果、ユーザから入力された言語情報ｉ１０６に含まれる物体名と、上記ステップＳ１１７で認識した物体の名前とが一致していないことが解れば（ステップＳ１１９、Ｎｏ）、続いて情報処理装置１００は、現在のユーザの位置から目標物（すなわち、言語情報ｉ１０６に含まれる物体名）がどの方向にどのくらいの距離にあるかを判断する。判断に際して本実施形態では、情報処理装置１００は、地図情報ｉ１０８を用いた地図検索（ステップＳ１２０）、ＧＰＳ１５が取得した現在位置の情報を用いたＧＰＳ検索（ステップＳ１２１）、ジャイロセンサ１６が取得したヘッドマウントディスプレイ１０の向きの情報を用いた方向検出（ステップＳ１２２）を実行する。

　一方上記ステップＳ１１９の判断の結果、ユーザから入力された言語情報ｉ１０６に含まれる物体名と、上記ステップＳ１１７で認識した物体の名前とが一致していることが解れば（ステップＳ１１９、Ｙｅｓ）、上記ステップＳ１２０～１２２の処理をスキップする。

　続いて情報処理装置１００は、検索結果の強調処理を実行する（ステップＳ１２３）。ステップＳ１２３の検索結果の強調処理は、例えば認識物表示部１８０が実行し得る。ユーザから入力された言語情報ｉ１０６に含まれる物体名と、上記ステップＳ１１７で認識した物体の名前とが一致している場合は、情報処理装置１００は、上記ステップＳ１１７で認識した物体を強調する処理を実行する。認識した物体を強調する処理としては、例えば、画像情報ｉ１０１や、ヘッドマウントディスプレイ１０の表示装置１３を通して見える認識物体の位置を枠で囲う、認識物体を枠で囲った上で枠を点滅させる、認識物体の輪郭を強調する、認識物体を矢印で示す、認識物体または認識物体を囲う枠以外の領域を網掛けにする、等の様々な処理がある。

　続いて情報処理装置１００は、文生成テンプレートｉ１０４を参照する（ステップＳ１２４）。このステップＳ１２４の参照処理は、例えば言語生成部１３０が実行する。ステップＳ１２４では、情報処理装置１００は、文生成テンプレートｉ１０４に含まれている物体検索処理の応答用のテンプレートを参照する。

　上記ステップＳ１２４で文生成テンプレートｉ１０４を参照すると、続いて情報処理装置１００は、上記ステップＳ１１７の物体認識処理で認識した物体の名称を文生成テンプレートｉ１０４のテンプレートに補完して、文を作成する（ステップＳ１２５）。このステップＳ１２５の作成処理は、例えば言語生成部１３０が実行する。ステップＳ１２５の処理により、情報処理装置１００は、物体認識処理の応答としての言語情報ｉ１０５を生成することが出来る。

　例えばユーザが「富士山はどこ？」という言語情報ｉ１０６を入力し、言語解析部１７０での形態素解析により言語情報ｉ１０６が富士山の場所を探すことを意味するものであると判断され、物体認識部１１１の認識処理によって、画像情報ｉ１０１から富士山を認識出来た場合は、情報処理装置１００は、文生成テンプレートｉ１０４を参照して、「富士山はこちらです。」という言語情報ｉ１０５を生成する。

　上記ステップＳ１２５で、物体の名称をテンプレートに補完して文を作成すると、続いて情報処理装置１００は、例えばテキストを音声合成することで生成した文を出力する（ステップＳ１２６）。このステップＳ１２６の出力処理は、例えば言語情報出力部１９０が実行し得る。

　情報処理装置１００は、物体認識の対象領域を分かりやすくユーザに提示しても良い。図１５、図１６及び図１８は、情報処理装置１００による物体認識処理の結果の出力例を示す説明図であり、情報処理装置１００が画像情報ｉ１０１に対して物体認識処理を実行した際の認識領域を表示する例を示す説明図である。図１５に示したのは、画像情報ｉ１０１における認識物体が中央部分に位置する物体であり、その認識物体を枠３７１で囲った上で、ステップＳ１２５で生成した言語情報ｉ１０５を表示する領域３７２を画像情報ｉ１０１に重畳させている例である。図１６に示したのは、画像情報ｉ１０１における認識物体が右下部分に位置する物体であり、その認識物体を枠３７１で囲っている例である。

　図１８に示したのは、例えばユーザが「富士山はどこ？」と発話した際に表示される認識結果の例であり、画像情報ｉ１０１における認識物体が左上部分に位置する物体であり、その認識物体を枠３７１で囲っている例である。情報処理装置１００は、ＧＰＳ１５が取得した情報、ジャイロセンサ１６が取得した情報、地図情報ｉ１０８を用いることにより、ヘッドマウントディスプレイ１０を装着しているユーザの現在位置から、目標の物体がどの方向にどのくらいの距離にあるかを判断できる。

　また図１７は、情報処理装置１００が認識した物体を強調して表示する例を示す説明図である。図１７に示したのは、画像情報ｉ１０１における認識物体が中央部分に位置する物体であり、その認識物体を枠３７１で囲った上で、枠３７１で囲われていない領域を網掛けにしている例である。

　図１９は、情報処理装置１００が画像情報ｉ１０１に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。図１９に示したのは、例えばユーザが「富士山はどこ？」と発話した際に表示される認識結果の例である。情報処理装置１００は、画像情報ｉ１０１に対して物体認識処理を実行した結果、画像情報ｉ１０１から富士山を認識出来た場合は、富士山を指し示す矢印３８２をヘッドマウントディスプレイ１０に表示させたり、目標物（富士山）を発見したことを示すマーク３８３をヘッドマウントディスプレイ１０に表示させたりしてもよい。また情報処理装置１００は、画像情報ｉ１０１から富士山を認識出来た場合は、富士山を矢印３８２で示すことに加え、「富士山はこちらです」のような文章３８４をヘッドマウントディスプレイ１０に表示させてもよい。

　状況によっては、画像情報ｉ１０１から物体を認識できない場合がある。例えば天候が悪く、画像情報ｉ１０１から富士山を認識できない場合が考えられる。そのような場合、情報処理装置１００は、ＧＰＳ１５が取得した情報、ジャイロセンサ１６が取得した情報、地図情報ｉ１０８を用いることにより、富士山が本来存在するであろう場所を画像情報ｉ１０１の中から特定することができる。

　図２０は、情報処理装置１００が画像情報ｉ１０１に対して物体認識処理を実行した際の認識結果を表示する例を示す説明図である。図２０に示したのは、富士山が雲で隠れている状態が写っている画像情報ｉ１０１に対して、例えばユーザが「富士山はどこ？」と発話した際に表示される認識結果の例である。このように富士山は雲で隠れて見えないが、情報処理装置１００は、ＧＰＳ１５が取得した情報、ジャイロセンサ１６が取得した情報、地図情報ｉ１０８を用いることにより、富士山が本来存在する場所を特定し、枠３７１で囲ってヘッドマウントディスプレイ１０に表示させることができる。

　以上、図１０Ａ、１０Ｂを用いて本開示の一実施形態にかかる情報処理装置１００のど動作例について説明した。

　上述の説明では、ユーザから入力された言語情報ｉ１０６が「あの右下にある物体は何？」というように位置を特定するものである例を示したが、ユーザから入力される言語情報ｉ１０６は、例えば物体の持つ色、大きさ、形などの特徴を特定するものであってもよい。例えばユーザから入力された言語情報ｉ１０６が「赤くて大きなものは何？」というものであれば、情報処理装置１００は、画像情報ｉ１０１の中から赤くて大きな物体を認識し、その物体について生成した言語情報ｉ１０５を生成してもよい。もちろん、ユーザから入力された言語情報ｉ１０６に位置と特徴の両方が特定されていてもいいことは言うまでもない。すなわち、ユーザから入力された言語情報ｉ１０６が「あの右下にある赤くて大きなものは何？」というものであれば、情報処理装置１００は、画像情報ｉ１０１の右下部分の赤くて大きな物体を認識し、その物体について生成した言語情報ｉ１０５を生成してもよい。

　情報処理装置１００は、認識対象となる物体の画像情報ｉ１０１での他の物体との位置関係が指定された場合に、複数の認識物体から任意の認識物体の名称を取得することもできる。例えば図１１に示した画像情報ｉ１０１の場合、画面の中央部分に位置する物体３１０（タワー）が認識された時点で、ユーザが「タワーの右にあるのは何？」という発話をしたとする。言語解析部１７０は、「タワー」が予め認識されており、さらに発話されたのが物体の名前なので、その「タワー」が認識の起点となる物体の名前であると判断する。そして言語画像位置情報変換部１７６は、「タワー」と「右」という単語から認識領域を決定し、認識領域特定部１７８は、言語画像位置情報変換部１７６の決定により、Ｘ座標方向で物体３１０の重心位置３１１のより正の方向を認識領域として特定する。

　この場合、情報処理装置１００はユーザの発話等により認識領域を設定し直して物体認識を行なっても良い。また情報処理装置１００、Ｘ座標方向で正の方向に取得済みの認識物体がある場合は、その認識物体の結果を利用してもよい。

　例えば図１１に示した画像情報ｉ１０１の場合、ユーザが「タワーの右にあるのは何？」という発話をすると、情報処理装置１００は、物体３２０，３３０の２つの物体を認識することが出来る。しかし、物体３２０の方が物体３１０に近いので、情報処理装置１００は、言語情報ｉ１０５として「自動車です。」という文章を生成することが出来る。もちろん情報処理装置１００は、起点となる物体に最も近いものを認識物体として決定してもよく、再認識領域の中で一番面積が大きなものを認識物体として決定してもよい。

　またユーザが「タワーのちょっと右にあるものは何？」や「タワーよりかなり右にあるものは何？」などのように「ちょっと」や「かなり」などの程度を示す副詞を含んだ内容を発話した場合は、情報処理装置１００は、その副詞に対応するレベルの大小により選択範囲を変更してもよい。また位置関係だけでなく、ユーザが「タワーよりもっと赤いのは何？」や「もっと大きいのは何？」などの属性の違いを指定する内容を発話した場合は、情報処理装置１００は、その属性による認識物体の絞り込みを行なっても良い。

　認識物体が画像情報ｉ１０１の中にない場合は、情報処理装置１００は、例えばジャイロセンサ１６が取得した情報を用いて物体が存在する方向を検出し、物体が存在する方向をユーザに通知してもよい。図２１は、画像情報ｉ１０１とユーザの方向との位置関係の例を示す説明図である。情報処理装置１００は、ユーザの方向に対する対象物の方向の言語情報の対応に従って、認識対象物体がユーザから見てどの方向にあるかをユーザに指示する。

　例えばジャイロセンサ１６が取得した情報を用いることで富士山がユーザの後方にあることが解った場合は、情報処理装置１００は、文生成テンプレートｉ１０４の方向指示用のテンプレートを用いて文を生成することが出来る。具体的には、情報処理装置１００は、文生成テンプレートｉ１０４の方向指示用のテンプレートの＜ｄｉｒｅｃｔｉｏｎ－ｎ＞（ｎ＝１，２，・・・）タグに方向の情報を当てはめて、例えば「富士山は後ろです。」という文を生成することが出来る。そして情報処理装置１００は、その生成した文に基づいてユーザに指示を与えることができる。また例えば、目標物体が画像情報ｉ１０１の中に含まれるためには（すなわち、目標物体がユーザの視界に入るためには）ユーザが左右方向で画角３０度以内での移動で済む場合、言語生成部１３０は文生成テンプレートｉ１０４の方向指示用のテンプレートの＜ｄｉｒｅｃｔｉｏｎ－ｎ＞タグに「右」や「左」という情報を当てはめて、「もう少し右です。」や「もう少し左です。」などの文を生成することができる。

　なお上述の例では、物体認識の開始を促す指示がユーザの発話によって行われていたが、本開示は係る例に限定されるものではない。例えば、情報処理装置１００に対して送出した所定の信号、例えばヘッドマウントディスプレイ１０に備えられているボタン、キーボード、スイッチ等に対するユーザ操作に応じて生成される信号が、情報処理装置１００での物体認識開始のトリガとして用いられても良い。

　また情報処理装置１００は、物体認識処理に際してヘッドマウントディスプレイ１０を使用しているユーザの手と指を認識し、ユーザの指が指している方向の物体を認識してもよい。ユーザの指が指している方向の物体を認識する場合は、情報処理装置１００は、画像情報ｉ１０１で手と指を認識し、手及び指が認識された領域の重心からＹ軸上の正の方向を対象物体の方向とする。

　図２２は、画像入力部１１から情報処理装置１００に入力される画像情報ｉ１０１の一例を示す説明図である。図２２には、ヘッドマウントディスプレイ１０を使用しているユーザの手が画像情報ｉ１０１に含まれている状態が示されている。符号４０１は、手及び指が認識された領域の重心位置を示し、符号４０２は重心位置４０１からユーザの指先へ向かうベクトルを示している。情報処理装置１００は、画像情報ｉ１０１に対する物体認識処理によりベクトル４０２を求めると、そのベクトル４０２の方向にある物体を対象物体として認識する。図２２に示した例では、情報処理装置１００は富士山を認識し、「富士山です。」のような文章を生成することができる。このようにユーザの手と指を認識し、ユーザの指が指している方向の物体を認識することで、ユーザが発話等をしなくても情報処理装置１００はユーザが意図する物体を認識し、その物体の認識結果を言語情報で出力することができる。

　なお、情報処理装置１００が物体認識処理を行なった結果、「わかりません。」のような全く確信の無い表現で言語情報ｉ１０５を生成した場合に、ユーザがその物体を指で指し示したときは、情報処理装置１００は、物体認識の閾値を下げて、その物体についての確からしさが低い状態で物体認識を行うようにしてもよい。

　情報処理装置１００は、ＡＲ（拡張現実）の技術を適用して認識結果を出力しても良い。例えば地図情報ｉ１０８として星座情報を用いれば、ユーザが「みずがめ座はどこ？」と夜空を見ながら発話すると、情報処理装置１００は、星座を見つけた時点で「みずがめ座はこちらです。」という言語情報ｉ１０５をヘッドマウントディスプレイ１０に出力することが出来るとともに、星座の画像を重ねあわせてヘッドマウントディスプレイ１０に出力することができる。図２３は、情報処理装置１００による物体認識処理の結果の出力例を示す説明図である。図２３には、物体認識処理の結果として、情報処理装置１００が星座の画像を重ねあわせてヘッドマウントディスプレイ１０に出力している様子を示したものである。

　情報処理装置１００は、ユーザから入力される言語情報を解析し、その解析結果に基づいて物体認識処理を実行し、ユーザから言語情報によって指定された物体が画像情報ｉ１０１の中央に位置した場合は、ヘッドマウントディスプレイ１０に対してユーザから言語情報によって指定された物体が画像情報ｉ１０１の中央に位置したことを示す通知、例えば振動や音を出力する指示を送出しても良い。

　情報処理装置１００は、ユーザから入力される言語情報ｉ１０６に基づく画像処理の実行により、認識物体が複数検出して一意に特定できない場合は、言語生成部１３０で言語情報ｉ１０５を生成する際に物体の特徴を付加した形で生成する。特徴には、例えば色、大きさ、位置、明るさ、距離などがある。例えばユーザが入力した言語情報ｉ１０６が、「あの赤いものは何？」という内容であった場合に、画像情報ｉ１０１に例えばリンゴとトマトのように異なる赤い物体が複数存在したとする。このとき、情報処理装置１００は、例えば「赤いものが複数ありますが、一番大きなものはリンゴです。」など物体の特徴を付加した言語情報ｉ１０５を生成する。

　例えばユーザが入力した言語情報ｉ１０６が、「あの赤いものは何？」という内容であった場合に、画像情報ｉ１０１に例えばリンゴとトマトのように異なる赤い物体が複数存在したとする。このとき、情報処理装置１００は、「赤いものが複数あります。どれですか？」や、「赤いものが複数あります。指で示してください。」などのさらなる情報の要求をユーザに求める言語情報ｉ１０５を生成してもよい。

　情報処理装置１００は、ユーザから入力される言語情報ｉ１０６に基づく画像処理の実行によって、物体認識できない場合は、例えば所定のメッセージを含んだ言語情報ｉ１０５を生成する。例えば情報処理装置１００は、「物体が認識できません」という言語情報ｉ１０５を生成してもよく、「赤いものは見つかりませんがオレンジがあります。」と認識された物体の特徴の違いを説明して見つかった物体名のみを返す言語情報ｉ１０５を生成してもよい。また例えば情報処理装置１００は、物体認識できない場合は、「指でさしてください。」と方向を特定させる言語情報ｉ１０５を生成してもよい、方向を特定させる言語情報ｉ１０５を生成することで、情報処理装置１００は、物体認識の閾値を下げて、確からしさが低い状態で物体認識を行うことができる。

　情報処理装置１００は、静止画だけでなく、動画像に対してもユーザが入力した言語情報ｉ１０６に対する言語解析処理及び物体認識処理を実行することが出来る。

　上述の例では、ヘッドマウントディスプレイ１０と、ヘッドマウントディスプレイ１０から情報を取得し、ヘッドマウントディスプレイ１０へ情報を出力する情報処理装置１００と、を有する情報処理システム１を例に挙げて説明したが、本開示は係る例に限定されるものではない。

　図２４は、本開示の一実施形態に係る情報処理システム２を示す説明図である。図２４に示した情報処理システム２は、出力装置２０と、情報処理装置１００と、入力装置３０と、を含んで構成される。出力装置２０は、動画像データ等のデジタルコンテンツを出力する装置であり、情報処理装置１００によってそのデジタルコンテンツの出力が制御される装置である。入力装置３０は、情報処理装置１００に対して言語情報を入力する装置であり、例えばマイクやキーボード等の入力デバイスで構成される。

　図２４に示したように構成された情報処理システム２において、ユーザが入力装置３０を用いて情報処理装置１００に言語情報を入力すると、情報処理装置１００は、その入力させた言語情報を解析し、出力装置２０へのデジタルコンテンツの出力を制御することが出来る。

　例えばユーザが入力装置３０を用いて入力した言語情報ｉ１０６が、「今のは何？」や、「さっき赤い服を着ていたのは誰？」というような時間を指定した内容であれば、情報処理装置１００は、動画像である画像情報ｉ１０１に対する物体認識処理を、例えば物体認識部１１１で実行する。その際に情報処理装置１００は、画像情報ｉ１０１の中でユーザが発話した時点では含まれない物体の中から、ある基準に合致する物体を認識物体として選択する。基準としては、例えば最も面積が大きいもの、最も大きな動きをしたもの、最も輝度が大きいもの、最も大きな音を出していたもの、フレーム間の差分を検出して特徴的な動きや状態の変化をしたもの、などがあり得る。

　そして情報処理装置１００は、認識物体を選択すると、その認識物体が含まれている時点の画像（フレーム画像）を抽出し、抽出した画像に対して上述してきた画像処理を実行する。情報処理装置１００は、抽出した画像に対して上述してきた画像処理を実行することで、例えばユーザからの「今のは何？」という問いかけに対して「自動車です。」という言語情報ｉ１０５を生成することが可能になる。

　動画像に対する処理によって、情報処理装置１００は、ユーザからの質問ではなく、ユーザからの言語情報の内容に対して応答することが可能になる。例えばユーザが入力した言語情報ｉ１０６が、「さっき赤い服を着た人が出ていたシーンまで戻して」というような巻き戻し再生を指示した内容であれば、情報処理装置１００は、動画像である画像情報ｉ１０１に対して赤い服を着た人を探す物体認識処理を、例えば物体認識部１１１で実行する。巻き戻し再生が指示された場合、情報処理装置１００は動画像を静止画に変換して、上述の認識処理を逐次繰り返して行うことで、ユーザが言語情報を入力した時点から、ユーザに指定された物体が最初に見つかる時間まで出力装置２０に巻き戻させることで、ユーザに指定された物体（赤い服を着た人）が登場する場面まで動画像を巻き戻すことができる。そして情報処理装置１００は、ユーザに指定された物体が最初に見つかる時間から、ユーザに指定された物体が画像から消える時点までさらに巻き戻すことにより、その物体が直近に出現したシーンの先頭まで出力装置２０に巻き戻させることができる。

　また例えばユーザが入力した言語情報ｉ１０６が、「さっき赤い服を着た人が最初に出たシーンまで戻して」というような巻き戻し再生を指示した内容であれば、情報処理装置１００は、動画像である画像情報ｉ１０１に対して赤い服を着た人が最初に登場する画像を探す物体認識処理を、例えば物体認識部１１１で実行することができる。

　情報処理装置１００は、動画像である画像情報ｉ１０１に対する認識処理の結果得られる文章によって、画像情報ｉ１０１がどのようなシーンであるかを示すシーン情報を表現出来る。そして動画像である画像情報ｉ１０１からシーン情報が生成される場合は、情報処理装置１００は、そのシーン情報を用いた物体認識処理を、例えば物体認識部１１１で実行することができる。例えば動画像である画像情報ｉ１０１に対する認識処理の結果、シーン情報として、画像情報ｉ１０１にはＡさんとＢさんの共演シーンが存在するという情報が得られた場合に、ユーザが「ＡさんとＢさんの共演シーンを見せて」という言語情報ｉ１０６を情報処理装置１００に入力したとする。情報処理装置１００は、その「ＡさんとＢさんの共演シーンを見せて」という言語情報ｉ１０６に基づいて、シーン情報から得られるＡさんとＢさんの共演シーンから画像情報ｉ１０１を出力するよう出力装置２０に指示することが可能になる。

　今までの説明で２次元の画像に関して説明したが、本開示は係る例に限定されるものではない。すなわち情報処理装置１００は、さらにＺ軸が設けられる画像情報ｉ１０１について、奥行方向に関して同様の処理を行うことも可能である。また、上述した各種テーブルや閾値はユーザによって任意の値に変更することが可能であることは言うまでもない。

　＜２．ハードウェア構成例＞
　次に、図２５を参照して、本開示の一実施形態にかかる情報処理装置１００のハードウェア構成について説明する。図２５は、本開示の実施形態にかかる情報処理装置１００のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図２５に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図２５に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、接触式又は非接触式のＩＣチップ、接触式又は非接触式のＩＣカード、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙ－ｐｈｏｎｅ　Ｓｙｓｔｅｍの略である。また、上記のＰＤＡは、Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔの略である。

　図２５に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略である。また、上記のＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略である。そして、上記のＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略である。

　ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅの略である。また、上記のＬＣＤは、Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙの略である。そして、上記のＰＤＰは、Ｐｌａｓｍａ　ＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ　Ｄｉｓｐｌａｙの略である。

　記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略である。

　ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙメディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略である。

　接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略である。また、上記のＳＣＳＩは、Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅの略である。

　通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、Ｗｉｒｅｌｅｓｓ　ＵＳＢの略である。そして、上記のＡＤＳＬは、Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅの略である。

　以上、情報処理装置１００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　＜３．まとめ＞
　以上説明したように本開示の一実施形態によれば、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行する情報処理装置１００が提供される。本開示の一実施形態に係る情報処理装置１００は、画像情報に対する処理内容を、ユーザから入力される言語情報の内容に応じて決定する処理を実行することで、画像情報に対する効果的な処理が可能となる。

　本開示の一実施形態に係る情報処理装置１００は、「画面の右下」や「画面の中央やや右上」などの言語的な表現に位置を表現したり、「赤い自動車のすぐ右隣」や「赤い自動車の手前」、「赤い自動車からかなり右側」「テーブルの上」など対象物と目標物の位置関係を言語で表現したりすることが可能になる。

　本開示の一実施形態に係る情報処理装置１００は、相対的な位置関係が入力された場合に、画像認識を行うために複数の物体から任意の物体を認識するためにカメラやレンズを認識対象物の方向に向ける必要がなくなる。本開示の一実施形態に係る情報処理装置１００は、ユーザから「テーブルの上に載っているものは何？」や「太郎さんの右隣にいるのは誰？」などの言語情報が入力された場合に、その内容を適切に解釈し、認識領域を設定することが出来る。

　本開示の一実施形態に係る情報処理装置１００は、「リモコンはどこにある？」という問い合わせがユーザから入力された場合、ヘッドマウントディスプレイ１０のような眼鏡型のウェアラブルコンピュータなどに対して、画面上で物体のある領域を強調して提示したり、「右にある机の上にあります」というようなテキストや音声で答えたり、認識物体が画面の中央に来た際に音や振動で通知するなどの処理が可能になる。

　本開示の一実施形態に係る情報処理装置１００は、ＧＰＳ情報や地図情報を用いることにより、ユーザからの「右に見えている大きな建物は何？」や「タワーの左に見える山の名前は？」などの問い合わせに対する回答の生成や、ユーザからの「富士山はどこに見えるの？」などの問い合わせに対する実際の建造物や自然地形の検索の実行が可能になる。従って本開示の一実施形態に係る情報処理装置１００は、ＧＰＳ情報や地図情報を用いることで、ユーザの問い合わせに対する適切な処理を実行することが可能になる。

　本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。

　また本開示の一実施形態に係る情報処理装置１００は、情報処理装置１００の処理の結果として表示される画像を表示するディスプレイを備える装置とは別の装置（たとえばインターネット等のネットワークを介してディスプレイを備える装置と接続されるサーバ装置）として実施されてもよいし、サーバ装置から情報を受ける端末装置で実施されてもよい。また本開示の一実施形態に係る情報処理装置１００の構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。

　なお、上記実施形態で示したユーザインタフェースやアプリケーションを実現するソフトウェアは、インターネット等のネットワークを介して使用するウェブアプリケーションとして実現されてもよい。ウェブアプリケーションは、例えば、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）などのマークアップ言語により実現されてもよい。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、
　前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、
を備える、情報処理装置。
（２）
　前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した前記画像の中の領域に対する物体の認識処理を実行することを特定する、前記（１）に記載の情報処理装置。
（３）
　前記画像領域特定部は、特定した画像の中の領域で認識された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、前記（２）に記載の情報処理装置。
（４）
　前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に含まれる物体の情報を取得する処理を実行することを特定する、前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記処理内容特定部は、前記物体の情報として該物体の名称を取得する処理を実行することを特定する、前記（４）に記載の情報処理装置。
（６）
　前記画像領域特定部は、特定した画像の中の領域で情報が取得された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、前記（４）または（５）に記載の情報処理装置。
（７）
　前記画像領域特定部が前記画像の中の領域を特定した後に、該特定の取り消しを意味する言語情報が入力されると、前記画像領域特定部は、前記画像に対する直前の領域の特定を解除する、前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
　前記言語情報として前記画像に対する時間の限定を意味する言語情報が入力されていれば、前記処理内容特定部は、前記画像を使用した処理の対象となる前記画像の時間を限定する、前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する物体認識部をさらに備える、前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記画像処理部が実行した処理の結果を表す言語情報を生成する言語生成部をさらに備える、前記（９）に記載の情報処理装置。
（１１）
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記入力された言語情報から物体を一意に特定できない場合は、前記言語生成部は、認識された物体の特徴を付加して言語情報を生成する、前記（１０）に記載の情報処理装置。
（１２）
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記言語生成部は、前記物体認識部による前記入力された言語情報に基づいた物体認識結果の度合いに応じた言語情報を生成する、前記（１０）に記載の情報処理装置。
（１３）
　前記画像領域特定部が特定した領域を前記画像に重畳して表示させる認識領域表示部をさらに備える、前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記画像領域特定部は、入力された言語情報に基づいて前記画像を所定数に分割し、該分割後の各領域を用いて前記画像の中の領域を特定する、前記（１）～（１３）のいずれかに記載の情報処理装置。
（１５）
　前記画像領域特定部は、前記入力された言語情報に程度を表す副詞が含まれていれば、前記副詞を参照して前記画像の中の領域を特定する、前記（１）～（１４）のいずれかに記載の情報処理装置。
（１６）
　入力された言語情報に基づいて画像の中の領域を特定することと、
　前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を含む、情報処理方法。
（１７）
　コンピュータに、
　入力された言語情報に基づいて画像の中の領域を特定することと、
　前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を実行させる、コンピュータプログラム。

　１０　　ヘッドマウントディスプレイ（ＨＭＤ）
　１００　　情報処理装置
　１１０　　画像処理部
　１１１　　物体認識部
　１１２　　画像認識領域設定部
　１１３　　物体位置情報抽出部
　１１４　　処理内容特定部
　１２０　　画像位置言語情報変換部
　１３０　　言語生成部
　１４０　　輪郭情報処理部
　１５０　　ＲＧＢ色名変換部
　１６０　　建造物識別部
　１７０　　言語解析部
　１７２　　類似画像検索部
　１７４　　認識領域表示部
　１７６　　言語画像位置情報変換部
　１７８　　認識領域特定部
　１８０　　認識物表示部
　１９０　　言語情報出力部

Claims

　入力された言語情報に基づいて画像の中の領域を特定する画像領域特定部と、
　前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に対する、前記画像を使用した処理の内容を特定する処理内容特定部と、
を備える、情報処理装置。
　前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した前記画像の中の領域に対する物体の認識処理を実行することを特定する、請求項１に記載の情報処理装置。
　前記画像領域特定部は、特定した画像の中の領域で認識された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、請求項２に記載の情報処理装置。
　前記処理内容特定部は、前記入力された言語情報に基づいて、前記画像領域特定部が特定した画像の中の領域に含まれる物体の情報を取得する処理を実行することを特定する、請求項１に記載の情報処理装置。
　前記処理内容特定部は、前記物体の情報として該物体の名称を取得する処理を実行することを特定する、請求項４に記載の情報処理装置。
　前記画像領域特定部は、特定した画像の中の領域で情報が取得された物体を基準として、さらに入力された言語情報に基づいて画像の中の領域を特定する、請求項４に記載の情報処理装置。
　前記画像領域特定部が前記画像の中の領域を特定した後に、該特定の取り消しを意味する言語情報が入力されると、前記画像領域特定部は、前記画像に対する直前の領域の特定を解除する、請求項１に記載の情報処理装置。
　前記言語情報として前記画像に対する時間の限定を意味する言語情報が入力されていれば、前記処理内容特定部は、前記画像を使用した処理の対象となる前記画像の時間を限定する、請求項１に記載の情報処理装置。
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する物体認識部をさらに備える、請求項１に記載の情報処理装置。
　前記物体認識部での認識の結果を表す言語情報を生成する言語生成部をさらに備える、請求項９に記載の情報処理装置。
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記入力された言語情報から物体を一意に特定できない場合は、前記言語生成部は、認識された物体の特徴を付加して言語情報を生成する、請求項１０に記載の情報処理装置。
　前記処理内容特定部が特定した処理に基づいて、前記画像の物体を認識する処理を前記物体認識部が実行した結果、前記言語生成部は、前記物体認識部による前記入力された言語情報に基づいた物体認識結果の度合いに応じた言語情報を生成する、請求項１０に記載の情報処理装置。
　前記画像領域特定部が特定した領域を前記画像に重畳して表示させる認識領域表示部をさらに備える、請求項１に記載の情報処理装置。
　前記画像領域特定部は、入力された言語情報に基づいて前記画像を所定数に分割し、該分割後の各領域を用いて前記画像の中の領域を特定する、請求項１に記載の情報処理装置。
　前記画像領域特定部は、前記入力された言語情報に程度を表す副詞が含まれていれば、前記副詞を参照して前記画像の中の領域を特定する、請求項１に記載の情報処理装置。
　入力された言語情報に基づいて画像の中の領域を特定することと、
　前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を含む、情報処理方法。
　コンピュータに、
　入力された言語情報に基づいて画像の中の領域を特定することと、
　前記入力された言語情報に基づいて、前記特定された画像の中の領域に対する、前記画像を使用した処理の内容を特定することと、
を実行させる、コンピュータプログラム。