JPWO2017221721A1

JPWO2017221721A1 - 情報処理装置、情報処理方法、及び、プログラム

Info

Publication number: JPWO2017221721A1
Application number: JP2018523848A
Authority: JP
Inventors: 真一河野; 拓也生江; 遼深澤; 賢次杉原; 佐藤　大輔; 大輔佐藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-22
Filing date: 2017-06-08
Publication date: 2019-04-18
Anticipated expiration: 2037-06-08
Also published as: EP3477434A1; EP3477434B1; US10922043B2; CN109313506A; CN109313506B; EP3477434A4; US20190138261A1; JP6885402B2; WO2017221721A1

Abstract

本技術は、ユーザが所望の対象を指すことにより、所望の対象に関する正確な情報を取得することができるようにする情報処理装置、情報処理方法、及び、プログラムに関する。
情報処理装置は、指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出部と、前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成部と、前記説明情報の音声の出力を制御する出力制御部とを備える。本技術は、例えば、ウエアラブルデバイスに適用できる。

Description

本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、指示オブジェクトにより指されている対象に関する情報を通知する場合に用いて好適な情報処理装置、情報処理方法、及び、プログラムに関する。

例えば、遠くにある物体、小さな物体、又は、周囲に物体が密集している中の物体を、離れた位置から直接触れずに指等により正確に指すことは難しい。従って、例えば、ユーザが指している対象を検出する技術を適用した装置において、装置がユーザにより指されていると認識している対象と、ユーザ自身が指していると認識している対象とが一致しない場合がある。

これに対して、従来、ユーザの指等により指されていると認識した対象の名称等を音声で通知し、ユーザに確認する技術が提案されている（例えば、特許文献１参照）。

特開２０１３−８８９０６号公報

しかしながら、特許文献１に記載の技術では、例えば、ユーザが複数の未知の物体の中の１つを指している場合、上記の認識の不一致が発生し、ユーザが指していると認識している対象と異なる物体の名称等が音声で通知されても、ユーザが気付かないおそれがある。

そこで、本技術は、ユーザが所望の対象を指すことにより、所望の対象に関する正確な情報を取得できるようにするものである。

本技術の一側面の情報処理装置は、三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出部と、前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成部と、前記説明情報の音声の出力を制御する出力制御部とを備える。

前記情報生成部には、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とを比較して、前記付加情報の情報量を制御させることができる。

前記情報生成部には、前記指示対象を周囲と識別できる程度に前記付加情報の情報量を制御させることができる。

前記情報生成部には、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似しない場合、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成させ、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似する場合、前記指示対象単体の視認可能な特徴に加えて、前記指示対象の位置及び前記指示対象の周囲の視認可能な特徴のうち少なくとも１つに基づいて前記付加情報を生成させることができる。

前記情報生成部には、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成する場合、前記指示対象単体の視認可能な特徴のうち前記指示対象の周囲の視認可能な特徴と異なる特徴を優先して前記付加情報に含めることができる。

前記指示対象単体の視認可能な特徴には、前記指示対象の視覚的な属性を含めることができる。

前記コンテンツ情報を所定の言語に翻訳する翻訳部をさらに設け、前記出力制御部には、前記所定の言語の前記説明情報の音声の出力を制御させることができる。

前記コンテンツ情報には、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示させることができる。

前記指示オブジェクトを、ユーザの体の一部とすることができる。

前記指示対象の周囲を撮影した画像内の物体の検出を行う物体検出部をさらに設け、前記指示対象検出部には、前記画像内の物体の中から前記指示対象を検出させることができる。

本技術の一側面の情報処理方法は、指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、前記説明情報の音声の出力を制御する出力制御ステップとを含む。

本技術の一側面のプログラムは、三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、前記説明情報の音声の出力を制御する出力制御ステップとを含む処理をコンピュータに実行させる。

本技術の一側面においては、三次元空間において指示オブジェクトにより指されている対象である指示対象が検出され、前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報が生成され、前記説明情報の音声の出力が制御される。

本技術の一側面によれば、ユーザが所望の対象を指すことにより、所望の対象に関する正確な情報を取得することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用した情報処理システムの一実施の形態を示すブロック図である。情報処理システムにより実行される情報処理を説明するためのフローチャートである。指差しモード処理の詳細を説明するためのフローチャートである。指示方向情報取得処理の詳細を説明するためのフローチャートである。指示方向画像の撮影範囲の例を示す図である。指示方向画像の例を示す図である。指示対象の検出方法の例を示す図である。指示方向情報リストの例を示す図である。付加情報生成処理の詳細を説明するためのフローチャートである。付加情報の例を示す図である。付加情報の例を示す図である。付加情報の例を示す図である。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための形態（以下、「実施形態」と記述する）について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
｛情報処理システム１０の構成例｝
まず、図１を参照して、本技術を適用した情報処理システム１０の構成例について説明する。

情報処理システム１０は、例えばユーザにより装着又は携帯され、三次元空間においてユーザが指で指している対象（以下、指示対象と称する）に関するコンテンツ情報を所定の言語の音声で通知するシステムである。

ここで、コンテンツ情報とは、物体の視認可能なコンテンツを示す情報のことである。例えば、コンテンツ情報は、物体の名称、物体の種類、及び、物体が視覚的に表しているもの（以下、視覚コンテンツと称する）のうち少なくとも１つを示す。ここで、視覚コンテンツとは、例えば、物体に表示されている画像（動画、静止画、絵等）、文字、及び、マーク、並びに、物体の形状や動きにより表される文字、マーク、及び、メッセージ等である。また、物体が人である場合、視認可能なコンテンツには、例えば、ボディランゲージや交通整理の手信号等のジェスチャ、表情等が含まれる。

情報処理システム１０は、情報取得部１１、情報処理部１２、及び、出力部１３を備える。

情報取得部１１は、例えば、指輪型の形状を有し、ユーザが指差すときに用いる指（例えば、人差し指）に装着される。情報取得部１１は、撮影部２１及びセンサ部２２を備える。

撮影部２１は、ユーザが指により指している方向（以下、指示方向と称する）を撮影し、その結果得られる画像（以下、指示方向画像と称する）を情報処理部１２に供給する。

センサ部２２は、例えば、ユーザの指によるジェスチャ、指の位置、指示方向等を検出するためのセンサ（例えば、加速度センサ、ジャイロセンサ等）を備える。そして、センサ部２２は、各センサの検出結果を示すセンサ信号を情報処理部１２に供給する。

情報処理部１２は、例えば、スマートフォン、タブレット、ウエアラブルデバイス等の携帯型の情報端末により構成される。情報処理部１２は、例えば、指示対象検出部３１、物体検出部３２、翻訳部３３、情報生成部３４、出力制御部３５、及び、通信部３６を備える。

指示対象検出部３１は、センサ部２２からのセンサ情報に基づいて、三次元空間においてユーザにより指されている対象の検出を行う。

物体検出部３２は、指示方向画像内の物体の検出を行う。

翻訳部３３は、２以上の言語間の翻訳を行う。

情報生成部３４は、ユーザが指している方向に存在する物体に関する情報を示す指示方向情報リスト等を生成する。なお、指示方向情報リストの詳細は後述する。また、情報生成部３４は、指示対象の説明を行うための情報である説明情報を生成する。説明情報は、例えば、指示対象のコンテンツ情報、及び、指示対象に関連する視認可能な特徴を示す付加情報を含む。

出力制御部３５は、出力部１３による音声の出力を制御する。

通信部３６は、情報取得部１１及び出力部１３との間の通信を行う。なお、通信部３６の通信方式は、所定の方式に限定されるものではなく、有線又は無線の各種の通信方式の中から任意の方式を採用することができる。また、情報取得部１１及び出力部１３との間の通信方式を、それぞれ異なる方式に設定することが可能である。

出力部１３は、音声の出力が可能な装置により構成される。例えば、出力部１３は、スピーカ、ヘッドフォン、イヤフォン、音源等により構成される。

なお、例えば、情報処理部１２及び出力部１３を一体化するようにしてもよい。一体化した装置は、例えば、ネックバンド型のウエアラブルデバイスにより構成される。

｛情報処理システム１０の処理｝
次に、図２乃至図１２を参照して、情報処理システム１０の処理について説明する。

まず、図２のフローチャートを参照して、情報処理システム１０により実行される情報処理について説明する。なお、この処理は、例えば、情報処理部１２の図示せぬ電源がオンされたとき開始され、電源がオフされたとき終了する。

ステップＳ１において、指示対象検出部３１は、ユーザが指差しているか否かを判定する。具体的には、指示対象検出部３１は、センサ部２２からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行う。なお、ジェスチャの検出方法には、任意の方法を採用することができる。そして、指示対象検出部３１は、検出したジェスチャに基づいて、ユーザが指差しているか否かを判定する。ステップＳ１の判定処理は、ユーザが指差していると判定されるまで、例えば、所定の間隔で繰り返し実行される。そして、ユーザが指差していると判定された場合、処理はステップＳ２に進む。

ステップＳ２において、情報処理システム１０は、指差しモード処理を実行する。ここで、図３のフローチャートを参照して、指差しモード処理の詳細について説明する。

ステップＳ５１において、情報処理部１２は、指示方向情報取得処理を実行する。ここで、図４のフローチャートを参照して、指示方向情報取得処理の詳細について説明する。

ステップＳ１０１において、物体検出部３２は、指示方向画像内の物体を検出する。具体的には、物体検出部３２は、撮影部２１から指示方向画像を取得し、画像認識を行うことにより、指示方向画像内の物体、すなわち、ユーザが指により指した方向の所定の範囲内に存在する物体を検出する。また、物体検出部３２は、検出した物体の指示方向画像内の位置及びサイズ、物体の種類、物体の視覚コンテンツ、物体の視覚的な特徴（例えば、色、形等）等を検出する。さらに、物体検出部３２は、視覚コンテンツが表す情報の認識を行う。例えば、物体検出部３２は、視覚コンテンツに含まれる画像、文字列、マーク、メッセージ等の具体的な内容を認識する。

なお、物体検出部３２の検出方法には、任意の方法を採用することができる。

また、以下、図５に模式的に示される繁華街の風景のうち範囲Ｄ１内の画像が指示方向画像として得られた場合について説明する。なお、この図では、ビルの看板等の図示が省略されている。

図６は、図５の範囲Ｄ１内の指示方向画像１２１の具体例を模式的に示している。指示方向画像１２１には、看板１３１、看板１３２、窓１３３、及び、看板１３４乃至看板１３８が写っている。なお、指示方向画像１２１はモノクロで示されているが、実際には各物体には色が付いている。各物体の主要な部分の色については後述する。

看板１３１の右には、看板１３２、看板１３５、看板１３８が垂直方向に並んでいる。看板１３２の右には、窓１３３、看板１３４が水平方向に並んでいる。看板１３５の右には、看板１３６、看板１３７が水平方向に並んでいる。窓１３３と看板１３６は、垂直方向に並んでいる。看板１３４と看板１３７は、垂直方向に並んでいる。

看板１３１は、長方形であり、緑の背景の上に、白の韓国語の文字列が表示されている。韓国語の文字列は、”当ビル６階”を意味する。

看板１３２は、長方形であり、青の背景の上に、白の韓国語の文字列が表示されている。韓国語の文字列は、”家庭料理の味”を意味する。

窓１３３は、ほぼ正方形であり、枠の色はグレーである。

看板１３４は、長方形であり、白の背景に、胴体が黄色の犬の画像（絵）が表示されている。

看板１３５乃至看板１３７は、それぞれ楕円形であり、青の背景の上に、白の韓国語の文字列が表示されている。看板１３５の韓国語の文字列は、”レストラン”を意味する。看板１３６の韓国語の文字列は、”スポーツ用品”を意味する。看板１３７の韓国語の文字列は、”ペットショップ”を意味する。

看板１３８は、長方形であり、黄色の背景の上に、黒の韓国語の文字列が表示されている。韓国語の文字列は、”当ビル５階”を意味する。

なお、以下、図６の指示方向画像１２１が得られた場合について、各処理の具体例を説明する。

ステップＳ１０２において、指示対象検出部３１は、ユーザが指している対象（指示対象）を検出する。例えば、指示対象検出部３１は、指示方向画像の中央に物体検出部３２により検出された物体が存在する場合、その物体を指示対象として検出する。一方、指示対象検出部３１は、指示方向画像の中央に物体検出部３２により検出された物体が存在しない場合、指示方向画像の中心に最も近い物体を指示対象として検出する。

例えば、図７に示されるように、指示方向画像１２１において、中央の領域Ｃ１に看板１３５が存在している。従って、看板１３５が、指示対象として検出される。

ステップＳ１０３において、情報生成部３４は、指示方向情報リストを生成する。指示方向情報リストは、指示方向画像において検出された各物体に関する情報をリストにしたものである。

図８は、図６の指示方向画像１２１に基づいて生成される指示方向情報リストの例を示している。

指示方向情報リストは、ＩＤ、位置、サイズ、物体の種類、コンテンツの種類、詳細情報、隣接する物体の項目を含んでいる。詳細情報は、コンテンツ情報、翻訳情報、前景色、背景色、形状の項目を含んでいる。

ＩＤは、各物体を一意に識別するために各物体に付与される。この例では、看板１３１、看板１３２、窓１３３、看板１３４乃至１３８に、ＩＤ１乃至ＩＤ８がそれぞれ付与されている。

位置は、各物体の指示方向画像内の位置を示す。例えば、指示方向画像内における各物体の中心の座標が設定される。

サイズは、各物体の指示方向画像内のサイズを示す。例えば、指示方向画像内における各物体の垂直方向の長さの最大値、及び、水平方向の長さの最大値が設定される。

物体の種類は、物体検出部３２により検出された物体の種類を示す。例えば、看板１３１、看板１３２及び看板１３４乃至１３８の物体の種類は”看板”となり、窓１３３の物体の種類は”窓”となる。

コンテンツの種類は、基本的に、物体検出部３２により検出された各物体の視覚コンテンツの種類を示す。ただし、視覚コンテンツを有していない物体については、視覚コンテンツの種類は”物体”に設定される。例えば、看板１３１、看板１３２、及び、看板１３８のコンテンツの種類は”文”となる。また、例えば、看板１３５乃至看板１３７のコンテンツの種類は”単語”となる。なお、視覚コンテンツに含まれる単語が１つのみの場合、コンテンツの種類は”単語”に設定され、視覚コンテンツに含まれる単語が２つ以上の場合、コンテンツの種類は”文”に設定される。さらに、例えば、看板１３４のコンテンツの種類は”画像”となる。窓１３３は、視覚コンテンツを有していないため、コンテンツの種類は”物体”に設定される。

コンテンツ情報には、コンテンツの種類が”物体”である物体の場合、すなわち、視覚コンテンツを有していない物体の場合、物体の種類が設定される。一方、コンテンツの種類が”物体”以外の物体の場合、すなわち、視覚コンテンツを有している物体の場合、視覚コンテンツの内容が設定される。

例えば、看板１３４は、視覚コンテンツとして画像を有しているので、画像の内容である”犬”がコンテンツ情報に設定される。窓１３３は、視覚コンテンツを有していないので、物体の種類である”窓”がコンテンツ情報に設定される。看板１３１、看板１３２、及び、看板１３５乃至看板１３８は、視覚コンテンツとして文又は単語を有しているので、その文又は単語が原語（この例の場合、韓国語）のままコンテンツ情報に設定される。すなわち、本明細書において、看板１３１、看板１３２、及び、看板１３５乃至看板１３８のコンテンツ情報は、それぞれ”看板１３１の原語情報”、”看板１３２の原語情報”、”看板１３５の原語情報”、”看板１３６の原語情報”、”看板１３７の原語情報”、”看板１３８の原語情報”として定義されると見做されてよい。

翻訳情報には、翻訳部３３がコンテンツ情報をユーザに通知する言語（以下、ユーザ言語と称する）に翻訳した情報が設定される。ここで、ユーザ言語は、ユーザ音声の言語と同一であると見做されてよい。

前景色には、各物体の前景に含まれる色のうち特徴的な色が設定される。例えば、看板１３１、看板１３２、及び、看板１３５乃至看板１３８の場合、各看板に表示されている文字の色が設定される。窓１３３の場合、窓の色である”透明”が設定される。看板１３４の場合、犬の画像の主要な色である”黄”が設定される。

背景色には、各物体の背景に含まれる色のうち特徴的な色が設定される。例えば、看板１３１、看板１３２、及び、看板１３４乃至看板１３８の場合、各看板の背景の主要な色が設定される。窓１３３の場合、例えば、窓１３３のフレームの色である”グレー”が設定される。

形状には、各物体の形状が設定される。

隣接する物体には、指示方向画像において各物体の上、下、左、右に隣接する物体のＩＤが設定される。例えば、ＩＤ５の看板１３５の上下左右には、それぞれ、看板１３２、看板１３８、看板１３１、看板１３６が隣接しているので、隣接する物体の上、下、左、右には、それぞれＩＤ２、ＩＤ８、ＩＤ１、ＩＤ６が設定されている。

その後、指示方向情報取得処理は終了する。

図３に戻り、ステップＳ５２において、情報生成部３４は、付加情報生成処理を実行する。ここで、図９のフローチャートを参照して、付加情報生成処理の詳細について説明する。

ステップＳ１５１において、情報生成部３４は、指示方向情報リストに登録されている物体のうち、まだ付加情報を生成していない物体を１つ選択する。

ステップＳ１５２において、情報生成部３４は、選択した物体に適したテンプレートを選択する。

ここで、テンプレートとは、付加情報を機械的に生成するためのものであり、例えば、物体の種類毎、又は、物体の種類とコンテンツの種類の組み合わせ毎に予め準備されている。

例えば、物体の種類が看板である場合、「”背景色”の背景に”前景色”の”コンテンツの種類”が表示されている”形状”の看板」というテンプレートが用いられる。

また、例えば、物体の種類が窓である場合、「”前景色”で”背景色”の枠を有する”形状”の窓」というテンプレートが用いられる。

なお、各テンプレートの”コンテンツの種類”、”前景色”、”背景色”、”形状”には、指示方向情報リストの対応する項目のデータが当てはめられる。

ステップＳ１５３において、情報生成部３４は、選択したテンプレートに基づいて付加情報を生成する。具体的には、情報生成部３４は、選択したテンプレートに、選択した物体の指示方向情報リストのデータを適用することにより、付加情報を生成する。

図１０は、図８の指示方向情報リストに基づいて生成される付加情報の例を示している。

例えば、ＩＤ１の看板１３１の付加情報は、背景色＝緑、前景色＝白、コンテンツの種類＝文、形状＝長方形なので、「”緑”の背景に”白”の”文”が表示されている”長方形”の看板」となる。ＩＤ３の窓１３３の付加情報は、前景色＝透明、背景色＝グレー、形状＝正方形なので、「”透明”で”グレー”の枠を有する”正方形”の窓」となる。ＩＤ４の看板１３４の付加情報は、背景色＝白、前景色＝黄、コンテンツの種類＝画像、形状＝長方形なので、「”白”の背景に”黄色”の”画像”が表示されている”長方形”の看板」となる。

なお、厳密に言えば、図１０の例において、付加情報は、物体の種類（例えば、看板、窓等）を除く部分となる。

また、この時点で、各物体の付加情報は、各物体単体の視認可能な特徴のみに基づいて生成されたものとなる。すなわち、この時点で、各物体の付加情報は、各物体の色及び形といった視覚的な属性に基づいて生成されたものとなる。

ステップＳ１５４において、情報生成部３４は、全ての物体の付加情報を生成したか否かを判定する。まだ全ての物体の付加情報を生成していないと判定された場合、処理はステップＳ１５１に戻る。

その後、ステップＳ１５４において、全ての物体の付加情報が生成されたと判定されるまで、ステップＳ１５１乃至Ｓ１５４の処理が繰り返し実行される。これにより、指示方向情報リストに登録されている全ての物体の付加情報が生成される。

一方、ステップＳ１５４において、全ての物体の付加情報が生成されたと判定された場合、処理はステップＳ１５５に進む。

ステップＳ１５５において、情報生成部３４は、類似する付加情報が存在するか否かを判定する。類似する付加情報が存在すると判定された場合、処理はステップＳ１５６に進む。

例えば、図１０の例の場合、ＩＤ５乃至ＩＤ７の看板１３５乃至看板１３７の付加情報が一致するため、類似する付加情報が存在すると判定される。

なお、付加情報が完全に一致していないくても、例えば、”前景色”又は”背景色”のみが異なり、その色が類似する場合、或いは、”形状”のみが異なり、その形状が類似する場合等に、類似する付加情報が存在すると判定される。

ステップＳ１５６において、情報生成部３４は、類似する付加情報の組み合わせの中から１組を選択する。すなわち、情報生成部３４は、類似する付加情報の組み合わせが複数組存在する場合、その中から１組選択する。一方、情報生成部３４は、類似する付加情報の組み合わせが１組のみである場合、その組み合わせを選択する。

ステップＳ１５７において、情報生成部３４は、類似する付加情報を区別するための情報を付加する。

例えば、情報生成部３４は、各物体の位置に基づく情報を付加することにより、類似する付加情報を非類似とする。例えば、情報生成部３４は、「”付加情報”のうち、”方向”から”順番”番目の”物体の種類”」というテンプレートを用いて、類似する各付加情報に位置情報を付加する。

なお、このテンプレートの”付加情報”には、各物体の新たに情報を付加する前の付加情報が当てはめられる。”方向”及び”順番”は、指示方向情報リストの”隣接する物体”のデータに基づいて設定される。”物体の種類”には、指示方向情報リストの”物体の種類”のデータが当てはめられる。

図１１は、図１０の付加情報に位置情報を付加することにより、ＩＤ５乃至ＩＤ７の看板１３５乃至看板１３７の付加情報を非類似にするようにした例を示している。

例えば、付加情報が類似する看板１３５乃至看板１３７は、水平方向に並んでいる。そして、看板１３５乃至看板１３７のうち、看板１３５は、左から１番目の看板であり、看板１３６は、左から２番目の看板であり、看板１３７は、左から３番目の看板である。

従って、上記のテンプレートに基づいて、看板１３５の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”左”から”１”番目の”看板”」に更新される。看板１３６の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”左”から”２”番目の”看板”」に更新される。看板１３７の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”左”から”３”番目の”看板”」に更新される。

或いは、例えば、情報生成部３４は、各物体の周囲の視認可能な特徴を示す情報を付加することにより、付加情報を非類似とする。例えば、情報生成部３４は、「”付加情報”のうち、”方向”に”隣接する物体に関する情報”がある”物体の種類”」というテンプレートを用いて、類似する各付加情報に、各物体に隣接する物体に関する情報を付加する。

なお、このテンプレートの”付加情報”には、各物体の新たに情報を付加する前の付加情報が当てはめられる。”方向”は、指示方向情報リストの”隣接する物体”のデータに基づいて設定される。”隣接する物体に関する情報”は、各物体に隣接する物体の種類や特徴等を表し、指示方向情報リストに登録されている周囲の物体の”物体の種類”、”コンテンツの種類”、”前景色”、”背景色”、及び、”形状”のうち１つ以上の組み合わせに基づいて設定される。なお、”隣接する物体に関する情報”には、各物体に隣接する物体のうち特に視覚的に特徴のある物体に関する情報を設定することが望ましい。”物体の種類”には、指示方向情報リストの”物体の種類”のデータが当てはめられる。

図１２は、図１０の付加情報に各物体に隣接する物体に関する情報を付加することにより、ＩＤ５乃至ＩＤ７の看板１３５乃至看板１３７の付加情報を非類似にするようにした例を示している。

例えば、看板１３５の左には、背景色が緑の看板１３１がある。そこで、看板１３５の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”左”に”緑の看板”がある”看板”」に更新される。

また、例えば、看板１３６の上には、窓１３３があり、他に窓は存在しない。そこで、看板１３６の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”上”に”窓”がある”看板”」に更新される。

さらに、例えば、看板１３７の上には、黄色の犬の画像が表示された看板１３４がある。そこで、看板１３７の付加情報は、「”青”の背景に”白”の”単語”が表示されている”楕円”の看板のうち、”上”に”黄色の画像”がある”看板”」に更新される。

なお、厳密に言えば、図１１及び図１２の例において、付加情報は、物体の種類（例えば、看板、窓等）を除く部分となる。

このように、看板１３５乃至看板１３７のように、物体単体の視認可能な特徴と物体の周囲の視認可能な特徴とが類似する場合、物体単体の視認可能な特徴に加えて、物体の位置及び物体の周囲の視認可能な特徴のうち少なくとも１つに基づいて付加情報が生成される。一方、看板１３１、看板１３２、窓１３３、看板１３４、及び、看板１３８のように、物体単体の視認可能な特徴と物体の周囲の視認可能な特徴とが類似しない場合、物体単体の視認可能な特徴のみに基づいて付加情報が生成される。

図９に戻り、ステップＳ１５７の処理の後、処理はステップＳ１５５に戻る。

その後、ステップＳ１５５において、類似する付加情報が存在しないと判定されるまで、ステップＳ１５５乃至Ｓ１５７の処理が繰り返し実行される。

一方、ステップＳ１５５において、類似する付加情報が存在しないと判定された場合、付加情報生成処理は終了する。

図３に戻り、ステップＳ５３において、指示対象検出部３１は、ユーザが指している対象が定まっているか否かを判定する。例えば、指示対象検出部３１は、指示対象が変わらない状態が継続している時間が所定の時間未満の場合、ユーザが指している対象がまだ定まっていないと判定し、処理はステップＳ５４に進む。

ステップＳ５４において、指示対象検出部３１は、指差しモードの解除が指示されたか否かを判定する。具体的には、指示対象検出部３１は、図２のステップＳ１の処理と同様に、センサ部２２からのセンサ信号に基づいて、ユーザの指によるジェスチャの検出を行い、指差しモードの解除を指示するジェスチャが行われているか否かを検出する。指差しモードの解除を指示するジェスチャは、例えば、指差しのジェスチャを止めるだけでもよいし、或いは、所定の指の形を作るようにしてもよい。そして、指示対象検出部３１は、指差しモードの解除を指示するジェスチャが行われていない場合、指差しモードの解除が指示されていないと判定し、処理はステップＳ５１に戻る。

その後、ステップＳ５３において、ユーザが指している対象が定まっていると判定されるか、ステップＳ５４において、指差しモードの解除が指示されたと判定されるまで、ステップＳ５１乃至Ｓ５４の処理が繰り返し実行される。

一方、ステップＳ５３において、例えば、指示対象検出部３１は、指示対象が変わらない状態が継続している時間が所定の時間以上である場合、ユーザが指している対象が定まっていると判定し、処理はステップＳ５５に進む。

ステップＳ５５において、出力制御部３５は、ユーザが指している対象の説明情報を生成する。例えば、出力制御部３５は、ユーザが指している対象（指示対象）が視覚コンテンツを有しているか否かにより、異なるテンプレートを用いて説明情報を生成する。

例えば、出力制御部３５は、指示対象のコンテンツの種類が”物体”である場合、すなわち、指示対象が視覚コンテンツを有していない場合、「”付加情報”です」というテンプレートを用いて、説明情報を生成する。

なお、このテンプレートの”付加情報”には、各物体の付加情報が当てはめられる。

例えば、指示対象が窓１３３である場合、窓１３３のコンテンツの種類は”物体”であるので、このテンプレートが用いられる。そして、図１１又は図１２のＩＤ３の窓１３３に対応する付加情報を用いて、「”透明で枠がグレーの正方形の窓”です」という説明情報が生成される。

また、例えば、出力制御部３５は、指示対象のコンテンツの種類が”物体”以外である場合、すなわち、指示対象が視覚コンテンツを有している場合、「”付加情報”は”翻訳情報”です」というテンプレートに基づいて、説明情報を生成する。

なお、このテンプレートの”付加情報”には、各物体の付加情報が当てはめられる。”翻訳情報”には、指示方向情報リストの”翻訳情報”のデータが当てはめられる。

例えば、指示対象が看板１３５である場合、看板１３５のコンテンツの種類は”単語”であるので、このテンプレートが用いられる。そして、図８のＩＤ５の翻訳情報のデータ、及び、図１１のＩＤ５の付加情報を用いて、「”青の背景に白の単語が表示されている楕円の看板のうち、左から１番目の看板”は”レストラン”です」という説明情報が生成される。或いは、図８のＩＤ５の翻訳情報のデータ、及び、図１２のＩＤ５の付加情報を用いて、「”青の背景に白の単語が表示されている楕円の看板のうち、左に緑の看板がある看板”は”レストラン”です」という説明情報が生成される。

ステップＳ５６において、出力部１３は、出力制御部３５の制御の下に、ステップＳ５５の処理で生成された説明情報の音声を出力する。

これにより、ユーザは、付加情報に基づいて、情報処理システム１０が認識している指示対象を正確に把握することができ、自分が指していると認識している対象と一致するか否かを正確に判断することができる。また、ユーザは、現在の指示対象に理解できない韓国語で情報が表示されていても、その情報を自分が理解できる言語、すなわちユーザ言語で得ることができる。

例えば、付加情報が付加されないと、ユーザは、看板の文字列を翻訳した音声が出力されても、その翻訳した内容が、所望の看板のものであるかを確信できないおそれがある。また、例えば、ユーザは、所望の看板と別の看板の文字列を翻訳した音声が出力されても、気付かないおそれがある。

一方、付加情報を付加することにより、ユーザは、看板の文字列を翻訳した音声の内容が、所望の看板のものであるか否かを正確に判断することができる。また、例えば、ユーザは、所望の看板と別の看板の文字列を翻訳した音声が出力されても、容易に気付くことができる。

その後、指差しモード処理は終了する。

一方、ステップＳ５４において、指差しモードの解除が指示されたと判定された場合、ステップＳ５５及びＳ５６の処理はスキップされ、指差しモード処理は終了する。

図２に戻り、その後、処理はステップＳ１に戻り、ステップＳ１以降の処理が実行される。

以上のように、ユーザは、所望の対象を指差すことにより、所望の対象の正確なコンテンツ情報を簡単に取得することができる。

＜２．変形例＞
以下、上述した本技術の実施の形態の変形例について説明する。

｛本技術の適用範囲に関する変形例｝
本技術の適用範囲は、上述した例に限定されるものではない。

例えば、本技術において、指示対象となる物体は、必ずしも１つの物体全体である必要はなく、物体の一部であってもよい。例えば、１つの看板に複数の文字列や画像が表示されている場合、そのうちの一部を指示対象に指定できるようにしてもよい。また、例えば、ビル等の大きな対象の一部を指示対象に指定できるようにしてもよい。

また、以上の説明では、本技術を適用する状況として、遠方の看板等を指す場合を例に挙げたが、本技術は、指示オブジェクトを用いて非接触で所望の位置を指す様々な状況において適用することが可能である。例えば、博物館等のショーケース内の所望の位置を指す場合、立ち入り規制により近づけない場所内の所望の位置を指す場合、展望台から見える風景の所望の位置を指す場合、汚染等により直接触れることができない物体の所望の位置を指す場合、接触が禁止されている物体の所望の位置を指す場合、講演会等で離れた位置から所望の位置を指す場合等が挙げられる。

さらに、本技術は、例えば、直接対象に触れて所望の位置を指す場合にも適用することができる。例えば、ディスプレイ等の表示装置の画面に直接指等を接触して、画面に表示されている画像内の所望の位置を指す場合にも、本技術を適用することができる。特に、画像が小さいため個々の対象を正確に指すことが困難な場合に、本技術を適用する効果は大きくなる。

｛システムの構成例に関する変形例｝
図１の情報処理システム１０の構成例は、その一例であり、必要に応じて変更することが可能である。

例えば、情報処理部１２の一部の機能を、情報取得部１１又は出力部１３に設けるようにしてもよい。また、例えば、情報取得部１１、情報処理部１２、及び、出力部１３のうち２つ以上を一体化するようにしてもよい。さらに、例えば、情報処理システム１０の構成要素を、情報取得部１１、情報処理部１２、及び、出力部１３と異なる組み合わせにより構成するようにしてもよい。

また、例えば、情報処理システム１０の一部の機能を外部に設けるようにしてもよい。

｛付加情報に関する変形例｝
付加情報の生成方法は、上述した例に限定されるものではなく、他の方法を採用することも可能である。

例えば、テンプレートを用いずに、指示対象と周囲の視認可能な特徴とを比較して、付加情報の情報量を制御するようにしてもよい。例えば、指示対象を周囲と識別できる程度に付加情報の情報量を制御するようにしてもよい。

具体的には、例えば、指示対象単体の視認可能な特徴に基づいて付加情報を生成する場合、指示対象単体の視認可能な特徴のうち指示対象の周囲の視認可能な特徴と異なる特徴を、優先して付加情報に含めるようにしてもよい。特に、指示対象単体の視認可能な特徴のうち指示対象の周囲との視覚的な差が大きな特徴を、優先して付加情報に含めるようにしてもよい。例えば、指示対象の色と類似する色を有する物体が周囲に存在しない場合、指示対象の色のみを付加情報に含めるようにしてもよい。また、指示対象の色と形の組み合わせに類似する色と形の組み合わせを有する物体が周囲に存在しない場合、指示対象の色及び形のみを付加情報に含めるようにしてもよい。

また、指示対象の周囲の視認可能な特徴を付加情報に追加する場合、指示対象の周囲の視認可能な特徴のうち、他と比べて視覚的な差が大きい特徴を優先して付加情報に追加するようにしてもよい。

また、例えば、指示対象単体の視認可能な特徴を用いずに、指示対象の周囲の視認可能な特徴のみに基づいて付加情報を生成するようにしてもよい。例えば、指示対象である物体Ａの左に視覚的に目立つ物体Ｂが存在する場合、「左に物体Ｂがある物体Ａ」のような付加情報を生成するようにしてもよい。

また、上述したように、付加情報に含まれる情報として、指示対象単体の視認可能な特徴、指示対象の位置、及び、指示対象の周囲の視認可能な特徴が挙げられるが、付加情報に含める情報の種類は、上述した例に限定されるものではない。

例えば、指示対象単体の視認可能な特徴として、指示対象の視覚的な属性（例えば、色、形、模様等）、指示対象の動き、視覚的な属性の変化、材質等が挙げられる。指示対象の位置として、例えば、指示対象の絶対的な位置、又は、指示対象と周囲の物体等との相対的な位置が挙げられる。指示対象の周囲の視認可能な特徴として、例えば、指示対象の周囲の物体及びその視認可能な特徴、指示対象の周囲の視認可能な状況等が挙げられる。例えば、「行列ができているレストラン」の「行列ができている」の部分は、レストラン単体の視認可能な特徴ではなく、レストランの周囲の視認可能な特徴に分類される。

｛指示対象の検出方法に関する変形例｝
以上の説明では、ユーザの指に装着した情報取得部１１の撮影部２１により撮影された指示方向画像に基づいて、ユーザの指により指されている指示対象を検出する例を示したが、他の方法により指示対象を検出するようにしてもよい。

例えば、ユーザが指している方向を示す指示方向画像を撮影する撮影部をユーザの指以外の部位（例えば、頭部等）に装着するとともに、ユーザを撮影する撮影部を別に設けるようにしてもよい。この場合、例えば、指示対象検出部３１は、ユーザを撮影した画像に基づいて、ユーザの指の位置や向き等を検出することにより、三次元空間においてユーザが指している方向（以下、空間指示方向と称する）を検出する。また、指示対象検出部３１は、空間指示方向に基づいて、指示方向画像内においてユーザが指している指示対象を検出する。

なお、指示方向画像を撮影する撮影部をユーザの指以外の部位に装着した場合、撮影方向とユーザが指している方向が一致しない場合が生じる。これに対して、例えば、指示対象検出部３１は、ＳＬＡＭ（Simultaneous Localization and Mapping）を用いて、指示方向画像に基づいてユーザの周辺の空間マップを作成し、空間マップ及び空間指示方向に基づいて、指示対象を検出することが可能である。

また、例えば、指示方向画像を撮影する撮影部を、ユーザに装着せずに、ユーザとは別に設けるようにしてもよい。

｛指示オブジェクトに関する変形例｝
本技術に適用可能な指示オブジェクトには、所望の位置を指すことができるものであれば任意のものを採用することができる。例えば、ユーザの指以外の体の一部、例えば、目（視線）、頭部、顔、顔の一部、腕、腕の一部等を指示オブジェクトに用い、それらの部位を用いたジェスチャ等により、所望の位置を指すようにしてもよい。また、例えば、レーザポインタ等のポインティングデバイスやＶＲ（Virtual Reality）デバイス等のデバイスを指示オブジェクトに用いるようにしてもよい。なお、ＶＲデバイスを指示オブジェクトに用いる場合、例えば、ＶＲデバイスの向きにより所望の位置を指すことができる。

｛指示方向情報リストに関する変形例｝
指示方向情報リストの項目は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。例えば、詳細情報に、各物体の色、形以外の視覚的な特徴（例えば、模様、素材等）を含めるようにしてもよい。

また、物体の種類やコンテンツの種類の分類方法は、上述した例に限定されるものではなく、必要に応じて変更することが可能である。

また、例えば、指示方向情報リストに斜め方向に隣接する物体に関する情報を追加して、斜め方向に隣接する物体に関する情報を付加情報に加えるようにしてもよい。

｛その他の変形例｝
以上の説明では、指示対象のコンテンツ情報を韓国語からユーザ言語に翻訳する例を示したが、翻訳する言語の組み合わせは、この例に限定されるものではない。また、例えば、翻訳先の言語（ユーザに通知する言語）をユーザが設定できるようにしてもよい。

また、例えば、付加情報、説明情報等をいったん指示対象に示される視覚コンテンツに含まれる原語（例えば、韓国語）で生成し、それから説明情報を通知する言語（例えば、ユーザ言語）に翻訳するようにしてもよい。

さらに、例えば、説明情報を音声ではなく、例えば、説明情報のテキストデータをディスプレイ等に表示するようにしてもよい。

｛コンピュータの構成例｝
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）３０１，ＲＯＭ（Read Only Memory）３０２，ＲＡＭ（Random Access Memory）３０３は、バス３０４により相互に接続されている。

バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

入力部３０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部３０７は、ディスプレイ、スピーカなどよりなる。記憶部３０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア３１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、ＲＡＭ３０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ＲＯＭ３０２や記憶部３０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

また、例えば、本技術は以下のような構成も取ることができる。
（１）
三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出部と、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成部と、
前記説明情報の音声の出力を制御する出力制御部と
を備える情報処理装置。
（２）
前記情報生成部は、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とを比較して、前記付加情報の情報量を制御する
前記（１）に記載の情報処理装置。
（３）
前記情報生成部は、前記指示対象を周囲と識別できる程度に前記付加情報の情報量を制御する
前記（２）に記載の情報処理装置。
（４）
前記情報生成部は、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似しない場合、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成し、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似する場合、前記指示対象単体の視認可能な特徴に加えて、前記指示対象の位置及び前記指示対象の周囲の視認可能な特徴のうち少なくとも１つに基づいて前記付加情報を生成する
前記（３）に記載の情報処理装置。
（５）
前記情報生成部は、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成する場合、前記指示対象単体の視認可能な特徴のうち前記指示対象の周囲の視認可能な特徴と異なる特徴を優先して前記付加情報に含める
前記（４）に記載の情報処理装置。
（６）
前記指示対象単体の視認可能な特徴は、前記指示対象の視覚的な属性を含む
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記コンテンツ情報を所定の言語に翻訳する翻訳部を
さらに備え、
前記出力制御部は、前記所定の言語の前記説明情報の音声の出力を制御する
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示す
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記指示オブジェクトは、ユーザの体の一部である
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記指示対象の周囲を撮影した画像内の物体の検出を行う物体検出部を
さらに備え、
前記指示対象検出部は、前記画像内の物体の中から前記指示対象を検出する
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、
前記説明情報の音声の出力を制御する出力制御ステップと
を含む情報処理方法。
（１２）
三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、
前記説明情報の音声の出力を制御する出力制御ステップと
を含む処理をコンピュータに実行させるためのプログラム。

１０情報処理システム，１１情報取得部，１２情報処理部，１３出力部，２１撮影部，２２センサ部，３１指示対象検出部，３２物体検出部，３３翻訳部，３４情報生成部，３５出力制御部

Claims

三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出部と、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成部と、
前記説明情報の音声の出力を制御する出力制御部と
を備える情報処理装置。
前記情報生成部は、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とを比較して、前記付加情報の情報量を制御する
請求項１に記載の情報処理装置。
前記情報生成部は、前記指示対象を周囲と識別できる程度に前記付加情報の情報量を制御する
請求項２に記載の情報処理装置。
前記情報生成部は、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似しない場合、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成し、前記指示対象単体の視認可能な特徴と前記指示対象の周囲の視認可能な特徴とが類似する場合、前記指示対象単体の視認可能な特徴に加えて、前記指示対象の位置及び前記指示対象の周囲の視認可能な特徴のうち少なくとも１つに基づいて前記付加情報を生成する
請求項３に記載の情報処理装置。
前記情報生成部は、前記指示対象単体の視認可能な特徴のみに基づいて前記付加情報を生成する場合、前記指示対象単体の視認可能な特徴のうち前記指示対象の周囲の視認可能な特徴と異なる特徴を優先して前記付加情報に含める
請求項４に記載の情報処理装置。
前記指示対象単体の視認可能な特徴は、前記指示対象の視覚的な属性を含む
請求項１に記載の情報処理装置。
前記コンテンツ情報を所定の言語に翻訳する翻訳部を
さらに備え、
前記出力制御部は、前記所定の言語の前記説明情報の音声の出力を制御する
請求項１に記載の情報処理装置。
前記コンテンツ情報は、前記指示対象の名称、前記指示対象の種類、及び、前記指示対象が視覚的に表しているもののうち少なくとも１つを示す
請求項１に記載の情報処理装置。
前記指示オブジェクトは、ユーザの体の一部である
請求項１に記載の情報処理装置。
前記指示対象の周囲を撮影した画像内の物体の検出を行う物体検出部を
さらに備え、
前記指示対象検出部は、前記画像内の物体の中から前記指示対象を検出する
請求項１に記載の情報処理装置。
三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、
前記説明情報の音声の出力を制御する出力制御ステップと
を含む情報処理方法。
三次元空間において指示オブジェクトにより指されている対象である指示対象を検出する指示対象検出ステップと、
前記指示対象の視認可能なコンテンツを示すコンテンツ情報、及び、前記指示対象に関連する視認可能な特徴を示す付加情報を含む説明情報を生成する情報生成ステップと、
前記説明情報の音声の出力を制御する出力制御ステップと
を含む処理をコンピュータに実行させるためのプログラム。