WO2019077897A1

WO2019077897A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2019077897A1
Application number: PCT/JP2018/032698
Authority: WO
Inventors: 誠司鈴木; 健太郎井田
Original assignee: ソニー株式会社
Priority date: 2017-10-17
Filing date: 2018-09-04
Publication date: 2019-04-25
Also published as: US20200258515A1; US11373650B2

Abstract

【課題】具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な情報処理装置、情報処理方法、およびプログラムを提供する。【解決手段】空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　近年、テレビ受像機（以下、単にＴＶと称する）およびプロジェクタ等の固定型表示機器、ならびにスマートフォンおよびノートＰＣ（Personal　Computer）等のモバイル型表示機器といった多様な表示機器が開発されている。また、表示機器の開発に伴い、装置を制御するためのインタフェースや操作方法も多様化してきている。

　例えば、下記特許文献１では、表示内容を壁面に投影し、投影面に対するユーザのジェスチャ、例えばユーザの腕および手の姿勢から認識されるジェスチャに対応する操作、例えば位置を指定するポインティング操作を検出し、ポインティング操作によって指定される位置にカーソルを表示させることが開示されている。

　また、下記特許文献２では、壁面やテーブルに設置された大型ディスプレイに対するユーザの位置を推定し、推定したユーザの位置に応じて新たな表示オブジェクトをユーザの近傍に表示させる制御について開示されている。

　また、下記特許文献３では、様々な入出力デバイスを通じて利用者とインタラクションを行うマルチモーダル対話システムが開示されている。

特開２０１６－５３７６９号公報特開２０１６－９２１４号公報特開２００４－１９２６５３号公報

　しかしながら、上記特許文献１および特許文献２では、ユーザによる指さし等のジェスチャや、ユーザの位置といった単一モーダルによりＵＩ（ユーザインタフェース）の表示位置を制御しており、人間同士の対話のような自然な話し方で指示を行うことは困難であった。

　また、特許文献３では、マルチモーダルにより、擬人化されたエージェント人物の画像情報の表示位置を決めているが、音声発話された処理コマンドから決定情報が抽出できない場合について考慮されていなかった。

　そこで、本開示では、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置を提案する。

　本開示によれば、プロセッサが、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、を含む、情報処理方法を提案する。

　本開示によれば、コンピュータを、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラムを提案する。

　以上説明したように本開示によれば、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態に係る情報処理システムの構成の一例を示すブロック図である。本実施形態に係る情報処理システムにより実行される情報処理の流れの一例を示すフローチャートである。図３に示す操作解析処理の流れの一例を示すフローチャートである。本実施形態に係る処理コマンドの曖昧項目の内容を異なるモーダルを活用して推定する方法の一例について説明する図である。本実施形態に係る処理コマンドの項目のうち移動先を具体的に発話した場合の一例を示す図である。本実施形態に係るＭＯＶＥコマンドの発行による表示画像の移動の一例について示す図である。本実施形態に係る表示画像の移動の際における形状の変化について示す遷移図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、説明は以下の順序で行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．構成例
　　２－１．出力装置２００
　　２－２．センサ装置３００
　　２－３．情報処理装置１００
　３．動作処理
　４．変形例
　５．ハードウェア構成
　６．まとめ

　＜＜１．本開示の一実施形態による情報処理システムの概要＞＞
　図１は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態による情報処理システムは、情報処理装置１００（図１では不図示）、出力装置２００（図１では、一例としてプロジェクタ２１０とＴＶ２２０を図示）及びセンサ装置３００を含む。

　センサ装置３００は、様々な情報をセンシングする装置である。例えば、センサ装置３００は、カメラ、デプスセンサ、及びマイクロフォン等を含み、ユーザ及びユーザがいる空間に関する情報をセンシングする。例えば、センサ装置３００は、ユーザの位置、姿勢、動き、視線、部屋の形状、及び家具の配置等をセンシングする。

　出力装置２００は、情報処理装置１００からの様々な情報を出力する装置であって、例えばプロジェクタ２１０やＴＶ２２０を想定する。プロジェクタ２１０は、センサ装置３００がセンシングする空間に含まれる壁、床、テーブル、又はその他家具等の任意の場所（即ち、領域）を投影場所（即ち、投影面又は投影領域）として情報を投影可能である。なお、投影場所は、平面に限定されず、曲面であってもよいし、複数の面に分かれていてもよい。また、プロジェクタ２１０は、空間内のどこへでも投影できるよう、複数台、若しくは所謂ムービングプロジェクタにより実現される。

　出力装置２００及びセンサ装置３００は、単数であってもよいし複数であってもよい。

　図１に示す例では、プロジェクタ２１０により、テーブル３０の天面に表示画像１０が表示されている。表示画像１０は、ユーザ入力に対するアプリケーションからのインタラクションを示す表示オブジェクトであって、例えば静止画、動画（映像）、メニュー画面又はコントロール画面といった各種ＵＩ等である。

　表示画像１０に対するユーザによる操作入力はセンサ装置３００により検出されるため、ユーザは、表示画像１０上で操作体、例えば手を接触又は近接させて動かすことで、表示画像１０に対し各種の操作入力を行うことができる。

　表示画像１０の表示位置は、テーブル３０の天面に限定されず、空間内における壁、床、又は家具等の任意の場所であってよく、自動的に、またはユーザによる指示に従って制御される。

　ここで、表示位置の制御を単一モーダルにより制御する場合、ユーザは例えば言葉で明確に表示位置の場所を示す必要があり、人間同士の対話のような自然な話し方で指示することが困難であった。

　そこで、本開示では、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能な仕組みを提案する。

　＜＜２．構成例＞＞
　図２は、本実施形態に係るシステム１の構成の一例を示すブロック図である。図２に示すように、システム１は、情報処理装置１００、出力装置２００及びセンサ装置３００を含む。

　　＜２－１．出力装置２００＞
　出力装置２００は、プロジェクタ２１０、ＴＶ２２０、タブレット２３０、スマートフォン２４０、ＰＣ２５０、スピーカ２６０、及び単一指向性スピーカ２７０を含む。なお、システム１は、出力装置２００として、これらのうち一つ又は複数の組み合わせを含んでも良いし、同一種類の装置を複数含んでも良い。

　プロジェクタ２１０は、空間の任意の場所に画像を投影する投影装置である。プロジェクタ２１０は、例えば固定型の広角プロジェクタであってもよいし、Ｐａｎ／Ｔｉｌｔ駆動型等の投影方向を変更可能な可動部を備えるいわゆるムービングプロジェクタであってもよい。ＴＶ２２０は、テレビジョン放送の電波を受信して、画像及び音声を出力する装置である。タブレット２３０は、典型的にはスマートフォン２４０より大きな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。スマートフォン２４０は、典型的にはタブレット２３０より小さな画面を有する無線通信可能なモバイル機器であり、画像、音声及び振動等を出力可能である。ＰＣ２５０は、固定型のデスクトップＰＣであってもよいし、モバイル型のノートＰＣであってもよく、画像及び音声等を出力可能である。スピーカ２６０は、ＤＡＣ（Digital　Analog　Converter）およびアンプを介して、音声データをアナログ信号に変換し、出力（再生）する。単一指向性スピーカ２７０は、単一の方向に指向性を形成可能なスピーカである。

　出力装置２００は、情報処理装置１００による制御に基づいて情報を出力する。情報処理装置１００は、出力する情報の内容に加えて、出力方法も制御可能である。例えば、情報処理装置１００は、プロジェクタ２１０の投影方向を制御したり、単一指向性スピーカ２７０の指向性を制御したりすることができる。

　なお、出力装置２００は、上述した構成要素以外の任意の出力が可能な構成要素を含んでいてもよい。例えば、出力装置２００は、ＨＭＤ（Head　Mounted　Display）、ＡＲ（Augmented　Reality）グラス、及び時計型デバイス等のウェアラブルデバイスを含んでいてもよい。

　また、出力装置２００は、照明装置、空調装置、又は音楽再生装置等を含んでいてもよい。

　　＜２－２．センサ装置３００＞
　センサ装置３００は、カメラ３１０、デプスセンサ３２０及びマイクロフォン３３０を含む。

　カメラ３１０は、ＲＧＢカメラ等の、レンズ系、駆動系、及び撮像素子を有し、画像（静止画像又は動画像）を撮像する撮像装置である。デプスセンサ３２０は、赤外線測距装置、超音波測距装置、ＬｉＤＡＲ（Laser　Imaging　Detection　and　Ranging）又はステレオカメラ等の深度情報を取得する装置である。マイクロフォン３３０は、周囲の音を収音し、アンプおよびＡＤＣ（Analog　Digital　Converter）を介してデジタル信号に変換した音声データを出力する装置である。マイクロフォン３３０は、アレイマイクであってもよい。

　センサ装置３００は、情報処理装置１００による制御に基づいて情報をセンシングする。例えば、情報処理装置１００は、カメラ３１０のズーム率及び撮像方向を制御することができる。

　なお、センサ装置３００は、上述した構成要素以外の任意のセンシングが可能な構成要素を含んでいてもよい。例えば、センサ装置３００は、マウス、キーボード、タッチパネル、ボタン、スイッチ及びレバー等、ユーザによって情報が入力される装置を含んでいてもよい。また、センサ装置３００は、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、照度センサ、力センサ、超音波センサ、気圧センサ、ガスセンサ（Co2）、サーモカメラ等の各種のセンサを含み得る。

　　＜２－３．情報処理装置１００＞
　情報処理装置１００は、Ｉ／Ｆ（Interface）部１１０、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、機器検出部１５０、記憶部１６０、及び制御部１７０を含む。

　・Ｉ／Ｆ部１１０
　Ｉ／Ｆ部１１０は、情報処理装置１００と他の機器とを接続するための接続装置である。Ｉ／Ｆ部１１０は、例えばＵＳＢ（Universal　Serial　Bus）コネクタ等により実現され、出力装置２００及びセンサ装置３００の各構成要素との間で情報の入出力を行う。

　・ジェスチャ検出部１２０
　ジェスチャ検出部１２０は、センサ装置３００によりセンシングされた情報に基づいてユーザのジェスチャ情報を検出する機能を有する。ジェスチャ情報は、例えばデプスカメラ、サーモカメラ、ＲＧＢカメラ、又は超音波センサ等により検出され得る。ジェスチャ情報は、例えばユーザの手の動き、腕の動き、姿勢（例えばボーン情報）、視線、タッチ操作等の情報である。より具体的には、ジェスチャ検出部１２０は、指差しや頭の動き、視線等による方向を指し示す動作や、壁、床、テーブル、又はその他家具等の投影場所に対するタッチ操作を、ジェスチャ情報として検出する。タッチ操作は、壁、床、又は家具等に投影された表示画像に対するユーザによる操作入力としても検出される。例えばテーブル３０に表示画像１０が表示されている場合、ジェスチャ検出部１２０は、センサ装置３００から入力された撮像画像やデプス情報を解析して表示画面上に位置するユーザの手や指の位置や深度情報（換言すると、三次元情報）を取得し、高さ方向におけるテーブル３０へのユーザの手の接触若しくは近接、及びテーブル３０からの手の離脱を検出する。本明細書では、ユーザが情報に表示画面に手等の操作体を接触又は近接させることを、まとめて単に「接触」とも称する。

　ジェスチャ検出部１２０は、検出したジェスチャ情報を制御部１７０に出力する。

　・ユーザ検出部１３０
　ユーザ検出部１３０は、センサ装置３００によりセンシングされた情報に基づいてユーザに関する情報（ユーザ情報）を検出する機能を有する。

　ユーザ情報は、センサ装置３００によりセンシングされる空間内におけるユーザの位置及び人数を示す情報を含み得る。ユーザの位置及び人数は、サーモカメラ、ＲＧＢカメラ、赤外線センサ又は超音波センサ等により検出され得る。

　ユーザ情報は、ユーザの視線を示す情報を含み得る。ユーザの視線を示す情報は、視点の位置及び視線方向を示す情報を含む。またユーザの視線を示す情報は、ユーザの顔や頭の向きを示す情報であってもよいし、さらに眼球の向きを示す情報であってもよい。ユーザの視線を示す情報は、ＲＧＢカメラ、赤外線カメラ、又はユーザに装着された接眼カメラ等により得られるユーザの目の画像を解析することで検出され得る。

　ユーザ情報は、ユーザの姿勢を示す情報を含み得る。ユーザの姿勢を示す情報は、ＲＧＢカメラ又は赤外線カメラ等により得られる画像を解析することで検出され得る。

　ユーザ情報は、ユーザの発話音声を示す情報を含み得る。ユーザの発話音声を示す情報は、マイクロフォンにより得られる音声情報を解析することで検出され得る。

　ユーザ検出部１３０は、検出したユーザ情報を制御部１７０に出力する。

　・環境検出部１４０
　環境検出部１４０は、センサ装置３００によりセンシングされた情報に基づいて環境情報を検出する機能を有する。環境情報は、ユーザがいる空間に関する情報である。環境情報は多様な情報を含み得る。

　環境情報は、ユーザがいる空間の形状を示す情報を含み得る。空間の形状を示す情報は、例えば、壁面、天井、床、ドア、家具、及び生活用品等の、空間を形成する物体の形状を示す情報を含む。空間の形状を示す情報は、２次元情報であってもよいし、ポイントクラウド等の３次元情報であってもよい。空間の形状を示す情報は、例えば赤外線測距、超音波測距、又はステレオカメラにより得られる深度情報に基づいて検出され得る。

　環境情報は、投影面の状態を示す情報を含み得る。投影面の状態は、例えば投影面の凹凸及び色を意味する。投影面の凹凸は、例えばＬｉＤＡＲにより得られる深度情報に基づいて検出され得る。投影面の色は、例えばＲＧＢカメラにより撮像された画像を解析することで検出され得る。

　環境情報は、投影面の明るさを示す情報を含み得る。投影面の明るさは、照度センサ又はＲＧＢカメラにより検出され得る。

　環境情報は、空間内の物体の位置（三次元位置）を示す情報を含み得る。例えば、部屋の中のコップ、椅子、テーブル、及び電子機器等の位置は、画像認識により検出され得る。また、例えば、部屋の中のスマートフォンの位置は、スマートフォンと無線ＬＡＮのアクセスポイントとの通信に係る電波強度により検出され得る。

　環境情報は、環境音を含み得る。環境音は、マイクロフォンにより検出され得る。

　下記表１に、環境検出部１４０により検出し得る環境情報の一例を示す。環境検出部１４０により検出される物体には、壁や床等の動かない物（位置が変わらない物体）と、家具やドア等の頻繁には動かない物（位置が頻繁には変わらない物体）と、生活用品等の頻繁に動く物（位置が頻繁に変わる物体）とが想定される。不動の物体や、頻繁には動かない物体については、初めに検出した環境情報を記憶して利用するようにし、頻繁に動く物体については定期的に最新の状態を検出するようにしてもよい。

　環境検出部１４０は、検出した環境情報を制御部１７０に出力する。

　機器検出部１５０は、空間内の機器に関する情報（機器情報）を検出する機能を有する。機器情報は、機器の存在及び機器の三次元位置を含み得る。

　情報処理装置１００は、Ｉ／Ｆ部１１０を介して各機器（出力装置２００）と接続する。例えばＩ／Ｆ部１１０は、無線／有線ＬＡＮ（Local　Area　Network）、ＤＬＮＡ（登録商標）（Digital　Living　Network　Alliance）、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＵＳＢ接続、又はその他専用線等により空間内の各機器と接続する。機器検出部１５０は、Ｉ／Ｆ部１１０を介して各機器が接続されることでその機器の存在を把握する。

　機器の三次元位置は、センサ装置３００によりセンシングされた情報に基づいて特定され得る。例えば機器検出部１５０は、機器に設けられた再帰性反射材を、センサ装置３００のＩＲ（infrared）カメラで撮影した赤外線画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、機器に設けられた特定パターン（メーカー名、又は二次元バーコード等）を、センサ装置３００のカメラ（ＲＧＢカメラ）で撮影した撮影画像の解析により抽出し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、機器毎に発信されるユニークな超音波を、センサ装置３００のマイクロフォンで取得し、空間内における機器の位置を特定してもよい。また、機器検出部１５０は、ユーザによる場所指定の動作（指差し、タッチ、視線、又はマーカーを置く等）と登録操作（ＵＩ選択、又は音声発話等）をセンサ装置３００によりセンシングし、空間内における機器の位置を特定してもよい。

　機器検出部１５０は、検出した機器情報を制御部１７０に出力する。

　以上、空間内の人、環境、及び機器に関する情報を検出する機能について説明した。本明細書において、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、及び機器検出部１５０による各情報の検出は、空間認識に相当し、得られた情報（空間の環境センシング処理の結果）は、空間情報とも称す。

　・制御部１７０
　制御部１７０は、各種プログラムに従って情報処理装置１００内の動作全般を制御する。制御部１７０は、表示制御部１７１、音響制御部１７３、及び解析部１７５を含む。表示制御部１７１は、出力装置２００による表示を制御する。音響制御部１７３は、出力装置２００による音声出力を制御する。

　解析部１７５は、空間認識により得られた空間情報（ジェスチャ情報、ユーザ情報、環境情報、及び機器情報）に基づいて、ユーザ操作の解析を行う。具体的には、解析部１７５は、空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、取得した音声発話が空間内の場所を特定する言葉（例えば具体的な場所の名称）を含まない場合、複数種類のセンサによる空間の環境センシング処理の結果に基づいて、処理コマンドにおける空間内の場所を決定する。例えば、解析部１７５は、音声情報、ジェスチャ情報、及び空間内の物体の位置に基づいて、音声発話に含まれる指示代名詞を決定情報へ変換する。空間内の場所に関する制御の処理コマンドとは、空間内の場所において何等かの制御（例えば出力制御）を実行する処理コマンドである。

　また、制御部１７０は、発話者の特定を行う。ユーザ検出部１３０および環境検出部１４０により、空間内の全ユーザの位置や姿勢が定期的に認識されているため、制御部１７０は、マイクロフォンで一定以上の音量の音声信号を取得した場合に、マイクアレイを用いて発話者の方向を特定し、予め認識している全ユーザの位置を参照して発話者を特定する。

　また、制御部１７０は、ユーザの発話内容を認識する。例えば、制御部１７０は、マイクロフォン３３０により集音した音声情報（発話音声）から、音声認識エンジンを用いて文字列を取得し、さらに構文解析を行ってユーザ操作のトリガを検出する。ユーザ操作のトリガは、所定のキーワード（例えばシステムの名称、システムへの呼び掛け等）又は処理コマンドに含まれる動詞、例えば「移動して」、「表示して」、「見せて」等であってもよい。トリガが検出された場合、制御部１７０は、解析部１７５によりユーザ操作の解析を行う。

　また、制御部１７０は、解析部１７５により決定された場所に基づき、空間内の場所に関する制御の処理コマンドを発行する制御を行う。具体的には、制御部１７０は、空間内の場所に関する制御の処理コマンドを、Ｉ／Ｆ部１１０を介して出力装置２００に出力する。例えば制御部１７０は、テーブル３０に表示している表示画像１０をユーザに指定された投影場所（例えば、壁）に移動させる処理コマンドをプロジェクタ２１０に発行する。

・記憶部１６０
　記憶部１６０は、制御部１７０の処理に用いられるプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、および適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）により実現される。また、記憶部１６０は、ジェスチャ検出部１２０により検出されたジェスチャ情報、ユーザ検出部１３０により検出されたユーザ情報、環境検出部１４０により検出された環境情報、及び機器検出部１５０により検出された機器情報等を記憶する。

　以上、本実施形態による情報処理装置１００の構成について具体的に説明した。なお情報処理装置１００の構成は、図２に示す例に限定されない。例えば、情報処理装置１００が出力装置２００及びセンサ装置３００と同じ空間内にあってもよいし、他の空間にあってもよい。また、情報処理装置１００がネットワーク上にあってもよい。また、情報処理装置１００の少なくとも一部の構成が外部装置にあってもよい。情報処理装置１００の各構成を適宜分散することで、リアルタイム性の向上や処理負担の軽減、さらにはセキュリティを担保することが可能となる。

　＜＜３．動作処理＞＞
　続いて、図３及び図４を参照して、本実施形態に係る誘導処理の流れの一例を説明する。図３は、本実施形態に係るシステム１の情報処理装置１００の各部において実行される処理の流れの一例を示すシーケンス図である。図４は、本実施形態に係るシステム１において実行される操作解析処理の流れの一例を説明するための図である。

　図３に示すように、まず、情報処理装置１００は、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、及び機器検出部１５０により空間認識を行う（ステップＳ１０３）。空間認識は定期的に行われる。

　次いで、情報処理装置１００の制御部１７０は、空間認識により得られた情報に基づいて、ユーザ操作のトリガ検出を行う（ステップＳ１０６）。トリガ検出は、発話音声からの所定のキーワード（例えばシステムの名称、システムへの呼び掛け等）又は処理コマンドの動詞の抽出により検出される。例えば、ユーザが「これをそこに移動して」と発話した場合、制御部１７０は音声認識及び構文解析により「移動して」を抽出し、ＭＯＶＥコマンドのトリガを検出する。

　次に、トリガが検出できた場合（ステップＳ１０９／Ｙｅｓ）、情報処理装置１００の解析部１７５は、ユーザ操作の解析を行う（ステップＳ１１２）。解析部１７５は、発話音声から処理コマンド発行に必要な項目の抽出を行い、曖昧な項目（内容が特定できない項目）がある場合は、音声情報、ジェスチャ情報、又は環境情報等の複数種類のセンサにより取得されたセンシングデータの処理結果（すなわち空間情報）に基づいて未確定の項目の内容を推定し、決定する。例えば、発話音声に含まれる指示代名詞（「これ」、「あれ」、「それ」等）を決定情報へ変換する。このような本実施形態による操作解析の詳細については図４を参照して後述する。

　そして、制御部１７０は、処理コマンドを所定の出力装置２００に発行する制御を行う（ステップＳ１１５）。

　続いて、本実施形態による操作解析処理について詳述する。図４に示すように、情報処理装置１００の制御部１７０は、発話音声から処理コマンドを抽出し（ステップＳ１２３）、処理コマンド発行に必要な項目の抽出を行う（ステップＳ１２６）。具体的には、上述したようにユーザの発話音声を音声認識して取得した文字列に対して構文解析を行い、「移動して」「表示して」等の動詞に基づいて、ＭＯＶＥコマンドやＳＨＯＷ（ＯＰＥＮ）コマンドを抽出する。

　次に、処理コマンドに曖昧な項目が残っているか否かを判断する（ステップＳ１２９）。例えば、ＭＯＶＥコマンドは「“操作対象”を“移動先”に移動する」というコマンドであり、コマンドの実行には“操作対象”と“移動先”という二つの決定情報が必要となる。しかし、例えばユーザの発話音声が「これをそこに移動して」というような、“操作対象”又は“移動先”に指示代名詞を含むものである場合、これらは具体的な決定情報ではないため、曖昧な項目が残っていると判断される。

　次いで、曖昧な項目が残っている場合（ステップＳ１２９／Ｙｅｓ）、解析部１７５は、全てのモーダルを活用したか否かを確認する（ステップＳ１３２）。全てのモーダルとは、センサ装置３００に含まれる各センサである。例えばマイクロフォン３３０によりセンシングされた音声情報の処理結果から処理コマンドの抽出を行い、曖昧な項目が含まれている場合、他のモーダル、例えばカメラ３１０又はデプスセンサ３２０を活用する。

　次に、全てのモーダルを活用していない場合（ステップＳ１３２／Ｎｏ）、解析部１７５は、異なるモーダルによりセンシングされた情報の処理結果を用いて、曖昧な項目の具体的な内容を推定する（ステップＳ１３８）。例えば解析部１７５は、カメラ３１０又はデプスセンサ３２０によりセンシングされた情報の処理結果、例えばジェスチャ情報（指差し動作、視線、姿勢、顔の向き、又はタッチ操作等）に基づいて、音声発話では曖昧であった項目（例えば指示代名詞）の内容を推定する。

　具体的には、例えば解析部１７５は、ユーザにより発せられた処理コマンドに対応する発話音声に指示代名詞が含まれている場合、指示代名詞をユーザが発話した時刻と、その時刻におけるデプスカメラ情報に基づいて、指示代名詞を決定情報へ変換する。以下、図５を参照して説明する。

　図５は、本実施形態に係る処理コマンドの曖昧項目の内容を異なるモーダルを活用して推定する方法の一例について説明する図である。図５に示すように、ユーザが処理コマンドに対応する発話音声「これをそこに移動して」と発した場合、解析部１７５は、含まれる指示代名詞「これ」と発話した時刻t1と、「そこ」と発話した時刻t2とを取得する。この段階では、下記表２に示すように、ＭＯＶＥコマンドの発行に必要な項目である「操作対象」と「移動先」が曖昧な状態となっている。

　なお、図６に示すように、ユーザが「これをテレビの上に移動して」と発話した場合は、ＭＯＶＥコマンドにおける移動先の決定情報として、下記表３に示すように「テレビの上の壁面」が登録される。この場合、操作対象は「これ」という指示であるため、指示代名詞をユーザが発話した時刻ｔ１におけるデプスカメラ情報に基づいて、当該指示代名詞を決定情報へ変換する処理が行われる。

　次いで、図５に示す状況における曖昧項目の推定方法について具体的に説明する。解析部１７５は、処理コマンドの発話においてユーザが「これ」と発話した時刻t1におけるデプスカメラ情報を取得する（なお、デプスカメラ情報は、少なくとも過去数十秒程度、記憶部１６０に保存してあるものとする）。取得したデプスカメラ情報から、時刻t1におけるユーザの指差し方向を抽出する。そして、指先方向に移動可能な対象物（例えば、図５に示す例では表示画像１０）があった場合、当該対象物を「操作対象」項目の決定情報とする。指差し方向の抽出は、ジェスチャ検出部１２０により行われてもよい。すなわち、解析部１７５は、「これ」と発話した時刻t1におけるデプスカメラ情報に基づいてジェスチャ検出部１２０により検出されたユーザのジェスチャ情報（指差し動作）を、記憶部１６０から取得してもよい。

　同様に、解析部１７５は、処理コマンドの発話においてユーザが「そこ」と発話した時刻t2におけるデプスカメラ情報に基づくユーザの指差し方向から「移動先」を決定する。図５に示す例では、ユーザが「そこ」と発話した時刻t2では、ユーザはＴＶ２２０の上の壁面を指している。空間内の物体の位置は予め認識されているため、解析部１７５は、空間内の壁の位置及びＴＶ２２０の位置と、ユーザの指差し方向から、ユーザがＴＶ２２０の上の壁面を指していることが解析できる。このように、音声情報以外の例えばデプスセンサ情報を用いることで、ユーザが「これ」と発話した時にはテーブル３０上の表示画像１０（例えば地図アプリケーションにより提供されている地図画像）を指し、「そこ」と発話した時にはＴＶ２２０の上の壁面を指していることから、解析部１７５は、ＭＯＶＥコマンドの項目情報として下記表４のように決定情報を得ることができる。

　なお、図５に示す例では、デプスセンサ情報からユーザによる指差し動作を検出し、ユーザが指差している方向を取得しているが、本実施形態はこれに限定されず、ユーザの顔の向きや、頭の動き、視線方向等、他の「方向を指し示す動作」であってもよい。

　このように、複数種類のセンサによりセンシングされたデータの処理結果を用いることで（すなわち、マルチモーダルセンシングにより）、発話された処理コマンドにおける曖昧な項目の決定情報を推定することができる。ユーザは、人間同士の自然な対話のような話し方で、具体的な場所の名称を含まない音声発話であっても、空間内の場所に関する制御を指示することが可能となる。

　一方、曖昧な項目が残っているが既に全てのモーダルを活用している場合（ステップＳ１２９／Ｙｅｓ、ステップＳ１３２／Ｙｅｓ）、情報処理装置１００は、ユーザに追加情報を要求する（ステップＳ１３５）。例えば、情報処理装置１００は、「『そこ』とはどこですか？」といった質問をユーザに出力してもよい。

　以上、本実施形態による操作解析処理について具体的に説明した。

　情報処理装置１００は、上記処理によって得た処理コマンドを、処理を実行する出力装置２００に送信する。例えば図５に示す例では、上記処理によって得た表４に示すＭＯＶＥコマンドをプロジェクタ２１０に送信し、表示画像１０を、ユーザが指定した場所へ移動させる。図７は、このようなＭＯＶＥコマンドの発行による表示画像の移動の一例を示す図である。

　ＭＯＶＥコマンドを受信したプロジェクタ２１０は、図７に示すように、テーブル３０上にあった表示画像１０を、ユーザが指定したＴＶ２２０の上の壁面に移動させる制御を行う。この際、プロジェクタ２１０は、表示画像１０をそのままテーブル３０上からＴＶ２２０の上の壁面に移動させてもよいし、表示画像１０を一旦、点やマーク、アイコン、キャラクター、その他図形等の所定の形状に変化させて移動させてもよい。図８は、表示画像１０の移動の際における形状の変化について示す遷移図である。

　プロジェクタ２１０は、図８に示すように、例えば表示画像１０を一旦、点の形状に変化させ、点の状態でテレビの上の壁面等の目的地まで移動させ、目的地到着後に再度、表示画像１０に展開させる制御を行ってもよい。これによりユーザは、自分の指示により表示画像１０がどこへ移動するかを目で追うことができる。

　また、表示画像１０を壁面に移動させた場合、ユーザが離れた位置から閲覧することになる可能性が高いため、プロジェクタ２１０は、ユーザの位置に応じて、又は設定された所定の表示サイズで表示画像１０を表示する制御を行ってもよい。具体的には、例えばプロジェクタ２１０は、壁面で表示する場合はテーブル３０上で表示していた時よりも大きなサイズで表示する制御を行うことで、壁面からユーザが離れている場合も表示画像１０の視認性を確保することができる。

　以上、本実施形態による動作処理について具体的に説明した。なお、図３及び図４に示す動作処理は一例であって、本開示は図３及び図４に示す例に限定されない。例えば、本開示は、図３及び図４に示すステップの順序に限定されない。少なくともいずれかのステップが並列に処理されてもよいし、逆の順番で処理されてもよい。例えば、ステップＳ１０３の空間認識処理は、他の全ての処理と並列に定期的に処理されてもよい。

　また、図３及び図４に示す全ての処理が必ずしも実行されてなくともよい。例えば、ステップＳ１０６及びステップＳ１０９に示すトリガ検出処理、ステップＳ１３２に示す全てのモーダル活用の確認処理、又はステップＳ１３５に示す追加情報要求処理がスキップされてもよい。

　また、図３及び図４に示す全ての処理が必ずしも単一の装置で行われなくともよい。

　＜＜４．変形例＞＞
　続いて、本実施形態の変形例について説明する。

　情報処理装置１００は、処理コマンドを認識したことを音又は光等でユーザにフィードバックしてもよい。例えば、図５に示すようにユーザが「これをそこに移動して」と発話した際、情報処理装置１００は、指示代名詞が発話された瞬間に、認識した対象物又は場所をプロジェクタ２１０で照らしながら音を鳴らす制御を行ってもよい。具体的には、ユーザが「これを」と発話した瞬間に、ユーザが指差している表示画像１０をプロジェクタ２１０で照らしながら「リン」と音を鳴らし、「そこに」と発話した瞬間には、ユーザが指差しているＴＶ２２０の上の壁面をプロジェクタ２１０で照らしながら「リン」と音を鳴らす制御を行う。かかる制御は、例えばユーザがシステムの名称を発話してトリガが検出された際に、情報処理装置１００が、ユーザの発話音声に指示代名詞が含まれている場合に、他のモーダルを活用して、例えばジェスチャ情報を参照して随時、曖昧項目の推定処理を行うことで実現され得る。このようなフィードバックにより、ユーザは自分の操作がシステムに認識されていることを直感的に理解でき、より安心してシステムを利用することができる。

　また、場所を特定する際に利用する情報は「指差しジェスチャ」に限定されず、例えば、その場所に直接触れるタッチ操作であってもよい。例えば、ユーザがテーブルをタッチしながら「ここにテレビリモコン（リモートコントローラ）を出して」と発話した場合、情報処理装置１００は、「ここ」という指示代名詞が発話された際のユーザのタッチ操作に基づいて表示場所を「テーブル」に決定する。そして、「表示対象：テレビリモコン（ＵＩ）」、「表示場所：テーブル」のＳＨＯＷ（ＯＰＥＮ）コマンドをプロジェクタ２１０に発行する。

　また、ユーザが指示代名詞を省略して発話した場合にも、情報処理装置１００は、曖昧項目の推定を行って処理コマンドを発行することが可能である。例えば、ユーザがテーブルをタッチしながら「テレビリモコン」と発話した場合、情報処理装置１００は、タッチ操作に基づいて表示場所を「テーブル」に決定し、テーブルにテレビリモコンＵＩを表示するＳＨＯＷコマンドをプロジェクタ２１０に発行する。

　また、同様に、ユーザがテーブルをタッチしながら「生姜焼きのレシピを検索」と発話した場合、情報処理装置１００は「検索」という言葉からＳＥＡＲＣＨコマンドを抽出し、検索対象を「生姜焼きのレシピ」、検索結果の表示場所はユーザのタッチ操作から「テーブル」に決定してＳＥＡＲＣＨコマンドを発行する。具体的には、情報処理装置１００は、「生姜焼きのレシピ」の検索画面をテーブルに表示する処理コマンドをプロジェクタ２１０に送信する。

　また、ユーザが単に「ここにちょうだい」と発話した場合（操作対象を省略し、指示代名詞による曖昧な表示／移動場所を含む発話音声を発話した場合）にも、情報処理装置１００は、他のモーダルを活用して操作対象および表示／移動場所を推定し、曖昧項目を決定情報に変換することが可能である。例えば、情報処理装置１００は、「ちょうだい」という言葉からＭＯＶＥコマンドを抽出し、移動先を「ここ」という指示代名詞から発話者により近い場所（例えば発話者の目の前の投影場所）、操作対象はユーザの視線方向のものに決定する。例えばユーザが壁に表示（投影）されている番組表画像を見ながら「ここにちょうだい」と発話していた場合、情報処理装置１００は、ユーザが見ている番組表画像を操作対象と特定し、番組表画像をユーザの目の前のテーブル上等に移動させる。

　また、ユーザが単に「壁に出して」と発話した場合、情報処理装置１００は、ユーザが直前まで操作していたＵＩを操作対象としてもよい。例えば情報処理装置１００は、ユーザが発話の直前まで、メモアプリケーションにより提供され、テーブル上に表示（投影）されたメモ画像に対してタッチ入力を行っていた場合、当該メモ画像を操作対象に決定し、ユーザが指定した壁に移動させる。

　また、ユーザが雑誌を読みながら「ここの地図を見せて」と発話した場合、情報処理装置１００は、カメラ３１０により取得した撮像画像を解析してユーザが見ている雑誌の記事を認識し、当該記事に対応する地図画像をユーザの近傍に表示（投影）するようにしてもよい。例えば情報処理装置１００は、記事に含まれる地域名、施設名、又は観光地の名称等に基づいて、その場所の地図画像を検索し、ユーザの近傍に表示する。

　また、ユーザが「○○さんに渡して」と、空間内に居る他のユーザを指定した場合、情報処理装置１００は、空間認識により把握した当該他のユーザの位置周辺の投影場所を移動先に決定する。また、情報処理装置１００は、移動対象を、例えばユーザが発話直前まで操作していたＵＩに決定してもよい。また、情報処理装置１００は、当該ＵＩを移動させた際、指定された他のユーザに対して当該ＵＩが正面の向きになるよう表示制御を行ってもよい。

　また、処理コマンドは上述したＭＯＶＥコマンド、ＳＨＯＷコマンド、又はＳＥＡＲＣＨコマンド等に限定されず、例えば照明装置（出力装置２００の一例）による照明のＯＮ／ＯＦＦを制御する処理コマンドであってもよい。例えば、ユーザが「その電気を点けて」と発話した場合、情報処理装置１００は、Ｌｉｇｈｔ＿ＯＮコマンドを発行する。具体的には、情報処理装置１００は、「その電気を」とユーザが発話した際のユーザのジェスチャに基づいて、例えばユーザが指差す方向に存在する照明装置（例えば電球_ID_5）に決定してもよい。

　＜＜５．ハードウェア構成＞＞
　最後に、図９を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図９は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図９に示す情報処理装置９００は、例えば、図２に示した情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図９に示すように、情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図２に示すジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、機器検出部１５０、及び制御部１７０を形成し得る。

　ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

　入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

　出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。

　ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２に示す記憶部１６０を形成し得る。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

　接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などによりデータ伝送可能な外部機器との接続口である。接続ポート９１１は、例えば、図２に示すＩ／Ｆ部１１０を形成し得る。そして、接続ポート９１１は、図２に示す出力装置２００及びセンサ装置３００に接続される。

　通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１３は、例えば、図２に示すＩ／Ｆ部１１０を形成し得る。そして、通信装置９１３は、図２に示す出力装置２００及びセンサ装置３００と通信し得る。

　なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

　なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　＜＜６．まとめ＞＞
　上述したように、本開示の実施形態による情報処理システムでは、具体的な場所の名称を含まない音声発話であっても空間内の場所に関する制御を指示することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上述した情報処理装置１００、出力装置２００、またはセンサ装置３００に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１００、出力装置２００、またはセンサ装置３００の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図２に示した情報処理装置１００、出力装置２００及びセンサ装置３００は、単独の装置として構成されてもよい。また、例えば、図２に示した情報処理装置１００が、出力装置２００及びセンサ装置３００とネットワーク等で接続されたサーバ装置として構成されてもよい。また、例えば、図２に示した情報処理装置１００の機能構成例のうち、制御部１７０が、Ｉ／Ｆ部１１０、ジェスチャ検出部１２０、ユーザ検出部１３０、環境検出部１４０、機器検出部１５０及び記憶部１６０とネットワーク等で接続されたサーバ等の装置に備えられていても良い。

　また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。
（２）
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる場所に関する指示代名詞と、当該指示代名詞を発話した際の発話者による方向を指し示す動作とに基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話した際の発話者による場所を特定する動作に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記（１）に記載の情報処理装置。
（４）
　前記複数種類のセンサは、マイクロフォン、デプスセンサ、およびカメラセンサの少なくともいずれかを含む、前記（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記処理コマンドは、前記決定された場所への表示画像の移動、前記決定された場所での所定の画像の表示、または前記決定された場所に位置する機器の制御である、前記（１）～（４）のいずれか１項に記載の情報処理装置。
（６）
　前記制御部は、
　　前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる前記処理コマンドにおける処理対象に関する指示代名詞と、当該指示代名詞を発話した発話者の動作とに基づいて、前記処理対象を決定し、
　　前記決定された場所と処理対象とに基づいて前記処理コマンドを発行する制御を行う、前記（５）に記載の情報処理装置。
（７）
　前記処理対象は、空間内に表示される表示画像である、前記（６）に記載の情報処理装置。
（８）
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話するまでの発話者の動作に基づいて、前記処理コマンドにおける処理対象を決定する、前記（５）に記載の情報処理装置。
（９）
　前記制御部は、前記発話者の視線方向にある表示画像又は操作していた表示対象を前記処理対象に決定する、前記（８）に記載の情報処理装置。
（１０）
　前記取得した音声発話が前記空間内の場所を特定する言葉を含む場合、当該空間内の場所を特定する言葉に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、前記（１）～（９）のいずれか１項に記載の情報処理装置。
（１１）
　プロセッサが、
　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、
を含む、情報処理方法。
（１２）
　コンピュータを、
　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラム。

　１　　システム
　１０　　表示画像
　１００　　情報処理装置
　１１０　　Ｉ／Ｆ部
　１２０　　ジェスチャ検出部
　１３０　　ユーザ検出部
　１４０　　環境検出部
　１５０　　機器検出部
　１６０　　記憶部
　１７０　　制御部
　１７１　　表示制御部
　１７３　　音響制御部
　１７５　　解析部
　２００　　出力装置
　２１０　　プロジェクタ
　２２０　　ＴＶ
　２３０　　タブレット
　２４０　　スマートフォン
　２５０　　ＰＣ
　２６０　　スピーカ
　２７０　　単一指向性スピーカ
　３００　　センサ装置
　３１０　　カメラ
　３２０　　デプスセンサ
　３３０　　マイクロフォン

Claims

　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部を備える、情報処理装置。
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる場所に関する指示代名詞と、当該指示代名詞を発話した際の発話者による方向を指し示す動作とに基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項１に記載の情報処理装置。
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話した際の発話者による場所を特定する動作に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項１に記載の情報処理装置。
　前記複数種類のセンサは、マイクロフォン、デプスセンサ、およびカメラセンサの少なくともいずれかを含む、請求項１に記載の情報処理装置。
　前記処理コマンドは、前記決定された場所への表示画像の移動、前記決定された場所での所定の画像の表示、または前記決定された場所に位置する機器の制御である、請求項１に記載の情報処理装置。
　前記制御部は、
　　前記空間の環境センシング処理の結果から抽出された、前記音声発話に含まれる前記処理コマンドにおける処理対象に関する指示代名詞と、当該指示代名詞を発話した発話者の動作とに基づいて、前記処理対象を決定し、
　　前記決定された場所と処理対象とに基づいて前記処理コマンドを発行する制御を行う、請求項５に記載の情報処理装置。
　前記処理対象は、空間内に表示される表示画像である、請求項６に記載の情報処理装置。
　前記制御部は、前記空間の環境センシング処理の結果から抽出された、前記処理コマンドに対応する音声発話を発話するまでの発話者の動作に基づいて、前記処理コマンドにおける処理対象を決定する、請求項５に記載の情報処理装置。
　前記制御部は、前記発話者の視線方向にある表示画像又は操作していた表示対象を前記処理対象に決定する、請求項８に記載の情報処理装置。
　前記取得した音声発話が前記空間内の場所を特定する言葉を含む場合、当該空間内の場所を特定する言葉に基づいて、前記処理コマンドにおける前記空間内の場所を決定する、請求項１に記載の情報処理装置。
　プロセッサが、
　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得することと、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定することと、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行うことと、
を含む、情報処理方法。
　コンピュータを、
　空間内の場所に関する制御の処理コマンドに対応する音声発話を取得し、
　前記取得した音声発話が前記空間内の場所を特定する言葉を含まない場合、複数種類のセンサによる前記空間の環境センシング処理の結果に基づいて、前記処理コマンドにおける前記空間内の場所を決定し、
　前記決定された場所に基づき、前記空間内の場所に関する制御の処理コマンドを発行する制御を行う制御部として機能させるための、プログラム。