WO2020184317A1

WO2020184317A1 - 情報処理装置、情報処理方法、及び記録媒体

Info

Publication number: WO2020184317A1
Application number: PCT/JP2020/009041
Authority: WO
Inventors: 真里斎藤; 賢次杉原
Original assignee: ソニー株式会社
Priority date: 2019-03-13
Filing date: 2020-03-04
Publication date: 2020-09-17
Also published as: US11908055B2; US20220180583A1; JPWO2020184317A1; JP7468506B2

Abstract

第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、第１のユーザの位置情報と第２のユーザの位置情報に基づき、第１のユーザと第２のユーザの位置関係を判定する判定部と、判定された位置関係に基づき、第１のユーザと第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された音声対話エリアの外にアバタの位置を設定するアバタ制御部と、を備え、第１のユーザが音声対話エリアの外を見ている時に第１のユーザの音声情報が取得された場合、アバタ制御部は、アバタに所定の行動を実行させ、第１のユーザが音声対話エリアの中を見ている時に第１のユーザの音声情報が取得された場合、アバタ制御部は、アバタが所定の行動を実行することを抑制する、情報処理装置。

Description

情報処理装置、情報処理方法、及び記録媒体

　本開示は、情報処理装置、情報処理方法、及び記録媒体に関する。

　近年、実空間内に付加的な情報を重畳してユーザに提示する、拡張現実（ＡＲ：Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ）と称される技術が注目されている。ＡＲ技術を利用することで、実空間内の物体（以下、「実オブジェクト」とも称される）に対して、テキスト、アイコン、またはアニメーション等の様々な態様の仮想的なコンテンツ（以下、「仮想オブジェクト」とも称される）を重畳させてユーザに提示することが可能となる。

　また、ユーザの行動を支援するためのエージェント技術も急速に発展している。エージェントとは、ユーザからの指示を認識し、アプリケーション、エージェントが搭載された端末装置又はクラウド上のサーバ等にユーザからの指示に応じた処理を実行させる機能を有するソフトウェアである。エージェントは、典型的には音声認識機能を有する。そのため、ユーザは、例えばエージェントへの指示を発話することで、所望の出力を受けることができる。ＡＲ技術とエージェント技術とを組み合わせることで、ユーザの視界内にエージェントを示す仮想オブジェクト（以下、アバタとも称する）を提示することもできる。

　エージェントによる音声認識に関連し、例えば、下記特許文献１には、集音したユーザの音声をコンテキスト情報に基づき解析し、ユーザの音声の意味を正しく解釈することで、ロボットがユーザの命令を正しく実行する技術が開示されている。

特開２０１７－１５６５１１号公報

　しかしながら、上述の引用文献１の音声認識技術では、集音したユーザの音声に含まれるユーザの命令が、ロボットに対する命令であるか否かを判定することまでは考慮されていない。そのため、ロボットは、ロボットに対する命令以外の音声、例えばユーザ同士の会話内容から命令を誤って認識し、誤った動作を行い得る。このような誤動作は、アバタにも同様に起こるおそれがある。

　そこで、本開示では、アバタの誤動作を抑制することが可能な、新規かつ改良された情報処理装置、情報処理方法、及び記録媒体を提案する。

　本開示によれば、第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、を備え、前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置が提供される。

　また、本開示によれば、第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得することと、前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定することと、判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、特定された前記音声対話エリアの外にアバタの位置を設定することと、を含み、前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法が提供される。

　また、本開示によれば、コンピュータを、第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、として機能させ、前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体が提供される。

本開示の第１の実施形態に係る情報処理システムの概要を示す図である。同実施形態に係る情報処理端末の構成例を示すブロック図である。同実施形態に係る注視領域の検出例を示す図である。同実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。同実施形態に係るアバタの表示位置の例を示す図である。同実施形態に係る顔の向きに基づく音声対話エリア及びアバタ表示エリアを示す図である。同実施形態に係る対話相手を見ていない場合における、音声対話エリア及びアバタ表示エリアを示す図である。同実施形態に係る移動中における、音声対話エリア及びアバタ表示エリアを示す図である。同実施形態に係る１人のユーザのみがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。同実施形態に係る２人のユーザがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。同実施形態に係る作業中における、音声対話エリア及びアバタ表示エリアを示す図である。同実施形態に係る遮蔽物を考慮したアバタの表示の例を示す図である。同実施形態に係るアバタのステータスの提示例を示す図である。同実施形態に係るアバタを共有、かつ共通周辺視野がある場合のアバタの表示例を示す図である。同実施形態に係るアバタを共有、かつ共通周辺視野があるが共通周辺視野外へアバタを表示させる場合のアバタの表示例を示す図である。同実施形態に係るアバタを共有、かつ共通周辺視野がない場合のアバタの表示例を示す図である。同実施形態に係るアバタが表示されている際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。同実施形態に係るアバタが表示されている際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。同実施形態に係るアバタが表示されていない際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。同実施形態に係るアバタが表示されていない際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。同実施形態に係る自分のアバタを使用する場合における、処理の流れを示すフローチャートである。同実施形態に係る共通のアバタを使用する場合における、処理の流れを示すフローチャートである。同実施形態に係る互いのアバタを使用可能な場合における、処理の流れを示すフローチャートである。本開示の第２の実施形態に係る情報処理システムの概要を示す図である。同実施形態に係る情報処理端末の構成例を示すブロック図である。同実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素は、必要に応じて情報処理端末１０ａ及び情報処理端末１０ｂのように区別される。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、情報処理端末１０ａ及び情報処理端末１０ｂを特に区別する必要が無い場合には、単に情報処理端末１０と称する。

　なお、説明は以下の順序で行うものとする。
　１．第１の実施形態
　２．第２の実施形態
　３．ハードウェア構成例
　４．まとめ

＜＜１．第１の実施形態＞＞
　＜１－１．情報処理システムの概要＞
　まず、本開示の第１の実施形態に係る情報処理システムの概要について説明する。図１は、本開示の第１の実施形態に係る情報処理システムの概要を示す図である。第１の実施形態に係る情報処理システムは、ユーザ２０が頭部に装着することでユーザ２０の眼前に保持される表示部を有する情報処理端末１０により、仮想オブジェクト３０（以下では、アバタ３０とも称される）をユーザ２０に提示する。以下では、情報処理端末１０ａを頭部に装着したユーザ２０ａの目線に基づく説明を行う。なお、以下で説明する内容は、符号のアルファベットをａからｂに置き換えることで、情報処理端末１０ｂを頭部に装着したユーザ２０ｂの目線に基づく説明とすることもできる。

　例えば、図１に示すように、ユーザ２０ａ（第１のユーザ）は、情報処理端末１０ａを頭部に装着している。ユーザ２０ａがアバタ３０ａを有する場合、図１に示すアバタ３０ａが仮想オブジェクトとして情報処理端末１０ａの表示部に表示される。ユーザ２０ａがアバタ３０ａを有するとは、アバタ３０ａの提示対象がユーザ２０ａであることを指すものとする。ユーザ２０ｂ（第２のユーザ）は、ユーザ２０ａの対話相手であり、ユーザ２０ａと同様に情報処理端末１０ｂを頭部に装着している。情報処理端末１０ａと情報処理端末１０ｂとは、互いに情報を送受信可能に構成されている。

　第１の実施形態に係る情報処理端末１０は、例えば、頭部装着型の表示装置（ＨＭＤ：Ｈｅａｄ　Ｍｏｕｎｔｅｄ　Ｄｉｓｐｌａｙ）等により実現される情報処理装置である。情報処理端末１０に適用可能なＨＭＤの一例としては、例えば、シースルー型ＨＭＤ、ビデオシースルー型ＨＭＤ、及び網膜投射型ＨＭＤが挙げられる。

　シースルー型ＨＭＤは、例えば、ハーフミラーや透明な導光板を用いて、透明な導光部等からなる虚像光学系をユーザ２０の眼前に保持し、当該虚像光学系の内側に画像を表示させる。そのため、シースルー型ＨＭＤを装着したユーザ２０は、虚像光学系の内側に表示された画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、シースルー型ＨＭＤは、例えば、ＡＲ技術に基づき、当該シースルー型ＨＭＤの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。なお、シースルー型ＨＭＤの具体的な一例として、メガネのレンズに相当する部分を虚像光学系として構成した、所謂メガネ型のウェアラブルデバイスが挙げられる。

　ビデオシースルー型ＨＭＤは、ユーザ２０の頭部または顔部に装着された場合に、ユーザ２０の眼を覆うように装着され、ユーザ２０の眼前にディスプレイ等の表示部が保持される。また、ビデオシースルー型ＨＭＤは、周囲の風景を撮像するための撮像部を有し、当該撮像部により撮像されたユーザ２０の前方の風景の画像を表示部に表示させる。このような構成により、ビデオシースルー型ＨＭＤを装着したユーザ２０は、外部の風景を直接視野に入れることは困難ではあるが、表示部に表示された画像により、外部の風景を確認することが可能となる。また、このときビデオシースルー型ＨＭＤは、例えば、ＡＲ技術に基づき、当該ビデオシースルー型ＨＭＤの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、外部の風景の画像に対して仮想オブジェクトを重畳させてもよい。

　網膜投射型ＨＭＤは、ユーザ２０の眼前に投影部が保持されており、当該投影部からユーザ２０の眼に向けて、外部の風景に対して画像が重畳するように当該画像が投影される。より具体的には、網膜投射型ＨＭＤでは、ユーザ２０の眼の網膜に対して、投影部から画像が直接投射され、当該画像が網膜上で結像する。このような構成により、近視や遠視のユーザ２０の場合においても、より鮮明な画像を視聴することが可能となる。また、網膜投射型ＨＭＤを装着したユーザ２０は、投影部から投影される画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、網膜投射型ＨＭＤは、例えば、ＡＲ技術に基づき、当該網膜投射型ＨＭＤの位置や姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。

　また、上記に説明した例以外にも、没入型ＨＭＤと呼ばれるＨＭＤが挙げられる。没入型ＨＭＤは、ビデオシースルー型ＨＭＤと同様に、ユーザ２０の眼を覆うように装着され、ユーザ２０の眼前にディスプレイ等の表示部が保持される。そのため、没入型ＨＭＤを装着したユーザ２０は、外部の風景（即ち、現実世界の風景）を直接視野に入れることが困難であり、表示部に表示された画像のみが視界に入ることとなる。このような構成により、没入型ＨＭＤは、画像を視聴しているユーザ２０に対して没入感を与えることが可能となる。そのため、没入型ＨＭＤは、例えば、主にＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）技術に基づき情報を提示する場合に適用され得る。

　（課題の整理）
　図１に示すように、情報処理端末１０ａの表示部に表示されているアバタ３０ａがユーザ２０ｂの近傍に位置する際に、ユーザ２０ａがユーザ２０ｂの方に視線を向けて発話を行ったとする。この時、情報処理端末１０ａは、例えば、ユーザ２０ａの視線に基づき、ユーザ２０ａがユーザ２０ｂとアバタ３０ａのどちらに対して発話を行ったかを判別することができる。しかしながら、アバタ３０ａがユーザ２０ｂの近傍にいる場合、情報処理端末１０ａは、ユーザ２０ａによる発話がユーザ２０ｂとアバタ３０ａのどちらに対する発話であるかの判別を正確に行うことが困難になる。ユーザ２０ａによる発話がユーザ２０ｂに対するものであるにも関わらず、アバタ３０ａに対する発話であると誤って判別された場合、アバタ３０ｂが当該発話に対する音声認識結果に基づき不適切な行動を行うことが有り得る。

　そこで、本開示の一実施形態に係る情報処理システムでは、ユーザ２０ａによる発話がユーザ２０ｂまたはアバタ３０ａのどちらに対する対話であるかを判別可能な位置にアバタ３０ａを表示することを可能とする。具体的には、情報処理端末１０ａは、ユーザ２０ａとユーザ２０ｂとの間の音声対話が行われ得る領域を特定し、特定した領域の外にアバタ３０ａの位置を設定し、設定した位置にアバタ３０ａを表示する。ユーザ２０ａとユーザ２０ｂとの間の音声対話が行われ得る領域とは、ユーザ２０ａとユーザ２０ｂとが音声対話を行っているときに、ユーザ２０ａの視線又は顔が向く領域（換言すると、方向）である。これにより、情報処理端末１０ａは、特定した領域の中をユーザ２０ａが見ている時の発話がユーザ２０ｂに対する発話であり、特定した領域の外をユーザ２０ａが見ている時の発話がアバタ３０ａに対する発話であると判別することができる。そして、情報処理端末１０ａは、ユーザ２０ａの発話対象を判別した結果に応じて、アバタ３０ａに対して実行させる行動を制御することができるため、アバタ３０ａに対して適切な行動を実行させることが可能となる。

　なお、上述したユーザ２０ａとユーザ２０ｂとの間の音声対話が行われ得る領域は、以下では、「音声対話エリア」と称される。また、情報処理端末１０がアバタ３０ａを表示する位置として設定可能な領域は、以下では、「アバタ表示エリア」と称される。

　＜１－２．情報処理端末の構成＞
　続いて、第１の実施形態に係る情報処理端末１０の構成について説明する。図２は、本開示の第１の実施形態に係る情報処理端末の構成例を示すブロック図である。図２に示すように、情報処理端末１０は、通信部１００、取得部１１０、制御部１２０、記憶部１３０、表示部１４０、及び音声出力部１５０を有する。以下では、一例として、情報処理端末１０ａの構成について説明する。情報処理端末１０ｂの構成は、情報処理端末１０ａの構成と同様である。即ち、情報処理端末１０ｂの構成については、以下の説明のうち、情報処理端末１０ａを情報処理端末１０ｂに、ユーザ２０ａをユーザ２０ｂに読み替えればよい。

　（１）通信部１００
　通信部１００は、外部装置と通信を行う機能を有する。例えば、通信部１００は、外部装置との通信において、外部装置から受信する情報を制御部１２０へ出力する。具体的には、通信部１００は、情報処理端末１０ｂからユーザ２０ｂの位置情報を受信し、制御部１２０へ出力する。また、通信部１００は、情報処理端末１０ｂからユーザ２０ｂのアバタ表示エリアを示す情報を受信し、制御部１２０へ出力してもよい。

　また、通信部１００は、外部装置との通信において、制御部１２０から入力される情報を外部装置へ送信する。具体的な一例として情報処理端末１０ａの通信部１００の場合、通信部１００は、取得部１１０から入力されるユーザ２０ａの位置情報を情報処理端末１０ｂへ送信する。また、通信部１００は、制御部１２０から入力されるユーザ２０ａのアバタ表示エリアを示す情報を情報処理端末１０ｂへ送信してもよい。

　（２）取得部１１０
　取得部１１０は、制御部１２０における処理に用いられる情報を取得する機能を有する。取得部１１０は、多様なセンサ装置を備え得る。例えば、取得部１１０は、カメラ、デプスセンサ、マイクロフォン（以下、マイクとも称する）、慣性センサ、及び電極等を含み得る。なお、取得部１１０は、上述のセンサ装置のうち一つ又は複数を組み合わせ含んでも良いし、同一種類の装置を複数含んでも良い。

　カメラは、ＲＧＢカメラ等のレンズ系、駆動系、及び撮像素子を有し、画像（静止画像又は動画像）を撮像する撮像装置である。当該撮像装置により、取得部１１０は、ユーザ２０ａの周辺、ユーザ２０ａの眼を撮像することができる。具体的に、例えば、情報処理端末１０ａがＨＭＤとして構成される場合、撮像装置がＨＭＤの外部を撮像可能に設けられることで、撮像装置は、ユーザ２０ａの周辺を撮像することができる。かかる撮像装置を、以下では外向き撮像装置とも称する。また、撮像装置がユーザ２０ａの眼に向けて設けられることで、撮像装置は、ユーザ２０ａの眼を撮像することができる。かかる撮像装置を、以下では内向き撮像装置とも称する。

　マイクは、周囲の音を収音し、アンプおよびＡＤＣ（Ａｎａｌｏｇ　Ｄｉｇｉｔａｌ　Ｃｏｎｖｅｒｔｅｒ）を介してデジタル信号に変換した音声データを出力する装置である。当該マイクにより、取得部１１０は、ユーザ２０ａ及びユーザ２０ｂの音声情報を取得することができる。マイクの数は１つに限定されず、複数であってもよいし、いわゆるマイクアレイを構成していてもよい。慣性センサは、加速度及び角速度等の慣性情報を検出する装置である。当該慣性センサにより、取得部１１０は、ユーザ２０ａの慣性情報を取得することができる。電極は、眼電位を検出する装置である。眼電位とは、角膜が帯びている正電荷と網膜が帯びている負電荷との間に生じる電位差である。眼電位は、眼の動きや瞬きにより変化し得る。そのため、眼電位に基づき、眼の動きが検出され得る。さらに、検出された眼の動きに基づき、眼が移動した方向も検出され得る。当該電極は、例えば、ユーザ２０ａの眼の周辺の位置と対応する情報処理端末１０ａ上の位置に設けられることで、ユーザ２０ａの眼電位を検出する。当該電極により、取得部１１０は、ユーザ２０ａの眼電位を取得することができる。電極の数は１つに限定されず、複数であってもよい。デプスセンサは、赤外線測距装置、超音波測距装置、ＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）又はステレオカメラ等の深度情報を取得する装置である。取得部１１０は、当該デプスセンサにより取得される情報に基づき、ユーザ２０ａ及びユーザ２０ｂの位置情報を取得することができる。

　取得部１１０は、上述のセンサ装置のセンシングデータに基づき、制御部１２０における処理に用いられる情報を取得する位置情報取得部１１１、視線検出情報取得部１１２、及び音声情報取得部１１３を備える。

　（２－１）位置情報取得部１１１
　位置情報取得部１１１は、ユーザ２０の位置情報を取得する機能を有する。

　位置情報取得部１１１は、例えば、上述の外向き撮像装置が撮像する画像の画像認識結果に基づき、ユーザ２０ｂの位置情報を取得する。具体的に、位置情報取得部１１１は、慣性情報に基づいて検出した外向き撮像装置の位置及び姿勢、並びに外向き撮像装置により撮像された画像におけるユーザ２０ｂの位置を組み合わせることで、ユーザ２０ｂの位置情報を取得してもよい。なお、かかる処理により取得される位置情報とは、ユーザ２０ａを基準とするユーザ２０ｂの方向を示す情報である。位置情報取得部１１１は、当該ユーザ２０ｂの方向を示す情報に、ユーザ２０ｂの深度情報をさらに組み合わせることで、ユーザ２０ｂの三次元位置を示す位置情報を取得してもよい。

　また、位置情報取得部１１１は、上述のマイクが取得する音声情報に対して音源方向推定処理を適用することで、ユーザ２０ｂの位置情報を取得してもよい。具体的に、位置情報取得部１１１は、慣性情報に基づいて検出したマイクの位置及び姿勢、並びに音源方向推定処理により得られたユーザ２０ｂの方向を組み合わせることで、ユーザ２０ｂの位置情報を取得する。なお、かかる処理により取得される位置情報とは、ユーザ２０ａを基準とするユーザ２０ｂの方向を示す情報である。位置情報取得部１１１は、当該ユーザ２０ｂの方向を示す情報に、ユーザ２０ｂの深度情報をさらに組み合わせることで、ユーザ２０ｂの三次元位置を示す位置情報を取得してもよい。

　位置情報取得部１１１は、さらにＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）センサまたは慣性航法装置（ＩＮＳ：Ｉｎｅｒｔｉａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓｙｓｔｅｍ）を備えてもよい。位置情報取得部１１１は、ＧＰＳまたはＩＮＳが取得する情報に基づきユーザ２０ａの位置情報を取得してもよい。

　（２－２）視線検出情報取得部１１２
　視線検出情報取得部１１２は、ユーザ２０ａの視線を検出するための情報である視線検出情報を取得する機能を有する。視線検出情報は、例えば、ユーザ２０ａの眼の画像、ユーザ２０ａの慣性情報、またはユーザ２０ａの眼電位である。視線検出情報取得部１１２は、例えば、上述の内向き撮像装置によりユーザ２０ａの眼を撮像することで、ユーザ２０ａの眼の画像を視線検出情報として取得する。また、視線検出情報取得部１１２は、上述の慣性センサにより、ユーザ２０ａの慣性情報を視線検出情報として取得する。また、視線検出情報取得部１１２は、上述の電極により、ユーザ２０ａの眼電位を視線検出情報として取得する。視線検出情報取得部１１２は、これらの情報と外向き撮像装置により撮像された画像とを組み合わせることで、外向き撮像装置により撮像された画像のうち、どの領域にユーザ２０ａの視線が向いているかを示す情報を、視線検出情報として取得することもできる。

　（２－３）音声情報取得部１１３
　音声情報取得部１１３は、ユーザ２０ａまたはユーザ２０ｂの音声情報を取得する機能を有する。音声情報取得部１１３は、例えば、上述のマイクにより、ユーザ２０ａまたはユーザ２０ｂの音声情報を取得する。

　（３）制御部１２０
　制御部１２０は、情報処理端末１０全体の動作を制御する機能を有する。当該機能を実現するために、制御部１２０は、判定部１２１、検出部１２２、特定部１２３、アバタ制御部１２４、認識部１２５を備える。

　（３－１）判定部１２１
　判定部１２１は、ユーザ２０ａとユーザ２０ｂの位置関係を判定する機能を有する。例えば、判定部１２１は、取得部１１０から、または取得部１１０と通信部１００から入力される、ユーザ２０ａの位置情報とユーザ２０ｂの位置情報とに基づき、ユーザ２０ａとユーザ２０ｂが対話を行っている位置関係にあるか否かを判定する。判定の結果は、特定部１２３における音声対話エリアの特定に用いられるため、判定部１２１は、判定した結果を特定部１２３へ出力する。

　（３－２）検出部１２２
　検出部１２２は、入力される情報に基づき、特定部１２３における処理に用いられる情報を検出する機能を有する。例えば、検出部１２２は、視線検出情報取得部１１２が取得した視線検出情報に基づき、ユーザ２０ａの視線方向情報及び視野情報を検出する。視線方向情報は、ユーザ２０ａの注視点またはユーザ２０ａの顔の向きを含む。検出部１２２が検出したユーザ２０ａの注視点は、特定部１２３にて、注視点が分布している領域である注視エリアの特定に用いられる。注視点に基づき特定された注視エリアは、特定部１２３にて、音声対話エリアの特定にさらに用いられる。検出部１２２が検出したユーザ２０ａの顔の向きは、特定部１２３にて、音声対話エリアの特定に用いられる。

　視野情報は、ユーザ２０ａの中心視野と周辺視野とを示す情報を含む。一般的に、人間の視野は、左右にそれぞれ約１００度ある。その内、物体の形や色を明瞭に認識できる範囲は、中心視野とも称され、左右にそれぞれ約２０度である。また、人間の視野から中心視野の範囲を除いた範囲は、周辺視野とも称される。人間は、周辺視野では物体の形や色を明瞭に認識することは困難である。検出部１２２は、例えば、ユーザ２０ａの視線方向の左右２０度以内の範囲を中心視野として検出し、左右２０度超であって１００度以下の範囲を周辺視野として検出する。上下方向についても同様である。

　検出部１２２は、視線方向情報としてユーザ２０ａの注視点を検出した場合、当該注視点の位置を基準にユーザ２０ａの中心視野と周辺視野を検出することができる。そのため、視線検出情報に基づきユーザ２０ａの注視点が検出された場合、検出部１２２は、注視点に基づき中心視野と周辺視野をさらに検出し、検出した中心視野と周辺視野を示す情報を特定部１２３へ出力する。そして、ユーザ２０ａの中心視野と周辺視野は、特定部１２３にてアバタ表示エリアの特定に用いられる。

　一方、検出部１２２は、視線方向情報としてユーザ２０ａの顔の向きを検出した場合、当該顔の向きを基準に、上述の一般的な人間の周辺視野の角度から、ユーザ２０ａの周辺視野を推定し、推定した周辺視野を特定部１２３へ出力する。そして、ユーザ２０ａの周辺視野は、特定部１２３にてアバタ表示エリアの特定に用いられる。

　（３－３）特定部１２３
　特定部１２３は、入力される情報に基づき、各種のエリアを特定する機能を有する。

　視線方向情報がユーザ２０ａの注視点である場合、特定部１２３は、検出部１２２から入力されるユーザ２０ａの注視点に基づき、ユーザ２０ａの注視エリアを特定する。また、特定部１２３は、検出部１２２から入力されるユーザ２０ａとユーザ２０ｂとが対話している時のユーザ２０ａの視線方向情報に基づき、音声対話エリアを特定する。特定部１２３は、検出部１２２から入力されるユーザ２０ａの音声対話エリア、中心視野、及び周辺視野に基づき、アバタ表示エリアを特定する。具体的には、特定部１２３は、音声対話エリア及び中心視野の外部であって、ユーザ２０ａの周辺視野の内部の範囲を、ユーザ２０ａのアバタ表示エリアとして特定する。

　視線方向情報がユーザ２０ａの顔の向きである場合、特定部１２３は、まず、検出部１２２から入力されるユーザ２０ａとユーザ２０ｂとが対話している時のユーザ２０ａの視線方向情報に基づき、音声対話エリアを特定する。また、検出部１２２から入力されるユーザ２０ａの顔の向きに基づき、ユーザ２０ａの視線が移動し得る領域である視線移動エリアを特定する。次いで、特定部１２３は、特定した音声対話エリアと視線移動エリア、及び検出部１２２から入力されるユーザ２０ａの周辺視野に基づき、ユーザ２０ａのアバタ表示エリアを特定する。具体的には、特定部１２３は、視線移動エリアの外部であって、ユーザ２０ａの周辺視野の内部の範囲を、ユーザ２０ａのアバタ表示エリアとして特定する。

　このように、特定部１２３がユーザ２０ａとユーザ２０ｂとが対話している時のユーザ２０ａの視線方向情報に基づき音声対話エリアを特定することで、ユーザ２０ａの視線によりユーザ２０ａの発話対象の判別を行うことが困難な空間が特定される。

　（３－４）アバタ制御部１２４
　アバタ制御部１２４は、アバタ３０に関する制御を行う機能を有する。例えば、アバタ制御部１２４は、特定部１２３が特定したアバタ表示エリアに基づき、アバタ３０を表示する位置（以下では、アバタ３０の位置とも称される）を設定する。アバタ制御部１２４は、アバタ表示エリアの中であれば、任意の位置にアバタ３０の位置を設定してもよい。

　アバタ制御部１２４は、設定したアバタ３０の位置におけるアバタ３０の表示を制御する。例えば、アバタ制御部１２４は、設定したアバタ３０の位置にアバタ３０を表示できる場合、アバタ３０を表示させる。また、アバタ制御部１２４は、設定したアバタ３０の位置にアバタ３０を表示できない場合、アバタ３０の位置を再設定してアバタ３０を表示させる。

　アバタ制御部１２４は、アバタ３０を表示可能な位置にアバタ３０の位置を設定できない場合、アバタ３０を表示可能な位置ではないが、アバタ表示エリアの中の位置にアバタ３０の位置を設定する。この場合、アバタ制御部１２４は、設定したアバタ３０の位置を示す情報をユーザ２０ａに提示させる。例えば、アバタ制御部１２４は、設定したアバタ３０の位置を、オブジェクトの表示または音声の出力により提示させる。これにより、ユーザ２０ａは、アバタ３０ａが表示されていなくても、表示されるオブジェクトまたは出力される音声により、アバタ３０の位置を知ることができる。

　アバタ制御部１２４は、アバタ３０ａによる所定の行動の実行を制御する。所定の行動は、認識部１２５による音声認識の結果に基づき決定される行動である。例えば、ユーザ２０ａが音声対話エリアの外を見ている時にユーザ２０ａの音声情報が取得された場合、アバタ制御部１２４は、アバタ３０ａに所定の行動を実行させる。例えば、アバタ制御部１２４は、ユーザ２０ａの音声情報に対する音声認識により認識されたユーザ２０ａからの指示をアバタ３０ａに実行させる。一方、ユーザ２０ａが音声対話エリアの中を見ている時にユーザ２０ａの音声情報が取得された場合、アバタ制御部１２４は、アバタ３０ａが所定の行動を実行することを抑制する。抑制とは、例えば、アバタ３０ａがユーザ２０ａの発話に対して反応することを禁止することである。

　上述のように、アバタ制御部１２４は、ユーザ２０ａの音声情報が取得された際に、ユーザ２０ａが音声対話エリアの中を見ているか否かにより、ユーザ２０ａの発話がアバタ３０ａに対するものであるか否かを判別することができる。

　アバタ制御部１２４は、通信部１００を介して、ユーザ２０ｂに対してアバタ３０ｂが表示され得る位置に関する情報を外部装置から取得する。アバタ３０ｂが表示され得る位置は、例えば、情報処理端末１０ｂの特定部１２３が特定するアバタ３０ｂのアバタ表示エリアである。アバタ制御部１２４は、通信部１００を介して、アバタ３０ｂのアバタ表示エリアを示す情報を情報処理端末１０ｂから取得する。そして、取得したアバタ３０ｂのアバタ表示エリアを示す情報を特定部１２３へ出力する。アバタ３０ｂのアバタ表示エリアを示す情報は、例えば、ユーザ２０ａとユーザ２０ｂが共通のアバタを使用する際のアバタ表示エリアの特定に用いられる。

　（３－５）認識部１２５
　認識部１２５は、音声情報に基づき音声認識を行う機能を有する。認識部１２５は、例えば、ユーザ２０ａがアバタ３０ａに対して発話した際に取得される音声情報に対して音声認識を行う。これにより、認識部１２５は、当該音声情報から、ユーザ２０ａのアバタ３０ａに対する指示等を認識することができる。そして、認識部１２５は、音声認識の結果をアバタ制御部１２４へ出力する。

　（４）記憶部１３０
　記憶部１３０は、情報処理端末１０における処理に関するデータを記憶する機能を有する。例えば、記憶部１３０は、取得部１１０により取得される位置情報、視線検出情報、及び音声情報を記憶する。また、記憶部１３０は、制御部１２０において判定された情報、検出された情報、特定された情報、アバタ制御に用いられる情報、及び認識された情報等を記憶してもよい。また、記憶部１３０は、通信部１００を介して取得された情報を記憶してもよい。なお、記憶部１３０が記憶するデータは、上述の例に限定されない。例えば、記憶部１３０は、各種アプリケーション等のプログラムを記憶してもよい。

　（５）表示部１４０
　表示部１４０は、アバタ３０を表示する機能を有し、アバタ制御部１２４が設定した位置にアバタ３０を表示する。これにより、表示部１４０は、ユーザ２０ａによる発話がアバタ３０ａまたはユーザ２０ｂのどちらに対する発話であるかを判別可能な位置に、アバタ３０ａを表示することができる。なお、表示部１４０は、アバタ３０を表示可能な画面により実現され得る。例えば、情報処理端末１０ａがＨＭＤとして構成される場合、表示部１４０は、ユーザ２０ａの左右の眼にそれぞれ固定された左右の画面を備え、左眼用画像および右眼用画像を表示する。表示部１４０の画面は、例えば液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、有機ＥＬ（（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどの表示パネル、または、網膜直描ディスプレイなどのレーザー走査方式ディスプレイで構成される。

　（６）音声出力部１５０
　音声出力部１５０は、制御部１２０から入力される音声を出力する機能を有する。音声出力部１５０は、例えば、制御部１２０から入力されるアバタ３０の表示位置を示す音声を出力する。なお、音声出力部３３０は、例えば、スピーカにより実現され得る。スピーカは、例えば情報処理端末１０がＨＭＤとして構成される場合、ユーザ２０ａの頭部に装着されるヘッドフォンとして構成され、音声信号を再生する。なおスピーカは、ヘッドフォン型に限定されず、イヤフォン、若しくは骨伝導スピーカとして構成されてもよい。

　＜１－３．音声対話エリアとアバタの表示位置＞
　以上、情報処理端末１０の構成について説明した。続いて、音声対話エリアとアバタの表示位置について説明する。本実施形態に係る情報処理端末１０ａは、ユーザ２０ａの視線またはユーザ２０ａの顔の向きに基づき、音声対話エリア４０ａの特定とアバタ３０ａの位置の設定を行う。以下では、ユーザ２０ａとユーザ２０ｂが向かい合い、静止した状態で対話を行う状況を例に説明する。

　（１）視線に基づく音声対話エリアの特定とアバタの位置の設定
　まず、情報処理端末１０ａがユーザ２０ａの視線に基づき音声対話エリア４０ａの特定とアバタ３０ａの設定を行う例について説明する。図３は、本実施形態に係る注視エリアの検出例を示す図である。図４は、本実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。図５は、本実施形態に係るアバタの表示位置の例を示す図である。

　（１－１）注視点の検出
　まず、検出部１２２は、視線検出情報に基づき、視線方向情報としてユーザ２０ａの注視点４１を検出する。例えば、図３に示すように、検出部１２２は、視線検出情報として取得されるユーザ２０ａの眼が撮像された撮像画像に基づき、視線方向情報としてユーザ２０ａの注視点４１を検出する。なお、図３では、検出部１２２により検出される複数の注視点４１の内の一つのみに符号が付されており、他は省略されている。また、検出部１２２は、視線検出情報として取得されるユーザ２０ａの眼電位に基づき、視線方向情報としてユーザ２０ａの注視点４１を検出してもよい。例えば、検出部１２２は、ユーザ２０ａの眼電位からユーザ２０ａの眼の移動を検出し、ユーザ２０ａの眼が移動した方向からユーザ２０ａの注視点４１を検出する。

　検出部１２２は、ユーザ２０ａの注視点４１を検出することで、ユーザ２０ａの視線方向を検出することができる。また、検出部１２２は、ユーザ２０ａの複数の注視点４１を検出することで、ユーザ２０ａの視線方向の分布を取得でき、ユーザ２０ａの視線方向の特定の精度を高めることができる。さらに、検出部１２２は、判定部１２１が判定した位置関係も用いることで、ユーザ２０ａの視線方向の特定の精度をさらに高めることができる。

　（１－２）注視エリアの特定
　次いで、図３に示すように、特定部１２３は、ユーザ２０ａの注視点４１が分布している領域である注視エリア４２を特定する。また、注視エリア４２は、ユーザ２０ａの視度範囲により特定される領域であってもよい。また、注視エリア４２は、予め推定されたユーザ２０ａの視線が動く領域であってもよい。なお、図３に示す注視エリア４２の形状は円形であるが、注視エリア４２の形状は特に限定されない。

　（１－３）音声対話エリアの特定
　そして、特定部１２３は、特定した注視エリア４２と判定部１２１が判定した位置関係に基づき、音声対話エリア４０を特定する。例えば、ユーザ２０ａの注視エリア４２の方向にユーザ２０ｂが位置している場合、ユーザ２０ａがユーザ２０ｂを見ているといえる。よって、特定部１２３は、図４に示すように、ユーザ２０ａとユーザ２０ｂとの間に、音声対話エリア４０があると特定する。音声対話エリア４０は、例えば、ユーザ２０ａの両目の間の位置を頂点、ユーザ２０ａの注視エリア４２を底面とする円錐型の形状をしている。なお、音声対話エリア４０の形状は、特に限定されず、任意の形状であってもよい。

　（１－４）アバタ表示エリアの特定
　また、特定部１２３は、特定した音声対話エリア４０ａと、検出部１２２が検出する視野情報に基づき、アバタ表示エリア５０ａを特定する。まず、検出部１２２は、視野情報としてユーザ２０ａの周辺視野を予め検出しておく。音声対話エリア４０ａがユーザ２０ａの注視点４１に基づき特定された場合、検出部１２２は、ユーザ２０ａの中心視野５２をさらに検出する。そして、特定部１２３は、音声対話エリア４０ａの外、ユーザ２０ａの中心視野５２ａの外、かつユーザ２０ａの周辺視野５４ａの中の領域をアバタ表示エリア５０ａとして特定する。

　特定部１２３が特定した音声対話エリア４０ａと視野情報に基づきアバタ表示エリア５０ａを特定することで、アバタ制御部１２４は、ユーザ２０ａの発話対象を判別が困難な位置へアバタ３０を表示させないことができる。

　（１－５）アバタの位置の設定
　そして、アバタ制御部１２４は、アバタ表示エリア５０ａの中の位置に、アバタ３０ａの位置を設定する。アバタ表示エリア５０ａは、ユーザ２０ａの発話対象の判別を行いやすいエリアとして特定部１２３により特定されたエリアである。そのため、アバタ制御部１２４がアバタ表示エリア５０ａの中の位置にアバタ３０ａの位置を設定することで、制御部１２０は、ユーザ２０ａの発話対象の判別を容易に行うことができる。なお、設定したアバタ３０ａの位置にアバタ３０ａを表示できない場合、アバタ制御部１２４は、アバタ３０ａの位置を再設定してもよい。例えば、図５に示すように、障害物８０が存在する場合、アバタ制御部１２４は、障害物８０を避けて表示可能な位置に、アバタ３０ａの位置を設定する。この時、アバタ制御部１２４は、アバタ３０ａの位置を３次元的に移動させてもよい。例えば、また、水平方向へアバタ３０ａを移動させてもユーザ２０ａの視線または顔の向きの変化が生じる位置を確保できない場合、アバタ制御部１２４は、アバタ３０ａを上下方向へ移動させてもよい。これにより、ユーザ２０ａがアバタ３０ａに対して発話を行う際に、ユーザ２０ａの視線または顔の向きが上下方向を移動するため、制御部１２０は、ユーザ２０ａの発話対象がアバタ３０ａであるか否かを判別することができる。

　（２）顔の向きに基づく音声対話エリアの特定とアバタの位置の設定
　以上、視線に基づく音声対話エリアの特定とアバタの位置の設定について説明した。続いて、情報処理端末１０ａがユーザ２０ａの顔の向きに基づき音声対話エリア４０ａの特定とアバタ３０ａの設定を行う例について説明する。図６は、本実施形態に係る顔の向きに基づく音声対話エリア及びアバタ表示エリアを示す図である。なお、顔の向きに基づき音声対話エリア４０ａの特定とアバタ３０ａの位置の設定は、ユーザ２０ａの視線を検出することが困難な場合に実施される。

　（２－１）顔の向きの検出
　まず、検出部１２２は、視線検出情報として取得されるユーザ２０ａの慣性情報に基づき、視線方向情報としてユーザ２０ａの顔の向きを検出する。

　（２－２）視線移動エリアの特定
　次いで、図６に示すように、特定部１２３は、ユーザ２０ａの顔の向きと判定部１２１が判定した位置関係に基づき、音声対話エリア４０ａを特定する。特定部１２３は、例えば図６に示すように、ユーザ２０ａが向いている方向、かつユーザ２０ａとユーザ２０ｂとの間の空間を音声対話エリア４０ａとして特定する。特定部１２３は、ユーザ２０ａが視線を移動可能な領域である視線移動エリア５６ａをさらに特定する。また、特定部１２３は、例えば、一般的なユーザ２０が視線を移動可能な角度から、視線移動エリア５６ａを特定する。なお、特定部１２３が視線移動エリア５６ａを特定する方法は特に限定されない。

　（２－３）アバタ表示エリアの特定
　アバタ制御部１２４は、図６に示すように、音声対話エリア４０ａの外、視線移動エリア５６ａの外、かつユーザ２０ａの周辺視野５４ａの中の位置をアバタ表示エリア５０ａとして特定する。

　（２－４）アバタの位置の設定
　そして、アバタ制御部１２４は、アバタ表示エリア５０ａの中の位置に、アバタ３０ａの位置を設定する。なお、設定したアバタ３０ａの位置にアバタ３０ａを表示できない場合、アバタ制御部１２４は、上述の「（１－５）アバタの位置の設定」で説明したように、アバタ３０ａの位置を再設定してもよい。

　ユーザ２０ａの視線を検出できない場合、ユーザ２０ａの顔の向きを検出することで、音声対話エリア４０ａを特定することができる。また、特定部１２３が視線移動エリア５６ａも特定することで、アバタ制御部１２４は、音声対話エリア４０ａの近傍でありユーザ２０ａの発話対象の判別が困難な位置へアバタ３０を表示させないことができる。

　（３）音声対話エリアの静的特定
　以上、顔の向きに基づく音声対話エリアの特定とアバタの位置の設定について説明した。続いて、音声対話エリアの静的特定について説明する。上述の例では、音声対話エリアが動的に特定される例について説明したが、音声対話エリアは静的に特定されてもよい。

　例えば、特定部１２３は、ユーザ２０ａとユーザ２０ｂとの間の音声対話が行われ得ると推定される領域を、音声対話エリア４０ａとして予め特定する。特定部１２３は、実物体の種別及び位置情報、並びに当該実物体に関与する会話をユーザ２０ａ及びユーザ２０ｂが行う場合に想定されるユーザ２０ａ及びユーザ２０ｂの位置情報に基づいて、音声対話エリア４０ａを推定する。そして、特定部１２３は、推定した領域を、音声対話エリア４０ａとして特定する。例えば、ユーザ２０ａがスーパーマーケットの店員であり、ユーザ２０ｂがスーパーマーケットの客である場合、特定部１２３は、会計時にユーザ２０ａ及びユーザ２０ｂの間に挟まれると想定される、レジ台上部の空間を、音声対話エリア４０ａとして特定する。なお、実物体の種別及び位置情報、当該実物体に関与する会話をユーザ２０ａ及びユーザ２０ｂが行う場合に想定されるユーザ２０ａ及びユーザ２０ｂの位置情報は、カメラまたはＲＦＩＤ（Ｒａｄｉｏ　Ｆｒｅｑｕｅｎｃｙ　Ｉｄｅｎｔｉｆｉｅｒ）等により事前に取得され、管理され得る。

　（４）音声対話エリアの特定例とアバタの位置の設定例
　以上、音声対話エリアの静的特定について説明した。続いて、音声対話エリアの特定例とアバタの位置の設定例について説明する。上述の例では、ユーザ２０ａとユーザ２０ｂが向かい合い、静止した状態で対話を行う状況を例に説明する。以下では、上述の例とは異なる状況における例について説明する。

　（４－１）対話相手を見ていない場合
　まず、ユーザ２０ａがユーザ２０ｂを見ることなく対話を行っている状況を例に説明する。図７は、本実施形態に係る対話相手を見ていない場合における、音声対話エリア及びアバタ表示エリアを示す図である。図７に示すように、ユーザ２０ａがユーザ２０ｂを見ることなく、ユーザ２０ｂと対話している場合、特定部１２３は、ユーザ２０ａ及びユーザ２０ｂの位置関係に基づき、ユーザ２０ａとユーザ２０ｂとの間の空間を音声対話エリア４０として特定する。ユーザ２０ａとユーザ２０ｂとの間の空間とは、例えば、ユーザ２０ａの頭部とユーザ２０ｂの頭部とを両端部とする柱状の空間である。

　アバタ表示エリア５０は、対話相手を見ている時と同様に特定される。アバタ３０の位置は、例えば、図７に示すように、ユーザ２０ａの左側のアバタ表示エリア５０ａに設定される。ユーザ２０ａの右側のアバタ表示エリア５０ａと、ユーザ２０ｂの左側のアバタ表示エリア５０ｂとが重複する、共通のアバタ表示エリアにアバタ３０の位置が設定されると、ユーザ２０ａのアバタ３０ａをユーザ２０ｂも見ることができる。しかしながら、その場合、ユーザ２０ａから見た共通のアバタ表示エリアに表示されるアバタの位置とユーザ２０ｂの位置との差が微差になるので、ユーザ２０ａの発話がアバタ３０ａとユーザ２０ｂのどちらに対するものであるかの判別が困難になる。そのため、図７に示すように、ユーザ２０ａの左側のアバタ表示エリア５０ａにアバタ３０ａが表示されることが望ましい。

　なお、対話相手を見ていない場合における音声対話エリア４０は、音声情報に基づき特定されてもよい。例えば、特定部１２３は、音声情報に基づき特定される対話相手の位置に基づき、音声対話エリア４０を特定してもよい。また、特定部１２３は、ユーザ２０ａとユーザ２０ｂ間で交互に発話される音声に基づき互いの発話位置を特定し、特定した各々の発話位置を結ぶ空間を音声対話エリア４０として特定してもよい。

　　　（４－１－１）ユーザ２０ａ及びユーザ２０ｂが移動している場合
　続いて、図７に示した状況から、ユーザ２０ａ及びユーザ２０ｂが移動を開始した場合について説明する。図８は、本実施形態に係る移動中における、音声対話エリア及びアバタ表示エリアを示す図である。図９は、本実施形態に係る１人のユーザのみがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。図１０は、本実施形態に係る２人のユーザがアバタを有する場合における、移動開始時のアバタの位置の変化を示す図である。

　図８に示す例では、ユーザ２０ａ及びユーザ２０ｂは、それぞれ矢印８１ａ及び矢印８１ｂの方向へ移動しているものとする。図８に示すように、ユーザ２０ａ及びユーザ２０ｂが並列に並んで移動している場合、アバタ制御部１２４は、ユーザ２０ａとユーザ２０ｂの移動方向の空間の外の位置に、アバタの位置を設定する。例えば、図８に示すユーザ２０ａとユーザ２０ｂの移動方向の矢印８１ａと矢印８１ｂの間の空間は、ユーザ２０ａの発話がアバタ３０ａとユーザ２０ｂのどちらに対するものであるかの判別が困難な空間である。そこで、アバタ制御部１２４は、当該空間を、アバタ３０ａを表示しない空間であるアバタ非表示エリア５８として設定してもよい。そのため、図８に示す例では、図７に示した例の場合と同様に、アバタ制御部１２４は、ユーザ２０ａの左側のアバタ表示エリア５０ａにアバタ３０ａを表示させる。

　なお、ユーザ２０ａ及びユーザ２０ｂの移動開始時に、ユーザ２０ａ及びユーザ２０ｂの方向に変化が生じた場合、アバタ制御部１２４は、当該変化に応じてアバタ３０の位置を変化させてもよい。例えば、図９の上図では、ユーザ２０ａ及びユーザ２０ｂが向かい合っている状態であり、ユーザ２０ａのアバタ３０ａのみがユーザ２０ａの左側のアバタ表示エリア５０ａに表示されている。この状態から、ユーザ２０ａは、図９の下図に示すように、Ｚ軸方向に方向を変えて移動を開始する。この時、アバタ制御部１２４は、ユーザ２０ａが左方向へ回転したことに合わせて、ユーザ２０ａの位置を軸にアバタ表示エリア５０ａ及びアバタ３０ａの位置も左方向へ回転させる。

　また、図１０の上図では、ユーザ２０ａ及びユーザ２０ｂが向かい合っている状態であり、ユーザ２０ａのアバタ３０ａがユーザ２０ａの左側のアバタ表示エリア５０ａに、ユーザ２０ｂのアバタ３０ｂがユーザ２０ｂの右側のアバタ表示エリア５０ｂに表示されている。この状態から、図９の下図に示すように、ユーザ２０ａ及びユーザ２０ｂはＺ軸方向に方向を変えて移動を開始する。この時、アバタ制御部１２４は、ユーザ２０ａが左方向へ回転したことに合わせて、ユーザ２０ａの位置を軸にアバタ表示エリア５０ａ及びアバタ３０ａの位置も左方向へ回転させる。また、アバタ制御部１２４は、ユーザ２０ｂが右方向へ回転したことに合わせて、ユーザ２０ｂの位置を軸にアバタ表示エリア５０ｂ及びアバタ３０ｂの位置も右方向へ回転させる。

　このように、アバタ制御部１２４は、ユーザ２０が方向変化を伴う移動をする際に、ユーザ２０の方向の変化に応じてアバタ３０の表示位置を変更する。これにより、アバタ制御部１２４は、ユーザ２０の移動を邪魔することなくアバタ３０を表示させることができる。また、図９及び図１０に示したように、アバタ制御部１２４は、ユーザ２０から見たアバタ３０の位置をユーザ２０の方向変化の前後で同じ位置にすることができる。これにより、ユーザ２０は、方向変化によりアバタ３０を見失うことなく移動することができる。また、アバタ制御部１２４は、アバタ３０を移動させる際に、アバタ３０の移動経路も表示する等、アバタ３０の移動経路がユーザに分かるようにアバタ３０を移動させてもよい。これにより、アバタ制御部１２４は、移動後のアバタ３０の位置をユーザ２０により認識しやすくさせることができる。

　　　（４－１－２）ユーザ２０ａが作業をしている場合
　続いて、ユーザ２０ａが作業中に、ユーザ２０ｂを見ることなく対話を行っている状況を例に説明する。図１１は、本実施形態に係る作業中における、音声対話エリア及びアバタ表示エリアを示す図である。図１２は、本実施形態に係る遮蔽物を考慮したアバタの表示の例を示す図である。

　例えば、ユーザ２０ａが作業中である場合、アバタ制御部１２４は、ユーザ２０ａが作業を行う領域である作業エリアの外の位置に、アバタ３０ａの位置を設定する。作業エリアは、例えば、ユーザ２０ａの腕の可動する範囲に基づき特定される。具体的に、図１１に示すように、ユーザ２０ａの右腕２２ａの可動する範囲が可動域６２ａである場合、アバタ制御部１２４は、当該可動域６２を作業エリアとして特定する。アバタ制御部１２４は、当該作業エリアを、アバタ３０ａを表示させない領域であるアバタ非表示エリアとして特定する。そして、アバタ制御部１２４は、エリアの外にアバタ３０ａの位置を設定する。例えば、アバタ制御部１２４は、図１１に示すアバタ表示エリア５０ａの中の位置にアバタ３０ａの位置を設定する。また、ユーザ２０ａの中心視野５２ａは、ユーザ２０ａが作業対象等を見ている視野となる。そのため、アバタ制御部１２４は、当該中心視野５２ａの中にもアバタ３０を表示しないようにアバタ３０ａの位置を設定する。これにより、アバタ制御部１２４は、ユーザ２０ａの作業を邪魔しない位置にアバタ３０ａを表示させることができる。

　なお、アバタ制御部１２４は、作業台８２の上の全ての空間を、アバタ３０ａを表示させないアバタ非表示エリアとして特定してもよい。また、ユーザ２０ａが情報での作業を行っていることが検出された場合、アバタ制御部１２４は、上方にはアバタ３０ａを表示しないように、アバタ３０ａの位置を設定してもよい。

　また、ユーザ２０ａの腕の可動域及び周辺視野が検出されている場合、アバタ制御部１２４は、腕の可動域の外かつ周辺視野内にアバタ３０ａの位置を設定する。また、腕の可動域の外でアバタ３０ａの位置を設定できる場所がない場合、アバタ制御部１２４は、腕の可動域の中で腕が可動する可能性が低い位置、かつ周辺視野の中の位置にアバタ３０ａの位置を設定してもよい。また、アバタ３０ａの位置を設定できる場所がない場合、アバタ制御部１２４は、矢印等のオブジェクトまたは音声によりアバタ３０ａの位置をユーザ２０ａに提示してもよい。

　制御部１２０は、ユーザ２０ａが作業中であるか否かを、取得部１１０が取得する情報に基づき検出する。例えば、外向きの撮像装置が撮像した画像からユーザ２０ａが手または脚を動かしていること、及びユーザ２０ａの視線方向情報からユーザ２０ａが手または脚を見ていることが検出された場合、制御部１２０は、ユーザ２０ａが作業中であると判定する。

　ユーザ２０ａが作業中であることが検出された場合、アバタ制御部１２４は、ユーザ２０ａの利き手を考慮した位置にアバタ３０ａの位置を設定してもよい。例えば、アバタ制御部１２４は、ユーザ２０ａの利き手とは反対側にアバタ３０ａの位置を設定する。アバタ制御部１２４は、ユーザ２０ａの利き手を、予めユーザ２０ａに登録された情報に基づき特定する。なお、ユーザ２０ａの利き手の情報が登録されていない場合、アバタ制御部１２４は右手をデフォルト設定としてもよい。

　また、ユーザ２０ａの腕の可動域のみが検出されている場合、制御部１２０は、直前に検出された視線に基づき、現在のユーザ２０ａの視線を推定する。そして、制御部１２０は、検出した腕の可動域と推定したユーザ２０ａの視線に基づき、ユーザ２０ａが作業中であるか否かを検出してもよい。

　また、制御部１２０は、ユーザ２０ａの腕の動きを一定時間検出することで、ユーザ２０ａの腕の動きを学習し、学習した結果に基づき、ユーザ２０ａの腕の可動域を検出してもよい。

　また、図１２の左図に示すアバタ表示エリア５０ａ内に、棚８３等の遮蔽物が存在する場合、当該遮蔽物の位置にアバタ３０ａが表示されないことが望ましい。よって、アバタ制御部１２４は、図１２の右図に示すように、ユーザ２０ａの右腕２２ａの可動域６２ａ及び左腕２４ａの可動域６４ａの外、かつアバタ表示エリア５０ａの中で棚８３が存在しない位置にアバタ３０ａを表示させる。なお、制御部１２０は、当該遮蔽物に関する情報を予め登録しておくことで検出してもよいし、一般物体認識により検出してもよい。

　　（４－２）互いのアバタを使用可能な場合
　続いて、ユーザ２０ａ及びユーザ２０ｂが互いのアバタ３０を使用可能な場合について説明する。図１３は、本実施形態に係るアバタのステータスの提示例を示す図である。ユーザ２０ａとユーザ２０ｂが互いのアバタ３０を使用可能な場合、アバタ制御部１２４は、ユーザ２０ａとユーザ２０ｂの共通のアバタ表示エリアの中に、それぞれのアバタ３０の位置を設定する。例えば、図１３に示すように、アバタ制御部１２４は、ユーザ２０ａの左側のアバタ表示エリア５０ａとユーザ２０ｂの右側のアバタ表示エリア５０ｂの共通のアバタ表示エリアの中にユーザ２０ａのアバタ３０ａの位置を設定する。また、アバタ制御部１２４は、ユーザ２０ａの右側のアバタ表示エリア５０ａとユーザ２０ｂの左側のアバタ表示エリア５０ｂの共通のアバタ表示エリアの中にユーザ２０ｂのアバタ３０ｂの位置を設定する。これにより、ユーザ２０ａとユーザ２０ｂは、互いのアバタ３０をそれぞれ見ることができ、どちらのアバタ３０に対しても対話を行うことができる。

　なお、ユーザ２０ａとユーザ２０ｂが互いのアバタ３０を使用可能な場合、どちらのユーザ２０がどちらのアバタ３０を使用しているかの判別が困難になり得る。そこで、アバタ制御部１２４は、アバタ３０の使用状況を示すステータスを表示させてもよい。例えば、図１３に示すように、ユーザ２０ｂがアバタ３０ａを使用している場合、アバタ制御部１２４は、ユーザ２０ｂがアバタ３０ａを使用していることを示すステータス３４ａを表示させてもよい。また、ユーザ２０ａがアバタ３０ｂを使用している場合、アバタ制御部１２４は、ユーザ２０ａがアバタ３０ｂを使用していることを示すステータス３４ｂを表示させてもよい。当該ステータスは、ステータス３４ａのように円でユーザ２０ｂとアバタ３０ａがつながっていることを示してもよいし、ステータス３４ｂのように線（破線）でユーザ２０ａとアバタ３０ｂがつながっていることを示してもよい。これにより、ユーザ２０は、アバタ３０の使用状況を視覚的に認識することができる。

　また、アバタ制御部１２４は、アバタ３０ａとアバタ３０ｂの位置を離すことで、各ユーザ２０の発話がどちらのアバタ３０に対する発話であるかを判別できるようにしてもよい。また、ユーザ２０ａがアバタ３０ａに対して発話した際に、アバタ制御部１２４は、アバタ３０ｂにアバタ３０ａとの距離を取らせることで、発話対象の判別が容易にできるようにしてもよい。

　　（４－３）共通のアバタを使用する場合
　続いて、ユーザ２０ａとユーザ２０ｂが共通のアバタ３０ｃを使用する場合について説明する。図１４は、本実施形態に係るアバタを共有、かつ共通周辺視野がある場合のアバタの表示例を示す図である。図１５は、本実施形態に係るアバタを共有、かつ共通周辺視野があるが共通周辺視野外へアバタを表示させる場合のアバタの表示例を示す図である。図１６は、本実施形態に係るアバタを共有、かつ共通周辺視野がない場合のアバタの表示例を示す図である。図１４～図１６が示す例は、展示物８４について説明を行う観光案内用のアバタ３０ｃを、ユーザ２０ａとユーザ２０ｂが共有する例について説明する。なお、観光案内用のアバタ３０ｃは、案内する対象の近くに表示位置が設定されることが望ましい。例えば、図１４に示すように、観光案内用のアバタ３０ｃは、展示物８４を説明する都合上、展示物８４から一定距離以上離れない位置にいることが望ましい。よって、図１４～図１６に示す例では、アバタ３０ｃがライン８５よりも展示物８４側（以下では、「ライン８５の内側」とも称される）に位置するものとする。ライン８５とは、展示物８４からの距離が所定距離以内となる空間の境界線である。

　ユーザ２０ａとユーザ２０ｂが共通のアバタを使用する場合、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂとの共通する空間に、共通のアバタ３０ｃの位置を設定する。これにより、ユーザ２０ａとユーザ２０ｂは、共有するアバタ３０ｃを同時に見ることが可能である。例えば、図１４に示す例では、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間は、ユーザ２０ａの右側のアバタ表示エリア５０ａとユーザ２０ｂの左側のアバタ表示エリア５０ｂとの共通する空間である。そのため、アバタ制御部１２４は、当該共通する空間に共通のアバタ３０ｃの位置を設定する。図１４に示す共通のアバタ３０ｃの位置は、ライン８５の内側であるため、アバタ制御部１２４は、当該位置に共通のアバタ３０ｃを表示させることができる。

　しかしながら、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間は、必ずしもライン８５の内側にあるとは限らない。例えば、図１５に示す例では、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間は、ユーザ２０ａの右側のアバタ表示エリア５０ａとユーザ２０ｂの左側のアバタ表示エリア５０ｂとの共通する空間である。当該空間は、ライン８５の外側である。そのため、アバタ制御部１２４は、当該空間に共通のアバタ３０ｃの位置を設定することはできない。この場合、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａまたはユーザ２０ｂの周辺視野５４ｂのいずれかを選択し、選択した周辺視野５４に共通のアバタ３０ｃの位置を設定する。これにより、アバタ制御部１２４は、ユーザ２０ａまたはユーザ２０ｂの少なくとも一方に共通のアバタ３０ｃを見せることができる。図１５に示す例では、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａを選択し、さらにライン８５の内側にあるユーザ２０ａの左側のアバタ表示エリア５０ａの中に共通のアバタ３０ｃの位置を設定している。そのため、少なくともユーザ２０ａは、共通のアバタ３０ｃを見ることができる。

　また、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間が存在しない場合も有り得る。その場合、図１５に示した例と同様に、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａまたはユーザ２０ｂの周辺視野５４ｂのいずれかを選択し、選択した周辺視野５４に共通のアバタ３０ｃの位置を設定する。例えば、図１６に示す例では、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間が存在しない。そこで、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａを選択し、さらにライン８５の内側にあるユーザ２０ａの左側のアバタ表示エリア５０ａの中に共通のアバタ３０ｃの位置を設定している。そのため、少なくともユーザ２０ａは、共通のアバタ３０ｃを見ることができる。

　なお、図１５及び図１６に示した例では、ユーザ２０ｂは共通のアバタ３０ｃを見ることができず、共通のアバタ３０ｃの位置を見失うことが起こり得る。そこで、アバタ制御部１２４は、共通のアバタ３０ｃが表示されていないユーザ２０に対して、共通のアバタ３０ｃの位置を、矢印等のオブジェクトの表示または音声の出力により知らせてもよい。

　なお、アバタ制御部１２４は、状況に応じて共通のアバタ３０ｃの位置を変更してもよい。例えば、共通のアバタ３０ｃがユーザ２０ａのアバタ表示エリア５０ａに表示されているとする。この時、ユーザ２０ｂから共通のアバタ３０ｃに対する発話があった場合、アバタ制御部１２４は、共通のアバタ３０ｃの位置をユーザ２０ｂのアバタ表示エリア５０ｂに変更してもよい。

　また、図１４に示した例のように、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａとユーザ２０ｂの周辺視野５４ｂの共通する空間に共通のアバタ３０ｃの位置を設定したとする。この時、ユーザ２０ａの発話対象が共通のアバタ３０ｃとユーザ２０ｂのどちらであるかの判別が困難である場合、アバタ制御部１２４は、ユーザ２０ａの周辺視野５４ａまたはユーザ２０ｂの周辺視野５４ｂを、共通のアバタ３０ｃの位置として選択してもよい。

　また、各ユーザ２０の位置が移動した場合、アバタ制御部１２４は、各ユーザ２０から見える位置に共通のアバタ３０ｃの位置を再設定することが望ましい。

　（５）音声対話エリアの解除
　以上、音声対話エリアの特定例とアバタの位置の設定例について説明した。続いて、音声対話エリア４０ａの解除について説明する。

　（５－１）音声対話が終了した場合
　アバタ制御部１２４は、ユーザ２０ａの発話が終了してから一定時間以上経過してもユーザ２０ｂの発話がない場合、音声対話終了したとみなし、音声対話エリア４０ａを解除する。また、ユーザ２０ａの発話が終了してから一定時間以内であっても、ユーザ２０ａの注視点４１ａがユーザ２０ｂから外れた場合、アバタ制御部１２４は、音声対話エリア４０ａを解除してもよい。

　（５－２）新しい対話相手との音声対話が開始した場合
　アバタ制御部１２４は、ユーザ２０ａとユーザ２０ｂとの対話が終了していない状態でも、新しいユーザ２０ｃとの対話が開始し、ユーザ２０ａの注視点４１ａがユーザ２０ｃに向いている場合、ユーザ２０ｂとの音声対話エリア４０ａを解除する。そして、アバタ制御部１２４は、ユーザ２０ｃとの音声対話エリア４０ａを新しく特定する。

　なお、一定時間以内に複数のユーザ２０との対話が継続している場合、アバタ制御部１２４は、複数のユーザ２０のそれぞれに対する複数の音声対話エリア４０を維持する。例えば、ユーザ２０ａがユーザ２０ｂとユーザ２０ｃと対話をしており、ユーザ２０ａの注視点４１ａがユーザ２０ｂとユーザ２０ｃのそれぞれに対して向いているとする。この時、アバタ制御部１２４は、ユーザ２０ｂとユーザ２０ｃのそれぞれに対する音声対話エリア４０ａを維持する。

　＜１－４．表示部におけるアバタの表示例＞
　以上、本実施形態に係る音声対話エリアとアバタの表示位置について説明した。続いて、本実施形態に係る表示部１４０におけるアバタ３０ａの表示例について説明する。表示部１４０におけるアバタ３０ａの表示は、表示部１４０におけるユーザ２０ａが見ている位置及び表示部１４０の性能に応じて変化する。

　図１７は、本実施形態に係るアバタが表示されている際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。図１７の上図では、表示部１４０ａの大きさよりも小さい視線検知エリア７２ａの中に、ユーザ２０ａの注視エリア４２ａがある。当該注視エリア４２ａの周りには、図１７の上図に示すようにユーザ２０ａの中心視野５２ａと周辺視野５４ａがある。そして、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中にアバタ３０ａが表示されている。

　上述した図１７の上図の状態から、図１７の上図に示す矢印の方向かつ視線検知エリア７２ａ内の位置へ注視エリア４２ａが移動し、図１７の下図に示す状態に遷移したとする。この時、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中に、アバタ３０ａを表示可能な領域があるため、図１７の下図に示すようにアバタ３０ａが表示される。

　図１８は、本実施形態に係るアバタが表示されている際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。図１８の上図では、表示部１４０ａの大きさよりも小さい視線検知エリア７２ａの中に、ユーザ２０ａの注視エリア４２ａがある。当該注視エリア４２ａの周りには、図１８の上図に示すようにユーザ２０ａの中心視野５２ａと周辺視野５４ａがある。そして、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中にアバタ３０ａが表示されている。

　上述した図１８の上図の状態から、図１８の上図に示す矢印の方向かつ視線検知エリア７２ａ外の位置へユーザ２０ａが注視エリア４２ａを移動し、図１８の下図に示す状態に遷移したとする。この時、注視エリア４２ａが視線検知エリア７２ａの外へ移動しているため、ユーザ２０ａの視線が検知されなくなる。その場合、制御部１２０は、アバタ３０ａの表示をどのように制御すべきかの判別が困難になる。そこで、例えば、制御部１２０は、注視エリア４２ａが視線検知エリア７２ａの外へ移動する直前の注視エリア４２ａの動きに基づき、移動後の注視エリア４２ａの位置を推定する。制御部１２０は、注視エリア４２ａの位置を推定することで、中心視野５２ａ及び周辺視野５４ａの位置も推定することができる。よって、制御部１２０は、推定結果に基づき、アバタ３０ａの表示をどのように制御すべきかを判別することができる。

　例えば、移動後の注視エリア４２ａの位置が図１８の下図に示す位置に移動したと推定された場合、中心視野５２ａ及び周辺視野５４ａの位置も図１８の下図に示すように推定される。この時、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中に、アバタ３０ａを表示可能な領域があるため、図１８の下図に示すようにアバタ３０ａが表示される。

　図１９は、本実施形態に係るアバタが表示されていない際に、視線を視線検知エリア内で移動させた場合における、表示部へのアバタの表示例を示す図である。図１９の上図では、表示部１４０ａの大きさよりも大きい視線検知エリア７２ａの中に、ユーザ２０ａの注視エリア４２ａがある。当該注視エリア４２ａの周りには、図１９の上図に示すようにユーザ２０ａの中心視野５２ａと周辺視野５４ａがある。そして、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中には、アバタ３０ａを表示する十分な領域がないため、アバタ３０ａが表示されていない。

　上述した図１９の上図の状態から、図１９の上図に示す矢印の方向かつ視線検知エリア７２ａ内の位置へユーザ２０ａが注視エリア４２ａを移動し、図１９の下図に示す状態に遷移したとする。この時、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中に、アバタ３０ａを表示可能な領域があるため、図１９の下図に示すようにアバタ３０ａが表示される。

　図２０は、本実施形態に係るアバタが表示されていない際に、視線を視線検知エリア外へ移動させた場合における、表示部へのアバタの表示例を示す図である。図２０の上図では、表示部１４０ａの大きさよりも小さい視線検知エリア７２ａの中に、ユーザ２０ａの注視エリア４２ａがある。当該注視エリア４２ａの周りには、図２０の上図に示すようにユーザ２０ａの中心視野５２ａと周辺視野５４ａがある。そして、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中の領域は、表示部１４０の外の領域となるため、表示部１４０にはアバタ３０ａが表示されていない。

　上述した図２０の上図の状態から、図２０の上図に示す矢印の方向かつ視線検知エリア７２ａ外の位置へユーザ２０ａが注視エリア４２ａを移動し、図２０の下図に示す状態に遷移したとする。この時、注視エリア４２ａが視線検知エリア７２ａの外へ移動しているため、図１８に示した例と同様に、制御部１２０は、注視エリア４２ａが視線検知エリア７２ａの外へ移動する直前の注視エリア４２ａの動きに基づき、移動後の注視エリア４２ａの位置を推定する。

　例えば、移動後の注視エリア４２ａの位置が図２０の下図に示す位置に移動したと推定された場合、中心視野５２ａ及び周辺視野５４ａの位置も図２０の下図に示すように推定される。この時、表示部１４０の中、注視エリア４２ａの外、中心視野５２ａの外、かつ周辺視野５４ａの中の領域が表示部１４０の中にあるが、アバタ３０ａを表示する十分な領域がないため、アバタ３０ａは表示されない。ただし、アバタ３０ａの位置を示すオブジェクト３２ａを表示するための領域はあるため、図２０の下図に示すように、オブジェクト３２ａが表示される。

　＜１－５．情報処理端末における処理の流れ＞
　以上、本実施形態に係る表示部１４０におけるアバタ３０の表示例について説明した。続いて、本実施形態に係る情報処理端末１０における処理の流れについて説明する。本実施形態に係る情報処理端末１０では、例えば、ユーザ２０がどのアバタ３０を使用するかにより、処理の流れを分けることができる。

　（１）各ユーザ２０が自分のアバタ３０を使用する場合
　まず、ユーザ２０が自分のアバタ３０を使用する場合の処理の流れを説明する。図２１は、本開示の実施形態に係る各ユーザが自分のアバタを使用する場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ２０ａがアバタ３０ａを使用する場合に情報処理端末１０ａが行う処理の流れについて説明する。

　まず、情報処理端末１０ａは、ユーザ２０ａの視線検出情報を取得する（Ｓ１００）。情報処理端末１０ａは、取得した視線検出情報からユーザ２０ａの注視点４１ａを検出し、注視点４１ａに基づきユーザ２０ａの注視エリア４２ａを特定する（Ｓ１０２）。次いで、情報処理端末１０ａは、音声情報を取得したか否かを確認する（Ｓ１０４）。音声情報を取得した場合（Ｓ１０４／ＹＥＳ）、情報処理端末１０ａは、さらに、注視エリア４２ａにユーザ２０ｂがいるか否かを確認する（Ｓ１０６）。注視エリア４２ａにユーザ２０ｂがいる場合（Ｓ１０６／ＹＥＳ）、情報処理端末１０ａは、注視エリア４２ａ及び位置関係に基づき、音声対話エリア４０ａを特定する（Ｓ１０８）。

　一方、注視エリア４２にユーザ２０ｂがいない場合（Ｓ１０６／ＮＯ）、情報処理端末１０ａは、位置関係に基づき、音声対話エリア４０ａを特定する（Ｓ１１０）。次いで、情報処理端末１０ａは、ユーザ２０ａの動作に基づき、アバタ非表示エリアを特定する（Ｓ１１２）。

　情報処理端末１０ａは、特定したエリアに基づき、アバタ表示エリア５０ａを特定する（Ｓ１１４）。そして、情報処理端末１０ａは、設定したアバタ表示エリア５０ａ内に、アバタ３０ａを表示し（Ｓ１１６）、処理を終了する。

　（２）各ユーザ２０が共通のアバタ３０ｃを使用する場合
　続いて、各ユーザ２０が共通のアバタ３０ｃを使用する場合の処理の流れを説明する。図２２は、本開示の実施形態に係る各ユーザが共通のアバタを使用する場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ２０ａ及びユーザ２０ｂが共通のアバタ３０ｃを使用する場合に情報処理端末１０ａが行う処理の流れについて説明する。

　まず、情報処理端末１０ａは、ユーザ２０ａのアバタ３０ａのアバタ表示エリア５０ａを設定する（Ｓ２００）。次いで、情報処理端末１０ａは、ユーザ２０ｂのアバタ３０ｂのアバタ表示エリア５０ｂを示す情報を取得する（Ｓ２０２）。

　取得後、情報処理端末１０ａは、アバタ表示エリア５０ａとアバタ表示エリア５０ｂに共通するエリアがあるか否かを確認する（Ｓ２０４）。共通するエリアがある場合（Ｓ２０４／ＹＥＳ）、情報処理端末１０ａは、共通するアバタ表示エリアに共通のアバタ３０ｃを表示し（Ｓ２０６）、処理を終了する。

　共通するエリアがない場合（Ｓ２０４／ＮＯ）、情報処理端末１０ａは、ユーザ２０ａのアバタ表示エリア５０ａを選択するか否かを確認する（Ｓ２０８）。ユーザ２０ａのアバタ表示エリア５０ａを選択する場合（Ｓ２０８／ＹＥＳ）、情報処理端末１０ａは、ユーザ２０ａのアバタ表示エリア５０ａに共通のアバタ３０ｃを表示し（Ｓ２１０）、処理を終了する。

　ユーザ２０ａのアバタ表示エリア５０ａを選択しない場合（Ｓ２０８／ＮＯ）、情報処理端末１０ａは、ユーザ２０ｂのアバタ表示エリア５０ｂに共通のアバタ３０ｃを表示する（Ｓ２１２）。次いで、情報処理端末１０ａは、ユーザ２０ａに共通のアバタ３０ｃの位置を提示し（Ｓ２１４）、処理を終了する。

　（３）各ユーザ２０が互いのアバタ３０を使用可能な場合
　最後に、各ユーザ２０が互いのアバタ３０を使用可能な場合の処理の流れを説明する。図２３は、本開示の実施形態に係る各ユーザが互いのアバタを使用可能な場合の処理の流れを示すフローチャートである。以下では、具体的に、ユーザ２０ａがアバタ３０ａ、ユーザがアバタ３０ｂをそれぞれ有し、互いのアバタ３０を使用可能な場合に情報処理端末１０ａが行う処理の流れについて説明する。

　まず、情報処理端末１０ａは、ユーザ２０ａのアバタ表示エリア５０ａを設定する（Ｓ３００）。次いで、情報処理端末１０ａは、ユーザ２０ｂのアバタ３０ｂのアバタ表示エリア５０ｂを示す情報を取得する（Ｓ３０２）。

　取得後、情報処理端末１０ａは、アバタ表示エリア５０ａとアバタ表示エリア５０ｂに共通するアバタ表示エリアがあるか否かを確認する（Ｓ３０４）。共通するアバタ表示エリアがある場合（Ｓ３０４／ＹＥＳ）、情報処理端末１０ａは、さらに、ユーザ２０ａのアバタ３０ａへの対話とユーザ２０ｂに対する発話であるか否かを判別可能な共通するアバタ表示エリアがあるか否かを確認する（Ｓ３０６）。

　発話対象を判別可能な共通するアバタ表示エリアがある場合（Ｓ３０６／ＹＥＳ）、情報処理端末１０は、共通するアバタ表示エリアにユーザ２０ａのアバタ３０ａを表示する（Ｓ３０８）。発話対象を判別可能な共通するアバタ表示エリアがある場合（Ｓ３０６／ＹＥＳ）、情報処理端末１０は、共通するアバタ表示エリアにユーザ２０ａのアバタ３０ａを表示する（Ｓ３０８）。

　共通するアバタ表示エリアがない場合（Ｓ３０４／ＮＯ）、または発話対象を判別可能な共通するアバタ表示エリアがない場合（Ｓ３０６／ＮＯ）、情報処理端末１０は、ユーザ２０ａのアバタ表示エリア５０ａにユーザ２０ａのアバタ３０ａを表示する（Ｓ３１０）。次いで、情報処理端末１０ａは、ユーザ２０ａのアバタ３０ａの位置を示す情報をユーザ２０ｂの情報処理端末１０ｂへ送信して表示させ（Ｓ３１２）、処理を終了する。

＜＜２．第２の実施形態＞＞
　以上、本開示の第１の実施形態について説明した。続いて、本開示の第２の実施形態について説明する。上述の第１の実施形態では、情報処理端末１０がＨＭＤにより実現される例について説明した。第２の実施形態では、情報処理端末１０が実空間に仮想オブジェクトを提示可能な装置により実現される例について説明する。なお、以下に説明する第２の実施形態では、上述した第１の実施形態と異なる点についてのみ説明する。

　＜２－１．概要＞
　まず、本開示の第２の実施形態に係る情報処理システムの概要について説明する。図２４は、本開示の第２の実施形態に係る情報処理システムの概要を示す図である。第２の実施形態に係る情報処理システムは、天井に設けられた情報処理端末９０により、仮想オブジェクト３０を壁面９１または壁面９２等に投影することで、仮想オブジェクト３０をユーザ２０に提示する。壁面９１、壁面９２及び床は、情報が投影される投影面の一例である。

　例えば、図２４に示すように、ユーザ２０ａとユーザ２０ｂは、第１の実施形態とは異なり、特に端末を装着する必要はない。ユーザ２０ａがアバタ３０ａを有する場合、アバタ３０ａは、実空間内の壁面９１または壁面９２等に情報処理端末９０の出力部１６０により表示（即ち、投影）される。この時、情報処理端末９０は、取得部１１０によりアバタ３０ａの位置の設定に必要な情報を取得する。そして、情報処理端末９０は、取得部１１０が取得した情報に基づき、アバタ３０ａの位置を設定し、設定した位置に出力部１６０によりアバタ３０ａを表示する。例えば、アバタ３０ａは、図２４に示すように、実空間内の壁面９１に出力部１６０により提示される。位置の設定に必要な情報は、ユーザ２０ａの位置情報、視線検出情報、及び音声情報、並びにユーザ２０ｂの位置情報である。

　＜２－２．情報処理端末の構成＞
　続いて、第２の実施形態に係る情報処理端末９０の構成について説明する。図２５は、本実施形態に係る情報処理端末の構成例を示すブロック図である。第２の実施形態に係る情報処理端末９０は、第１の実施形態に係る情報処理端末１０と比較して、表示部１４０及び音声出力部１５０がない代わりに、出力部１６０を有する点が異なる。なお、情報処理端末９０における出力部１６０以外の機能は、情報処理端末１０における機能と同一のため、その説明を省略する。

　（１）出力部１６０
　出力部１６０は、仮想オブジェクトを実空間に表示する装置である。出力部１６０は、制御部１２０から入力される指示に従い、仮想オブジェクトを実空間に表示する。例えば、出力部１６０は、取得部１１０が取得した情報に基づき、第１の実施形態と同様にしてアバタ制御部１２４が設定したアバタ３０の位置に、ユーザ２０ａのアバタ３０ａを表示する。出力部１６０には、例えば、プロジェクタが用いられる。図２４に示す例では、出力部１６０は、例えば、天井から吊り下げられた状態で配置される。

　＜２－３．音声対話エリアとアバタの表示位置＞
　以上、情報処理端末９０の構成について説明した。続いて、音声対話エリアとアバタの表示位置について説明する。本実施形態に係る情報処理端末９０は、ユーザ２０ａの視線またはユーザ２０ａの顔の向きに基づき、音声対話エリア４０ａの特定とアバタ３０ａの位置の設定を行う。以下では、ユーザ２０ａとユーザ２０ｂが向かい合い、静止した状態で対話を行う状況を例に説明する。

　図２６は、本実施形態に係る視線に基づく音声対話エリア及びアバタ表示エリアを示す図である。なお、情報処理端末９０が音声対話エリア４０ａを特定する方法は、情報処理端末１０と同一のため、その説明を省略する。

　第２の実施形態では、ユーザ２０ａの視線または顔の向きのいずれかに基づく音声対話エリア４０ａを特定後の、アバタ３０ａの位置の設定方法が、第１の実施形態とは一部異なる。例えば、アバタ表示エリア５０ａではなく、実空間内の壁面９１または壁面９２等にアバタ３０ａを表示する場合、情報処理端末９０は、ユーザ２０ｂと投影面との位置関係を考慮する。例えば、図２６に示す壁面９２の矢印９３の範囲は、ユーザ２０ａの中心視野５２ａを壁面９２の位置まで延長した際に、ユーザ２０ａの中心視野に入り得る壁面９２の範囲である。そのため、矢印９３の範囲にアバタ３０ａが表示されると、ユーザ２０ａの発話がユーザ２０ｂとアバタ３０ａのどちらに対するものであるかの判別が困難になり得る。

　そこで、情報処理端末９０は、例えば、ユーザ２０ａの中心視野の方向に存在する壁面にはアバタ３０ａを表示しないように、アバタ３０ａの表示処理を制御する。これにより、情報処理端末９０は、ユーザ２０ａの発話がユーザ２０ｂとアバタ３０ａのどちらに対するものであるかの判別が困難になり得る位置へのアバタ３０ａの表示を抑制することができる。

＜＜３．ハードウェア構成例＞＞
　最後に、図２７を参照しながら、本実施形態に係る情報処理装置のハードウェア構成例について説明する。図２７は、本実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図２７に示す情報処理装置９００は、例えば、図２に示した情報処理端末１０を実現し得る。本実施形態に係る情報処理端末１０による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図２７に示すように、情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３を備える。また、情報処理装置９００は、ホストバス９０４ａ、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１０、及び通信装置９１１を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　ＣＰＵ９０１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０２、ＲＡＭ９０３、又はストレージ装置９０８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０２は、ＣＰＵ９０１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０３には、例えば、ＣＰＵ９０１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはＣＰＵバスなどから構成されるホストバス９０４ａにより相互に接続されている。ＣＰＵ９０１、ＲＯＭ９０３およびＲＡＭ９０５は、例えば、ソフトウェアとの協働により、図２及び図２５を参照して説明した制御部１２０の機能を実現し得る。

　ＣＰＵ９０１、ＲＯＭ９０２、及びＲＡＭ９０３は、例えば、高速なデータ伝送が可能なホストバス９０４ａを介して相互に接続される。一方、ホストバス９０４ａは、例えば、ブリッジ９０４を介して比較的データ伝送速度が低速な外部バス９０４ｂに接続される。また、外部バス９０４ｂは、インタフェース９０５を介して種々の構成要素と接続される。

　入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

　他にも、入力装置９０６は、ユーザに関する情報を検知する装置により形成され得る。例えば、入力装置９０６は、画像センサ（例えば、カメラ）、深度センサ（例えば、ステレオカメラ）、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ（例えば、ＴｏＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）センサ）、力センサ等の各種のセンサを含み得る。また、入力装置９０６は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得してもよい。また、入力装置９０６は、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）衛星からのＧＮＳＳ信号（例えば、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）衛星からのＧＰＳ信号）を受信して装置の緯度、経度及び高度を含む位置情報を測定するＧＮＳＳモジュールを含んでもよい。また、位置情報に関しては、入力装置９０６は、Ｗｉ－Ｆｉ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置９０６は、例えば、図２及び図２５を参照して説明した取得部１１０の機能を実現し得る。

　出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドフォン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば、図２を参照して説明した表示部１４０及び音声出力部１５０、並びに図２５を参照して説明した出力部１６０の機能を実現し得る。

　ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図２及び図２５を参照して説明した記憶部１３０の機能を実現し得る。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

　接続ポート９１０は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。

　通信装置９１１は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１１は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９１１は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１１は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。通信装置９１１は、例えば、図２及び図２５を参照して説明した通信部１００の機能を実現し得る。

　なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

＜＜４．まとめ＞＞
　以上説明したように、本開示の実施形態に係る情報処理装置は、ユーザ２０ａの位置情報、視線検出情報、及び音声情報、並びにユーザ２０ｂの位置情報を取得する。情報処理装置は、取得したユーザ２０ａの位置情報とユーザ２０ｂの位置情報に基づき、ユーザ２０ａとユーザ２０ｂの位置関係を判定する。そして、判定された位置関係に基づき、ユーザ２０ａとユーザ２０ｂとの間の音声対話が行われ得る音声対話エリア４０ａを特定し、特定した音声対話エリア４０ａの外にアバタ３０ａの位置を設定する。これにより、情報処理装置は、視線検出情報からユーザ２０ａの発話対象の判別が困難になり得る位置にアバタ３０ａを表示することを抑制できる。

　さらに、ユーザ２０ａが音声対話エリア４０ａの外を見ている時にユーザ２０ａの音声情報が取得された場合、情報処理装置は、アバタ３０ａに所定の行動を実行させる。一方、ユーザ２０ａが音声対話エリア４０ａの中を見ている時にユーザ２０ａの音声情報が取得された場合、情報処理装置は、アバタ３０ａが所定の行動を実行することを抑制する。これにより、情報処理装置は、ユーザ２０ａがアバタ３０ａに対して行った指示に基づく行動をアバタ３０ａに適切に実行させることができる。

　よって、アバタの誤動作を抑制することが可能な、新規かつ改良された情報処理装置、情報処理方法、及び記録媒体を提供することが可能である。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図２に示した情報処理端末１０が備える取得部１１０と制御部１２０の少なくともいずれか一方が、単独の装置として実現されてもよい。例えば、取得部１１０は、センサ装置等の独立した装置として実現され、ネットワーク等を介して情報処理端末１０と接続されてもよい。また、制御部１２０は、サーバ装置等の独立した装置として実現され、ネットワーク等を介して情報処理端末１０と接続されてもよい。

　また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体（非一時的な媒体：ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｍｅｄｉａ）に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にＲＡＭに読み込まれ、ＣＰＵなどのプロセッサにより実行される。

　また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
　特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
を備え、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置。
（２）
　前記第１のユーザの視線方向情報及び周辺視野を検出する検出部をさらに備え、
　前記特定部は、前記第１のユーザが前記第２のユーザと対話している時の前記第１のユーザの前記視線方向情報に基づき、前記音声対話エリアを特定する、前記（１）に記載の情報処理装置。
（３）
　前記検出部は、前記視線検出情報に基づき、前記視線方向情報として前記第１のユーザの注視点を検出し、
　前記特定部は、前記第１のユーザの前記注視点が分布している領域である注視エリアを特定し、前記注視エリアと前記位置関係に基づき、前記音声対話エリアを特定する、前記（２）に記載の情報処理装置。
（４）
　前記音声対話エリアが前記第１のユーザの前記注視点に基づき特定された場合、
　前記検出部は、前記第１のユーザの中心視野をさらに検出し、
　前記アバタ制御部は、前記音声対話エリアの外、前記第１のユーザの前記中心視野の外、かつ前記第１のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、前記（３）に記載の情報処理装置。
（５）
　前記検出部は、前記視線検出情報として取得される前記第１のユーザの慣性情報に基づき、前記視線方向情報として前記第１のユーザの顔の向きを検出し、
　前記特定部は、前記第１のユーザの前記顔の向きに基づき、前記音声対話エリアを特定する、前記（２）に記載の情報処理装置。
（６）
　前記音声対話エリアが前記第１のユーザの前記顔の向きに基づき特定された場合、
　前記特定部は、前記第１のユーザが視線を移動可能な領域である視線移動エリアをさらに特定し、
　前記アバタ制御部は、前記音声対話エリアの外、前記視線移動エリアの外、かつ前記第１のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、前記（５）に記載の情報処理装置。
（７）
　前記第１のユーザと前記第２のユーザが共通のアバタを使用する場合、
　前記アバタ制御部は、前記第１のユーザの前記周辺視野と前記第２のユーザの前記周辺視野との共通する空間に、前記共通のアバタの位置を設定する、前記（２）～（６）のいずれか一項に記載の情報処理装置。
（８）
　前記第１のユーザと前記第２のユーザが共通のアバタを使用する場合、
　前記アバタ制御部は、前記第１のユーザの前記周辺視野または前記第２のユーザの前記周辺視野のいずれかを選択し、選択した前記周辺視野に前記共通のアバタの位置を設定する、前記（２）～（６）のいずれか一項に記載の情報処理装置。
（９）
　前記特定部は、前記第１のユーザと前記第２のユーザとの間の前記音声対話が行われ得ると推定される領域を、前記音声対話エリアとして予め特定する、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記第１のユーザが前記第２のユーザを見ることなく、前記第２のユーザと対話している場合、
　前記特定部は、前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の空間を前記音声対話エリアとして特定する、前記（２）～（９）のいずれか一項に記載の情報処理装置。
（１１）
　前記第１のユーザ及び前記第２のユーザが並列に並んで移動している場合、
　前記アバタ制御部は、前記第１のユーザと前記第２のユーザの移動方向の空間の外の位置に、前記アバタの位置を設定する、前記（１０）に記載の情報処理装置。
（１２）
　前記第１のユーザが作業中である場合、
　前記アバタ制御部は、前記第１のユーザが作業を行う領域である作業エリアの外の位置に、前記アバタの位置を設定する、前記（１０）に記載の情報処理装置。
（１３）
　前記アバタ制御部は、前記アバタの位置を、オブジェクトの表示または音声の出力により提示させる、前記（１）～（１２）のいずれか一項に記載の情報処理装置。
（１４）
　前記音声情報に基づき音声認識を行う認識部をさらに備え、
　前記所定の行動は、前記認識部による前記音声認識の結果に基づき決定される行動である、前記（１）～（１３）のいずれか一項に記載の情報処理装置。
（１５）
　前記取得部は、前記第１のユーザ及び前記第２のユーザの前記音声情報を取得するマイクを備え、前記マイクが取得する前記音声情報に基づき、前記第２のユーザの前記位置情報を取得する、前記（１）～（１４）のいずれか一項に記載の情報処理装置。
（１６）
　前記取得部は、前記第１のユーザの周辺を撮像可能な撮像装置を備え、前記撮像装置が撮像する画像に基づき、前記第２のユーザの前記位置情報を取得する、前記（１）～（１５）のいずれか一項に記載の情報処理装置。
（１７）
　前記情報処理装置は、通信部をさらに備え、
　前記アバタ制御部は、前記通信部による通信を介して、前記第２のユーザに対して前記アバタが表示され得る位置に関する情報を外部装置から取得する、前記（１）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記情報処理装置は、表示部をさらに備え、
　前記表示部は、前記アバタ制御部が設定した前記位置に前記アバタを表示する、前記（１）～（１７）のいずれか一項に記載の情報処理装置。
（１９）
　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得することと、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定することと、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、
　特定された前記音声対話エリアの外にアバタの位置を設定することと、
を含み、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法。
（２０）
　コンピュータを、
　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
　特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
として機能させ、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体。

　１０　情報処理端末
　２０　ユーザ
　３０　アバタ
　９０　情報処理端末
　１００　通信部
　１１０　取得部
　１１１　位置情報取得部
　１１２　視線検出情報取得部
　１１３　音声情報取得部
　１２０　制御部
　１２１　判定部
　１２２　検出部
　１２３　特定部
　１２４　アバタ制御部
　１２５　認識部
　１３０　記憶部
　１４０　表示部
　１５０　音声出力部
　１６０　出力部

Claims

　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
　特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
を備え、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制する、情報処理装置。
　前記第１のユーザの視線方向情報及び周辺視野を検出する検出部をさらに備え、
　前記特定部は、前記第１のユーザが前記第２のユーザと対話している時の前記第１のユーザの前記視線方向情報に基づき、前記音声対話エリアを特定する、請求項１に記載の情報処理装置。
　前記検出部は、前記視線検出情報に基づき、前記視線方向情報として前記第１のユーザの注視点を検出し、
　前記特定部は、前記第１のユーザの前記注視点が分布している領域である注視エリアを特定し、前記注視エリアと前記位置関係に基づき、前記音声対話エリアを特定する、請求項２に記載の情報処理装置。
　前記音声対話エリアが前記第１のユーザの前記注視点に基づき特定された場合、
　前記検出部は、前記第１のユーザの中心視野をさらに検出し、
　前記アバタ制御部は、前記音声対話エリアの外、前記第１のユーザの前記中心視野の外、かつ前記第１のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、請求項３に記載の情報処理装置。
　前記検出部は、前記視線検出情報として取得される前記第１のユーザの慣性情報に基づき、前記視線方向情報として前記第１のユーザの顔の向きを検出し、
　前記特定部は、前記第１のユーザの前記顔の向きに基づき、前記音声対話エリアを特定する、請求項２に記載の情報処理装置。
　前記音声対話エリアが前記第１のユーザの前記顔の向きに基づき特定された場合、
　前記特定部は、前記第１のユーザが視線を移動可能な領域である視線移動エリアをさらに特定し、
　前記アバタ制御部は、前記音声対話エリアの外、前記視線移動エリアの外、かつ前記第１のユーザの前記周辺視野の中の位置に、前記アバタの位置を設定する、請求項５に記載の情報処理装置。
　前記第１のユーザと前記第２のユーザが共通のアバタを使用する場合、
　前記アバタ制御部は、前記第１のユーザの前記周辺視野と前記第２のユーザの前記周辺視野との共通する空間に、前記共通のアバタの位置を設定する、請求項２に記載の情報処理装置。
　前記第１のユーザと前記第２のユーザが共通のアバタを使用する場合、
　前記アバタ制御部は、前記第１のユーザの前記周辺視野または前記第２のユーザの前記周辺視野のいずれかを選択し、選択した前記周辺視野に前記共通のアバタの位置を設定する、請求項２に記載の情報処理装置。
　前記特定部は、前記第１のユーザと前記第２のユーザとの間の前記音声対話が行われ得ると推定される領域を、前記音声対話エリアとして予め特定する、請求項１に記載の情報処理装置。
　前記第１のユーザが前記第２のユーザを見ることなく、前記第２のユーザと対話している場合、
　前記特定部は、前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の空間を前記音声対話エリアとして特定する、請求項２に記載の情報処理装置。
　前記第１のユーザ及び前記第２のユーザが並列に並んで移動している場合、
　前記アバタ制御部は、前記第１のユーザと前記第２のユーザの移動方向の空間の外の位置に、前記アバタの位置を設定する、請求項１０に記載の情報処理装置。
　前記第１のユーザが作業中である場合、
　前記アバタ制御部は、前記第１のユーザが作業を行う領域である作業エリアの外の位置に、前記アバタの位置を設定する、請求項１０に記載の情報処理装置。
　前記アバタ制御部は、前記アバタの位置を、オブジェクトの表示または音声の出力により提示させる、請求項１に記載の情報処理装置。
　前記音声情報に基づき音声認識を行う認識部をさらに備え、
　前記所定の行動は、前記認識部による前記音声認識の結果に基づき決定される行動である、請求項１に記載の情報処理装置。
　前記取得部は、前記第１のユーザ及び前記第２のユーザの前記音声情報を取得するマイクを備え、前記マイクが取得する前記音声情報に基づき、前記第２のユーザの前記位置情報を取得する、請求項１に記載の情報処理装置。
　前記取得部は、前記第１のユーザの周辺を撮像可能な撮像装置を備え、前記撮像装置が撮像する画像に基づき、前記第２のユーザの前記位置情報を取得する、請求項１に記載の情報処理装置。
　前記情報処理装置は、通信部をさらに備え、
　前記アバタ制御部は、前記通信部による通信を介して、前記第２のユーザに対して前記アバタが表示され得る位置に関する情報を外部装置から取得する、請求項１に記載の情報処理装置。
　前記情報処理装置は、表示部をさらに備え、
　前記表示部は、前記アバタ制御部が設定した前記位置に前記アバタを表示する、請求項１に記載の情報処理装置。
　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得することと、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定することと、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定することと、
　特定された前記音声対話エリアの外にアバタの位置を設定することと、
を含み、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記設定することは、前記アバタが前記所定の行動を実行することを抑制する、プロセッサにより実行される情報処理方法。
　コンピュータを、
　第１のユーザの位置情報、視線検出情報、及び音声情報、並びに第２のユーザの位置情報を取得する取得部と、
　前記第１のユーザの前記位置情報と前記第２のユーザの前記位置情報に基づき、前記第１のユーザと前記第２のユーザの位置関係を判定する判定部と、
　判定された前記位置関係に基づき、前記第１のユーザと前記第２のユーザとの間の音声対話が行われ得る音声対話エリアを特定する特定部と、
　特定された前記音声対話エリアの外にアバタの位置を設定するアバタ制御部と、
として機能させ、
　前記第１のユーザが前記音声対話エリアの外を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタに所定の行動を実行させ、
　前記第１のユーザが前記音声対話エリアの中を見ている時に前記第１のユーザの前記音声情報が取得された場合、前記アバタ制御部は、前記アバタが前記所定の行動を実行することを抑制するためのプログラムが記録された記録媒体。