WO2023281820A1

WO2023281820A1 - 情報処理装置、情報処理方法、記憶媒体

Info

Publication number: WO2023281820A1
Application number: PCT/JP2022/010264
Authority: WO
Inventors: 孝悌清水
Original assignee: ソニーグループ株式会社
Priority date: 2021-07-08
Filing date: 2022-03-09
Publication date: 2023-01-12

Abstract

情報処理装置は、仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えたものとした。

Description

情報処理装置、情報処理方法、記憶媒体

　本技術は、仮想空間を利用した音響再生のための処理を行う情報処理装置、情報処理方法、記憶媒体の技術分野に関する。

　ユーザに紐づけられたアバターなどの仮想キャラクタを仮想空間に配し、仮想空間における該仮想キャラクタの位置に応じた音響再生を行うことにより、仮想空間において催されるイベント等への没入感を高める技術が知られている。

　例えば、下記特許文献１においては、実空間から取得された音声を仮想空間内の音声データとして出力する際に、仮想空間内の聴取位置などに基づいて実空間からの音声にエフェクトをかけて出力を行うことが記載されている。これによって仮想空間への没入感を高めることができる。

特開２０２０－１８８４３５号公報

　ところが、ユーザにとっては聞きたい音響と聞きたくない音響があり、いずれの音響についても同様にエフェクトをかけて出力してしまうと、ユーザにとって必ずしも好ましい音響再生が行われるとは限らない。

　本技術はこのような問題に鑑みて為されたものであり、ユーザがリモートによって参加可能なイベントにおいて適切な音響再生を伴うユーザ体験を提供することを目的とする。

　本技術に係る情報処理装置は、仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えたものである。
　関心情報とは、音響に対しての関心情報である。そして、音響とは、環境音や発話音声などである。環境音とは、仮想空間において発せられる音、例えば、音楽コンサートにおける演奏音や演奏開始を伝えるためのアナウンス放送音や、演者が発する音声などである。また、発話音声は、視聴者が発する音声などである。
　各視聴者は、仮想空間において自身の分身として配置されるアバターの位置等に応じた音響を体験することができる。
　情報処理装置は、第１ユーザの関心情報に基づいて環境音と発話音声の何れかを強調制御するための制御情報や、双方を強調制御するための制御情報を生成する。

仮想空間において催されるコンサートについての概要を説明するための図である。提供システムの構成例を示すブロック図である。クライアントシステムの構成例を示すブロック図である。コンピュータ装置のブロック図である。機械学習に関する処理の流れの一例を示すフローチャートである。第１の実施の形態における音量調整の処理の流れを示すフローチャートである。第１の実施の形態における音量調整の処理の流れの別の例を示すフローチャートである。第２の実施の形態における音量調整の処理の流れを示すフローチャートである。許可エリアに位置しているか否かを判定するための手法について説明するための図である。仮想空間に配置された三次元テキストの一例を示す図である。第３の実施の形態における音量調整の処理の流れを示すフローチャートである。アバターの表示色を変更する例を説明するための図である。音声チャットの開始要求を通知するための表示を行う例を説明するための図である。アバターを疑似的に移動させる例を説明するための図である。第４の実施の形態における強調制御を行うための処理の流れを示すフローチャートである。

　以下、添付図面を参照し、本技術に係る実施の形態を次の順序で説明する。
＜１．システム構成＞
＜２．コンピュータ装置＞
＜３．第１の実施の形態＞
＜４．第２の実施の形態＞
＜５．第３の実施の形態＞
＜６．第４の実施の形態＞
＜７．変形例＞
＜８．まとめ＞
＜９．本技術＞

＜１．システム構成＞
　仮想空間ＶＳを用いたエンターテインメントを提供するためのシステム構成について添付図を参照しながら説明する。

　先ず、仮想空間ＶＳを用いてユーザに提供されるエンターテインメントの概要について図１を参照して説明する。なお、ユーザに提供されるエンターテインメントとしては、各種考えられるが、以降の説明においては、音楽コンサートを例に挙げる。

　仮想空間ＶＳには、演奏者や歌い手などの演者を模した三次元オブジェクトが配置されている。演者の動きは、実空間における演者の動きにリンクして仮想空間ＶＳで再現される。演者の動き、即ち、関節の動きは、例えば、多角的に演者を撮像した複数の撮像画像から得る。

　演者は、仮想空間ＶＳにおいてユーザが注目する対象物である。
　仮想空間ＶＳにおける演者の態様としては、例えば、コンサート会場に設置されたスクリーン上に投影された実写の人物や仮想のキャラクタや、実写によるボリュメトリック撮像体や、仮想キャラクタのＣＧ（Computer Graphics）キャラクタなどが挙げられる。また、展示会等においては、展示物としての展示動画や展示画像などが演者の一態様である。
　以下の説明においては、演者が実写の人物や仮想のキャラクタである場合を例に挙げて説明する。

　仮想空間ＶＳにおいては、ユーザに紐づけられた仮想キャラクタであるアバターＡＴが配置される。仮想空間ＶＳにおける各アバターＡＴの挙動は、それぞれのユーザの動きや操作に応じたものとなる。

　例えば、ユーザが右を向くことにより仮想空間ＶＳに配置されたアバターＡＴの顔が右を向くようにされていてもよい。

　或いは、ユーザが実空間で移動したことに応じて仮想空間ＶＳにおけるアバターＡＴが移動してもよいし、ユーザがコントローラを操作することによりアバターＡＴが仮想空間ＶＳにおいて移動してもよい。

　また、ユーザが実空間で喋ったことに応じて、仮想空間ＶＳにおいて当該ユーザのアバターＡＴの近くに配置された別のアバターＡＴを操作する他のユーザに対して発話内容が伝達されてもよい。換言すれば、ユーザは、仮想空間ＶＳにおいて仮想的に近傍に配置されているユーザに対して話しかけることが可能とされている。

　そして、それらの発話内容に基づく音響再生は、発話したユーザのアバターＡＴとの距離と方向に応じて行われてもよい。即ち、発話したユーザのアバターＡＴが聞き手とされたユーザのアバターＡＴの右側にいた場合には、右側から聞こえるように音響再生されると共に、その再生音の大きさは、双方のアバターの距離に応じたものとされる。

　また、前述した演奏者による演奏音や歌い手による歌声についても、アバターＡＴと演奏者や歌い手との距離や方向に応じて音響再生が行われる。もちろん、演奏音や歌声が仮想空間ＶＳに配置されたスピーカから聞こえるように音響再生してもよく、その場合には、アバターＡＴとスピーカの位置関係や距離に応じた音響再生がなされる。

　このような仮想空間ＶＳにおいては、アバターＡＴに対して種々の方向から種々の音響が聞こえるかのように音響再生が行われる。

　図１に示す例では、ユーザＵに紐付けられたアバターＡＴが仮想空間ＶＳに配置されている。更に、演者についての三次元オブジェクトであるアバターＡＴ０が仮想空間ＶＳに配置されている。

　第１アバターＡＴ１を操作する第１ユーザＵ１に対して、演者からアバターＡＴ０を介して聞こえてくる演奏音や歌声と、スピーカから聞こえてくる館内放送などの音と、第２ユーザＵ２の第２アバターＡＴ２から聞こえてくる第２ユーザＵ２の発話音声などがそれぞれ異なる方向から聞こえるように音響再生が行われる。

　なお、以降の説明においては、音声チャットに関するユーザＵの発話音声以外の音を「環境音」と記載する。即ち、環境音とは、演奏音や歌い手による歌声や館内放送の音などである。

　このような体験をユーザＵに提供するための提供システム１の構成について一例を図２に示す。

　本実施の形態における提供システム１は、サーバシステム２とクライアントシステム３を備え、サーバシステム２とクライアントシステム３は通信ネットワーク４を介して相互に通信可能とされている。

　サーバシステム２は、仮想空間ＶＳを用いたエンターテインメント環境を提供するためのシステムであり、１または複数の情報処理装置によって構成されている。

　サーバシステム２は、提供されるエンターテインメントとしてのコンテンツごとに設けられていてもよいし、複数のコンテンツが一つのサーバシステム２によって提供されてもよい。
　例えば、音楽のコンサートであれば、あるサーバシステム２を用いて一つのコンサートを体験するための環境を提供し、別のサーバシステム２を用いて別のコンサートを体験するための環境を提供してもよい。

　サーバシステム２は、演奏者や歌い手を多角的に撮像する複数のカメラ５と、仮想空間生成部６と、配信制御部７と、通信部８とを備えている。

　カメラ５は、実空間において演者の周囲に配置され、演者を撮像することにより撮像画像を得る。

　各カメラ５によって撮像されたそれぞれの撮像画像（映像）は、同期が取れた状態で仮想空間生成部６に供給される。

　仮想空間生成部６においては、複数の撮像画像から演者についての三次元オブジェクトが生成される。生成された三次元オブジェクトは、仮想空間ＶＳに配置される。演者の三次元オブジェクトの表面にはテクスチャ画像が貼り付けられる。テクスチャ画像は、演者を撮像した撮像画像を用いてもよいし、仮想の人物についての画像を用いてもよい。即ち、カメラ５によって撮像された人物と、仮想空間ＶＳにおいて演者として表示される人物は異なっていてもよい。

　仮想空間生成部６は、ステージ上の構造物や客席に配置される構造物の三次元オブジェクトを生成、或いは他の情報処理装置から取得し、仮想空間ＶＳに配置する。

　このようにして各種の三次元オブジェクトが配置された仮想空間ＶＳが仮想空間生成部６によって生成される。

　配信制御部７は、サーバシステム２に接続されたクライアントシステム３のうち、当該コンサートが上演されている仮想空間ＶＳにアバターが配置されているユーザＵが利用するクライアントシステム３に対して仮想空間ＶＳについての情報を送信する。

　通信部８は、配信制御部７の制御に応じて通信ネットワーク４を介して各クライアントシステム３に仮想空間ＶＳの情報などを送信する。また、通信部８は、クライアントシステム３から情報を受信する。クライアントシステム３から受信する情報としては、例えば、新たなユーザＵが仮想空間ＶＳへ入ることを要求する情報などである。

　また、サーバシステム２は、提供する各種の機能を利用可能なユーザＵを管理するためのユーザ管理機能を備えていてもよい。例えば、ユーザ登録機能や登録解除機能、そしてログイン機能などを備えていてもよい。

　ユーザ登録に関する情報や登録解除に関する情報やログインに関する情報は通信部８を介してサーバシステム２に提供される。

　なお、後述する例においては、一つの仮想空間ＶＳに対して複数のルームが設けられる。各ルームにおける演者やステージ上の構造物などの三次元オブジェクトは各ルーム間で共通のオブジェクトとされる。即ち、各ルームにおいて演者の動きは同じものとされる。

　対して、各ユーザＵに紐づくアバターＡＴの配置はルームごとに異なる。例えば一つのルームに入室可能なユーザＵが２０人とされている場合には、当該ルームについての仮想空間ＶＳには、演者等に紐づく共通の三次元オブジェクトと、当該ルームに入室した２０人のユーザＵに紐づく２０体のアバターＡＴが配置される。

　このように、一つのルームとしての仮想空間ＶＳに配置される三次元オブジェクトの数が抑制されることにより、仮想空間ＶＳについての表示処理などのクライアントシステム３における処理負担が軽減される。

　クライアントシステム３は、サーバシステム２が提供するエンターテインメント環境を利用するユーザＵごとに設けられ、１または複数の情報処理装置によって構成されている。

　クライアントシステム３の構成は種々考えられる。図２に示す例では、パーソナルコンピュータやスマートフォンやゲーム機本体や記録メディアの再生装置などの情報処理装置であるクライアント装置９と、クライアント装置９に接続されるＨＭＤ（Head Mounted Display）１０とハンドコントローラ１１とを備えている。

　これ以外にも、クライアント装置９の機能とＨＭＤ１０の機能の双方が内包されたヘッドマウント装置とハンドコントローラ１１によってクライアントシステム３が構成されていてもよいし、ハンドコントローラ１１の代わりにキーボードを備えてクライアントシステム３が構成されていてもよいし、ハンドコントローラ１１やキーボードを備えずにクライアントシステム３が構成されていてもよい。

　クライアント装置９は、通信部１２と制御部１３とを備えている。
　クライアント装置９は、通信ネットワーク４を介してサーバシステム２や他のクライアントシステム３と情報の送受信を行う通信部１２と、各種の処理を行う制御部１３を備えている。

　例えば、制御部１３は、サーバシステム２から受信した仮想空間ＶＳの情報に基づいてＨＭＤ１０が備える表示部に表示させる画像を生成する。ユーザＵは、ＨＭＤ１０の表示部に表示された画像を視認することにより、あたかも自身が仮想空間ＶＳに入り込んでいるかのような体験をすることができる。

　制御部１３が生成する画像は、ＨＭＤ１０の動きやハンドコントローラ１１に対するユーザＵの操作によって適宜変更される。具体的には後述する。

　ＨＭＤ１０は、ユーザＵが頭部に装着して使用する情報処理装置であり、クライアント装置９から受信した情報に基づいて画像を表示する処理やＨＭＤ１０の位置や向きの情報をクライアント装置９に送信する処理を行う。

　ハンドコントローラ１１は、例えば２個の情報処理装置から成り、ユーザＵが両手に一つずつ把持して使用するものとされる。
　ハンドコントローラ１１は、クライアント装置９から受信した触覚信号に基づいて振動する振動部や、各種操作子などが設けられている。

　クライアントシステム３が備えるクライアント装置９とＨＭＤ１０とハンドコントローラ１１の具体的な構成例について図３を参照して説明する。

　クライアント装置９は、通信部１２と制御部１３を備えており、制御部１３は、表示制御部１４と、音声通話処理部１５と、関心度推定部１６と、音量制御部１７と、テキスト変換部１８と、立体音響処理部１９と、エリア判定部２０とを備えている。

　表示制御部１４は、サーバシステム２から受信した仮想空間ＶＳの三次元情報と、ＨＭＤ１０から得られるＨＭＤ１０の姿勢情報に基づいて、ＨＭＤ１０の表示部に表示すべき画像を表示画像として生成する。

　また、表示制御部１４は、仮想空間ＶＳに配置するアイコンなどの三次元オブジェクトや他のユーザＵについてのアバターＡＴに重畳させるユーザ名などの情報の表示位置を決定し表示画像に反映させる処理を行う。
　更に、表示制御部１４は、メニュー表示などを表示画像に付加する処理を行う。

　音声通話処理部１５は、ユーザＵ間の音声チャット、即ち、クライアントシステム３同士の音声チャットに関する通信処理を行う。この処理は、通信部１２及び通信ネットワーク４を介して行われる。
　音声チャットの対象ユーザＵについての情報は、立体音響処理部１９に提供される。

　関心度推定部１６は、ＨＭＤ１０及びハンドコントローラ１１を装着したユーザＵの関心度についての推定処理を行う。具体的には、仮想空間ＶＳにおけるアバターＡＴの配置位置に基づいて、図１に示したように種々の方向から多様な音響が聞こえるように音響再生が行われる。それらの音響を全て再生してしまうと、ユーザＵにとって好ましくない場合がある。
　関心度推定部１６は、それらの種々の音響（前述した環境音や発話音声）に対するユーザＵの関心度を推定する処理を行う。

　関心度推定部１６による推定処理は、色々な情報を利用して行われる。例えば、ＨＭＤ１０の姿勢情報を取得してユーザＵの関心の高い三次元オブジェクトを推定し、当該三次元オブジェクトから発せられる音響を関心度の高い音響として特定する。
　また、ユーザＵが所持しているハンドコントローラ１１の姿勢情報を取得することによりユーザＵのポインティング動作を検出して関心の高い三次元オブジェクトを推定することにより関心度の高い音響を特定してもよい。

　更に、ＨＭＤ１０の表示部に表示されることによりユーザＵが視認可能なメニュー画面等を利用したユーザＵの選択操作によって関心の高い三次元オブジェクトを推定してもよい。
　或いは、ＨＭＤ１０が備えるカメラによる撮像画像から推定されたユーザＵの視線方向に基づいて関心の高い三次元オブジェクトを推定してもよい。

　また、関心の高い三次元オブジェクトを推定することによりユーザＵの関心度を推定する上記の方法だけでなく、それ以外の方法も考えられる。例えば、演者の歌唱に合わせてユーザＵが歌っていることを検出した場合に、演者や演奏中の楽曲に対する関心が高いと推定してもよい。
　更には、演者の歌唱に合わせてユーザＵがリズムを取っていることや踊っていることを検出した場合に演者や演奏中の楽曲に対する関心が高いと推定してもよい。

　また、後述するように、関心度の高い楽曲などを登録しておき、それらとのマッチングや類似度を用いて関心度の高さを推定してもよい。

　他にも、脈拍や体温などのユーザＵの生体情報を取得することによりユーザＵの関心度を推定してもよい。

　このようにして、関心度推定部１６は、ユーザＵの関心が高いと推定された三次元オブジェクトを推定し、その三次元オブジェクトから発せられる音響を関心度の高い音響として特定する。

　音量制御部１７とテキスト変換部１８は、強調情報生成部２１として設けられている。
　強調情報生成部２１は、ユーザＵの関心度に応じて各種音響を強調（調整）するための強調情報を生成する。

　例えば、複数の音響の例として演者やスピーカから聞こえてくる「演奏音」と音声チャットにおける「発話音声」を用いて説明する。ユーザＵの関心が発話音声よりも演奏音にあると関心度推定部１６によって推定された場合、音量制御部１７は、演奏音を強調するための音量制御を行う。具体的には後述する。

　テキスト変換部１８は、発話音声をテキストに変換する処理を行う。テキスト変換処理は、例えば、演奏音についてのユーザＵの関心が高いと関心度推定部１６によって推定された場合に、発話音声についての音響再生の代わりにテキスト変換部１８によって生成されたテキストによる提示を行うことが考えられる。

　ユーザＵへのテキスト提示は、単なる文字情報として提示する場合だけでなく、仮想空間ＶＳにおける三次元オブジェクトとしての文字（以降「三次元テキスト」と記載）を提示する場合もある。この場合には、テキスト変換部１８は、三次元オブジェクトとしての文字情報の生成を行う。

　強調情報生成部２１は、ユーザＵの関心が演奏音よりも発話音声にあると関心度推定部１６によって推定された場合に、音量制御部１７による音量調整に加えて（或いは代えて）、音声チャットの発話を行ったユーザＵ即ち会話相手とされたユーザＵのアバターＡＴの位置を擬似的に聞き手であるユーザＵのアバターＡＴの近くに移動させる処理を行ってもよい。この処理は、発話音声を強調するための処理と見なすことができる。

　立体音響処理部１９は、仮想空間ＶＳにおける各種音響の発生位置と、前述した音声通話処理部１５から受信した音声チャットの対象ユーザＵについての情報に基づいて特定したアバターＡＴの位置関係などに応じて、立体的な音響再生を行うための処理を実行する。
　立体音響処理には、音響の聴取位置及び聴取方向に基づく減衰処理や、音響の発生位置からアバターＡＴに到着するまでの音響エフェクトを算出する処理や、反響音についての処理などが含まれる。

　また、立体音響処理部１９は、前述したように関心度に基づいて決定された音量調整を反映させて立体音響処理を行う。

　エリア判定部２０は、アバターＡＴの位置が、音声チャットが許可された許可エリアに位置しているか、音声チャットが許可されていない不許可エリアに位置しているかを判定する。

　立体音響処理部１９は、エリア判定部２０による判定結果を立体音響処理に反映させてもよい。例えば、不許可エリアにアバターＡＴが位置している場合には、音声チャットに係る立体音響再生を行わないようにしてもよい。

　図１０に示す一例においては、ＨＭＤ１０は、ＨＭ制御部２２と、表示部２３と、ＨＭＣ（ヘッドマウントカメラ）２４と、マイクロフォン２５と、ＩＭＵ（Inertial Measurement Unit）２６と、を備えている。

　ＨＭ制御部２２は、ＨＭＤ１０の全体制御を行う。
　ＨＭ制御部２２は、ＩＭＵ２６において得られた姿勢を表す検出信号や、マイクロフォン２５において得られた音声信号をクライアント装置９に送信する処理を行う。また、ＨＭ制御部２２は、クライアント装置９から種々の三次元オブジェクトが配置された仮想空間ＶＳの情報を受信する処理などを行う。
　なお、図３においては、ＨＭＤ１０が備える通信部の図示を省略している。

　表示部２３は、ＨＭＤ１０を装着した状態のユーザＵの眼球の前方に配置されるスクリーンなどの装置とされ、ＨＭ制御部２２によって生成された表示画像が表示される。

　ＨＭＣ２４は、ＨＭＤ１０を装着したユーザＵの目のあたりを撮像するカメラなどである。ＨＭＣ２４で撮像された目の撮像画像に基づいてユーザＵの視線方向の検出が行われる。

　マイクロフォン２５は、ＨＭＤ１０を装着したユーザＵの発話音声を拾うために設けられ、マイクロフォン２５に入力された音声は音声データに変換されてＨＭ制御部２２を介してクライアント装置９の音声通話処理部１５に供給される。

　ＩＭＵ２６は、加速度センサやジャイロセンサ等を備えて構成され、ＨＭＤ１０の姿勢を推定するための検出信号をＨＭ制御部２２に出力する。
　ＩＭＵ２６が温度センサを備えることにより温度特性に基づく補正が可能とされていてもよい。

　ＨＭ制御部２２は、表示処理部２７と視線検出部２８と姿勢検出部２９を備えている。

　表示処理部２７は、表示部２３に表示画像を表示するための処理を行う。

　視線検出部２８は、ＨＭＣ２４による撮像画像に基づいてユーザＵの視線方向の検出を行う。検出された視線方向は、前述のようにユーザＵの関心度を推定するためなどに用いられる。

　姿勢検出部２９は、ＩＭＵ２６から供給される信号に基づいてＨＭＤ１０の姿勢を検出する。検出された姿勢情報はクライアント装置９の制御部１３に供給される。

　図１０に示す一例においては、ハンドコントローラ１１は、ＨＣ（ハンドコントローラ）制御部３０と振動部３１と操作部３２とＩＭＵ３３を備えている。

　ＨＣ制御部３０は、ハンドコントローラ１１の全体制御を行う。

　振動部３１は、ＨＣ制御部３０から供給された触覚信号に基づいて振動することによりユーザＵに対して触覚刺激を提示する。

　操作部３２は、ボタン等の操作子として設けられ、ユーザＵによる操作を受け付け、検出信号をＨＣ制御部３０に供給する。

　ＩＭＵ３３は、加速度センサやジャイロセンサ等を備えて構成され、ハンドコントローラ１１の姿勢を推定するための検出信号をＨＣ制御部３０に出力する。
　ＩＭＵ３３が温度センサを備えることにより温度特性に基づく補正が可能とされていてもよい。

　ＨＣ制御部３０は、振動提示部３４と入力受付部３５と姿勢検出部３６を備えている。

　振動提示部３４は、振動部３１に対して触覚信号を供給する。

　入力受付部３５は、ユーザＵの操作についての検出信号を操作部３２から受け取り、操作に応じた処理を行う。例えば、メニュー表示に対する選択操作や、関心のある三次元オブジェクトを指定する操作や、音声チャットの対象ユーザＵについてのアバターＡＴを特定する操作に応じた処理を行う。

　姿勢検出部３６は、ＩＭＵ３３から供給される信号に基づいてハンドコントローラ１１の姿勢を検出する。検出された姿勢情報はクライアント装置９の制御部１３に供給される。

　クライアント装置９とＨＭＤ１０とハンドコントローラ１１は無線或いは有線によって情報の送受信が可能とされている。

　なお、クライアント装置９の制御部１３は、図３に示す全ての構成を備えている必要は無い。例えば、音声チャットにおける発言内容をテキスト化する必要がない場合にはテキスト変換部１８を備えていなくてもよい。

　図２に示す通信ネットワーク４の構成は各種考えられる。例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ（Local Area Network）、ＣＡＴＶ（Community Antenna TeleVision）通信網、仮想専用網（Virtual Private Network）、電話回線網、移動体通信網、衛星通信網などが通信ネットワーク４として想定される。
　また、通信ネットワーク４の全部又は一部を構成する伝送媒体についても多様な例が想定される。例えばＩＥＥＥ（Institute of Electrical and Electronics Engineers）１３９４、ＵＳＢ（Universal Serial Bus）、電力線搬送、電話線などの有線でも、ＩｒＤＡ（Infrared Data Association）のような赤外線、ブルートゥース（登録商標）、８０２．１１無線、携帯電話網、衛星回線、地上波デジタル網などの無線でも利用可能である。

＜２．コンピュータ装置＞
　提供システム１が備えるサーバシステム２及びクライアントシステム３を実現する演算処理部を備えるコンピュータ装置の構成例について図４を参照して説明する。

　コンピュータ装置のＣＰＵ７１は、上述した各種の処理を行う演算処理部として機能し、ＲＯＭ７２や例えばＥＥＰ－ＲＯＭ（Electrically Erasable Programmable Read-Only Memory）などの不揮発性メモリ部７４に記憶されているプログラム、または記憶部７９からＲＡＭ７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７３にはまた、ＣＰＵ７１が各種の処理を実行する上において必要なデータなども適宜記憶される。
　ＣＰＵ７１、ＲＯＭ７２、ＲＡＭ７３、不揮発性メモリ部７４は、バス８３を介して相互に接続されている。このバス８３にはまた、入出力インタフェース（Ｉ／Ｆ）７５も接続されている。

　入出力インタフェース７５には、操作子や操作デバイスよりなる入力部７６が接続される。
　例えば入力部７６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
　入力部７６によりユーザＵの操作が検知され、入力された操作に応じた信号はＣＰＵ７１によって解釈される。

　また入出力インタフェース７５には、ＬＣＤ或いは有機ＥＬパネルなどよりなる表示部７７や、スピーカなどよりなる音声出力部７８が一体又は別体として接続される。
　表示部７７は各種表示を行う表示部であり、例えばコンピュータ装置の筐体に設けられるディスプレイデバイスや、コンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
　表示部７７は、ＣＰＵ７１の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部７７はＣＰＵ７１の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

　入出力インタフェース７５には、ハードディスクや固体メモリなどより構成される記憶部７９や、モデムなどより構成される通信部８０が接続される場合もある。

　通信部８０は、インターネット等の伝送路を介しての通信処理や、各種機器との有線／無線通信、バス通信などによる通信を行う。

　入出力インタフェース７５にはまた、必要に応じてドライブ８１が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記憶媒体８２が適宜装着される。
　ドライブ８１により、リムーバブル記憶媒体８２から各処理に用いられるプログラム等のデータファイルなどを読み出すことができる。読み出されたデータファイルは記憶部７９に記憶されたり、データファイルに含まれる画像や音声が表示部７７や音声出力部７８で出力されたりする。またリムーバブル記憶媒体８２から読み出されたコンピュータプログラム等は必要に応じて記憶部７９にインストールされる。

　このコンピュータ装置では、例えば本実施の形態の処理のためのソフトウェアを、通信部８０によるネットワーク通信やリムーバブル記憶媒体８２を介してインストールすることができる。或いは当該ソフトウェアは予めＲＯＭ７２や記憶部７９等に記憶されていてもよい。

　ＣＰＵ７１が各種のプログラムに基づいて処理動作を行うことで、上述した演算処理部を備えたサーバシステム２やクライアントシステム３としての必要な情報処理や通信処理が実行される。
　なお、情報処理装置は、図４のようなコンピュータ装置が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、ＬＡＮ（Local Area Network）等によりシステム化されていてもよいし、インターネット等を利用したＶＰＮ（Virtual Private Network）等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群（クラウド）としてのコンピュータ装置が含まれてもよい。

＜３．第１の実施の形態＞
　第１の実施の形態においては、ユーザＵの関心度に応じて環境音（演奏音や歌声や館内放送の音など）と発話音声の音量調整を行う。ここでは、環境音の一例である演奏音と発話音声の音量調整を行う例を挙げる。

　なお、本実施の形態及び以降の各実施の形態においては、音響再生を行う対象とされたユーザＵ、即ち、聞き手とされたユーザＵを第１ユーザＵ１とし、第１ユーザＵ１に対応するアバターＡＴを第１アバターＡＴ１とする。
　また、第１ユーザＵ１と音声チャットを行っている他ユーザＵを第２ユーザＵ２とし、第２ユーザＵ２に対応するアバターＡＴを第２アバターＡＴ２とする。

　音量調整については幾つかの例が考えられる。例えば、演奏音と発話音声のうち演奏音についての関心が高いと判定された場合には、演奏音の音量を上げることにより演奏音を聞こえやすくすることが考えられる。或いは、演奏音の音量を相対的に上げるために発話音声の音量を小さくすることが考えられる。この場合には、発話音声の音量を完全にゼロにすることにより発話音声についての音響再生を行わないようにしてもよい。

　同様に、発話音声についての関心が高いと判定された場合には、発話音声の音量を上げてもよいし、相対的に発話音声の音量を上げるために演奏音の音量を下げてもよい。

　ところで、演奏音についての関心度は、例えば演奏中の曲に応じて変動する可能性が高い。そこで、機械学習を用いて第１ユーザＵ１の楽曲の好みを学習し、学習結果を利用して演奏中の楽曲についての演奏音に対する第１ユーザＵ１の関心度を推定する。

　このような機械学習についての処理は、サーバシステム２において実行されてもよいし、クライアントシステム３において実行されてもよい。

　図５に機械学習に関する処理についてのフローを示す。

　サーバシステム２のＣＰＵ７１、或いは、クライアントシステム３のＣＰＵ７１（以降、単に「制御部」と記載する。は、図５のステップＳ１０１において、お気に入りのアーティストや楽曲の登録を受け付ける。この処理は、第１ユーザＵ１の操作に応じて実行される。

　制御部はステップＳ１０２において、機械学習を行う。この処理は、制御部自身が学習モデルを用いて機械学習を行ってもよいし、他の情報処理装置において提供されているサービスを利用することにより機械学習を行い、その結果を得てもよい。

　制御部はステップＳ１０３において、機械学習の結果、ユーザＵの興味が高いと推定された楽曲をお気に入りの楽曲として登録する。なお、この処理において興味が高いと推定されたアーティストをお気に入りのアーティストとして登録する処理を行ってもよい。

　ステップＳ１０１からステップＳ１０３の各処理を実行することにより、制御部は、第１ユーザＵ１によって入力されたお気に入り情報と機械学習によって推定されたお気に入り情報の双方を得ることができる。

　クライアントシステム３は、このようにして得たお気に入り情報に基づいて上述した強調制御としての音量調整を行う。

　具体的な処理フローの一例を図６に示す。

　クライアントシステム３のＣＰＵ７１は、ステップＳ２０１において、第１ユーザＵ１によるログイン操作を受け付け、ログイン要求をサーバシステム２に送信する。
　サーバシステム２はクライアントシステム３からのログイン要求を受け付け、ログイン可否を判定し、その結果をクライアントシステム３に送信する。
　これにより、クライアントシステム３では、ログインが失敗したことを示す画面やログイン後のユーザ画面などを第１ユーザＵ１に提示する処理が実行される。

　続いて、クライアントシステム３のＣＰＵ７１は、ステップＳ２０２において、ルームの選択処理を受け付け、選択されたルームを特定する情報をサーバシステム２に送信する。
　サーバシステム２は、ルームの入室可能人数に満たない場合には、ルームへの入室を許可し、その結果をクライアントシステム３へ送信する。なお、ルームごとに入室が許可されるユーザＵが限定されていてもよい。
　これにより、クライアントシステム３では、入室後のルーム画面などを第１ユーザＵ１に提示する処理が実行される。具体的には、演者やスピーカなどの三次元オブジェクトと入室中のユーザＵごとのアバターＡＴが配置された仮想空間ＶＳを第１ユーザＵ１のＨＭＤ１０を介して提示する処理を行う。

　クライアントシステム３のＣＰＵ７１は、ステップＳ２０３において、ライブ中であるか否かを判定する処理を行う。この処理は、クライアントシステム３がサーバシステム２へライブ中であるか否かを問い合わせすることにより実行されてもよいし、クライアントシステム３においてライブ中であるか否かを判定する処理を実行してもよい。
　なお、ライブ中とは、仮想空間ＶＳにおけるコンサートの開始時刻を過ぎており、楽曲の演奏などが行われている状態を示す。

　ライブ中でないと判定した場合、即ち、コンサートの開始時刻前である場合や、コンサートの終了時刻後である場合には、クライアントシステム３のＣＰＵ７１はステップＳ２０４において、音声チャット中であるか否かを判定する。

　ここでいう「音声チャット中」とは、第１ユーザＵ１と第２ユーザＵ２による一対一の音声チャットが行われている場合や、ルームにアバターＡＴが配置されているユーザＵ同士で一対一以外の音声チャットが行われている場合などが該当する。
　例えば、第１ユーザＵ１に対していずれかのユーザＵによる発話音声としての音響が再生されている場合に音声チャット中であると判定される。或いは、第１ユーザＵ１が利用するクライアントシステム３のマイクロフォン２５が第１ユーザＵ１の発話音声を拾っている状態であれば音声チャット中であると判定してもよい。

　音声チャット中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２０５において、環境音への関心度が高いか否かを判定する。なお、ライブ中ではないため、ここでいう環境音は、館内放送の音響や物販のアナウンスの音響などである。

　環境音への関心度が高いと判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２０６において、音声チャットのチャット音量を下げる処理を行う。
　或いは、環境音の音量を上げる処理を行ってもよい。

　チャット音量を下げる処理を行った後、或いは、ステップＳ２０４において音声チャット中で無いと判定した後、或いは、ステップＳ２０５において環境音への関心度が高くないと判定した後、クライアントシステム３のＣＰＵ７１はステップＳ２０７において、他のルームへ移動するか否かを判定する。

　他のルームへ移動するか否かの判定は、ユーザＵによるルーム移動操作を検出したか否かに基づいて行われる。

　他のルームへ移動すると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２０２の処理へと戻る。

　一方、他のルームへの移動操作を検出していない場合、クライアントシステム３のＣＰＵ７１はステップＳ２０８へと進み、ログアウト操作を検出したか否かを判定する。ログアウト操作を検出した場合、クライアントシステム３のＣＰＵ７１は図６に示す一連の処理を終了する。

　ステップＳ２０８においてログアウト操作を検出していない場合、クライアントシステム３のＣＰＵ７１はステップＳ２０３へと戻る。

　ステップＳ２０３の説明に戻る。ステップＳ２０３においてライブ中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２０９において、音声チャット中であるか否かを判定する。
　この判定処理は、例えば、クライアントシステム３のマイクロフォン２５に対する第１ユーザＵ１の発話音声が入力されているか否かに基づいて行われてもよい。但し、第１ユーザＵ１が演奏中の楽曲を口ずさんでいる可能性もある。そこで、ステップＳ２０９の判定処理では、マイクロフォン２５に入力された第１ユーザＵ１の音声が歌唱によるものであるか否かを更に判定することにより、音声チャット中であるか否かを判定してもよい。

　音声チャット中であると判定した場合、第１ユーザＵ１は演奏音と発話音声の双方が聞こえている状態と推定される。

　クライアントシステム３のＣＰＵ７１はステップＳ２１０において演奏中の楽曲が関心度の高い楽曲であるか否かを判定する処理を行う。

　例えば、予め登録されていた楽曲と演奏中の楽曲のマッチングを行うことにより判定してもよいし、登録された楽曲の特徴やリズムの特徴と演奏中の楽曲の特徴の類似度を判定することにより、登録された楽曲と似ている楽曲についても関心度の高い楽曲であると判定してもよい。この場合には、ディープラーニングを用いて関心度の高さを算出してもよい。

　或いは、音声チャットへの関心度が低いために相対的に演奏音への関心度が高いと判定した場合を含んでいてもよい。

　更に、第１ユーザＵ１の挙動を検出して演奏中の楽曲に対する関心度が高いか否かを判定してもよい。例えば、第１ユーザＵ１が下を向いている場合や、演者とは別のところを向いている場合には楽曲への関心度が低いと判定してもよい。

　関心度の高い楽曲であると判定した場合には、クライアントシステム３のＣＰＵ７１はステップＳ２１１において、音声チャットのチャット音量を下げるか、或いは、演奏音の音量を上げる処理を行い、ステップＳ２０７の処理へと進む。

　また、ステップＳ２０９において音声チャット中でないと判定した場合や、ステップＳ２１０において関心度の高い楽曲でないと判定した場合についても、クライアントシステム３のＣＰＵ７１はステップＳ２０７の処理へと進む。

　即ち、図６に示す処理を実行することにより、第１ユーザＵ１がログアウトの操作をせず且つ現在のルームに入室している限り、クライアントシステム３のＣＰＵ７１はライブ中であるか及び音声チャット中であるかを判定しつつ環境音と発話音声の関心度を推定することにより随時音量調整を行う処理を実行する。

　図６においては、音声チャットの音量を下げることによりユーザＵの関心度に応じた強調制御を行う例を示した。これ以外の例について図７に示す。
　なお、図６と同様の処理については同じステップ番号を付し適宜説明を省略する。

　ステップＳ２０１からステップＳ２１１の各処理については同様の処理とされる。
　図６に示す例と異なる点は、ステップＳ２０５において環境音への関心度が低いと判定した場合やステップＳ２１０において演奏中の楽曲への関心度が低いと判定した場合に、クライアントシステム３のＣＰＵ７１がステップＳ２２０において環境音（演奏音や館内放送の音響）の音量を下げる処理を行う点である。

　図６では強調制御を行わなかったが、図７に示す例では、環境音の音量を下げる処理を行うことにより、音声チャットを聞きやすくなり、円滑なコミュニケーションを取ることが容易となる。

＜４．第２の実施の形態＞
　第２の実施の形態は、強調制御の対象とされた音声チャットが特定のユーザＵとの音声チャットに限定された例である。
　具体的な処理フローについて図８を参照して説明する。なお、図６と同様の処理については同じステップ番号を付し適宜説明を省略する。

　クライアントシステム３のＣＰＵ７１は、ステップＳ２０１でログイン操作を受け付け、ステップＳ２０２でルーム選択操作を受け付けた後、ステップＳ２０３でライブ中であるか否かを判定する。

　ライブ中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２３０において、音声チャットの許可エリアにおいて特定のユーザＵと音声チャット中であるか否かを判定する。

　ここで、許可エリアについて説明する。
　第１ユーザＵ１の第１アバターＡＴ１が配置されている仮想空間ＶＳとしてのルームには、音声チャットが許可された許可エリアと、音声チャットが許可されていない不許可エリアが設けられている。

　許可エリアは、音声チャットを行いながらコンサートを楽しみたいユーザＵ（アバターＡＴ）が移動してくるエリアとされている。
　一方、不許可エリアは、音声チャットに邪魔されずに集中してコンサートを楽しみたいユーザＵ（アバターＡＴ）が移動してくるエリアとされている。

　従って、本例においては、ユーザＵに紐付くアバターＡＴが不許可エリアに位置している場合には、音声チャットの音量は常にゼロとされている。

　ここで、第１ユーザＵ１に紐付く第１アバターＡＴ１が許可エリアに位置しているのか、或いは不許可エリアに位置しているのかを判定する方法は各種考えられる。例えば、第１アバターＡＴ１の足が接触している床オブジェクトによって判定してもよい。

　或いは、図９に示すように、第１アバターＡＴ１の頭頂部から上方に向けて仮想的な光線を照射し、当該光線が衝突した天井を判別することによりエリアの種類を判定してもよい。

　或いは、三次元空間における第１アバターＡＴ１の座標位置に応じてエリアの種類を判定してもよい。

　また、特定のユーザＵとは、第１ユーザＵ１が指定した他のユーザである第２ユーザＵ２である。即ち、第２の実施の形態は、第１ユーザＵ１にとって音声チャットを行いたい特定の第２ユーザＵ２が存在する場合に、他のユーザＵとの音声チャットは強調制御の対象となり得ず、第２ユーザＵ２との音声チャットが強調制御の対象となり得る例である。

　第１ユーザＵ１によるユーザＵの指定方法は幾つか考えられる。
　例えば、第１ユーザＵ１が第２ユーザＵ２の名前やＩＤを文字入力することにより指定してもよいし、第２ユーザＵ２に紐付く第２アバターＡＴ２に触れるような動きや指を指す動作や第２アバターＡＴ２に対して顔や視線を向ける動作などのポインティング動作を行うことにより指定してもよい。

　ステップＳ２３０で第１ユーザＵ１がチャット許可エリアにおいて特定のユーザＵと音声チャット中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２０５において環境音への関心が高いか否かを判定し、環境音への関心が高い場合にはステップＳ２０６において第２ユーザＵ２との音声チャットの音量を下げる処理を行う。

　なお、図８においては、ステップＳ２０５において環境音への関心が低い場合には何もせずにステップＳ２０７へと進む例を挙げているが、環境音への関心が低い場合に第２ユーザＵ２との音声チャットの音量を上げる強調制御を行ってもよい。

　また、ステップＳ２０３においてライブ中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２３１で許可エリアにおいて特定の第２ユーザＵ２と音声チャット中であるか否かを判定する。

　許可エリアで特定のユーザＵである第２ユーザＵ２と音声チャット中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２１０において演奏中の楽曲に対する関心度が高いか否かを判定し、楽曲への関心度が高いと判定した場合には、ステップＳ２１１において第２ユーザＵ２との音声チャットの音量を下げる処理を行う。

　なお、ステップＳ２１０において楽曲の関心度が低いと判定した場合には、第２ユーザＵ２との音声チャットの音量を上げる強調制御を行ってもよい。

＜５．第３の実施の形態＞
　第３の実施の形態では、発話音声をテキスト変換して第１ユーザＵ１に提示する例について説明する。

　発話音声をテキスト情報に変換して第１ユーザＵ１に提示する方法としては幾つか考えられる。例えば、第１ユーザＵ１に視認させる画像内にチャット欄が設けられ、該チャット欄にテキスト情報を表示することが考えられる。

　或いは、仮想空間ＶＳに三次元オブジェクトに変換した文字情報を配置する方法も考えられる。
　文字情報を変換した三次元オブジェクトについて図１０に一例を示す。

　三次元オブジェクトに変換された文字情報は、三次元テキストＴＸとして仮想空間ＶＳに配置される。このとき、発話者が分かるようにエフェクトＥＦを伴って三次元テキストＴＸが生成されてもよい。
　例えば、図１０に示す例では、発話者が第２ユーザＵ２であることが分かるように第２ユーザＵ２に紐付けられた第２アバターＡＴ２から三次元テキストＴＸが飛び出していることを示すエフェクトＥＦが配置されている。

　第３の実施の形態における具体的な処理フローについて図１１を参照して説明する。なお、図６に示す処理と同様の処理については、同じステップ番号を付し適宜説明を省略する。

　そして、ライブ中であると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２４０において音声チャット（発話音声）のテキスト変換が必要か否かを判定する。
　この判定処理は、例えば、コンサートの演奏音の音量や音声チャットの音量に基づいて行われる。具体的には、演奏音が所定以上である場合や、音声チャットの音量が所定よりも小さい場合にテキスト変換が必要と判定する。
　また、環境音（演奏音）への関心度が高く発話音声の音量をゼロにしたい場合や、発話音声の音量を上げたくない場合にテキスト変換が必要と判定してもよい。

　テキスト変換が必要とされた場合、クライアントシステム３のＣＰＵ７１はステップＳ２４１において、音声チャットのテキスト変換処理を行う。このとき、第２の実施の形態のように、特定の第２ユーザＵ２の音声チャットのみがテキスト変換の対象とされてもよい。

　続いて、クライアントシステム３のＣＰＵ７１はステップＳ２４２において、テキストの三次元オブジェクト化を行い三次元テキストＴＸを生成するか否かを判定する。
　三次元オブジェクト化を行う場合とは、例えば、第１ユーザＵ１の注意がチャット欄に向いていない場合やチャット欄に注目していない場合などである。また、三次元テキストＴＸを仮想空間ＶＳに配置しても第１ユーザＵ１の視界を妨げない場合に三次元テキストＴＸの生成を行うと判定してもよいし、第１ユーザＵ１の音響に対する関心度のみが高く表示部２３に表示される演者などの三次元オブジェクトに対する関心度が低い場合に三次元テキストＴＸの生成を行うと判定してもよい。

　三次元テキストＴＸを生成すると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２４３において、三次元テキストＴＸを生成し表示させる処理を行う。具体的には、所定の位置に三次元テキストＴＸを配置する処理を行う。この処理を行うことにより、第１ユーザＵ１が装着しているＨＭＤ１０の表示部２３に三次元テキストＴＸが配置された仮想空間ＶＳが表示される。
　ステップＳ２４３の処理を終えた後、クライアントシステム３のＣＰＵ７１はステップＳ２０７の処理へと進む。

　ステップＳ２０３でライブ中でないと判定した場合やステップＳ２０４でテキスト変換必要なしと判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２４４の処理へと進む。

　ステップＳ２４４の処理では、クライアントシステム３のＣＰＵ７１は、表示中の三次元テキストＴＸがあるか否かを判定する。三次元テキストＴＸが仮想空間ＶＳに配置されたままである場合、三次元オブジェクトが増える一方となり、第１ユーザＵ１の視界を妨げ、演者などの三次元オブジェクトの視認が困難になってしまう虞がある。そこで、本実施の形態においては、適切なタイミングで三次元テキストＴＸの表示を終了させる処理が行われる。

　表示中の三次元テキストＴＸがあると判定した場合、クライアントシステム３のＣＰＵ７１はステップＳ２４５において、表示終了のタイミングが到来したか否かを三次元テキストＴＸごとに判定する。

　表示終了タイミングについて幾つかの例を挙げる。
　例えば、表示開始からの経過時間が所定時間を超えた場合に表示終了タイミングが到来したと判定してもよい。
　或いは、第１ユーザＵ１による所定操作が行われたことにより表示終了タイミングが到来したと判定してもよい。第１ユーザＵ１は自分の操作によって三次元テキストＴＸの表示を終了させることができるため、残したいメッセージのみを残すことや、不要なメッセージを早めに消すことなどができ、利便性が高い。また、発話者である第２ユーザＵ２にも三次元テキストＴＸが視認できる構成とすることにより、第１ユーザＵ１の操作によって三次元テキストＴＸの表示が終了した場合に、第１ユーザＵ１にメッセージ内容を確実に伝達できたことを第２ユーザＵ２が認識することができるため、この点においても利便性の向上が図られる。

　また、表示終了タイミングの別の例として、三次元テキストＴＸが別の三次元オブジェクト（別の三次元テキストＴＸを含む）に衝突したときに表示終了タイミングが到来したと判定してもよい。
　この例によれば、三次元テキストＴＸが増えるごとに他の三次元オブジェクトに衝突する確率が上昇するため、三次元テキストＴＸの表示終了タイミングが適度に到来する。なお、この場合には、三次元テキストＴＸの表示が開始されてから一定時間は他の三次元オブジェクトと衝突しても表示終了タイミングとは判定されないように構成されていてもよい。これにより、著しく短い時間で表示が終了してしまうことを防止することができる。

　図１１の説明に戻る。
　ステップＳ２４５において表示終了のタイミングが到来した三次元テキストＴＸがある場合、クライアントシステム３のＣＰＵ７１はステップＳ２４６において、該当する三次元テキストＴＸの表示を終了させる処理を行う。

　ステップＳ２４４で表示中の三次元テキストＴＸが無いと判定した場合や、ステップＳ２４５で何れの三次元テキストＴＸについても表示終了タイミングが到来していないと判定した場合や、ステップＳ２４６の処理を終えた後、クライアントシステム３のＣＰＵ７１はステップＳ２０７の処理へと進む。

　上述した例と異なり、発話音声（音声チャット）への関心が高い場合にテキスト化を行ってもよい。例えば、発話音声への関心度が高く、発話音声の聞き逃しを防止したい場合に、発話音声についての音響再生だけでなく三次元テキストを表示させることにより、視覚と聴覚の双方を用いて音声チャットの内容を第１ユーザＵ１に伝達することが可能となる。

＜６．第４の実施の形態＞
　第４の実施の形態は、第１ユーザＵ１が発話音声に関心を寄せている場合の例である。
　具体的には、第１ユーザＵ１は音声チャットへの関心度が高いが誰と会話しているのか分からない場合などに、会話相手（発話者）についての強調制御を行う。

　本実施の形態における第１例では、発話者についての視覚的な強調制御を行う。具体的には、発話者である第２ユーザＵ２に紐付けられた第２アバターＡＴ２の表示色を変える処理（図１２参照）や、第２アバターＡＴ２の輪郭を点滅させるなどして強調する処理や、第２アバターＡＴ２の大きさを大きくする処理などを行う。

　第２例では、発話者である第２ユーザＵ２から音声チャットの着信があること、或いは、音声チャットの開始要求がきていることを通知するためのアイコン表示を行う（図１３参照）。
　第１例及び第２例は、視覚的強調制御を行う例といえる。

　第３例では、発話者である第２ユーザＵ２の第２アバターＡＴ２を擬似的に第１ユーザＵ１の第１アバターＡＴ１の近くに移動させる処理を行う。
　例えば、第１ユーザＵ１及び第２ユーザＵ２は、各自にとって音響再生が最適となるようにアバターＡＴを仮想空間ＶＳに位置させている。従って、第１アバターＡＴ１と第２アバターＡＴ２が距離的に遠い場合がある。

　この状態で第２ユーザＵ２が第１ユーザＵ１に対する声かけを行った場合に、音響再生において距離に応じた減衰処理を施している場合には、第２ユーザＵ２の発話音声が小さくなってしまい、第１ユーザＵ１に気付かれない場合や第１ユーザＵ１が聞き取れない場合がある。

　そこで、第２ユーザＵ２に紐付く第２アバターＡＴ２を第１アバターＡＴ１の近くに移動させることや、その逆も考えられるが、そうしてしまうと、各ユーザＵにとって最適な聴取位置ではなくなってしまう。

　第３例においては、第２アバターＡＴ２の位置を擬似的にＡＴ１の近く（図１４における第２アバターＡＴ２’の位置）に移動させる処理を行う。この移動処理は、あくまで発話位置としての第２アバターＡＴ２の位置を動かすだけであり、コンサートを楽しみたいと考えた第２ユーザＵ２により設定された聴取位置としての第２アバターＡＴ２の位置は変更されない。

　従って、第１ユーザＵ１にとっては、第２ユーザＵ２の発話内容を聞き取りやすくなると共に、第２ユーザＵ２にとっては、最適な聴取位置でコンサートを楽しむことが可能となる。
　第３例は、聴覚的な強調制御といえるが、第１ユーザＵ１にとっては第２ユーザＵ２の表示位置が変更されるため、視覚的な強調制御ともいえる。

　第４例では、第１ユーザＵ１が身につけているハンドコントローラ１１が備える振動部３１を振動させることにより、特定のユーザＵから音声チャットの着信があること、或いは、音声チャットの開始要求がきていることを通知してもよい。
　なお、ＨＭＤ１０が振動部を備えている場合には、ＨＭＤ１０の振動部を振動させることにより同様の効果を得てもよい。

　上述した第１例と第２例と第３例を全て実行する場合についての処理の流れについて、図１５を参照して説明する。
　なお、図１５に示す一部の処理を実行しなくてもよい。

　クライアントシステム３のＣＰＵ７１は図１５のステップＳ３０１において、会話相手のアバターＡＴの強調表示（図１２参照）を行う。

　更にクライアントシステム３のＣＰＵ７１は、ステップＳ３０２において、図１３に示すようなテキスト表示及びアイコン表示を行うことにより着信通知を行う。

　加えて、クライアントシステム３のＣＰＵ７１はステップＳ３０３において、アバターＡＴ同士の距離が所定以上であるか否かを判定し、所定以上であると判定した場合、ステップＳ３０４において、アバターＡＴの擬似的な移動処理（図１４参照）を行う。

　一方、アバターＡＴ同士の距離が所定未満であると判定した場合には、クライアントシステム３のＣＰＵ７１はステップＳ３０４の処理を実行せずに図１５に示す一連の処理を終える。

＜７．変形例＞
　ライブ中であるか否かの判定（例えば図６のステップＳ２０３の処理）を行う場合に、各種のメタデータを用いて判定してもよい。
　メタデータとは、例えば、演奏中の楽曲の情報や進行状況を示すタイムテーブルなどの情報や、再生中の環境音を特定するための情報などであり、これらを用いることにより、どのような音響が再生中であるかを特定することが可能となりライブ中であるか否かの判定が可能となる。

　上述した例では、ＨＭＤ１０とハンドコントローラ１１をユーザＵが装着している例を示したが、スマートフォンやタブレット端末などをユーザＵが把持した状態でコンサートなどを楽しんでもよい。

　スマートフォンを利用する場合であれば、スマートフォンが備える３ＤｏＦ（Degrees of Freedom）や６ＤｏＦのセンシング機能、そしてＳＬＡＭ（Simultaneous Localization and Mapping）機能を用いてスマートフォンの表示部に表示すべき画像がスマートフォンの制御部によって作成される。

　そして、ユーザＵの顔の向きはスマートフォンの画面の向きに置き換えることで、画面の向きに応じた適切な画像がスマートフォンの画面に表示される。

　上述した例では、第２ユーザＵ２が発した発話音声を略リアルタイムで第１ユーザＵ１に届ける場合について説明したが、環境音の音量が一定値以上である場合には発話音声をバッファリングしておいてもよい。そして、環境音の音量が一定値未満となった場合に、バッファリングしておいた発話音声を第１ユーザＵ１に提示するようにしてもよい。
　また、このときには、発話音声を音響再生してもよいし、テキスト化して提示してもよい。
　テキスト化して提示する場合には、バッファリングの時点でテキストに変換してもよく、その場合にはバッファリングに要するデータ量の削減が可能となる。

　上述した技術は、リモートによって各ユーザＵが参加するコンサート以外にも、リモートの教育やトレーニング、リモート会議、リモートによる作業支援、物販など、音声チャットによるコミュニケーションが行われるイベントに広く適用することができる。

＜８．まとめ＞
　上述した各例において説明したように、情報処理装置としてのクライアントシステム３は、仮想空間ＶＳに配置される第１アバターＡＴ１に紐付く第１ユーザＵ１の関心情報に基づいて仮想空間ＶＳにおける音響についての強調制御を行うための制御情報を生成する強調情報生成部２１を備える。また、音響とは、仮想空間ＶＳにおける演奏音などの環境音と、仮想空間ＶＳに配置される第２アバターＡＴ２に紐付く第２ユーザＵ２の発話音声を含むものである。即ち、ここでいう環境音とは、仮想空間ＶＳにて発生する音響のうちユーザＵによる発話音声を除いたものとされる。
　関心情報とは、音響に対しての関心情報である。そして、音響とは、環境音や発話音声などである。環境音とは、仮想空間ＶＳにおいて発せられる音、例えば、音楽コンサートにおける演奏音や演奏開始を伝えるためのアナウンス放送音や、演者が発する音声などである。また、発話音声は、視聴者が発する音声などである。
　各視聴者は、仮想空間ＶＳにおいて自身の分身として配置されるアバターＡＴの位置等に応じた音響を体験することができる。
　情報処理装置は、第１ユーザＵ１の関心情報に基づいて環境音と発話音声の何れかを強調制御するための制御情報や、双方を強調制御するための制御情報を生成する。
　これにより、第１ユーザＵ１の関心がコンサートの楽曲にある場合には楽曲についての強調制御が行われ、第２ユーザＵ２の発話音声にある場合には発話音声についての強調制御が行われる。
　従って、第１ユーザＵ１は、自身の関心に応じた適切な音響出力を体験することができる。

　上述したように、関心情報は、環境音への関心度を示す情報とされていてもよい。
　第１ユーザＵ１における環境音についての関心度情報に基づいて音響の強調制御を行うことにより、例えば、第１ユーザＵ１にとって邪魔をされずに視聴したい楽曲などが演奏されている間に音声チャットの音量を下げる制御や環境音（演奏音）の音量を上げる制御が行われる。
　これにより、コンサート演奏などへの没入感を高めることができ、楽曲等を楽しむことができる。

　図３等を参照して説明したように、関心度を示す情報は、第１ユーザＵ１のポインティング動作によって得られる情報とされてもよい。
　例えば、第１ユーザＵ１が演者についてのアバターＡＴ０などを指し示すようなポインティング動作をした場合には、環境音（演奏音）への関心が高いと判定され、第２ユーザＵ２などの他のユーザＵのアバターＡＴなどを指し示すようなポインティング動作をした場合には、発話音声即ち音声チャットへの関心が高いと判定される。
　これにより、第１ユーザＵ１は、高い関心を持った対象を適切に指定することができ、第１ユーザＵ１にとって関心の高い音響の音量が上げられるなどして音響出力を体験することができる。
　また、第１ユーザＵ１によって関心の高い対象が適切にポインティングされることにより、第１ユーザＵ１の意図とは異なる音響が強調されてしまうことを防止することができる。

　図６等を参照して説明したように、クライアントシステム３が実行する強調制御は、制御対象の音響の音量を変更する制御とされてもよい。
　関心の高い音響を制御対象として音量を上げる制御などが実行される。
　これにより、第１ユーザＵ１にとって関心の高い音響についての音量が上げられる、或いは、関心の低い音響についての音量が下げられるなどして、好みの音が相対的に大きくされることでコンサート等に集中することができるため、没入感を高めることができる。

　図１１等を参照して説明したように、クライアントシステム３の強調情報生成部２１は、第２ユーザＵ２の発話音声をテキストに変換するテキスト変換部１８を備えていてもよい。
　これにより、関心の高い発話音声をテキストに変換することや、関心の低い発話音声をテキストに変換する制御が行われる。
　具体的には、図１１等を参照して説明したように、以下のような構成を採ることができる。

　クライアントシステム３のテキスト変換部１８は、環境音への関心度が高い場合に第２ユーザＵ２の発話音声をテキストに変換してもよい。
　例えば、関心の高い発話音声は、テキスト変換されて第１ユーザＵ１に提示されることで、第２ユーザＵ２との音声チャットについての第１ユーザＵ１の聞き逃しを防止することができる。
　また、第３の実施の形態で説明したように、以下のように構成を採ることもできる。

　クライアントシステム３のテキスト変換部１８は、発話音声への関心度が高い場合に第２ユーザＵ２の発話音声をテキストに変換してもよい。
　例えば、関心の低い発話音声は、テキスト変換されて第１ユーザＵ１に提示されることで、第１ユーザＵ１が演奏音などの環境音に対する集中を乱すこと無く第２ユーザＵ２の音声チャットを第１ユーザＵ１に届けることができる。

　図１１等を参照して説明したように、クライアントシステム３のテキスト変換部１８は、変換されたテキストを三次元文字情報に更に変換する処理を行ってもよい。
　例えば、発話音声から変換されたテキストを三次元のテキスト情報である三次元オブジェクトとして第１ユーザＵ１に提示する。
　これにより、発話者である第２ユーザＵ２に話しかけられた第１ユーザＵ１は、第２ユーザＵ２による発話内容を適切に把握することができる。

　また、上述したように、三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部１４を備えていてもよい。
　三次元オブジェクトを表示し続けることは第１ユーザＵ１が演者などを視認する際の障壁となる可能性がある。また、三次元オブジェクトを表示し続けることにより音声チャットに基づく複数の三次元オブジェクトが表示されてしまい、第１ユーザＵ１の周囲に対する視覚の障害となってしまう虞がある。
　本構成によれば、三次元オブジェクトごとに表示終了タイミングが決定されるため、仮想空間ＶＳにおける第１ユーザＵ１の視認性を確保することができる。

　上述したように、表示制御部１４は、三次元オブジェクトの表示開始から所定時間が経過したタイミングを表示終了タイミングとして決定してもよい。
　所定時間の経過に応じて三次元オブジェクトの表示を終了させることにより、表示中の三次元オブジェクトの数が増大し過ぎてしまうことが防止される。
　これにより、三次元オブジェクトが第１ユーザＵ１の視界を遮る障害物となってしまうことが防止され、第１ユーザＵ１の良好な視界を確保することができる。

　上述したように、表示制御部１４は、三次元オブジェクトに対する所定操作が行われたタイミングを表示終了タイミングとして決定してもよい。
　三次元オブジェクトに対する表示終了操作が設けられることで、任意の三次元オブジェクトの表示を終了させることができる。
　これにより、第１ユーザＵ１や第２ユーザＵ２などの各ユーザＵは、音声チャットに基づく不要な三次元オブジェクトを手動で表示しないようにすることができ、利便性の向上を図ることができる。
　特に、音声チャットの発話者である第２ユーザＵ２にとっては、誤ったチャット入力などを手動で消すことができる。また、音声チャットの受け手である第１ユーザＵ１にとっては、必要な三次元オブジェクトのみを表示させたままとすることなどが可能となる。
　なお、上述したように、三次元オブジェクトの表示を終了させる操作を実行可能なユーザＵを限定してもよい。例えば、第２ユーザＵ２の発話による音声チャットに基づく三次元オブジェクトについては、第１ユーザＵ１にのみ表示を終了させる操作が可能とされていてもよい。これにより、手動にて三次元オブジェクトの表示が終了した場合には、第１ユーザＵ１がチャット内容を確認したことを第２ユーザＵ２が認識することができる。これにより、円滑なコミュニケーションを図ることが可能となる。

　図１１等を参照して説明したように、クライアントシステム３の表示制御部１４は、仮想空間ＶＳに配置される他のオブジェクトに三次元オブジェクトとしての三次元テキストが衝突したタイミングを当該三次元テキストの表示終了タイミングとして決定してもよい。
　仮想空間ＶＳに配置された三次元オブジェクトの数が多くなると、三次元オブジェクト同士の衝突が起きやすくなる。従って、衝突によって三次元オブジェクトの表示が終了されることで、仮想空間ＶＳに配置された三次元オブジェクトの数が多くなりすぎることが防止される。
　これにより、仮想空間ＶＳにおけるユーザＵの視界が三次元オブジェクトによって妨げられてしまうことを防止し、視界を確保することができる。

　図１２及び図１３などを参照して説明したように、クライアントシステム３の強調情報生成部２１は、関心情報に基づいて視覚的強調制御を行うための制御情報を生成してもよい。
　仮想空間ＶＳにおいて、第１ユーザＵ１は、発話音声を行った第２ユーザＵ２などの他のユーザＵの位置を把握できない場合があり、誰から音声チャットが届いているかわからない場合がある。本構成によれば、そのような他のユーザＵについての視覚的な強調制御を行うことができる。
　これにより、第１ユーザＵ１は音声チャットの相手を把握することができ、適切なコミュニケーションをとることができる。

　図１２等を参照して説明したように、視覚的強調制御は、第２ユーザＵ２の発話音声への関心が高い場合に第２アバターＡＴ２についての視覚的強調を行うための制御とされてもよい。
　これにより、音声チャットを行った第２ユーザＵ２に紐づく第２アバターＡＴ２を第１ユーザＵ１が視認しやすくされる。
　従って、音声チャットの相手ユーザＵを把握することができる。

　図１３等を参照して説明したように、視覚的強調制御は、第２ユーザＵ２の発話音声への関心が高い場合に第２ユーザＵ２の発話を通知するテキスト表示を行うための制御とされてもよい。
　これにより、第１ユーザＵ１は音声チャットを行ったユーザＵを特定することが可能となる。
　従って、適切なコミュニケーションをとることが可能となる。

　図１４等を参照して説明したように、強調制御は、第２ユーザＵ２の発話音声への関心が高い場合に仮想空間ＶＳにおける第２ユーザＵ２の発話音声の発話位置を変更する制御とされてもよい。
　これにより、音声チャットの相手とされた第２ユーザＵ２に紐づけられた第２アバターＡＴ２が第１アバターＡＴ１の近くに位置される。
　従って、仮想空間ＶＳにおけるお互いの位置関係に応じた三次元の音響（立体音響）の再生が行われる場合に、第２ユーザＵ２による発話音声を第１ユーザＵ１が聞きやすくなるため、適切なコミュニケーションを取ることができる。

　図３等を参照して説明したように、情報処理装置としてのクライアントシステム３は、仮想空間ＶＳにおけるアバターＡＴの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部２０を備えていてもよい。
　例えば、仮想空間ＶＳにおいて音声チャットが可能な許可エリアと音声チャットができない不許可エリアが設けられる。
　これにより、不許可エリアに移動することで音声チャットを行わずにコンサートに集中することができる。また、許可エリアに移動することで、音声チャットによる他ユーザＵとのコミュニケーションをとることができる。

　図８等を参照して説明したように、クライアントシステム３の強調情報生成部２１は、第１アバターＡＴ１が許可エリアに位置している場合に発話音声についての強調制御を行うための制御情報を生成してもよい。
　例えば、不許可エリアに位置している場合には発話音声についての強調制御を行わず、許可エリアに位置している場合に当該強調制御を行うように構成することができる。
　これにより、音声チャットを行いたいと考えて許可エリアに移動しているユーザＵに対して発話音声についての強調制御を行うため、適切な制御を行うことができる。
　また、ユーザＵが不許可エリアに位置している場合に発話音声についての強調制御を行わないことで、コンサート等に対するユーザＵの集中を損なわずに済む。

　本技術における情報処理方法は、コンピュータ装置が実行するものであって、仮想空間ＶＳに配置される第１アバターＡＴ１に紐付く第１ユーザＵ１の関心情報に基づいて仮想空間ＶＳにおける環境音と仮想空間ＶＳに配置される第２アバターＡＴ２に紐付く第２ユーザＵ２の発話音声を含む音響についての強調制御を行うための制御情報を生成するものである。

　本技術における記憶媒体は、仮想空間ＶＳに配置される第１アバターＡＴ１に紐付く第１ユーザＵ１の関心情報に基づいて仮想空間ＶＳにおける環境音と仮想空間ＶＳに配置される第２アバターＡＴ２に紐付く第２ユーザＵ２の発話音声を含む音響についての強調制御を行うための制御情報を生成する機能を演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能なものである。

　情報処理装置としてのクライアントシステム３に実行させるプログラムは、仮想空間ＶＳに配置される第１アバターＡＴ１に紐付く第１ユーザＵ１の関心情報に基づいて仮想空間ＶＳにおける環境音と仮想空間ＶＳに配置される第２アバターＡＴ２に紐付く第２ユーザＵ２の発話音声を含む音響についての強調制御を行うための制御情報を生成する機能を、例えばクライアントシステム３が備えるＣＰＵ等の演算処理装置に実行させるプログラムである。
　このようなプログラムにより、上述した音響についての強調制御をマイクロコンピュータ等の演算処理装置により実現できる。

　これらのプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤ（Hard Disk Drive）や、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。あるいはまたプログラムは、フレキシブルディスク、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＭＯ(Magneto Optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

　なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　また、上述した各例はいかように組み合わせてもよく、各種の組み合わせを用いた場合であっても上述した種々の作用効果を得ることが可能である。

＜９．本技術＞
　本技術は以下のような構成を採ることもできる。
（１）
　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えた
　情報処理装置。
（２）
　前記関心情報は、前記環境音への関心度を示す情報とされた
　上記（１）に記載の情報処理装置。
（３）
　前記関心度を示す情報は、前記第１ユーザのポインティング動作によって得られる情報とされた
　上記（２）に記載の情報処理装置。
（４）
　前記強調制御は、制御対象の音響の音量を変更する制御とされた
　上記（１）から上記（３）の何れかに記載の情報処理装置。
（５）
　前記強調情報生成部は、前記第２ユーザの発話音声をテキストに変換するテキスト変換部を備えた
　上記（１）から上記（４）の何れかに記載の情報処理装置。
（６）
　前記テキスト変換部は、前記環境音への関心度が高い場合に前記第２ユーザの発話音声をテキストに変換する
　上記（５）に記載の情報処理装置。
（７）
　前記テキスト変換部は、前記発話音声への関心度が高い場合に前記第２ユーザの発話音声をテキストに変換する
　上記（５）に記載の情報処理装置。
（８）
　前記テキスト変換部は、変換された前記テキストを三次元文字情報に更に変換する処理を行う
　上記（５）から上記（７）の何れかに記載の情報処理装置。
（９）
　前記三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部を備えた
　上記（８）に記載の情報処理装置。
（１０）
　前記表示制御部は、前記三次元オブジェクトの表示開始から所定時間が経過したタイミングを前記表示終了タイミングとして決定する
　上記（９）に記載の情報処理装置。
（１１）
　前記表示制御部は、前記三次元オブジェクトに対する所定操作が行われたタイミングを前記表示終了タイミングとして決定する
　上記（９）に記載の情報処理装置。
（１２）
　前記表示制御部は、前記仮想空間に配置される他のオブジェクトに前記三次元オブジェクトが衝突したタイミングを前記表示終了タイミングとして決定する
　上記（９）に記載の情報処理装置。
（１３）
　前記強調情報生成部は、前記関心情報に基づいて視覚的強調制御を行うための制御情報を生成する
　上記（１）から上記（１２）の何れかに記載の情報処理装置。
（１４）
　前記視覚的強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記第２アバターについての視覚的強調を行うための制御とされた
　上記（１３）に記載の情報処理装置。
（１５）
　前記視覚的強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記第２ユーザの発話を通知するテキスト表示を行うための制御とされた
　上記（１３）に記載の情報処理装置。
（１６）
　前記強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記仮想空間における前記第２ユーザの発話音声の発話位置を変更する制御とされた
　上記（１）から上記（１５）の何れかに記載の情報処理装置。
（１７）
　前記仮想空間におけるアバターの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部を備えた
　上記（１）から上記（１６）の何れかに記載の情報処理装置。
（１８）
　前記強調情報生成部は、前記第１アバターが前記許可エリアに位置している場合に前記発話音声についての強調制御を行うための制御情報を生成する
　上記（１７）に記載の情報処理装置。
（１９）
　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する処理を、コンピュータ装置が実行する
　情報処理方法。
（２０）
　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報の生成機能を、演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能な
　記憶媒体。

１４　表示制御部
１８　テキスト変換部
２１　強調情報生成部
ＶＳ　仮想空間
Ｕ１　第１ユーザ
Ｕ２　第２ユーザ
ＡＴ１　第１アバター
ＡＴ２　第２アバター
ＴＸ　三次元テキスト

Claims

　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する強調情報生成部を備えた
　情報処理装置。
　前記関心情報は、前記環境音への関心度を示す情報とされた
　請求項１に記載の情報処理装置。
　前記関心度を示す情報は、前記第１ユーザのポインティング動作によって得られる情報とされた
　請求項２に記載の情報処理装置。
　前記強調制御は、制御対象の音響の音量を変更する制御とされた
　請求項１に記載の情報処理装置。
　前記強調情報生成部は、前記第２ユーザの発話音声をテキストに変換するテキスト変換部を備えた
　請求項１に記載の情報処理装置。
　前記テキスト変換部は、前記環境音への関心度が高い場合に前記第２ユーザの発話音声をテキストに変換する
　請求項５に記載の情報処理装置。
　前記テキスト変換部は、前記発話音声への関心度が高い場合に前記第２ユーザの発話音声をテキストに変換する
　請求項５に記載の情報処理装置。
　前記テキスト変換部は、変換された前記テキストを三次元文字情報に更に変換する処理を行う
　請求項５に記載の情報処理装置。
　前記三次元文字情報に基づく三次元オブジェクトについての表示終了タイミングを決定する表示制御部を備えた
　請求項８に記載の情報処理装置。
　前記表示制御部は、前記三次元オブジェクトの表示開始から所定時間が経過したタイミングを前記表示終了タイミングとして決定する
　請求項９に記載の情報処理装置。
　前記表示制御部は、前記三次元オブジェクトに対する所定操作が行われたタイミングを前記表示終了タイミングとして決定する
　請求項９に記載の情報処理装置。
　前記表示制御部は、前記仮想空間に配置される他のオブジェクトに前記三次元オブジェクトが衝突したタイミングを前記表示終了タイミングとして決定する
　請求項９に記載の情報処理装置。
　前記強調情報生成部は、前記関心情報に基づいて視覚的強調制御を行うための制御情報を生成する
　請求項１に記載の情報処理装置。
　前記視覚的強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記第２アバターについての視覚的強調を行うための制御とされた
　請求項１３に記載の情報処理装置。
　前記視覚的強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記第２ユーザの発話を通知するテキスト表示を行うための制御とされた
　請求項１３に記載の情報処理装置。
　前記強調制御は、前記第２ユーザの発話音声への関心が高い場合に前記仮想空間における前記第２ユーザの発話音声の発話位置を変更する制御とされた
　請求項１に記載の情報処理装置。
　前記仮想空間におけるアバターの位置が音声チャットの許可された許可エリアに含まれているか否かを判定するエリア判定部を備えた
　請求項１に記載の情報処理装置。
　前記強調情報生成部は、前記第１アバターが前記許可エリアに位置している場合に前記発話音声についての強調制御を行うための制御情報を生成する
　請求項１７に記載の情報処理装置。
　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報を生成する処理を、コンピュータ装置が実行する
　情報処理方法。
　仮想空間に配置される第１アバターに紐付く第１ユーザの関心情報に基づいて、前記仮想空間における環境音と前記仮想空間に配置される第２アバターに紐付く第２ユーザの発話音声を含む音響についての強調制御を行うための制御情報の生成機能を、演算処理装置に実行させるプログラムが記憶されたコンピュータ装置が読み取り可能な
　記憶媒体。