WO2023238637A1

WO2023238637A1 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: WO2023238637A1
Application number: PCT/JP2023/018870
Authority: WO
Inventors: 孝悌清水
Original assignee: ソニーグループ株式会社
Priority date: 2022-06-10
Filing date: 2023-05-22
Publication date: 2023-12-14

Abstract

本開示は、より現実感を増したユーザ体験を提供することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。音声取得部は、第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、第２のユーザの音声を取得し、音響環境判別処理部は、シーンまたはエリアに対応付けられているコライダに基づき、第１のアバタが存在しているシーンまたはエリアの音響環境を判別する音響環境判別処理を行い、音響特性付与部は、第２のユーザの音声に対して、音響環境判別処理の処理結果に対応する音響特性を付与する。本技術は、例えば、メタバース仮想空間を提供するシステムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム

　本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より現実感を増したユーザ体験を提供することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

　従来、メタバース仮想空間では、１つのワールド内に複数のシーン（仮想空間）が設けられており、ユーザは、自身のアバタを、それぞれのシーンの間で自由に移動させることができる。そして、メタバース仮想空間では、同一のシーンに複数のアバタが入っているとき、それらのアバタのユーザどうしがボイスチャットで遠隔通話することによってコミュニケーションを図ることができるユーザ体験が提供される。

　また、メタバース仮想空間では、屋内や屋外など様々な環境がシーンに設けられていることがあり、それぞれの環境に適した音響効果（音の反射特性で生成される残響効果）を付与した環境音を出力することで、現実感を増したユーザ体験を提供することができる。例えば、メタバース仮想空間におけるシーンが洞窟である場合、洞窟内の水滴や生物などの環境音に対してリバーブを付与することで、ユーザは、洞窟内に居るという現実感を体験することができる。

　また、特許文献１には、会話グループに所属するユーザ端末のユーザによる会話を示すグループ会話データと会話グループに関する位置座標とを送信することで、仮想空間における会話の聴き取りを容易化することができるオンライン会話システムが提案されている。

特開２０１０－１２２８２６号公報

　ところで、従来、上述したように環境に適した音響効果が環境音に対して付与されている。これに対し、例えば、同様の音響効果が、会話相手となる他のユーザの音声に対してリアルタイムに付与されていない場合、ボイスチャットの開始に伴って会話相手の実在感がなくなってしまう結果、メタバース仮想空間に対する現実感が損なわれてしまうことが懸念される。

　本開示は、このような状況に鑑みてなされたものであり、より現実感を増したユーザ体験を提供することができるようにするものである。

　本開示の一側面の情報処理装置は、第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得する音声取得部と、前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部とを備える。

　本開示の一側面の情報処理法またはプログラムは、第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得することと、前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することとを含む。

　本開示の一側面においては、第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに第２のユーザの音声が取得され、シーンまたはエリアに対応付けられているコライダに基づき、第１のアバタが存在しているシーンまたはエリアの音響環境を判別する音響環境判別処理が行われ、第２のユーザの音声に対して、音響環境判別処理の処理結果に対応する音響特性が付与される。

本技術を適用したメタバース仮想空間システムの一実施の形態の構成例を示すブロック図である。メタバース仮想空間に設けられるシーンについて説明する図である。シーンコライダを利用した音響環境判別処理について説明する図である。エリアについて説明する図である。音響特性処理部の構成例を示すブロック図である。第１の音響特性処理を説明するフローチャートである。空間変容が発生したときの音響環境判別処理について説明する第２の音響特性処理を説明するフローチャートである。気候変動が発生したときの音響環境判別処理について説明する図である。第３の音響特性処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜メタバース仮想空間システムの構成例＞
　図１は、本技術を適用したメタバース仮想空間システムの一実施の形態の構成例を示すブロック図である。

　図１に示すように、メタバース仮想空間システム１１は、サーバ２１と複数のクライアント端末２２とが、インターネットなどのネットワーク２３を介して接続されて構成されており、それぞれのクライアント端末２２のユーザにメタバース仮想空間を提供する。図１に示す例では、Ｎ人のユーザがメタバース仮想空間に参加しており、Ｎ台のクライアント端末２２－１乃至２２－Ｎがネットワーク２３に接続されている。従って、メタバース仮想空間には、複数のユーザそれぞれに対応する複数のアバタが存在することができ、１人のユーザに１つのアバタが対応して、ぞれぞれのユーザは、自身に対応するアバタを操作することで、メタバース仮想空間内を移動することができる。なお、クライアント端末２２－１乃至２２－Ｎは同様に構成されており、それらを区別する必要がない場合、単にクライアント端末２２と称する。

　サーバ２１は、複数のユーザでメタバース仮想空間を共有し、メタバース仮想空間におけるユーザ体験を提供するのに必要となる空間共有情報を、ネットワーク２３を介してクライアント端末２２に送信する。例えば、空間共有情報には、メタバース仮想空間における各アバタの位置を示すアバタ位置情報、メタバース仮想空間における各アバタの動作を表すアバタモーション情報、メタバース仮想空間において各アバタが所有しているアイテムの位置を示すアバタ所有物の位置情報、メタバース仮想空間においてアバタどうしで合流せずに対話窓を介して双方向の対話を行うための映像および音のデータからなる対話窓ＡＶストリーム情報などが含まれる。

　クライアント端末２２は、サーバ２１からネットワーク２３を介して送信されてくる空間共有情報に基づいて、メタバース仮想空間を再現する。また、クライアント端末２２は、ユーザが発話した音声を取得するマイク、サーバ２１または他のクライアント端末２２から送信されてくる音声データに従った音声を出力するスピーカを備えている。そして、クライアント端末２２が、マイクにより取得したユーザの音声の音声データをサーバ２１に送信するとともに、受信した音声データに従って他のユーザの音声をスピーカから出力することで、メタバース仮想空間を共有しているユーザどうしの会話が行われる。即ち、クライアント端末２２は、ユーザ自身のアバタが見ることのできる範囲のメタバース仮想空間の映像をディスプレイに表示し、ユーザ自身のアバタが聞くことのできるメタバース仮想空間の音（各シーンおよび各エリアの環境音や、会話相手となるユーザの音声など）をスピーカから出力する。例えば、クライアント端末２２としては、ヘッドマウントディスプレイや、パーソナルコンピュータ、タブレット端末、スマートフォンなどの各種のデバイスを利用することができる。

　このように構成されるメタバース仮想空間システム１１によりメタバース仮想空間が提供され、ユーザは、クライアント端末２２を操作して、メタバース仮想空間にログインおよびログアウトすることができる。

　また、図２に示すように、メタバース仮想空間では、１つのワールド内に複数のシーン（仮想空間）が設けられている。図２には、１つのワールド内に、Ｍ個のシーンScene-1乃至Scene-Mが設けられているメタバース仮想空間の一例が示されている。

　例えば、ユーザは、クライアント端末２２を操作して、シーンScene-1乃至Scene-Mのうちの所望のシーンを選択し、そのシーンにアバタを自由に移動させることができる。そして、メタバース仮想空間では、同一のシーンに居るアバタのユーザどうしは、ボイスチャットによる双方向の音声通話を行うことで、互いにコミュニケーションを図ることができる。

　また、メタバース仮想空間では、シーンScene-1乃至Scene-Mそれぞれの環境における環境音（例えば、風音や雨音などのような自然環境で聞こえてくる音や、足音や物音などのような生活環境の中で聞こえてくる音など）に対して付与される音響特性がプリセットされている。そして、ユーザが、シーンScene-1乃至Scene-Mのいずれかにアバタを移動させると、環境音の再生時に、その移動先のシーンにプリセットされている音響特性が環境音に対して付与され、プリセットの音響特性が付与された環境音が出力される。例えば、音響特性の一例として、シーンが屋外であれば、広場や、街路、自然環境（例えば、山頂、河川、または森林）など環境に応じた音響特性が用いられ、シーンが屋内であれば、洞窟、教会、ライブホール、劇場などの環境に応じた音響特性が用いられる。

　さらに、メタバース仮想空間では、会話相手となる他のユーザが発話した音声を取得すると、その時点においてユーザ自身（第１のユーザ）のアバタがメタバース仮想空間で存在している位置における音響環境に適した音響特性が、会話相手（第２のユーザ）の音声に対して付与される。例えば、アバタが存在している位置の音響環境に適した音響特性を特定するために、メタバース仮想空間では、シーンScene-1乃至Scene-Mそれぞれの空間の天井を覆うようにシーンコライダSceneCollider-1乃至SceneCollider-Mが配置されている。また、シーンコライダSceneCollider-1乃至SceneCollider-Mには、それぞれ音響特性を識別するシーン音響ＩＤが対応付けられている。そして、シーンコライダSceneCollider-1乃至SceneCollider-Mを利用した音響環境判別処理により、ユーザ自身のアバタの位置における音響環境を判別することで、会話相手の音声に対して、ユーザ自身のアバタの位置の音響環境に適した音響特性を付与することができる。

　図３を参照して、シーンコライダを利用した音響環境判別処理について説明する。

　図２を参照して上述したように、メタバース仮想空間システム１１では、シーンの空間の天井を覆うようにシーンコライダが配置されている。そして、音響環境判別処理では、それぞれのアバタの頭上（例えば、仮想カメラの位置や、アバタの居る座標位置など）から天上向きに判別光線を出力し、その判別光線が当たったシーンコライダによって、即ち、シーンコライダのヒット判定に基づいて、個々のアバタの位置における音響環境を判別することができる。このような音響環境判別処理によって、メタバース仮想空間システム１１では、シーンコライダに対応付けられているシーン音響ＩＤが取得され、その取得されたシーン音響ＩＤで識別される音響特性が、会話相手の音声に対して付与される。

　これにより、図３に示すように、ユーザ１のアバタと同じシーンにユーザ２およびユーザ３のアバタが存在している場合、ユーザ２およびユーザ３が使用しているクライアント端末２２のマイクにより取得された音声に対し、ユーザ１のアバタの位置における音響環境に適した音響特性を付与する音響特性処理が施される。そして、そのような音響特性が付与された音声データが、ユーザ１が使用しているクライアント端末２２にサーバ２１から送信され、音声データに従った音声が、クライアント端末２２のスピーカから出力される。このように、メタバース仮想空間システム１１は、より現実感を増したユーザ体験を提供することができる。

　例えば、シーンコライダを利用した音響環境判別処理によって、アバタが水平方向または垂直方向に移動しても、常に、シーンを覆うように設けられているシーンコライダに基づいてシーンの音響環境を判別することができる。従って、メタバース仮想空間システム１１では、会話相手とボイスチャットしながら移動して音響環境が変化したとしても、リアルタイムで適切な音響特性を会話相手の音声に対して付与することができる。

　なお、メタバース仮想空間システム１１では、会話相手の音声に対して音響特性を付与するのは必須である一方、例えば、ユーザ自身の音声に対しては、システム全体の処理能力に応じて適用しても適用しなくてもよい。

　また、メタバース仮想空間では、シーンに複数のエリア（例えば、屋外、建物内の廊下、建物内の部屋など）を設けることができ、上述したシーンと同様に、エリアそれぞれの環境における環境音に対して付与される音声特性がプリセットされている。

　例えば、図４には、１つのエリアが設けられたシーンの一例が示されている。

　例えば、エリアの天井を覆うようにエリアコライダが配置されており、エリアコライダには、エリアそれぞれの音響特性を識別するエリア音響ＩＤが対応付けられている。従って、上述したようにシーンに対応する音響環境を判別するのと同様に、それぞれのエリアに対応する音響環境を判別することができる。例えば、図４に示すように、ユーザ１のアバタがエリア内に存在する場合には、エリアの音響特性が環境音および会話相手の音声に対して付与され、ユーザ２のアバタがエリア外に存在する場合には、シーンの音響特性が環境音および会話相手の音声に対して付与される。

　つまり、メタバース仮想空間システム１１では、シーンコライダまたはエリアコライダに基づき、ユーザ自身のアバタがメタバース仮想空間で存在している位置における音響環境に適した音響特性が判断される。これにより、シーンまたはエリアそれぞれに適した音響特性が環境音および会話相手の音声に付与されるため、メタバース仮想空間の現実感が増すことになる。

　＜音響特性処理部の構成例＞
　図５は、メタバース仮想空間システム１１において、適切な音響特性を付与するための音響特性処理を実行する音響特性処理部の構成例を示すブロック図である。

　図５に示すように、音響特性処理部３１は、仮想空間管理部４１、環境音取得部４２、音声取得部４３、音響環境判別処理部４４、音響特性付与部４５、および音声データ出力部４６を備えて構成される。

　仮想空間管理部４１は、メタバース仮想空間システム１１において提供されるメタバース仮想空間の管理に関する各種の処理を行う。例えば、仮想空間管理部４１は、ユーザによる操作に応じて、ユーザがメタバース仮想空間にログインするためのログイン処理や、ユーザがメタバース仮想空間からログアウトするためのログアウト処理などを行う。また、仮想空間管理部４１は、ユーザによる操作に応じて、アバタをシーン間で移動させるためのアバタ移動処理を行い、アバタが移動した移動先のシーンにプリセットされている音響特性を識別するプリセット音響ＩＤを音響特性付与部４５に供給する。さらに、仮想空間管理部４１は、後述の図７を参照して説明するような空間変容に関する処理や、後述の図９を参照して説明するような気候変動に関する処理なども行う。

　環境音取得部４２は、ユーザ自身のアバタが居るシーンまたはエリアにおける環境音を取得して、音響特性付与部４５に供給する。

　音声取得部４３は、ユーザ自身のアバタと同じシーン内またはエリア内に他のユーザのアバタが存在している場合に、他のユーザが発話した音声をマイクで取得してクライアント端末２２から送信されてくる音声データが入力されると、その音声を取得して音響特性付与部４５に供給する。

　音響環境判別処理部４４は、図３を参照して上述したように、ユーザ自身のアバタの頭上から天上向きに判別光線を出力し、その判別光線が当たったシーンコライダまたはエリアコライダに基づいて、ユーザ自身のアバタの位置におけるシーンまたはエリアの音響環境を判別する音響環境判別処理を行う。そして、音響環境判別処理部４４は、音響環境判別処理の処理結果に従って、判別光線が当たったシーンコライダまたはエリアコライダに対応付けられているシーン音響ＩＤまたはエリア音響ＩＤを、ユーザ自身のアバタの位置に適した音響特性を識別するシーン音響ＩＤまたはエリア音響ＩＤとして取得し、音響特性付与部４５に供給する。

　音響特性付与部４５は、仮想空間管理部４１から供給されるプリセット音響ＩＤによって識別される音響特性を、環境音取得部４２から供給される環境音に付与し、プリセットの音響特性が付与された環境音を音声データ出力部４６に供給する。また、音響特性付与部４５は、音響環境判別処理部４４からから供給されるシーン音響ＩＤまたはエリア音響ＩＤによって識別される音響特性を、音声取得部４３から供給される会話相手の音声に付与し、ユーザ自身のアバタの位置に適した音響特性が付与された会話相手の音声を音声データ出力部４６に供給する。

　さらに、音響特性付与部４５は、所定の属性情報に基づいて、会話相手の音声に対するリバーブ量を調整することができる。例えば、属性情報には、ユーザ自身に対する他のユーザの親密度および貢献度を用いることができ、音響特性付与部４５は、親密度および貢献度が高い会話相手の音声に対してはリバーブ量を強めるように調整を行う。これにより、ユーザが、複数の会話相手の中から、親密度および貢献度が高い会話相手の音声を気づき易くすることができる。具体的には、音楽ライブや握手会ライブなどのシーンにおいて、親密度および貢献度が高い会話相手（ファン）のリバーブ量を強めることで、音楽ライブや握手会ライブなどを行っているユーザ（配信者）が、その会話相手の音声を気づき易くすることができる。

　音声データ出力部４６は、音響特性付与部４５から供給される環境音および音声を示す音声データを、各クライアント端末２２に出力する。

　以上のように音響特性処理部３１は構成されており、音響環境判別処理部４４が響環境判別処理を行うことによって、アバタの位置のシーンまたはエリアにおいて適切な音響特性を付与した会話相手の音声を出力することができ、より現実感を増したユーザ体験を提供することができる。

　例えば、ユーザが、他のユーザと会話しながらシーンまたはエリアを跨ぐようにアバタを移動させた場合、音響特性処理部３１は、アバタがシーンまたはエリアを移動するのに連動させて、移動先のシーンまたはエリアに適切な音響特性を会話相手の音声に対して常に付与することができる。従って、メタバース仮想空間システム１１では、ユーザが、そのシーンまたはエリアに居るという感覚、つまり、現実感が損なわれないようにすることができる。なお、座標判定によって仮想空間内の位置を判定することもできるが、複雑な形状の仮想空間においては演算負荷や誤判定が発生することが想定されるのに対し、メタバース仮想空間システム１１では、シーンコライダまたはエリアコライダを利用した音響環境判別処理によって、演算負荷や誤判定の発生を回避することができる。

　なお、音響特性処理部３１を構成する各ブロックは、メタバース仮想空間システム１１を構成するサーバ２１と複数のクライアント端末２２とのいずれかに設けられていればよく、それらに分散して設けられた構成としてもよい。

　図６に示すフローチャートを参照し、音響特性処理部３１において行われる第１の音響特性処理について説明する。

　例えば、ユーザが、クライアント端末２２を操作して、メタバース仮想空間システム１１により提供されるメタバース仮想空間にログインを要求すると、ステップＳ１１において、仮想空間管理部４１は、メタバース仮想空間のワールドへのログイン処理を行う。

　ステップＳ１２において、ユーザが、クライアント端末２２を操作して、メタバース仮想空間のワールドに設けられる複数のシーンのうち、所望のシーンを選択すると、仮想空間管理部４１は、アバタを所望のシーンに移動させるアバタ移動処理を行う。そして、仮想空間管理部４１は、アバタが移動した移動先のシーンにプリセットされている音響特性を識別するプリセット音響ＩＤを音響特性付与部４５に供給する。

　ステップＳ１３において、環境音取得部４２は、アバタが移動した移動先のシーンにおける環境音、即ち、移動後の現時点においてユーザ自身のアバタが居るシーンにおける環境音を取得して、音響特性付与部４５に供給する。音響特性付与部４５は、環境音の再生時に、ステップＳ１２で仮想空間管理部４１から供給されたプリセット音響ＩＤによって識別される音響特性を、環境音取得部４２から供給される環境音に付与し、プリセットの音響特性が付与された環境音を出力する。

　ステップＳ１４において、音声取得部４３は、同じシーンに居るアバタに対応する他のユーザの音声が入力されたか否かを判定する。ステップＳ１４において、音声取得部４３が、同じシーンに居るアバタに対応する他のユーザの音声が入力されていないと判定した場合、処理はステップＳ１３に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ１４において、音声取得部４３が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部４５に供給し、処理はステップＳ１５に進む。

　ステップＳ１５において、音響環境判別処理部４４は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったシーン音響ＩＤを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったシーンコライダに対応付けられているシーン音響ＩＤを取得し、音響特性付与部４５に供給する。

　ステップＳ１６において、音響特性付与部４５は、ステップＳ１４で音声取得部４３から供給された会話相手の音声に対して、ステップＳ１５で音響環境判別処理部４４から供給されたシーン音響ＩＤに従った音響特性を付与する。

　ステップＳ１７において、音響特性付与部４５は、ステップＳ１６で音響特性が付与された会話相手の音声について、属性情報（上述したような親密度や貢献度など）に基づいてリバーブ量を調整する。そして、音響特性付与部４５は、ユーザ自身のアバタの位置に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。

　ステップＳ１８において、仮想空間管理部４１は、別のシーンへアバタを移動させる移動操作がユーザにより行われたか否かを判定する。ステップＳ１８において、仮想空間管理部４１が、別のシーンへアバタを移動させる移動操作が行われていないと判定した場合、処理はステップＳ１３に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ１８において、仮想空間管理部４１が、別のシーンへアバタを移動させる移動操作が行われたと判定した場合、処理はステップＳ１９に進む。

　ステップＳ１９において、仮想空間管理部４１は、メタバース仮想空間のワールドからログアウトするログアウト操作がユーザにより行われたか否かを判定する。ステップＳ１９において、仮想空間管理部４１が、ログアウト操作が行われていないと判定した場合、処理はステップＳ１２に戻り、以下、同様の処理が繰り返して行われる。一方、ステップＳ１９において、仮想空間管理部４１が、ログアウト操作が行われたと判定した場合、処理はステップＳ２０に進む。

　ステップＳ２０において、仮想空間管理部４１は、メタバース仮想空間システム１１により提供されるメタバース仮想空間のワールドからログアウトするログアウト処理を行い、その後、処理は終了される。

　以上のように、音響特性処理部３１において第１の音響特性処理が行われることによって、アバタがシーンを移動するのに連動させて、その移動先のシーンにおける適切な音響特性を付与した会話相手の音声を出力することができる。

　また、音響特性処理部３１は、ユーザ自身のアバタと他のユーザのアバタとのメタバース仮想空間における距離に基づいて、他のユーザの音声に付与する音響特性を制御することができる。例えば、音響特性処理部３１は、ユーザ自身のアバタと他のユーザのアバタとのメタバース仮想空間における距離が所定の値を超えた場合に、即ち、アバタどうしが離れている場合に、他のユーザの音声が聞こえなくなるような制御（ミュート）を行う。このように、同じシーンまたはエリアに居るアバタどうしであっても、それらの距離に応じて、他のユーザの音声が必ずしも聞こえるようにしなくてもよい。

　また、音響特性処理部３１は、同じシーンまたはエリアに存在するアバタの人数に基づいて、他のユーザの音声に付与する音響特性を制御することができる。例えば、音響特性処理部３１は、アバタの人数が閾値を超えた場合にのみ、即ち、アバタが多すぎるシーンまたはエリアの場合にのみ、属性情報に基づいた音響特性の付与（例えば、リバーブ量の調整など）を行ってもよい。

　＜空間変容が発生したときの処理例＞
　図７を参照して、空間変容が発生したときの音響環境判別処理について説明する。

　上述したように、メタバース仮想空間システム１１は、アバタがシーンを移動するのに連動させて、移動先のシーンに適切な音響特性を会話相手の音声に対して付与することができる。さらに、メタバース仮想空間システム１１は、アバタがシーンを移動していなくても、シーン内で空間変容が発生するのに連動させて、変容後の空間に適切な音響特性を会話相手の音声に対して付与することができる。

　例えば、図７に示すように、あるシーンScene内に居る複数のアバタを覆うように、そのシーンSceneの内部に密閉空間Spaceが設けられる空間変容が発生したとする。そして、シーンSceneの天井を覆うようにシーンコライダSceneColliderが設けられていたのと同様に、密閉空間Spaceに天井を覆うようにスペースコライダSpaceColliderが設けられており、スペースコライダSpaceColliderにスペース音響ＩＤが対応付けられている。従って、密閉空間Space内のアバタは、頭上から天上向きに判別光線を出力し、その判別光線が当たったスペースコライダSpaceColliderに基づいて、アバタの位置における音響環境、即ち、密閉空間Spaceに適した音響環境を判別することができる。

　これにより、メタバース仮想空間システム１１では、シーン内で空間変容が発生しても、密閉空間内の環境音および会話相手の音声を再生するときには、それらの音に対して密閉空間に適した音響特性を付与することができる。なお、メタバース仮想空間システム１１では、密閉空間外の環境音および密閉空間外の会話相手の音声を再生するときには、それらの音をミューティングしたり、微かに聞こえる程度の音量で再生したりすることで、より臨場感を与えることができる。

　図８に示すフローチャートを参照し、音響特性処理部３１において行われる第２の音響特性処理について説明する。

　ステップＳ３１乃至Ｓ３４において、図６のステップＳ１１乃至Ｓ１４と同様の処理が行われる。そして、ステップＳ３４において、音声取得部４３が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部４５に供給し、処理はステップＳ３５に進む。

　ステップＳ３５において、仮想空間管理部４１は、現在のシーン内で空間変容が発生したか否かを判定し、現在のシーン内で空間変容が発生していないと判定した場合、処理はステップＳ３６に進む。そして、ステップＳ３６乃至Ｓ３８において、図６のステップＳ１５乃至Ｓ１７と同様の処理が行われる。

　一方、ステップＳ３５において、仮想空間管理部４１が、現在のシーン内で空間変容が発生したと判定した場合、処理はステップＳ３９に進む。

　ステップＳ３９において、音響環境判別処理部４４は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったスペース音響ＩＤを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったスペースコライダに対応付けられているスペース音響ＩＤを取得し、音響特性付与部４５に供給する。

　ステップＳ４０において、音響特性付与部４５は、ステップＳ３４で音声取得部４３から供給された会話相手の音声に対して、ステップＳ３９で音響環境判別処理部４４から供給されたスペース音響ＩＤに従った音響特性を付与する。

　ステップＳ４１において、音響特性付与部４５は、ステップＳ４０で音響特性が付与された会話相手の音声について、属性情報（上述したような親密度や貢献度など）に基づいてリバーブ量を調整する。そして、音響特性付与部４５は、ユーザ自身のアバタの位置に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。

　ステップＳ３８またはＳ４１の処理後、処理はステップＳ４２に進む。そして、ステップＳ４２乃至ステップＳ４４において、図６のステップＳ１８乃至Ｓ２０と同様の処理が行われる。

　以上のように、音響特性処理部３１において第２の音響特性処理が行われることによって、シーン内における空間変容に連動させて、それぞれの空間において適切な音響特性を付与した会話相手の音声を出力することができる。

　＜気候変動が発生したときの処理例＞
　図９を参照して、気候変動が発生したときの音響環境判別処理について説明する。

　メタバース仮想空間システム１１は、例えば、シーンが屋外の仮想空間である場合、気候変動を発生させることができる。

　例えば、音響特性処理部３１では、仮想空間管理部４１が気候変動の発生の有無を判定することができる。そして、気候変動が発生した場合、音響特性付与部４５は、それぞれの気候に応じた音響特性が登録されている気候データベースを参照して、シーン内の環境音および会話相手の音声を再生するときには、それらの音に対して変動後の気候に適した音響特性を付与することができる。例えば、図９には、気候変動の一例として、雪の夜となったシーンが示されており、雪の夜には、リバーブ量を増やすような音響特性が付与される。

　図１０に示すフローチャートを参照し、音響特性処理部３１において行われる第３の音響特性処理について説明する。

　ステップＳ５１乃至Ｓ５４において、図６のステップＳ１１乃至Ｓ１４と同様の処理が行われる。そして、ステップＳ５４において、音声取得部４３が、同じシーンに居るアバタに対応する他のユーザの音声が入力されたと判定した場合、その会話相手の音声を取得して音響特性付与部４５に供給し、処理はステップＳ５５に進む。

　ステップＳ５５において、仮想空間管理部４１は、現在のシーン内で気候変動が発生したか否かを判定し、現在のシーン内で気候変動が発生していないと判定した場合、処理はステップＳ５６に進む。そして、ステップＳ５６乃至Ｓ５８において、図６のステップＳ１５乃至Ｓ１７と同様の処理が行われる。

　一方、ステップＳ５５において、仮想空間管理部４１が、現在のシーン内で気候変動が発生したと判定した場合、処理はステップＳ５９に進む。

　ステップＳ５９において、音響環境判別処理部４４は、ユーザ自身のアバタの位置における音響環境を判別する音響環境判別処理を行い、その処理結果に従ったシーン音響ＩＤを取得し、即ち、ユーザ自身のアバタの頭上から天上向きに出力した判別光線が当たったシーンコライダに対応付けられているシーン音響ＩＤを取得し、音響特性付与部４５に供給する。

　ステップＳ６０において、音響特性付与部４５は、ステップＳ５４で音声取得部４３から供給された会話相手の音声に対して、ステップＳ５９で音響環境判別処理部４４から供給されたスペース音響ＩＤに従った音響特性に加えて、気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する。

　ステップＳ６１において、音響特性付与部４５は、ステップＳ６０で音響特性が付与された会話相手の音声について、属性情報（上述したような親密度や貢献度など）に基づいてリバーブ量を調整する。そして、音響特性付与部４５は、ユーザ自身のアバタの位置および天候情報に適した音響特性が付与され、所定の属性情報に基づいてリバーブ量が調整された会話相手の音声を出力する。

　ステップＳ５８またはＳ６１の処理後、処理はステップＳ６２に進む。そして、ステップＳ６２乃至ステップＳ６４において、図６のステップＳ１８乃至Ｓ２０と同様の処理が行われる。

　以上のように、音響特性処理部３１において第３の音響特性処理が行われることによって、シーン内における気候変動に連動させて、それぞれの気候において適切な音響特性を付与した会話相手の音声を出力することができる。

　このように、メタバース仮想空間システム１１では、ユーザが、シーンの映像を見て視覚情報として感じる環境や天候などに応じた音響効果を、環境音の再生と同様に、会話相手の音声に付与することで、同じシーンに居るユーザどうしがボイスチャットで会話しているときに、その仮想空間内に居るようなユーザ体験を維持することができる。これにより、メタバース仮想空間システム１１は、従来とは異なる高い没入感や、臨場感、現実感、実在感などのある体験効果をユーザに与えることができる。また、メタバース仮想空間システム１１では、ユーザ自身に聞こえる、そのユーザの音声について音響特性を付加する処理は、システム全体の処理能力に応じて行ってもよい。

　なお、上述したように、音響特性付与部４５は、親密度や貢献度などの属性情報に基づいてリバーブ量を調整する他、例えば、発話の宛先に応じてリバーブ量を調整してもよい。即ち、ユーザ自身に対する会話相手の音声であればリバーブ量を抑えて、聞き取りやすさを優先にする一方で、ユーザ自身に対する音声でなければ、臨場感を優先にして音声のリバーブ量を環境に合わせるようにしてもよい。

　また、音響特性付与部４５は、会話相手の感情を検知して、歓喜や悲しみなどの情動量が大きい相手の発話にはリバーブ量を強めて、聞き手側が会話相手の音声に気づき易くすることができる。また、音響特性付与部４５は、会話相手の居る位置までの距離に応じてリバーブ量を変更してもよく、例えば、遠くに居る会話相手ほどリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。また、音響特性付与部４５は、会話相手の人数に応じてリバーブ量を変更してもよく、例えば、会話相手の人数が多いほどリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。また、音響特性付与部４５は、演出のシナリオに応じてリバーブ量を変更してもよく、例えば、クライマックスのシーンでは会話相手の音声のリバーブ量を強めて、聞き手側が会話相手の音声に気づき易いようにすることができる。

　なお、本技術は、メタバース仮想空間に対して適用するのに限定されることなく、例えば、ＡＲ（Augmented Reality）空間や現実空間などの体験として音響を誇張してボイスチャットに対して音響特性を付与することに適用することができる。また、本技術は、エンターテイメントや、教育、作業支援などボイスチャットの活用を必要とする幅広いビジネス領域で適用可能である。

　＜コンピュータの構成例＞
　次に、上述した一連の処理（情報処理方法）は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

　図１１は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

　プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

　あるいはまた、プログラムは、ドライブ１０９によって駆動されるリムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

　なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

　コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

　CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

　これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

　なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

　また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得する音声取得部と、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部と
　を備える情報処理装置。
（２）
　前記音響特性を付与した前記第２のユーザの音声を示す情報を、前記第１のユーザに対応する端末へ出力する出力部
　をさらに備える上記（１）に記載の情報処理装置。
（３）
　前記音響環境判別処理部は、前記シーンまたは前記エリアにおける前記第１のアバタの頭上から天上向きに出力した判別光線が当たった前記コライダに対応付けられている音響ＩＤを取得し、
　前記音響特性付与部は、前記第２のユーザの音声に対して、前記音響ＩＤによって識別される音響特性を付与する
　上記（１）に記載の情報処理装置。
（４）
　前記第１のユーザは、複数の前記シーンのうち、所望のシーンを選択して前記第１のアバタを移動させることができ、
　前記音響特性付与部は、前記第１のアバタの移動に連動して、移動先の前記シーンにおける前記音響環境に適した音響特性を前記第２のユーザの音声に対して付与する
　上記（３）に記載の情報処理装置。
（５）
　前記音響特性付与部は、所定の属性情報に基づいて、前記第２のユーザの音声に対するリバーブ量を調整する
　上記（３）または（４）に記載の情報処理装置。
（６）
　前記音響環境判別処理部は、前記シーン内に存在している前記第１のアバタおよび前記第２のアバタを覆うように空間変容が発生した場合、変容後の空間を覆って設けられるスペースコライダを利用して、その空間の前記音響環境を判別する前記音響環境判別処理を行うことで、前記スペースコライダに対応付けられている前記音響ＩＤを取得する
　上記（３）から（５）までのいずれかに記載の情報処理装置。
（７）
　前記音響特性付与部は、前記シーン内において気候変動が発生した場合、前記音響環境判別処理の処理結果に従った前記音響環境に適した音響特性に加えて、変動後の気候に応じた音響特性が登録されている気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する
　上記（３）から（６）までのいずれかに記載の情報処理装置。
（８）
　前記音響特性付与部は、前記第１のアバタと前記第２のアバタとの前記仮想空間における距離に基づいて、前記第２のユーザの音声に付与する音響特性を制御する
　上記（１）に記載の情報処理装置。
（９）
　前記音響特性付与部は、前記距離が所定の値を超えた場合に、前記第２のユーザの音声を聞こえないように処理を行う
　上記（８）に記載の情報処理装置。
（１０）
　前記音響特性付与部は、前記シーンまたは前記エリアに存在するアバタの数に基づいて、前記第２のユーザの音声に付与する音響特性を制御する
　上記（１）に記載の情報処理装置。
（１１）
　前記音響特性付与部は、前記アバタの数が所定の値を超えた場合に、所定の属性情報に基づいて、前記第２のユーザの音声に対するリバーブ量を調整する
　上記（１０）に記載の情報処理装置。
（１２）
　情報処理装置が、
　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得することと、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
　を含む情報処理方法。
（１３）
　情報処理装置のコンピュータに、
　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得することと、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
　を含む情報処理を実行させるためのプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　メタバース仮想空間システム，　２１　サーバ，　２２　クライアント端末，　２３　ネットワーク，　３１　音響特性処理部，　４１　仮想空間管理部，　４２　環境音取得部，　４３　音声取得部，　４４　音響環境判別処理部，　４５　音響特性付与部，　４６　音声データ出力部

Claims

　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得する音声取得部と、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが仮想空間で存在している位置における音響環境を判別する音響環境判別処理を行う音響環境判別処理部と、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与する音響特性付与部と
　を備える情報処理装置。
　前記音響特性を付与した前記第２のユーザの音声を示す情報を、前記第１のユーザに対応する端末へ出力する出力部
　をさらに備える請求項１に記載の情報処理装置。
　前記音響環境判別処理部は、前記シーンまたは前記エリアにおける前記第１のアバタの頭上から天上向きに出力した判別光線が当たった前記コライダに対応付けられている音響ＩＤを取得し、
　前記音響特性付与部は、前記第２のユーザの音声に対して、前記音響ＩＤによって識別される音響特性を付与する
　請求項１に記載の情報処理装置。
　前記第１のユーザは、複数の前記シーンのうち、所望のシーンを選択して前記第１のアバタを移動させることができ、
　前記音響特性付与部は、前記第１のアバタの移動に連動して、移動先の前記シーンにおける前記音響環境に適した音響特性を前記第２のユーザの音声に対して付与する
　請求項３に記載の情報処理装置。
　前記音響特性付与部は、所定の属性情報に基づいて、前記第２のユーザの音声に対するリバーブ量を調整する
　請求項３に記載の情報処理装置。
　前記音響環境判別処理部は、前記シーン内に存在している前記第１のアバタおよび前記第２のアバタを覆うように空間変容が発生した場合、変容後の空間を覆って設けられるスペースコライダを利用して、その空間の前記音響環境を判別する前記音響環境判別処理を行うことで、前記スペースコライダに対応付けられている前記音響ＩＤを取得する
　請求項３に記載の情報処理装置。
　前記音響特性付与部は、前記シーン内において気候変動が発生した場合、前記音響環境判別処理の処理結果に従った前記音響環境に適した音響特性に加えて、変動後の気候に応じた音響特性が登録されている気候データベースを参照して現在のシーンにおける天候に従った音響特性を取得し、それらの音響特性を付与する
　請求項２に記載の情報処理装置。
　前記音響特性付与部は、前記第１のアバタと前記第２のアバタとの前記仮想空間における距離に基づいて、前記第２のユーザの音声に付与する音響特性を制御する
　請求項１に記載の情報処理装置。
　前記音響特性付与部は、前記距離が所定の値を超えた場合に、前記第２のユーザの音声を聞こえないように処理を行う
　請求項８に記載の情報処理装置。
　前記音響特性付与部は、前記シーンまたは前記エリアに存在するアバタの数に基づいて、前記第２のユーザの音声に付与する音響特性を制御する
　請求項１に記載の情報処理装置。
　前記音響特性付与部は、前記アバタの数が所定の値を超えた場合に、所定の属性情報に基づいて、前記第２のユーザの音声に対するリバーブ量を調整する
　請求項１０に記載の情報処理装置。
　情報処理装置が、
　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得することと、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
　を含む情報処理方法。
　情報処理装置のコンピュータに、
　第１のユーザに対応する第１のアバタが存在している仮想空間に対応するシーンまたは複数のエリアに第２のユーザに対応する第２のアバタが存在しているときに、前記第２のユーザの音声を取得することと、
　前記シーンまたは前記エリアに対応付けられているコライダに基づき、前記第１のアバタが存在している前記シーンまたは前記エリアの音響環境を判別する音響環境判別処理を行うことと、
　前記第２のユーザの音声に対して、前記音響環境判別処理の処理結果に対応する音響特性を付与することと
　を含む情報処理を実行させるためのプログラム。