WO2022054603A1

WO2022054603A1 - 情報処理装置、情報処理端末、情報処理方法、およびプログラム

Info

Publication number: WO2022054603A1
Application number: PCT/JP2021/031450
Authority: WO
Inventors: 拓人大西; 雅彦小泉; 千尋菅井; 泰己遠藤; 越沖本
Original assignee: ソニーグループ株式会社
Priority date: 2020-09-10
Filing date: 2021-08-27
Publication date: 2022-03-17
Also published as: CN116057927A; DE112021004759T5; US20240031758A1; JPWO2022054603A1

Abstract

本技術は、会話の参加者によるアクションに応じた音声コンテンツを臨場感のある状態で出力させることができるようにする情報処理装置、情報処理端末、情報処理方法、およびプログラムに関する。本技術の一側面の情報処理装置は、聴取位置を基準とした複数の位置に対応するHRTFデータを記憶する記憶部と、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択されたHRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、アクションに応じて選択された音声コンテンツを提供する音像定位処理部とを備える。本技術は、リモート会議を行うコンピュータに適用することができる。

Description

情報処理装置、情報処理端末、情報処理方法、およびプログラム

　本技術は、特に、会話の参加者によるアクションに応じた音声コンテンツを臨場感のある状態で出力させることができるようにした情報処理装置、情報処理端末、情報処理方法、およびプログラムに関する。

　遠隔にいる複数の参加者がPCなどの装置を使用して会議を行ういわゆるリモート会議が普及してきている。PCにインストールされたWebブラウザや専用のアプリケーションを起動させ、会議毎に割り当てられたURLにより指定されるアクセス先にアクセスすることにより、URLを知っているユーザは、参加者として会議に参加することができる。

　マイクロフォンにより集音された参加者の音声は、他の参加者が使用する装置にサーバを介して送信され、ヘッドホンやスピーカから出力される。また、カメラにより撮影された参加者が映る映像は、他の参加者が使用する装置にサーバを介して送信され、装置のディスプレイに表示される。

　これにより、それぞれの参加者は、他の参加者の顔を見ながら会話を行うことができる。

特開平１１－３３１９９２号公報

　自分の発話が他の参加者全員に共有されてしまうため、参加者は、特定の参加者を個別に指定して、指定した参加者とだけ会話を行うといったことができない。

　反対に、参加者は、特定の参加者の発話だけに集中して発話の内容を聞き取るといったことができない。

　挙手機能などの仮想上のアクション機能が用いられた場合に、特定の参加者がアクションを行っていることが画面表示によって視覚的に提示されることがあるが、どの参加者がアクションを行っているのかが分かりづらい。

　本技術はこのような状況に鑑みてなされたものであり、会話の参加者によるアクションに応じた音声コンテンツを臨場感のある状態で出力させることができるようにするものである。

　本技術の一側面の情報処理装置は、聴取位置を基準とした複数の位置に対応するHRTFデータを記憶する記憶部と、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する音像定位処理部とを備える。

　本技術の他の側面の情報処理端末は、聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する音声受信部を備える。

　本技術の一側面においては、聴取位置を基準とした複数の位置に対応するHRTFデータが記憶され、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツが提供される。

　本技術の他の側面においては、聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツが受信され、音声が出力される。

本技術の一実施形態に係るTele-communicationシステムの構成例を示す図である。音声データの送受信の例を示す図である。仮想空間上のユーザの位置の例を示す平面図である。リモート会議画面の表示例を示す図である。音声の聞こえ方の例を示す図である。音声の聞こえ方の他の例を示す図である。会議に参加しているユーザの様子を示す図である。コミュニケーション管理サーバの基本処理について説明するフローチャートである。クライアント端末の基本処理について説明するフローチャートである。コミュニケーション管理サーバのハードウェア構成例を示すブロック図である。コミュニケーション管理サーバの機能構成例を示すブロック図である。参加者情報の例を示す図である。クライアント端末のハードウェア構成例を示すブロック図である。クライアント端末の機能構成例を示すブロック図である。リモート会議画面の例を示す図である。リモート会議画面の例を示す図である。バーチャルリアクション機能を用いた効果音の出力に関する処理の流れを示す図である。コミュニケーション管理サーバの制御処理について説明するフローチャートである。リモート会議画面の例を示す図である。耳打ち機能を用いた音声の出力に関する処理の流れを示す図である。コミュニケーション管理サーバの制御処理について説明するフローチャートである。リモート会議画面の例を示す図である。フォーカス機能を用いた音声の出力に関する処理の流れを示す図である。コミュニケーション管理サーバの制御処理について説明するフローチャートである。音像定位処理の動的切り替えに関する処理の流れを示す図である。コミュニケーション管理サーバの制御処理について説明するフローチャートである。音響設定の管理に関する処理の流れを示す図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．Tele-communicationシステムの構成
　２．基本的な動作
　３．各装置の構成
　４．音像定位のユースケース
　５．変形例

＜＜Tele-communicationシステムの構成＞＞
　図１は、本技術の一実施形態に係るTele-communicationシステムの構成例を示す図である。

　図１のTele-communicationシステムは、コミュニケーション管理サーバ１に対して、会議の参加者が使用する複数のクライアント端末がインターネットなどのネットワーク１１を介して接続されることによって構成される。図１の例においては、PCであるクライアント端末２Ａ乃至２Ｄが、会議の参加者であるユーザＡ乃至Ｄが使用するクライアント端末として示されている。

　マイクロフォン（マイク）などの音声入力デバイスと、ヘッドホンやスピーカなどの音声出力デバイスとを有する、スマートフォンやタブレット端末などの他のデバイスがクライアント端末として用いられるようにしてもよい。クライアント端末２Ａ乃至２Ｄを区別する必要がない場合、適宜、クライアント端末２という。

　ユーザＡ乃至Ｄは、同じ会議に参加するユーザである。なお、会議に参加するユーザの数は４人に限定されるものではない。

　コミュニケーション管理サーバ１は、複数のユーザがオンライン上で会話を行うことによって進められる会議を管理する。コミュニケーション管理サーバ１は、クライアント端末２間の音声の送受信を制御し、いわゆるリモート会議を管理する情報処理装置である。

　例えば、コミュニケーション管理サーバ１は、図２の上段の矢印Ａ１に示すように、ユーザＡが発話することに応じてクライアント端末２Ａから送信されてきたユーザＡの音声データを受信する。クライアント端末２Ａからは、クライアント端末２Ａに設けられたマイクにより集音されたユーザＡの音声データが送信されてくる。

　コミュニケーション管理サーバ１は、ユーザＡの音声データを、図２の下段の矢印Ａ１１乃至Ａ１３に示すようにクライアント端末２Ｂ乃至２Ｄのそれぞれに送信し、ユーザＡの音声を出力させる。ユーザＡが発話者として発話した場合、ユーザＢ乃至Ｄが聴取者となる。以下、適宜、発話者となるユーザを発話ユーザといい、聴取者となるユーザを聴取ユーザという。

　他のユーザが発話を行った場合も同様に、発話ユーザが使用するクライアント端末２から送信された音声データは、コミュニケーション管理サーバ１を経由して、聴取ユーザが使用するクライアント端末２に送信される。

　コミュニケーション管理サーバ１は、それぞれのユーザの仮想空間上の位置を管理する。仮想空間は、会議を行う場所として仮想的に設定された例えば３次元の空間である。仮想空間上の位置は３次元の座標で表される。

　図３は、仮想空間上のユーザの位置の例を示す平面図である。

　図３の例においては、矩形の枠Ｆで示される仮想空間の略中央に縦長長方形のテーブルＴが配置され、テーブルＴの周りの位置である位置Ｐ１乃至Ｐ４が、それぞれ、ユーザＡ乃至Ｄの位置として設定されている。それぞれのユーザの正面方向は、それぞれのユーザの位置からテーブルＴの方向である。

　会議中、それぞれのユーザが使用するクライアント端末２の画面には、図４に示すように、会議を行う場所を表す背景画像に重ねて、ユーザを視覚的に表す情報である参加者アイコンが表示される。参加者アイコンの画面上の位置は、仮想空間上のそれぞれのユーザの位置に応じた位置となる。

　図４の例においては、参加者アイコンは、ユーザの顔を含む円形状の画像として構成されている。参加者アイコンは、仮想空間に設定された基準の位置からそれぞれのユーザの位置までの距離に応じた大きさで表示される。参加者アイコンＩ１乃至Ｉ４は、それぞれユーザＡ乃至Ｄを表す。

　例えば、それぞれのユーザの位置は、会議に参加したときにコミュニケーション管理サーバ１により自動的に設定される。図４の画面上で参加者アイコンを移動させるなどして、仮想空間上の位置がユーザ自身により設定されるようにしてもよい。

　コミュニケーション管理サーバ１は、仮想空間上のそれぞれの位置を聴取位置としたときの、複数の位置から聴取位置までの音の伝達特性を表すHRTF(Head-Related Transfer Function)（頭部伝達関数）のデータであるHRTFデータを有している。仮想空間上のそれぞれの聴取位置を基準とした、複数の位置に対応するHRTFデータがコミュニケーション管理サーバ１に用意されている。

　コミュニケーション管理サーバ１は、それぞれの聴取ユーザにとって、発話ユーザの音声が当該発話ユーザの仮想空間上の位置から聞こえるように、HRTFデータを用いた音像定位処理を音声データに対して行い、音像定位処理を行うことによって得られた音声データを送信する。

　上述したようにしてクライアント端末２に送信される音声データは、コミュニケーション管理サーバ１において音像定位処理が行われることによって得られた音声データとなる。音像定位処理には、位置情報に基づくVBAP(Vector Based Amplitude Panning)などのレンダリング、HRTFデータを用いたバイノーラル処理が含まれる。

　すなわち、それぞれの発話ユーザの音声は、オブジェクトオーディオの音声データとしてコミュニケーション管理サーバ１において処理される。コミュニケーション管理サーバ１における音像定位処理により生成された、例えばＬ／Ｒの２チャンネルのチャンネルベースのオーディオデータがコミュニケーション管理サーバ１からそれぞれのクライアント端末２に送信され、クライアント端末２に設けられたヘッドホンなどから、発話ユーザの音声が出力される。

　聴取ユーザ自身の位置と発話ユーザの位置との相対的な位置関係に応じたHRTFデータを用いた音像定位処理が行われることにより、それぞれの聴取ユーザは、発話ユーザの音声を、発話ユーザの位置から聞こえるように感じることになる。

　図５は、音声の聞こえ方の例を示す図である。

　位置Ｐ１が仮想空間上の位置として設定されているユーザＡを聴取ユーザとして注目すると、ユーザＢの音声は、図５の矢印で示すように、位置Ｐ２を音源位置とする位置Ｐ２－位置Ｐ１間のHRTFデータに基づいて音像定位処理が行われることにより、右隣から聞こえる。クライアント端末２Ａに顔を向けて会話を行っているユーザＡの正面は、クライアント端末２Ａの方向である。

　また、ユーザＣの音声は、位置Ｐ３を音源位置とする位置Ｐ３－位置Ｐ１間のHRTFデータに基づいて音像定位処理が行われることにより、正面から聞こえる。ユーザＤの音声は、位置Ｐ４を音源位置とする位置Ｐ４－位置Ｐ１間のHRTFデータに基づいて音像定位処理が行われることにより、右奥から聞こえる。

　他のユーザが聴取ユーザである場合も同様である。例えば、図６に示すように、ユーザＡの音声は、クライアント端末２Ｂに顔を向けて会話を行っているユーザＢにとっては左隣から聞こえ、クライアント端末２Ｃに顔を向けて会話を行っているユーザＣにとっては正面から聞こえる。また、ユーザＡの音声は、クライアント端末２Ｄに顔を向けて会話を行っているユーザＤにとっては右奥から聞こえる。

　このように、コミュニケーション管理サーバ１においては、それぞれの聴取ユーザ用の音声データが、それぞれの聴取ユーザの位置と発話ユーザの位置との位置関係に応じて生成され、発話ユーザの音声の出力に用いられる。それぞれの聴取ユーザに対して送信される音声データは、それぞれの聴取ユーザの位置と発話ユーザの位置との位置関係に応じて聞こえ方が異なる音声データとなる。

　図７は、会議に参加しているユーザの様子を示す図である。

　例えばヘッドホンを装着して会議に参加しているユーザＡは、右隣、正面、右奥のそれぞれの位置に音像が定位しているユーザＢ乃至Ｄの音声を聞き、会話を行うことになる。図５等を参照して説明したように、ユーザＡの位置を基準とすると、ユーザＢ乃至Ｄの位置は、それぞれ、右隣、正面、右奥の位置である。なお、図７においてユーザＢ乃至Ｄに色を付して示していることは、ユーザＢ乃至Ｄが、ユーザＡが会議を行っている空間と同じ空間に実在していないことを表す。

　なお、後述するように、鳥のさえずりやBGMなどの背景音についても、所定の位置に音像が定位するように、音像定位処理によって得られた音声データに基づいて出力される。

　コミュニケーション管理サーバ１が処理対象とする音声には、発話音声だけでなく、環境音や背景音などの音も含まれる。以下、適宜、それぞれの音の種類を区別する必要がない場合、コミュニケーション管理サーバ１が処理対象とする音を単に音声として説明する。実際には、コミュニケーション管理サーバ１が処理対象とする音には、音声以外の種類の音も含まれる。

　発話ユーザの音声が仮想空間における位置に応じた位置から聞こえることにより、聴取ユーザは、参加者が複数いる場合であっても、それぞれのユーザの音声を容易に聞き分けることができる。例えば複数のユーザが同時に発話を行った場合であっても、聴取ユーザは、それぞれの音声を聞き分けることが可能となる。

　また、発話ユーザの音声が立体的に感じられるため、聴取ユーザは、音像の位置に発話ユーザが実在している感覚を音声から得ることができる。聴取ユーザは、臨場感のある会話を他のユーザとの間で行うことができる。

＜＜基本的な動作＞＞
　ここで、コミュニケーション管理サーバ１とクライアント端末２の基本的な動作の流れについて説明する。

＜コミュニケーション管理サーバ１の動作＞
　図８のフローチャートを参照して、コミュニケーション管理サーバ１の基本処理について説明する。

　ステップＳ１において、コミュニケーション管理サーバ１は、クライアント端末２から音声データが送信されてきたか否かを判定し、音声データが送信されてきたと判定するまで待機する。

　クライアント端末２から音声データが送信されてきたとステップＳ１において判定した場合、ステップＳ２において、コミュニケーション管理サーバ１は、クライアント端末２から送信されてきた音声データを受信する。

　ステップＳ３において、コミュニケーション管理サーバ１は、それぞれのユーザの位置情報に基づいて音像定位処理を行い、それぞれの聴取ユーザ用の音声データを生成する。

　例えば、ユーザＡ用の音声データは、発話ユーザの音声の音像が、ユーザＡの位置を基準としたときに、その発話ユーザの位置に応じた位置に定位するようにして生成される。

　また、ユーザＢ用の音声データは、発話ユーザの音声の音像が、ユーザＢの位置を基準としたときに、その発話ユーザの位置に応じた位置に定位するようにして生成される。

　他の聴取ユーザ用の音声データについても同様に、聴取ユーザの位置を基準として、発話ユーザとの位置の相対的な位置関係に応じたHRTFデータを用いて生成される。それぞれの聴取ユーザ用の音声データは異なるデータとなる。

　ステップＳ４において、コミュニケーション管理サーバ１は、それぞれの聴取ユーザに対して音声データを送信する。以上の処理が、発話ユーザが使用するクライアント端末２から音声データが送信されてくる毎に行われる。

＜クライアント端末２の動作＞
　図９のフローチャートを参照して、クライアント端末２の基本処理について説明する。

　ステップＳ１１において、クライアント端末２は、マイク音声が入力されたか否かを判定する。マイク音声は、クライアント端末２に設けられたマイクにより集音された音声である。

　マイク音声が入力されたとステップＳ１１において判定した場合、ステップＳ１２において、クライアント端末２は、音声データをコミュニケーション管理サーバ１に送信する。マイク音声が入力されていないとステップＳ１１において判定された場合、ステップＳ１２の処理はスキップされる。

　ステップＳ１３において、クライアント端末２は、コミュニケーション管理サーバ１から音声データが送信されてきたか否かを判定する。

　音声データが送信されてきたとステップＳ１３において判定した場合、ステップＳ１４において、コミュニケーション管理サーバ１は、音声データを受信し、発話ユーザの音声を出力する。

　発話ユーザの音声が出力された後、または、音声データが送信されてきてきないとステップＳ１３において判定された場合、ステップＳ１１に戻り、上述した処理が繰り返し行われる。

＜＜各装置の構成＞＞
＜コミュニケーション管理サーバ１の構成＞
　図１０は、コミュニケーション管理サーバ１のハードウェア構成例を示すブロック図である。

　コミュニケーション管理サーバ１はコンピュータにより構成される。コミュニケーション管理サーバ１が、図１０に示す構成を有する１台のコンピュータにより構成されるようにしてもよいし、複数台のコンピュータにより構成されるようにしてもよい。

　CPU１０１、ROM１０２、RAM１０３は、バス１０４により相互に接続される。CPU１０１は、サーバプログラム１０１Ａを実行し、コミュニケーション管理サーバ１の全体の動作を制御する。サーバプログラム１０１Ａは、Tele-communicationシステムを実現するためのプログラムである。

　バス１０４には、さらに、入出力インタフェース１０５が接続される。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。

　また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。例えば、通信部１０９は、それぞれのユーザが使用するクライアント端末２との間でネットワーク１１を介して通信を行う。

　図１１は、コミュニケーション管理サーバ１の機能構成例を示すブロック図である。図１１に示す機能部のうちの少なくとも一部は、図１０のCPU１０１によりサーバプログラム１０１Ａが実行されることによって実現される。

　コミュニケーション管理サーバ１においては情報処理部１２１が実現される。情報処理部１２１は、音声受信部１３１、信号処理部１３２、参加者情報管理部１３３、音像定位処理部１３４、HRTFデータ記憶部１３５、システム音声管理部１３６、2chミックス処理部１３７、および音声送信部１３８から構成される。

　音声受信部１３１は、通信部１０９を制御し、発話ユーザが使用するクライアント端末２から送信されてきた音声データを受信する。音声受信部１３１により受信された音声データは、信号処理部１３２に出力される。

　信号処理部１３２は、音声受信部１３１から供給された音声データに対して、所定の信号処理を適宜施し、信号処理を施すことによって得られた音声データを音像定位処理部１３４に出力する。例えば、発話ユーザの音声と環境音を分離する処理が信号処理部１３２により行われる。マイク音声には、発話ユーザの音声の他に、発話ユーザがいる空間の騒音やノイズなどの環境音が含まれる。

　参加者情報管理部１３３は、通信部１０９を制御し、クライアント端末２と通信を行うなどして、会議の参加者に関する情報である参加者情報を管理する。

　図１２は、参加者情報の例を示す図である。

　図１２に示すように、参加者情報には、ユーザ情報、位置情報、設定情報、ボリューム情報が含まれる。

　ユーザ情報は、あるユーザが設定した会議に参加するユーザの情報である。例えば、ユーザのIDなどがユーザ情報に含まれる。参加者情報に含まれる他の情報が例えばユーザ情報に紐付けて管理される。

　位置情報は、仮想空間上のそれぞれのユーザの位置を表す情報である。

　設定情報は、会議で使用する背景音の設定などの、会議に関する設定の内容を表す情報である。

　ボリューム情報は、それぞれのユーザの音声を出力するときの音量を表す情報である。

　参加者情報管理部１３３が管理する参加者情報は、音像定位処理部１３４に供給される。参加者情報管理部１３３が管理する参加者情報は、適宜、システム音声管理部１３６、2chミックス処理部１３７、音声送信部１３８等に対しても供給される。このように、参加者情報管理部１３３は、それぞれのユーザの仮想空間上の位置を管理する位置管理部として機能するとともに、背景音の設定を管理する背景音管理部として機能する。

　音像定位処理部１３４は、参加者情報管理部１３３から供給された位置情報に基づいて、それぞれのユーザの位置関係に応じたHRTFデータをHRTFデータ記憶部１３５から読み出して取得する。音像定位処理部１３４は、信号処理部１３２から供給された音声データに対して、HRTFデータ記憶部１３５から読み出したHRTFデータを用いた音像定位処理を行い、それぞれの聴取ユーザ用の音声データを生成する。

　また、音像定位処理部１３４は、システム音声管理部１３６から供給されたシステム音声のデータに対して、所定のHRTFデータを用いた音像定位処理を行う。システム音声は、コミュニケーション管理サーバ１側で発生させ、発話ユーザの音声とともに聴取ユーザに聴かせる音声である。システム音声には、例えば、BGMなどの背景音や、効果音が含まれる。システム音声は、ユーザの音声とは異なる音声である。

　すなわち、コミュニケーション管理サーバ１においては、背景音や効果音などの、発話ユーザの音声以外の音声についても、オブジェクトオーディオとして処理が行われる。システム音声の音声データに対しても、仮想空間の所定の位置に音像を定位させるための音像定位処理が行われる。例えば、参加者の位置よりも遠い位置に音像を定位させるための音像定位処理が、背景音の音声データに対して施される。

　音像定位処理部１３４は、音像定位処理を行うことによって得られた音声データを2chミックス処理部１３７に出力する。2chミックス処理部１３７に対しては、発話ユーザの音声データと、適宜、システム音声の音声データが出力される。

　HRTFデータ記憶部１３５は、仮想空間上のそれぞれの聴取位置を基準とした、複数の位置に対応するHRTFデータを記憶する。

　システム音声管理部１３６は、システム音声を管理する。システム音声管理部１３６は、システム音声の音声データを音像定位処理部１３４に出力する。

　2chミックス処理部１３７は、音像定位処理部１３４から供給された音声データに対して2chミックス処理を行う。2chミックス処理が施されることにより、発話ユーザの音声とシステム音声のそれぞれのオーディオ信号Ｌとオーディオ信号Ｒの成分を含む、チャンネルベースのオーディオデータが生成される。2chミックス処理が施されることによって得られた音声データは音声送信部１３８に出力される。

　音声送信部１３８は、通信部１０９を制御し、2chミックス処理部１３７から供給された音声データをそれぞれの聴取ユーザが使用するクライアント端末２に送信する。

＜クライアント端末２の構成＞
　図１３は、クライアント端末２のハードウェア構成例を示すブロック図である。

　クライアント端末２は、制御部２０１に対して、メモリ２０２、音声入力デバイス２０３、音声出力デバイス２０４、操作部２０５、通信部２０６、ディスプレイ２０７、およびセンサ部２０８が接続されることによって構成される。

　制御部２０１は、CPU，ROM，RAMなどにより構成される。制御部２０１は、クライアントプログラム２０１Ａを実行することによって、クライアント端末２の全体の動作を制御する。クライアントプログラム２０１Ａは、コミュニケーション管理サーバ１が管理するTele-communicationシステムを利用するためのプログラムである。クライアントプログラム２０１Ａには、送信側の処理を実行する送信側モジュール２０１Ａ－１と、受信側の処理を実行する受信側モジュール２０１Ａ－２が含まれる。

　メモリ２０２は、フラッシュメモリなどにより構成される。メモリ２０２は、制御部２０１が実行するクライアントプログラム２０１Ａなどの各種の情報を記憶する。

　音声入力デバイス２０３は、マイクにより構成される。音声入力デバイス２０３により集音された音声は、マイク音声として制御部２０１に出力される。

　音声出力デバイス２０４は、ヘッドホンやスピーカなどの機器により構成される。音声出力デバイス２０４は、制御部２０１から供給されたオーディオ信号に基づいて、会議の参加者の音声などを出力させる。

　以下、適宜、音声入力デバイス２０３がマイクであるとして説明する。また、音声出力デバイス２０４がヘッドホンであるとして説明する。

　操作部２０５は、各種のボタンや、ディスプレイ２０７に重ねて設けられたタッチパネルにより構成される。操作部２０５は、ユーザの操作の内容を表す情報を制御部２０１に出力する。

　通信部２０６は、５Ｇ通信などの移動通信システムの無線通信に対応した通信モジュール、無線LANなどに対応した通信モジュールである。通信部２０６は、基地局が出力する電波を受信し、ネットワーク１１を介して、コミュニケーション管理サーバ１などの各種の装置との間で通信を行う。通信部２０６は、コミュニケーション管理サーバ１から送信されてきた情報を受信し、制御部２０１に出力する。また、通信部２０６は、制御部２０１から供給された情報をコミュニケーション管理サーバ１に送信する。

　ディスプレイ２０７は、有機ELディスプレイ、LCDなどにより構成される。ディスプレイ２０７には、リモート会議画面などの各種の画面が表示される。

　センサ部２０８は、RGBカメラ、デプスカメラ、ジャイロセンサ、加速度センサなどの各種のセンサにより構成される。センサ部２０８は、計測を行うことによって得られたセンサデータを制御部２０１に出力する。センサ部２０８により計測されたセンサデータに基づいて、ユーザの状況の認識などが適宜行われる。

　図１４は、クライアント端末２の機能構成例を示すブロック図である。図１４に示す機能部のうちの少なくとも一部は、図１３の制御部２０１によりクライアントプログラム２０１Ａが実行されることによって実現される。

　クライアント端末２においては情報処理部２１１が実現される。情報処理部２１１は、音声処理部２２１、設定情報送信部２２２、ユーザ状況認識部２２３、および表示制御部２２４により構成される。

　情報処理部２１１は、音声受信部２３１、出力制御部２３２、マイク音声取得部２３３、および音声送信部２３４により構成される。

　音声受信部２３１は、通信部２０６を制御し、コミュニケーション管理サーバ１から送信されてきた音声データを受信する。音声受信部２３１により受信された音声データは出力制御部２３２に供給される。

　出力制御部２３２は、コミュニケーション管理サーバ１から送信されてきた音声データに応じた音声を音声出力デバイス２０４から出力させる。

　マイク音声取得部２３３は、音声入力デバイス２０３を構成するマイクにより集音されたマイク音声の音声データを取得する。マイク音声取得部２３３により取得されたマイク音声の音声データは音声送信部２３４に供給される。

　音声送信部２３４は、通信部２０６を制御し、マイク音声取得部２３３から供給されたマイク音声の音声データをコミュニケーション管理サーバ１に送信する。

　設定情報送信部２２２は、ユーザの操作に応じて、各種の設定の内容を表す設定情報を生成する。設定情報送信部２２２は、通信部２０６を制御し、設定情報をコミュニケーション管理サーバ１に送信する。

　ユーザ状況認識部２２３は、センサ部２０８により計測されたセンサデータに基づいてユーザの状況を認識する。ユーザ状況認識部２２３は、通信部２０６を制御し、ユーザの状況を表す情報をコミュニケーション管理サーバ１に送信する。

　表示制御部２２４は、通信部２０６を制御することによってコミュニケーション管理サーバ１との間で通信を行い、コミュニケーション管理サーバ１から送信されてきた情報に基づいて、リモート会議画面をディスプレイ２０７に表示させる。

＜＜音像定位のユースケース＞＞
　会議の参加者による発話音声を含む各種の音声の音像定位のユースケースについて説明する。

＜バーチャルリアクション機能＞
　バーチャルリアクション機能は、他のユーザに自分の反応を伝えるときに用いられる機能である。コミュニケーション管理サーバ１により実現されるリモート会議には、例えば、バーチャルリアクション機能である拍手機能が用意される。拍手機能を利用して拍手の効果音を出力することが、クライアント端末２のディスプレイ２０７にGUIとして表示される画面から指示される。

　図１５は、リモート会議画面の例を示す図である。

　図１５に示すリモート会議画面には、会議に参加しているユーザを表す参加者アイコンＩ３１乃至Ｉ３３が表示される。図１５に示すリモート会議画面が、ユーザＡが使用するクライアント端末２Ａに表示される画面であるとすると、参加者アイコンＩ３１乃至Ｉ３３はそれぞれユーザＢ乃至Ｄを表す。参加者アイコンＩ３１乃至Ｉ３３は、ユーザＢ乃至Ｄの仮想空間上の位置に応じた位置に表示される。

　参加者アイコンＩ３１乃至Ｉ３３の下には、バーチャルリアクションボタン３０１が表示される。バーチャルリアクションボタン３０１は、拍手の効果音の出力を指示するときに押下されるボタンである。ユーザＢ乃至Ｄが使用するクライアント端末２にも同様の画面が表示される。

　例えば、ユーザＢとユーザＣがバーチャルリアクションボタン３０１を押下した場合、図１６に示すように、ユーザＢとユーザＣが拍手機能を利用していることを表すアイコンが参加者アイコンＩ３１と参加者アイコンＩ３２の隣に表示される。

　また、拍手の効果音がシステム音声としてコミュニケーション管理サーバ１側で再生され、発話ユーザの音声とともに、それぞれの聴取ユーザに届けられる。拍手の効果音の音声データに対しても、所定の位置に音像を定位させるための音像定位処理が行われる。

　図１７は、バーチャルリアクション機能を用いた効果音の出力に関する処理の流れを示す図である。

　バーチャルリアクションボタン３０１が押下された場合、拍手の効果音の出力が指示されたことを表す操作情報が、矢印Ａ１１，Ａ１２に示すように、クライアント端末２からコミュニケーション管理サーバ１に送信される。

　矢印Ａ１３，Ａ１４に示すようにクライアント端末２からマイク音声が送信されてきた場合、コミュニケーション管理サーバ１においては、拍手の効果音がマイク音声に追加され、発話ユーザの音声データと、効果音の音声データのそれぞれに対して、位置関係に応じたHRTFデータを用いた音像定位処理が行われる。

　例えば、拍手の効果音の出力を指示したユーザの位置と同じ位置に音像を定位させるための音像定位処理が、効果音の音声データに対して施される。この場合、拍手の効果音の音像が、拍手の効果音の出力を指示したユーザの位置と同じ位置に定位して感じられることになる。

　拍手の効果音の出力を指示したユーザが複数いる場合、拍手の効果音の出力を指示した複数のユーザの位置の重心位置に音像を定位させるための音像定位処理が、効果音の音声データに対して施される。この場合、拍手の効果音の音像が、拍手の効果音の出力を指示したユーザが密になっている位置に定位して感じられることになる。重心位置ではなく、拍手の効果音の出力を指示したユーザの位置に基づいて選択される様々な位置に効果音の音像を定位させるようにすることが可能である。

　音像定位処理により生成された音声データは、矢印Ａ１５に示すようにそれぞれの聴取ユーザが使用するクライアント端末２に送信され、出力される。

　この例においては、拍手の効果音の出力が特定のユーザにより指示された場合、拍手機能の実行といったアクションに応じて、拍手の効果音の音像を所定の位置に定位させるためのHRTFデータが選択される。また、選択されたHRTFデータを用いた音像定位処理によって得られた音声データに基づいて、拍手の効果音が、音声コンテンツとしてそれぞれの聴取ユーザに提供される。

　なお、図１７において、複数のブロックを用いて最上段に示すマイク音声＃１乃至＃Ｎは、それぞれ、異なるクライアント端末２において検出された発話ユーザの音声である。また、１つのブロックを用いて最下段に示す音声出力は、１人の聴取ユーザが使用するクライアント端末２での出力を表す。

　図１７の左側に示すように、例えば、バーチャルリアクションの送出の指示に関する矢印Ａ１１，Ａ１２で示される機能は、送信側モジュール２０１Ａ－１により実現される。また、HRTFデータを用いた音像定位処理は、サーバプログラム１０１Ａにより実現される。

　図１８のフローチャートを参照して、バーチャルリアクション機能を用いた効果音の出力に関するコミュニケーション管理サーバ１の制御処理について説明する。

　コミュニケーション管理サーバ１の制御処理のうち、図８を参照して説明した内容と重複する内容については適宜説明を省略する。後述する図２１等においても同様である。

　ステップＳ１０１において、システム音声管理部１３６（図１１）は、拍手の効果音の出力が指示されたことを表す操作情報を受信する。ユーザがバーチャルリアクションボタン３０１を押下した場合、そのユーザが使用するクライアント端末２からは、拍手の効果音の出力が指示されたことを表す操作情報が送信されてくる。操作情報の送信は、例えばクライアント端末２のユーザ状況認識部２２３（図１４）により行われる。

　ステップＳ１０２において、音声受信部１３１は、発話ユーザが使用するクライアント端末２から送信されてきた音声データを受信する。音声受信部１３１により受信された音声データは、信号処理部１３２を介して音像定位処理部１３４に供給される。

　ステップＳ１０３において、システム音声管理部１３６は、拍手の効果音の音声データを音像定位処理部１３４に出力し、音像定位処理の対象の音声データとして追加する。

　ステップＳ１０４において、音像定位処理部１３４は、聴取ユーザの位置と発話ユーザの位置との位置関係に応じたHRTFデータと、聴取ユーザの位置と拍手の効果音の位置との位置関係に応じたHRTFデータをHRTFデータ記憶部１３５から読み出して取得する。拍手の効果音の位置は、拍手の効果音の音像を定位させる位置として上述したような所定の位置が選択される。

　音像定位処理部１３４は、発話ユーザの音声データに対して発話音声用のHRTFデータを用いた音像定位処理を行い、拍手の効果音の音声データに対して効果音用のHRTFデータを用いた音像定位処理を行う。

　ステップＳ１０５において、音声送信部１３８は、音像定位処理によって得られた音声データを聴取ユーザが使用するクライアント端末２に送信する。

　以上の処理により、聴取ユーザが使用するクライアント端末２においては、発話ユーザの音声の音像と、拍手の効果音の音像とがそれぞれ所定の位置に定位して感じられることになる。

　なお、発話ユーザの音声データと拍手の効果音の音声データのそれぞれに対して音像定位処理が行われるのではなく、発話ユーザの音声データに拍手の効果音の音声データを合成して得られた合成後の音声データに対して、音像定位処理が行われるようにしてもよい。これによっても、拍手の効果音の音像が、拍手の効果音の出力を指示したユーザの位置と同じ位置に定位する。

　以上の処理により、個々のユーザの共感や驚きなどを表現する拍手の効果音を、共通の音声としてユーザ全員で共有することが可能となる。

　また、拍手の効果音の音像が、その出力を指示したユーザの位置と同じ位置などに定位して感じられるため、それぞれの聴取ユーザは、共感や驚きなどの反応を示しているユーザがだれであるのかを直感的に認識することができる。

　発話ユーザのマイク音声と拍手の効果音を含む音声の出力が以下のようにして行われるようにしてもよい。

（Ａ）図１７の矢印Ａ１６の先に示すように、クライアント端末２側（送信側モジュール２０１Ａ－１）のフィルタ処理によって声質を変化させたマイク音声がコミュニケーション管理サーバ１に送信される。例えば、老人の声質や子供の声質などに変化させるためのフィルタ処理が発話ユーザのマイク音声に対して行われる。

（Ｂ）効果音の出力を同時に指示したユーザの人数に応じて、システム音声として再生される効果音の種類が変更される。例えば、拍手の効果音の出力を指示したユーザの人数が、閾値となる人数以上である場合、拍手の効果音に代えて、大人数の歓声を表す効果音が再生され、聴取ユーザに届けられる。効果音の種類の選択は、システム音声管理部１３６により行われる。

　歓声を表す効果音に対しては、聴取ユーザの位置の近くの位置、上の方の位置、下の方の位置といったように、所定の位置に定位させるためのHRTFデータが選択され、音像定位処理が行われる。

　効果音の出力を同時に指示したユーザの人数に応じて、効果音の音像を定位させる位置が変更されるようにしてもよいし、音量が変更されるようにしてもよい。

　喜びを表現する機能、怒っていることを表現する機能といったように、拍手とは異なる他の反応を伝える機能がバーチャルリアクション機能として用意されるようにしてもよい。反応の種類毎に、異なる音声データが再生され、効果音として出力される。反応の種類毎に、音像を定位させる位置が変更されるようにしてもよい。

＜耳打ち機能＞
　耳打ち機能は、１人のユーザを聴取ユーザとして指定し、発話を行う機能である。発話ユーザの音声は、指定したユーザにだけ届けられ、他のユーザには届けられない。耳打ち機能を利用して１人のユーザに音声を届けることが、クライアント端末２のディスプレイ２０７にGUIとして表示される画面から指定される。

　図１９は、リモート会議画面の例を示す図である。

　図１５を参照して説明した画面と同様に、リモート会議画面には、会議に参加しているユーザを表す参加者アイコンＩ３１乃至Ｉ３３が表示される。図１９に示すリモート会議画面が、ユーザＡが使用するクライアント端末２Ａに表示される画面であるとすると、参加者アイコンＩ３１乃至Ｉ３３はそれぞれユーザＢ乃至Ｄを表す。

　例えば、カーソルを用いて参加者アイコンＩ３１がユーザＡにより選択された場合、音声の聴取先である耳打ち対象のユーザとしてユーザＢが指定された状態になる。ユーザＢを表す参加者アイコンＩ３１は、図１９に示すように強調表示される。

　この状態でユーザＡが発話を行った場合、コミュニケーション管理サーバ１においては、ユーザＡの音声データに対して、耳打ち対象のユーザとして指定されたユーザＢの耳元で音像を定位させるための音像定位処理が行われる。

　なお、デフォルトの状態は、耳打ち対象のユーザが指定されていない状態である。発話ユーザの音声は、聴取ユーザと発話ユーザの位置関係に応じた位置に音像が定位するように、他のユーザ全員に届けられる。

　図２０は、耳打ち機能を用いた音声の出力に関する処理の流れを示す図である。

　参加者アイコンを選択することによって耳打ち対象のユーザが指定された場合、耳打ち対象のユーザが指定されたことを表す操作情報が、矢印Ａ２１に示すように、クライアント端末２からコミュニケーション管理サーバ１に送信される。

　カメラにより撮影された画像が解析され、耳打ちをする姿勢が推定されたことに応じて、矢印Ａ２２に示すように、耳打ち対象のユーザが指定されたことを表す操作情報が送信されるようにしてもよい。

　矢印Ａ２３に示すように、耳打ちをしたユーザが使用するクライアント端末２からマイク音声が送信されてきた場合、コミュニケーション管理サーバ１においては、マイク音声＃１の音声データに対して、耳打ち対象として指定されたユーザの耳元の位置で音像を定位させるための音像定位処理が行われる。すなわち、耳打ち対象として指定されたユーザの耳元の位置に応じたHRTFデータが選択され、音像定位処理に用いられる。

　図２０において、矢印Ａ２３で示すマイク音声＃１は、耳打ちをしたユーザ、すなわち、耳打ち機能を利用して、１人のユーザを耳打ち対象のユーザとして指定した発話ユーザの音声である。

　音像定位処理により生成された音声データは、矢印Ａ２４に示すように、耳打ち対象のユーザが使用するクライアント端末２に送信され、出力される。

　一方、矢印Ａ２５に示すように、耳打ち機能を利用していないユーザが使用するクライアント端末２からマイク音声が送信されてきた場合、コミュニケーション管理サーバ１においては、聴取ユーザと発話ユーザとの位置関係に応じたHRTFデータを用いて音像定位処理が行われる。

　音像定位処理により生成された音声データは、矢印Ａ２６に示すように、聴取ユーザが使用するクライアント端末２に送信され、出力される。

　この例においては、耳打ち対象のユーザが特定のユーザにより指示された場合、耳打ち機能の実行といったアクションに応じて、耳打ち機能を利用するユーザの音声の音像を、耳打ち対象のユーザの耳元に定位させるためのHRTFデータが選択される。また、選択されたHRTFデータを用いた音像定位処理によって得られた音声データに基づいて、耳打ち機能を利用するユーザの音声が、音声コンテンツとして耳打ち対象のユーザに提供される。

　図２１のフローチャートを参照して、耳打ち機能を用いた音声の出力に関するコミュニケーション管理サーバ１の制御処理について説明する。

　ステップＳ１１１において、システム音声管理部１３６は、耳打ち対象のユーザが選択されたことを表す操作情報を受信する。あるユーザが耳打ち対象のユーザを選択した場合、そのユーザが使用するクライアント端末２からは、耳打ち対象のユーザが選択されたことを表す操作情報が送信されてくる。操作情報の送信は、例えばクライアント端末２のユーザ状況認識部２２３により行われる。

　ステップＳ１１２において、音声受信部１３１は、耳打ちをしたユーザが使用するクライアント端末２から送信されてきた音声データを受信する。音声受信部１３１により受信された音声データは音像定位処理部１３４に供給される。

　ステップＳ１１３において、音像定位処理部１３４は、耳打ち対象のユーザの耳元の位置に応じたHRTFデータをHRTFデータ記憶部１３５から読み出して取得する。また、音像定位処理部１３４は、耳打ち対象のユーザの耳元に音像を定位させるように、発話ユーザ（耳打ちをしたユーザ）の音声データに対してHRTFデータを用いた音像定位処理を行う。

　ステップＳ１１４において、音声送信部１３８は、音像定位処理によって得られた音声データを耳打ち対象のユーザが使用するクライアント端末２に送信する。

　耳打ち対象のユーザが使用するクライアント端末２においては、コミュニケーション管理サーバ１から送信されてきた音声データに基づいて、耳打ちをしたユーザの音声が出力される。耳打ち対象として選択されたユーザは、音像を耳元に感じながら、耳打ちをしたユーザの音声を聴くことになる。

　以上の処理により、会議の参加者が複数いる場合であっても、発話ユーザは、１人のユーザを指定して、そのユーザにだけ話しかけることができる。

　耳打ち対象のユーザとして複数のユーザを指定することができるようにしてもよい。

　また、耳打ち対象として選択されたユーザ（聴取ユーザ）に対して、耳打ちをしたユーザの音声とともに、同時に発話している他のユーザの音声が届けられるようにしてもよい。この場合、耳打ちをしたユーザの音声データに対しては、聴取ユーザの耳元に音像が定位するように音像定位処理が行われる。また、耳打ちをしていない、他のユーザの音声データに対しては、聴取ユーザの位置と発話ユーザの位置との位置関係に応じたHRTFデータを用いた音像定位処理が行われる。

　耳打ち対象のユーザの耳元ではなく、耳打ち対象のユーザの近傍の任意の位置に、耳打ちをしたユーザの音声の音像を定位させることが可能である。音像を定位させる位置を、耳打ちをしたユーザが指定することができるようにしてもよい。

＜フォーカス機能＞
　フォーカス機能は、１人のユーザをフォーカス対象として指定し、そのユーザの音声を聞きやすくする機能である。上述した耳打ち機能が、発話側のユーザが利用する機能であるのに対して、フォーカス機能は、聴取側のユーザが利用する機能である。フォーカス対象のユーザが、クライアント端末２のディスプレイ２０７にGUIとして表示される画面から指定される。

　図２２は、リモート会議画面の例を示す図である。

　図１５を参照して説明した画面と同様に、リモート会議画面には、会議に参加しているユーザを表す参加者アイコンＩ３１乃至Ｉ３３が表示される。図２２に示すリモート会議画面が、ユーザＡが使用するクライアント端末２Ａに表示される画面であるとすると、参加者アイコンＩ３１乃至Ｉ３３はそれぞれユーザＢ乃至Ｄを表す。

　例えば、カーソルを用いて参加者アイコンＩ３１がユーザＡにより選択された場合、フォーカス対象のユーザとしてユーザＢが指定された状態になる。ユーザＢを表す参加者アイコンＩ３１は、図２２に示すように強調表示される。

　この状態でユーザＢが発話を行った場合、コミュニケーション管理サーバ１においては、ユーザＢの音声データに対して、ユーザＢをフォーカス対象のユーザとして指定したユーザＡの近くで音像を定位させるための音像定位処理が行われる。フォーカス対象として指定されていないユーザＣとユーザＤが発話を行った場合、ユーザＣの音声データとユーザＤの音声データに対しては、それぞれ、ユーザＡとの位置関係に応じたHRTFデータを用いた音像定位処理が行われる。

　なお、デフォルトの状態は、フォーカス対象のユーザが指定されていない状態である。発話ユーザの音声は、聴取ユーザと発話ユーザの位置関係に応じた位置に音像が定位するように、他のユーザ全員に届けられる。

　図２３は、フォーカス機能を用いた音声の出力に関する処理の流れを示す図である。

　参加者アイコンを選択することによってフォーカス対象のユーザが指定された場合、フォーカス対象のユーザが指定されたことを表す操作情報が、矢印Ａ３１に示すように、クライアント端末２からコミュニケーション管理サーバ１に送信される。

　カメラにより撮影された画像が解析され、視線検出などに基づいてフォーカス対象が推定されたことに応じて、矢印Ａ３２に示すように、フォーカス対象のユーザが指定されたことを表す操作情報が送信されるようにしてもよい。

　矢印Ａ３３，Ａ３４に示すようにクライアント端末２からマイク音声が送信されてきた場合、コミュニケーション管理サーバ１においては、フォーカス対象のユーザのマイク音声の音声データに対して、ユーザの近くに音像を定位させるための音像定位処理が行われる。すなわち、フォーカス対象を指定したユーザの位置の近くの位置に応じたHRTFデータが選択され、音像定位処理に用いられる。

　また、フォーカス対象のユーザ以外のユーザのマイク音声の音声データに対して、ユーザから離れた位置に音像を定位させるための音像定位処理が行われる。すなわち、フォーカス対象を指定したユーザの位置から離れた位置に応じたHRTFデータが選択され、音像定位処理に用いられる。

　図２３の例においては、例えば、矢印Ａ３３で示すマイク音声＃１は、フォーカス対象のユーザのマイク音声である。マイク音声＃１の音声データは、フォーカス対象のユーザが使用するクライアント端末２からコミュニケーション管理サーバ１に送信される。

　また、矢印Ａ３４で示すマイク音声＃Ｎは、フォーカス対象のユーザ以外のユーザのマイク音声である。マイク音声＃Ｎの音声データは、フォーカス対象のユーザ以外のユーザが使用するクライアント端末２からコミュニケーション管理サーバ１に送信される。

　音像定位処理により生成された音声データは、矢印Ａ３５に示すように、フォーカス対象を指定したユーザが使用するクライアント端末２に送信され、出力される。

　この例においては、フォーカス対象のユーザが特定のユーザにより選択された場合、フォーカス機能の実行といったアクションに応じて、フォーカス対象のユーザの音声の音像を、フォーカス対象を選択したユーザの近くに定位させるためのHRTFデータが選択される。また、選択されたHRTFデータを用いた音像定位処理によって得られた音声データに基づいて、フォーカス対象のユーザの音声が、音声コンテンツとして、フォーカス対象を選択したユーザに提供される。

　図２４のフローチャートを参照して、フォーカス機能を用いた音声の出力に関するコミュニケーション管理サーバ１の制御処理について説明する。

　ステップＳ１２１において、参加者情報管理部１３３は、フォーカス対象のユーザが選択されたことを表す操作情報を受信する。あるユーザがフォーカス対象のユーザを選択した場合、そのユーザが使用するクライアント端末２からは、フォーカス対象のユーザが選択されたことを表す操作情報が送信されてくる。操作情報の送信は、例えばクライアント端末２のユーザ状況認識部２２３により行われる。

　ステップＳ１２２において、音声受信部１３１は、クライアント端末２から送信されてきた音声データを受信する。例えば、フォーカス対象のユーザの音声データとともに、フォーカス対象のユーザ以外のユーザ（フォーカス対象として選択されてないユーザ）の音声データが受信される。音声受信部１３１により受信された音声データは音像定位処理部１３４に供給される。

　ステップＳ１２３において、音像定位処理部１３４は、フォーカス対象を選択したユーザの近くの位置に応じたHRTFデータをHRTFデータ記憶部１３５から読み出して取得する。また、音像定位処理部１３４は、フォーカス対象を選択したユーザの近くに音像を定位させるように、フォーカス対象のユーザの音声データに対して、取得したHRTFデータを用いた音像定位処理を行う。

　ステップＳ１２４において、音像定位処理部１３４は、フォーカス対象を選択したユーザから離れた位置に応じたHRTFデータをHRTFデータ記憶部１３５から読み出して取得する。また、音像定位処理部１３４は、フォーカス対象を選択したユーザから離れた位置に音像を定位させるように、フォーカス対象のユーザ以外のユーザの音声データに対して、取得したHRTFデータを用いた音像定位処理を行う。

　ステップＳ１２５において、音声送信部１３８は、音像定位処理によって得られた音声データを、フォーカス対象を選択したユーザが使用するクライアント端末２に送信する。

　フォーカス対象を選択したユーザが使用するクライアント端末２においては、コミュニケーション管理サーバ１から送信されてきた音声データに基づいて、発話ユーザの音声が出力される。フォーカス対象を選択したユーザは、音像を近くに感じながら、フォーカス対象のユーザの音声を聴くことになる。また、フォーカス対象を選択したユーザは、音像を離れた位置に感じながら、フォーカス対象のユーザ以外のユーザの音声を聴くことになる。

　以上の処理により、会議の参加者が複数いる場合であっても、ユーザは、１人のユーザを指定して、そのユーザの発話を集中して聴くことができる。

　フォーカス対象のユーザとして複数のユーザを選択することができるようにしてもよい。

　フォーカス対象のユーザを選択するのではなく、遠ざけたいユーザを選択することができるようにしてもよい。この場合、遠ざけたいユーザとして選択されたユーザの音声の音声データに対しては、聴取ユーザから離れた位置に音像が定位するように音像定位処理が行われる。

＜音像定位処理の動的切り替え＞
　レンダリングなどを含むオブジェクトオーディオの処理である音像定位処理をコミュニケーション管理サーバ１側で行うのか、クライアント端末２側で行うのかが動的に切り替えられる。

　この場合、コミュニケーション管理サーバ１の図１１に示す構成のうちの、少なくとも、音像定位処理部１３４、HRTFデータ記憶部１３５、2chミックス処理部１３７と同様の構成が、クライアント端末２にも設けられる。音像定位処理部１３４、HRTFデータ記憶部１３５、2chミックス処理部１３７と同様の構成は、例えば、受信側モジュール２０１Ａ－２によって実現される。

　聴取ユーザの位置情報などの、音像定位処理に用いるパラメータの設定が会議中に変更され、その変更をリアルタイムで音像定位処理に反映させる場合、音像定位処理はクライアント端末２側で行われる。音像定位処理がローカルで行われることにより、パラメータの変更に対するレスポンスを早くすることが可能となる。

　一方、パラメータの設定変更が一定時間以上ない場合、音像定位処理はコミュニケーション管理サーバ１側で行われる。音像定位処理がサーバ上で行われることにより、コミュニケーション管理サーバ１－クライアント端末２間のデータ通信量を抑えることが可能となる。

　図２５は、音像定位処理の動的切り替えに関する処理の流れを示す図である。

　音像定位処理がクライアント端末２側で行われる場合、矢印Ａ１０１，Ａ１０２に示すようにクライアント端末２から送信されてきたマイク音声は、矢印Ａ１０３に示すように、そのまま、クライアント端末２に送信される。マイク音声の送信元となるクライアント端末２は発話ユーザが使用するクライアント端末２であり、マイク音声の送信先となるクライアント端末２は聴取ユーザが使用するクライアント端末２である。

　聴取ユーザの位置などの、音像の定位に関するパラメータの設定が矢印Ａ１０４に示すように聴取ユーザにより変更された場合、設定の変更をリアルタイムで反映して、コミュニケーション管理サーバ１から送信されてきたマイク音声に対して音像定位処理が行われる。

　クライアント端末２側での音像定位処理により生成された音声データに応じた音声が、矢印Ａ１０５に示すように出力される。

　クライアント端末２においては、パラメータの設定の変更内容が保存され、変更内容を表す情報が矢印Ａ１０６に示すようにコミュニケーション管理サーバ１に送信される。

　音像定位処理がコミュニケーション管理サーバ１側で行われる場合、矢印Ａ１０７，Ａ１０８に示すようにクライアント端末２から送信されてきたマイク音声に対しては、変更後のパラメータを反映して、音像定位処理が行われる。

　音像定位処理により生成された音声データは、矢印Ａ１０９に示すように聴取ユーザが使用するクライアント端末２に送信され、出力される。

　図２６のフローチャートを参照して、音像定位処理の動的切り替えに関するコミュニケーション管理サーバ１の制御処理について説明する。

　ステップＳ２０１において、パラメータの設定変更が一定時間以上ないか否かが判定される。この判定は、例えば、聴取ユーザが使用するクライアント端末２から送信されてくる情報に基づいて、参加者情報管理部１３３により行われる。

　パラメータの設定変更があるとステップＳ２０１において判定された場合、ステップＳ２０２において、音声送信部１３８は、参加者情報管理部１３３により受信された発話ユーザの音声データを、そのまま、聴取ユーザが使用するクライアント端末２に送信する。送信される音声データは、オブジェクトオーディオのデータとなる。

　クライアント端末２においては、変更後の設定を用いて音像定位処理が行われ、音声の出力が行われる。また、変更後の設定の内容を表す情報がコミュニケーション管理サーバ１に対して送信される。

　ステップＳ２０３において、参加者情報管理部１３３は、クライアント端末２から送信されてきた、設定変更の内容を表す情報を受信する。クライアント端末２から送信されてきた情報に基づいて、聴取ユーザの位置情報の更新などが行われた後、ステップＳ２０１に戻り、それ以降の処理が行われる。コミュニケーション管理サーバ１側で行われる音像定位処理は、更新後の位置情報に基づいて行われる。

　一方、パラメータの設定変更がないとステップＳ２０１において判定された場合、ステップＳ２０４において、コミュニケーション管理サーバ１側での音像定位処理が行われる。ステップＳ２０４において行われる処理は、基本的には、図８を参照して説明した処理と同様の処理である。

　以上の処理が、位置の変更だけでなく、背景音の設定の変更などの、他のパラメータが変更された場合にも行われる。

＜音響設定の管理＞
　背景音に適した音響設定がデータベース化され、コミュニケーション管理サーバ１において管理されるようにしてもよい。例えば、背景音の種類毎に、音像を定位させる位置として適した位置が設定され、設定された位置に応じたHRTFデータが保存される。リバーブなどの、他の音響設定に関するパラメータが保存されるようにしてもよい。

　図２７は、音響設定の管理に関する処理の流れを示す図である。

　発話ユーザの音声に背景音を合成させる場合、コミュニケーション管理サーバ１においては、背景音が再生され、矢印Ａ１２１に示すように、背景音に適したHRTFデータなどの音響設定を用いて音像定位処理が行われる。

　音像定位処理により生成された音声データは、矢印Ａ１２２に示すように聴取ユーザが使用するクライアント端末２に送信され、出力される。

＜＜変形例＞＞
　複数のユーザにより行われる会話がリモート会議での会話であるものとしたが、食事の場面での会話、講演会での会話などの、複数人がオンライン経由で参加する会話であれば、様々な種類の会話に上述した技術は適用可能である。

・プログラムについて
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。

　インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図１０に示されるリムーバブルメディア１１１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。音声出力デバイスとしてヘッドホンまたはスピーカが用いられるものとしたが、他のデバイスが用いられるようにしてもよい。例えば、通常のイヤホン（インナーイヤーヘッドホン）や、環境音の取り込みが可能な開放型のイヤホンが音声出力デバイスとして用いられるようにすることが可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
　本技術は、以下のような構成をとることもできる。

（１）
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶する記憶部と、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する音像定位処理部と
　を備える情報処理装置。
（２）
　前記音像定位処理部は、効果音の出力を指示する前記アクションが前記特定の参加者により行われることに応じて、前記効果音を出力するための前記音声コンテンツを提供する
　前記（１）に記載の情報処理装置。
（３）
　前記音像定位処理部は、仮想空間における、聴取者となる前記参加者の位置と、前記アクションを行った前記特定の参加者の位置との関係に応じた前記HRTFデータを用いて、前記効果者の音声データに対して前記音像定位処理を行う
　前記（２）に記載の情報処理装置。
（４）
　前記音像定位処理部は、音声の聴取先とする前記参加者を選択する前記アクションが前記特定の参加者により行われることに応じて、前記特定の参加者の音声を出力するための前記音声コンテンツを提供する
　前記（１）に記載の情報処理装置。
（５）
　前記聴取先とする前記参加者の選択は、画面上に表示された、前記参加者を視覚的に表す視覚情報を用いて行われる
　前記（４）に記載の情報処理装置。
（６）
　前記音像定位処理部は、仮想空間における、前記聴取先とする前記参加者の耳元の位置に応じた前記HRTFデータを用いて、前記特定の参加者の音声データに対して前記音像定位処理を行う
　前記（４）または（５）に記載の情報処理装置。
（７）
　前記音像定位処理部は、フォーカス対象の発話者を選択する前記アクションが前記特定の参加者により行われることに応じて、前記発話者の音声を出力するための前記音声コンテンツを提供する
　前記（１）に記載の情報処理装置。
（８）
　フォーカス対象の前記発話者の選択は、画面上に表示された、前記参加者を視覚的に表す視覚情報を用いて行われる
　前記（７）に記載の情報処理装置。
（９）
　前記音像定位処理部は、仮想空間における、前記特定の参加者の位置の近傍の位置に応じた前記HRTFデータを用いて、フォーカス対象の前記発話者の音声データに対して前記音像定位処理を行う
　前記（７）または（８）に記載の情報処理装置。
（１０）
　情報処理装置が、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する
　情報処理方法。
（１１）
　コンピュータに、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する
　処理を実行させるプログラム。
（１２）
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する音声受信部を備える
　情報処理端末。
（１３）
　前記音声受信部は、効果音の出力を指示する前記アクションが前記特定の参加者により行われることに応じて送信されてきた、前記効果音の音声データを受信する
　前記（１２）に記載の情報処理端末。
（１４）
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの位置と、前記アクションを行った前記特定の参加者の位置との関係に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られた前記効果者の音声データを受信する
　前記（１３）に記載の情報処理端末。
（１５）
　前記音声受信部は、音声の聴取先とする前記参加者として前記情報処理端末のユーザを選択する前記アクションが前記特定の参加者により行われることに応じて送信されてきた、前記特定の参加者の音声データを受信する
　前記（１２）に記載の情報処理端末。
（１６）
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの耳元の位置に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られた前記特定の参加者の音声データを受信する
　前記（１５）に記載の情報処理端末。
（１７）
　前記音声受信部は、フォーカス対象の発話者を選択する前記アクションが、前記特定の参加者としての前記情報処理端末のユーザにより行われることに応じて送信されてきた、フォーカス対象の前記発話者の音声データを受信する
　前記（１２）に記載の情報処理端末。
（１８）
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの位置の近傍の位置に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られたフォーカス対象の前記発話者の音声データを受信する
　前記（１７）に記載の情報処理端末。
（１９）
　情報処理端末が、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する
　情報処理方法。
（２０）
　コンピュータに、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する
　処理を実行させるプログラム。

　１　コミュニケーション管理サーバ，　２Ａ乃至２Ｄ　クライアント端末，　１２１　情報処理部，　１３１　音声受信部，　１３２　信号処理部，　１３３　参加者情報管理部，　１３４　音像定位処理部，　１３５　HRTFデータ記憶部，　１３６　システム音声管理部，　１３７　2chミックス処理部，　１３８　音声送信部，　２０１　制御部，　２１１　情報処理部，　２２１　音声処理部，　２２２　設定情報送信部，　２２３　ユーザ状況認識部，　２３１　音声受信部，　２３３　マイク音声取得部

Claims

　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶する記憶部と、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する音像定位処理部と
　を備える情報処理装置。
　前記音像定位処理部は、効果音の出力を指示する前記アクションが前記特定の参加者により行われることに応じて、前記効果音を出力するための前記音声コンテンツを提供する
　請求項１に記載の情報処理装置。
　前記音像定位処理部は、仮想空間における、聴取者となる前記参加者の位置と、前記アクションを行った前記特定の参加者の位置との関係に応じた前記HRTFデータを用いて、前記効果者の音声データに対して前記音像定位処理を行う
　請求項２に記載の情報処理装置。
　前記音像定位処理部は、音声の聴取先とする前記参加者を選択する前記アクションが前記特定の参加者により行われることに応じて、前記特定の参加者の音声を出力するための前記音声コンテンツを提供する
　請求項１に記載の情報処理装置。
　前記聴取先とする前記参加者の選択は、画面上に表示された、前記参加者を視覚的に表す視覚情報を用いて行われる
　請求項４に記載の情報処理装置。
　前記音像定位処理部は、仮想空間における、前記聴取先とする前記参加者の耳元の位置に応じた前記HRTFデータを用いて、前記特定の参加者の音声データに対して前記音像定位処理を行う
　請求項４に記載の情報処理装置。
　前記音像定位処理部は、フォーカス対象の発話者を選択する前記アクションが前記特定の参加者により行われることに応じて、前記発話者の音声を出力するための前記音声コンテンツを提供する
　請求項１に記載の情報処理装置。
　フォーカス対象の前記発話者の選択は、画面上に表示された、前記参加者を視覚的に表す視覚情報を用いて行われる
　請求項７に記載の情報処理装置。
　前記音像定位処理部は、仮想空間における、前記特定の参加者の位置の近傍の位置に応じた前記HRTFデータを用いて、フォーカス対象の前記発話者の音声データに対して前記音像定位処理を行う
　請求項７に記載の情報処理装置。
　情報処理装置が、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する
　情報処理方法。
　コンピュータに、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、
　ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する
　処理を実行させるプログラム。
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する音声受信部を備える
　情報処理端末。
　前記音声受信部は、効果音の出力を指示する前記アクションが前記特定の参加者により行われることに応じて送信されてきた、前記効果音の音声データを受信する
　請求項１２に記載の情報処理端末。
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの位置と、前記アクションを行った前記特定の参加者の位置との関係に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られた前記効果者の音声データを受信する
　請求項１３に記載の情報処理端末。
　前記音声受信部は、音声の聴取先とする前記参加者として前記情報処理端末のユーザを選択する前記アクションが前記特定の参加者により行われることに応じて送信されてきた、前記特定の参加者の音声データを受信する
　請求項１２に記載の情報処理端末。
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの耳元の位置に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られた前記特定の参加者の音声データを受信する
　請求項１５に記載の情報処理端末。
　前記音声受信部は、フォーカス対象の発話者を選択する前記アクションが、前記特定の参加者としての前記情報処理端末のユーザにより行われることに応じて送信されてきた、フォーカス対象の前記発話者の音声データを受信する
　請求項１２に記載の情報処理端末。
　前記音声受信部は、仮想空間における、前記情報処理端末のユーザの位置の近傍の位置に応じた前記HRTFデータを用いた前記音像定位処理が行われることによって得られたフォーカス対象の前記発話者の音声データを受信する
　請求項１７に記載の情報処理端末。
　情報処理端末が、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する
　情報処理方法。
　コンピュータに、
　聴取位置を基準とした複数の位置に対応するHRTFデータを記憶し、ネットワークを介して参加する会話の参加者のうちの特定の参加者によるアクションに応じて選択された前記HRTFデータを用いた音像定位処理を行うことによって、音像が所定の位置に定位するように、前記アクションに応じて選択された音声コンテンツを提供する情報処理装置から送信されてきた、前記音像定位処理を行うことによって得られた前記音声コンテンツを受信し、音声を出力する
　処理を実行させるプログラム。