WO2012066734A1

WO2012066734A1 - 音声コミュニケーション装置および音声コミュニケーション方法

Info

Publication number: WO2012066734A1
Application number: PCT/JP2011/006084
Authority: WO
Inventors: 信裕神戸
Original assignee: パナソニック株式会社
Priority date: 2010-11-15
Filing date: 2011-10-31
Publication date: 2012-05-24
Also published as: JP2012108587A

Abstract

　会話グループが流動的であっても、快適な会話環境を実現することができる音声出力装置。音声コミュニケーション端末（１００）は、多地点音声通信システムに参加する複数の端末のうち少なくとも１つの音声出力を制御する装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部（１５０）と、複数の端末の中から、発話者とその相手である対話者とを検出し、検出された発話者および対話者の組み合わせに基づいて会話グループを検出する対話者管理部（１４０）とを有し、音声配置部（１５０）は、検出された会話グループの変化に応じて音源配置の設定を変更する。

Description

音声コミュニケーション装置および音声コミュニケーション方法

　本発明は、多地点音声通信システムに参加する端末の音声出力を制御する、音声コミュニケーション装置および音声コミュニケーション方法に関する。

　近年のコミュニケーション手段は、テレビ電話や電子メール等の視覚を主体としたもの、電話等の聴覚を主体としたもの等、多種多様化している。モバイル環境、特に歩行時等の移動中に用いられるコミュニケーション手段には、視覚を用いるものよりも聴覚を用いるものの方が適している。

　音声コミュニケーションの形態としては、一対一の会話だけでなく、複数人による音声チャットや電話会議等のいわゆる多地点音声通信がある。近年の通信技術の発達により、高品質の音声をより多くの地点に送信することが可能となっており、大勢の発話音声を一斉に受信して出力することが可能となってきている。ところが、このように大勢の発話音声が一斉に出力される場合、発話者を区別して発話音声を聞き分けることが難しく、会話の内容を把握することが困難となる。

　そこで、音源を仮想空間に配置する技術が、例えば、特許文献１および特許文献２で知られている。特許文献１および特許文献２記載の技術は、マウスやジョイスティック等による操作を受けて、チャットルーム等を模した画面上で各発話者のアイコンを移動させる。そして、特許文献１および特許文献２記載の技術は、各発話者に対応する音源を、仮想空間における各アイコンの位置に基づいて立体的に配置する。

　特許文献１および特許文献２記載の技術は、仮想的な音源位置における方向や距離に応じた聞こえ方となるように、音声出力を制御する。また、特許文献２記載の技術は、更に、音源配置と発話者の顔の向きとの関係から、誰が誰に話し掛けているのかを検出し、話し掛けている相手に対しては発話音声を大きめに出力する。これらの従来技術によれば、発話者毎に発話音声が異なる方向および音量で聞こえるため、発話者を区別して発話音声を聞くことが容易となり、会話の内容を把握し易くすることができる。

特開２００９－４３２７４号公報特開２００１－２７４９１２号公報

　ところで、共通の話題の会話を構成する発話者の端末のグループ（以下「会話グループ」という）が存在しているにもかかわらず、音源が会話グループ毎にまとまって配置されていない場合がある。このような場合、ユーザは、個々の発話音声がどの会話グループに属するのかを把握し辛くなり、話題に追従することが難しくなる。会話グループが固定的である場合、通常、アイコン等の位置がまとまっている箇所で会話が行われるため、このような問題は生じない。

　しかしながら、多地点音声通信の適用の幅が広がると、会話の参加者が、複数の会話グループを切り替えながら会話の流れに乗って発言したいと望むことが考えられる。この場合、会話グループは流動的であることが望ましい。したがって、会話グループが流動的であっても、個々の発話音声がどの会話グループに属するかを把握でき、話題に追従することが容易であるような、快適な会話環境を得られることが求められる。

　本発明の目的は、会話グループが流動的であっても、快適な会話環境を実現することができる音声コミュニケーション装置および音声コミュニケーション方法を提供することである。

　本発明の音声コミュニケーション装置は、多地点音声通信システムに参加する複数の端末のうち少なくとも１つの音声出力を制御する音声コミュニケーション装置であって、他の端末からの音声が出力される際の音源配置を設定する音声配置部と、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部とを有し、前記音声配置部は、検出された前記会話グループの変化に応じて前記音源配置の設定を変更する。

　本発明の音声コミュニケーション方法は、多地点音声通信システムに参加する複数の端末のうち少なくとも１つの音声出力を制御する音声コミュニケーション方法であって、前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップとを有する。

　本発明によれば、会話グループが流動的であっても快適な会話環境を実現することができる。

本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図本実施の形態における方向の概念を説明するための模式図本実施の形態に係る音声コミュニケーション端末の動作の一例を示すフローチャート本実施の形態における情報送信処理を示すフローチャート本実施の形態における送信データの構成の一例を示す図本実施の形態における音声制御処理を示すフローチャート本実施の形態における音源配置の一例を示す図本実施の形態における配置データの一例を示す図本実施の形態における音源配置の変更の様子の一例を示す図本実施の形態における変更された配置データの一例を示す図本実施の形態における変更された配置データの他の例を示す図本実施の形態における各音声コミュニケーション端末に設定される音源配置の一例を示す図

　以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、不特定多数が参加して任意に会話グループを形成することができる、チャットシステムに適用した例である。

　図１は、本発明の一実施の形態に係る音声コミュニケーション装置を含む音声コミュニケーション端末の構成例を示すブロック図である。

　図１において、音声コミュニケーション端末１００は、音声情報送受信部１１０、音声入力部１２０、方向取得部１３０、対話者管理部１４０、音声配置部１５０、および音声出力部１６０を有する。

　音声情報送受信部１１０は、例えば、インターネットに接続するためのネットワークデバイスを有し、音声コミュニケーションサーバ３００と通信を行う。音声コミュニケーションサーバ３００は、例えばインターネット上に配置された、複数の音声コミュニケーション端末１００の間で音声データの転送を行うサーバである。

　本実施の形態において、音声コミュニケーションサーバ３００は、ある音声コミュニケーション端末１００から音声データを受信したとき、受信した音声データを、他の全ての音声コミュニケーション端末１００へ転送するものとする。

　音声入力部１２０は、有線または無線により接続する音声入力装置２００から、ユーザの発話音声を含む音声の電気信号（以下「音声信号」という）を受信する。音声入力部１２０は、受信した音声信号を、Ａ／Ｄコンバータにより、デジタル信号の音声データへと変換する。そして、音声入力部１２０は、音声データを、音声情報送受信部１１０を用いて音声コミュニケーションサーバ３００へ送信する。以下、音声入力部１２０が生成する音声データは、「自端末音声データ」という。

　また、音声入力部１２０は、送信すべき音声データが生成される毎に、その旨を、対話者管理部１４０へ通知する。なお、送信すべき音声データが生成されたか否かは、例えば、ユーザが発話時に押下するボタンの操作の有無や、音声信号の電圧が閾値を超えているか否かに基づいて、判断することができる。

　本実施の形態において、音声入力装置２００は、例えば、ヘッドセットのマイクロフォンであり、入力された音声を音声信号に変換する装置である。

　方向取得部１３０は、例えば、モーションセンサを有し、ユーザの動きを感知して、ユーザの基本姿勢を基準としたときのユーザの顔の向きを算出する。そして、方向取得部１３０は、例えば対話者管理部１４０からの要求を受ける毎に、算出した顔の向きを、方向データとして、対話者管理部１４０および音声配置部１５０へ出力する。方向データは、つまり、ユーザの基本姿勢を基準とした顔の向き（例えば前方、左方、右方等）を示す情報である。

　対話者管理部１４０は、音声入力部１２０から自端末音声データ生成の通知を受ける毎に、方向取得部１３０に対して方向データを要求する。そして、対話者管理部１４０は、方向取得部１３０から入力される方向データと、音声配置部１５０が保持する後述の配置データとの関係から、ユーザの会話相手（以下「対話者」という）を判定し、対話者情報を生成する。具体的には、対話者管理部１４０は、ユーザが発話を行っているときにユーザが向いている方向を特定し、その方向に配置されている端末のユーザを、対話者と判定する。

　配置データとは、端末毎に設定された位置の集合である。位置とは、他の音声コミュニケーション端末１００の端末ＩＤ（以下「他端末ＩＤ」という）と、他端末ＩＤに対して設定された音源の位置と、他端末の会話の向きである指向性情報の組から成る情報である。端末ＩＤは、音源位置を区別すべき対象毎に設定された識別情報であり、例えば、ユーザＩＤでもよいし、機器ＩＤやネットワークＩＤでもよい。また、他端末ＩＤに対して設定された音源の位置とは、例えば、前方、左方、右方等を示す。会話の向きとは、その他端末がどの端末に向いて会話を行っているかを、各音源の相対的な位置関係における向きで示す情報である。本実施の形態における方向の概念については後述する。

　対話者情報は、音声コミュニケーション端末１００の端末ＩＤである送信元ＩＤと対話者の端末ＩＤとの組（以下、適宜「会話ペア」という）から成る情報である。すなわち、会話ペアとは、話し掛ける側のユーザ（音声コミュニケーション端末１００）と、話し掛けられる側のユーザ（音声コミュニケーション端末１００）との組である。以下、音声コミュニケーション端末１００の端末ＩＤは「自端末ＩＤ」といい、対話者の他端末ＩＤは、「対話者端末ＩＤ」という。また、送信元ＩＤが示す端末は「送信元」といい、対話者端末ＩＤが示す端末は「対話者端末」という。

　そして、対話者管理部１４０は、生成した対話者情報を、音声入力部１２０が送信する音声データに付加させることにより、音声情報送受信部１１０を用いて音声コミュニケーションサーバ３００へ送信する。すなわち、対話者管理部１４０は、対話者情報を、音声コミュニケーションサーバ３００を介して他の音声コミュニケーション端末１００へ送信する。

　また、対話者管理部１４０は、他の音声コミュニケーション端末１００から同様に音声コミュニケーションサーバ３００を介して、音声データと共に送られてくる対話者情報を、音声情報送受信部１１０を用いて受信する。そして、対話者管理部１４０は、自己が生成した対話者情報と他の音声コミュニケーション端末１００からの対話者情報とを、生成時刻および受信時刻から一定の期間、対話者データとして保持する。

　音声配置部１５０は、対話者管理部１４０が保持する対話者データに基づいて、各音源の位置および向きを算出する。具体的には、音声配置部１５０は、受信した対話者情報に基づいて、会話グループを構成する音源がまとまるように配置を決定するとともに、配置された音源ごとに対話者の方向となる指向性を算出する。より具体的には、音声配置部１５０は、受信した対話者情報の会話ペアの位置が近くなるように、配置を決定する。そして、音声配置部１５０は、配置データを生成し、対話者管理部１４０からの要求を受ける毎に、対話者管理部１４０へ出力する。

　また、音声配置部１５０は、音声コミュニケーションサーバ３００から送られてくる音声データを、音声情報送受信部１１０を用いて受信する。以下、音声配置部１５０が受信する音声データは、「他端末音声データ」という。音声配置部１５０は、方向データおよび配置データに従い、音声データに付加された対話者情報に含まれる送信元ＩＤに基づいて、他端末音声データを処理する。すなわち、音声配置部１５０は、配置データが示す各音源の位置および向きで立体的に音源が配置されるように、他端末音声データを処理する。そして、音声配置部１５０は、処理後の他端末音声データを、音声出力部１６０へ出力する。

　音声出力部１６０は、入力された他端末音声データを、Ｄ／Ａコンバータにより音声信号に変換し、有線または無線により接続する音声出力装置４００へ送信する。

　本実施の形態において、音声出力装置４００は、例えばヘッドセットのステレオヘッドフォンであり、入力された音声信号を音声に変換する装置である。

　図２は、本実施の形態における方向の概念を説明するための模式図である。

　音声配置部１５０は、ユーザ５１０の基本姿勢を基準として、ユーザ５１０の周囲に想定した仮想的な空間に、他端末ＩＤをユーザ５１０に対して「前方」や「左方」等に配置する。また、その発話音声が聞こえてくる方向は、ユーザ５１０の顔の向き（つまり、他のどの端末に話し掛けているか）により変化する。

　例えば、ある発話者５２０_１の他端末ＩＤに対して、ユーザ５１０の「前方」が設定されたとする。この場合は、後述の通り、ユーザ５１０の基本姿勢における前方から発話者５２０_１の発話音声が聞こえるように、音声出力の配置が制御される。そして、例えば、この状態でユーザ５１０が顔を左に向けた場合、右耳側から発話者５２０_１の発話音声が聞こえるように、音声出力の配置が制御される。これにより、本実施の形態は、周辺に位置する他の発話者５２０と、前方に位置する発話者５２０_１との音声を判別しやすくなる。

　更に、ある発話者５２０_２は、別の発話者５２０_３に話しかけているように、発話者５２０_２に発話者５２０_３の方向への音声の指向性を設定する。すなわちユーザ５１０には、右前の発話者５２０_２が右の発話者５２０_３に向かって話しているように聴こえる。

　また、ユーザ５１０は、話を聞きたい相手や話し掛けたい相手の方向に、自然と頭を向ける。したがって、ユーザ５１０の顔の向きは、対話者の方向を示す情報となる。

　顔の向きおよび音源の方向は、例えば、方位角と仰伏角とで定義される。ここでは仰伏角は０とし、顔の向きおよび音源の方向として方位角のみが用いられるものとする。これは、一般的に、左右方向の方が、前後方向や上下方向に比べて識別が容易であるためである。

　このような音声コミュニケーション端末１００は、各ユーザの顔の向きに基づいて対話者を特定すると共に、他の音声コミュニケーション端末１００から受信した対話者情報に基づいて会話ペアを取得する。そして、音声コミュニケーション端末１００は、会話グループ（会話の組み合わせ）が変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御する。これにより、音声コミュニケーション端末１００は、会話グループが流動的であっても、常に音源配置を会話グループ毎にまとめることができるので、会話内容を容易に把握することを可能にし、快適な会話環境を実現することができる。

　次に、音声コミュニケーション端末１００の動作について説明する。

　図３は、音声コミュニケーション端末１００の動作の一例を示すフローチャートである。

　まず、ステップＳ１０００において、音声入力部１２０は、操作インタフェース（図示せず）におけるユーザ操作等による動作の終了の要求があったか否かを判断する。音声入力部１２０は、終了の要求が無い場合（Ｓ１０００：ＮＯ）、ステップＳ２０００へ進む。

　ステップＳ２０００において、音声入力部１２０は、音声入力装置２００から新たに音声信号を受信したか否かを判断する。音声入力部１２０は、例えば、一定以上の電圧の音声信号が入力されているときや、音声入力スイッチがオンとなっている状態のときに、音声信号を受信していると判定する。音声入力部１２０は、音声信号を受信した場合（Ｓ２０００：ＹＥＳ）、ステップＳ３０００へ進む。また、音声入力部１２０は、音声信号を受信していない場合（Ｓ２０００：ＮＯ）、ステップＳ４０００へ進む。

　ステップＳ３０００において、音声入力部１２０および対話者管理部１４０は、自端末音声データを他の音声コミュニケーション端末１００へ送信する情報送信処理を実行して、ステップＳ４０００へ進む。情報送信処理の詳細については後述する。

　ステップＳ４０００において、対話者管理部１４０は、新たな他端末音声データを他の音声コミュニケーション端末１００から受信したか否かを判断する。対話者管理部１４０は、他端末音声データを受信した場合（Ｓ４０００：ＹＥＳ）、ステップＳ５０００へ進む。また、対話者管理部１４０は、他端末音声データを受信していない場合（Ｓ４０００：ＮＯ）、ステップＳ１０００へ戻る。

　ステップＳ５０００において、対話者管理部１４０、音声配置部１５０、および音声出力部１６０は、受信した他端末音声データに基づく音声出力を制御する音声制御処理を実行して、ステップＳ１０００へ戻る。音声制御処理の詳細については後述する。

　そして、音声入力部１２０は、終了の要求があると（Ｓ１０００：ＹＥＳ）、一連の動作を終了する。

　なお、情報送信処理および音声制御処理は、別のスレッドで同時に実行されてもよい。

　図４は、情報送信処理（図３のステップＳ３０００）を示すフローチャートである。

　ステップＳ３１００において、音声入力部１２０は、音声入力装置２００から入力された音声信号を自端末音声データに変換する。また、音声入力部１２０は、送信すべき自端末音声データが生成された旨を、対話者管理部１４０へ通知する。

　そして、ステップＳ３２００において、対話者管理部１４０は、通知を受けて、方向取得部１３０から方向データを取得し、音声配置部１５０から配置データを取得する。

　そして、ステップＳ３３００において、対話者管理部１４０は、方向データと配置データとを照合する。すなわち、対話者管理部１４０は、方向データが示すユーザの顔の方向と、他端末ＩＤに設定されている位置（方向）とを照合する。

　そして、ステップＳ３４００において、対話者管理部１４０は、照合結果から、ユーザが誰かと会話をしているか否かを判断する。すなわち、対話者管理部１４０は、ユーザの対話者が存在するか否かを判断する。この判断は、いずれかの端末ＩＤに設定された位置が、方向データが示すユーザの顔の方向を基準とする所定の角度範囲内に含まれているか否かに基づいて行われる。対話者管理部１４０は、対話者が存在する場合（Ｓ３４００：ＹＥＳ）、ステップＳ３５００へ進む。また、対話者管理部１４０は、対話者が存在しない場合（Ｓ３４００：ＮＯ）、ステップＳ３６００へ進む。

　ステップＳ３５００において、対話者管理部１４０は、該当する他端末ＩＤを対話者端末ＩＤとして設定した対話者情報を生成する。

　また、ステップＳ３６００において、対話者管理部１４０は、対話者を不定とする対話者情報を生成する。

　そして、ステップＳ３７００において、対話者管理部１４０は、生成した対話者情報を付加した自端末音声データを、音声コミュニケーションサーバ３００へ送信する。これにより、自端末音声データと、ユーザとユーザの現在の対話者とを示す対話者情報とが、他の音声コミュニケーション端末１００へ送信されることになる。

　図５は、音声コミュニケーション端末１００の送信データの構成の一例を示す図である。

　図５に示すように、送信データ６１０は、ＩＰアドレス等から成る送信元アドレス６１１および宛先アドレス６１２と、対話者情報６１３と、音声データ６１４とから成る。対話者情報６１３は、上述の通り、送信元ＩＤ６１５および対話者端末ＩＤ６１６を含む。

　図６は、音声制御処理（図３のステップＳ５０００）を示すフローチャートである。

　ステップＳ５０１０において、対話者管理部１４０は、受信した他端末音声データの対話者情報から、対話者端末ＩＤおよび送信元ＩＤを取得し、対話者データとして、音声配置部１５０へ出力する。

　そして、ステップＳ５０２０において、音声配置部１５０は、入力された対話者端末ＩＤに対して位置が設定されているか否かを判断する。音声配置部１５０は、対話者端末ＩＤに対して位置が設定されていない場合（Ｓ５０２０：ＮＯ）、つまり、新たな会話グループが出現したとき、ステップＳ５０３０へ進む。また、音声配置部１５０は、対話者端末ＩＤに対して位置が設定されている場合（Ｓ５０２０：ＹＥＳ）、ステップＳ５０４０へ進む。

　ステップＳ５０３０において、音声配置部１５０は、空いている位置に、送信元ＩＤを配置して、ステップＳ５０９０へ進む。すなわち、音声配置部１５０は、いずれの端末ＩＤに対しても設定されていない位置を、送信元ＩＤに対して設定する。その際、対話者端末ＩＤが無効であることから、音声の向きが無指向性となるように、対話者端末ＩＤを送信元ＩＤに変更する。

　ステップＳ５０４０において、音声配置部１５０は、入力された送信元ＩＤに対して既に位置が設定されているか否かを判断する。音声配置部１５０は、送信元ＩＤに対して位置が設定されていない場合（Ｓ５０４０：ＮＯ）、つまり、例えば送信元のユーザが始めて話し掛けてきたとき、ステップＳ５０５０へ進む。また、音声配置部１５０は、送信元ＩＤに対して位置が設定されている場合（Ｓ５０４０：ＹＥＳ）、ステップＳ５０６０へ進む。

　ステップＳ５０５０において、音声配置部１５０は、対話者端末ＩＤの近辺に、送信元ＩＤを配置して、後述のステップＳ５０９０へ進む。すなわち、音声配置部１５０は、対話者端末ＩＤの配置から所定の範囲内となる位置を、送信元ＩＤに対して設定する。

　一方、ステップＳ５０６０において、音声配置部１５０は、対話者管理部１４０が保持する対話者データに該当する送信元ＩＤの会話ペアと、他の音声コミュニケーション端末１００から受信した対話者情報の会話ペアとを比較する。そして、音声配置部１５０は、会話ペアに変化があったか否かを判断する。すなわち、音声配置部１５０は、送信元が会話相手を変えた結果として、その送信元から受信した対話者情報の会話ペアの組み合わせが、対話者管理部１４０の保持する対話者データの会話ペアの組み合わせと、異なるか否かを判断する。音声配置部１５０は、会話ペアに変化がない場合（Ｓ５０６０：ＮＯ）、ステップＳ５０７０へ進む。また、音声配置部１５０は、会話ペアに変化があった場合（Ｓ５０６０：ＹＥＳ）、ステップＳ５０８０へ進む。

　ステップＳ５０７０において、音声配置部１５０は、他の音声コミュニケーション端末１００から受信した対話者データの会話ペアの、送信元ＩＤと対話者端末ＩＤとの距離が遠いか否かを判断する。すなわち、音声配置部１５０は、送信元ＩＤに対して現在設定している位置と、対話者端末ＩＤに対して現在設定している位置とが、例えば、所定の距離以上離れているか否かを判断する。音声配置部１５０は、会話ペアの距離が近い場合（Ｓ５０７０：ＮＯ）、ステップＳ５１００へ進む。また、音声配置部１５０は、会話ペアの距離が遠い場合（Ｓ５０７０：ＹＥＳ）、ステップＳ５０８０へ進む。

　ステップＳ５０８０において、音声配置部１５０は、送信元ＩＤを対話者端末ＩＤに近付けた状態で、送信元および対話者端末を再配置して、ステップＳ５０９０へ進む。すなわち、音声配置部１５０は、送信元ＩＤと対話者端末ＩＤとに対して、互いに近くなるような位置を設定する。併せて、音声配置部１５０は、送信元ＩＤの位置から対話者端末ＩＤの位置に向かう方向へ、音声の指向性を設定する。

　ステップＳ５０９０において、音声配置部１５０は、変化後の配置データを、対話者管理部１４０へ出力して、ステップＳ５１１０へ進む。すなわち、音声配置部１５０は、音源配置の設定内容が変化する毎に、配置データを更新する。

　また、ステップＳ５１００において、音声配置部１５０は、送信元ＩＤおよび対話者端末ＩＤを、現在と同じ位置に再配置して、ステップＳ５１１０へ進む。すなわち、音声配置部１５０は、送信元ＩＤと対話者端末ＩＤとに対して、現在設定されている位置と方向とを設定する。なお、同じ内容での再配置および配置データの生成を不要とするために、音声配置部１５０は、一旦生成した配置データを一定期間保持するようにしてもよい。

　そして、ステップＳ５１１０において、音声配置部１５０は、現在設定している配置に基づいて、他端末音声データを処理し、処理後の音声データを音声出力部１６０へ出力する。例えば、端末Ａの音声出力部１６０は、図８に示す配置データ６３０に基づいて他端末音声データを処理することにより、音声出力装置４００において、図７に示すような立体音響空間が実現される。

　そして、ステップＳ５１２０において、音声出力部１６０は、入力された処理後の他端末音声データを、音声信号に変換して、音声出力装置４００へ送信し、音声制御処理を終了する。

　図７は、音声コミュニケーション端末１００の端末Ａに設定されている音源配置の一例を示す図である。ここでは、端末Ａ、Ｄ、Ｅにより構成される会話グループと、端末Ｂ、Ｃにより構成される会話グループとが存在している場合を例示する。

　音声配置部１５０は、例えば、音声の聴取者となるユーザの位置を中心として、対話者を含む他のユーザに対応する各音源を、中心から一定の距離を置いて半円状に配置することになる。また、音声配置部１５０は、左右の配置のバランスは必ずしも均等としないが、各会話グループが分断されないように各音源を配置することになる。すなわち、音声配置部１５０は、同一の会話グループを構成する複数の他端末からの音声の音源の範囲内に、その会話グループを構成しない他端末からの音声の音源が位置しないように、各音源を配置する。

　図８は、図９に示す音源配置がある音声コミュニケーション端末１００において設定されている場合に、各音声コミュニケーション端末１００が生成する配置データの一例を示す図である。配置データは音声コミュニケーション端末１００毎に個別に生成されるが、ここでは各配置データをまとめて示す。なお、各端末の指向性については図示していない。

　図８に示すように、各音声コミュニケーション端末１００（端末ＩＤで示す）は、配置データ６３０として、他端末ＩＤ６３１に対応付けて、設定された音源の方向を示す方位角６３２を記述するデータを生成する。ここでは、方位角が、正面を０度とし、右への回転角を正、左への回転角を負として－１８０度から１８０度までの値で示される場合を例示している。なお、仰伏角が用いられる場合は、仰伏角は、例えば、水平を０度とし、上を正、下を負として－９０度から９０度までの値で示される。

　ここで、図８の配置データが用いられている状態（図７に示す音源配置の状態）での端末Ａのユーザの仮想空間において、端末Ｆのユーザが、端末Ｃのユーザに話し掛け、端末Ｂ、Ｃ、Ｆのユーザが会話を開始したものとする。この会話の開始により、端末Ａ、Ｄ、Ｅは、１つの会話グループ（以下「第１の会話グループ」という）となる。また、端末Ｂ、Ｃ、Ｆは、別の会話グループ（以下「第２の会話グループ」という）となる。ところが、この場合、図７に示す音源配置のままでは、端末Ｆと端末Ｃとの距離は遠く、第１の会話グループと第２の会話グループとは交差した状態となる。したがって、音声コミュニケーション端末１００は、例えば端末Ｆからの対話者情報に基づき、端末Ｆが端末Ｃに近付くように、音源の再配置を行い、配置データを変更する。

　図９は、音源配置の変更の様子の一例を示す図であり、図７に対応するものである。

　まず、図９（Ａ）に示すように、音声配置部１５０は、端末Ｆの位置を端末Ｃの近くに移動させる。この結果、端末Ｂ、Ｃ、Ｆの位置はまとまり、第１の会話グループと第２の会話グループとが交差しなくなる。これにより、会話グループの音声が区別し易くなる。そして、図９（Ｂ）に示すように、音声配置部１５０は、端末Ｂ～Ｆの間隔が均等になるように、各端末の位置を調整する。この結果、会話グループ内の音声が区別し易くなる。

　図１０および図１１は、図９に示す音源配置の変更があった場合の配置データの一例を示す図であり、図８に対応するものである。図１０は、図９（Ａ）の段階における配置データの一例であり、図１１は、図９（Ｂ）の段階における配置データの一例である。

　図１０および図１１に示すように、端末Ｆが第２の会話グループに参加した結果、所定の配置変更ルールに従って、配置データが段階的に変更される。この結果、最終的に、図９（Ｂ）に示す音源配置が、実際の音声出力において実現されることになる。そして、端末Ａのユーザには、会話グループ１の音声と会話グループ２の音声とがそれぞれまとまった異なる方向から聞こえ、かつ、個々の音声は異なる方向から聞こえる。したがって、端末Ａのユーザは、個々の発話が、誰のものであり、どの会話グループのものであるのかを容易に把握することができる。

　なお、各音声コミュニケーション端末１００には、その音声コミュニケーション端末１００を中心とした音源配置が設定される。

　図１２は、各音声コミュニケーション端末１００に設定される音源配置の一例を示す図である。図１２（Ａ）～図１２（Ｆ）は、順に、端末Ａ～Ｆに設定される配置データの内容を示す。

　図１２に示すように、各音声コミュニケーション端末１００では、上述の所定の配置ルールに適合するように、自己以外の音声コミュニケーション端末１００の音源が周囲に仮想的に配置される。

　このような動作により、音声コミュニケーション端末１００は、会話グループが変化したとき、これを検出し、会話グループがまとまった方向から聞こえるように音声出力を制御することができる。

　なお、音源の位置が急激に変化すると、ユーザが、不快感を覚えたり、誰の発話音声なのか、および、どの会話グループの会話なのかを把握し辛くなるおそれがある。

　したがって、音声配置部１５０は、配置を変更する際、各音源の位置が滑らかに移動するよう、配置データを段階的に変化させて出力してもよい。例えば、図７に示す状態から図９（Ａ）に示す状態へと変化させる際、音声配置部１５０は、端末Ｆの音源位置を、端末Ｅの方向、端末Ｄの方向を経由して移動させる形で、途中の位置を補間すればよい。

　以上のように、本実施の形態に係る音声コミュニケーション端末１００は、ユーザの顔の向きに基づいて会話グループを検出し、会話グループの変化に応じて音源配置の設定を変更する。これにより、本実施の形態は、会話グループが不特定であっても快適な会話環境を実現することができる。

　なお、対話者の特定は、本実施の形態ではユーザが発話するときのユーザの顔の向きに基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末１００は、自端末音声データに対して音声認識処理を行い、発話に含まれる他のユーザの名称から、対話者を特定してもよい。この場合、音声コミュニケーション端末１００は、予め他の音声コミュニケーション端末１００からユーザの名称のテキストデータを受信して保持しておく等して、各端末に対応付けて各ユーザの名称を記憶しておく必要がある。

　なお、この際、音声コミュニケーション端末１００は、処理負荷の軽減のため、例えば、音声認識処理の対象を、音声入力が開始されてから最初の数秒のみに限定してもよい。また、音声コミュニケーション端末１０は、例えば、音声認識処理の対象を、ユーザ操作によりキースイッチが押下されている間のみに限定してもよい。

　また、例えば、音声コミュニケーション端末１００は、リモートコントローラにおける十字キー等のユーザ操作により、音源の方向に対する指定を受け付けてもよい。そして、音声コミュニケーション端末１００は、指定された方向に設定された他端末のユーザを、対話者として特定してもよい。

　また、音声コミュニケーション端末１００は、ユーザの顔の向きと音声認識処理等の両方を行い、会話相手の検出の精度の向上を図るようにしてもよい。

　また、会話グループの抽出は、本実施の形態では対話者情報に基づいて行ったが、これに限定されない。例えば、音声コミュニケーション端末１００は、各ユーザの発話音声に含まれる共通のキーワードに基づいて、会話グループ（ユーザの対話者および会話ペア）を抽出してもよい。また、音声コミュニケーション端末１００は、ユーザの顔の向きに基づく会話グループの抽出とキーワードに基づく会話グループの抽出との両方を行い、会話グループの抽出の精度の向上を図ってもよい。

　また、対話者情報は、送信元アドレス等の他の情報によって対話者情報の送信元を特定可能である場合、必ずしも送信元ＩＤを含まなくてもよい。

　また、音声コミュニケーションサーバ３００は、音声データを転送する機能を有するだけでなく、データベースに音声データを蓄積する機能を有してもよい。また、本発明が適用されるネットワークは、音声コミュニケーション端末１００同士で直接に接続して通信を行う、サーバレス構成のネットワークであってもよい。

　また、対話者情報は、本実施の形態では音声データと共に送信したが、これに限定されない。音声コミュニケーション端末１００は、対話者情報を、音声の入力タイミングや音声の送信タイミングとは異なるタイミングで生成し、送信してもよい。例えば、音声コミュニケーション端末１００は、ユーザの顔の向きの累積時間から、発話者情報を定期的に生成し、送信するようにしてもよい。

　このような場合、音声データを送信する処理および対話者情報を生成して送信する処理は、別のスレッドで同時に実行されてもよい。また、音声データを受信する処理、対話者情報を受信する処理、および配置変更を行う処理は、別のスレッドで同時に実行されてもよい。

　また、音源の配置は、本実施の形態では半円状の分散配置としたが、これに限定されない。例えば、音声コミュニケーション端末１００は、上下方向や前後方向に音源を分散させて配置させたり、会話グループ毎の音源位置をまとめてもよい。

　音源位置をまとめた場合、一人の発話者以外が聴取者となって発話者が入れ替わりながら会話が進む通常の会話では、会話内容を把握することが可能である。すなわち、会話グループ毎に音源位置をまとめることは、話者の数が多い場合や会話グループの数が多い場合に好適である。

　したがって、音声コミュニケーション端末１００は、話者の数や会話グループの数が所定の閾値に達したときには、会話グループ毎に音源位置をまとめるようにしてもよい。また、音声コミュニケーション端末１００は、更にこれらの数が増大したときには、新たな音源の設定を保留するようにしてもよい。また、逆に、音声コミュニケーション端末１００は、音源位置をまとめた後に話者の数や会話グループの数が減少したときには、個々の音源が分散されるように音源の再配置を行ってもよい。

　また、本発明は、本実施の形態ではユーザ側の装置である音声コミュニケーション端末１００に適用したが、これに限定されない。本発明は、例えば、複数の端末の間で音声データの中継を行う装置（例えば、本実施の形態の音声コミュニケーションサーバ３００）に適用してもよい。

　また、本発明は、上述の不特定多数が参加するチャットシステム以外にも、電話会議システム等、各種の多地点音声通信システムに適用することができる。

　２０１０年１１月１５日出願の特願２０１０－２５４８０１の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

　本発明は、会話グループが流動的であっても、快適な会話環境を実現することができる、音声コミュニケーション装置および音声コミュニケーション方法として有用である。

　１００　音声コミュニケーション端末
　１１０　音声情報送受信部
　１２０　音声入力部
　１３０　方向取得部
　１４０　対話者管理部
　１５０　音声配置部
　１６０　音声出力部
　２００　音声入力装置
　３００　音声コミュニケーションサーバ
　４００　音声出力装置

Claims

　多地点音声通信システムに参加する複数の端末のうち少なくとも１つの音声出力を制御する音声コミュニケーション装置であって、
　他の端末からの音声が出力される際の音源配置を設定する音声配置部と、
　前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出する対話者管理部と、を有し、
　前記音声配置部は、
　検出された前記会話グループの変化に応じて前記音源配置の設定を変更する、
　音声コミュニケーション装置。
　前記対話者管理部は、
　前記複数の端末の複数のユーザのそれぞれの顔の向きに基づいて、前記対話者を検出する、
　請求項１記載の音声コミュニケーション装置。
　前記音声配置部は、
　同一の前記会話グループを構成する複数の前記端末からの音声の音源の範囲内に、その会話グループを構成しない前記端末からの音声の音源が位置しないように、前記音源配置の設定を変更する、
　請求項２記載の音声コミュニケーション装置。
　前記対話者管理部は、
　前記端末毎にそのユーザの顔の向きとその端末に設定された前記音源配置との関係から、前記対話者を検出する、
　請求項３記載の音声コミュニケーション装置。
　前記制御の対象となる端末に設けられ、
　前記他の端末と通信を行う音声情報送受信部と、
　前記端末のユーザの発話音声を含む音声データを取得し、取得した音声データを、前記音声情報送受信部を用いて前記他の端末へ送信する音声入力部と、
　前記ユーザの顔の向きを取得する方向取得部と、
　前記音声情報送受信部を用いて、前記他の端末からその端末のユーザの発話音声を含む音声データを受信し、設定された前記音源配置に従って、受信された前記音声データに基づいて音声を出力する音声出力部と、を有し、
　前記対話者管理部は、
　取得された前記ユーザの顔の向きと設定された前記音源配置との関係から、前記ユーザの会話相手の端末を特定し、前記音声情報送受信部を用いて、特定した前記会話相手の端末を示す情報と前記制御の対象となる端末を示す情報とを、対話者情報として前記他の端末へ送信すると共に、前記他の端末から送信される前記対話者情報を受信し、受信した前記対話者情報に基づいて、前記会話グループを検出する、
　請求項４記載の音声コミュニケーション装置。
　前記音声入力部が取得した前記音声データから、音声認識処理により、前記他の端末のユーザの名称を抽出する音声認識部、を更に有し、
　前記対話者管理部は、
　前記ユーザの顔の向きと前記音源配置との関係と、抽出された前記名称とから、前記会話グループを検出する、
　請求項１記載の音声コミュニケーション装置。
　多地点音声通信システムに参加する複数の端末のうち少なくとも１つの音声出力を制御する音声コミュニケーション方法であって、
　前記複数の端末の中から、発話者とその相手である対話者とを検出し、検出された前記発話者および前記対話者の組み合わせに基づいて会話グループを検出するステップと、
　検出された前記会話グループの変化に応じて、他の端末からの音声が出力される際の音源配置の設定を変更するステップと、を有する、
　音声コミュニケーション方法。