WO2011158493A1

WO2011158493A1 - 音声通信システム、音声通信方法及び音声通信機器

Info

Publication number: WO2011158493A1
Application number: PCT/JP2011/003364
Authority: WO
Inventors: 健人吉井
Original assignee: パナソニック株式会社
Priority date: 2010-06-15
Filing date: 2011-06-14
Publication date: 2011-12-22

Abstract

　通信機器は、ネットワークに接続するための送受信部と、仮想空間内の複数ユーザの位置情報を表示する表示出力部と、音声通信を行うための音声入力部および音声出力部と、仮想空間における各ユーザの位置情報を設定するための位置情報設定部と、仮想空間内の複数ユーザの位置情報を記憶する記憶部を備えている。各ユーザは自らの位置情報を設定して管理サーバに登録し、各ユーザは位置情報設定部によって、仮想空間における他のユーザの位置情報の変更を行ない、自らの通信機器における音声出力の制御を行う。

Description

音声通信システム、音声通信方法及び音声通信機器

　本発明は、遠隔の２地点あるいはそれ以上の地点の間をネットワークで接続して会話音声を共有し、あるいはそのユーザの映像を付加して電子的に会議を実施する音声通信システム、音声通信方法及び音声通信機器に関する。

　近年、広帯域インターネット網の普及に伴って、遠隔地点間での電子会議システムが広く利用されるようになった。電子会議システムは、主に企業用途で用いられており、例えば本社、支社間や、国内拠点と海外拠点との間で使用されている。電子会議システムにより、遠隔地点間の移動のための費用や時間、さらにそれらに伴うエネルギー資源の節約にも貢献できる。したがって、今後もさらに利用の機会が増えるものと考えられる。

　従来、アナログ電話網、あるいはＩＳＤＮ電話網を用いてユーザの発言をマイクで集音し、各地点でスピーカー再生する電話会議システムが一般的に使用されていた。またその後、ＩＳＤＮ電話網の普及と高能率動画圧縮技術の発展に支えられて、動画の伝送、表示機能を付加したテレビ会議システムも、主に企業内用途で使用されていた（以下、電話会議とテレビ会議を総称して電子会議という）。さらに近年、広帯域インターネット網の普及により、数Ｍｂｐｓの双方向伝送が企業だけでなく個人でも利用できるようになった。その結果、そのネットワークを利用した電子会議を利用するユーザが急激に増加している。また、電子会議は、利用の仕方も業務用のみならず、教育用（遠隔学習など）や、さらに個人が仲間との会話に利用する趣味娯楽用にも用いられるようになった。

　このような電子会議システムの普及を支えている大きな要素が広帯域インターネット網であることは前述したが、さらに従来のような専用の電子会議用装置の代わりに、パーソナルコンピュータ（以下、ＰＣという）と簡単な外付けカメラ、および外付けマイクがあればシステムが構成できるという装置側の簡易化も大きな要因となっている。

　このような電子会議システムにおいては、複数の遠隔地点で集音した音声をそのまま加算して伝送するので、どのユーザの音声もほぼ同一の音量で伝えられ、実際の会議室内や建物内での会話の感覚とは著しく異なった状態での音声再生となっていた。企業が使用する業務目的の電子会議システムではさほど不自由はない。しかし、前述したような個人の趣味娯楽用の電子会議における会話では、参加する個人には、実際の対面式の会議とは違和感が生じる。

　近年、ＰＣ画面内の仮想空間において、ユーザが各ユーザに対応するキャラクター（以下、アバターという）として登場して、その仮想空間内の自身のアバター近傍の他のユーザのアバターと会話できるような一種の電子会議システムが運営されている。このような形態においては、各アバターの立っている位置や向きによって、その音声の音量が異なるのが自然である。しかし、従来の電子会議システムではそれが実現されないのが課題となっていた。

　そこで、ユーザが集まる仮想空間内で、各アバターの立つ位置や向きを設定し、音声の届く領域を指定することで、現実の空間における会話との疑似性を高めようとする技術が開示されている（例えば、特許文献１参照）。図９は、特許文献１が適用される電子会議システムの構成図である。図９に示す電子会議システムでは、電子会議システムを運営するサーバＰＣ２０１、そのシステムに参加するクライアントＰＣ２１０ａ、２１０ｂ、２１０ｃがネットワーク１００ａに接続されている。

　図１０Ａ、１０Ｂ、１０Ｃは、各クライアントＰＣの画面表示内容を示すものであって、クライアントＰＣ２１０ａの画面が図１０Ａの画面１０ａ、クライアントＰＣ２１０ｂの画面が図１０Ｂの画面１０ｂ、クライアントＰＣ２１０ｃの画面が図１０Ｃの画面１０ｃである。また各画面内に表示されるアバターとして、クライアントＰＣ２１０ａを操作するユーザのアバターがアバター２０ａ、クライアントＰＣ２１０ｂを操作するユーザのアバターがアバター２０ｂ、クライアントＰＣ２１０ｃを操作するユーザのアバターがアバター２０ｃである。アバター２０ａ、２０ｂ、２０ｃの画面内における会話の届く範囲が楕円形の領域として表示され、アバター２０ａの領域が領域３０ａ、アバター２０ｂの領域が領域３０ｂ、アバター２０ｃの領域が領域３０ｃである。

　このとき、各クライアントＰＣを操作するユーザは、画面上の仮想空間における自らのアバターの位置と向きと会話可能領域を設定することができる。アバターの向きは、図１０Ａ、１０Ｂ、１０Ｃではアバター２０ａ、２０ｂ、２０ｃを示す黒丸から突き出た線の方向によって示されている。

　いまアバター２０ａ、２０ｂ、２０ｃの設定が、画面１０ａ、１０ｂ、１０ｃであったとすると、それを合成した画面は図１０Ｄの画面１０ｔとなる。画面１０ｔからわかるように領域３０ａと３０ｂには重なりがあり、領域３０ｂと３０ｃにも重なりがあるが、領域３０ａと３０ｃには重なりがない。すなわち、アバター２０ａと２０ｂは会話が可能、アバター２０ｂと２０ｃも会話が可能である。しかし、アバター２０ａと２０ｃは相手の声が聞こえない状態となって、会話ができない設定となっている。このように、各ユーザは自分に対応するアバターの位置、向き、領域を変えることにより、仮想空間内に存在する他のアバターのうち、どのアバターの話を聞くか、およびどのアバターと話をするかを設定することができる。

　また、特許文献１では上記の会話可能領域を単に音声が届くか届かないかの範囲を示すだけでなく、図１１に示すように、音量のレベルも複数の段階に区別している。たとえば、領域３０ａは現在の音量レベルで１００％の音声が届く範囲、領域３０ａ１は現在の音量レベルで７５％の音声が届く範囲、領域３０ａ２は現在の音量レベルで５０％の音声が届く範囲として、アナログ的に減衰させて、より現実空間での感覚に近づけることも提案している。

　前述のように、特許文献１による方法を用いれば、電子会議システムにおいて仮想空間を設定し、その中で各ユーザが自分に対応するアバターの存在位置や方向を自由に設定することによって、より自然な感覚で、かつ自分にとって都合のよい環境で電子会議に参加することが可能となる。

　しかしながら、この方法では、たとえば図１２に示す画面１０ａのように、アバター２０ａはアバター２０ｂとのみの会話を希望しているにもかかわらず、アバター２０ｃが接近してくると、アバター２０ｃの音声も聞かざるを得ないという課題が生じる。不特定多数のアバターが集まる仮想空間による電子会議システムでは、たとえば広告目的で強引に会話グループに入り込んでくる場合も想定され、特定のアバターを除外可能な設定も必要である。

特開２００３－６７３１７号公報

　本発明の音声通信システムは、ネットワークに接続された管理サーバと複数の音声通信機器とを含み、複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムである。

　管理サーバは、ネットワークに接続するための第１の送受信部と、仮想空間における複数ユーザの位置情報を複数ユーザで共有する原型位置情報、及び各通信機器が個別に設定する機器別位置情報を管理する仮想空間管理部と、を備えている。

　音声通信機器は、ネットワークに接続するための第２の送受信部と、仮想空間を表示する映像出力部と、音声入力を行う音声入力部と、音声出力を行う音声出力部と、仮想空間における複数ユーザの位置情報を設定する位置情報設定部と、仮想空間内の複数ユーザの位置情報を記憶する記憶部と、を備えている。

　第２の送受信部は、位置情報を管理サーバに送信する。管理サーバは、受信した位置情報を原型位置情報として仮想空間管理部に登録し、原型位置情報を通信機器に送信する。音声出力部は、原型位置情報に応じて第２の送受信部から受信した音声の出力制御を行う。

　位置情報設定部において自ユーザの位置情報が変更された場合、記憶部は更新された自ユーザの位置情報に応じて複数ユーザの位置情報を更新する。第２の送受信部は更新された自ユーザの位置情報を管理サーバへ送信する。仮想空間管理部は更新された自ユーザの位置情報に応じて原型位置情報を更新する。第１の送受信部は、更新された原型位置情報を複数の音声通信機器に送信する。映像出力部は更新された原型位置情報に応じて仮想空間を表示する。音声出力部は更新された原型位置情報に応じて第２の送受信部から受信した音声の出力制御を行う。

　位置情報設定部において他ユーザの位置情報が変更された場合、記憶部は更新された他ユーザの位置情報に応じて複数ユーザの位置情報を更新する。仮想空間管理部は更新された他ユーザの位置情報に応じて機器別位置情報を更新する。映像出力部は記憶部に記憶された複数ユーザの位置情報に応じて仮想空間を表示する。音声出力部は記憶部に記憶された複数ユーザの位置情報に応じて第２の送受信部から受信した音声の出力制御を行う。

　第２の送受信部において更新された原型位置情報が受信された場合であって、かつ更新された原型位置情報の受信前に位置情報設定部において他ユーザの位置情報が変更されていた場合、映像出力部は記憶部に記憶された複数ユーザの位置情報に応じて仮想空間を表示する。音声出力部は記憶部に記憶された複数ユーザの位置情報に応じて音声の出力制御を行う。

　このような構成により、仮想空間内で会話することを想定した電子会議において、与えられた仮想空間内の位置情報を部分変更して、ユーザの都合のよい位置設定により他の特定のユーザとの会話をしやすくしたり、逆に特定のユーザの声を遠ざけたりすることができる。

　また、本発明の音声通信方法は、ネットワークに接続された管理サーバと複数の音声通信機器とを含み、複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムにおける音声通信方法である。

　音声通信方法は、音声通信機器が自ユーザの位置情報を管理サーバに送信し、管理サーバは受信した位置情報を原型位置情報として仮想空間管理部に登録し、原型位置情報を音声通信機器に送信する。音声通信機器は更新された原型位置情報に応じて受信した音声の出力制御を行う。

　音声通信機器において、自ユーザの位置情報が変更された場合、更新された自ユーザの位置情報に応じて複数ユーザの位置情報を更新し、更新された自ユーザの位置情報を管理サーバへ送信し、管理サーバは更新された自ユーザの位置情報に応じて原型位置情報を更新し、更新された原型位置情報を複数の音声通信機器に送信する。音声通信機器は更新された原型位置情報に応じて仮想空間を表示し、更新された原型位置情報に応じて音声の出力制御を行う。

　音声通信機器において、他ユーザの位置情報が変更された場合、更新された他ユーザの位置情報に応じて複数ユーザの位置情報を更新し、複数ユーザの位置情報を管理サーバに送信する。管理サーバは更新された他ユーザの位置情報に応じて機器別位置情報を更新する。音声通信機器は記憶された複数ユーザの位置情報に応じて仮想空間を表示し、記憶された複数ユーザの位置情報に応じて受信した音声の出力制御を行う。

　音声通信機器において、更新された原型位置情報が受信された場合であって、かつ更新された原型位置情報の受信前に他ユーザの位置情報が変更されていた場合、記憶された複数ユーザの位置情報に応じて仮想空間を表示し、記憶された複数ユーザの位置情報に応じて音声の出力制御を行う。

　また、本発明の音声通信機器は、ネットワークに接続された管理サーバと複数の音声通信機器とを含み、複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムにおける音声通信機器である。

　位置情報設定部において自ユーザの位置情報が変更された場合、記憶部は更新された自ユーザの位置情報に応じて複数ユーザの位置情報を更新する。第２の送受信部は更新された自ユーザの位置情報を管理サーバへ送信する。映像出力部は第２の送受信部が受信した更新された原型位置情報に応じて仮想空間を表示する。音声出力部は更新された原型位置情報に応じて第２の送受信部が受信した音声の出力制御を行う。

　位置情報設定部において他ユーザの位置情報が変更された場合、記憶部は更新された他ユーザの位置情報に応じて複数ユーザの位置情報を更新する。映像出力部は記憶部に記憶された複数ユーザの位置情報に応じて仮想空間を表示する。音声出力部は記憶部に記憶された複数ユーザの位置情報に応じて第２の送受信部が受信した音声の出力制御を行う。

図１は、本発明の実施の形態における管理サーバと通信機器の構成例、および他の通信機器との関係を示すブロック図である。図２は、本発明の実施の形態における位置情報の変更操作を説明するイメージ図である。図３は、本発明の実施の形態における仮想空間の例を示すイメージ図である。図４は、本発明の実施の形態における仮想空間の他の例を示すイメージ図である。図５Ａは、本発明の実施の形態における位置情報データの設定方法の例を示すイメージ図である。図５Ｂは、本発明の実施の形態における位置情報データの設定方法の例を示すイメージ図である。図５Ｃは、本発明の実施の形態における位置情報データの設定方法の例を示すイメージ図である。図６は、本発明の実施の形態におけるユーザ情報及び位置情報の登録するための動作の１例を示すフローチャートである。図７は、本発明の実施の形態における位置情報の変更登録するための動作の１例を示すフローチャートである。図８は、本発明の実施の形態における電子会議の音声通信を行うための動作の１例を示すフローチャートである。図９は、従来例における電子会議システムの構成を示すブロック図である。図１０Ａは、従来例における仮想空間の表示例を示すイメージ図である。図１０Ｂは、従来例における仮想空間の表示例を示すイメージ図である。図１０Ｃは、従来例における仮想空間の表示例を示すイメージ図である。図１０Ｄは、従来例における仮想空間の表示例を示すイメージ図である。図１１は、従来例における音声到達領域の設定例を示すイメージ図である。図１２は、従来例における希望しないユーザによる会話状態を示すイメージ図である。

　（実施の形態）
　以下、本発明の実施の形態における音声通信システム、音声通信方法及び音声通信機器について、図面を参照しながら説明する。ここでは音声通信システム、音声通信方法及び音声通信機器の一形態としての電子会議システム、音声通信方法及び音声通信機器としての通信機器を例に説明する。音声通信システムは、ネットワークに接続された管理サーバと複数の音声通信機器とを含み、複数の音声通信機器間で仮想空間を用いて音声通信を行う。

　図１は本実施の形態における管理サーバ１０１と通信機器１１０の構成例、および他の通信機器１１０ａ、１１０ｂ、１１０ｃとの関係を示すブロック図である。管理サーバ１０１は、第１の送受信部としての送受信部１０２、制御部１０３、ユーザ情報管理部１０４、仮想空間管理部１０５を備えている。

　また、通信機器１１０は、第２の送受信部としての送受信部１１１、制御部１１２、映像生成部１１３、映像出力部１１４、音声生成部１１５、音声出力部１１６、音声入力部１１７、撮影部１１８、位置情報設定部１１９、記憶部１２０を備えている。

　ネットワーク１００には、通信機器１１０とともに電子会議に参加する他の通信機器１１０ａ、１１０ｂ、１１０ｃが接続されている。他の通信機器１１０ａ、１１０ｂ、１１０ｃの内部の構成は、通信機器１１０と同様である。

　管理サーバ１０１の送受信部１０２はネットワーク１００と接続してデータの送受信を行う。ここでネットワーク１００は通常、構内ＬＡＮあるいはインターネットである。送受信部１０２は、ネットワーク１００の物理層との接続および通信プロトコルの処理を行う。制御部１０３は管理サーバ１０１の主要動作、すなわち電子会議を運用するための諸動作を制御する。具体的には、ネットワーク１００に送出するデータを生成したり、ネットワーク１００から受信したデータの解釈を行う。ユーザ情報管理部１０４は電子会議に参加するユーザに関する情報を管理する機能を有する。ユーザに関する情報とは、ユーザが使用する通信機器を識別する情報（例えばＩＰアドレス）や、仮想空間を画面に表示するときに各ユーザを表すアイコン形状やニックネームなどの情報である。仮想空間管理部１０５は電子会議が行われる仮想空間内に存在するユーザの位置情報を管理し、ユーザ間の通信の条件（通信の可否あるいは通信音量）を定めて通信に反映させる。また、仮想空間管理部１０５は複数の通信機器で共有される原型位置情報、および各通信機器が個別に変更した機器別位置情報も管理する。すなわち、仮想空間管理部１０５は、仮想空間における複数ユーザの位置情報を複数ユーザで共有する原型位置情報、及び各通信機器が個別に設定する機器別位置情報を管理する。

　通信機器１１０の送受信部１１１はネットワーク１００と接続してデータの送受信を行う。送受信部１１１は、機能的には管理サーバ１０１の送受信部１０２と同様である。したがって、詳細な説明は省略する。制御部１１２は通信機器１１０における電子会議機能の諸動作を制御する。具体的には、ネットワーク１００に送出するデータを生成したり、ネットワーク１００から受信したデータの解釈を行う。映像生成部１１３はネットワーク１００から受信した映像データをデコードして映像信号を再生する。電子会議においては仮想空間における各ユーザアイコンの存在状況や、他のユーザの顔などの動画を再生する。映像出力部１１４は再生された映像を表示し、仮想空間を表示するもので、液晶パネルやプラズマディスプレイパネルが用いられる。音声生成部１１５はネットワーク１００から受信した音声データをデコードして音声信号を再生する。電子会議においては他のユーザの声などの音声を再生する。音声出力部１１６は再生された音声を出力するもので、スピーカーやヘッドホンが用いられる。音声入力部１１７は音声入力を行う。具体的には、音声入力部１１７はマイクロホンと音声エンコーダによって構成され、ユーザの音声を集音、符号化してネットワーク１００に送出する音声データを発生させる。撮影部１１８はＣＣＤまたはＣＭＯＳの撮像素子からなる小型カメラと動画エンコーダによって構成され、ユーザの顔などの画像を撮影、符号化してネットワーク１００に送出するデータを発生させる。このように、撮影部１１８は、画像を撮影し、映像のデータを制御部１１２に出力する。位置情報設定部１１９は仮想空間におけるユーザの位置、向き、会話可能領域などの位置情報を設定するとともに、ユーザの意向に基づいて他のユーザアイコンの位置を変更する。位置変更の操作は、ＰＣで使用されるマウスや、テレビ受信機で使用されるリモコンなどの装置で行われる。記憶部１２０は、仮想空間内の複数ユーザの位置情報を記憶する。

　以上の構成において、まず、管理サーバ１０１の動作を述べる。送受信部１０２はネットワーク１００を介して複数の電子会議ユーザの通信機器（図１では通信機器１１０、１１０ａ、１１０ｂ、１１０ｃ）と接続されている。送受信部１０２は、各通信機器からの登録のための通信、および実際の電子会議のための通信を行う。送受信部１０２が、通信機器１１０、１１０ａ、１１０ｂ、１１０ｃから電子会議参加のためのユーザ情報登録データを受信すると、制御部１０３は受信したユーザ情報登録データの内容を判別し、ユーザが使用する通信機器に関する情報（例えばＩＰアドレス）や、仮想空間を画面に表示するときに各ユーザを表すアイコンやニックネームなどの情報であれば、ユーザ情報管理部１０４に出力して登録、保存させる。また、受信データが電子会議の行われる仮想空間内に存在するユーザの位置情報であれば、仮想空間管理部１０５に登録、保存させる。

　ユーザのニックネーム、アイコン、およびユーザの位置情報は、通信機器１１０、１１０ａ、１１０ｂ、１１０ｃに自主的に送信、あるいは通信機器１１０、１１０ａ、１１０ｂ、１１０ｃからの要求に応じて送信され、各ユーザにおいて共有される。これにより各ユーザは、どのようなユーザが仮想空間内に参加し、かつその仮想空間の中でどのような位置関係で存在しているのかを映像出力部１１４の画面で把握することができる。

　通信機器１１０、１１０ａ、１１０ｂ、１１０ｃの間で実際の電子会議が行われ、そのための音声データ、あるいは映像・音声データの通信が行われると、制御部１０３はその送信元の通信機器を検出し、仮想空間管理部１０５で保管されている情報に基づいて、会話可能な相手先の通信機器に中継を行う。これによって、仮想空間内で会話可能な領域に存在している通信機器１１０、１１０ａ、１１０ｂ、１１０ｃの間でのみ、会話が可能となる。

　次に、通信機器１１０の動作について述べる。送受信部１１１はネットワーク１００を介して管理サーバ１０１と接続され、自身の通信機器１１０に関する情報を登録するための通信、および実際の電子会議のための通信を行う。電子会議を行うための入力部分としては、音声入力部１１７でユーザの音声を集音し、ユーザの音声を入力する。また、撮影部１１８でユーザの画像を撮影し、ユーザの映像を入力する。出力部分としては、音声生成部１１５と音声出力部１１６で他のユーザの音声を再生する。また映像生成部１１３と、映像出力部１１４で他のユーザの映像を再生する。これらの映像、音声の入出力は制御部１１２で制御される。

　一方、ユーザの位置情報の設定、および与えられた仮想空間における他のユーザの位置情報の変更は位置情報設定部１１９で行われる。

　位置情報設定部１１９における他のユーザの位置変更について説明する。図２は、本発明の実施の形態における位置情報の変更操作を説明するイメージ図である。図２は、映像出力部１１４の画面の一例を示している。この画面は、仮想空間の一例を示すイメージ図である。図２で、通信機器１１０を操作するユーザ自身の位置がユーザアイコン６０で示され、他のユーザがユーザアイコン６０ａ、６０ｂ、６０ｃで示されているとき、ユーザアイコン６０ｂの声は聞きたくない、あるいは音量を下げたい場合に、図２のように点線丸の位置まで移動させて遠ざける。逆にユーザアイコン６０ｃの声はもっとよく聞きたい場合は、点線三角形の位置まで移動させて近づける。

　なお、仮想空間は、図２のように単なる矩形上の平面が一般的であるが、例えば図３のように、ホールやスタジアムの観客席の設定になっていてもよい。図３は、本発明の実施の形態における仮想空間の例を示すイメージ図である。図３でＡ、Ｂ、Ｃ、Ｄは座席の行番号、１～１０は列番号を示している。

　さらに、図４のような仮想のスタジアム１５０の全体を共有する仮想空間とすることも可能である。図４は、本発明の実施の形態における仮想空間の他の例を示すイメージ図である。このような場合、通信機器１１０を操作するユーザ自身の位置がユーザアイコン６０で示され、ユーザアイコン６０ｃは友人、ユーザアイコン６０ａや６０ｂは、そのスタジアムで行われているスポーツの解説者であるような応用も可能である。図４ではユーザアイコン６０ａの解説者の解説は聞きやすくし、ユーザアイコン６０ｂの解説者の解説は聞こえないようにした場合を想定した内容に描いている。

　仮想空間における各ユーザアイコンの位置情報のデータ化は、もっとも一般的にはＸＹ座標における座標値で指定することで得られる。図５Ａ、５Ｂ、５Ｃにそのようにしてデータ化された位置情報の例を示す。図５Ａ、５Ｂ、５Ｃは、本発明の実施の形態における位置情報データの設定方法の例を示すイメージ図である。図５Ａ、５Ｂに示すように、図２、図３、図４と同様に、通信機器１１０を操作するユーザアイコン６０、他のユーザアイコン６０ａ、６０ｂ、６０ｃの位置がそれぞれＸＹ座標として与えられており、この座標データを管理サーバ１０１および通信機器１１０、１１０ａ、１１０ｂ、１１０ｃが共有することにより、全てのユーザが同じ仮想空間に存在している実感を持つことができる。また、図５Ｃに示すように、ユーザアイコン６０と他のユーザアイコン６０ａ、６０ｂ、６０ｃとの距離も数学的に簡単に算出され、その結果を所有することができる。この距離に応じて、管理サーバ１０１および通信機器１１０、１１０ａ、１１０ｂ、１１０ｃは、会話の可否あるいは会話の音量レベルを定めることになる。

　具体的には、ユーザアイコン６０と他のユーザアイコン６０ａ、６０ｂ、６０ｃとの距離について、所定の閾値を設定する。例えば、会話の可否を決定する会話の可否閾値を「４」とする。すなわち、その距離が、「４」以下では、ユーザ間で会話ができるものとする。一方、その距離が、「４」を超える場合、ユーザ間で会話はできないものとする。このようにして、発声到達領域を設定できる。また、会話の音量レベルは、ユーザアイコン６０と他のユーザアイコン６０ａ、６０ｂ、６０ｃとの距離に比例して設定するとしてもよい。なお、複数の所定値を設定し、各所定値以下の場合、一定の音量レベルを設定してもよい。すなわち、位置情報は、少なくともユーザの仮想空間内における位置と、発声到達領域とを含み、音声出力部１１６は、発声到達領域に応じて音声通信可否及び音量を制御する。

　また、位置情報は、少なくともユーザの仮想空間内における位置を含むので、音声通信を行うユーザ間の相対的な方向関係を容易に算出できる。したがって、音声出力部１１６は、音声を制御して、音声が送られてくる方向と位置がユーザに認識できるようにステレオ音声を、ユーザの仮想空間内における位置に応じて左右の音声の位相差と音量を制御しながら出力してもよい。音声がステレオ化されることにより、ユーザは、音声が送られてくる方向を認識できる。すなわち、音声が送られてくる方向と位置を認識できるようにするために、音声出力部１１６は、ステレオ化された左右の音声の位相差と音量を制御する。

　さらにまた、図２で示したような移動中のユーザの音声を送る場合、音声出力部１１６は、ユーザの移動速度を認識できるようにステレオ化された左右の音声の周波数と音量を位置に応じて動的に制御してもよい。上記したような制御は、音源である音声をＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）などにより信号処理することにより、容易に実現できる。なお、ＤＳＰは、図１に示した音声出力部１１６に含まれるが、制御部１０３、１１２や音声生成部１１５のいずれかにも含むことができる。

　次に、図６、図７、図８を用いて本実施の形態における電子会議システムの動作を説明する。図６は、本発明の実施の形態におけるユーザ情報及び位置情報を登録するための動作の１例を示すフローチャートである。まず、通信機器１１０で、ステップＳ１０１において、送受信部１１１が自身のユーザ情報及び位置情報を管理サーバ１０１に送信する。ユーザ情報とは、前述したようにユーザ名（ニックネーム等のユーザを識別するための情報）、ユーザを仮想空間画面上で特徴付けるアイコン図形、ユーザが使用する通信機器の機器識別情報（代表的にはＩＰアドレス）である。位置情報とは、前述したように仮想空間におけるユーザの位置、向き、会話可能領域などである。

　管理サーバ１０１はステップＳ１０２において、受信したユーザ情報をユーザ情報管理部１０４に登録、保管する。また、管理サーバ１０１は、受信した位置情報を原型位置情報として仮想空間管理部１０５に登録、保管する。

　管理サーバ１０１は複数の通信機器からのユーザ情報及び位置情報を登録すると、ステップＳ１０３において既に保管している全てのユーザ情報及び原型位置情報を通信機器１１０に送信する。

　ステップＳ１０４において、通信機器１１０は送受信部１１１から受信した複数のユーザ情報を、受信した原型位置情報に応じて映像出力部１１４で表示する。ユーザはこの表示を見ることによって、その時点での電子会議へのユーザの顔ぶれを知ることができる。なお、アイコン図形は撮影部１１８で撮影したユーザの画像情報であってもよい。そして、通信機器１１０の音声出力部１１６は更新された原型位置情報に応じて送受信部１１１から受信した音声の出力制御を行う。

　図７は、本発明の実施の形態における仮想空間内の位置情報を変更登録するための動作の１例を示すフローチャートである。ここでは位置情報の初期状態は既にすべての通信機器１１０、１１０ａ、１１０ｂ、１１０ｃで共有されているものとする。まず、通信機器１１０側で、ステップＳ２０１において仮想空間における各ユーザアイコンの配置状態表示を見て、ユーザは、特定のユーザを選択する。そして、特定のユーザの位置を変更する操作を位置情報設定部１１９が行う。このとき変更された特定のユーザの位置情報は記憶部１２０に記憶される。次に、同じく通信機器１１０側で、ステップＳ２０２において、変更された位置情報を管理サーバ１０１に送信する。管理サーバ１０１は、ステップＳ２０３において受信した変更位置情報を機器別位置情報として保存する。

　前述の説明で分かるように、管理サーバ１０１においては、保存する仮想空間内の位置情報は複数存在する。すなわち、すべての通信機器１１０、１１０ａ、１１０ｂ、１１０ｃで共有される原型位置情報、および各通信機器が個別に変更した機器別位置情報である。当然のことながら、機器別位置情報は通信機器ごとに異なるので、参加している通信機器の台数分保存することになる。原型位置情報の更新は、各通信機器が自身（自ユーザ）のユーザアイコンの位置を修正した場合にのみ行われる。この場合、更新された原型位置情報は、改めて管理サーバ１０１から通信機器１１０、１１０ａ、１１０ｂ、１１０ｃに送信される。すなわち、位置情報設定部１１９において自ユーザの位置情報が変更された場合、記憶部１２０は更新された自ユーザの位置情報に応じて複数ユーザの位置情報を更新する。送受信部１１１は更新された自ユーザの位置情報を管理サーバ１０１へ送信する。また、仮想空間管理部１０５は更新された自ユーザの位置情報に応じて原型位置情報を更新する。そして、第１の送受信部としての送受信部１０２は、更新された原型位置情報を複数の音声通信機器に送信する。映像出力部１１４は更新された原型位置情報に応じて仮想空間を表示する。音声出力部１１６は更新された原型位置情報に応じて送受信部１１１から受信した音声の出力制御を行う。

　一方、機器別位置情報の更新は、各通信機器が自身以外のユーザアイコンの位置を変更した場合に行われる。この場合、更新された機器別位置情報は、該当通信機器内部の記憶部と管理サーバ１０１においてのみ更新される。すなわち、位置情報設定部１１９において他ユーザの位置情報が変更された場合、記憶部１２０は更新された他ユーザの位置情報に応じて複数ユーザの位置情報を更新する。そして、仮想空間管理部１０５は更新された他ユーザの位置情報に応じて機器別位置情報を更新する。また、映像出力部１１４は記憶部１２０に記憶された複数ユーザの位置情報に応じて仮想空間を表示する。音声出力部１１６は記憶部１２０に記憶された複数ユーザの位置情報に応じて送受信部１１１から受信した音声の出力制御を行う。

　次に、以上の操作を経て実際の音声会議通信を行うための動作について説明する。図８は、本発明の実施の形態における電子会議の音声通信を行うための動作の１例を示すフローチャートである。まず、管理サーバ１０１は、ステップＳ３０１において、他の通信機器からの音声データを受信する。次に管理サーバ１０１は、ステップＳ３０２において、仮想空間管理部１０５に保存されている機器別位置情報を参照して、送信元の通信機器が会話可能な送信先の通信機器を検出し、該当の通信機器を特定する。検出結果によっては、該当の送信先が存在しない場合、１台のみの場合、複数の場合が起こりうる。この後、ステップＳ３０３において、所定の送信先通信機器に音声データを中継送信する。

　通信機器１１０側では、ステップＳ３０４において、音声データを受信し、送信元の通信機器を識別して該当する位置情報を参照する。この後、ステップＳ３０５において、前述の位置情報に応じて、すなわち自身の位置との距離に応じて再生音量を制御し、音声出力部１１６から出力する。

　なお、第２の送受信部としての送受信部１１１において更新された原型位置情報が受信された場合であって、かつ更新された原型位置情報の受信前に位置情報設定部１１９において他ユーザの位置情報が変更されていた場合、映像出力部１１４は記憶部１２０に記憶された複数ユーザの位置情報に応じて仮想空間を表示する。音声出力部１１６は記憶部１２０に記憶された複数ユーザの位置情報に応じて音声の出力制御を行う。

　また、管理サーバ１０１も機器別位置情報を保存しているので、通信機器ごとに音量調節した音声データを個別に送信するようにしてもよい。しかし、送信先の通信機器が複数あることが一般的である。したがって、管理サーバ１０１の処理負担を減らすためには、音量調節は個々の通信機器側で行うのが好ましい。

　以上の構成と処理フローによって、ユーザにとって使い勝手の良い電子会議システムが実現できるが、以下の点でさらに改良を行うことができる。ユーザアイコンの位置変更操作は、各通信機器で個別に実行することができるので、変更された側のユーザにはその変更が伝わらない。あるユーザの通信機器の表示では会話可能な距離にある他の通信機器が、実際には相手側の個別設定操作で距離が離れているために、会話が不可能な状態となっている場合が起こる。こちらからは呼びかけているのに、反応がない場合に原因不明となりシステムの誤動作とみなされる可能性がある。そこで、相手側の変更設定によって会話範囲外となった場合には、仮想空間内位置情報の表示画面において、その相手側通信機器のユーザアイコンに特有の表示（例えば色を変えたり、表示を点滅させたりする）を行って、その相手側通信機器で位置変更操作が行われたことを知らせてもよい。すなわち、他ユーザの位置情報が変更された場合、他ユーザの位置情報が変更されたことを表示してもよい。言い換えると、第１の通信機器が第２の通信機器の位置情報を変更した場合、第２の通信機器の映像出力部は、第１の通信機器が変更を行ったことを示す表示を行う。このようにすることにより、ユーザは、相手側の変更設定によって会話範囲外となった場合にも、原因不明なシステムの誤動作と勘違いをすることがなくなる。

　以上の説明では、各ユーザの使用する装置は通信機器と記載したが、専用の装置である必要はなく、例えばＰＣが利用できることはもちろん、インターネット接続による双方向通信機能を内蔵したデジタル放送受信装置でもよい。デジタル放送受信装置では、元来、表示機能や音声再生機能が備わっているので、電子会議システムの通信機器として有用である。

　また、通信機器１１０、１１０ａ、１１０ｂ、１１０ｃにおける音声入力は、マイクロホンによる実音声の集音を想定して記載したが、文字入力手段によるテキスト入力を音声合成で出力する場合でも同様に適用できることは言うまでもない。

　また、本実施の形態では、管理サーバ１０１を複数の通信機器とは別に設けているが、通信機器１１０、１１０ａ、１１０ｂ、１１０ｃのいずれかに管理サーバ１０１の機能を持たせる構成であってもよい。

　更に、本実施の形態では、位置情報をＸＹ座標の２次元としているがＸＹＺ座標の３次元であってもよい。

　本発明は、複数のユーザがネットワーク経由で会話できる電子会議システムにおいて、仮想空間内でのユーザの位置関係の調整をさらに柔軟性を高めて行えるようにしたものであり、企業用の実用的な打合せ目的だけでなく、一般個人が趣味や娯楽の目的で参加する仮想空間内の日常会話の場の提供サービスにも利用可能である。

　１００　　ネットワーク
　１０１　　管理サーバ
　１１０，１１０ａ，１１０ｂ，１１０ｃ　　通信機器
　１０２　　送受信部（第１の送受信部）
　１１１　　送受信部（第２の送受信部）
　１０３，１１２　　制御部
　１０４　　ユーザ情報管理部
　１０５　　仮想空間管理部
　１１３　　映像生成部
　１１４　　映像出力部
　１１５　　音声生成部
　１１６　　音声出力部
　１１７　　音声入力部
　１１８　　撮影部
　１１９　　位置情報設定部
　１２０　　記憶部
　１５０　　仮想のスタジアム

Claims

ネットワークに接続された管理サーバと複数の音声通信機器とを含み、前記複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムであって、
前記管理サーバは、
前記ネットワークに接続するための第１の送受信部と、前記仮想空間における前記複数ユーザの位置情報を前記複数ユーザで共有する原型位置情報、及び各通信機器が個別に設定する機器別位置情報を管理する仮想空間管理部と、を備え、
前記音声通信機器は、
前記ネットワークに接続するための第２の送受信部と、前記仮想空間を表示する映像出力部と、音声入力を行う音声入力部と、音声出力を行う音声出力部と、前記仮想空間における前記複数ユーザの位置情報を設定する位置情報設定部と、前記仮想空間内の前記複数ユーザの位置情報を記憶する記憶部と、を備え、
　　前記第２の送受信部は、前記位置情報を管理サーバに送信し、
　　前記管理サーバは、受信した前記位置情報を前記原型位置情報として前記仮想空間管理部に登録し、
　　前記管理サーバは、前記原型位置情報を前記通信機器に送信し、
　　前記音声出力部は前記原型位置情報に応じて前記第２の送受信部から受信した音声の出力制御を行い、
前記位置情報設定部において自ユーザの位置情報が変更された場合、
　　前記記憶部は更新された前記自ユーザの位置情報に応じて前記複数ユーザの位置情報を更新し、
　　前記第２の送受信部は更新された前記自ユーザの位置情報を前記管理サーバへ送信し、
　　前記仮想空間管理部は更新された前記自ユーザの位置情報に応じて前記原型位置情報を更新し、
　　前記第１の送受信部は、更新された前記原型位置情報を複数の前記音声通信機器に送信し、
　　前記映像出力部は更新された前記原型位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は更新された前記原型位置情報に応じて前記第２の送受信部から受信した音声の出力制御を行い、
前記位置情報設定部において他ユーザの位置情報が変更された場合、
　　前記記憶部は更新された前記他ユーザの位置情報に応じて前記複数ユーザの位置情報を更新し、
　　前記仮想空間管理部は更新された前記他ユーザの位置情報に応じて前記機器別位置情報を更新し、
　　前記映像出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記第２の送受信部から受信した音声の出力制御を行い、
前記第２の送受信部において更新された前記原型位置情報が受信された場合であって、かつ更新された前記原型位置情報の受信前に前記位置情報設定部において他ユーザの位置情報が変更されていた場合、
　　前記映像出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて音声の出力制御を行う、
音声通信システム。
前記位置情報は、少なくとも前記ユーザの前記仮想空間内における位置と、発声到達領域とを含み、
前記音声出力部は、前記発声到達領域に応じて音声通信可否及び音量を制御する請求項１に記載の音声通信システム。
前記音声通信機器は、画像を撮影し、映像を入力する撮影部を更に備える請求項１に記載の音声通信システム。
第１の通信機器が第２の通信機器の位置情報を変更した場合、前記第２の通信機器の映像出力部は、前記第１の通信機器が前記変更を行ったことを示す表示を行う請求項１に記載の音声通信システム。
前記位置情報は、少なくとも前記ユーザの前記仮想空間内における位置を含み、
前記音声出力部は、前記位置に応じてステレオ化された左右の音声の位相差と音量を制御する請求項１に記載の音声通信システム。
前記位置情報は、少なくとも前記ユーザの前記仮想空間内における位置を含み、
前記音声出力部は、前記位置に応じてステレオ化された左右の音声の周波数と音量を制御する請求項１に記載の音声通信システム。
ネットワークに接続された管理サーバと複数の音声通信機器とを含み、前記複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムにおける音声通信方法であって、
　　前記音声通信機器は、自ユーザの位置情報を前記管理サーバに送信し、
　　前記管理サーバは、受信した前記位置情報を原型位置情報として仮想空間管理部に登録し、
　　前記管理サーバは、前記原型位置情報を前記音声通信機器に送信し、
　　前期音声通信機器は、前記原型位置情報に応じて受信した音声の出力制御を行い、
前記音声通信機器において、前記自ユーザの位置情報が変更された場合、
　　更新された前記自ユーザの位置情報に応じて複数ユーザの位置情報を更新し、
　　更新された前記自ユーザの位置情報を前記管理サーバへ送信し、
　　前記管理サーバは、更新された前記自ユーザの位置情報に応じて前記原型位置情報を更新し、
　　更新された前記原型位置情報を複数の前記音声通信機器に送信し、
　　前記音声通信機器は、更新された前記原型位置情報に応じて前記仮想空間を表示し、
　　更新された前記原型位置情報に応じて受信した音声の出力制御を行い、
前記音声通信機器において、他ユーザの位置情報が変更された場合、
　　更新された前記他ユーザの位置情報に応じて前記複数ユーザの位置情報を更新し、前記複数ユーザの位置情報を前記管理サーバに送信し、
　　前記管理サーバは、更新された前記他ユーザの位置情報に応じて機器別位置情報を更新し、
　　前記音声通信機器は、記憶された複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　記憶された複数ユーザの位置情報に応じて受信した音声の出力制御を行い、
前期音声通信機器において、更新された前記原型位置情報が受信された場合であって、かつ更新された前記原型位置情報の受信前に前記他ユーザの位置情報が変更されていた場合、
　　記憶された前記複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　記憶された前記複数ユーザの位置情報に応じて音声の出力制御を行う
音声通信方法。
前記位置情報は、少なくとも前記ユーザの前記仮想空間内における位置と、発声到達領域を含み、
前記発声到達領域に応じて音声通信可否及び音量を制御する
請求項７に記載の音声通信方法。
前記他ユーザの位置情報が変更された場合、前記他ユーザの位置情報が変更されたことを表示する
請求項７に記載の音声通信方法。
ネットワークに接続された管理サーバと複数の音声通信機器とを含み、前記複数の音声通信機器間で仮想空間を用いて音声通信を行う音声通信システムにおける音声通信機器であって、
前記音声通信機器は、
前記ネットワークに接続するための第２の送受信部と、前記仮想空間を表示する映像出力部と、音声入力を行う音声入力部と、音声出力を行う音声出力部と、前記仮想空間における前記複数ユーザの位置情報を設定する位置情報設定部と、前記仮想空間内の前記複数ユーザの位置情報を記憶する記憶部と、を備え、
前記位置情報設定部において自ユーザの位置情報が変更された場合、
　　前記記憶部は更新された前記自ユーザの位置情報に応じて前記複数ユーザの位置情報を更新し、
　　前記第２の送受信部は更新された前記自ユーザの位置情報を前記管理サーバへ送信し、
　　前記映像出力部は前記第２の送受信部が受信した更新された前記原型位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は更新された前記原型位置情報に応じて前記第２の送受信部が受信した音声の出力制御を行い、
前記位置情報設定部において他ユーザの位置情報が変更された場合、
　　前記記憶部は更新された前記他ユーザの位置情報に応じて前記複数ユーザの位置情報を更新し、
　　前記映像出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記第２の送受信部が受信した音声の出力制御を行い、
前記第２の送受信部において更新された前記原型位置情報が受信された場合であって、かつ更新された前記原型位置情報の受信前に前記位置情報設定部において他ユーザの位置情報が変更されていた場合、
　　前記映像出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて前記仮想空間を表示し、
　　前記音声出力部は前記記憶部に記憶された前記複数ユーザの位置情報に応じて音声の出力制御を行う、
音声通信機器。
前記位置情報は、少なくとも前記ユーザの前記仮想空間内における位置と、発声到達領域を含み、
前記音声出力部は、前記発声到達領域に応じて音声通信可否及び音量を制御する請求項１０に記載の音声通信機器。
画像を撮影し、映像を入力する撮影部を更に備える請求項１０に記載の音声通信機器。