WO2021220494A1

WO2021220494A1 - 通信端末装置、通信方法、およびソフトウェアプログラム

Info

Publication number: WO2021220494A1
Application number: PCT/JP2020/018345
Authority: WO
Inventors: 塁佐藤
Original assignee: 塁佐藤
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-04
Also published as: EP4145397A1; JPWO2021220494A1; US20230164304A1; EP4145397A4

Abstract

通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得し、所定のユーザ空間上にある物体の三次元データを形成可能にする視覚情報を取得し、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定し、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達し、ユーザ空間を固定的に配置した第１仮想空間と他装置のユーザ空間が固定的に配置された第２仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示し、他装置から伝達された音声伝達情報に基づいて音声を出力する。

Description

通信端末装置、通信方法、およびソフトウェアプログラム

　本発明は、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置に関する。

　遠隔でのコミュニケーションの手段として、汎用的なパーソナルコンピュータ等で行うウェブ会議、専用の機器を用いるテレビ会議、スマートフォン等で利用可能なビデオ通話がある。いずれも遠隔地にいる相手を主に正面から撮影した映像を平面の画面に表示し、音声で通話を行うというものである。そのため、実際に同じ空間にいて対面で会話をしているような感覚は得にくい。これに対して、仮想空間を共有してコミュニケーションの質を高める様々な技術が提案されている。

　特許文献１には、複数のメンバーが同一の空間を共有する遠隔会議システムが開示されている。特許文献１の遠隔会議システムは、サーバ装置と複数のクライエント装置から構成される。クライエント装置は、ユーザが装着する、加速度センサおよびディスプレイ装置を有するヘッドセットと、赤外線センサと撮像手段と収音手段とを有する３次元形状取得センサと、を有する。サーバ装置は、クライエント装置から送信された深度信号を用いてユーザの動作解析を行い、動作解析に基づくＣＧ（コンピュータグラフィック）を生成し、実物体データを表示し、拡張現実空間を合成し、合成した拡張現実空間の情報をクライエント装置に送信する。クライエント装置は、サーバ装置から受信した拡張現実空間情報に基づいて、ヘッドセットのディスプレイ装置に画像を表示し、スピーカに音声信号を出力する。また、特許文献１には、ＣＧの形状情報に、予め取得しておいた顔のテクスチャを張り付けることも開示されている。

　特許文献２には、仮想空間を複数のユーザで共有し、各ユーザの実空間における位置と仮想空間における位置を対応させる技術が開示されている。特許文献２に開示された仮想空間共有システムは、離れた場所にいる複数のユーザのそれぞれの場所における位置情報と視界情報を検出する手段と、その位置情報および視界情報を送信し、各ユーザ宛てに送信された仮想空間情報をそれぞれ受信するユーザ制御手段と、各ユーザの位置情報および視界情報を受信し、複数のユーザで共有する１つの仮想空間内で各ユーザの位置情報に応じた位置に各ユーザを表す仮想オブジェクトを配置し、各ユーザの位置情報および視界情報に応じた各ユーザの視点からそれぞれ対応する仮想空間を表示する仮想空間情報を生成し、各ユーザ宛てに送信する情報処理手段と、各ユーザごとにそれぞれのユーザ制御手段に受信した仮想空間情報を入力し、各ユーザの視点から見た仮想空間を表示する表示手段とを備える。

　特許文献３には、仮想現実空間共有システムにおいて通信負荷を低減する技術が開示されている。特許文献３に開示された技術は、第１ユーザによって使用される第１端末と第２ユーザによって使用される第２端末との間で仮想現実空間を共有する仮想現実空間共有システムにおいて、前記第１端末に表示するための仮想現実空間画像を生成する画像生成装置が、前記第２端末から仮想現実空間における前記第２ユーザの位置と視線方向とを含む視線情報を取得する視線情報取得部と、前記第２端末からの前記視線情報に基づいて前記第１端末に表示するための仮想現実空間画像を生成する画像生成部と、前記画像生成部によって生成された前記仮想現実空間画像を前記第１端末へ供給する画像供給部と、を備える。また、特許文献３には、仮想現実空間に相手ユーザの代わりにアバター等のオブジェクトを表示し、そのオブジェクトの顔の向きを相手ユーザの顔の向きと一致させることが開示されている。

特開２０１５－１８４９８６号公報特開２００２－１４９５８１号公報特開２０１７－０７８８９１号公報

　人と人とが対面で行うコミュニケーションによる意思疎通や信頼関係構築などにおいて、お互いの動作、姿勢、表情、顔色、視線などが非言語（ｎｏｎ－ｖｅｒｂａｌ）の情報伝達手段として重要な役割を果たすと言われている。仮想空間を共有して行うコミュニケーションにおいてもこれら非言語情報の伝達が重要となる。

　しかし、特許文献１の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバター等のＣＧの画像、あるいは予め取得しておいた顔のテクスチャを相手ユーザの形状に張り付けた画像となる。特許文献２の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザは仮想オブジェクトとなる。特許文献３の技術では、複数のユーザが共有する仮想空間に現れる相手ユーザはアバターとなる。そのため、特許文献１～３の技術を用いたコミュニケーションは、非言語の情報伝達が十分とは言えなかった。

　また、特許文献１～３のいずれにおいても、ヘッドマウントディスプレイを頭に装着することは、ユーザにとって不快であると共に、対面での会話と異なる違和感を与えるものである。

　本発明の目的は、遠隔地にいるユーザ同士の良好な対話を実現する技術を提供することである。

　本開示のひとつの態様による通信端末装置は、自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、ユーザ空間の視覚情報に基づいて自ユーザの視点位置を特定する人物捕捉部と、ユーザ空間の視覚情報に基づく画像伝達情報と、音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、ユーザ空間を固定的に配置した第１仮想空間と他装置のユーザ空間が固定的に配置された第２仮想空間とを所定の相対位置および相対角度で配置した共有仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する画像表示部と、他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、を有する。

　本開示のひとつの態様によれば、遠隔地にいるユーザ同士の良好な対話を実現する通信端末装置を提供できる。

実施形態による通信システムのブロック図である。実施形態による通信端末装置のブロック図である。画像を表示する処理について説明するための概念図である。表示面に共有仮想空間の画像が表示された様子を示す図である。表示面に表示される画像の変化の様子を示す図である。実施例１による通信端末装置のブロック図である。実施例１による通信端末装置の概略平面図である。実施例１の通信端末装置の概略斜視図である。実施例１における画像表示処理のフローチャートである。実施例１における配置指定画面の一例を示す図である。複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。他の構成による遠隔会議の様子を示す概念図である。更に他の構成による遠隔会議の様子を示す概念図である。点群を加工した画面が表示面に表示された様子を示す概念図である。実施例３による通信端末装置のブロック図である。実施例３による通信端末装置の概略平面図である。実施例３の通信端末装置の概略斜視図である。実施例４による通信端末装置のブロック図である。実施例４による通信端末装置の概略平面図である。実施例４の通信端末装置の概略斜視図である。実施例４における画像表示処理のフローチャートである。実施例５による通信端末装置のブロック図である。実施例５による通信端末装置の概略平面図である。実施例５の通信端末装置の概略斜視図である。実施例５における配置指定画面の一例を示す図である。複数のユーザが共有スペースでの対面による対話が擬似的に実現された様子を示す概念図である。実施例６による通信端末装置のブロック図である。実施例６による通信端末装置の概略平面図である。実施例６の通信端末装置の概略斜視図である。実施例６のユーザから得られる視界を示す概念図である。

　以下、本発明の実施形態について図面を参照して説明する。

　図１は、本実施形態による通信システムのブロック図である。通信システム１は、複数の通信端末装置１０を備えている。通信システム１は、遠隔にいる複数のユーザ９１があたかも同じ空間で対面で対話しているような体験を再現するシステムである。複数の通信端末装置１０は、基本的に同様の構成および機能を備え、通信ネットワーク９０を介して相互に接続可能である。

　なお、ここでは、ある通信端末装置１０に着目し、その通信端末装置１０を自装置と称し、その自装置を用いるユーザ９１を自ユーザと称し、自装置と異なる通信端末装置１０を他装置と称し、他装置を用いるユーザ９１を他ユーザと称する場合がある。他装置は１つ以上であればよく、複数であってもよい。

　図２は、本実施形態による通信端末装置のブロック図である。通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６とを有する。

　本実施形態では、通信端末装置１０を用いているユーザ９１が存在するであろう実空間の所定の範囲をユーザ空間とし、そのユーザ空間内でユーザ９１が動くことを想定している。

　音声取得部１１は、ユーザ空間にいるユーザ９１の声を含む音声を取得する。例えば、音声取得部１１は、不図示のマイクロフォンを備え、マイクロフォンにより音声の情報を取得する。

　視覚情報取得部１２は、ユーザ空間にある物体の三次元データを生成可能にする視覚情報を取得する。三次元データは、三次元空間上の三次元オブジェクトを表現するデータであればよく、特に具体的手法は限定されない。ユーザ空間にある物体には、通信端末装置１０を用いているユーザ９１が含まれうる。視覚情報は、例えば画像の情報および深度の情報を含む。また、視覚情報は、例えば３０～６０ｆｐｓ（ｆｒａｍｅｓ　ｐｅｒ　ｓｅｃｏｎｄ）といった所定のフレームレートで取得される。視覚情報取得部１２は、不図示のイメージセンサおよび不図示の深度センサを備え、イメージセンサにより画像をリアルタイムで取得し、深度センサにより深度をリアルタイムで取得してもよい。

　人物捕捉部１３は、視覚情報取得部１２で取得されたユーザ空間の画像および／または深度に基づいて、ユーザ９１の視点位置を特定する。ここで視点とは眼球がある位置のことである。視点位置は、三次元空間上の位置であり、例えば、三軸の直交座標系の座標で表すことができる。例えば、人物捕捉部１３は、画像および／または深度の情報に基づいてユーザ空間内の人物をリアルタイムで検出し、更に、検出された人物の頭部を特定し、その頭部の中央をユーザ９１の視点位置とする。なお、視点位置は、ユーザ９１の視点の位置あるいはユーザ９１の視点とみなすことができる位置であればよく、本実施形態の例に限定されない。顔認識処理または人物認識処理により認識された顔の領域の中央、あるいは認識された両目の中央をユーザ９１の視点位置としてもよい。

　情報伝達部１４は、視覚情報取得部１２で取得されたユーザ空間の画像および深度に基づく画像伝達情報と、音声取得部１１で取得された音声に基づく音声伝達情報とを、他装置に伝達する。

　画像伝達情報は、他装置の画像表示部１５による画像の再生を可能にする情報である。画像伝達情報は、例えば、視覚情報取得部１２で取得されたままの画像および深度の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、人物の特徴点のみの画像および深度の情報を含んでいてもよい。特徴点は、ユーザ９１の顔および身体の特徴点であり、例えば、腕の関節の位置、眼の位置、口の位置などを示す。これらの特徴点の情報から人物の姿勢、動作、および表情の再現が可能となる。

　音声伝達情報は、他装置の音声出力部１６による音声の出力を可能にする情報である。音声伝達情報は、例えば、音声取得部１１で取得されたままの音声の情報を含んでいてもよいし、それらを圧縮した情報を含んでいてもよいし、それらの一部が削減された情報を含んでいてもよいし、それらを加工した情報をふくんでいてもよい。

　画像表示部１５は、自装置のユーザ空間を固定的に配置した第１仮想空間と、他装置のユーザ空間が固定的に配置された第２仮想空間とを所定の相対位置に配置した共有仮想空間を形成し、その仮想空間に対して相対位置が固定された表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザの視点位置から見える共有仮想空間の画像を表示する。なお、自装置で取得された視覚情報に基づき他装置の表示面に表示する画像を生成する処理を行う物理的実体が存在する場所は特に限定されない。当該処理を、自装置にて行っても良いし、他装置にて行ってもよいし、自装置と他装置の間でクラウドコンピューティングにより行ってもよい。

　自ユーザの視点位置が人物捕捉部１３によりリアルタイムで更新され、画像表示部１５は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を表示面に表示する。その結果、表示面には運動視差を有する映像が映し出される。

　画像が表示される表示面は、特に限定されず、ディスプレイ装置の画像を表示する表示面や、プロジェクタの画像が投射される表示面などを含む。表示面は、１つまたは複数の平面で構成されてもよい。表示面が矩形で平面であれば、表示面を、その表示面に含まれる点毎に三次元空間における位置により表すことをしなくても、表示面全体としての位置（例えば中心の位置）、姿勢（例えばロール角、ピッチ角、およびヨー角）、およびサイズ（例えば縦および横それぞれの長さ）により表すことができる。また、表示面は、１つまたは複数の曲面で構成されてもよい。例えば、円筒形の内面の周方向の所定角度範囲に渡る曲面であれば、円筒の断面の半径と、円筒の高さと、円の中心から見て曲面がひろがる角度範囲とにより、一意に決まる。また、他の例として、球形の内面の所定角度範囲に渡る曲面であれば、球の半径と、球の中心から見た角度範囲（ロール角、ピッチ角、およびヨー角）により、一意に決まる。曲面の表示面は、一般に、その表示面に含まれる各点の三次元空間における位置で表すことができる。更に、表示面は、１つまたは複数の曲面と、１つまたは複数の平面とを含んで構成されてもよい。

　このように、自ユーザにとって共有仮想空間上の他ユーザがそこに存在するかのように錯覚させるべく確からしく自然な画像に見えるような処理として、本実施形態では、他装置から伝達された画像および深度の情報に基づいて共有仮想空間の三次元オブジェクトのデータ（以下、三次元データ）を生成し、表示面に表示する画像を生成するとき、三次元データに定義された共有仮想空間における三次元オブジェクトを表示面、すなわち二次元の面に投影させるような射影変換を行う。ただし、同様な効果を得る他の処理手法を用いてもよい。他の処理手法の例として、共有仮想空間を基準座標空間とし、その基準座標空間において三次元データの各点をその各点と視点位置とを結ぶ直線が表示面と交わる点に投影するという手法がある。また、表示面に表示する画像を生成する他の処理方法として、経験則に従った特定の行列や数値の四則演算処理を、画像や画像がもつ三次元パラメータに対して行うことにしてもよい。

　図３は、画像を表示する処理について説明するための概念図である。図３には、第１仮想空間２１と、第２仮想空間３１と、共有仮想空間４１とが上方から見た平面図により示されている。図３には、図に表す都合で、空間が平面で示されているが、高さ方向にも広がっている。

　画像表示部１５は、自装置のユーザ空間２２を固定的に配置した第１仮想空間２１を定義する。図３の例では、視覚情報取得部１２が、画像を取得するイメージセンサと深度を取得する深度センサを一体的に構成した撮像器４０を有するものとし、ユーザ空間２２は撮像器４０の画角範囲に拡がる空間としている。ただし、ユーザ空間２２の大きさおよび形状は特に限定されない。第１仮想空間２１の大きさおよび形状は特に限定されない。第１仮想空間２１の大きさは無限大であってもよい。自装置のユーザ空間２２には、人物捕捉部１３により特定された自ユーザ２３の視点位置２４が存在する。

　また、画像表示部１５は、他装置のユーザ空間３２を固定的に配置した第２仮想空間３１を定義する。第２仮想空間３１の大きさおよび形状も特に限定されない。第２仮想空間３１の大きさは無限大であってもよい。図３の例では、第２仮想空間３１と第１仮想空間２１は大きさおよび形状が等しい例を示している。しかし、それらは必ずしも等しくなくてもよい。他装置のユーザ空間３２には他ユーザ３３が存在し、他ユーザ３３の画像および深度は他装置により取得され、その画像および深度の情報に基づく画像伝達情報が自装置に伝達される。

　画像表示部１５は、第１仮想空間２１と第２仮想空間３１とを所定の相対位置に配置した共有仮想空間４１を定義する。ここでは、共有仮想空間４１は第１仮想空間２１と第２仮想空間３１とを重ね合わせたものとなっている。共有仮想空間４１には自ユーザ２３の視点位置２４と他ユーザ３３とが存在することになる。

　さらに、画像表示部１５は、共有仮想空間４１に対する相対位置が固定された表示面４２に、他装置から伝達された画像伝達情報に基づいて、自ユーザ２３の視点位置２４から見える共有仮想空間の画像を表示する。

　図４は、表示面に共有仮想空間の画像が表示された様子を示す図である。

　撮像器４０で取得された画像および／または深度に基づいて特定された自ユーザ２３の視点位置２４から見える共有仮想空間４１の画像が表示面４２に表示されている。自ユーザ２３からは自身の前に他ユーザ３３が居るように見える。

　なお、画像表示部１５は、互いに接続された通信端末装置１０のユーザ空間に実際に存在する物体だけでなく、複数の通信端末装置１０が共通する仮想的な物体を共有仮想空間４１に構成し、表示面にその画像を表示可能としてもよい。例えば、ある通信端末装置１０にてユーザ９１が視覚情報取得部１２の撮像器に、ある実在の物体をかざすと、視覚情報取得部１２がその物体の三次元データを取得し、複数の通信端末装置１０にて、画像表示部１５がその三次元データに基づく仮想的な物体を共有仮想空間４１上に構成することを可能にしてもよい。

　音声出力部１６は、他装置から伝達された音声伝達情報に基づいて音声を出力する。音声出力部１６は、例えば、不図示のスピーカを備え、スピーカにより音声を出力する。その際、音声出力部１６は、ステレオ方式、サラウンド方式、三次元音響方式などにより、他装置から伝達された音声伝達情報に基づく音声を、共有仮想空間４１における他ユーザのユーザ定位置が配置された方向から聞こえる音声として再現してもよい。遠隔地の複数人が仮想空間において互いの実写画像と立体音響によるコミュニケーションを行うことができる。

　図５は、表示面に表示される画像の変化の様子を示す図である。

　上述したように、人物捕捉部１３が自ユーザ２３の視点位置２４を特定し、画像表示部１５は、表示面４２に、他装置から伝達された画像伝達情報に基づいて、自ユーザ２３の視点位置２４から見える共有仮想空間の画像を表示する。したがって、図５に示すように、仮に他ユーザ３３が動かなかったとしても、自ユーザ２３の視点位置２４が変化すれば、運動視差により、表示面４２に表示される画像は変化する。例えば、自ユーザ２３は視点位置２４を正面から右方向にずらせば、他ユーザ３３の斜め左の横顔を覗き込むことも可能である。

　以上説明したように、本実施形態によれば、通信端末装置１０は他の通信端末装置１０と仮想空間を共有し、その仮想空間に相対位置が固定された表示面４２に、その仮想空間を共有している他ユーザ３３の実写の姿を自ユーザ２３の視点位置２４から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。

　なお、図２に示した音声取得部１１、視覚情報取得部１２、情報伝達部１４、人物捕捉部１３、音声出力部１６、および画像表示部１５が実行する処理をソフトウェアプログラムにより規定し、メモリおよびプロセッサを有するコンピュータがそのソフトウェアプログラムを実行することにしてもよい。

　以下、より具体的な実施例について説明する。

　実施例１では、複数のユーザが同じ会議室で対面で行う会議を模擬的に実現する遠隔会議システムを例示する。実施例１の遠隔会議システムは基本的な構成は図１～図４に示した実施形態による通信システム１と同じである。

　図６は、実施例１による通信端末装置のブロック図である。本実施例による通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６と、配置指定受付部１７とを有する。音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、および音声出力部１６は、基本的に、図２に示した実施形態のものと同様である。配置指定受付部１７は、共有仮想空間４１に対する自装置のユーザ空間２２および他装置のユーザ空間３２の配置をユーザ９１からの指定により受け付け、他装置と共有する。本実施例では、視覚情報取得部１２が３つの撮像器４０Ａ、４０Ｂ、４０Ｃを備え、画像表示部１５が３つの表示器４２Ａ、４２Ｂ、４２Ｃを備えている。本実施例では、視覚情報取得部１２および画像表示部１５は、配置指定受付部１７により受け付けられた配置に基づき、後述する動作を行う。

　図７は、実施例１による通信端末装置の概略平面図である。図８は、実施例１の通信端末装置の概略斜視図である。

　図７に示すように、実施例１では、ユーザ空間２２における所定の位置をユーザ定位置５１とし、そのユーザ定位置５１から所定の方向をユーザ定方向５２とする。例えば、ユーザ定位置５１は通信端末装置１０を用いているユーザ９１が主に存在するであろう位置である。例えば、ユーザ定方向５２は、通信端末装置１０を用いているユーザ９１が主に向いているであろう方向である。

　図８に示すように、表示器４２Ａ～４２Ｃはいずれも矩形で平面の表示面を有し、表示面をユーザ定位置５１に向けて配置された表示装置である。表示器４２Ｂは、ユーザ定位置５１から見てユーザ定方向５２に配置される。表示器４２Ｃは、ユーザ定位置５１から見てユーザ定方向５２の右側に配置される。表示器４２Ａは、ユーザ定位置５１から見てユーザ定方向５２の左側に配置される。表示器４２Ａ～４２Ｃはいずれも表示面をユーザ定位置５１に向けて配置される。表示器４２Ｃは、表示器４２Ｂと互いの表示面同士で９０°以上１８０°未満の角度が好ましく、本実施例では９０°で、表示器４２Ｂの右辺に近接しているが、ユーザが快適に本装置を利用できる限りにおいて９０°未満の角度で配置されていてもよい。表示器４２Ａは、表示器４２Ｂと互いの表示面同士で９０°以上１８０°未満の角度が好ましく、本実施例では９０°で、表示器４２Ｂの左辺と近接しているが、ユーザが快適に本装置を利用できる限りに９０°未満の角度で配置されていてもよい。また、表示器４２Ａ～４２Ｃはいずれも水平面に対して９０°で立たせた例を示しているが、水平面に対して０°～１８０°の間で角度をつけてもよい。

　撮像器４０Ａ～４０Ｃは、それぞれがユーザ定位置５１との相対位置が固定され、ユーザ定方向５２に対する相対方向が固定されて、互いに隔離して、撮像方向をユーザ定位置５１に向けユーザ空間２２の少なくとも一部が撮像されるように配置されている。好ましくは、撮像器４０Ｂは、表示器４２Ｂの表示面の上辺の中央近傍に配置される。撮像器４０Ａは、表示器４２Ａの表示面の上辺、あるいは表示器４２Ａの表示面の左辺に配置される。撮像器４０Ｃは、表示器４２Ｃの表示面の上辺、あるいは表示器４２Ｃの表示面の右辺に配置される。本実施例では、図８に示すように、撮像器４０Ａは表示器４２Ａの表示面の左辺に配置され、撮像器４０Ｃは表示器４２Ｃの表示面の右辺に配置されている。

　図９は、実施例１における画像表示処理のフローチャートである。画像表示処理は、自装置が他装置との相互通信による遠隔会議を実現する処理であり、主に情報伝達部１４、画像表示部１５、および配置指定受付部１７により実行される。

　まず、ステップＳ１０１にて、配置指定受付部１７は、共有仮想空間４１に対する自装置および他装置の配置の指定を受け付ける。自装置の表示器４２Ａ～４２Ｃおよび撮像器４０Ａ～４０Ｃに対してユーザ空間２２およびユーザ定位置５１が固定的に定義され、他装置の表示器４２Ａ～４２Ｃおよび撮像器４０Ａ～４０Ｃに対してユーザ空間３２および他装置のユーザ定位置が固定的に定義されているので、共有仮想空間４１に対する自装置および他装置の配置を受け付けることにより、共有仮想空間４１に対するユーザ空間２２、３２と、ユーザ定位置５１と、他装置のユーザ定位置との配置を決定できる。

　このとき、配置指定受付部１７は、例えば、自装置に対応するオブジェクトと他装置に対応するオブジェクトを移動可能に配置できる共有空間を上方から見た平面図による配置指定画面を表示器４２Ｂの表示面に表示し、平面図に対して指定されたオブジェクトの位置に基づいて、共有仮想空間４１に対するユーザ空間２２、３２の配置の指定を受け付けることにしてもよい。

　図１０は、実施例１における配置指定画面の一例を示す図である。配置指定画面６０には会議室領域６１と決定ボタン６３が含まれている。会議室領域６１は、仮想的な会議室に相当する共有仮想空間４１を模した平面図である。会議室領域６１には、会議に参加する各メンバーが利用する通信端末装置１０に相当するオブジェクトである机アイコン６２が配置されている。机アイコン６２は、例えばマウス操作あるいは表示器４２Ｂへのタッチ操作や後述するジェスチャ操作により移動させたり固定させたりできる。会議室領域６１の形状および大きさを変更できるようにしてもよい。ここでは一例として会議室領域６１が共有仮想空間４１を模したものとしているので、会議室領域６１の形状および大きさに応じて共有仮想空間４１の形状および大きさを決定してもよい。決定ボタン６３が押下されると、そのときの会議室領域６１に対する机アイコン６２の配置に基づいて、共有仮想空間４１における各通信端末装置１０のユーザ空間２２、３２、ユーザ定位置５１、および他装置のユーザ定位置の配置が決定される。

　複数人が向かい合う会議の場面がある。交渉などで複数人対複数人で向かい合う会議の典型的な形態がある。１人対１人、１人対複数人など様々な配置が可能であるが、図１０の例では、６人のユーザが３人対３人で対向する配置が例示されている。また、ここでは、Ｘ社に所属するＡさん、Ｂさん、Ｃさんと、Ｙ社に所属するＤさん、Ｅさん、Ｆさんとが向かい合って配置されているが、この所属と配置の関係は例示である。

　また、ここでは、配置指定受付部１７は、ユーザ９１が机アイコン６２を自由に移動させて配置を指定する例を示したが、他の例も可能である。例えば、配置指定受付部１７が配置の指定を補助してもよいし、配置指定受付部１７が配置を自動で設定あるいは提案してもよい。

　配置指定受付部１７が配置の指定を補助する場合、典型的な複数の配置構成のパターンを予め用意しておき、ユーザ９１にいずれかを選択させることにしてもよい。配置指定受付部１７は、例えば、最初に会議に参加するユーザの人数が入力されると、その人数に対応するパターンをユーザに提示し、いずれかを選択させることにしてもよい。

　また、配置指定受付部１７が配置を自動で設定あるいは提案する場合、例えば、この会議が何らかの発表を行う場である場合に、メインプレゼンターは、会議参加者全員からよく見える位置（図１０の例では、Ｘ社Ｂさん、Ｙ社Ｅさんの位置）に配置されるようにしてもよい。また、例えば、会議での発言量の多寡でメインプレゼンターを特定し、配置を設定することにしてもよい。

　本実施例では、互いに平行な２つの直線のそれぞれの上に複数の通信端末装置１０のユーザ定位置５１を配置し、各直線上の通信端末装置１０のユーザ定方向５２を他方の直線に垂直に向かう方向とすることで実現できる。なお、ここでユーザ定位置５１の直線上への配置は厳密な位置決めを意味するものではなく、またユーザ定方向５２の直線への垂直な方向づけは厳密な方向決めを意味するものではない。どちらも複数の通信端末装置１０のユーザが会議において机を横に並べている状態が模擬できる程度でよい。

　ステップＳ１０２にて、情報伝達部１４は、共有仮想空間における自装置の撮像器４０Ａ～４０Ｃの撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置とを結ぶ直線との相対角度に基づいて、他装置のユーザ定位置の所定範囲内（例えばユーザ空間）から自装置のユーザ定位置の所定範囲内（例えばユーザ空間）にある物体を見たときに見える部分の画像が取得されるように撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。

　情報伝達部１４は、共有仮想空間４１において自装置のユーザ定位置５１からユーザ定方向５２の右側に他装置のユーザ定位置が配置される場合には、右側にある撮像器４０Ｃによる情報を含み、左側にある撮像器４０Ａによる情報を含まない画像伝達情報を他装置に送信すればよい。また、情報伝達部１４は、共有仮想空間４１において自装置のユーザ定位置５１からユーザ定方向５２の左側に他装置のユーザ定位置が配置される場合には、左側にある撮像器４０Ａによる情報を含み右側にある撮像器４０Ｃによる情報を含まない画像伝達情報を他装置に送信すればよい。

　例えば、自ユーザ２３がＸ社のＡさんであり、他ユーザ３３がＹ社のＦさんであるという組合せに着目すると、自装置の左側にある撮像器４０Ａで取得されるＸ社のＡさんの画像および深度のデータがなくても、他装置においてＹ社のＦさんの視点位置から見える範囲のＸ社のＡさんの画像を生成することができる。そのため、Ｘ社のＡさんが用いる自装置の情報伝達部１４は、撮像器１４Ｂと撮像器１４Ｃで取得される画像および深度のデータに基づく画像伝達情報を、Ｙ社のＦさんが用いる他装置に伝達する。また、自ユーザ２３がＸ社のＡさんであり、他ユーザ３３がＸ社のＢさんであるという組合せに着目すると、自装置の左側にある撮像器４０Ａで取得されるＸ社のＡさんの画像および深度のデータがなくても、他装置においてＸ社のＢさんの視点位置から見える範囲のＸ社のＡさんの画像を生成することができる。Ｘ社のＡさんが用いる自装置の情報伝達部１４は、撮像器１４Ｂと撮像器１４Ｃで取得される画像および深度のデータに基づく画像伝達情報を、Ｘ社のＢさんが用いる他装置に伝達する。

　なお、ここでは、情報伝達部１４は、複数の撮像器４０Ａ～４０Ｃのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に基づいて撮像器を選択する処理を例示したが、他の例も可能である。例えば、情報伝達部１４は、複数の撮像器４０Ａ～４０Ｃのうち、その撮像器の撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置を結ぶ直線との相対角度に加え、他装置の表示面の位置、角度、および大きさに基づいて、撮像器を選択することにしてもよい。その場合、情報伝達部１４は、他装置のユーザ定位置の所定範囲内（例えばユーザ空間）から他装置の表示面を介して自装置のユーザ定位置の所定範囲内（例えばユーザ空間）にある物体を見たときに見える部分の画像が取得されるように撮像器を選択してもよい。なお、ここでは、自ユーザの情報伝達部１４が通信ネットワーク９０へ送る画像伝達情報をあらかじめ選択してから送る例を示したが、この方法に限らない。情報伝達部１４は一度すべての撮像器から得られた画像伝達情報を通信ネットワーク９０上のサーバに送信した後に、このサーバ側で画像伝達情報を取捨選択する処理を行って他ユーザに送る方式をとってもよい。また、ステップＳ１０２における送信データの選択は必ず行うものではなく、データ通信帯域が十分確保でき、ネットワーク上のデータ量の削減が不要な環境下においてはこのステップをスキップしてもよい。

　次に、ステップＳ１０３にて、画像表示部１５は、表示器４２Ａ、４２Ｂ、４２Ｃの表示面に、他装置から伝達された画像伝達情報に基づいて、自ユーザ２３の視点位置２４から見える共有仮想空間４１の画像を表示する。共有仮想空間４１には各ユーザのユーザ空間２２、３２が固定的に配置されているので、自ユーザ２３の視点位置２４からは、その配置に応じた位置にいる他ユーザが見える。

　図１１は、複数のユーザが同じ会議室で対面で行う会議が模擬的に実現された遠隔会議の様子を示す概念図である。図１１には、図１０に示した配置が模擬的に実現された例が示されている。画像表示部１５は、互いに平行な第１直線と第２直線のそれぞれの上に自装置および他装置のうち少なくとも１つの装置のユーザ定位置５１を配置し、第１直線上にユーザ定位置が配置された装置のユーザ定方向５２を第１直線に対して垂直に第２直線に向かう方向とし、第２直線上にユーザ定位置５１が配置された装置のユーザ定方向５２を第２直線に対して垂直に第１直線に向かう方向とするように、共有仮想空間を形成すればよい。

　図１１における手前側には、Ｘ社のＡさんとＢさんとＣさんが直線上に横に並び奥を向いている。奥側には、Ｙ社のＤさんとＥさんとＦさんが直線上に横に並び手前を向いている。Ａさん、Ｂさん、Ｃさん、Ｄさん、Ｅさん、Ｆさんは、実際にはそれぞれ異なる場所で通信端末装置１０を用いている。それぞれのユーザの通信端末装置１０の表示器４２Ａ～４２Ｃには、図１１に示した配置で、それぞれのユーザの視点位置から見える共有仮想空間４１の画像が表示される。それにより、全てのユーザは、図１１に示したような配置で会議室に机を並べた６人で会議しているときのそれぞれの座席からの視界が得られる。

　次に、ステップＳ１０４にて、配置指定受付部１７は、共有仮想空間４１に対する自装置および他装置の配置を変更する要求があるか否か判定する。配置の変更の要求があれば、配置指定受付部１７は、ステップＳ１０１に戻り配置の指定を受け付ける。

　自ユーザあるいは他ユーザは、図１０に例示した配置指定画面６０に対する操作により、会議室に相当する共有仮想空間４１の形状および大きさと、会議室における各ユーザの配置に相当する共有仮想空間４１に対するユーザ空間の配置を変更することができる。

　図１２は、他の構成による遠隔会議の様子を示す概念図である。図１２の例では、実際にはそれぞれ異なる場所で通信端末装置１０を用いているＸ社のＡさん、Ｂさん、Ｃさんが、共有仮想空間４１において円卓を囲むように対面している。画像表示部１５は、所定の円上もしくは多角形状に自装置および他装置のユーザ定位置５１を配置し、自装置および他装置のユーザ定方向を円もしくは多角形の中心に向かう方向とするように、共有仮想空間４１を形成すればよい。

　図１３は、更に他の構成による遠隔会議の様子を示す概念図である。図１３の例では、実際にはそれぞれ異なる場所で通信端末装置１０を用いているＸ社のＡさん、Ｂさん、Ｃさんが、共有仮想空間４１において、互いに横に並んで、画像の共有が可能な画像画面６５を向いている。画像表示部１５は、所定の直線上に自装置および他装置のユーザ定位置５１を配置し、自装置および他装置のユーザ定方向を直線に対して垂直な同一方向とするように、共有仮想空間４１を形成すればよい。複数のユーザが横並びになって、一緒に仮想空間上の巨大スクリーンに投影された映像を見ることができる。例えば、通信端末装置１０に接続したパーソナルコンピュータ上の映像や、撮影現場で取得された映像をリアルタイムでストリーミング再生された映像などである。また、共有仮想空間をユーザ全員が内側に包含されるような広さの球体として定義し、その球体の内側にストリーミング再生中もしくは撮影済みの３６０°映像を貼り付けることで空間全体を共有しながら一緒に見るという利用が可能である。なお、図１３の画像画面６５は、複数の通信端末装置１０が共通する仮想的な物体として共有仮想空間４１に構成し、表示面にその画像を表示したものである。図１３の例では、画像画面６５には、Ｃさんのパーソナルコンピュータ６８に表示されている画像が表示されている。

　ステップＳ１０４にて配置の変更の要求がなければ、ステップＳ１０５にて、画像表示部１５は、遠隔会議の終了の要求があるか否か判定する。遠隔会議の終了の要求がなければ、画像表示部１５はステップＳ１０３に戻る。遠隔会議の終了の要求があれば、通信端末装置１０は遠隔会議を終了する。

　本実施例によれば、自装置と他装置の仮想空間を重ね合わせて共有し、その仮想空間に相対位置が固定された表示面に、その仮想空間にいる他ユーザの実写の姿を自ユーザの視点位置から見えるように表示するので、遠隔地の複数人が共有する仮想空間において互いの実写の画像を見ながら行う良好なコミュニケーションが実現される。

　また、本実施例によれば、３つの撮像器４０Ａ～４０Ｃのうち、撮像方向と、他装置のユーザ定位置と自装置のユーザ定位置５１を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、その撮像器で取得された視覚情報に基づく画像伝達情報を、その他装置に送信することもできるので、自装置から他装置に送信する画像伝達情報が削減され、ネットワーク上のデータ量を低減することもできる。

　また、本実施例によれば、図７、図８に示したように、表示面がユーザ定位置５１を囲むように配置されるので、共有仮想空間４１を広い角度範囲で表示する構成をコンパクトな占有スペースにより実現することができる。

　また、本実施例によれば、画面上で平面図の中で会議室の机を動かす感覚で自装置と他装置の位置関係を容易に設定することができる。

　また、本実施例において、画像表示部１５は、他装置から伝達された画像および深度の情報に基づいて、第２仮想空間の物体を点群もしくはポリゴンメッシュで表す共有仮想空間４１の三次元データを生成し、生成した三次元データに基づいて、自ユーザ２３の視点位置２４から見える共有仮想空間４１の画像を表示面に表示することにしてもよい。その際、画像表示部１５は、点群の点を加工可能にしてもよい。例えば、画像表示部１５は、三次元データにおける自ユーザの手前側にある三次元オブジェクトが表現された点の表示サイズを小さくすることにより、その三次元オブジェクトを半透明に表示し、後ろにある三次元オブジェクトも見えるようにしてもよい。点群により表示される人物を半透明に加工することにより、人物の顔あるいは体による非言語情報を残しつつ人物の背後の情報も伝達することができる。例えば、文字を書いている手を半透明にし、書いているときに手で隠れている文字を見えるようにすることで、手の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。また、例えば、文字を書いている人物を半透明にし、書いているとき人物の姿に隠れている文字を見えるようにすることで、人物の動きによる非言語情報と書かれた文字の情報を同時に伝えることができる。図１４は、点群を加工した画面が表示面に表示された様子を示す概念図である。図１４には、表示器４２Ａ、４２Ｂ、４２Ｃの表示面に、点群を加工して半透明に表示された他ユーザ３３の背景にある仮想空間上のホワイトボード３５の文字が見えている様子が示されている。ここでは、点群の点の表示サイズを変化させる加工を例示したが、他の様々な加工も可能である。例えば、点群を構成する各点の色を変えたり、表示する点をまびいたり、各点を特定の形状をもった立体オブジェクトに置換するなどしたうえで描画させる加工も可能である。こうした加工により、例えば、外殻形状だけを維持した単色の人物に変換し、化粧をしていない女性ユーザの使用や、表情や着衣物を特定されない目的での使用にあわせた人物表現が可能となる。また、伝達するデータ量の削減および実写画像によるリアルな表現を避けるために人体の顔以外の部分について、取得された画像および／または深度情報から計算によって求められた骨格を表す情報に対し、仮想的な３ＤＣＧオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工も可能である。あるいは、顔以外、もしくは顔と片手以外は描画させないなど、骨格を表す情報をもとに表示するユーザの体の部位を選択的に表示することも可能である。加えて、あるユーザが注目されるように、ユーザの周囲に光をまとわせて目立たせたり、一方で、あるユーザ以外が注目されないように、各点を視点位置に応じた背景色に近い色で適切に着色することで背景に溶け込むようにさせて目立たせなくする加工、いわゆる光学迷彩を実装することも可能である。

　また、本実施例では、人物捕捉部１３が常時継続的にユーザ９１の視点位置２４を特定し、画像表示部１５が、その視点位置２４を追跡して、その視点位置２４から見える共有仮想空間４１の画像を表示器４２Ａ～４２Ｃの表示面に表示する例を示した。この構成は、ユーザ９１が動いたときに運動視差によりユーザ９１に視覚的に臨場感を与えるものである。しかし、会議などの場面では、ユーザ９１の視点位置２４の動きが大きくないことがある。そのような場合を考慮すると、ユーザ９１の視点位置２４を常時追跡しない構成も可能である。

　他の例として、画像表示部１５は、人物捕捉部１３でユーザ９１の視点位置２４を一旦特定したら、視点位置２４を固定してそこから見える共有仮想空間４１の画像を表示器４２Ａ～４２Ｃの表示面に表示することにしてもよい。例えば、事前のセンシング動作において、ユーザ９１に自然な姿勢を採らせ、その間に、人物捕捉部１３が視点位置２４を特定することにしてもよい。あるいは、人物捕捉部１３が一定時間の間に視点位置２４の特定を複数回実行し、その平均値を平均視点位置とし、画像表示部１５は、平均視点位置から見える共有仮想空間４１の画像を表示器４２Ａ～４２Ｃの表示面に表示することにしてもよい。あるいは、人物捕捉部１３は一定時間の間はユーザ９１の視点位置２４を継続的に算出し、画像表示部１５が、その視点位置２４を追跡して、その視点位置２４から見える共有仮想空間４１の画像を表示器４２Ａ～４２Ｃの表示面に表示し、その間に、人物捕捉部１３が平均視点位置を算出し、画像表示部１５が人物捕捉部１３により特定される視点位置２４から平均視点位置に所定時間をかけて収束させることにしてもよい。

　さらに他の例として、画像表示部１５は、予め基準視点位置を定めておき、基準指定位置から見える共有仮想空間４１の画像を表示器４２Ａ～４２Ｃの表示面に表示することにしてもよい。その場合、人物捕捉部１３がユーザ９１の視点位置２４を特定する処理は不要となる。基準視点位置として、例えば、標準的な体格の人物が通信端末装置１０を用いるとき視点位置を用いてもよい。あるいは、通信端末装置１０を用いた複数のユーザの視点位置を測定し、その平均値を基準指定位置として用いることにしてもよい。このような計算や定義により固定された視点位置は、各ユーザが通信ネットワーク９０に接続した際に通信ネットワーク９０上のサーバに保存された情報を読み込むこと、もしくは、自ユーザの通信端末装置に保存された情報を読み込むことで、以前に本装置を使用した際に決定した視点位置を再度使うことにしてもよい。

　なお、本実施例の通信端末装置１０は、例えば、１人用の会議ブースを構成する。この会議ブースは同じ部屋に複数配置される可能性がある。また、在宅ワークのために会議ブースが個人の住宅に配置される可能性もある。そのような場合には、ユーザ９１の声が周囲に漏れないように騒音対策が採られることが好ましい。そこで、音声出力部１６は、イヤホン、ネックスピーカーなどにより音声を出力できるものであってもよい。また、音声出力部１６は、ユーザ定位置５１に向かう指向性を有するスピーカーを有するものであってもよい。さらに、通信端末装置１０は、消音スピーカーにより周囲に漏れるユーザ９１の音声を低減するものであってもよい。さらに、音声出力部１６からの出力を完全に切り、他ユーザからの声は音声出力部１６からの出力の代わりに、音声認識技術により文字化されて画像表示部１５に出力されてもよい。

　また、本実施例では、画像表示部１５が３つの表示器４２Ａ～４２Ｃを備える例を示したが、他の構成も可能である。例えば、画像表示部１５は、表示器４２Ａ～４２Ｃに加え、表示器４２Ａ、４２Ｂ、４２Ｃの底辺に近接して配置され矩形の上面に表示面を有する表示器をさらに備えてもよい。さらに、画像表示部１５は、表示器４２Ａ、４２Ｂ、４２Ｃの天井方向の辺に近接して配置され矩形の下面に表示面を有する表示器を備えてもよい。そのいずれの場合も、画像表示部１５は、リアルタイムで更新される自ユーザの視点位置の情報を用い、リアルタイムの視点位置から見える共有仮想空間の映像を４つの表示器の表示面に表示する。図１３に示したように各装置のユーザ定位置５１およびユーザ定方向５２を配置して複数のユーザが一緒にスクリーン映像を見るという利用形態において、共有仮想空間の映像を下面や上面まで視野が広がる視野でみることができる。また、通信端末装置１０はアプリケーションソフトウェアを実行可能なコンピュータの機能を持ち、例えば、上面に表示面を有する表示器の表示面にアプリケーションソフトウェアの画面を表示してもよい。その場合に、その表示器をタッチパネル式ディスプレイとし、ユーザ９１によるアプリケーションソフトウェアの操作を受け付けてもよい。なお、ここで記載した上面に表示面を有する表示器および下面に表示面を有する表示器の配置は、水平面に対して０°から１８０°までの角度で配置されていてもよい。

　また、本実施例では、撮像器４０Ａが表示器４２Ａの表示面の上辺あるいは左辺に配置され、撮像器４０Ｃが表示器４２Ｃの表示面の上辺あるいは表示面の右辺に配置される例を示した。しかし、本構成に限定されることはない。他の例として、撮像器４０Ａが表示器４２Ａの表示面の上辺と表示器４２Ｂの表示面の上辺が互い隣接する位置に配置され、撮像器４０Ｃが表示器４２Ｃの表示面の上辺と表示器４２Ｂの表示面の上辺が互いに隣接する位置に配置されてもよいし、それら表示器の辺の直上や近接した位置でなくともよい。撮像器４０Ａ～４０Ｃを配置する目的は自ユーザ２３のイメージ画像および深度情報を自ユーザの全体像を取得できるように広く取得するため、もしくは、自ユーザの顔の表情や掌など特定部位をより高解像度で取得するためであり、その目的に合わせて、撮像器４０Ａ～４０Ｃはそれぞれユーザ定位置５１に対し遠ざけるように配置されていてもよいし、近づけるように配置されていてもよい。また、各撮像器と各表示器とは直接もしくは接続具などを介して間接的に接続されていなくとも、それらの相対位置や相対角度が固定される方法であれば、例えば、画像表示部１５が固定的に配置されている室内の床に立たせた固定金具や天井からつるされた固定金具などに各表示器が固定されていてもよい。

　また、本実施例の通信端末装置１０は、外部接続端子を有し、その外部接続端子にパーソナルコンピュータを接続し、パーソナルコンピュータから制御できてもよい。通信端末装置１０は、音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、音声出力部１６、および配置指定受付部１７に関する制御を受け付けるための制御用データを外部接続端子から出力し、それに対する制御情報を外部接続端子から入力する。例えば、配置指定受付部１７は、図１０に示した配置指定画面６０のデータを外部接続端子を介してパーソナルコンピュータに出力し、机アイコン６２を移動させるなどの制御情報をパーソナルコンピュータから外部接続端子を介して取得し、取得した制御情報に基づいて共有仮想空間４１に対するユーザ空間２２、３２の配置の指定を受け付けてもよい。また、画像表示部１５は、パーソナルコンピュータから外部接続端子を介して取得される制御情報に基づいて、図１３に例示した画像画面６５を共有仮想空間４１に構成し、表示面にその画像を表示することにしてもよい。外部接続端子は、一例として、有線ＬＡＮ端子やＵＳＢ端子である。制御情報はパーソナルコンピュータと通信端末装置１０との間で直接やりとりされる、もしくは、通信ネットワーク９０上のサーバを介してやりとりされる。このとき物理的な接続端子でなくとも無線ＬＡＮやＢｌｕｅｔｏｏｔｈ等による無線接続であってもよい。またほかの例としてＨＤＭＩ（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）（ＨＤＭＩは登録商標）の通信規格に従う端子である。制御情報は、ＨＤＭＩキャプチャ情報の中に挿入して伝送される。また、いずれの場合においても、パーソナルコンピュータから通信端末装置１０への一方的な制御信号の送信、すなわち通信端末装置１０からパーソナルコンピュータへの制御データが送られない状況での制御であってもよい。

　また、本実施例の通信端末装置１０は、ユーザ９１がジェスチャにより制御できてもよい。通信端末装置１０は、手を用いた所定の動作（以下、制御動作という）と、音声取得部１１、視覚情報取得部１２、情報伝達部１４、画像表示部１５、音声出力部１６、および配置指定受付部１７に関する所定の制御とを予め対応付けたジェスチャ設定情報を格納しておく。人物捕捉部１３が捕捉した人物の動作を監視し、人物が制御動作を行ったことを検知すると、ジェスチャ設定情報にて制御動作に対応付けられている制御を、音声取得部１１、視覚情報取得部１２、情報伝達部１４、画像表示部１５、音声出力部１６、または配置指定受付部１７に指示する。
　一例として、複数の通信端末装置１０が共有する仮想的な物体として共有仮想空間４１に構成し、表示面にその画像を表示した物体を移動させる操作について述べる。ジェスチャ設定情報には、物体に手をかざすという第１制御動作とその物体を選択された状態にするという第１制御とが対応づけられ、物体に向けて握った手を移動するという第２制御動作とその物体を共有仮想空間４１内で移動させるという第２制御とが対応付けられている。視覚情報取得部１２で取得される視覚情報に基づいて人物捕捉部１３が第１制御動作を検知する。人物捕捉部１３で第１制御動作が検知されると、画像表示部１５は物体を選択された状態にする。このとき、人物捕捉部１３は、共有仮想空間４１上での視点位置２４と開いた手の中央位置とを結ぶ直線上あるいは、肘や肩関節など体の特定部位の関節位置と手の中央位置とを結ぶ直線上、あるいはそのどちらかの直線の近傍にある物体をユーザ４１が選択した物体であると判断し、画像表示部１５は、その物体を選択された状態にする。例えば、物体を例えば色、光、影などによる強調表示することにより、その物体が選択されたことを表してもよい。第１制御動作が検知されたことあるいは物体が選択状態になったことは、情報伝達部１４から他装置に通知されてもよい。その状態で、人物捕捉部１３が第２制御動作を検知すると、画像表示部１５は共有仮想空間４１上でその物体を移動させる。このとき、画像表示部１５は、第１制御動作が検知された後に第２制御動作が検知されたら物体を移動させるが、第１制御動作が検知されずに第２制御動作が検知されたときには物体を移動させない。共有仮想空間４１で物体が移動したことは、画像伝達情報により他装置にも伝わり、他装置の表示においても物体が移動する。なお、ここでは仮想的な物体の移動を例示したが、ジェスチャにより移動する物体は特に限定されない。例えば、図１３に示した画像画面６５を移動させたり、サイズ、位置、角度を変化させたりするものとしてもよい。

　また、本実施例では、通信端末装置１０は、１つの視点位置２４から見た共有仮想空間４１の画像を表示面に表示するものとしたが、この例に限定されることはない。変形例として、通信端末装置１０は、左右の眼の視差を与えた共有仮想空間４１の２つの画像（以下、それぞれを左眼用画像、右眼用画像という）からなる画像を表示することにしてもよい。画像表示部１５は、画像を表示面に表示する表示装置と、ユーザ９１が着用する三次元眼鏡装置とを有する。画像表示部１５は、左眼用画像および右眼用画像を生成し、表示面に表示する。三次元眼鏡装置は、左眼用画像をユーザ９１の左眼に見せ、右眼用画像をユーザ９１の右眼に見せる。左右の眼に視差を持たせることで、画像に立体感を与え、より高い臨場感および没入感をユーザ９１に与えることができる。なお、左右の眼に視差を有する画像を見せる手法は特に限定されない。例えば、アナグリフ式であってもよいし、偏光式であってもよいし、液晶シャッター式であってもよい。なお、一般に三次元眼鏡はヘッドマウントディスプレイのように不安感や不快感を与えることはない。

　なお、本実施例では、自装置と他装置とで全く同じ共有仮想空間４１を共有する例を示したが、これに限定されることはない。他の例として、共有仮想空間４１に対する自装置のユーザ空間２２および他装置のユーザ空間３２の配置を自装置と他装置とで異ならせてもよい。例えば、各装置の表示器の配置やサイズを考慮してユーザ９１にとって違和感ない範囲で、自ユーザから他ユーザの表情や動作が見えやすいように、それぞれに配置を調整してもよい。自装置と他装置とで異なる配置の共有仮想空間４１を用いる場合には、各装置が用いる配置の情報すべての装置で共有し、それぞれの装置が他のそれぞれの装置に視覚情報を送信すべき撮像器を選択することしてもよい。あるいは、各装置が他の各装置にどの方向から撮像された視覚情報が欲しいかを指定し、各装置は各装置へ当該装置が指定した方向から撮像した視覚情報を送ることにしてもよい。

　また、本実施例では、通信端末装置１０が、顔部分についてはリアルタイムの実写画像を表示する例を示したが、この例に限定されることはない。他の例として、送信側の装置からはユーザ９１の心理状態を受信側の装置に通知し、受信側の装置では通知された心理状態に基づいて表示するユーザの表情を加工することにしてもよい。自装置の情報伝達部１４は、自装置の人物捕捉部１３が自ユーザの表情から自ユーザの心理状態を推定する。例えば、自ユーザが、喜んでいる状態、怒っている状態、悲しんでいる状態、楽しんでいる状態、会話内容に合意している状態、合意していない状態、理解できていない状態のいずれであるかを推定する。自装置の情報伝達部１４は、人物捕捉部１３で推定された心理状態の情報を、顔部分の画像の代わりに、画像伝達情報として受信側の装置に送信する。受信側の装置では、通知された心理状態の情報に基づいて、送信側のユーザの顔部分の画像を生成し、表示する。これによれば、相手の心理という可視化しづらい定性的な情報を可視化でき、より戦略的に有効なコミュニケーションを実現するための補助となりうる。また、装置間で伝達するデータ量を削減することができる。

　また、さらに他の例として、送信側の装置がユーザ９１の所望により、ユーザ９１の視覚情報における顔の表情をユーザ９１が所望する心理状態を表す表情に加工可能にしてもよい。自装置の人物捕捉部１３は、ユーザ９１から所望の心理状態の指定を受けると、ユーザ９１の顔の表情を指定された心理状態を表す表情に加工する。情報伝達部１４は、人物捕捉部１３で顔の表情が加工された画像伝達情報を他装置に送信する。ユーザ９１の所望により表情を加工することができるので、表情から伝わる情報をユーザ９１が意図的に利用して有効なコミュニケーションを図ることができる。

　実施例１では、通信端末装置１０は、他装置に送信すべき画像を取得する撮像器を選択し、選択した撮像器で取得される画像および深度の情報を含む画像伝達情報をその他装置に送信する。これにより、自装置から他装置へ送信する画像伝達情報のデータ量を削減している。実施例２では、更に自装置から他装置へ送信する画像伝達情報のデータ量を削減する例を示す。

　実施例２の通信システム１の構成は図１に示した実施例１のものと基本的に同じ構成である。また、実施例２の通信端末装置１０の構成は、図６～図８に示した実施例１のものと同様である。実施例２の通信端末装置１０が実行する画像表示処理は、図９に示した実施例１のものと基本的に同様である。ただし、実施例２では、ステップＳ１０２およびステップＳ１０３における具体的処理が実施例１の処理と異なる。

　ステップＳ１０２にて、実施例２では、人物捕捉部１３が、視覚情報取得部１２で取得されるユーザ空間２２の画像および／または深度に基づいて、ユーザ空間２２内に自ユーザを検出し、情報伝達部１４が、視覚情報取得部１２で取得されるユーザ空間２２の画像および／または深度の情報から検出された自ユーザの顔部分を表す情報と、自ユーザの骨格を表す情報とを生成し、それらの情報を画像伝達情報として他装置に送信する。ここで骨格を表す情報とは、人物の体勢の特定を可能にする情報であり、例えば、頭、胴、尻、肩、肘、手、膝、踵など身体の特徴的な箇所の位置を示す情報であってもよい。ここでいう人物の体勢は、ポーズや動作などを人間が目で見てコミュニケーションに役立つ非言語情報が得られる程度の人体の形態である。どの程度まで詳細で正確な体勢の特定を要するかは特に限定されない。

　ステップＳ１０３にて、実施例２では、画像表示部１５は、他装置から受信した顔部分を表す情報に基づく顔画像と、他装置から受信した骨格を表す情報に基づく人物の体勢の画像とを合成した人物を含む、共有仮想空間の３次元オブジェクトを、ユーザの視点位置に合わせて適切に２次元の画像に変換し表示器４２Ａ～４２Ｃの表示面に表示する。骨格を表す情報に基づく人物の体勢の画像は、例えば、骨格を表す情報に対し、仮想的な３ＤＣＧオブジェクトを用いて肉付けすることで、人物の姿勢や動作を表現するような加工をした画像であってもよい。

　本実施例によれば、送信側の通信端末装置１０から受信側の通信端末装置１０に撮像された全体の情報を送らなくてよいので、通信端末装置１０間で伝達するデータ量を削減することができる。また、人体の顔以外の部分は仮想的なオブジェクトで表現されるので、実写画像のリアルな表示を避けることが可能となる。

　実施例１では、図６～図８に示したように、通信端末装置が、それぞれに矩形で平面の表示面を有し表示面をユーザ定位置に向けて配置された３つの表示器を有する構成を例示した。これに対して、実施例３では、通信端末装置１０が、ユーザ定位置を囲むように湾曲した曲面の表示面を有する１つの表示器を有する構成を例示する。

　図１５は、実施例３による通信端末装置のブロック図である。本実施例による通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６と、配置指定受付部１７とを有する。音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、および音声出力部１６は、基本的に、図２に示した実施形態のものと同様である。配置指定受付部１７は、共有仮想空間４１に対する自装置のユーザ空間２２および他装置のユーザ空間３２の配置のユーザによる指定を受け付ける。

　本実施例では、実施例１と異なり、画像表示部１５が１つの表示器４２Ｂを備えている。

　図１６は、実施例３による通信端末装置の概略平面図である。図１７は、実施例３の通信端末装置の概略斜視図である。

　図１６に示すように、実施例４では、実施例１と同様に、ユーザ空間２２における所定の位置をユーザ定位置５１とし、そのユーザ定位置５１から所定の方向をユーザ定方向５２とする。例えば、ユーザ定位置５１は通信端末装置１０を用いている自ユーザ２３が存在するであろう位置である。例えば、ユーザ定方向５２は、通信端末装置１０を用いている自ユーザ２３が向いているであろう方向である。

　図１７に示すように、表示器４２Ｂはユーザ定位置５１を囲むように湾曲した曲面の表示面を有する表示装置である。より具体的には、表示器４２Ｂの表示面は、円筒形の内面の周方向の所定角度範囲（一例として１８０°）に渡る曲面である。表示器４２Ｂは、曲面のスクリーンに対して複数のプロジェクタで映像を投射する構成でもよいし、有機ＥＬディスプレイを湾曲させて配置したものであってもよい。表示器４２Ｂの表示面の左右方向の中央は、ユーザ定位置５１から見てユーザ定方向５２に配置される。

　実施例１では、図６～図８に示したように、通信端末装置が、それぞれに矩形で平面の表示面を有し表示面をユーザ定位置に向けて配置された３つの表示器と、互いに水平方向に隔離して撮像方向をユーザ定位置に向けて配置された３つの撮像器とを有する構成を例示した。これに対して、実施例４では、通信端末装置１０が、矩形で平面の表示面を有し表示面をユーザ定位置に向けた１つの表示器と、撮像方向をユーザ定位置に向けて配置された１つの撮像器とを有する構成を例示する。

　図１８は、実施例４による通信端末装置のブロック図である。本実施例による通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６と、配置指定受付部１７とを有する。音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、および音声出力部１６は、基本的に、図２に示した実施形態のものと同様である。配置指定受付部１７は、共有仮想空間４１に対する自装置のユーザ空間２２および他装置のユーザ空間３２の配置のユーザによる指定を受け付ける。

　本実施例では、実施例１と異なり、視覚情報取得部１２が１つの撮像器４０Ｂを備え、画像表示部１５が１つの表示器４２Ｂを備えている。

　図１９は、実施例４による通信端末装置の概略平面図である。図２０は、実施例４の通信端末装置の概略斜視図である。

　図１９に示すように、実施例４では、実施例１と同様に、ユーザ空間２２における所定の位置をユーザ定位置５１とし、そのユーザ定位置５１から所定の方向をユーザ定方向５２とする。例えば、ユーザ定位置５１は通信端末装置１０を用いている自ユーザ２３が存在するであろう位置である。例えば、ユーザ定方向５２は、通信端末装置１０を用いている自ユーザ２３が向いているであろう方向である。

　図２０に示すように、表示器４２Ｂは矩形で平面の表示面を有し、表示面をユーザ定位置５１に向けて配置された表示装置である。表示器４２Ｂは、ユーザ定位置５１から見てユーザ定方向５２に配置される。撮像器４０Ｂは、ユーザ定位置５１との相対位置が固定され、ユーザ定方向５２に対する相対方向が固定されて、撮像方向をユーザ定位置５１に向けて配置されている。好ましくは、撮像器４０Ｂは、表示器４２Ｂの表示面の上辺もしくは下辺の中央近傍に配置される。

　図２１は、実施例４における画像表示処理のフローチャートである。実施例４における画像表示処理は、図９に示した実施例１のものとは、送信データを選択するステップＳ１０２の処理が無い点で異なるが、それ以外は基本的に実施例１のものと同様である。上述したように、実施例４では、視覚情報取得部１２は１つの撮像器４０Ｂを有し、情報伝達部１４は、その撮像器４０Ｂで取得された画像および深度の情報を含む画像伝達情報を他装置に送信する。

　なお、本実施例の通信端末装置１０は、音声取得部１１と視覚情報取得部１２と人物捕捉部１３と情報伝達部１４と画像表示部１５と音声出力部１６とが筐体に内蔵され、視覚情報取得部の撮像器４０Ｂが筐体の所定の位置に配設され、平面の表示面を備える表示器に接続され画像表示部１５による画像のデータを表示器に出力する外部出力端子が筐体に設けられた装置として構成できる。その構成において、画像表示部１５は、表示面のサイズと筐体に対する表示面の相対位置および相対姿勢の指定を受け、その指定に基づいて、表示面に自ユーザの視点位置から見える共有仮想空間の画像のデータを生成し、外部出力端子から出力する。外部に汎用的な平面の表示器を接続することにより、空間を共有したコミュニケーションを実現する通信端末装置１０を容易に構成することができる。なお、本実施例においては表示器４２Ｂを１つだけ備える構成を示したが、筐体からの外部出力端子を複数とし、複数の表示器を備える構成としてもよい。この場合、画像表示部１５が受ける、表示面のサイズと筐体に対する表示面の相対位置および相対姿勢の指定は、接続される表示器の数だけ必要となる。

　また、上述したように、本実施例の通信端末装置１０は、視覚情報取得部１２が有する撮像器４０Ｂがひとつであるため、他装置に伝達できる画像伝達情報から生成できる三次元データが限定される。また図８、図１６に示す構成に代表される実施例１、３の構成においても、設置される視覚情報取得部１２の各撮像器の配置によっては生成できる三次元データは限定され完全なものにならないことがある。したがって、例えば、自装置あるいは他装置において、本実施例の通信端末装置１０のユーザ９１の視覚情報あるいは画像伝達情報に含まれていない部分を補完することにしてもよい。
　自装置にて補完する場合、人物捕捉部１３が視覚情報取得部１２からの視覚情報から人物を捕捉したら、情報伝達部１４が、その捕捉された人物の視覚情報に含まれていない部分を補完して画像伝達情報を生成する。具体的には、情報伝達部１４は、予め視覚情報取得部１２により取得されたユーザ９１の側面や背面の補完用視覚情報を保存しておき、視覚情報取得部１２で取得される視覚情報に含まれていない人物の側面や背面の部分を補完視覚情報により補完してもよい。あるいは、人物捕捉部１３は、視覚情報取得部１２で取得される視覚情報に含まれていない人物の側面や背面の部分を、その視覚情報に含まれている部分の情報をもとに補完してもよい。例えば、ユーザ９１が黒色の服を着ていれば、ユーザ９１の背中の視覚情報を黒色で作成してもよい。
　他装置にて補完する場合、情報伝達部１４及び／もしくは通信ネットワーク９０上のサーバが、自装置（他装置にとっては他装置）から伝達された画像伝達情報に含まれる人物についての、その画像伝達情報に含まれていない部分を補完する。具体的には、情報伝達部１４は、予め自装置（他装置にとっては他装置）からユーザ９１の側面や背面の補完用視覚情報を取得して保存しておき、画像伝達情報に含まれていない人物の側面や背面の部分を補完視覚情報により補完してもよい。あるいは、人物捕捉部１３は、画像伝達情報に含まれていない人物の側面や背面の部分を、その画像伝達情報に含まれている部分の情報をもとに補完してもよい。

　実施例１は、図７～図８に示したように、通信端末装置が矩形で平面の表示面を有する表示器を備える構成を例示した。実施例５では、通信端末装置が曲面の表示面を有する表示器を備える構成を例示する。

　図２２は、実施例５による通信端末装置のブロック図である。本実施例による通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６と、配置指定受付部１７とを有する。音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、音声出力部１６、および配置指定受付部１７は、基本的に、図６に示した実施例１のものと同様である。

　本実施例では、視覚情報取得部１２が３つの撮像器４０Ａ、４０Ｂ、４０Ｃを備え、画像表示部１５が１つの表示器４２Ｄを備えている。

　図２３は、実施例５による通信端末装置の概略平面図である。図２４は、実施例５の通信端末装置の概略斜視図である。

　図２３、２４に示すように、実施例５では、画像表示部１５の表示器４２Ｄは垂直な円筒形状の内周面を表示面とする構成である。表示器４２Ｄの円筒の内部がユーザ空間２２となっている。ユーザ空間２２における所定の位置をユーザ定位置５１とする。例えば、ユーザ定位置５１は通信端末装置１０を用いている自ユーザ２３が存在するであろう位置である。表示器４２Ｄが円筒形状なのでその中心軸の近傍にユーザ定位置５１を設定してもよい。

　表示器４２Ｄはユーザ定位置５１を囲む円筒形状の内周面を表示面とした表示装置である。

　撮像器４０Ａ～４０Ｃは、それぞれが表示器４２Ｄの表示面に近接し、ユーザ定位置５１との相対位置が固定され、撮像方向をユーザ定位置５１に向けて配置されている。撮像器４０Ａ～４０Ｃは、例えば、撮像器４０Ａは表示器４２Ｄの中心軸を中心として撮像器４０Ｂとの間に１１０°の角度をなす方向に、撮像器４０Ｃは表示器４２Ｄの中心軸を中心として撮像器４０Ｂとの間にー１１０°の角度をなす方向に配置されていてもよい。また、撮像器４０Ａ～４０Ｃの高さは、例えば、自ユーザ２３として標準的な身長の人物を想定し、その頭上、足元、あるいは顔の高さとしてもよい。

　実施例５における画像表示処理のフローチャートは、図９に示した実施例１のものと同様である。

　図２５は、実施例５における配置指定画面の一例を示す図である。配置指定画面６０には共有スペース領域６４と決定ボタン６３が含まれている。共有スペース領域６４は、自ユーザ２３と他ユーザ３３とが共有する仮想的なスペースに相当する共有仮想空間４１を模した平面図である。共有スペース領域６４には、対話に参加する各メンバーが利用する通信端末装置１０に相当するオブジェクトであるブースアイコン６６が配置されている。ブースアイコン６６は、例えばマウス操作、表示器４２Ｄの表示面へのタッチ操作、撮像器４０Ａ～４０Ｃで取得される視覚情報に基づき検出されるジェスチェー操作により移動させたり固定させたりできる。共有スペース領域６４の形状および大きさを変更できるようにしてもよい。ここでは一例として共有スペース領域６４が共有仮想空間４１を模したものとしているので、共有スペース領域６４の形状および大きさに応じて共有仮想空間４１の形状および大きさを決定してもよい。決定ボタン６３が押下されると、そのときの共有スペース領域６４に対するブースアイコン６６の配置に基づいて、共有仮想空間４１における各通信端末装置１０のユーザ空間と、ユーザ定位置５１と、他装置のユーザ定位置との配置が決定される。図２５の例では、３人のユーザが三角形の頂点をなす配置が例示されている。

　図２６は、複数のユーザが共有スペースでの対面による対話が擬似的に実現された様子を示す概念図である。図２６には、図２５に示した配置が模擬的に実現された例が示されている。図２６には、Ｘ社のＡさんとＢさんとＣさんが三角形の頂点をなす位置に立ち、対話を行っている。それぞれのユーザの通信端末装置１０の表示器４２Ｄには、図２６に示した配置で、それぞれのユーザの視点位置から見える共有仮想空間４１の画像が表示される。それにより、全てのユーザは、図２６に示したような配置で対話をしている視界が得られる。

　本実施例によれば、自ユーザ２３から見て３６０°度どの方向にも他のユーザと共有する仮想空間の画像が表示され、自ユーザ２３に高い臨場感を与えることができる。例えば、共有仮想空間としてＣＧで構成された仮想空間あるいは実写映像で構成される三次元空間を用い、その共有仮想空間の中で複数のユーザが一緒に居て対話をする状態を再現することができる。実写映像は、いずれの通信端末装置１０の設置場所と異なる地点で、例えば、３６０度カメラで撮影されるリアルタイムの映像あるいは録画された映像であってもよい。

　なお、本実施例では、視覚情報取得部１２が３つの撮像器４０Ａ～４０Ｃを備える例を示したが、視覚情報取得部１２が備える撮像器の個数は３つに限定されない。他の例として、２つであってもよいし、４つ以上であってもよい。また、撮像器が配置される位置についても本実施例に記載された配置に限定されない。

　実施例５では、円筒形状の内周面に表示面を有する通信端末装置を例示した。これに対して、実施例６では、円柱形状の外周面に表示面を有する通信端末装置を例示する。

　図２７は、実施例６による通信端末装置のブロック図である。本実施例による通信端末装置１０は、音声取得部１１と、視覚情報取得部１２と、人物捕捉部１３と、情報伝達部１４と、画像表示部１５と、音声出力部１６と、配置指定受付部１７とを有する。音声取得部１１、視覚情報取得部１２、人物捕捉部１３、情報伝達部１４、画像表示部１５、音声出力部１６、および配置指定受付部１７は、基本的に、図６に示した実施例１のものと同様である。

　本実施例では、視覚情報取得部１２が８つの撮像器４０Ａ～４０Ｈを備え、画像表示部１５が１つの表示器４２Ｅを備えている。

　図２８は、実施例６による通信端末装置の概略平面図である。図２９は、実施例６の通信端末装置の概略斜視図である。

　図２８、２９に示すように、実施例６では、画像表示部１５の表示器４２Ｅは垂直な円柱形状の外周面を表示面とする構成である。

　表示器４２Ｅは円柱形状の外周面を表示面とした表示装置である。表示器４２Ｅの円柱の外部がユーザ空間２２となっている。撮像器４０Ａ～４０Ｈは、それぞれが表示器４２Ｅの表示面に近接し、円柱の外側に向けて固定され、撮像方向をユーザ定位置５１に向けて配置されている。撮像器４０Ａ～４０Ｈは、例えば、表示器４２Ｅの中心軸を中心として互いに４５°の角度をなす方向に配置されていてもよい。また、撮像器４０Ａ～４０Ｈの高さは、例えば、自ユーザ２３として標準的な身長の人物を想定し、その頭上、足元、あるいは顔の高さとしてもよい。

　実施例６の通信端末装置１０は、実施例５の通信端末装置１０との組合せにより対話を行うのに好適である。以下、実施例６の通信端末装置１０のユーザをユーザ９１（５）と称し、実施例５の通信端末装置１０のユーザをユーザ９１（４）と称することにする。

　実施例６の通信端末装置１０が設置された実空間の広さをもとに共有仮想空間４１の大きさを設定する。例えば、実施例６の通信端末装置１０における共有仮想空間４１を無限大としてもよい。実施例６の通信端末装置１０の円柱形状の中心軸と、実施例５の通信端末装置１０の円筒形状の中心軸との相対位置を共有仮想空間４１において一致させる。そのうえで、例えば、撮像器４０Ａ～４０Ｈから得られるイメージ映像をリアルタイムに合成して作成した、通信端末装置１０が設置されたユーザ９１（５）がいる実空間の３６０°映像をユーザ９１（４）の通信端末装置１０の表示器に投影することで、ユーザ９１（４）には、ユーザ９１（５）がいる実空間に自身が入り込んだような視界が得られる。ユーザ９１（５）には、自身がいる実空間にユーザ９１（４）が現れたような視界が得られる。図３０は、実施例６のユーザから得られる視界を示す概念図である。ユーザ９１（５）が実際にいる室内の実空間７１に、実際には遠隔にいるユーザ９１（４）が現れ、ユーザ９１（５）とユーザ９１（４）が直接対面して対話している状態が模擬されている。

　本実施例によれば、自ユーザは、自身が実際に居る実空間と表示面により表示される共有仮想空間とを同時に見ることができるので、自ユーザにとって自身の居る場所に他ユーザが現れたような感覚での他ユーザとのコミュニケーションが可能となる。また、実施例５の通信端末装置１０を用いる他ユーザにとっては、実施例６の通信端末装置１０が設置された場所を自ユーザとともに訪問している感覚でのコミュニケーションが可能となる。例えば、遠隔地の視察といったユースケースが想定される。

　なお、本実施例では、円柱形状の外周面が表示面となっている構成を例示したが、表示面の形状が本構成に限定されることはない。例えば、多角柱や球体形状の外面が表示面となる構成であってもよいし、卵型形状の外面が表示面となる構成であってもよい。

１…通信システム、１０…通信端末装置、１１…音声取得部、１２…視覚情報取得部、１３…人物捕捉部、１４…情報伝達部、１４C…撮像器、１４B…撮像器、１５…画像表示部、１６…音声出力部、１７…配置指定受付部、２１…仮想空間、２２…ユーザ空間、２３…自ユーザ、２４…視点位置、３１…仮想空間、３２…ユーザ空間、３３…他ユーザ、３５…ホワイトボード、４０…撮像器、４１…共有仮想空間、４２…表示面、４２A～４２E…表示器、５１…ユーザ定位置、５２…ユーザ定方向、６０…配置指定画面、６１…会議室領域、６２…机アイコン、６３…決定ボタン、６４…共有スペース領域、６５…画像画面、６６…ブースアイコン、７１…実空間、９０…通信ネットワーク、９１…ユーザ

Claims

　通信回線を介して複数で相互接続する通信端末装置であって、
　自装置を用いる自ユーザの声を含む音声を取得する音声取得部と、
　所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得する視覚情報取得部と、
　前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達する情報伝達部と、
前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前記共有仮想空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示する画像表示部と、
　前記他装置から伝達された音声伝達情報に基づいて音声を出力する音声出力部と、
を有する通信端末装置。
　前記ユーザ空間の視覚情報に基づいて前記自ユーザの視点位置を特定する人物捕捉部を更に有する、
請求項１に記載の通信端末装置。
　前記人物捕捉部は、前記ユーザ空間の視覚情報に基づいて、前記自ユーザを検出し、
　前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、前記自ユーザの顔部分を表す情報を前記他装置に送信し、
　前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像を含む画像を前記表示面に表示する、
請求項１に記載の通信端末装置。
　前記情報伝達部は、前記自ユーザが検出されると、前記画像伝達情報として、更に、前記自ユーザの骨格を表す情報を前記他装置に送信し、
　前記画像表示部は、前記他装置から受信した顔部分を表す情報に基づく顔画像と、前記他装置から受信した骨格を表す情報に基づく画像とを含む前記共有仮想空間の画像を前記表示面に表示する、
請求項１に記載の通信端末装置。
　前記画像表示部は、前記共有仮想空間の人物を加工処理が可能な点群および／もしくはポリゴンメッシュにより表示する、
請求項１に記載の通信端末装置。
　前記音声出力部は、前記他装置から伝達された音声伝達情報に基づいて、前記共有仮想空間における前記他装置のユーザ空間が配置された方向から聞こえる音声を再生する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし、
　前記視覚情報取得部は、それぞれの撮像方向の視覚情報を取得する複数の撮像器を有し、前記複数の撮像器は、それぞれが、互いに隔離して前記ユーザ定位置との相対位置を固定し、前記ユーザ空間の少なくとも一部が撮像される方向に前記撮像方向を向けて配置され、
　前記情報伝達部は、前記他装置の複数の撮像器のうち、前記撮像器の撮像方向と、前記他装置のユーザ定位置と前記自装置のユーザ定位置を結ぶ直線との相対角度に基づいて選択した撮像器のみについて、当該撮像器で取得された視覚情報に基づく画像伝達情報を、前記他装置から取得する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし、
　前記視覚情報取得部は、前記ユーザ定位置から所定の方向をユーザ定方向とし、前記ユーザ定方向の右側に配置された右側撮像器と、前記ユーザ定方向の左側に配置された左側撮像器とを含み、
　前記情報伝達部は、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の右側に前記他装置のユーザ定位置が配置される場合には前記他装置の右側撮像器による情報を含み前記他装置の左側撮像器による情報を含まない画像伝達情報を前記他装置から取得し、前記共有仮想空間において前記自装置のユーザ定位置から前記ユーザ定方向の左側に前記他装置のユーザ定位置が配置される場合には前記他装置の左側撮像器による情報を含み前記他装置の右側撮像器による情報を含まない画像伝達情報を前記他装置から受信する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
　前記画像表示部は、互いに並んだ第１線と第２線のそれぞれの上に前記自装置および前記他装置のうち少なくとも１つの装置のユーザ定位置を配置し、前記第１線上にユーザ定位置が配置された装置のユーザ定方向を前記第２線に向かう方向とし、前記第２線上にユーザ定位置が配置された装置のユーザ定方向を前記第１線に向かう方向とするように、前記共有仮想空間を形成する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
　前記画像表示部は、前記自装置および前記他装置のユーザ定位置をリングもしくは多角形状に配置し、前記自装置および前記他装置のユーザ定方向を前記リングもしくは多角形の内側に向かう方向とするように、前記共有仮想空間を形成する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし前記ユーザ定位置から所定の方向をユーザ定方向とし、
　前記画像表示部は、所定の線上に前記自装置および前記他装置のユーザ定位置を配置し、前記自装置および前記他装置のユーザ定方向を前記線に対して同一方向とするように、前記共有仮想空間を形成する、
請求項１に記載の通信端末装置。
　前記ユーザ定位置から所定の方向をユーザ定方向とし、
　前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記ユーザ定位置から見て前記ユーザ定方向の右側に配置された矩形で平面の表示面を有する右側表示器と、前記ユーザ定位置から見て前記ユーザ定方向の左側に配置された矩形で平面の表示面を有する左側表示器とを有し、前記右側表示器の表示面は、前記正面表示器の表示面の右辺に近接し、前記左側表示器の表示面は、前記正面表示器の表示面の左辺と近接する、
請求項１に記載の通信端末装置。
　前記画像表示部は、前記正面表示器、前記左側表示器、前記右側表示器からなる３つの表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および／または、前記正面表示器、前記左側表示器、前記右側表示器からなる３つの表示器の天井側の辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項１２に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし、
　前記画像表示部は、前記ユーザ定位置から見て前記ユーザ定方向に配置された矩形で平面の表示面を有する正面表示器と、前記正面表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および／または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項１に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし、
　前記画像表示部は、前記表示面が前記ユーザ定位置を水平方向に囲む内面である、
請求項１に記載の通信端末装置。
　前記画像表示部は、前記ユーザ定位置を水平方向に囲む内面である表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および／または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項１５に記載の通信端末装置。
　前記ユーザ空間における所定の位置をユーザ定位置とし、
　前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している、
請求項１に記載の通信端末装置。
　前記画像表示部は、前記表示面の少なくとも一部の外縁近傍が前記ユーザ定位置に向かって湾曲している表示面を有する表示器と、前記表示器の底辺に近接して配置され矩形の上面に表示面を有する下側表示器を更に有する、および／または、前記正面表示器の上辺に近接して配置され矩形の下面に表示面を有する上側表示器を更に有する、
請求項１７に記載の通信端末装置。
　前記画像表示部は、前記表示面が柱形状の外周面である、
請求項１に記載の通信端末装置。
　前記自装置に対応するオブジェクトと前記他装置に対応するオブジェクトを移動可能に配置することができる画面を表示し、前記画面に対する前記オブジェクトの配置により、前記共有仮想空間に対する前記自装置および前記他装置のユーザ空間の配置の指定を受け付ける配置指定受付部を更に有する、
請求項１に記載の通信端末装置。
　前記音声取得部と前記視覚情報取得部と前記情報伝達部と前記画像表示部と前記音声出力部とが筐体に内蔵され、前記視覚情報取得部の撮像器が前記筐体の所定の位置に配設され、平面の表示面を備える少なくとも１つ以上の表示器に接続され前記画像表示部による画像のデータを前記表示器に出力する少なくとも１つ以上の外部出力端子が前記筐体に設けられ、
　前記画像表示部は、前記表示面のサイズと前記筐体に対する前記表示面の相対位置および相対姿勢の指定を受け、前記指定に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、前記外部出力端子から出力する、
請求項１に記載の通信端末装置。
　前記情報伝達部は、前記画像伝達情報に含まれている人物の該画像伝達情報に含まれていない部分の情報を補完する、
請求項１に記載の通信端末装置。
　外部接続端子を更に有し、
　前記音声取得部、前記視覚情報取得部、人物捕捉部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつに対する制御を受け付けるための制御情報を前記外部接続端子から入力する、
請求項１に記載の通信端末装置。
　前記人物捕捉部は、前記自ユーザが所定の動作を行ったことを検知し、
　前記音声取得部、前記視覚情報取得部、前記情報伝達部、前記画像表示部、前記音声出力部の少なくともひとつが前記動作に対応する処理を実行する、
請求項１に記載の通信端末装置。
　前記人物捕捉部は、前記自ユーザが前記共有仮想空間上の物体に手をかざす第１動作と、前記物体に向けた手を握って移動させる第２動作とを検知し、
　前記画像表示部は、前記第１動作が検知された後に前記第２動作が検知されたら前記物体を移動させ、前記第１動作が検知されずに前記第２動作が検知されても前記物体を移動させない、
請求項２１に記載の通信端末装置。
　前記画像表示部は、前記画像を前記表示面に表示する表示装置と、前記ユーザが着用する三次元眼鏡装置とを有し、
　前記表示装置は、前記視点位置に応じて、視差を有する左眼用画像および右眼用画像を生成し、前記表示面に表示し、
　前記三次元眼鏡装置は、前記左眼用画像を前記自ユーザの左眼に見せ、前記右眼用画像を前記自ユーザの右眼に見せる、
請求項１に記載の通信端末装置。
　前記人物捕捉部は、所望の心理状態の指定を受けると、前記視覚情報における前記自ユーザの顔部分を前記心理状態を表す表情に加工し、
　前記情報伝達部は、前記自ユーザの顔部分が加工された視覚情報に基づく画像伝達情報を他装置に伝達する、
請求項１に記載の通信端末装置。
　通信回線を介して複数で相互接続する通信端末装置による通信方法であって、
　前記通信端末装置が、
　自装置を用いる自ユーザの声を含む音声を取得し、
　所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
　前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
　前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
　前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
通信方法。
　コンピュータを通信回線を介して複数で相互接続する通信端末装置の制御装置として動作させるためのソフトウェアプログラムであって、
　自装置を用いる自ユーザの声を含む音声を取得し、
　所定のユーザ空間上にある人物の三次元データを形成可能にする視覚情報を取得し、
　前記ユーザ空間の視覚情報に基づく画像伝達情報と、前記音声に基づく音声伝達情報とを他装置に伝達し、
前記自装置のユーザ空間と前記他装置のユーザ空間とを配置した共有仮想空間に対して相対位置が固定された表示面に、前記他装置から伝達された画像伝達情報に基づいて、前期共有空間上にある人物の三次元データを、前記自ユーザの視点位置から前記表示面を介して共有仮想空間上の前記人物の三次元データを見たときのような見え方となる前記三次元データの表示画像を生成し、表示し、
　前記他装置から伝達された音声伝達情報に基づいて音声を出力する、
手順をコンピュータに実行させるためのソフトウェアプログラム。