WO2011027475A1

WO2011027475A1 - テレビ会議装置

Info

Publication number: WO2011027475A1
Application number: PCT/JP2009/065607
Authority: WO
Inventors: 晃嗣上野; 信宏下郡; 創吾坪井; 圭亮西村; 明熊野
Original assignee: 株式会社東芝
Priority date: 2009-09-07
Filing date: 2009-09-07
Publication date: 2011-03-10

Abstract

　異地点にいる複数の参加者が参加するテレビ会議システムにおいて、テレビ会議装置５０は、他のテレビ会議装置５０から送信された音声情報及びアバター情報に基づいて、会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無とを時刻と共に示す会議状態履歴情報を生成する。そして、テレビ会議装置５０は、当該会議状態履歴情報を用いて、複数の参加者を各々モデル化した各アバターを描画するためのパラメータを決定し、当該パラメータに従って、各アバターを仮想会議室に配置した画像を生成し、生成した画像を表示部に表示させる。

Description

テレビ会議装置

　本発明は、テレビ会議装置に関する。

　遠隔地にいる複数人が同時に会議に参加するテレビ会議システムにおいて、参加者をモデル化してＣＧ（Computer　Graphics）により表したアバターと、仮想会議室とを用いた臨場感の高いシステムがある。典型的には、実際のそれぞれの参加者は、ディスプレイ、スピーカ、カメラ及びマイク等を備えたテレビ会議装置を使用し、音声や映像の入出力を行う。テレビ会議装置のディスプレイには、参加者全員が一つの仮想会議室にいるように表示され、あたかも同じ部屋で会議をしているような感覚を参加者に与えることができる。こうしたテレビ会議システムにおいて、参加者がマウスやキーボードを操作して、アバターに挙手させたり、演壇に登らせたりするシステムが知られている（例えば特許文献１参照）。また、参加者が他の参加者を注視すると、仮想会議室内の当該参加者のアバターから当該他の参加者へ視線を送るシステムも開発されている（例えば特許文献２参照）。

特開平６－２７４５９６号公報特開２００５－２１６３１０号公報

　しかし、特許文献１のシステムでは、参加者の特別な操作を必要とするため、参加者は会議に集中できない恐れがある。一方、特許文献２のシステムでは、参加者の特別な操作を必要としない。しかし、参加者同士のコミュニケーションのしやすさを主眼に置いており、各参加者の参加度や参加者同士の関係など、会議の全体的な状況を分かりやすくすることは困難であった。

　本発明は、上記に鑑みてなされたものであって、会議の全体的な状況を、自動的に且つ分かりやすく自然に提示可能なテレビ会議装置を提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明は、テレビ会議装置であって、異地点にいる複数の参加者が参加する会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を取得する取得部と、前記会議状態履歴情報を用いて、前記複数の参加者を各々モデル化した各モデル画像を描画するためのパラメータを決定する決定部と、前記パラメータに従って、各前記モデル画像を合成する合成部と、合成された前記モデル画像を表示部に表示させる表示制御部とを備えることを特徴とする。

　本発明によれば、会議の全体的な状況を、自動的に且つ分かりやすく自然に提示可能になる。

第１の実施の形態のテレビ会議システムの構成を例示する図。テレビ会議装置５０のハードウェア構成を例示する図。テレビ会議装置５０の機能的構成を例示する図。会議状態テーブルに記憶される会議状態情報を例示する図。会議状態履歴テーブルに記憶される会議状態履歴情報を例示する図。アバターパラメータテーブルのデータ構成を例示する図。仮想会議室に各アバターを配置した例を示す図。三次元ＣＧとしてレンダリングした画像を例示する図。画像表示処理の手順を示すフローチャート。ステップＳ３の処理の詳細な手順を示すフローチャート。ステップＳ６の処理の詳細な手順を示すフローチャート。ユーザ参加度テーブルのデータ構成を例示する図。ユーザ関係テーブルのデータ構成を例示する図。 θを決定する処理の手順を示すフローチャート。アバター間コストのネットワークを示す図。入力リストを例示する図。各アバターのサイズs及び各アバターの位置（r,θ)を例示する図。仮想会議室に各アバターを配置した状態を例示する図。三次元ＣＧとしてレンダリングして生成した画像を例示する図。第２の実施の形態の中央サーバ２００と、テレビ会議装置５０´との機能的構成を例示する図。会議状態履歴情報送信処理の手順を示すフローチャート。画像表示処理の手順を示すフローチャート。

　以下に添付図面を参照して、本実施の形態にかかるテレビ会議装置の一実施の形態を詳細に説明する。

　図１は、本実施の形態にかかるテレビ会議装置を適用したテレビ会議システムの構成を例示する図である。本実施の形態にかかるテレビ会議システムでは、異地点にある複数のテレビ会議装置５０がネットワークを介して各々接続され、各々通信を行なうことにより、異地にいる複数の参加者が会議に参加する。ここでは、会議の参加者である各ユーザは、１人につき１つのテレビ会議装置５０を用いるものとする。各ユーザには、各ユーザを識別するユーザＩＤが付与されている。各テレビ会議装置５０は、テレビ会議システムに接続されるテレビ会議装置５０全てについてユーザのユーザＩＤを各々保持しているものとする。また、ネットワークとは、例えば、ＬＡＮ（Local　Area　Network）、イントラネット、イーサネット（登録商標）、インターネット又はＰ２Ｐ(peer　to　peer)ネットワークなどである。

　次に、テレビ会議装置５０のハードウェア構成について図２を用いて説明する。テレビ会議装置５０は、装置全体を制御するＣＰＵ（Central　Processing　Unit）等の制御部５１と、各種データや各種プログラムを記憶するＲＯＭ（Read　Only　Memory）やＲＡＭ（Random　Access　Memory）等の主記憶部５２と、各種データや各種プログラムを記憶するＨＤＤ（Hard　Disk　Drive）やＣＤ（Compact　Disk）ドライブ装置等の補助記憶部５３と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。制御部５１は、時刻を計時するタイマ（不図示）を有する。また、テレビ会議装置５０には、外部装置の通信を制御する通信Ｉ／Ｆ（interface）５４と、情報を表示する表示部５５と、被写体を撮影するカメラ等の撮影部５６と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部５７と、音声を録音するマイク等の音声入力部５８と、音声を出力するスピーカ等の音声出力部５９とが有線又は無線により各々接続される。撮影部５６は、例えば、ユーザの顔を撮影可能な位置に配置され、ユーザの顔を映像として撮影する。

　次に、このようなハードウェア構成において、テレビ会議装置５０のＣＰＵが主記憶部や補助記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図３は、テレビ会議装置５０の機能的構成を例示する図である。テレビ会議装置５０は、録音部１０２と、音声情報送信部１０３と、生成部１０４と、アバター情報送信部１０５と、音声情報受信部１０６と、発言者情報抽出部１０７と、アバター情報受信部１０８と、視線情報抽出部１０９と、会議状態履歴管理部１１１と、決定部１１２と、合成部１１３部と、表示制御部１１４とを有する。音声情報送信部１０３と、生成部１０４と、アバター情報送信部１０５と、音声情報受信部１０６と、発言者情報抽出部１０７と、アバター情報受信部１０８と、視線情報抽出部１０９と、会議状態履歴管理部１１１と、決定部１１２と、合成部１１３と、表示制御部１１４とは、例えば、ＣＰＵのプログラム実行時にＲＡＭなどの主記憶部上に生成されるものである。録音部１０２は、音声入力部５８の機能を表したものであり、ユーザの発言した音声を録音する。録音された音声は、音声出力部５９により出力される。

　音声情報送信部１０３は、録音部１０２が録音した音声と、当該テレビ会議装置５０のユーザＩＤとを少なくとも含む音声情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置５０全てに送信する。尚、音声はPCM、ADPCM、H.323などの方式でエンコードされていても良い。

　生成部１０４は、撮影部５６が撮影した映像を用いて、当該テレビ会議装置５０のユーザの姿勢に関する姿勢情報を生成する。ユーザの姿勢には、ユーザが注視する状態を含み、姿勢情報は、当該テレビ会議装置５０のユーザが視線を向けている対象のユーザのユーザＩＤを少なくとも含む。この姿勢情報によって示される姿勢は、ユーザをモデル化した画像であるアバターの姿勢に反映される。アバターは、例えば、三次元ＣＧにより表される。ユーザが視線を向けている方向を判断する方法は、例えば、特許文献２００８－１９４１４６号公報に開示されている方法を用いれば良い。本実施の形態においては、例えば、他のユーザの写真や映像や他の各ユーザを特定するものがユーザの前方に存在するとする。生成部１０４は、当該ユーザの視線が他のユーザのいずれかの方向を向いているのを、撮影部５６が撮影したユーザの映像を上述の方法により解析することにより判断する。そして、生成部１０４は、当該ユーザが視線を向けている方向にいる他のユーザを注視対象のユーザとして特定することができる。そして、生成部１０４は、注視対象として特定したユーザに付与されたユーザＩＤを取得して、このユーザＩＤを含む姿勢情報を生成する。

　アバター情報送信部１０５は、生成部１０４が生成した姿勢情報と、当該テレビ会議装置５０のユーザのユーザＩＤとを少なくとも含むアバター情報を、ネットワークを介して、テレビ会議システム接続される他のテレビ会議装置５０全てに送信する。

　音声情報受信部１０６は、ネットワークを介してテレビ会議システム接続される他の全てのテレビ会議装置５０の音声情報送信部１０３が各々送信した音声情報を各々受信する。また、音声情報受信部１０６は、受信した音声情報によって表される音声を音声出力部５９から出力させる。

　発言者情報抽出部１０７は、音声情報受信部１０６が受信した音声情報及び録音部１０２が録音した音声を解析して、各ユーザの発言が開始又は終了する都度、発言の状態を示す発言者情報を抽出する。例えば、音声情報に含まれる音声の音圧が一定値を超えた時に発言が行われていると見なすことで可能である。そして、発言者は、音声情報に含まれるユーザＩＤが付与されているユーザに特定することが可能である。このため、発言者情報抽出部１０７は、音声情報を解析して、発言が開始されたと判断した場合、当該音声情報に含まれるユーザＩＤと、「発言開始」を表す発言状態変化情報と、開始の時刻とを含む発言者情報を抽出し、発言が終了したと判断した場合、当該音声情報に含まれるユーザＩＤと、「発言終了」を表す発言状態変化情報と、終了の時刻とを含む発言者情報を抽出する。時刻には、例えば、制御部の有するタイマによって計時される時刻を用いる。例えば、ユーザＩＤが「１」のユーザが発言を開始した場合に送信された音声情報からは、「１、発言開始、１３：００：０５」という発言者情報が抽出される。

　アバター情報受信部１０８は、ネットワークを介してテレビ会議システム接続される他の全てのテレビ会議装置５０のアバター情報送信部１０５が各々送信したアバター情報を各々受信する。

　視線情報抽出部１０９は、アバター情報受信部１０８が受信したアバター情報及び生成部１０４が生成した姿勢情報を用いて、全てのユーザについてそれぞれどのユーザが他のどのユーザに対して視線を向けたかを示す視線情報を、視線を向ける対象が変更する都度、抽出する。上述したように、アバター情報には、当該アバター情報を送信した他のテレビ会議装置５０のユーザのユーザＩＤと、当該ユーザＩＤのユーザが視線を向けている対象のユーザのユーザＩＤとを含んでいる。このため、前者を注視元ユーザＩＤとし、後者を注視対象ユーザＩＤとしてこれらと、その時刻とを含む視線情報を視線情報抽出部１０９は抽出する。例えばユーザＩＤが「１」のユーザが、ユーザＩＤが「５」のユーザに視線を向けている場合に送信されたアバター情報からは、「１、５、１３：００：０７」という視線情報が抽出される。

　会議状態履歴管理部１１１は、会議状態テーブルと、会議状態履歴テーブルとを有し、発言者情報抽出部１０７が抽出した発言者情報及び視線情報抽出部１０９が抽出した視線情報を用いて、現在の会議状態を示す会議状態情報を会議状態テーブルに記憶させ、時刻毎の会議状態の履歴を示す会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる。図４は、会議状態テーブルに記憶される会議状態情報を例示する図である。同図に示されるように、会議状態テーブルには、ユーザＩＤと、注視対象ユーザＩＤと、発言状態を示す発言状態情報とを含む会議状態情報がユーザ毎に記憶される。この発言状態とは、発言中か沈黙しているかのいずれかであり、ユーザ毎の発言の有無を対応付ける。会議状態履歴管理部１１１は、発言者情報抽出部１０７が発言者情報を抽出する度に、会議状態テーブルに記憶される会議状態情報を適宜更新する。尚、会議状態情報をどのように更新するかは後述の動作欄で説明する。図５は、会議状態履歴テーブルに記憶される会議状態履歴情報を例示する図である。同図に示されるように、会議状態履歴情報は、時刻と、発言者であるユーザのユーザＩＤと、注視対象ユーザＩＤと、発言状態を示す発言状態変化情報とを含む。この発言状態は、発言開始、発言継続又は発言終了のいずれかである。会議状態履歴テーブルには、発言者とその注視対象とが変化する度に、その時刻と共に、発言者のユーザＩＤ及び注視対象ユーザＩＤ及び発言状態変化情報が新たに記憶されることになる。このような会議状態履歴情報をどのように生成するかについては後述の動作欄で説明する。

　決定部１１２は、アバターパラメータテーブルを有し、会議状態が変化して、会議状態履歴テーブルに新たな会議状態履歴情報が記憶されると、それに応じて、仮想会議室において各アバターを配置する位置とサイズとをアバターパラメータとして決定してこれをアバターパラメータテーブルに記憶させる。アバターパラメータは、ユーザの会議への参加度やお互いへの態度を示すように決定されることが、分かりやすさの点で好ましい。

　例えば、アバターパラメータを決定するためのルールとして、以下を想定する。
ルール１：一回の発言時間が長いと、発言者のアバターが大きくなる。（一人が演説を行ってしまっており、異常な状況）
ルール２：発言頻度が低いと、場の中心から遠ざかる。（参加度を示す）
ルール３：注目される頻度が高いと、場の中心に近づく。（重要度を示す）
ルール４：発言者の注目の長い相手は、発言者の対面に移動する。（対立もしくは対話と見なす）
ルール５：視線を交わさずに発言が交代される場合は、その二人のアバターが近づく。（同一グループの存在と見なす）

　アバターパラメータテーブルは、各アバターの位置、即ち場の中心Oを原点とした二次元極座標(r,θ)と、アバターのサイズsとをアバターパラメータとして記憶する。図６は、アバターパラメータテーブルのデータ構成を例示する図である。ここでは、実際の会議の経過として、会議履歴状態テーブルには、図５に例示される会議状態履歴情報が記憶されているものとする。会議は13:00:00に開始し、参加者であるユーザは、ユーザＩＤが「１」～「５」が各々付与されている５名である。図６の例では、13:00:00に会議が開始したときの初期状態のアバターパラメータが示されている。初期状態では、rとsとはユーザ一律でそれぞれ1.0,1.0とする。また、θが表す角度は半周で1.0とし、0.25ずつ離して５名で等間隔に半周に並ぶものとする。このようなアバターパラメータを会議状態履歴情報に基づいて決定部１１２がどのように決定するかは後述の動作欄で説明する。

　図３の説明に戻る。合成部１１３は、決定部１１２が各ユーザのアバターについて決定してアバターパラメータテーブルに記憶させたアバターパラメータに基づいて、各アバターの画像を合成して、仮想会議室に各アバターを配置した画像を生成する。画像を合成する方法は、既知の三次元ＣＧを合成する方法を用いれば良い。図７は、図６に示されるアバターパラメータを用いて、実際の仮想会議室に各アバターを配置した例を示す図である。図８は、図７で示すカメラが配置された位置の視点からの映像を三次元ＣＧとしてレンダリングした画像を例示する図である。同図においては、初期状態として、５名が等間隔に半周に並んでいることが示されている。表示制御部１１４は、合成部１１３が生成した画像を表示部５５に表示させる。

　次に、本実施の形態にかかるテレビ会議装置５０の行うアバター表示処理の手順について図９を用いて説明する。テレビ会議装置５０は、録音部１０２の機能により、ユーザの発言した音声を録音し、音声情報送信部１０３の機能により、録音した音声と当該テレビ会議装置５０のユーザＩＤとを少なくとも含む音声情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置５０全てに送信し、録音した音声を音声出力部５８から出力させる。また、テレビ会議装置５０は、生成部１０４の機能により、撮影部５６が撮影した映像を用いて、当該テレビ会議装置５０のユーザの姿勢に関する姿勢情報を生成し、アバター情報送信部１０５の機能により、当該姿勢情報と、当該テレビ会議装置５０のユーザのユーザＩＤとを少なくとも含むアバター情報を、ネットワークを介して、テレビ会議システムに接続される他のテレビ会議装置５０全てに送信する。一方で、テレビ会議装置５０は、音声情報受信部１０６の機能により、音声情報を受信し（ステップＳ１）、発言者情報抽出部１０７の機能により、当該音声情報及び当該テレビ会議装置５０が録音した音声のうち少なくとも一方から発言者情報を抽出した場合（ステップＳ２：ＹＥＳ）、会議状態履歴管理部１１１の機能により、会議状態テーブルに記憶されている会議状態情報を更新し、新たに会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる（ステップＳ３）。また、テレビ会議装置５０は、アバター情報受信部１０８の機能により、アバター情報を受信し（ステップＳ４）、視線情報抽出部１０９の機能により、当該アバター情報及び当該テレビ会議装置５０が生成した姿勢情報のうち少なくとも一方から視線情報を抽出した場合（ステップＳ５：ＹＥＳ）、会議状態履歴管理部１１１の機能により、会議状態テーブルに記憶されている会議状態情報を更新し、新たに会議状態履歴情報を生成してこれを会議状態履歴テーブルに記憶させる（ステップＳ６）。

　ここで、ステップＳ３で会議状態履歴管理部１１１の機能により行う処理の詳細な手順について図１０を用いて説明する。会議状態履歴管理部１１１は、発言者情報抽出部１０７が抽出した発言者情報を取得し（ステップＳ７００）、当該発言者情報に含まれるユーザＩＤに対応して会議状態テーブルに記憶されている会議状態情報を参照して、当該会議状態情報に含まれる注視対象ユーザＩＤを抽出する（ステップＳ７０１）。次いで、会議状態履歴管理部１１１は、ステップＳ７００で取得した発言者情報に含まれる発言状態変化情報が「開始」を示しているか否かを判断する（ステップＳ７０２）。当該発言状態変化情報が「開始」を示している場合（ステップＳ７０２：ＹＥＳ）、会議状態履歴管理部１１１は、現在の時刻と、ステップＳ７００で取得した発言者情報に含まれるユーザＩＤと、ステップＳ７０１で抽出した注視対象ユーザＩＤと、「発言開始」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる（ステップＳ７０３）。次いで、会議状態履歴管理部１１１は、ステップＳ７００で取得した発言者情報に含まれるユーザＩＤに対応して会議状態テーブルに記憶されている会議状態情報に含まれる発言状態情報が「発言中」を示すよう、当該会議状態情報を更新して（ステップＳ７０４）、処理を終了する。

　一方、ステップＳ７０２で、発言状態変化情報が「発言終了」を示している場合（ステップＳ７０２：ＮＯ）、会議状態履歴管理部１１１は、現在の時刻と、ステップＳ７００で取得した発言者情報に含まれるユーザＩＤと、ステップＳ７０１で抽出した注視対象ユーザＩＤと、「発言終了」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる（ステップＳ７０５）。次いで、会議状態履歴管理部１１１は、ステップＳ７００で取得した発言者情報に含まれるユーザＩＤに対応して会議状態テーブルに記憶されている会議状態情報に含まれる発言状態情報が「沈黙」を示すよう、当該会議状態情報を更新して（ステップＳ７０６）、処理を終了する。以上の処理を会議状態履歴管理部１１１は発言者情報が得られる都度行う。

　次に、ステップＳ６で会議状態履歴管理部１１１の機能により行う処理の詳細な手順について図１１を用いて説明する。会議状態履歴管理部１１１は、視線情報抽出部１０９が抽出した視線情報を取得し（ステップＳ８００）、当該視線情報に含まれる注視元ユーザＩＤに対応して会議状態テーブルに記憶されている会議状態情報を参照して、当該会議状態情報に含まれる発現状態情報を抽出する（ステップＳ８０１）。そして、会議状態履歴管理部１１１は、当該発言状態情報が「発言中」を示しているか否かを判断する（ステップＳ８０２）。「発言中」を示している場合（ステップＳ８０２：ＹＥＳ）、会議状態履歴管理部１１１は、現在の時刻と、ステップＳ８００で取得した視線情報に含まれる注視元ユーザＩＤと、ステップＳ８００で取得した視線情報に含まれる注視対象ユーザＩＤと、「継続」を示す発言状態変化情報とを含む会議状態履歴情報を新たに生成してこれを会議状態履歴テーブルに記憶させる（ステップＳ８０３）。次いで、会議状態履歴管理部１１１は、ステップＳ８００で取得した視線情報に含まれる注視元ユーザＩＤに対応して会議状態テーブルに記憶されている会議状態情報に含まれる注視対象ユーザＩＤを、当該視線情報に含まれる注視対象ユーザＩＤに更新することにより、当該会議状態情報を更新して（ステップＳ８０４）、処理を終了する。一方、ステップＳ８０２で、発言状態情報が「沈黙」を示している場合（ステップＳ８０２：ＮＯ）、ステップＳ８０３を経ずに、Ｓ８０４に進む。以上の処理を会議状態履歴管理部１１１は視線情報が得られる都度行う。

　図９の説明に戻る。テレビ会議装置５０は、会議状態履歴テーブルに新たな会議状態履歴情報が記憶されると、決定部１１２の機能により、新たな会議状態履歴情報に応じて各アバターの位置とサイズとをアバターパラメータとして決定してこれをアバターパラメータテーブルに記憶させる（ステップＳ７）。ここで、ステップＳ７で決定部１１２の機能により行う処理の詳細について説明する。決定部１１２は、会議状態履歴テーブルに会議状態履歴情報が記憶されると、会議状態履歴情報を解析して、ユーザが会議においてどれぐらい重要な役割を占めているかというユーザの参加度と、ユーザ間の関係とを計算する。具体的には、決定部１１２は、会議状態履歴テーブルに初めて会議状態履歴情報が記憶されたとき、会議状態履歴情報を解析して、ユーザの参加度を示すユーザ参加度テーブルと、ユーザ間の関係を距離として示すユーザ関係テーブルとを生成し、その後、会議状態履歴テーブルに新たな会議状態履歴情報が記憶される度に、ユーザ参加度テーブルと、ユーザ関係テーブルとを更新する。ユーザの参加度を計算する方法は以下の通りである。決定部１１２は、会議状態履歴情報を解析して、ユーザ毎に、発言回数と、平均発言時間と、注視された回数である被注視回数とを計算する。そして、決定部１１２は、発言回数と、平均発言時間と、被注視回数との各偏差値を計算する。これらを各々発言率k、演説度l、注目率nとする。尚、偏差値を計算する方法は、以下の通りである。母集団のサイズがN、各値がx_i、母集団の平均がμ_x、母集団の標準偏差がσ_xであるとき、項目iの偏差値T_iは以下の式１により求められる。

　そして、決定部１１２は、計算した各値をユーザ毎にユーザ参加度テーブルに記憶させる。図１２は、ユーザ参加度テーブルのデータ構成を例示する図である。同図に示されるように、ユーザ参加度テーブルには、発言回数と、平均発言時間と、注視された回数である被注視回数と、発言率kと、演説度lと、注目率nとがユーザ毎に記憶される。

　決定部１１２は、これらの変数k,l,nを用いて、上述のルール１～ルール３を組み込んだ以下の式２により各アバターのサイズsを決定し、式３により、各アバターの位置を表す二次元極座標のうちrを決定し、これらの値をアバターパラメータテーブルに記憶させる。
　サイズs=1.0+(l-50)*0.1　　　(if　n>50)　　　　・・・（式２）
　　　　　　　1.0　　　　　　(if　n<=50)
距離r=1.0+(50-k)*0.2+(50-n)*0.1　　　　　　　　・・・（式３）
ただし、r<1.0の時、r=1.0とする

　また、ユーザの関係を距離として計算する方法は以下の通りである。決定部１１２は、会議状態履歴テーブルに記憶されている会議状態履歴情報を解析して、任意のユーザ２人について、どちらかが発言中に相手を注視した時間（注視時間という）を計算する、また、どちらも相手を注視していないまま発言が交代した、もしくはどちらかの発言の最中にもう１人が発言を開始した回数（視線なし交代回数という）を計算する。更に、決定部１１２は、注視時間に0.05を乗算したものに1.0を加算し、その結果を、視線なし交代回数に1.0を加算したもので除算し、これをコストとする。尚、除算の分子が0である場合は、1.0とする。なお、注視時間も視線無し交代回数も定義されていない場合は、コストは未定義状態とする。そして、決定部１１２は、相手のユーザＩＤと、当該相手に対する注視時間、視線なし交代回数及びコストとをユーザ毎にユーザ関係テーブルに記憶させる。図１３は、ユーザ関係テーブルのデータ構成を例示する図である。同図に示されるように、２人のユーザの各組み合わせについて、注視時間、視線なし交代回数及びコストが各々記憶される。決定部１１２は、このコスト及び上述のルール４～ルール５を用いて、各アバターの位置を表す二次元極座標のうちθを決定する。

　ここで、このコスト及び上述のルール４～ルール５を用いてθを決定する処理の手順について図１４を用いて説明する。図１４の右側の図は、各ステップにおけるアバター間の関係をエッジ重み付き一次元ネットワークとして表したものである。丸で表される各ノードは各ユーザのアバターを表し、ノード間の線はエッジ、エッジ下の数字はエッジコストである。各ノードａ１～ａ５は、ユーザＩＤ「１」～「５」のユーザのアバターに各々対応している。まず、ステップＳ１４００では、決定部１１２は、ユーザ関係テーブルに記憶されているコストのうち最大のコストを有するユーザの組み合わせを抽出し、エッジコスト1.0としてエッジ重み付き一次元ネットワークに挿入する。ここでは、ユーザＩＤが「１」のユーザとユーザＩＤ「４」のユーザとの組み合わせについて、コストが最大であるので、ノードａ１，ａ４について、エッジコスト1.0のエッジが張られる。次に、決定部１１２は、ステップＳ１４００で抽出していない他のユーザ（ノードａｘとする）全てについて、ステップＳ１４００で抽出した２人のユーザ（ノードａｙ１，ａｙ２とする）それぞれに対するネットワークコストを計算する。このネットワークコストの計算は、図１５に示すコストのネットワークにおける、経路上のコストを合計することで行う。ノードａｘについてノードａｙ１，ａｙ２に対してそれぞれ計算した２つのネットワークコストのうち、値の小さい方をノードａｘのコストとして決定し、その時の相手のノード（ノードａｙ１，ａｙ２のいずれかである）を親ノードとして決定する。例えば図１５の例では、ノードａ１，ａ５のネットワークコストは2.0であり、ノードａ４，ａ５のネットワークコストは0.5であるから、ノードａ５のコストは0.5であり、親ノードはノードａ４である。決定部１１２は、コストの計算を行った結果を示す入力リストを生成する（ステップＳ１４０１）。図１６は、入力リストを例示する図である。同図においては、ノードａｘであるノードａ２，ａ３，ａ５のうち、ノードａ３，ａ５について、ノードａｙ１であるａ１及びノードａｙ２であるノードａ４に対してそれぞれ計算したネットワークコストと、このうち値の小さい方であるコストと、親ノードとが示されている。尚、ノードａ２については、ネットワークコストが計算できないため、同図の入力リストにおいては、コストが示されておらず、親ノードが決定されていない。

　図１４の説明に戻る。次に、決定部１１２は、最もコストの高いノードを選択し（ステップＳ１４０２）、選択したノードを親ノードの内側に挿入する。また、決定部１１２は、挿入したノードを入力リストから削除する（ステップＳ１４０３）。尚、挿入の際には、決定部１１２は、既に存在しているエッジコストをそのまま保存し、挿入したノードのコストを、当該ノードと親ノードとの間のエッジコストとする。入力リストにコストが示されるノードがあれば（ステップＳ１４０４：ＮＯ）、決定部１１２は、ステップＳ１４０２～Ｓ１４０３の処理を繰り返す。入力リストにコストが示されるノードがなくなると（ステップＳ１４０４：ＹＥＳ）、決定部１１２は、ステップＳ１４０２～Ｓ１４０３の処理を行っていない残りのノード、即ち、ネットワークコストの計算できないノード（ここではノードａ２である）を、エッジ重み付き一次元ネットワークの最もエッジコストの高いノード間に挿入する（ステップＳ１４０５）。この時、挿入したノードの両側のエッジコストはそれぞれ、挿入前のエッジコストとする。例えば、図１４のステップＳ１４０５の右側の図に示されるように、ノードａ２が、最も高いエッジコスト（ここでは１．４である）のノード間であるノードａ３，ａ５の間に、ノードａ２が挿入され、この両側のエッジコストはそれぞれ、１．４となる。その後、決定部１１２は、エッジコストの合計が1.0となるように各エッジコストを正規化し、正規化したエッジコストの値をノード間、即ち、アバター間のθの値として決定する（ステップＳ１４０６）。そして、決定部１１２は、決定したθの値を、ユーザＩＤ毎にアバターパラメータテーブルに記憶させる。図１４の例では、エッジコストの合計は４．３である。各エッジコストを４．３で割った値を、ノード間の角度（ラジアン）とする。例えばノードａ１，ａ３の間は１／４．３＝０．２３（ｒａｄ）である。さらに、一次元ノードリストの両端ノードの、番号が若い方をθ＝０、もう一方をθ＝１．０とし、それ以外のノードのθを前述のノード間の角度に従って決定する。

　図１７は、図１２に例示されるユーザ参加度テーブル及び図１３に例示されるユーザ関係テーブルに基づいてアバターパラメータテーブルに記憶された各アバターのサイズs及び各アバターの位置を表す二次元極座標(r,θ)を例示する図である。図６に示される初期状態から、各ユーザの参加度及びユーザ間の関係に応じて、各アバターのサイズs及び各アバターの位置(r,θ)が変更される。

　図９の説明に戻る。ステップＳ７の後、テレビ会議装置５０は、合成部１１３の機能により、ステップＳ７でアバターパラメータテーブルに記憶されたアバターパラメータに基づいて、各アバターの画像を合成して、仮想会議室に各アバターを配置した画像を生成する（ステップＳ８）。図１８は、図１７に例示されるアバターパラメータに基づいて、仮想会議室に各アバターを配置した状態を例示する図である。図１９は、図１８の状態を三次元ＣＧとしてレンダリングして生成した画像を例示する図である。そして、テレビ会議装置５０は、表示制御部１１４の機能により、ステップＳ８で生成した生成した画像を表示部５５に表示させる（ステップＳ９）。例えば図１９に示されるような画像が表示される。この画像を見ると、ユーザＩＤが「４」のユーザとユーザＩＤが「５」が同じグループであり、このグループが、ユーザＩＤが「１」のユーザと対話を行っていること、ユーザＩＤが「３」のユーザはオブザーバ的に存在すること、ユーザＩＤが「２」のユーザはあまり重要でないこと、ユーザＩＤが「４」のユーザが長く喋りがちであることなどが判断できる。

　以上のように、テレビ会議システムにおいて、発言者情報と視線情報とを用いて会議状態履歴情報を生成し、これを用いて各ユーザを表すアバターの位置及びサイズを決定し、仮想会議室に配置した各アバターを表示することで、各ユーザの参加度やユーザ同士の関係などの会議の全体的な状況を、自動的に且つ分かりやすく自然に提示することができる。

[第２の実施の形態]
　次に、テレビ会議装置の第２の実施の形態について説明する。なお、上述の第１の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。

　本実施の形態にかかるテレビ会議システムでは、中央サーバに、複数のテレビ会議装置５０´がネットワークを介して接続され、各テレビ会議装置５０´は、中央サーバを介して通信を行なう。中央サーバは、例えば、MCU（Multipoint　Control　Unit）や、上述した通常のコンピュータを利用したハードウェア構成となっている。

　図２０は、中央サーバ２００と、テレビ会議装置５０´との機能的構成を例示する図である。同図においては、図の簡略化のため、中央サーバ２００に接続される１つのテレビ会議装置５０´についてのみ図示しているが、中央サーバ２００に接続される他のテレビ会議装置５０´についても同様の構成である。中央サーバ２００は、音声情報受信部１０６と、アバター情報受信部１０８と、発言者情報抽出部１０７と、視線情報抽出部１０９と、会議状態履歴管理部１１１と、会議状態履歴送信部２０１と、音声情報送信部(不図示)とを有する。発言者情報抽出部１０７と、視線情報抽出部１０９と、会議状態履歴管理部１１１との各構成は、上述の第１の実施の形態と略同様である。音声情報受信部１０６は、当該中央サーバ２００に接続される全てのテレビ会議装置５０´の音声情報送信部１０３が各々送信した音声情報を各々受信する。アバター情報受信部１０８は、当該中央サーバ２００に接続される全てのテレビ会議装置５０´のアバター情報送信部１０５が各々送信したアバター情報を各々受信する。会議状態履歴送信部２０１は、会議状態履歴管理部１１１の有する会議状態履歴テーブルに記憶された会議状態履歴情報を、ネットワークを介して、中央サーバ２００に接続される全てのテレビ会議装置５０´に送信する。音声情報送信部は、音声情報受信部１０６が情報処理装置５０´から受信した音声情報を他の情報処理装置５０´に各々送信する。

　テレビ会議装置５０´は、録音部１０２と、音声情報送信部１０３と、生成部１０４と、アバター情報送信部１０５と、音声情報受信部１０６と、会議状態履歴受信部２０２と、決定部１１２と、合成部１１３と、表示制御部１１４と、音声情報受信部(不図示)とを有する。決定部１１２と、合成部１１３と、表示制御部１１４との各構成は、上述の第１の実施の形態と略同様である。会議状態履歴受信部２０２は、中央サーバ２００の会議状態履歴送信部２０１から送信された会議状態履歴情報を受信して、これをＲＡＭなどの主記憶部に記憶させる。複数の会議状態履歴情報が主記憶部に記憶されることにより、図５に例示される会議状態履歴テーブルが構成される。音声情報受信部は、中央サーバ２００から送信された、他のテレビ会議装置５０´の音声情報を受信し、当該音声情報によって表される音声を、音声出力部５９から出力させる。

　次に、本実施の形態にかかる中央サーバ２００の行う会議状態履歴情報送信処理の手順について図２１を用いて説明する。ステップＳ１～Ｓ６は上述の第１の実施の形態と同様である。ステップＳ２０では、中央サーバ２００は、ステップＳ６で新たに生成した会議状態履歴情報を、会議状態履歴送信部２０１の機能により、ネットワークを介して、中央サーバ２００に接続される全てのテレビ会議装置５０´に送信する。

　次に、本実施の形態にかかるテレビ会議装置５０´の行う会画像表示処理の手順について図２２を用いて説明する。テレビ会議装置５０´は、中央サーバ２００から送信された会議状態履歴情報を受信してこれを主記憶部に記憶させる（ステップＳ２１）。ステップＳ７～Ｓ９は上述の第１の実施の形態と同様である。

　以上のように、テレビ会議システムにおいて、中央サーバ２００を介することによっても、各ユーザの参加度やユーザ同士の関係などの会議の全体的な状況を、自動的に且つ分かりやすく自然に提示することができる。また、中央サーバ２００が、発言者情報と視線情報とを用いて会議状態履歴情報を生成してこれをテレビ会議装置５０´に送信することで、テレビ会議装置５０´が会議状態履歴情報を生成する必要がないので、テレビ会議装置５０´の処理負担を軽減することができる。

[変形例]
　なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。

　上述した第１の実施の形態において、テレビ会議装置５０で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Digital　Versatile　Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供するように構成しても良い。第２の実施の形態におけるテレビ会議装置５０´で実行される各種プログラム及び中央サーバ２００で実行される各種プログラムについても同様である。

　上述した各実施の形態においては、録音部１０２と、音声情報送信部１０３と、生成部１０４と、アバター情報送信部１０５と、音声情報受信部１０６と、発言者情報抽出部１０７と、アバター情報受信部１０８と、視線情報抽出部１０９と、会議状態履歴管理部１１１と、決定部１１２と、合成部１１３部とは、電子回路等のハードウェアにより構成されても良い。また、これらの各部の全部又は一部は、各々異なるプロセッサにより構成され、ＬＡＮやインターネット等のネットワークを介して接続されるようにしても良い。

　上述した第１の実施の形態においては、テレビ会議システムに接続されるテレビ会議装置は、当該実施の形態にかかる構成を有するテレビ会議装置５０であるとしたが、これに限らず、テレビ会議システムに接続される一部のテレビ会議装置が、当該実施の形態にかかるテレビ会議装置５０であっても良い。第２の実施の形態においても同様に、中央サーバ２００に接続される一部のテレビ会議装置が、当該実施の形態にかかる構成を有するテレビ会議装置５０´であっても良い。

　また、上述した第１の実施の形態においては、テレビ会議装置５０は、生成部１０４及びアバター情報送信部１０５を備えなくても良い。この場合、テレビ会議装置５０が会議状態履歴情報の生成に用いるアバター情報には、他のテレビ会議装置５０から受信したアバター情報のみを用いる。上述の第２の実施の形態においても同様に、テレビ会議装置５０´は、生成部１０４及びアバター情報送信部１０５を備えなくても良い。この場合、中央サーバ２００が会議状態履歴情報の生成に用いるアバター情報には、他のテレビ会議装置５０´から受信したアバター情報のみを用いる。会議状態履歴情報の送信は、アバター情報を送信していないテレビ会議装置５０´を含む、当該中央サーバ２００に接続される他のテレビ会議装置５０´に対して行えば良い。

　上述した第１の実施の形態においては、テレビ会議装置５０は、会議後に当該会議の画像を再生可能であっても良い。この場合、テレビ会議装置５０は、ユーザが操作入力部５７を介して、過去の時刻を指定して会議の画像の再生を指示すると、会議状態履歴管理部１１１は指定された時刻の会議状態履歴情報を取得して、これを決定部１１２に渡す。決定部１１２は、上述と同様にして、当該会議状態履歴情報を用いて、アバターパラメータを決定しても良い。また、決定部１１２は、指定された時刻よりも後の時刻の会議状態履歴情報を用いて、アバターパラメータを決定しても良い。

　上述した第２の実施の形態においても、テレビ会議装置５０´は、中央サーバ２００から受信した会議状態履歴情報をＨＤＤなどの補助記憶部に保存しておき、ユーザが操作入力部５７を介して、過去の時刻を指定して会議の画像の再生を指示すると、決定部１１２が指定された時刻の会議状態履歴情報を取得するようにしても良い。

　上述の各実施の形態においては、姿勢情報は、注視対象ユーザＩＤに限らず、ユーザの各関節の角度や表情のパラメータなどのユーザの姿勢を表す情報を含んでも良く、この情報によって表される姿勢を、アバターの画像に反映させるようにしても良い。また、アバター情報は、アバターの画像を合成するためのその他の情報を含んでいても良い。また、ユーザの視線を向いている方向を判断する方法は、上述のものに限らない。

　上述の各実施の形態においては、アバターパラメータは上述のものに限らない。また、アバターパラメータを決定する上で「場」の中心を中心とする極座標系を定義したが、アバターの位置を定義可能な別の形態であっても良い。例えば直行する二軸からなる通常の二次元座標系を想定できる。また、アバターパラメータを決定する方法は、上述の方法に限らない。例えば、時間が経つと徐々に初期位置に戻っていくようなものであっても良い。一般的には自動レイアウト手法として知られるアルゴリズムが適応できる。また、複雑な地形を持つ仮想世界において、関係距離の近いアバター同士が「小部屋」に集まろうとする性質を持つものが考えられる。さらに、画像の合成に用いるカメラの位置についても固定されている必要はない。

　上述の第１の実施の形態においては、テレビ会議装置５０は、音声情報やアバター情報の送信を、これを受信する側のテレビ会議装置５０からの要求に応じて行うようにしても良い。第２の実施の形態においても同様に、テレビ会議装置５０´は、音声情報やアバター情報の送信を、中央サーバ２００からの要求に応じて行うようにしても良い。

　また、第２の実施の形態においては、中央サーバ２００は、会議状態履歴情報の送信を、これを受信する側のテレビ会議装置５０´からの要求に応じて行うようにしても良い。例えば、テレビ会議装置５０´の会議状態履歴受信部２０２は、表示制御部１１４が表示部５５に表示させる画像を更新するタイミングに合わせて、会議状態履歴情報を中央サーバ２００の会議状態履歴送信部２０１に要求するようにしても良い。

　上述の第１の実施の形態においては、特に会議状態履歴管理部１１１は、例えばデータベースであって、発言者情報抽出部１０７はデータベースに発言者情報に記憶させ、視線情報抽出部１０９はデータベースに視線情報を記憶させ、決定部１１２は、データベースにクエリ送ることで、会議状態履歴情報を取得するようにしても良い。

　また、第２の実施の形態においては、会議状態履歴送信部２０１は、会議状態履歴管理部１１１にクエリを送ることで、会議状態履歴情報を取得しても良い。

　上述の各実施の形態においては、会議状態履歴情報やアバターパラメータは、連続する複数の会議をまたがって保存されるものであっても良い。この場合、同じ参加者で再開される会議においては、テレビ会議装置は、当該会議の開始時に、例えば、図６に示される初期状態ではなく、前回の会議で決定されたアバターパラメータによって示される各アバターのサイズ及び位置を用いて、仮想会議室に各アバターを配置した画像を表示部５５に表示させる。これにより、現在の会議の開始時に、前回の会議状態が再現され、最初から分かりやすい提示を行うことができる。

　上述の各実施の形態においては、参加者であるユーザのうち発言者について、注視した対象のユーザＩＤ（注視対象ユーザＩＤ）を抽出して、これを会議状態履歴情報に記憶したが、全ての参加者について、注視対象ユーザＩＤを抽出してこれを会議状態履歴情報に記憶するようにしても良い。

　上述の第２の実施の形態においては、中央サーバ２００が、会議状態履歴送信部２０１を有するのではなく、決定部１１２を有し、決定部１１２が、会議状態履歴情報を用いて、アバターパラメータを決定してこれを、中央サーバ２００に接続される全て又は一部のテレビ会議装置５０´に送信するようにしても良い。一方、中央サーバ２００に接続される全て又は一部のテレビ会議装置５０´は、会議状態履歴受信部２０２ではなく、中央サーバ２００から送信されたアバターパラメータを受信するアバターパラメータ受信部を有し、受信したアバターパラメータを用いて画像を生成するようにしても良い。

　上述の第２の実施の形態においては、中央サーバ２００が、テレビ会議装置５０´から受信した音声情報を、中央サーバ２００に接続される他のテレビ会議装置５０´に送信したが、テレビ会議装置５０´間で互いに音声情報の送受信するようにしても良い。

　上述の第１の実施の形態においては、テレビ会議装置５０は、撮影部５６が撮影した映像を表す映像情報を他のテレビ会議装置５０に送信し、他のテレビ会議装置５０から送信された映像情報を受信し、当該映像情報によって表される映像を表示部５５に表示させるようにしても良い。例えば、テレビ会議装置５０は、表示部５５における表示領域を分割して、分割された各表示領域に複数の映像を各々表示させる。この場合、他の情報処理装置５０から送信された映像情報によって表される映像と、ステップＳ８で生成された画像とは、表示部５５の各々異なる表示領域に表示させるようにしても良いし、重ねて表示させるようにしても良い。重ねて表示させる場合には、一方の透明度を増すようにしても良い。また、情報処理装置５０は表示部５５を複数備え、他の情報処理装置５０から送信された映像情報によって表される映像と、ステップＳ８で生成された画像とを各々異なる表示部５５に表示させるようにしても良い。

　上述の第２の実施の形態においても、テレビ会議装置５０´は、撮影部５６が撮影した映像を表す映像情報を中央サーバ２００に送信し、他のテレビ会議装置５０´から送信された映像情報を中央サーバ２００を介して受信し、当該映像情報によって表される映像を表示部５５に表示させるようにしても良い。この場合、中央サーバ２００は、テレビ会議装置５０´から送信された映像情報を受信すると、これを他のテレビ会議装置５０´に送信すれば良い。また、テレビ会議装置５０´間で互いに映像情報の送受信するようにしても良い。

５０，５０´　テレビ会議装置
５１　制御部
５２　主記憶部
５３　補助記憶部
５５　表示部
５６　撮影部
５７　操作入力部
５８　音声入力部
５９　音声出力部
１０２　録音部
１０３　音声情報送信部
１０４　生成部
１０５　アバター情報送信部
１０６　音声情報受信部
１０７　発言者情報抽出部
１０８　アバター情報受信部
１０９　視線情報抽出部
１１１　会議状態履歴管理部
１１２　決定部
１１３　合成部
１１４　表示制御部
２００　中央サーバ
２０１　会議状態履歴送信部
２０２　会議状態履歴受信部

Claims

　異地点にいる複数の参加者が参加する会議において発言した参加者と、当該参加者が注視した相手の参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を取得する取得部と、
　前記会議状態履歴情報を用いて、前記複数の参加者を各々モデル化した各モデル画像を描画するためのパラメータを決定する決定部と、
　前記パラメータに従って、各前記モデル画像を合成する合成部と、
　合成された前記モデル画像を表示部に表示させる表示制御部とを備える
ことを特徴とするテレビ会議装置。
　他のテレビ会議装置から送信された、第１参加者の発言を表す第１音声情報から、発言者である第１参加者と発言の有無とを示す発言者情報を抽出する第１抽出部と、
　前記他のテレビ会議装置から送信された、前記第１参加者の姿勢に関する第１姿勢情報から、前記第１参加者が注視した相手である第２参加者を示す視線情報を抽出する第２抽出部と、
　前記発言者情報及び前記視線情報を用いて、前記第１参加者と、前記第２参加者と、発言の有無を示す発言状態情報とを時刻と共に示す会議状態履歴情報を生成する生成部と、
　前記会議状態履歴情報を記憶する記憶部とを更に備え、
　前記取得部は、前記記憶部に記憶された前記会議状態履歴情報を取得する
ことを特徴とする請求項１に記載のテレビ会議装置。
　前記記憶部は、複数の会議に関する前記会議状態履歴情報を記憶し、
　前記決定部は、過去の会議に関する前記会議状態履歴情報及び現在の会議に関する前記会議状態履歴情報を用いて、前記パラメータを決定し、
　前記合成部は、現在の会議の開始時に、過去の会議に関する前記会議状態履歴情報を用いて決定された前記パラメータに従って、各前記モデル画像を合成する
ことを特徴とする請求項２に記載のテレビ会議装置。
　前記決定部は、第１時刻における前記パラメータを、当該第１時刻より後の第２時刻を示す前記会議状態履歴情報を用いて決定する
ことを特徴とする請求項３に記載のテレビ会議装置。
　前記取得部は、前記会議状態履歴情報をサーバから受信する
ことを特徴とする請求項１に記載のテレビ会議装置。
　当該テレビ会議装置のユーザである第３参加者の発言を表す音声情報を前記他のテレビ会議装置又はサーバに送信する第１送信部と、
　前記第３参加者を撮影した映像を用いて判断した前記第３参加者の姿勢に関する姿勢情報を前記他のテレビ会議装置又はサーバに送信する第２送信部とを更に備える
ことを特徴とする請求項１に記載のテレビ会議装置。
　前記合成部は、仮想会議室に複数の前記モデル画像を配置した画像を生成し、
　前記決定部は、前記会議状態履歴情報を用いて、前記仮想会議室において前記モデル画像を配置する位置及びサイズである前記パラメータを決定する
ことを特徴とする請求項１に記載のテレビ会議装置。