WO2017098999A1

WO2017098999A1 - 情報処理装置、情報処理システム、情報処理装置の制御方法、及び、コンピュータープログラム

Info

Publication number: WO2017098999A1
Application number: PCT/JP2016/085827
Authority: WO
Inventors: 杢屋　銑一; 博松下; 中島　靖雅
Original assignee: セイコーエプソン株式会社
Priority date: 2015-12-07
Filing date: 2016-12-01
Publication date: 2017-06-15
Also published as: JPWO2017098999A1

Abstract

臨場感のある複数の他拠点の画像を表示するための技術を提供する。　情報処理装置は複数の他拠点と通信し、他拠点の人物の視線に関する他拠点視線情報と、他拠点の人物を表す情報を含む他拠点人物情報と、を含む他拠点元情報を受信する通信部と、表示装置の表示画面における他拠点画像の表示位置を表す表示位置情報を取得し、視線情報と表示位置情報とに基づいて、他拠点人物情報から他拠点画像を生成する表示画像生成部と、表示装置に他拠点画像を表示させる表示制御部と、を備える。

Description

情報処理装置、情報処理システム、情報処理装置の制御方法、及び、コンピュータープログラム

　本発明は、他拠点画像を表示するための技術に関する。

　従来、複数の拠点をネットワークを介して接続したテレビ会議システムが知られている（例えば、特許文献１）。従来のテレビ会議システムでは、複数の他拠点の参加者の画像が自拠点のモニターに表示される。また従来、テレビ会議の臨場感を高める方法として、撮像側の空間の３次元画像を生成し、３次元画像から表示側の視点位置に応じた２次元画像を表示装置に表示させる技術が知られている（例えば、特許文献２）。また従来、通信相手と視線が合った状態で会話を行うために、多数の方向から撮影した画像を、視聴者の視線方向に応じて表示する技術が知られている（例えば、特許文献３）。

特開２００５－２４４７４４号公報特開２０１４－７２８８０号公報特開平５－２２７２２号公報

　特許文献１の技術では、複数の他拠点のカメラが撮像した参加者の画像を自拠点に転送し、自拠点のモニターに複数の他拠点の参加者の画像が表示される。特許文献１の技術では、特定の参加者が別の参加者に視線を送ったり、特定の参加者を指差すなどの指示動作を行うことできないので、臨場感が乏しくなる場合があった。また特許文献２の技術では、自拠点のモニターに表示された画像において、各拠点の参加者がどの拠点の参加者を見ているかを表すことは困難である。また、特許文献３の技術では、ある拠点の参加者と他の拠点の参加者とが視線を合わすためには参加者の左右の移動だけではなく、参加者の上下方向の視線についても調整する必要がある。視線を合わすためには被写体の視線高さに合わせてカメラをセットする必要があり、様々な状況（参加者の身長差や参加者が座っているか立っているかなどの状況）に柔軟に対応することが困難な場合がある。

　よって、自拠点の表示装置に臨場感のある複数の他拠点の画像を容易に表示するための技術が望まれている。また、従来の技術において、低コスト化、省資源化、製造の容易化、使い勝手の向上等が望まれている。このような課題は、ＴＶ会議システムに限らず、複数の他拠点の画像を自拠点で表示する技術に共通する。

　本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の形態又は適用例として実現することが可能である。

（１）本発明の一形態によれば、情報処理装置が提供される。この情報処理装置は、複数の他拠点と通信し、自拠点の表示装置が有する表示画面に前記他拠点の人物画像を含む他拠点画像を表示させるための他拠点元情報であって、前記他拠点の人物の視線に関する他拠点視線情報と、前記他拠点の人物を表す情報を含む他拠点人物情報と、を含む他拠点元情報を受信する通信部と、前記表示装置の表示画面における前記他拠点画像の表示位置を表す表示位置情報を取得し、前記他拠点視線情報と前記表示位置情報とに基づいて、前記他拠点人物情報から前記他拠点画像を生成する表示画像生成部と、前記表示装置に前記他拠点画像を表示させる表示制御部と、を備える。この形態によれば、他拠点視線情報と表示位置情報とに基づいて他拠点画像を生成できるので、臨場感を高めた他拠点画像を表示画面に表示させることができる。

（２）上記形態であって、前記表示画像生成部は、前記他拠点視線情報に基づいて、特定の前記他拠点に配置された表示装置の表示画面に表示された前記自拠点の人物及び他の前記他拠点の人物の中から、特定の前記他拠点の前記人物が見ている対象人物を特定し、前記自拠点の前記表示画面において前記特定の前記他拠点の人物が前記対象人物の方向を向くような前記他拠点画像を前記他拠点人物情報から生成しても良い。この形態によれば、他拠点の人物がそれぞれの拠点の表示画面で見ている対象人物の方向を向くような他拠点画像を自拠点の表示画面に表示できるため、より臨場感を高めた他拠点画像を生成できる。

（３）上記形態であって、前記他拠点の人物を表す情報は、他拠点の人物画像を含む他拠点元画像であり、前記表示画像生成部は、前記自拠点の前記表示画面において、前記対象人物が位置する一方の側から反対の側に向かって表示領域が大きくなる前記他拠点画像を前記他拠点元画像から生成しても良い。この形態によれば、他拠点画像の表示領域が一方の側から反対の側に向かって大きくなることで、対象人物の方向を向くような他拠点画像を生成できる。

（４）上記形態であって、前記他拠点の人物を表す情報は、前記他拠点の人物の３次元モデルであり、前記表示画像生成部は、前記他拠点視線情報に基づいて、特定の前記他拠点に配置された表示装置の表示画面に表示された自拠点の人物及び他の前記他拠点の人物の中から、前記特定の前記他拠点の前記人物が見ている対象人物を特定し、前記自拠点の前記表示画面において、前記特定の前記他拠点の人物が前記対象人物の方向を向くような前記他拠点画像を、前記３次元モデルを回転させて生成しても良い。この形態によれば、３次元モデルを回転させることで対象人物の方向を向くような他拠点画像を容易に生成できる。

（５）上記形態であって、更に、入力部を備え、前記表示制御部は、前記入力部に入力された新たな前記表示位置情報に基づいて、前記自拠点の前記表示画面に表示する前記他拠点画像の表示位置を変更し、前記表示画像生成部は、新たな前記表示位置情報に基づいて、前記３次元モデルを回転させて前記他拠点画像を生成しても良い。この形態によれば、新たな表示位置情報に基づいて３次元モデルを回転させて他拠点画像を生成できる。

（６）上記形態であって、前記通信部は、前記自拠点に配置された撮像部と通信し、前記撮像部によって撮像された撮像画像を受信し、前記情報処理装置は、更に、前記自拠点の人物の視線に関する自拠点視線情報を生成するための視線情報生成部と、前記撮像画像に基づいて、前記自拠点の人物を表す情報を含む自拠点人物情報を生成するための人物情報生成部と、を備え、前記通信部は、前記自拠点人物情報と前記自拠点視線情報とを含む自拠点元情報を前記複数の他拠点に送信しても良い。この形態によれば、自拠点人物情報と自拠点視線情報とを含む自拠点元情報を他拠点の情報処理装置が他拠点画像を生成できる。

（７）上記形態であって、前記自拠点視線情報は、前記自拠点を識別するための自拠点識別情報と、前記自拠点の前記表示画面に表示された複数の前記他拠点画像のうち、前記自拠点の人物の視線が示す特定の前記他拠点画像を識別するための特定他拠点識別情報と、を少なくとも含んでも良い。この形態によれば、自拠点視線情報が、自拠点識別情報を含むので、自拠点視線情報が自拠点によって生成されたことを容易に特定できる。

（８）上記形態であって、前記人物情報生成部は、前記撮像画像に基づいて、前記自拠点の人物を含む対象物の３次元モデルを前記自拠点の人物を表す情報として生成しても良い。この形態によれば、自拠点の人物を表す情報を３次元モデルとして生成できる。

（９）上記形態であって、前記通信部は、前記撮像画像が表す撮像対象物の深度情報を受信し、前記人物情報生成部は、前記撮像画像と、前記深度情報とに基づいて前記３次元モデルを生成しても良い。この形態によれば、撮像画像と深度情報とに基づいて３次元モデルを生成できる。

　例えば、本発明の一形態において、通信部と、表示画像生成部と、表示制御部と、の複数の要素の内の１つ以上の要素を備えた装置としても実現可能である。すなわち、この装置は、通信部を有していても良く、有していなくても良い。また、この装置は、表示画像生成部を有していても良く、有していなくても良い。また、この装置は、表示制御部を有していても良く、有していなくても良い。このような各種形態によれば、装置の小型化、低コスト化、省資源化、製造の容易化、使い勝手の向上等の種々の課題の少なくとも１つを解決できる。また前述した情報処理装置の各形態の技術的特徴の一部又は全部は、いずれもこの装置又は方法に適用することが可能である。

　なお、本発明は、種々の形態で実現することが可能であり、情報処理装置、情報処理装置を含む情報処理システム、情報処理装置の制御方法、これらの装置、システム、方法の機能を実現するためのコンピュータープログラム、そのコンピュータープログラムを記憶した記憶媒体等の形態で実現することができる。

本発明の実施形態としてのテレビ会議システムを説明するための図である。拠点に配置された情報処理システムの機能的に示すブロック図である。表示装置の正面図である。ＣＰＵが実行する視線情報生成工程の処理フローである。ＣＰＵが実行する自拠点人物情報の生成工程の処理フローである。ＣＰＵが実行する他拠点画像の生成工程の処理フローである。他拠点画像を示す第１の図である。他拠点画像を示す第２の図である。他拠点画像を示す第３の図である。変形例である自拠点人物情報の生成工程の処理フローである。変形例の他拠点画像の生成工程の処理フローである。他拠点元画像から他拠点画像の生成工程の具体例である。３次元モデルの生成工程を説明するための図である。

Ａ．実施形態：
Ａ－１：画像送受信システムの構成：
　図１は、本発明の実施形態としてのテレビ会議システム１０を説明するための図である。テレビ会議システム１０は、複数の拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘのそれぞれに配置された情報処理装置６０をインターネットＩＮＴを介して接続したシステムである。各拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘの表示装置に表示された他の拠点の参加者２２Ａ，２２Ｂ，２２Ｃ、２２Ｘの動画と、音声出力部によって出力された他の拠点の音声とを送受信してテレビ会議が開催される。

　それぞれの情報処理装置６０は、インターネットＩＮＴを介してデータを送受信できる。ここで、複数の拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘのうち、拠点２０Ｘを自拠点とし、拠点２０Ａ，２０Ｂ，２０Ｃを他拠点２０Ｙとする。また、自拠点２０Ｘの情報処理装置６０を「自拠点情報処理装置６０Ｘ」とも呼び、他拠点２０Ｙの情報処理装置６０を「他拠点情報処理装置６０Ｙ」とも呼ぶ。拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘは例えば会議室や教室である。なお、拠点の数は４つに限られるものではなく、４つ未満でまっても良いし５つ以上であっても良い。各拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘを区別することなく用いる場合は符号「２０」を用いる。また、参加者２２Ａ，２２Ｂ，２２Ｃ、２２Ｘを区別することなく用いる場合は、符号「２２Ｙ」を用いる。

　自拠点情報処理装置６０Ｘは、他拠点情報処理装置６０Ｙから他拠点元情報ＤＲＹと、音声情報ＳＤＹとを受信する。他拠点元情報ＤＲＹは、自拠点表示装置６０Ｘに後述する他拠点画像を表示させるために用いる情報である。他拠点元情報ＤＲＹは、他拠点視線情報ＤＳＹと他拠点人物情報ＤＰＹとを含む。他拠点視線情報ＤＳＹは、他拠点２０Ａ，２０Ｂ，２０Ｃの参加者２２Ａ，２２Ｂ，２２Ｃの視線に関する情報を含む。他拠点人物情報ＤＰＹは、他拠点２０Ａ，２０Ｂ，２０Ｃの参加者２２Ａ，２２Ｂ，２２Ｃを表す情報と、他拠点２０Ａ，２０Ｂ，２０Ｃを識別するための識別情報と、を含む。参加者２２Ａ，２２Ｂ，２２Ｃを表す情報としては、参加者２２Ａ，２２Ｂ，２２Ｃのそれぞれの撮像画像から生成した参加者２２Ａ，２２Ｂ，２２Ｃの顔を含む３次元モデルであっても良いし、参加者２２Ａ，２２Ｂ，２２Ｃの顔を含む撮像画像であっても良い。本実施形態では、参加者２２Ａ，２２Ｂ，２２Ｃを表す情報は、参加者２２Ａ，２２Ｂ，２２Ｃの顔を含む３次元モデルである。他拠点元情報ＤＲＹと音声情報ＳＤＹは互いに同期されている。

　図２は、拠点２０に配置された情報処理システム１００の機能を示すブロック図である。図３は、表示装置７０の正面図である。なお、各拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘの情報処理システム１００は同一の構成である。以下では、代表して拠点２０Ｘの情報処理システム１００を説明する。

　情報処理システム１００は、他拠点２０Ｙの情報処理装置６０で生成した参加者２２Ｙの他拠点視線情報ＤＳＹ及び３次元モデルを自拠点２０Ｘの情報処理装置６０Ｘが受信し、受信した他拠点視線情報ＤＳＹに基づいて受信した３次元モデルを含む他拠点人物情報ＤＰＹから、他拠点２０Ｙの画像である他拠点画像を表示装置７０の表示画面に表示させるシステムである。情報処理システム１００は、パートナルコンピューター（ＰＣ）やダブレット端末として実現されても良い。また、情報処理システム１００の表示装置７０は、ＰＣやタブレット端末の表示部であっても良いし、ＰＣやタブレット端末とは別体の大型ＦＰＤ（flat panel display）やプロジェクターであっても良い。

　情報処理システム１００は、２つの撮像部としてのカメラモジュール５０Ａ，５０Ｂと、情報処理装置６０と、表示装置７０とを備える。２つのカメラモジュール５０Ａ，５０Ｂを区別することなく用いる場合は、符号「５０」を用いる。

　図３に示すように、表示装置７０は液晶パネルなどで構成された表示部としての表示画面７１と、音声を出力する音声出力部７６とを備える。表示画面７１には、表示画面７１の横方向に沿って３つの拠点画像表示画面２３Ｐ１～２３Ｐ３と、他拠点２０Ａ，２０Ｂ，２０Ｃの画像である第１～第３他拠点画像７２Ａ，７２Ｂ，７２Ｃと、楕円状のテーブルなどの仮想画像７０２が表示されている。第１他拠点画像７２Ａは、他拠点２０Ａの他拠点情報処理装置６０Ｙから受信した他拠点人物情報ＤＰＹを元に自拠点情報処理装置６０Ｘによって生成される。第２他拠点画像７２Ｂは、他拠点２０Ｂの他拠点情報処理装置６０Ｙから受信した他拠点人物情報ＤＰＹを元に自拠点情報処理装置６０Ｘによって生成される。第３他拠点画像７２Ｃは、他拠点２０Ｃの他拠点情報処理装置６０Ｙから受信した他拠点人物情報ＤＰＹを元に自拠点情報処理装置６０Ｘによって生成される。

　第１他拠点画像７２Ａは、他拠点２０Ａの参加者２２Ａの顔を含む人物画像２２ＡＩである。第２他拠点画像７２Ｂは、他拠点２０Ｂの参加者２２Ｂの顔を含む人物画像２２ＢＩである。第３他拠点画像７２Ｃは、他拠点２０Ｃの参加者２２Ｃの顔を含む人物画像２２ＣＩである。人物画像２２ＡＩ～２２ＣＩの背景となる背景画像は、各拠点２０Ａ，２０Ｂ，２０Ｃの背景画像である実背景画像であっても良いし、自拠点情報処理装置６０Ｘが生成した仮想背景画像であっても良い。すなわち、各他拠点画像７２Ａ～７２Ｃは、実背景画像を含んでも良い。仮想背景画像は、例えば、青色などのカラー画像であっても良い。第１～第３他拠点画像７２Ａ，７２Ｂ，７２Ｃを区別することなく用いる場合は「他拠点画像７２Ｙ」を用いる。また、自拠点２０Ｘの表示装置７０を「自拠点表示装置７０Ｘ」とも呼び、他拠点２０Ｙの表示装置７０を「他拠点表示装置７０Ｙ」とも呼ぶ。

　他拠点画像７２Ａ，７２Ｂ，７２Ｃと仮想画像７０２の表示画面７１における表示位置は、自拠点２０Ｘの参加者２２Ｘが情報処理装置６０に表示位置を入力することで変更可能である。他拠点画像７２Ａ，７２Ｂ，７２Ｃは、３つの拠点画像表示画面２３Ｐ１～２３Ｐ３のいずれかに配置される。図３では、拠点画像表示画面２３Ｐ１に第１他拠点画像７２Ａが表示され，拠点画像表示画面２３Ｐ２に第２他拠点画像７２Ｂが表示され，拠点画像表示画面２３Ｐ３に第３他拠点画像７２Ｃが表示されている。また、仮想画像７０２は、各画像７２Ａ，７２Ｂ，７２Ｃの下に表示されている。すなわち、テーブル７０２を囲んで参加者２２Ａ，２２Ｂ，２２Ｃ，２２Ｘが着席して会議を行っているように表示画面７１に他拠点２０Ａ，２０Ｂ，２０Ｃの参加者２２Ａ，２２Ｂ，２２Ｃが表示されている。これにより、テレビ会議の臨場感を高めることができる。また、各拠点画像表示画面２３Ｐ１，２３Ｐ２，２３Ｐ３は、テーブル７０２をあたかも囲んでいるような外形形状を有する。すなわち、拠点画像表示画面２３Ｐ１は、右端が左端よりも小さい台形形状である。また、拠点画像表示画面２３Ｐ１は、長方形の外形形状である。また、拠点画像表示画面２３Ｐ２は、左端が右端よりも小さい台形形状である。これにより、テレビ会議の臨場感を更に高めることができる。

　図３に示す第１～第３他拠点画像７２Ａ，７２Ｂ，７２Ｃは、以下の状況（１）～（３）のときに表示される画像である。
（１）拠点２０Ａの参加者２２Ａが、拠点２０Ａの表示装置７０に表示された他拠点画像７２Ｙのうち、拠点２０Ｂの参加者２２Ｂの画像を見ている状況。
（２）拠点２０Ｂの参加者２２Ｂが、拠点２０Ｂの表示装置７０に表示された他拠点画像７２Ｙのうち、拠点２０Ｘの参加者２２Ｘの画像を見ている状況。
（３）拠点２０Ｃの参加者２２Ｃが、拠点２０Ｃの表示装置７０に表示された他拠点画像７２Ｙのうち、拠点２０Ｂの参加者２２Ｂの画像を見ている状況。

　上記状況（１）～（３）のときは、自拠点情報処理装置６０Ｘによって図３に示す第１～第３他拠点画像７２Ａ～７２Ｃが生成され、自拠点表示装置７０Ｘの表示画面７１に表示される。第１他拠点画像７２Ａの人物画像２２Ａ１は、第２他拠点画像７２Ｂの人物画像２２ＢＩを向いているように表示され、第２他拠点画像７２Ｂの人物画像２２ＢＩは自拠点２０Ｘの参加者２２Ｘを向いているように表示され、第３拠点画像７２Ｃの人物画像２２ＣＩは、第２他拠点画像７２Ｂの人物画像２２ＢＩを向いているように表示される。なお、表示画像７２に表示された人物画像２２ＡＩ，２２ＢＩ，２２ＣＩを区別することなく用いる場合は、符号「２２ＩＭ」を用いる。

　２つのカメラモジュール５０Ａ，５０Ｂは、表示画面７１の幅方向両側に配置されている。音声出力部７６は、他拠点２０Ａ，２０Ｂ，２０Ｃから受信した音声を出力するスピーカーである。音声出力部７６は、表示画面７１の下側に配置されている。

　カメラモジュール５０Ａは、参加者２２Ｘの前方左側に配置されている。カメラモジュール５０Ｂは、参加者２２Ｘの前方右側に配置されている。つまり、２つのカメラモジュール５０Ａ，５０Ｂは、それぞれ異なる方向から参加者２２Ｘを含む領域を撮像する。

　図２に示すように、２つのカメラモジュール５０Ａ，５０Ｂはそれぞれ、カメラ５２と、深度センサー５４と、マイクロフォン５６とを備える。

　カメラ５２は、外部からの光を受光して撮像する機能を有する。撮像された撮像画像ＩＭＧＸは、自拠点情報処理装置６０Ｘに送信される。カメラ５２は、自拠点２０Ｘの参加者２２Ｘの顔と顔の背景とを含む領域を撮像している。本実施形態では、それぞれの拠点２０Ｘ，２０Ｙにおいて、カメラ５２の高さと、参加者２２Ｘ，２２Ｙの視線の高さは一致しているものとする。

　深度センサー５４は、カメラ５２によって撮像される撮像対象物までの距離を検出する。深度センサー５４を用いた距離の検出方式としては、例えば、光源からの射出した光が撮像対象物によって反射して受光部によって受光される時間に基づいて距離を検出する方式（ＴＯＦ方法）や、光の射出位置と受光位置とに基づいた三角測距方式が用いられる。深度センサー５４によって検出された撮像対象物までの距離を表す深度情報ＤＤＸは、撮像画像ＩＭＧＸに付加情報として付加されて、自拠点情報処理装置６０Ｘに送信される。

　マイクロフォン５６は、音声を電気信号に変換する。電気信号としての音声情報ＳＤＸは撮像画像ＩＭＧＸに同期して自拠点情報処理装置６０Ｘに送信される。

　自拠点情報処理装置６０Ｘは、通信部６２と、記憶部６４と、制御部としてのＣＰＵ６６と、入力部６５と、を備える。通信部６２と、記憶部６４と、ＣＰＵ６６と、入力部６５とは互いにバスを介して接続されている。記憶部６４は、ＲＯＭ６４２と、ＲＡＭ６４４とを有する。

　ＲＡＭ６４４には、表示制御部６６３によって生成される他拠点画像７２Ａ，７２Ｂ，７２Ｃの表示位置を表す表示位置情報ＬＤと、表示画像生成部６６２が他拠点画像７２Ａ，７２Ｂ，７２Ｃを生成するために参照する参照テーブルＴＢが記憶されている。

　表示位置情報ＬＤは、表示装置７０Ｘの表示画面７１における他拠点画像７２Ａ，７２Ｂ，７２Ｃの表示位置を表す。表示位置情報ＬＤは、表示画面７１における他拠点画像７２Ａ，７２Ｂ，７２Ｃのそれぞれの相対的な位置関係を表す相対位置情報によって表示位置を表しても良い。例えば、表示位置情報ＬＤが「Ｐ７２Ａ，Ｐ７２Ｂ，Ｐ７２Ｃ」である場合、表示画面７１の左から順に他拠点画像７２Ａ，７２Ｂ，７２Ｃが表示され、表示位置情報ＬＤが「Ｐ７２Ａ，Ｐ７２Ｃ，Ｐ７２Ｂ」である場合は、表示画面７１の左から順に他拠点画像７２Ａ，７２Ｃ，７２Ｂが表示される。表示位置情報ＬＤは、他拠点画像７２Ａ，７２Ｂ，７２Ｃの表示位置の相対的な位置関係を示す情報であれば上記に限定されるものではない。例えば、他拠点画像７２Ａ，７２Ｂ，７２Ｃと、各他拠点画像７２Ａ，７２Ｂ，７２Ｃが表示される拠点画像表示画面２３Ｐ１，２３Ｐ２，２３Ｐ３との対応関係を表す情報であっても良い。

　参照テーブルＴＢは、他拠点視線情報ＤＳＹと表示位置情報ＬＤとに応じてワールド座標系（Ｘｗ，Ｙｗ，Ｚｗ）から視点座標系（Ｘ，Ｙ，Ｚ）への回転行列と平行移動ベクトルを含む変換行列式、及び、視点座標系（Ｘ，Ｙ，Ｚ）からスクリーン座標系（ｙ、ｚ）への変換行列式とが対応付けたテーブルである。

　入力部６５は、利用者からの入力を受け付ける。入力部６５は、例えば、マウスやキーボードや音声を用いた入力を受け付ける。

　通信部６２は、ＵＳＢ、ＬＡＮ、Ｂｌｌｕｅｔｏｏｔｈ，ＩｒＤＡ等の規格に準拠した入出力インターフェイスを備え、データを送受信する。例えば、通信部６２は、複数の他拠点２０Ａ，２０Ｂ，２０Ｃの他拠点情報処理装置６０Ｙと通信することで、他拠点元情報ＤＲＹと音声情報ＳＤＹとを受信する。また例えば、通信部６２は、カメラモジュール５０Ａ，５０Ｂから撮像画像ＩＭＧＸと音声情報ＳＤＸとを取得する。

　ＣＰＵ６６は、ＲＯＭ６４２に記憶された各種プログラムをＲＡＭ６４４にロードして実行することで、後述する種々の処理を実現する。なお、後述する種々の処理は、各種プログラムに基づく動作によって実現されるが、各種プログラムの少なくとも一部は、回路などのハード的な構成によって実現しても良い。

　ＣＰＵ６６は、表示画像生成部６６２と、表示制御部６６３と、視線情報生成部６６４と、人物情報生成部６６６と、モジュール制御部６６８として機能する。表示画像生成部６６２及び表示制御部６６３は、自拠点表示装置７０Ｘに他拠点画像７２Ｙを表示させる機能、及び、他拠点２０Ｙの音声情報ＳＤＹを出力させる機能を構成する。視線情報生成部６６４と、人物情報生成部６６６と、モジュール制御部６６８とは、自拠点２０Ｘが他拠点２０Ｙとして機能する場合における、他拠点元情報ＤＲＹと音声情報ＳＤＹとを生成する機能を構成する。

　表示画像生成部６６２は、ＲＡＭ６４４に記憶された表示位置情報ＬＤを取得し、他拠点情報処理装置６０Ｙから受信した他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて、他拠点人物情報ＤＰＹが含む３次元モデルを回転させて表示装置７０Ｘに表示させるための他拠点画像７２Ｙを生成する。表示制御部６６３は、表示装置７０Ｘを制御する。具体的には、示位置情報ＬＤに基づいて他拠点画像７２Ｙと仮想画像７０２とを表示装置７０Ｘの表示画面７１に表示させる。他拠点画像７２Ｙは所定のフレームレートで表示画面７１に表示される。この所定のフレームレートは、他拠点２０Ｙから送信される画像のフレームレートより低くても良い。また、表示制御部６６３は、他拠点情報処理装置６０Ｙから受信した音声情報ＳＤＹを他拠点画像７２Ｙに同期して自拠点表示装置７０Ｘの音声出力部７６によって出力させる。この表示画像生成部６６２が実行する他拠点画像７２Ｙの生成工程については後述する。

　人物情報生成部６６６は、２つのカメラモジュール５０Ａ、５０Ｂが撮像した撮像画像ＩＭＧＸに基づいて、自拠点の参加者２２Ｘを表す情報を含む自拠点人物情報ＤＰＸを生成する。人物情報生成部６６６は、計測点が異なる２つのカメラモジュール５０Ａ，５０Ｂから取得した深度情報ＤＤＸと、撮像画像ＩＭＧＸとに基づいて自拠点人物情報ＤＰＸの一部を構成する３次元モデルを生成する。３次元モデルは、カメラモジュール５０Ａ，５０Ｂのそれぞれから取得した撮像画像ＩＭＧＹを深度情報ＤＤＸに基づいてつなぎ合わせる（Ｔｒａｉａｎｇｕｌａｔｉｏｎ）。そして、２方向からのデータを合成し、合成したデータにＲＧＢの表面情報が付加する（テクスチャーマッピング）。この３次元モデルの生成工程については後述する。

　視線情報生成部６６４は、自拠点２０Ｘの参加者２２Ｘの視線に関する自拠点視線情報ＤＳＸを生成する。自拠点視線情報ＤＳＸは、自拠点２０Ｘを識別するための自拠点識別情報と、自拠点２０Ｘの参加者２２Ｘの視線方向を特定するための特定他拠点識別情報とを含む。自拠点識別情報は、自拠点視線情報ＤＳＸが生成された拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘ（情報処理装置６０Ａ，６０Ｂ，６０Ｃ，６０Ｘ）を識別するための情報である。特定他拠点識別情報は、自拠点２０Ｘの参加者２２Ｘが自拠点表示装置７０Ｘの表示画面７１に表示された複数の他拠点画像７２Ａ，７２Ｂ，７２Ｃのうちのどの画像を見ているかを示す情報である。つまり、特定他拠点識別情報は、自拠点表示装置７０Ｘの表示画面７１に表示された複数の他拠点画像７２Ａ，７２Ｂ，７２Ｃのうち、参加者２２Ｘの視線が示す特定の他拠点画像７２Ｙを識別するための情報である。自拠点視線情報ＤＳＸが、自拠点２０Ｘを識別するための自拠点識別情報を含むことで、自拠点視線情報ＤＳＸが生成された拠点を容易に特定できる。

　自拠点視線情報ＤＳＸは、例えば、以下のような文字列によって表現される。
　自拠点視線情報ＤＳＸ：Ｔ＝＞Ｖ
　ここで、「Ｔ」は、自拠点を識別するための自拠点識別情報であり、各情報処理装置６０Ａ，６０Ｂ，６０Ｃ，６０Ｘに固有の識別番号ＴＡ，ＴＢ，ＴＣ，ＴＸが付与されている。つまり、固有の識別番号ＴＡ，ＴＢ，ＴＣ，ＴＸは、各拠点２０Ａ，２０Ｂ，２０Ｃ，２０Ｘの参加者２２Ａ，２２Ｂ，２２Ｃ，２２Ｘを識別するための情報であるとも言える。「Ｖ」は、特定他拠点識別情報であり、「Ｖ」は自拠点２０Ｘの参加者２２Ｘの視線方向に位置する他拠点画像７２Ａを識別するための情報であり、他拠点画像７２Ａ，７２Ｂ，７２Ｃ，７２Ｘごとに固有の識別番号ＶＡ，ＶＢ，ＶＣ，ＶＸが付与される。「＝＞」は、視線方向を示す情報であり、Ｘに対応する参加者がＹに対応する他拠点画像７２Ｙを見ていることを示している。つまり、自拠点視線情報ＤＳＸが「ＴＡ＝＞ＶＢ」である場合は、参加者２２Ａが参加者２２Ｂの人物画像２２ＢＩを見ていることを示している。自拠点視線情報ＤＳＸは、他拠点２０Ｙから見た場合には他拠点視線情報ＤＳＹと見なすことができる。なお、参加者２２Ｙが表示装置７０以外の場所を見ている場合のように、視線方向が判別できない場合もある。その場合、自拠点視線情報ＤＳＸを「ＴＡ＝＞ＵＫ」などのようにしても良い。こうすることにより、参加者２２Ｙが表示装置７０以外の場所を見ていることを他の拠点２０に知らせることができる。

　表示画像生成部６６２は、上記の他拠点視線情報ＤＳＹに基づいて、特定の他拠点２０Ｙに配置された表示装置７０が有する表示画面７１に表示された自拠点２０Ｘの参加者２２Ｘ及び他の他拠点２０Ｙの参加者２２Ｙの中から、特定の他拠点２０Ｙに位置する参加者２２が見ている対象人物（人物画像）を特定できる。

　モジュール制御部６６８は、通信部６２を介して２つのカメラモジュール５０Ａ，５０Ｂから撮像画像ＩＭＧＸと音声情報ＳＤＸとを取得し、取得した撮像画像ＩＭＧＸと音声情報ＳＤＸをＲＡＭ６４４に記憶する。

　図４は、ＣＰＵ６６が実行する視線情報生成工程の処理フローである。モジュール制御部６６８は、撮像画像ＩＭＧＸを取得する（ステップＳ１０）。次に、視線情報生成部６６４は、撮像画像ＩＭＧＸに基づいて自拠点２０Ｘの参加者２２Ｘの視線の方向を検出する（ステップＳ１２）。具体的には、視線情報生成部６６４は、撮像画像ＩＭＧＸに含まれる参加者２２Ｘの顔画像に基づいて視線の方向を検出する。ここで、参加者２２Ｘの顔は表示画面７１正面を向いているものと仮定する。視線の方向の検出は、例えば、基準点を参加者２２Ｘの目頭とし、動点を参加者２２Ｘの虹彩として目頭と虹彩との位置関係に基づく検出方法（第１検出方法）を採用しても良い。また、例えば、視線の方向の検出は、例えば、基準点を参加者２２Ｘの角膜反射とし、動点を参加者２２Ｘの瞳孔として角膜反射と瞳孔の位置関係に基づく検出方法（第２検出方法）を採用しても良い。なお、視線情報生成部６６４は、撮像画像ＩＭＧＸに含まれる参加者２２Ｘの顔画像の向きによって視線の方向を検出しても良い。また、顔画像の向きと第１検出方法又は第２検出方法を組み合わせて視線の方向を検出しても良い。

　視線情報生成部６６４は、ステップＳ１２で検出した検出結果（視線の方向）を特定他拠点識別情報として生成する（ステップＳ１４）。第１検出方法を用いた場合、視線情報生成部６６４は、虹彩が目頭に近い第１の場合は参加者２２の視線の方向は左側前方であることを検出する。この検出結果と表示位置情報ＬＤとに基づいて、視線情報生成部６６４は、参加者２２Ｘが第１他拠点画像７２Ａを見ていることを示す特定他拠点識別情報を生成する。また、第１検出方法を用いた場合、第１の場合よりも第１虹彩が目頭から離れた第２の場合は、視線情報生成部６６４は、参加者２２Ｘの視線の方向は正面前方であることを検出する。この検出結果と表示位置情報ＬＤとに基づいて、視線情報生成部６６４は、参加者２２Ｘが第２他拠点画像７２Ｂを見ていることを示す特定他拠点識別情報を生成する。また、第１検出方法を用いた場合、第２の場合よりも第１虹彩が目頭から離れた第３の場合は、視線情報生成部６６４は、参加者２２Ｘの視線の方向は右側前方であることを検出する。この検出結果と配置情報ＬＤとに基づいて、視線情報生成部６６４は、参加者２２Ｘが第３他拠点画像７２Ｃを見ていることを示す特定他拠点識別情報を生成する。

　ステップＳ１４の後に、視線情報生成部６６４は、特定他拠点識別情報に自拠点識別情報を付与して視線情報ＤＳＸを生成する（ステップＳ１６）。これにより、例えば、「Ｘ＝＞Ｙ」という文字情報で表される自拠点視線情報ＤＳＸが生成される。この自拠点視線情報ＤＳＸは、ＲＡＭ６４４に記憶される。

　図５は、ＣＰＵ６６が実行する自拠点人物情報ＤＰＸの生成工程の処理フローである。はじめにＣＰＵ６６は、２つのカメラモジュール５０Ａ，５０Ｂの位置と方向（姿勢）をワールド座標系で特定する（ステップＳ２０）。すなわち、モデル座標系からワールド座標系への変換行列式を算出する。ここでワールド座標系とは、２つのカメラモジュール５０Ａ，５０Ｂの個々の座標系（モデル座標系）から独立している３軸直交座標系である。このワールド座標系から対象物を任意の視点から見るための座標系（視点座標系）への変換は、視野変換によって行われる。また、視点座標系から表示装置７０に表示するためのスクリーン座標系への変換は、視点座標系に置かれた対象物に対して透視変換等の射影変換によって行われる。

　２つのカメラモジュール５０Ａ，５０Ｂ（詳細にはカメラ５２）のそれぞれの位置関係と方向が正確に分かると、適当な原点を定めることにより２つのカメラモジュール５０Ａ，５０Ｂの位置と方向をワールド座標系で定めることができる。実際には、キャリブレーションを実施することにより定めることができる。例えば、キャリブレーションのための既知のターゲットの周りの予め決められたおよその位置に予め決められたおよその姿勢で２つのカメラモジュール５０Ａ，５０Ｂを設置した後に、２つの深度センサー５４のそれぞれが生成する深度情報ＤＤＸに基づいて導出される既知のターゲットの形状の一部が既知のターゲットの同一領域を表していることを前提としてカメラモジュール５０Ａ，５０Ｂの位置と方向、すなわち撮像位置と撮像方向と深度の計測位置と深度の計測方向を導出する。具体的には、各カメラモジュール５０Ａ，５０Ｂが生成する深度情報ＤＤＸに基づいて、実際のカメラモジュール５０Ａ，５０Ｂの位置と方向を、例えばＩＣＰ（iterative closest point）等のパターンマッチングの手法を用いてワールド座標系で数学的に特定しておけば良い。各カメラモジュール５０Ａ、５０Ｂの位置を示す座標と方向を示す単位ベクトルがワールド座標系で特定されると、各カメラモジュール５０Ａ，５０Ｂに固有の座標系をワールド座標系に変換するための変換行列式を導出可能になる。

　ＣＰＵ６６は、ボタンが押下される等の参加者２２Ｘからの自拠点人物情報ＤＰＸを生成するための指示を入力部６５を介して受け付けると、モジュール制御部６６８がカメラモジュール５０Ａ，５０Ｂから撮像画像ＩＭＧＸと深度情報ＤＤＸとを取得する（ステップＳ２２）。本実施形態では、モジュール制御部６６８が、深度情報ＤＤＸが付加された撮像画像ＩＭＧＸを取得する。

　次に、人物情報生成部６６６は、撮像画像ＩＭＧＸから対象物画像（人物画像）と背景画像とを抽出する（ステップＳ２４）。次に、人物情報生成部６６６は、２つのカメラモジュール５０Ａ，５０Ｂから取得した２つの深度情報ＤＤＸと２つの撮像画像ＩＭＧＸとに基づいて３次元モデルを生成する（ステップＳ２６）。具体的には、人物情報生成部６６６は、カメラモジュール５０Ａ，５０Ｂから取得した深度情報ＤＤＸ毎に人物２２Ｘのポリゴンモデルをワールド座標系で特定する。また人物情報生成部６６６は、特定したポリゴンモデルの各ポリゴンと撮像画像ＩＭＧＸとしてのＲＧＢ画像との対応付けをカメラモジュール５０Ａ，５０Ｂ毎に生成する。すなわち、ポリゴンモデルの各ポリゴンの表面に、ＲＧＢの情報（色情報）をテクスチャとして貼り付けて３次元モデルを生成する。以上のように、人物情報生成部６６６は、２つのカメラモジュール５０がそれぞれ撮像した撮像画像ＩＭＧＸと、２つのカメラモジュール５０が有するそれぞれの深度センサー５４から取得した深度情報ＤＤＸとに基づいて３次元モデルを生成する。

　次に、人物情報生成部６６６は、３次元モデルに自拠点識別情報（情報処理装置６０の識別番号）を付与して自拠点人物情報ＤＰＸを生成する（ステップＳ２８）。これにより、３次元モデルがどの情報処理装置６０によって生成されたかを識別できる。自拠点人物情報ＤＰＸは、ＲＡＭ６４４に記憶される。

　図４及び図５の視線情報生成工程と自拠点人物情報生成工程によって生成された自拠点人物情報ＤＰＸと自拠点視線情報ＤＳＸとは、自拠点元情報ＤＲＸが含む情報として通信部６２を介して複数の他拠点２０Ｙの他拠点情報処理装置６０Ｙに送信される。他拠点情報処理装置６０Ｙを自拠点情報処理装置６０Ｘとし、自拠点情報処理装置６０Ｘを他拠点情報処理装置６０Ｙとみなした場合、この自拠点元情報ＤＲＸは他拠点元情報ＤＲＹとなる。

　図６は、ＣＰＵ６６が実行する他拠点画像７２Ｙの生成工程の処理フローである。図７は、表示画像生成部６６２によって生成され表示画面７１に表示された他拠点画像を示す第１の図である。図８は、表示画像生成部６６２によって生成され表示画面７１に表示された他拠点画像を示す第２の図である。図９は、表示画像生成部６６２によって生成され表示画面７１に表示された他拠点画像を示す第３の図である。

　表示画像生成部６６２は、通信部６２を介して他拠点２０Ｙの情報処理装置６０Ｙから他拠点元情報ＤＲＹを取得する（ステップＳ３０）。この他拠点元情報ＤＲＹには、上述のごとく、他拠点視線情報ＤＳＹと、参加者２２の情報を表す３次元モデルを他拠点人物情報ＤＰＹとが含まれている。

　次に、表示画像生成部６６２は、他拠点視線情報ＤＳＹとＲＡＭ６４４に記憶された表示位置情報ＬＤとに基づいて、他拠点人物情報ＤＰＹに含まれる３次元モデルを回転させて人物画像２２ＩＭを含む他拠点画像７２Ｙを生成する（ステップＳ３２）。

　ここで、他拠点情報処理装置６０Ａ，６０Ｂ，６０Ｃからそれぞれ取得した他拠点視線情報ＤＳＹが「ＴＡ＝＞ＶＢ」、「ＴＢ＝＞ＶＸ」，「ＴＣ＝＞ＶＢ」であるとする。すなわち、参加者２２Ａは、拠点２０Ａの表示装置７０に表示された他拠点画像７２Ｙのうち、他拠点画像７２Ｂに含まれる人物画像２２ＢＩを見ている。また、参加者２２Ｂは、拠点２０Ｂの表示装置７０に表示された他拠点画像７２Ｙのうち、他拠点画像に含まれる人物画像２２ＸＩを見ている。また、参加者２２Ｃは、拠点２０Ｃの表示装置７０に表示された他拠点画像７２Ｙのうち、他拠点画像７２Ｂに含まれる人物画像２２ＢＩを見ている。また、表示位置情報ＬＤは、「Ｐ７２Ａ，Ｐ７２Ｂ，Ｐ７２Ｃ」であるとする。すなわち、表示装置７０Ｘの表示画面７１には、左から順に他拠点画像７２Ａ，７２Ｂ，７２Ｃが表示される。具体的には、表示画面７１の左から順に配置された、他拠点画像７２Ａ，７２Ｂ，７２Ｃを表示するための拠点画像表示画面２３Ｐ１、２３Ｐ２、２３Ｐ３に他拠点画像７２Ａ，７２Ｂ，７２Ｃが表示される。

　まず、表示画像生成部６６２は、参照テーブルＴＢ（図２）を参照して、他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて各変換行列式を決定する。そして、図７に示すように、表示画像生成部６６２は、表示画面７１において第１他拠点画像７２Ａの人物画像２２ＡＩが対象人物を表す人物画像２２ＢＩの方向を向くように、決定した変換行列式を用いて参加者２２Ａの３次元モデルを回転させて人物画像２２ＡＩを生成する。すなわち、人物画像２２ＡＩが、人物画像２２ＡＩが位置する方向を向いているような画像となるように、参加者２２Ａの３次元モデルを回転させる。また、図７に示すように、表示画像生成部６６２は、表示画面７１において第２他拠点画像７２Ｂの人物画像２２ＢＩが対象人物である参加者２２Ｘの方向（正面方向）を向くように、参照テーブルＴＢ（図２）の変換行列式を用いて参加者２２Ｂの３次元モデルを回転させて人物画像２２ＢＩを生成する。すなわち、人物画像２２ＢＩが、正面を向くように、参加者２２Ｂの３次元モデルを回転させる。また、図７に示すように、表示画像生成部６６２は、表示画面７１において第３他拠点画像７２Ｃの人物画像２２ＣＩが対象人物を表す人物画像２２ＢＩの方向を向くように、参照テーブルＴＢ（図２）の変換行列式を用いて参加者２２Ｃの３次元モデルを回転させて人物画像２２ＣＩを生成する。すなわち、人物画像２２ＣＩが、人物画像２２ＢＩが位置する方向を向いているような画像となるように、参加者２２Ｃの３次元モデルを回転させる。このように、表示画像生成部６６２は、自拠点２０Ｘの表示装置７０Ｘの表示画面７１において、特定の他拠点２０Ｙの参加者２２Ｙが対象人物の方向を向くように、他拠点元情報ＤＲＹから他拠点画像７２Ｙを生成する。

　また、ある時点において他拠点情報処理装置６０Ａ，６０Ｂ，６０Ｃからそれぞれ取得した他拠点視線情報ＤＳＹが「ＴＡ＝＞ＶＸ」、「ＴＢ＝＞ＶＡ」，「ＴＣ＝＞ＶＡ」であるとする。このとき、表示画像生成部６６２は、図８に示す、第１～第３他拠点画像７２Ａ～７２Ｃを表示画面７１によって表示させる。

　まず、表示画像生成部６６２は、参照テーブルＴＢ（図２）を参照して他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて変換行列式を決定する。そして、表示画像生成部６６２は、第１他拠点画像７２Ａの人物画像２２ＡＩが正面の方向を向くように、決定した変換行列式を用いて参加者２２Ａの３次元モデルを回転させて人物画像２２ＡＩを生成する。すなわち、人物画像２２ＡＩが、人物２２Ｘが位置する方向を向いているような画像となるように、参加者２２Ａの３次元モデルを回転させる。また、図８に示すように、第２他拠点画像７２Ｂの人物画像２２ＢＩが人物画像２２ＡＩの方向を向くように、決定した変換行列式を用いて参加者２２Ｂの３次元モデルを回転させて人物画像２２ＢＩを生成する。すなわち、人物画像２２ＢＩが、人物画像２２ＡＩが位置する方向を向くように、参加者２２Ｂの３次元モデルを回転させる。また、図８に示すように、第３他拠点画像７２Ｃの人物画像２２ＣＩが人物画像２２ＡＩの方向を向くように、決定した変換行列式を用いて参加者２２Ｃの３次元モデルを回転させて人物画像２２ＣＩを生成する。すなわち、人物画像２２ＣＩが、人物画像２２ＡＩが位置する方向を向いているような画像となるように、参加者２２Ｃの３次元モデルを回転させる。

　以上のように、表示画像生成部６６２は、他拠点視線情報ＤＳＹに基づいて、特定の他拠点に配置された表示装置７０に表示された自拠点２０Ｘの人物２２Ｘ及び他の他拠点２０Ｙの人物２２Ｙの中から、特定の他拠点の人物が見ている対象人物を特定する。そして、自拠点２０Ｘの表示装置７０Ｘの表示画面７１において、特定の他拠点２０Ｙの人物２２Ｙ（人物画像）が対象人物（対象となる人物画像）の方向を向くように、３次元モデルを回転させて他拠点画像７２Ｙを生成する。なお、他拠点視線情報ＤＳＹが、例えば「ＴＡ＝＞ＵＫ」などのように視線の方向が不明であることを示している場合、３次元モデルを回転せずに表示しても良い。例えば、他拠点２０Ａの参加者２２Ａが机上の書類に視線を落としている場合などが視線の方向が不明である場合に相当する。この場合、参加者２２Ａを撮影した画像は下を向いているため、３次元モデルを回転せずに表示しても、違和感はない。

　ここで、図７に示す状態において、参加者２２Ｘから表示位置が入力部６５に入力され、新たな表示位置情報ＬＤがＲＡＭ６４４に記憶されたとする。新たな表示位置情報ＬＤは、「Ｐ７２Ｃ，Ｐ７２Ｂ，Ｐ７２Ａ」である。この入力情報としての新たな表示位置情報ＬＤに基づいて、表示制御部６６３は表示画面７１に表示させるための第１～第３他拠点画像７２Ａ～７２Ｃの位置を、図７に示す表示位置から変更する。具体的には、表示制御部６６３は、図７に示す状態から第１他拠点画像７２Ａと第３他拠点画像７２Ｃとの表示位置を入れ替える。

　表示画像生成部６６２は、参照テーブルＴＢ（図２）を参照して、図７の第１他拠点画像７２Ａ～７２Ｃを生成する際に用いた他拠点視線情報ＤＳＹと新たな表示位置情報ＬＤとに基づいて、変換行列式を決定する。そして、決定した変換行列式を用いて、３次元モデルを回転させた後に射影変換することで人物画像２２ＡＩ，２２ＢＩ，２２ＣＩを生成する。図９では、表示画像生成部６６２は、人物画像２２ＣＩが人物画像２２ＢＩの位置する方向を向くような第３他拠点画像７２Ｃを参加者２２Ｃの３次元モデルを回転させて生成する。また、表示画像生成部６６２は、人物画像２２ＡＩが人物画像２２ＢＩの位置する方向を向くような第１拠点画像７２Ａを参加者２２Ａの３次元モデルを回転させて生成する。

　なお、表示画像生成部６６２の機能を実行させない場合は、他拠点視線情報ＤＳＹと表示位置情報ＬＤとに拘わらず所定の変換行列式を用いて、第１～第３他拠点画像７２Ａ～７２Ｃが生成される。すなわち、他拠点２０Ｙのカメラモジュール５０にて撮像された人物画像として自拠点２０Ｘの表示装置７０の表示画面７１に表示される。例えば図７に示す状況では、全ての人物画像２２ＡＩ，２２ＢＩ，２２ＣＩが人物画像２２ＢＩのように正面を向いているように表示される。表示画像生成部６６２の機能を実行させないことにより、自拠点情報処理装置６０の他の処理の負荷が一時的に高くなってしまった場合でもテレビ会議を継続することができる。

　上記実施形態によれば、情報処理装置６０は、他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて他拠点画像７２Ｙを生成するので、臨場感を高めた他拠点画像７２Ｙを表示画面７１に生じさせることができる。特に、本実施形態では、他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて、他拠点画像７２Ｙ中の参加者２２Ｙがそれぞれの拠点２０Ｙの表示画面７１で見ている、特定の他拠点２０Ｙの参加者２２Ｙの方向を向くような他拠点画像７２Ｙを自拠点２０Ｘの表示画面７１に表示できる（図７）。これにより、臨場感をより高めた他拠点画像７２Ｙを情報処理装置６０は生成できる。また、上記実施形態によれば、表示画像生成部６６２は、３次元モデルを回転させることで対象人物の方向を向くような他拠点画像７２Ｙを容易に生成できる。また、情報処理装置６０は、新たな表示位置情報ＬＤが入力された場合、新たな表示位置情報ＬＤに基づいて３次元モデルを回転させて他拠点画像７２Ｙを生成できる。これにより、情報処理装置６０は、他拠点画像７２Ｙの表示位置を変更するという参加者２２Ｘ，２２Ｙの要望に柔軟に対応しつつ、臨場感を高めた他拠点画像７２Ｙを生成できる。また、情報処理装置６０は、他拠点画像７２Ｙを生成するために３次元モデルを他の拠点２０Ｘ，２０Ｙの情報処理装置６０に送信している。これにより、特定の拠点２０Ｘ，２０Ｙが他の複数の拠点２０Ｘ，２０Ｙに応じた画像を生成して、他の複数の拠点２０Ｘ，２０Ｙに送信する必要が無いため、他拠点画像７２Ｙを表示するために通信されるデータ通信量を低減できる。

　上記実施形態において、参加者２２は、課題を解決するための手段に記載の「人物」に相当する。

Ｂ．自拠点人物情報と他拠点画像の変形例：
　上記実施形態では、自拠点人物情報ＤＰＸは自拠点２０Ｘの参加者２２Ｘの３次元モデルを含み、他拠点画像７２Ｙは３次元モデルを回転させることで生成されたが、自拠点人物情報ＤＰＸの種類と、他拠点画像７２Ｙの生成方法は上記実施形態に限定されるものではない。以下に変形例の自拠点人物情報ＤＰＸａと他拠点画像７２Ｙａについて説明する。

　図１０は、変形例である自拠点人物情報ＤＰＸａの生成工程の処理フローである。自拠点人物情報ＤＰＸａは、人物を表す情報として３次元モデルに変えて自拠点元画像を含む。

　ＣＰＵ６６は、ボタンが押下される等の参加者２２Ｘからの自拠点人物情報ＤＰＸａを生成するための指示を受け付けると、モジュール制御部６６８がカメラモジュール５０Ａ，５０Ｂから撮像画像ＩＭＧＸを取得する（ステップＳ２２ａ）。次に、撮像画像ＩＭＧＸから、参加者の顔を中心とした所定領域（縦Ｍ画素、横Ｎ画素）を切り出して自拠点元画像を生成する（ステップＳ２４ａ）。具体的には、撮像画像ＩＭＧＸから顔のエッジ（特徴部）を検出することで顔画像を特定し、顔画像の中心から所定範囲を切り出して自拠点元画像を生成する。自拠点元画像は、参加者２２Ｘの顔画像とその背景画像を含む。次に、自拠点元画像に自拠点識別情報（情報処理装置６０の識別番号）を付与して自拠点人物情報ＤＰＸａを生成する（ステップＳ２８ａ）。自拠点人物情報ＤＰＸａと自拠点視線情報ＤＳＸとが自拠点元情報ＤＲＸａを構成し、他の拠点２０Ｙから見た場合、自拠点元情報ＤＲＸａは他拠点元情報ＤＲＹａとなり、自拠点元画像は他拠点元画像となる。

　図１１は、変形例の他拠点画像７２Ｙａの生成工程の処理フローである。表示画像生成部６６２は、通信部６２を介して他拠点２０Ｙの情報処理装置６０Ｙから他拠点元情報ＤＲＹａを取得する（ステップＳ３０）。他拠点元情報ＤＲＹａには、他拠点視線情報ＤＳＹと他拠点元画像とが含まれる。次に、表示画像生成部６６２は、他拠点視線情報ＤＳＹとＲＡＭ６４４に記憶された表示位置情報ＬＤとに基づいて、他拠点元画像を変形させて他拠点画像７２Ｙａを生成する（ステップＳ３２ａ）。具体的には、表示画像生成部６６２は、自拠点２０Ｘの表示画面７１において、対象人物が位置する一方の側から反対の側に向かって表示領域が大きくなる他拠点画像７２Ｙａを、他拠点元画像を変形させることで生成する。

　図１２は、表示画像生成部６６２が実行する他拠点元画像ＩＭＲｗから他拠点画像７２Ｙａの生成工程の具体例である。図１２では、図７に示す第１他拠点画像７２Ａに代えて生成される第１他拠点画像７２Ａａについて説明する。つまり、他拠点視線情報ＤＳＹが「ＴＡ＝＞ＶＢ」であり、参加者２２Ａが参加者２２Ｂの人物画像２２ＢＩを見ている状況である。また、表示位置情報ＬＤは、「Ｐ７２Ａ，Ｐ７２Ｂ，Ｐ７２Ｃ」であり、表示装置７０Ｘの表示画面７１には、左から順に他拠点画像７２Ａａ，７２Ｂａ，７２Ｃａが表示される状況である。この場合、Ｍ×Ｎの画素によって構成される他拠点元画像ＩＭＲｗについて以下の画像処理を行う。つまり、対象人物である人物画像２２ＢＩが表示された右側（一方の側）から左側（他方の側）に向かって表示領域が大きくなるように、他拠点元画像ＩＭＲｗを変形させて第１他拠点画像７２Ａａを生成する。具体的には、他拠点元画像ＩＭＲｗの画素を間引くことで第１他拠点画像７２Ａａを生成する。本変形例では、他拠点元画像ＩＭＲｗが、左端の縦画素数をＭ画素、右端の縦画素数がＭ画素の３分の１画素の台形となるように画素を間引いて第１他拠点画像７２Ａａを生成する。このように他拠点元画像ＩＭＲｗが変形されることで、人物画像２２ＡＩが対象人物である人物画像２２ＢＩ（図１２の右側）の方向を向くような第１他拠点画像７２Ａａが生成される。

　この変形例によれば、他拠点画像７２Ｙａの表示領域が一方の側から反対の側に向かって大きくなる画像によって、対象人物の方向を向くような他拠点画像７２Ｙａを容易に生成できるので、情報処理装置６０の処理能力が低くても臨場感を高めた他拠点画像７２Ｙａを表示画面７１に表示させることができる。

Ｃ．３次元モデルの変形例：
　３次元モデルの生成方法は上記実施形態に限定されるものではない。図１３は、３次元モデルＴＭＤの生成工程を説明するための図である。自拠点情報処理装置６０Ｘは、他拠点元情報ＤＲＹの人物を含む撮像画像ＩＧを他拠点情報処理装置６０Ｙから取得する。自拠点情報処理装置６０Ｘは、ＲＡＭ６４４に頭部を表すポリゴンデータ９０を記憶している。表示画像生成部６６２は、撮像画像ＩＧ中の顔画像２２１Ａを抽出して、顔画像２２１Ａをポリゴンデータ９０に貼り付ける（テクスチャーマッピング）。これにより、３次元モデルＴＭＤが生成される。表示画像生成部６６２は、生成した３次元モデルＴＭＤを他拠点視線情報ＤＳＹと表示位置情報ＬＤとに基づいて回転させて他拠点画像７２Ｙを生成する。

　この変形例によれば、情報処理装置６０は、撮像画像ＩＧを取得することで容易に３次元モデルＴＭＤを生成し、この３次元モデルＴＭＤを回転させることで他拠点画像７２Ｙを生成できるので、情報処理装置６０の処理能力が低くても臨場感を高めた他拠点画像７２Ｙを表示画面７１に表示させることができる。

Ｄ．その他の変形例：
Ｄ－１．第１変形例：
　上記実施形態において、それぞれの拠点２０Ｘ，２０Ｙにおいて、カメラモジュール５０のカメラ５２の高さと、参加者２２Ｘ，２２Ｙが表示画面７１に表示された他拠点画像７２Ｙを見るときの視線の高さ（目の高さ）は必ずしも一致しない。例えば、カメラ５２の高さが参加者２２Ｘ，２２Ｙの視線の高さよりも高い場合、他拠点画像７２Ｙ中の人物画像は下を向いているように表示される。よって、カメラ５２の高さと参加者２２Ｘ，２２Ｙの視線の高さが異なる場合に、これらの高さの違いに応じて他拠点画像７２Ｙの人物の視線方向が水平方向となるように、表示画像生成部６６２は、他拠点人物情報ＤＰＹから他拠点画像７２Ｙを生成しても良い。具体的には、各拠点２０Ｘ，２０Ｙの情報処理装置６０は、自身が位置する拠点２０のカメラ５２の位置（高さ位置）と表示画面７１に表示される他拠点画像７２Ｙの位置（高さ位置）の関係を定めたテーブルを予め記憶しておく。そして、例えば、３次元モデルを垂直方向に回転させることで、他拠点画像７２Ｙの参加者２２の視線方向が水平方向となる他拠点画像７２Ｙが生成される。

Ｄ－２．第２変形例：
　上記実施形態では、情報処理システム１００は２台のカメラモジュール５０Ａ，５０Ｂを有していたが、１台であっても良い。このようにしても、１台のカメラモジュール５０から取得した深度情報ＤＤＸと撮像画像ＩＭＧＸに基づいて、情報処理装置６０は３次元データを生成できる。また、２台以上のカメラ５２を有していれば深度センサー５４は省略しても良い。このようにしても、三角測量を用いて撮像対象物までの深度情報を生成できる。

　本発明は、上述の実施形態や実施例、変形例に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば、発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態、実施例、変形例中の技術的特徴は、上述の課題の一部又は全部を解決するために、あるいは、上述の効果の一部又は全部を達成するために、適宜、差し替えや、組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜、削除することが可能である。

　　１０…テレビ会議システム、２０Ａ，２０Ｂ，２０Ｃ，２０Ｙ…他拠点、２０Ｘ…自拠点、２２，２２Ａ，２２Ｂ，２２Ｃ，２２Ｘ…参加者、２２Ａ１，２２ＢＩ，２２ＣＩ，２２ＩＭ…人物画像、２３Ｐ１，２３Ｐ２，２２Ｐ３…拠点画像表示画面、５０，５０Ａ，５０Ｂ…カメラモジュール、５２…カメラ、５４…深度センサー、５６…マイクロフォン、６０，６０Ａ，６０Ｂ，６０Ｃ，６０Ｘ…情報処理装置、６２…通信部、６４…記憶部、６５…入力部、６６…ＣＰＵ、７０…表示装置、７０Ｘ…自拠点表示装置、７１…表示画面、７２Ａ，７２Ａａ…第１他拠点画像、７２Ｂ…第２他拠点画像、７２Ｃ…第３他拠点画像、７２Ｙ，７２Ｙａ…他拠点画像、７６…音声出力部、９０…ポリゴンデータ、１００…情報処理システム、２２１Ａ…顔画像、６４２…ＲＯＭ、６４４…ＲＡＭ、６６２…表示画像生成部、６６３…表示制御部、６６４…視線情報生成部、６６６…人物情報生成部、６６８…モジュール制御部、７０２…仮想画像、ＤＤＸ…深度情報、ＤＰＸ，ＤＰＸａ…自拠点人物情報、ＤＰＹ…他拠点人物情報、ＤＲＸ，ＤＲＸａ…自拠点元情報、ＤＲＹ，ＤＲＹａ…他拠点元情報、ＤＳＸ…自拠点視線情報、ＤＳＹ…他拠点視線情報、ＩＧ，ＩＭＧＸ，ＩＭＧＹ…撮像画像、ＩＭＲｗ…他拠点元画像、ＩＮＴ…インターネット、ＳＤＸ，ＳＤＹ…音声情報、ＴＭＤ…３次元モデル

Claims

　情報処理装置であって、
　複数の他拠点と通信し、自拠点の表示装置が有する表示画面に前記他拠点の人物画像を含む他拠点画像を表示させるための他拠点元情報であって、前記他拠点の人物の視線に関する他拠点視線情報と、前記他拠点の人物を表す情報を含む他拠点人物情報と、を含む他拠点元情報を受信する通信部と、
　前記表示装置の表示画面における前記他拠点画像の表示位置を表す表示位置情報を取得し、前記他拠点視線情報と前記表示位置情報とに基づいて、前記他拠点人物情報から前記他拠点画像を生成する表示画像生成部と、
　前記表示装置に前記他拠点画像を表示させる表示制御部と、を備える、情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記表示画像生成部は、
　　前記他拠点視線情報に基づいて、特定の前記他拠点に配置された表示装置の表示画面に表示された前記自拠点の人物及び他の前記他拠点の人物の中から、特定の前記他拠点の前記人物が見ている対象人物を特定し、
　　前記自拠点の前記表示画面において前記特定の前記他拠点の人物が前記対象人物の方向を向くような前記他拠点画像を前記他拠点人物情報から生成する、情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記他拠点の人物を表す情報は、他拠点の人物画像を含む他拠点元画像であり、
　前記表示画像生成部は、前記自拠点の前記表示画面において、前記対象人物が位置する一方の側から反対の側に向かって表示領域が大きくなる前記他拠点画像を前記他拠点元画像から生成する、情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記他拠点の人物を表す情報は、前記他拠点の人物の３次元モデルであり、
　前記表示画像生成部は、
　　前記他拠点視線情報に基づいて、特定の前記他拠点に配置された表示装置の表示画面に表示された自拠点の人物及び他の前記他拠点の人物の中から、前記特定の前記他拠点の前記人物が見ている対象人物を特定し、
　　前記自拠点の前記表示画面において、前記特定の前記他拠点の人物が前記対象人物の方向を向くような前記他拠点画像を、前記３次元モデルを回転させて生成する、情報処理装置。
　請求項４に記載の情報処理装置であって、更に、
　入力部を備え、
　前記表示制御部は、前記入力部に入力された新たな前記表示位置情報に基づいて、前記自拠点の前記表示画面に表示する前記他拠点画像の表示位置を変更し、
　前記表示画像生成部は、新たな前記表示位置情報に基づいて、前記３次元モデルを回転させて前記他拠点画像を生成する、情報処理装置。
　請求項１から請求項５までのいずれか一項に記載の情報処理装置であって、
　前記通信部は、前記自拠点に配置された撮像部と通信し、前記撮像部によって撮像された撮像画像を受信し、
　前記情報処理装置は、更に、
　　前記自拠点の人物の視線に関する自拠点視線情報を生成するための視線情報生成部と、
　　前記撮像画像に基づいて、前記自拠点の人物を表す情報を含む自拠点人物情報を生成するための人物情報生成部と、を備え、
　前記通信部は、前記自拠点人物情報と前記自拠点視線情報とを含む自拠点元情報を前記複数の他拠点に送信する、情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記自拠点視線情報は、前記自拠点を識別するための自拠点識別情報と、前記自拠点の前記表示画面に表示された複数の前記他拠点画像のうち、前記自拠点の人物の視線が示す特定の前記他拠点画像を識別するための特定他拠点識別情報と、を少なくとも含む、情報処理装置。
　請求項６又は請求項７に記載の情報処理装置であって、
　前記人物情報生成部は、前記撮像画像に基づいて、前記自拠点の人物を含む対象物の３次元モデルを前記自拠点の人物を表す情報として生成する、情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記通信部は、前記撮像部によって撮像される撮像対象物までの距離を表す深度情報を受信し、
　前記人物情報生成部は、前記撮像画像と、前記深度情報とに基づいて前記３次元モデルを生成する、情報処理装置。
　情報処理システムであって、
　表示装置と、
　請求項１から請求項９までのいずれか一項に記載の情報処理装置と、を備える、情報処理装置。
　請求項１０に記載の情報処理システムであって、更に、
　撮像部を備える、情報処理システム。
　請求項１１に記載の情報処理システムであって、
　前記撮像部は、深度センサーを有する、情報処理システム。
　情報処理装置の制御方法であって、
（ａ）複数の他拠点と通信し、自拠点の表示装置が有する表示画面に前記他拠点の人物画像を含む他拠点画像を表示させるための他拠点元情報であって、前記他拠点の人物の視線に関する他拠点視線情報と、前記他拠点の人物を表す情報を含む他拠点人物情報と、を含む他拠点元情報を受信する工程と、
（ｂ）前記表示装置の表示画面における前記他拠点画像の表示位置を表す表示位置情報を取得し、前記他拠点視線情報と前記表示位置情報とに基づいて、前記他拠点人物情報から前記他拠点画像を生成する工程と、
（ｃ）前記表示装置に前記他拠点画像を表示させる工程と、を備える、制御方法。
　コンピュータープログラムであって、
　複数の他拠点と通信し、自拠点の表示装置が有する表示画面に前記他拠点の人物画像を含む他拠点画像を表示させるための他拠点元情報であって、前記他拠点の人物の視線に関する他拠点視線情報と、前記他拠点の人物を表す情報を含む他拠点人物情報と、を含む他拠点元情報を受信する機能と、
　前記表示装置の表示画面における前記他拠点画像の表示位置を表す表示位置情報を取得し、前記他拠点視線情報と前記表示位置情報とに基づいて、前記他拠点人物情報から前記他拠点画像を生成する機能と、
（ｃ）前記表示装置に前記他拠点画像を表示させる機能と、をコンピューターに実現させるためのコンピュータープログラム。