JPWO2017141511A1

JPWO2017141511A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: JPWO2017141511A1
Application number: JP2017567955A
Authority: JP
Inventors: 緒形　昌美; 昌美緒形
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-02-17
Filing date: 2016-11-21
Publication date: 2018-12-06
Also published as: US10762688B2; WO2017141511A1; US20190043245A1

Abstract

表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成を実現する。複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。

Description

本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、例えばネットワークを介した双方向通信により画像、音声を送信し、双方向コミュニケーションを実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

ネットワークを介した双方向通信により画像、音声を送信するテレビ会議システム等の双方向コミュニケーションシステムは、様々な分野で利用されている。
昨今では、高精細の大型ディスプレイが多く利用され、また、ネットワークを介して通信される画像、音声の品質も向上しており、ディスプレイに表示された遠隔のユーザとのコミュニケーションを、あたかもその場にいるような感覚で行うことが可能となっている。

しかし、このような、双方向コミュニケーションシステムにおける問題点として、表示部（ディスプレイ）に表示される会議参加者等のユーザの視線方向が、実際にユーザが見ている方向と一致しないという問題がある。

これは、ユーザ（会議参加者）を撮影するカメラが、ある１つの視点からの撮影画像であることに起因する。相手型の表示装置には、１つのカメラ視点から撮影された画像が表示される。
しかし、カメラ視点と異なる方向から表示画像を見ている視聴ユーザがいる場合、この視聴ユーザは、表示部に表示されたユーザの視点方向に違和感を持つことになる。

特に、表示部の前に複数人のユーザ（例えば、会議参加者）がいる場合、この問題が顕著となる。
表示部の前に複数の視聴者がいる場合、表示部の表示画像を撮影したカメラの位置に相当する位置にいるユーザは違和感のない画像を観察することができる。しかし、表示部の表示画像を撮影したカメラの位置に相当する位置とは異なる位置にいるユーザは、表示部に表示された相手方のユーザ（会議参加者）の視線が、本来とは全く異なって見えてしまうことがある。

このような問題を解決する構成を開示した従来技術として、例えば、特許文献１（特許３１３９１００号公報）、特許文献２（特許３２８９７３０号公報）、特許文献３（特開２０１２−０７００８１号公報）、特許文献４（特開２０１４−０９６７０１号公報）、特許文献５（特開２０１２−０８８５３８号公報）等がある。

しかし、これらの従来技術において開示されている方法は、特殊なディスプレイを利用することが必要な構成、あるいは画像に含まれる顔の眼の画像を補正して視線方向を変化させる構成等である。特殊なディスプレイを利用する構成は、従来のディスプレイをそのまま利用できずコスト高を招くことになる。また、顔の眼の画像を補正して視線方向を変化させる構成では、顔の一部分のみを補正することになり顔の表情に違和感が発生する可能性がある等の問題がある。

特許３１３９１００号公報特許３２８９７３０号公報特開２０１２−０７００８１号公報特開２０１４−０９６７０１号公報特開２０１２−０８８５３８号公報

本開示は、例えば、上述の問題点に鑑みてなされたものであり、例えば、双方向コミュニケーションシステムにおいて利用される表示部（ディスプレイ）の表示画像を、違和感の少ない画像とする情報処理装置、撮像装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

本開示の一実施例においては、視聴ユーザが多く観察する表示部の表示領域に表示するユーザの視線方向を実際の視線方向に一致させることを可能とした情報処理装置、撮像装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。

本開示の第１の側面は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置にある。

さらに、本開示の第２の側面は、
通信ネットワークを介してデータ受信を実行する受信部と、
前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
前記合成画像を表示する表示部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置にある。

さらに、本開示の第３の側面は、
画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
前記送信装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
前記受信装置は、
前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システムにある。

さらに、本開示の第４の側面は、
情報処理装置において実行する情報処理方法であり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部が、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部が、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法にある。

さらに、本開示の第５の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記プログラムは、
前記仮想視点画像生成部に、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
前記画像合成部に、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラムにある。

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本開示の一実施例の構成によれば、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
具体的には、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。
本構成により、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

双方向コミュニケーションシステムについて説明する図である。双方向コミュニケーションシステムについて説明する図である。表示部に表示される画像の問題点について説明する図である。表示部に表示される画像の問題点について説明する図である。表示部に表示される画像の問題点の解決例について説明する図である。表示部に表示される画像の問題点の解決例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の実行する処理例について説明する図である。本開示の実施例１の情報処理装置の構成例について説明する図である。仮想視点画像の生成処理の具体例について説明する図である。３Ｄモデルの生成処理の具体例について説明する図である。本開示の実施例２の情報処理装置の実行する処理例について説明する図である。本開示の実施例２の情報処理装置の実行する処理例について説明する図である。本開示の実施例２の情報処理装置の構成例について説明する図である。本開示の実施例３の情報処理装置の実行する処理例について説明する図である。本開示の実施例３の情報処理装置の実行する処理例について説明する図である。本開示の実施例３の情報処理装置の実行する処理例について説明する図である。本開示の実施例３の情報処理装置の実行する処理例について説明する図である。本開示の実施例３の情報処理装置の構成例について説明する図である。情報処理装置のハードウェアの構成例について説明する図である。

以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
１．双方向コミュニケーションシステムの構成の概要と問題点について
２．本開示の実施例１の情報処理装置の構成と処理について
２−１．情報処理装置の実行する処理について
２−２．情報処理装置の構成例について
２−３．仮想視点画像生成処理の具体例について
２−４．３Ｄモデル生成処理の具体例について
２−５．実施例１の情報処理装置の構成と処理の変形例（バリエーション）について
３．本開示の実施例２の情報処理装置の構成と処理について
３−１．情報処理装置の実行する処理について
３−２．情報処理装置の構成例について
３−３．実施例２の情報処理装置の構成と処理の変形例（バリエーション）について
４．本開示の実施例３の情報処理装置の構成と処理について
４−１．情報処理装置の実行する処理について
４−２．情報処理装置の構成例について
４−３．実施例３の情報処理装置の構成と処理の変形例（バリエーション）について
５．情報処理装置のハードウェア構成例について
６．本開示の構成のまとめ

［１．双方向コミュニケーションシステムの構成の概要と問題点について］
まず、双方向コミュニケーションシステムの構成の概要と問題点について説明する。
図１は、双方向コミュニケーションシステム構成の一例を示す図である。

図１には、
（１）第１ロケーション
（２）第２ロケーション
これらの２つのロケーションの構成例を示している。
これら２つのロケーションは、各々離れた遠隔地にあり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワーク３０を介して接続されている。

第１ロケーションには、ユーザＡ，Ｂ，Ｃがいる。
また、第１ロケーションには、データ処理部１０と、データ処理部１０に接続された表示部（ディスプレイ）１１、カメラ１２、音声入出力部（マイク＆スピーカ）１３がある。
一方、第２ロケーションには、ユーザＤ，Ｅ，Ｆがいる。
また、第２ロケーションには、データ処理部２０と、データ処理部２０に接続された表示部（ディスプレイ）２１、カメラ２２、音声入出力部（マイク＆スピーカ）２３がある。

第１ロケーションのカメラ１２は、第１ロケーションのユーザＡ，Ｂ，Ｃを撮影し、撮影画像データが、データ処理部１０、ネットワーク３０を介して第２ロケーションのデータ処理部２０に送信される。
第２ロケーションのデータ処理部２０は、第１ロケーションからの受信画像を表示部２１に表示する。

また、第１ロケーションの音声入出力部（マイク＆スピーカ）１３は、第１ロケーションのユーザＡ，Ｂ，Ｃの発話等を取得し、取得音声データが、データ処理部１０、ネットワーク３０を介して第２ロケーションのデータ処理部２０に送信される。
第２ロケーションのデータ処理部２０は、第１ロケーションからの受信音声を、音声入出力部（マイク＆スピーカ）２３を介して出力する。

一方、第２ロケーションのカメラ２２は、第２ロケーションのユーザＤ，Ｅ，Ｆを撮影し、撮影画像データが、データ処理部２０、ネットワーク３０を介して第１ロケーションのデータ処理部１０に送信される。
第１ロケーションのデータ処理部１０は、第２ロケーションからの受信画像を表示部１１に表示する。

また、第２ロケーションの音声入出力部（マイク＆スピーカ）２３は、第２ロケーションのユーザＤ，Ｅ，Ｆの発話等を取得し、取得音声データが、データ処理部２０、ネットワーク３０を介して第１ロケーションのデータ処理部１０に送信される。
第１ロケーションのデータ処理部１０は、第２ロケーションからの受信音声を、音声入出力部（マイク＆スピーカ）１３を介して出力する。

このような処理により、第１ロケーションのユーザＡ，Ｂ，Ｃと、第２ロケーションのユーザＤ，Ｅ，Ｆは、遠隔地のユーザの画像と発話を表示部、スピーカを介して取得し、双方向コミュニケーションを行うことが可能となる。

図２に、双方向コミュニケーションシステムにおいて実現される１つのコミュニケーション環境例について説明する図を示す。
図２（１）は、第１ロケーション側のユーザＡ，Ｂ，Ｃと、表示部１１に表示される第２ロケーションのユーザＤ，Ｅ，Ｆを示す図である。
図２（２）は、第２ロケーション側のユーザＤ，Ｅ，Ｆと、表示部２１に表示される第１ロケーションのユーザＡ，Ｂ，Ｃを示す図である。

これらの各ロケーションでは、それぞれ、遠方のロケーションにいるユーザが、目の前にいるようなイメージ、すなわち、図２（３）に示すように１つの会議室にいるような感覚でコミュニケーションを行うことが可能となる。

しかし、このような双方向コミュニケーションシステムにおいて、表示部（ディスプレイ）に表示されるユーザの視線方向が、実際に見ている方向と一致しないという問題が発生する。
これは、各ロケーションでユーザを撮影するカメラが置かれた一つの視点からの撮影画像が、相手型の表示装置に表示されとしまうことが主な要因である。
特に、表示部の前に複数人のユーザ（例えば、会議参加者）がいる場合、この問題が顕著となる。
この問題点について、図３以下を参照して説明する。

図３は、図１、図２を参照して説明した双方向コミュニケーションシステムにおいて、各ロケーションの表示部に表示される表示画像の例を示す図である。

第１ロケーションの表示部１１には、第２ロケーションのユーザＤ，Ｅ，Ｆの画像が表示される。
この画像は、第２ロケーションのカメラ２２の撮影画像である。
一方、第２ロケーションの表示部２１には、第１ロケーションのユーザＡ，Ｂ，Ｃの画像が表示される。
この画像は、第１ロケーションのカメラ１２の撮影画像である。

ここで、第１ロケーションのユーザＣが、表示部１１に表示された第２ロケーションのユーザＤ，Ｅ，Ｆの中央のユーザＥを見て話を始めたとする。
表示部１１には、第２ロケーションのユーザＤ，Ｅ，Ｆが表示されており、ユーザＥは、表示部の水平方向の中央領域に表示されるため、ユーザＣは、表示部１１の中心方向（Ｐ２）を見て話をする。
なお、図３には、表示部１１の水平方向を示す位置識別子として、図の左側から識別子：Ｐ１，Ｐ２，Ｐ３を示している。

第１ロケーションのユーザＡ，Ｂ，Ｃを撮影するカメラ１２は、表示部の水平方向の中央領域（Ｐ２）に固定されている。
カメラ１２は、位置Ｐ２からの視点画像を撮影し、撮影画像が第２ロケーションの表示部２１に表示される。

第２ロケーションの表示部２１に表示される第１ロケーションのユーザＡ，Ｂ，Ｃは、図３に示すような設定となる。
第１ロケーションの発話ユーザＣは、表示部１１に表示されたユーザＥを見て話をしている。この視線方向は、カメラ１２の位置（Ｐ）に向いている。
すなわち、ユーザＣは、カメラ１２に視線を向けて話をしている状態であり、ユーザＣの画像は、カメラ１２に対する正面向きの画像として撮影される。

この結果、第２ロケーションの表示部２１に表示される第１ロケーションＣの画像は、正面を向いている画像となる。
すなわち、第２ロケーションの表示部２１の表示画像は、ユーザＣが、第２ロケーションのユーザＦに向かって話をしているような表示画像となる。
なお、実際の画像は、表示画像のユーザ視線に違和感がある程度であるが、図では、各ユーザの視線方向についての違和感を分かり易く表現するため、視線方向に併せて顔の向きを変更して示している。以下に示す他の図においても同様である。

このように、第１ロケーションのユーザＣは、第２ロケーションのユーザＥに対して話をしているにも関わらず、第２ロケーションのユーザＦは、第１ロケーションのユーザＣが、自分に対して話をしているように勘違いしてしまう。

このように、カメラの撮影視点の位置によって、表示部に表示される被写体の視線方向が決定されてしまうため、表示部の前に並ぶユーザの位置によっては、実際の視線方向とは、異なる視線方向の画像が観察されることになる。

図４は、誤った視線方向の画像が表示されるもう１つの例を示す図である。
第１ロケーションの表示部１１には、第２ロケーションのユーザＤ，Ｅ，Ｆの画像が表示される。
この画像は、第２ロケーションのカメラ２２の撮影画像である。
一方、第２ロケーションの表示部２１には、第１ロケーションのユーザＡ，Ｂ，Ｃの画像が表示される。
この画像は、第１ロケーションのカメラ１２の撮影画像である。

図４に示す例は、第１ロケーションのユーザＣが、表示部１１に表示された第２ロケーションのユーザＦを見て話をしている例である。
表示部１１には、第２ロケーションのユーザＤ，Ｅ，Ｆが表示されており、ユーザＦは、表示部１１のユーザＣの正面領域（Ｐ３）に表示されるため、ユーザＣは、表示部１１の正面（Ｐ３）を見て話をする。

第２ロケーションの表示部２１に表示される第１ロケーションのユーザＡ，Ｂ，Ｃは、図３に示すような設定となる。
第１ロケーションの発話ユーザＣは、表示部１１に表示されたユーザＦを見て話をしている。この視線方向は、カメラ１２の位置（Ｐ）に向いていない。
すなわち、ユーザＣは、カメラ１２と異なる方向に視線を向けて話をしている状態であり、ユーザＣの画像は、カメラ１２と異なる方向に視線を向けた画像として撮影される。

この結果、第２ロケーションの表示部２１に表示される第１ロケーションＣの画像は、図に示すように、右方向（Ｆより外側）を向いている画像となる。
すなわち、第２ロケーションの表示部２１の表示画像は、ユーザＣが、第２ロケーションのユーザＦより外側を向いて話をしているような表示画像となる。
なお、前述したように、実際の画像は、表示画像のユーザ視線に違和感がある程度であるが、図では分かり易くするため、視線方向に併せて顔の向きを変更して示している。

このように、第１ロケーションのユーザＣは、第２ロケーションのユーザＦに対して話をしているにも関わらず、第２ロケーションのユーザＦは、第１ロケーションのユーザＣが、自分に対して話をしていないように勘違いしてしまう。

図３、図４を参照して説明したように、カメラの撮影視点の位置によって、表示部に表示される被写体の視線方向が決定されてしまう。
この視線方向は、カメラ視点から見た視線方向となる。
そのため、撮影画像を表示する表示部の前にいる視聴ユーザが、画像を撮影したカメラ視点と異なる視点位置から表示画像を観察すると、表示画像内の人物の視線方向は、実際の視線方向と異なる方向になり、スムーズなコミュニケーションの障害となる。

このような問題点を解決する従来構成の例について説明する。
例えば特許文献２（特許３２８９７３０号公報）には、図５に示すように、複数のカメラ３１〜３３によって、様々な視点方向の画像を撮影し、これらの複数の画像を多視点画像表示ディスプレイ３５に表示する構成を開示している。

多視点画像表示ディスプレイ３５は、見る方向によって異なる画像が視聴できるようにした特殊なディスプレイである。
多視点画像表示ディスプレイ３５に表示されるＤ視点画像撮影カメラ３１の撮影画像は、第２ロケーションのユーザＤの位置からのみ視聴できる。
多視点画像表示ディスプレイ３５に表示されるＥ視点画像撮影カメラ３１の撮影画像は、第２ロケーションのユーザＥの位置からのみ視聴できる。
多視点画像表示ディスプレイ３５に表示されるＦ視点画像撮影カメラ３１の撮影画像は、第２ロケーションのユーザＦの位置からのみ視聴できる。

このような構成とすることで、第２ロケーションのユーザＤ，Ｅ，Ｆは、それぞれの位置（視点）に応じた違和感のない画像を視聴することができる。
しかし、この構成を実現するためには、特殊な多視点画像表示ディスプレイが必要となる。
また、第１ロケーションに設定するカメラの位置を第２ロケーションのユーザの位置に応じて変更しなければならないといった問題が発生する。

また、特許文献３（特開２０１２−０７００８１号公報）には、図６に示すように、表示画像に含まれる人物の顔の眼の位置や形状等を補正して表示することによって、表示部の表示画像を実際の視線方向に一致させる構成を開示している。
しかし、この処理のためには、表示部に表示される顔画像を抽出し、さらに抽出した顔画像に含まれる眼の画像領域を特定して、各人物の実際の視線方向に応じて眼の画像領域に対する補正処理を行うことが必要であり、特殊な画像処理が必要となる。
さらに、このような画像の補正処理を行なうと、かえって違和感を増幅させた画像が表示されてしまう可能性がある。

以下では、このような問題を発生させることなく、表示部（ディスプレイ）に表示されるユーザの視線方向と実際の視線方向を一致させた画像を表示可能とした本開示の構成について説明する。

［２．本開示の実施例１の情報処理装置の構成と処理について］
以下、本開示の情報処理装置の第１実施例の構成と処理について説明する。
以下に説明する本開示の情報処理装置は、例えば、先に説明した図１や図２に示す双方向コミュニケーションシステムにおいて利用される表示部（ディスプレイ）の表示画像の制御を行う。
以下、本開示の複数の実施例について、順次、説明する。

［２−１．情報処理装置の実行する処理について］
図７以下を参照して、本開示の実施例１の情報処理装置の実行する処理について説明する。
図７には、図１、図２を参照して説明したと同様、双方向コミュニケーションを実行中の第１ロケーションと、第２ロケーションのユーザと表示部を示している。
（１）第１ロケーション
（２）第２ロケーション
これら２つのロケーションは、各々離れた遠隔地であり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワークを介して接続され、画像、音声を送受信する。

第１ロケーションには、ユーザＡ，Ｂ，Ｃがおり、第１ロケーション側のカメラ１２１，１２２によって撮影されたユーザＡ，Ｂ，Ｃを含む画像、またはこれらの撮影画像に基づいて生成される合成画像が第２ロケーションに送信され、第２ロケーションの表示部２００に表示される。
この表示画像は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆによって観察される。

同様に、第２ロケーションには、ユーザＤ，Ｅ，Ｆがおり、第２ロケーション側のＬ視点カメラ２２１，Ｒ視点カメラ２２２によって撮影されたユーザＤ，Ｅ，Ｆを含む画像、または、これらの撮影画像に基づいて生成される合成画像が第１ロケーションに送信され、第１ロケーションの表示部１００に表示される。
この表示画像は、第１ロケーションの視聴ユーザＡ，Ｂ，Ｃによって観察される。

第１ロケーションの側のカメラ１２１，１２２によって撮影された画像は、第１ロケーション側の情報処理装置のデータ処理部に入力され、第２ロケーションに対する送信画像（合成画像）が生成されて、第２ロケーションに送信される。
同様に、第２ロケーションの側のカメラ２２１，２２２によって撮影された画像は、第２ロケーション側の情報処理装置のデータ処理部に入力され、第１ロケーションに対する送信画像（合成画像）が生成されて、第１ロケーションに送信される。

第１ロケーションと第２ロケーションの情報処理装置の実行する処理は同様であり、以下では、代表例として、第１ロケーションの情報処理装置の実行する処理について説明する。

第１ロケーションには、表示部（ディスプレイ）１００が備えられ、さらに、異なる視点から画像を撮影する複数のカメラ１２１，１２２を有する。
Ｌ視点カメラ１２１は、表示部１００の左側のＬ視点からユーザＡ，Ｂ，Ｃを撮影する。
さらに、もう１つのＲ視点カメラ１２２は、表示部１００の右側のＲ視点からユーザＡ，Ｂ，Ｃを撮影する。

第１ロケーションの情報処理装置は、これら２つの異なる視点から撮影された画像を入力して、図に示す３つの仮想視点からの観察画像（仮想視点画像）を生成する。すなわち、以下の３つの仮想視点からの観察画像（仮想視点画像）である。
（１）仮想視点Ｄ，３１１からの観察画像（仮想視点Ｄ画像）
（２）仮想視点Ｅ，３１２からの観察画像（仮想視点Ｅ画像）
（３）仮想視点Ｆ，３１３からの観察画像（仮想視点Ｆ画像）

仮想視点Ｄ〜Ｆ，３１１〜３１３は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視点位置に相当する。
第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視聴位置情報を第１ロケーションからネットワークを介して取得し、この第２ロケーション側の視聴ユーザＤ，Ｅ，Ｆの位置情報に応じて生成する仮想視点画像の視点位置を決定する。

すなわち、第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視聴位置に対応した仮想視点Ｄ〜Ｆ，３１１〜３１３を設定し、これらの各仮想視点から観察した仮想視点画像を生成する。
なお、仮想視点画像は、２つの異なる視点位置から撮影した２つの撮影画像、すなわち、Ｌ視点カメラ２１１の撮影したＬ視点画像と、Ｒ視点カメラ２１２の撮影したＲ視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。

第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図８を参照して説明する。
図８は、第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。

第１ロケーションの情報処理装置は、図８に示すように、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視点位置（第２ロケーションの表示部２００に対する相対的な視点位置）に応じた仮想視点からの画像を生成する。

図８に示す例では、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆ、これら３人のユーザの視点位置に応じた３つの仮想視点から観察される３つの仮想視点画像を生成する。
図８に示す以下の３つの仮想視点画像である。
（１）仮想視点Ｄ，３１１からの観察画像に相当する仮想視点Ｄ画像３２１、
（２）仮想視点Ｅ，３１２からの観察画像に相当する仮想視点Ｅ画像３２２、
（３）仮想視点Ｆ，３１３からの観察画像に相当する仮想視点Ｆ画像３２３、

第１ロケーションの情報処理装置は、これら３の仮想視点画像から、第２ロケーションに送信する合成画像を生成する。
具体的には、図８の各仮想視点画像３２１〜３２３内の点線枠領域として示す選択領域３２６〜３２８を取得して、これらの選択領域３２６〜３２８を合成して１つの合成画像を生成する。

図９に、具体的な合成画像３３１の生成例を示す。
図９に示すように、仮想視点画像３２１〜３２３内の点線枠領域として示す選択領域３２６〜３２８を合成して１つの合成画像３３１が生成される。
第１ロケーションの情報処理装置は、この合成画像３３１を第２ロケーションに送信する。
第２ロケーションのロケーションの表示部２００には、この合成画像３３１が表示される。

第２ロケーションの表示部２００の表示画像の例を図１０に示す。
図１０に示すように、第２ロケーションの表示部２００の表示画像は、仮想視点Ｄ画像３４１、仮想視点Ｅ画像３４２、仮想視点Ｆ画像３４３、これらの３つの仮想視点画像の合成画像３３１となる。

第２ロケーションの視聴ユーザＤの正面の表示画像は、仮想視点Ｄ画像３４１となる。また、視聴ユーザＤの正面の表示画像は、仮想視点Ｅ画像３４２となる。さらに、視聴ユーザＦの正面の表示画像は、仮想視点Ｆ画像３４３となる。
このように、各視聴ユーザの正面にある表示画像は、それぞれ各視聴ユーザの視点から観察される画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。

図７〜図１０を参照して説明した例は、第１ロケーション、第２ロケーションの双方にそれぞれ同数の３人のユーザ（双方向コミュニケーション参加者）が存在する場合の例であった。
しかし、双方のロケーションのユーザの数は様々な設定が想定される。
以下、様々な設定における処理例について説明する。

以下の２つの設定における処理について、順次、説明する。
（設定１）画像送信側のユーザ数（表示ユーザ数）が、画像受信表示側のユーザ数（視聴ユーザ数）より少ない場合
（設定２）画像送信側のユーザ数（表示ユーザ数）が、画像受信表示側のユーザ数（視聴ユーザ数）より多い場合
なお、いずれの場合も、基本的な処理態様は、表示部の表示ユーザと視聴ユーザが相対している設定では、その視聴ユーザの視点からの仮想視点画像を、その視聴ユーザの正面領域に表示するという処理態様である。

（設定１対応のの処理）
まず、図１１以下を参照して、画像送信側のユーザ数が、画像受信表示側のユーザ数より少ない場合の処理例について説明する。
図１１に示す例は、各ロケーションのユーザ設定が以下の設定である。
第１ロケーションにはユーザＡ，Ｃ（表示ユーザ）、
第２ロケーションには、ユーザＤ，Ｅ，Ｆ（視聴ユーザ）
これらのユーザ設定である。

なお、ここでは、代表例として第１ロケーションのユーザの画像を第２ロケーションに送信して、第２ロケーションの表示部２００に表示する例を説明するので、第１ロケーションのユーザを表示ユーザ、第２ロケーションのユーザを視聴ユーザとして説明する。

図１１に示すように、表示ユーザが２人（Ａ，Ｃ）の場合、視線方向についての考慮が必要なユーザはＡ，Ｃの２人のみとなる。
第２ロケーションの視聴ユーザはＤ，Ｅ，Ｆの３人であるが、視聴ユーザＥの正面には、表示ユーザが表示されない。

このような場合、第１ロケーションの情報処理装置は、Ｌ視点カメラ１２１、Ｒ視点カメラ１２２、これら２つの異なる視点から撮影された画像を入力して、図に示す２つの仮想視点からの観察画像（仮想視点画像）を生成する。すなわち、以下の２つの仮想視点からの観察画像（仮想視点画像）である。
（１）仮想視点Ｄ，３１１からの観察画像（仮想視点Ｄ画像）
（２）仮想視点Ｆ，３１３からの観察画像（仮想視点Ｆ画像）

仮想視点Ｄ，３１１は、第２ロケーションの視聴ユーザＤの視点位置に相当する。
仮想視点Ｆ，３１３は、第２ロケーションの視聴ユーザＦの視点位置に相当する。
仮想視点Ｅ，３１２からの観察画像（仮想視点Ｅ画像）については、第２ロケーションの視聴ユーザの正面位置に表示される表示ユーザがいないので、生成しない。

第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視聴位置情報を第１ロケーションからネットワークを介して取得し、この第２ロケーション側の視聴ユーザＤ，Ｅ，Ｆの位置情報と、その正面位置における表示ユーザの有無情報に応じて生成する仮想視点画像の視点位置を決定する。

すなわち、第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆの視聴位置に対応した仮想視点Ｄ〜Ｆ，３１１〜３１３を設定し、さらに、これらの各仮想視点の正面位置に表示ユーザがいるか否かを判定し、いる場合のみ、その仮想視点から観察した仮想視点画像を生成する。
本例では、第２ロケーションの視聴ユーザＤ，Ｆの各仮想視点の正面位置にのみ表示ユーザＡ，Ｃがおり、第２ロケーションの視聴ユーザＥの仮想視点の正面位置には表示ユーザがいないので、視聴ユーザＤ，Ｆの各仮想視点から観察した２つの仮想視点画像を生成する。

なお、仮想視点画像は、２つの異なる視点位置から撮影した２つの撮影画像、すなわち、Ｌ視点カメラ２１１の撮影したＬ視点画像と、Ｒ視点カメラ２１２の撮影したＲ視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。

第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図１２を参照して説明する。
図１２は、第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。

第１ロケーションの情報処理装置は、図１２に示すように、第２ロケーションの視聴ユーザＤ，Ｆの視点位置（第２ロケーションの表示部２００に対する相対的な視点位置）に応じた仮想視点からの画像を生成する。

図１２に示す例では、第２ロケーションの視聴ユーザＤ，Ｆ、これら２人のユーザの視点位置に応じた２つの仮想視点から観察される２つの仮想視点画像を生成する。
図１２に示す以下の２つの仮想視点画像である。
（１）仮想視点Ｄ，３１１からの観察画像に相当する仮想視点Ｄ画像３２１、
（２）仮想視点Ｆ，３１３からの観察画像に相当する仮想視点Ｆ画像３２３、

第１ロケーションの情報処理装置は、これら２の仮想視点画像から、第２ロケーションに送信する合成画像を生成する。
具体的には、図１２の各仮想視点画像３２１，３２３内の点線枠領域として示す選択領域３５１，３５２を取得して、これらの選択領域３５１，３５２を合成して１つの合成画像を生成する。

図１３に、具体的な合成画像３６１の生成例を示す。
図１３に示すように、仮想視点画像３２１，３２３内の点線枠領域として示す選択領域３５１，３５２を合成して１つの合成画像３６１が生成される。
第１ロケーションの情報処理装置は、この合成画像３６１を第２ロケーションに送信する。
第２ロケーションのロケーションの表示部２００には、この合成画像３６１が表示される。

第２ロケーションの表示部２００の表示画像の例を図１４に示す。
図１４に示すように、第２ロケーションの表示部２００の表示画像は、仮想視点Ｄ画像３７１、仮想視点Ｆ画像３７２、これらの２つの仮想視点画像の合成画像３６１となる。

第２ロケーションの視聴ユーザＤの正面の表示画像は、仮想視点Ｄ画像３７１となる。また、視聴ユーザＦの正面の表示画像は、仮想視点Ｆ画像３７２となる。視聴ユーザＥの正面には仮想視点Ｅ画像は設定されず、視聴ユーザＥが左方向を見た場合は、仮想視点Ｄ画像３７１を観察し、右側を見た場合は、仮想視点Ｆ画像３７２を観察することになる。

このように、本例では、表示部を視聴する視聴ユーザの正面の表示領域に表示ユーザが表示されている場合に、その視聴ユーザの視点からの仮想視点画像を表示する。各仮想視点画像は、正面から視聴している視聴ユーザの視点からの観察画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。
ただし、視聴ユーザの正面の表示領域に表示ユーザが表示されない場合は、その視聴ユーザ視点からの仮想視点画像は表示しない。

（設定２対応のの処理）
次に、図１５以下を参照して、画像送信側のユーザ数が、画像受信表示側のユーザ数より多い場合の処理例について説明する。
図１５に示す例は、各ロケーションのユーザ設定が以下の設定である。
第１ロケーションにはユーザＡ，Ｂ，Ｃ（表示ユーザ）、
第２ロケーションには、ユーザＤ，Ｆ（視聴ユーザ）
これらのユーザ設定である。

図１１に示すように、表示ユーザが３人（Ａ，Ｂ，Ｃ）の場合、視線方向についての考慮が必要なユーザはＡ，Ｂ，Ｃの３人となる。
第２ロケーションの視聴ユーザはＤ，Ｆの２人である。

仮想視点Ｄ，３１１は、第２ロケーションの視聴ユーザＤの視点位置に相当する。
仮想視点Ｆ，３１３は、第２ロケーションの視聴ユーザＦの視点位置に相当する。
仮想視点Ｅ，３１２からの観察画像（仮想視点Ｅ画像）については、第２ロケーションに、この視点対応の視聴ユーザがいないので、生成しない。

第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｆの視聴位置情報を第１ロケーションからネットワークを介して取得し、この第２ロケーション側の視聴ユーザＤ，Ｆの位置情報に応じて生成する仮想視点画像の視点位置を決定する。

すなわち、第１ロケーションの情報処理装置は、第２ロケーションの視聴ユーザＤ，Ｆの視聴位置に対応した仮想視点Ｄ，３１１と仮想視点Ｆ３１３を設定し、これらの仮想視点から観察した仮想視点画像を生成する。
なお、仮想視点画像は、２つの異なる視点位置から撮影した２つの撮影画像、すなわち、Ｌ視点カメラ２１１の撮影したＬ視点画像と、Ｒ視点カメラ２１２の撮影したＲ視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。

第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図１６を参照して説明する。
図１６は、第１ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。

第１ロケーションの情報処理装置は、図１６に示すように、第２ロケーションの視聴ユーザＤ，Ｆの視点位置（第２ロケーションの表示部２００に対する相対的な視点位置）に応じた仮想視点からの画像を生成する。

図１６に示す例では、第２ロケーションの視聴ユーザＤ，Ｆ、これら２人のユーザの視点位置に応じた２つの仮想視点から観察される２つの仮想視点画像を生成する。
図１６に示す以下の２つの仮想視点画像である。
（１）仮想視点Ｄ，３１１からの観察画像に相当する仮想視点Ｄ画像３２１、
（２）仮想視点Ｆ，３１３からの観察画像に相当する仮想視点Ｆ画像３２３、

第１ロケーションの情報処理装置は、これら２の仮想視点画像から、第２ロケーションに送信する合成画像を生成する。
具体的には、図１６の各仮想視点画像３２１，３２３内の点線枠領域として示す選択領域３８１，３８２を取得して、これらの選択領域３８１，３８２を合成して１つの合成画像を生成する。
仮想視点Ｄ画像３２１の選択領域３８１は、表示ユーザＡ，Ｂを含む画像領域であり、仮想視点Ｆ画像３２２の選択領域３８２は、表示ユーザＣを含む画像領域である。
なお、図１６に示す例では、表示ユーザＢを表示ユーザＡと同じ１つの選択領域３８１に含める設定としているが、表示ユーザＢを表示ユーザＣと同じ選択領域３８２に含める設定としてもよい。また、表示ユーザＢをどちらの領域に含めるかについてを、表示ユーザＢの視線方向に応じて決定する構成としてもよい。
例えば表示ユーザＢが視聴ユーザＤを見ている場合、仮想視点Ｄ側の選択領域３８１に含め、表示ユーザＢが視聴ユーザＦを見ている場合、仮想視点Ｆ側の選択領域３８２に含める。

図１７に、具体的な合成画像３８３の生成例を示す。
図１７に示すように、仮想視点画像３２１，３２３内の点線枠領域として示す選択領域３８１，３８２を合成して１つの合成画像３８３が生成される。
第１ロケーションの情報処理装置は、この合成画像３８３を第２ロケーションに送信する。
第２ロケーションのロケーションの表示部２００には、この合成画像３８３が表示される。

第２ロケーションの表示部２００の表示画像の例を図１８に示す。
図１８に示すように、第２ロケーションの表示部２００の表示画像は、仮想視点Ｄ画像３９１、仮想視点Ｆ画像３９２、これらの２つの仮想視点画像の合成画像３８３となる。

第２ロケーションの視聴ユーザＤの正面の表示画像は、仮想視点Ｄ画像３９１となる。また、視聴ユーザＦの正面の表示画像は、仮想視点Ｆ画像３９２となる。視聴ユーザＥの正面には仮想視点Ｅ画像は設定されず、正面〜左方向を見た場合は、仮想視点Ｄ画像３９１を観察し、右側を見た場合は、仮想視点Ｆ画像３９２を観察することになる。

このように、本例では、表示部を視聴する視聴ユーザの正面の表示領域に表示ユーザが表示されている場合に、その視聴ユーザの視点からの仮想視点画像を表示する。各仮想視点画像は、正面から視聴している視聴ユーザの視点からの観察画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。
ただし、表示部に表示された表示ユーザの正面に視聴ユーザがいない場合は、存在しない視聴ユーザ視点からの仮想視点画像は表示しない。

［２−２．情報処理装置の構成例について］
次に、図１９を参照して実施例１の情報処理装置の構成について説明する。
図１９は、第１ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第２ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。

撮像部４０１は、図７等に示すＬ視点カメラ１２１、Ｒ視点カメラ１２２に相当し、異なる視点からの画像を撮影する撮像部である。
表示部４０３は、受信部４０２を介して受信する第２ロケーションから送信される合成画像を表示する。

撮像部４０１の撮影画像は、データ処理部４１０に入力される。
データ処理部４１０は、これらの入力画像に基づいて、第２ロケーションの表示部に表示するための画像である合成画像を生成する。

撮像部４０１の撮影画像は、データ処理部４１０の画像入力部４１１を介して、仮想視点画像生成部４１４に入力される。
仮想視点画像生成部４１４は、特定の仮想視点からの画像を生成する処理を実行する。

仮想視点画像生成部４１４は、例えば、図７、図８他を参照して説明した以下の仮想視点画像を生成する。
（１）仮想視点Ｄ，３１１からの観察画像に相当する仮想視点Ｄ画像３２１、
（２）仮想視点Ｅ，３１２からの観察画像に相当する仮想視点Ｅ画像３２２、
（３）仮想視点Ｆ，３１３からの観察画像に相当する仮想視点Ｆ画像３２３、

これらの仮想視点画像は、図７等に示すＬ視点カメラ１２１、Ｒ視点カメラ１２２の撮影画像、すなわち、異なる視点からの画像と、デプス情報に基づいて生成する。
デプス情報は、デプス検出部４１２によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。

デプス検出部４１２によるデプス検出処理は、例えば図７等に示すＬ視点カメラ１２１、Ｒ視点カメラ１２２の撮影画像、すなわち、異なる視点からの画像を利用して実行される。
具体的には、ステレオマッチング法によって各画像の構成画素対応のデプスデータ（距離情報）を持つデプスマップを生成する。なお、撮影画像を用いずデプス計測可能な特殊なセンサを用いて各画像対応のデプスマップを生成する構成としてもよい。

ユーザ位置検出部４１３は、表示部４０３の前にいるユーザ（コミュニケーション参加者）の位置を検出する。例えば画像入力部４１１の入力する２つの異なる視点からの撮影画像に基づいてユーザ位置を検出する。なお、ユーザ位置検出部４１３は、位置センサを用いてユーザ位置を検出する構成としてもよい。
ユーザ位置検出部４１３の検出したユーザ位置情報４２１は、仮想視点画像生成部４１４、画像合成部４１５に入力される。さらに、送信部４０４を介して視聴ユーザ位置情報４３２として第２ロケーションに送信される。この送信情報は、第２ロケーションにおいて視聴ユーザ位置情報４３２として利用される。

仮想視点画像生成部４１４は、特定の仮想視点からの画像を生成するが、どの視点からの仮想視点画像を生成するかについては、上述した処理例において説明したように、表示ユーザと視聴ユーザの対応位置関係に基づいて決定する。
この処理のため、仮想視点画像生成部４１４は、ユーザ位置検出部４１３の生成するユーザ位置情報４２１を入力し、さらに、視聴ユーザのいる第２ロケーションから受信部４０２を介して受信する視聴ユーザ位置情報４２２を入力する。

仮想視点画像生成部４１４は、これらの入力情報に基づいて、どの視点からの仮想視点画像を生成するかについて決定する。
図７〜図１８を参照して説明したように、基本的な処理としては、視聴ユーザと表示ユーザが各々正面方向に相対している場合、この設定における視聴ユーザの視点に対応する仮想視点画像を生成する。

なお、仮想視点画像生成部４１４は、被写体の３次元データからなる３Ｄモデルを生成する３Ｄモデル生成部を備えた構成としてもよい。３Ｄモデルは被写体の３次元位置データと各位置の画素値データによって構成される。なお、３Ｄモデルも、異なる視点からの画像と、デプス情報に基づいて生成することができる。具体的な処理例については後述する。
３Ｄモデルは、多数の視点からの仮想視点画像を生成するためのデータを有しており、仮想視点画像生成部４１４が３Ｄモデル生成部を備えた構成である場合、仮想視点画像生成部４１４は、まず３Ｄモデルを生成し、生成した３Ｄモデルから、必要な仮想視点画像を生成する。

仮想視点画像生成部４１４の生成した仮想視点画像は、画像合成部４１５に出力される。
画像合成部４１５は、仮想視点画像生成部４１４の生成した仮想視点画像の合成処理を実行し、第２ロケーションの表示部に表示する合成画像（＝送信画像（表示画像））を生成する。
例えば、図９等を参照して説明したように、複数の仮想視点画像から、選択領域を抽出して１枚の合成画像を生成する。
なお、この合成処理は、表示ユーザと視聴ユーザの対応位置関係に基づいて実行される。
図７〜図１８を参照して説明したように、基本的な処理としては、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。

合成画像生成部４１５の生成した合成画像４３１は、送信部４０４を介して第２ロケーションに送信される。

［２−３．仮想視点画像生成処理の具体例について］
次に、仮想視点画像生成部４１４の実行する仮想視点画像生成処理の具体例について、図２０を参照して説明する。
図２０は、右方向が水平方向を示すｘ軸、上方向が奥行きを示すｚ軸であり、ｘｚ平面を示している。

２台のカメラＣ＿Ｌ，Ｃ＿Ｒで撮影した画像Ｉ＿Ｌ，Ｉ＿Ｒから、仮想視点の仮想カメラＣ＿Ｖで撮影した仮想視点画像Ｉ＿Ｖを生成するものとする。
なお、本明細書において、下線（＿）の後の文字は、下付き文字を表す。
例えば、Ｉ＿Ｌは、Ｉ_Ｌと同じ意味である。

カメラＣ＿Ｌ，Ｃ＿Ｒが、図７他に示すＬ視点カメラ１２１と、Ｒ視点カメラ１２２に対応し、Ｉ＿Ｌが、カメラＣ＿Ｌの撮影画像、Ｉ＿ＲがカメラＣ＿Ｒの撮影画像である。
仮想カメラＣ＿Ｖの撮影画像である仮想画像がＩ＿Ｖは、例えば図７．図８に示す仮想視点Ｄ〜Ｆからの撮影画像である仮想視点Ｄ〜Ｆ画像に相当する。

カメラＣ＿Ｌの光学中心を原点（ｘ，ｚ）＝（０，０）とし、カメラＣ＿ＬとカメラＣ＿Ｒの離間距離はａとする。
各カメラの座標位置（ｘ，ｚ）は、以下の通りである。
カメラＣ＿Ｌの位置＝（０，０）、
カメラＣ＿Ｒの位置＝（ａ，０）、
仮想カメラＣ＿Ｖの位置＝（ｐａ，０）。
ただし、０＜ｐ＜１である。

各カメラの撮影画像の画像中心の座標（ｘ，ｚ）は、以下の通りである。
カメラＣ＿Ｌの撮影画像Ｉ＿Ｌの中心位置＝（０，−ｆ）、
カメラＣ＿Ｒの撮影画像Ｉ＿Ｒの中心位置＝（ａ，−ｆ）、
仮想カメラＣ＿Ｖの撮影画像Ｉ＿Ｖの中心位置＝（ｐａ，−ｆ）、

３つのカメラが並ぶ直線軸から、距離Ｄにある被写体Ｐ（Ｘ）の上記３画像における被写体位置を以下の設定とする。
（１）カメラＣ＿Ｌの撮影画像Ｉ＿Ｌの被写体位置＝（ｘ＿Ｌ，−ｆ）、
（２）カメラＣ＿Ｒの撮影画像Ｉ＿Ｒの被写体位置＝（ｘ＿Ｒ，−ｆ）、
（３）仮想カメラＣ＿Ｖの撮影画像Ｉ＿Ｖの被写体位置＝（ｘ＿Ｖ，−ｆ）、

この時、被写体Ｐ（Ｘ）の座標位置（ｘ，ｚ）は、
（ｘ，ｚ）＝（（ｘ＿Ｌａ）／（ｘ＿Ｌ−ｘ＿Ｒ＋ａ），（−ｆａ）／（ｘ＿Ｌ−ｘ＿Ｒ＋ａ））
である。
すなわち、以下の（式１）によって示される。

被写体Ｐ（Ｘ）のデプス（Ｄ）は、上記の被写体Ｐ（Ｘ）の座標位置（ｘ，ｚ）のＺ座標に相当し、これらは、カメラＣ＿ＬとカメラＣ＿Ｒの撮影画像対応のデプスマップにおける被写体Ｐ（Ｘ）におけるデプスデータ（距離情報）に等しい。
カメラＣ＿Ｌのデプスマップにおける被写体Ｐ（Ｘ）のデプスデータを［ＤＭ＿Ｌ（ＸＬ）］とし、カメラＣ＿Ｒのデプスマップにおける被写体Ｐ（Ｘ）のデプスデータを［ＤＭ＿Ｒ（ＸＲ）］とすると、以下の関係式（式２）が成立する。

一方、仮想カメラＣ＿Ｖの撮影画像Ｉ＿Ｖ上における被写体Ｐ（Ｘ）の座標位置（ｘ＿Ｖ，ｚ）のｘ座標：ｘ＿Ｖは、以下の（式３）として示される。

上記（式３）によって算出される仮想カメラＣ＿Ｖの画像Ｉ＿Ｖ上の座標（ｘ＿Ｖ，−ｆ）に、カメラＣ＿Ｌの画像Ｉ＿Ｌの座標（ｘ＿Ｌ，−ｆ）の画素値、または、カメラＣ＿Ｒの画像Ｉ＿Ｒの座標（ｘ＿Ｒ，−ｆ）の画素値を設定することで、仮想カメラＣ＿Ｖの視点における仮想視点画像Ｉ＿Ｖを生成することができる。

図１９に示す仮想視点画像生成部４１４は、図７に示すカメラ１２１，１２２の撮影画像と、これらの撮影画像に基づいて算出されるデプスマップを利用して、上記（式３）に従って、仮想視点から撮影された仮想視点画像を生成する。

なお、上記（式３）に含まれるデプス（Ｄ）として、先に説明した（式２）で示されるＤの算出式を代入すると、以下の（式４）が得られる。

すなわち、２つの異なる視点からのカメラの撮影画像を用い、これらの画像間の対応関係が求まれば、明示的にデプスマップを生成することなく、仮想視点画像を生成することも可能である。

［２−４．３Ｄモデル生成処理の具体例について］
先に図１９を参照して説明したように、仮想視点画像生成部４１４は３Ｄモデルの生成処理を実行する３Ｄモデル生成部を有する構成としてもよい。
以下、３Ｄモデル生成部の実行する３Ｄモデル生成処理の具体例について、図２１を参照して説明する。
図２１は、図２０と同様、右方向が水平方向を示すｘ軸、上方向が奥行きを示すｚ軸であり、ｘｚ平面を示している。

２台のカメラＣ＿ｉ，Ｃ＿ｊで撮影した画像Ｉ＿ｉ，Ｉ＿ｊから、多数の仮想視点から観察可能な３Ｄモデルを生成する。
カメラＣ＿ｉ，Ｃ＿ｊが、図７他に示すＬ視点カメラ１２１と、Ｒ視点カメラ１２２に対応し、Ｉ＿ｉが、カメラＣ＿ｉの撮影画像、Ｉ＿ｊがカメラＣ＿ｊの撮影画像である。

カメラＣ＿ｉの光学中心を原点（ｘ，ｚ）＝（０，０）とし、カメラＣ＿ｉとカメラＣ＿ｊの離間距離はａとする。
各カメラの座標位置（ｘ，ｚ）は、以下の通りである。
カメラＣ＿ｉの位置＝（０，０）、
カメラＣ＿ｊの位置＝（ｔ＿ｊ，０）、
仮想カメラＣ＿Ｖの位置＝（ｔ＿ｖ，０）。

各カメラの撮影画像の画像中心の座標（ｘ，ｚ）は、以下の通りである。
カメラＣ＿ｉの撮影画像Ｉ＿ｉの中心位置＝（０，−ｆ）、
カメラＣ＿ｊの撮影画像Ｉ＿ｊの中心位置＝（ｔ＿ｊ，−ｆ）、
仮想カメラＣ＿Ｖの撮影画像Ｉ＿Ｖの中心位置＝（ｔ＿ｖ，−ｆ）、

カメラＣ＿ｉとカメラＣ＿ｊで撮影した画像と、各画像対応のデプスマップから、画像上の各画素に対応する３次元空間上の点の座標を算出することを考える。このとき、各デプスマップは、先に述べたステレオマッチング法や、デプス計測可能な特殊なセンサを用いて生成されているものとする。

いま、カメラＣ＿ｉで撮影した画像Ｉ＿ｉ上の座標ｘ＿ｍを考えると、その画素が表現する３次元空間の点Ｘ＿ｍの座標Ｐ（Ｘ＿ｍ）は、デプスマップＤＭ＿ｉ（ｘ＿ｍ）を参照することで幾何学的関係から以下の（式５）によって計算される。

また、この点Ｘ＿ｍの色Ｅ（Ｘ＿ｍ）は対応する画素の値Ｉ＿ｉ（ｘ＿ｍ）で与えられる。この座標と色の組み合わせを３Ｄモデルの構成要素Ｍ（Ｘ＿ｍ）、すなわち、座標情報：Ｐ（Ｘ＿ｍ）と、色情報：Ｅ（Ｘ＿ｍ）からなる３Ｄモデルの構成要素、
Ｍ（Ｘ＿ｍ）＝（Ｐ（Ｘ＿ｍ），Ｅ（Ｘ＿ｍ））
とする。

同じ画像上に対する他の画素、あるいは他のカメラ（たとえばＣ_ｊ）で撮影された画像上の画素がそれぞれ表現する３次元空間の点に対しても３Ｄモデル構成要素を算出し、その集合を３Ｄモデルとする。

１つの仮想視点に対応する１つの仮想視点画像Ｉ＿Ｖは、３Ｄモデルの各構成要素Ｍ（Ｘ＿ｍ）に対し、その座標Ｘ＿ｍと仮想カメラＣ＿Ｖの光学中心を結ぶ線分が仮想視点画像Ｉ＿Ｖと交わる座標位置に、対応する色Ｅ（Ｘ＿ｍ）を割り当てることで生成することができる。

図１９に示す仮想視点画像生成部４１４を、３Ｄモデル生成部を有する構成とした場合、仮想視点画像生成部４１４は、まず、図２１を参照して説明した上記の処理に従って３Ｄモデルを生成し、さらに、生成した３Ｄモデルから任意視点の仮想視点画像を生成する。

［２−５．実施例１の情報処理装置の構成と処理の変形例（バリエーション）について］
次に、図７〜図２１を参照して説明した実施例１の情報処理装置の構成と処理の変形例（バリエーション）について説明する。

以下、図１９を参照して説明した実施例１の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。
（１）仮想視点画像の生成処理の省略例
上記の実施例において説明した仮想視点画像の生成位置に実カメラを配置して、実カメラの撮影画像を利用して合成画像を生成する構成としてもよい。この処理を行なえば、上述の実施例において説明した仮想視点画像の生成を省略することが可能となる。

（２）仮想視点画像の生成処理の変更例
仮想視点画像の生成処理に適用するデプスデータの取得は、撮影画像を用いて実行してもよいし、専用のセンサ（距離センサ）を用いてもよい。
また、デプス検出、３Ｄモデル生成、仮想視点画像生成、これらの処理は、既存の様々な方法を利用可能である。

（３）ユーザ位置検出処理の変更例
ユーザ位置検出部等において実行するユーザ位置の検出処理では、顔検出など既存の方法を用いた検出処理が可能である。
また、デプス検出部から得られるデプス情報を用い、表示部からある規定範囲にいる人物のみを参加者と判断して、その位置を検出する構成としてもよい。

第１ロケーションのユーザ位置検出部の検出情報は、ネットワークを介してコミュニケーション先である第２ロケーションに送信し、第２ロケーションでは、コミュニケーション終了まで、この検出情報に基づく位置に仮想カメラを設定するようにすることができる。
あるいは、第１ロケーションのユーザ位置検出部は、ユーザ位置を連続的に検出し、この検出情報を第２ロケーションに、遂次、送信し、第２ロケーションで、仮想カメラの位置を入力情報に応じて逐次、更新して運動視差を与えるようにする構成としてもよい。

ただし、この仮想カメラ位置の遂次変更処理を実行すると、表示部上において、異なる仮想視点画像境界部で不連続な見え方が発生する可能性がある。
この現象を回避するため、各仮想視点画像を、境界部に向けて発生する運動視差が徐々に小さくなるような設定とし、境界部で実質的な運動視差が発生しない設定とした画像を生成する構成とすることが好ましい。

またユーザ位置検出部を設けることなく、各参加者の位置はユーザが手動で設定し、その情報を相手地点に送信するようにしてもよい。また、各参加者の位置を規定位置として予め装置内の記憶部に格納し、これを利用する構成としてもよい。

（４）その他の構成の変更例
上述した実施例では、第１ロケーションにおいて、第２ロケーションに表示するための合成画像を生成する構成としたが、第１ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第２ロケーションに送信し、第２ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは３Ｄモデルデータ等である。

また、第１ロケーションの各被写体位置については、予め計測して第２ロケーションに送信し、第２ロケーションの情報処理装置内の記憶部に格納し、随時、利用可能な構成としていてもよい。

２つの仮想視点画像によって被写体像が分断されることを避けるため、各仮想画像の選択領域の切り出し位置は背景領域に位置させる設定が好ましい。また、合成時における境界部の連続性を考慮したうえで切り出し位置を決定することが好ましい。
複数画像の合成処理としては、例えば既存のスティッチング手法を用い、境界部の不連続性が目立たないように処理することが好ましい。

［３．本開示の実施例２の情報処理装置の構成と処理について］
次に、本開示の情報処理装置の第２実施例の構成と処理について説明する。
以下に説明する第２実施例の情報処理装置も、第１実施例の情報処理装置と同様、例えば、先に説明した図１や図２に示す双方向コミュニケーションシステムにおいて利用される表示部（ディスプレイ）の表示画像の制御を行う。

［３−１．情報処理装置の実行する処理について］
図２２以下を参照して、本開示の実施例２の情報処理装置の実行する処理について説明する。
図２２は、図１、図２を参照して説明した双方向コミュニケーションを実行中の第１ロケーションにおけるユーザ（Ａ，Ｂ，Ｃ）とその背景にある壁５０１を示す図である。

ユーザＡ〜Ｃの画像は、２つの異なる視点から画像を撮影するＬ視点カメラ１２１と、Ｒ視点カメラ１２２によって撮影される。
第１ロケーションの情報処理装置は、これらの画像に基づいて、視聴ユーザである第２ロケーションのユーザ（Ｄ〜Ｆ）の視点から見た仮想視点画像を生成し、さらにこれらの仮想視点画像に基づいて合成画像を生成して第２ロケーションに送信する。
この処理は前述の第１実施例すと同様である。

第２実施例の情報処理装置は、さらに、Ｌ視点カメラ１２１と、Ｒ視点カメラ１２２によって撮影された画像から、ユーザ（Ａ，Ｂ，Ｃ）以外の背景画像を分離し、さらに、背景画像中、ユーザ（Ａ，Ｂ，Ｃ）の影となって出力されない画像領域（オクルージョン領域）の穴埋め補正を行い、この補正後の背景画像と、ユーザＡ〜Ｃ等を含む仮想視点画像を用いて、第２ロケーションの表示部に表示するための合成画像を生成する。

図２２に示すように、背景画像となる壁５０１には、ユーザＡ〜Ｃの影になって、Ｌ視点カメラ１２１や、Ｒ視点カメラ１２２には撮影できない領域が含まれる。
図２２に示す例では、壁５０１のｐ〜ｑ領域、ｒ〜ｓ領域が撮影できない領域である。このような撮影されない領域はオクルージョン領域と呼ばれる。

本実施例２では、まず、背景画像と人物画像を分離した上で、背景画像中のオクルージョン領域を解消するための穴埋め補正を実行する。
穴埋め補正の一例について、図２３を参照して説明する。

図２３には、図２２に示す撮影環境において、Ｌ視点カメラ１２１によって撮影された画像から背景領域を抽出して精製したＬ視点カメラ撮影背景画像５０２と、Ｒ視点カメラ１２２によって撮影された画像から背景領域を抽出して生成したＲ視点カメラ撮影背景画像５０３を示している。

これら２つの背景画像には、カメラと背景の間に存在するユーザＡ〜Ｃの影となって、背景画像が撮影できないオクルージョン領域が発生する。
情報処理装置は、このようなオクルージョン領域を解消するための穴埋め補正を実行する。例えば、図２３に示すＬ視点カメラ撮影背景画像５０２のオクルージョン領域については、Ｒ視点カメラ撮影背景画像５０３から対応位置の画素値を利用して補正を行い、Ｒ視点カメラ撮影背景画像５０３のオクルージョン領域については、Ｌ視点カメラ撮影背景画像５０２から対応位置の画素値を利用して補正を行う。これらの補正により、オクルージョン領域を解消した補正背景画像５０４を生成する。

なお、補正背景画像は、例えばＬ視点カメラとＲ視点カメラの中央間の中央視点の仮想視点位置の仮想画像として生成する。あるいは、合成画像として利用する特定の仮想視点画像に対応する仮想視点からの背景画像を生成し、これらを合成する構成としてもよい。
また、Ｌ視点カメラ撮影背景画像５０２、Ｒ視点カメラ撮影背景画像５０３のいずれにも撮影されない領域については、周囲の画素値に基づく補間処理等により補正を行う。

第１ロケーションの情報処理装置は、このようにして生成した背景画像上に、ユーザ画像を含む仮想視点画像を重畳して最終的な合成画像、すなわち第２ロケーションの表示部に表示するための画像を生成して第２ロケーションに送信する。

［３−２．情報処理装置の構成例について］
次に、図２４を参照して本実施例２の情報処理装置の構成について説明する。
図２４は、第１ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第２ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。

撮像部４０１の撮影画像は、データ処理部５２０に入力される。
データ処理部５２０は、これらの入力画像に基づいて、第２ロケーションの表示部に表示するための画像である合成画像を生成する。

撮像部４０１の撮影画像は、データ処理部５２０の画像入力部５２１を介して、３Ｄモデル生成部５２３に入力される。
３Ｄモデル生成部５２３は、多数視点からの仮想画像を含む３Ｄモデルの生成処理を実行する。
３Ｄモデル生成部５２３は、異なる視点からの画像と、デプス情報に基づいて３Ｄモデルを生成する。デプス情報は、デプス検出部５２２によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。

３Ｄモデル生成部５２３は、例えば、先に図２１を参照して説明した処理に従って３Ｄモデル生成処理を実行する。
次の背景画像分離部５２４は、３Ｄモデル生成部５２３の生成した３Ｄモデルを利用してユーザ領域（人物領域）と背景領域の分離処理を実行する。
背景画像分離部５２４によって分離された人物領域画像は、仮想視点画像生成部５２６に入力され、背景画像は、背景画像生成部５２７に入力される。

仮想視点画像生成部５２６は、特定の仮想視点からの画像を生成する処理を実行する。
仮想視点画像生成部５２６は、実施例１と同様、例えば、図７、図８他を参照して説明した以下の仮想視点画像を生成する。
（１）仮想視点Ｄ，３１１からの観察画像に相当する仮想視点Ｄ画像３２１、
（２）仮想視点Ｅ，３１２からの観察画像に相当する仮想視点Ｅ画像３２２、
（３）仮想視点Ｆ，３１３からの観察画像に相当する仮想視点Ｆ画像３２３、
ただし、本実施例では、この仮想視点画像に背景画像は含まれず、人物領域の画像のみとなる。

これらの仮想視点画像は、図７等に示すＬ視点カメラ１２１、Ｒ視点カメラ１２２の撮影画像、すなわち、異なる視点からの画像と、デプス情報に基づいて生成する。
デプス情報は、デプス検出部５２２によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。

デプス検出部５２２によるデプス検出処理は、例えば図７等に示すＬ視点カメラ１２１、Ｒ視点カメラ１２２の撮影画像、すなわち、異なる視点からの画像を利用して実行される。
具体的には、ステレオマッチング法や、デプス計測可能な特殊なセンサを用いて各画像対応のデプスマップ、すなわち各画像の構成画素対応のデプスデータ（距離情報）を持つデプスマップを生成する。
なお、３Ｄモデル生成部５２３で生成した３Ｄモデルを利用して仮想視点画像を生成する構成としてもよい。

ユーザ位置検出部５２５は、表示部４０３の前にいるユーザ（コミュニケーション参加者）の位置を検出する。例えば画像入力部５２１の入力する２つの異なる視点からの撮影画像に基づいてユーザ位置を検出する。なお、ユーザ位置検出部５２５は、位置センサを用いてユーザ位置を検出する構成としてもよい。
ユーザ位置検出部５２５の検出したユーザ位置情報５３１は、仮想視点画像生成部５２６、画像合成部５２８に入力される。さらに、送信部４０４を介して視聴ユーザ位置情報５４２として第２ロケーションに送信される。この送信情報は、第２ロケーションにおいて視聴ユーザ位置情報として利用される。

仮想視点画像生成部５２６は、特定の仮想視点からの画像を生成するが、どの視点からの仮想視点画像を生成するかについては、先に実施例１において説明したと同様、表示ユーザと視聴ユーザの対応位置関係に基づいて決定する。
この処理のため、仮想視点画像生成部５２６は、ユーザ位置検出部５２５の生成するユーザ位置情報５３１を入力し、さらに、視聴ユーザのいる第２ロケーションから受信部４０２を介して受信する視聴ユーザ位置情報５３２を入力する。

仮想視点画像生成部５２６は、これらの入力情報に基づいて、どの視点からの仮想視点画像を生成するかについて決定する。
これは、先の実施例１対応の図７〜図１８を参照して説明したと同様の処理であり、基本的な処理としては、視聴ユーザと表示ユーザが各々正面方向に相対している場合、この設定における視聴ユーザの視点に対応する仮想視点画像を生成する。

仮想視点画像生成部５２６の生成した仮想視点画像は、画像合成部５２８に出力される。
画像合成部５２８には、仮想視点画像生成部５２６の生成した仮想視点画像とともに、背景画像生成部５２７の生成した背景画像が入力される。

背景画像生成部５２７は、背景画像分離部５２４から入力される背景画像に基づいて、例えば先に図２３を参照して説明したオクルージョンの穴埋め補正等の画像補正処理を実行し、補正された背景画像を画像合成部５２８に入力する。
なお、背景画像生成部５２７は、背景画像を例えばＬ視点カメラとＲ視点カメラの中央間の中央視点の仮想視点位置の仮想画像として生成する。あるいは、合成画像として利用する特定の仮想視点画像に対応する仮想視点からの背景画像を生成し、これらを合成する構成としてもよい。この場合、例えば仮想視点画像生成部５２６で利用した仮想視点情報を背景画像生成部５２７に入力して利用することが可能である。

画像合成部５２８は、仮想視点画像生成部５２６の生成した人物画像から構成される１つ以上の仮想視点画像と、背景画像生成部５２７の生成した背景画像の合成処理を実行し、第２ロケーションの表示部に表示する合成画像（＝送信画像（表示画像））を生成する。
なお、人物画像を含む仮想視点画像の合成処理は、実施例１において説明したと同様の処理である。例えば、図９等を参照して説明したように、複数の仮想視点画像から、選択領域を抽出して１枚の合成画像を生成する。
なお、この合成処理は、表示ユーザと視聴ユーザの対応位置関係に基づいて実行される。
図７〜図１８を参照して説明したように、基本的な処理としては、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。

さらに、本実施例２では、この人物を含む複数の仮想視点画像からなる合成画像を背景画像上に重畳して最終的な合成画像、すなわち、第２ロケーションの表示部に表示するための最終的な合成画像を生成する。
合成画像生成部５２８の生成した合成画像５４１は、送信部４０４を介して第２ロケーションに送信される。

［３−３．実施例２の情報処理装置の構成と処理の変形例（バリエーション）について］
次に、図２２〜図２４を参照して説明した実施例２の情報処理装置の構成と処理の変形例（バリエーション）について説明する。

以下、図２４を参照して説明した実施例２の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。

（１）背景画像生成部について
背景画像生成部５２７の生成する背景画像は、Ｌ視点カメラ１２１とＲ視点カメラ１２２の中央視点の仮想画像として生成する例について説明したが、合成画像として利用される人物を含む仮想視点画像に整合させた仮想視点画像としてもよい。
また、背景画像生成部５２７は、あらかじめ用意した背景用の３Ｄモデルを用いて背景画像を生成する構成としてもよい。また、あらかじめ用意した２Ｄ画像を用いてもよい。

また、人物等の前景によって生じた穴の補間は、３Ｄモデル生成手段において、３Ｄモデル上で行うこともできる。
背景画像生成部５２７は、受信部４０２を介して相手地点（第２ロケーション）の視点位置情報を入力して、相手地点参加者の視点位置に基づいて、背景画像の視点位置を決めるようにしてもよい。

（２）その他の変形例
実施例１と同様、ユーザ位置検出部５２５が、連続的に参加者の位置を検出することにより、参加者の映像に対して運動視差を与えることができる。
背景画像生成部５２７においても、受信部４０２を介して相手地点の視点位置情報を入力することで、背景画像に対しても参加者の視点位置の変化に応じた運動視差を与えるようにすることができる。
この処理に際して、背景画像を分割して各参加者に割り当て、分割領域毎に異なる運動視差を与えるようにしてもよい。
なお、合成画像の選択領域間の境界部において不連続な見え方が発生することを回避するために、各領域の境界部に向けて発生する運動視差が徐々に小さくなるようにして、境界部では実質的に運動視差が発生しないように背景画像を生成することが好ましい。

上述した実施例では、第１ロケーションにおいて、第２ロケーションに表示するための合成画像を生成する構成としたが、第１ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第２ロケーションに送信し、第２ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは３Ｄモデルデータ等である。

［４．本開示の実施例３の情報処理装置の構成と処理について］
次に、本開示の情報処理装置の第３実施例の構成と処理について説明する。
以下に説明する第３実施例の情報処理装置も、第１実施例の情報処理装置と同様、例えば、先に説明した図１や図２に示す双方向コミュニケーションシステムにおいて利用される表示部（ディスプレイ）の表示画像の制御を行う。

［４−１．情報処理装置の実行する処理について］
図２５以下を参照して、本開示の実施例３の情報処理装置の実行する処理について説明する。
図２５には、図１、図２を参照して説明したと同様、双方向コミュニケーションを実行中の第１ロケーションと、第２ロケーションのユーザと表示部を示している。
（１）第１ロケーション
（２）第２ロケーション
これらの２つのロケーションの構成を示している。
これら２つのロケーションは、各々離れた遠隔地であり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワークを介して接続され、画像、音声を送受信する。

第１ロケーションには、ユーザＡ，Ｂ，Ｃがおり、第１ロケーション側のカメラ１２１，１２２によって撮影されたユーザＡ，Ｂ，Ｃを含む画像、または撮影画像に基づいて生成される合成画像が第２ロケーションに送信され、第２ロケーションの表示部２００に表示される。
この表示画像は、第２ロケーションの視聴ユーザＤ，Ｅ，Ｆによって観察される。

同様に、第２ロケーションには、ユーザＤ，Ｅ，Ｆがおり、第２ロケーション側のカメラ２２１，２２２によって撮影されたユーザＤ，Ｅ，Ｆを含む画像、または撮影画像に基づいて生成される合成画像が第１ロケーションに送信され、第１ロケーションの表示部１００に表示される。
この表示画像は、第１ロケーションの視聴ユーザＡ，Ｂ，Ｃによって観察される。

先に説明した実施例１では、表示部を見ている視聴ユーザの正面の表示領域に表示される表示ユーザの視線が、視聴ユーザの視点から観察したとき、実際の視線方向と同一の方向となるように制御した合成画像を生成して表示する構成例であった。

すなわち、図２５に示すように、第２ロケーションの表示部２００に表示される合成画像は、以下の設定となる。
（１）視聴ユーザＤの正面の表示領域Ｘ１〜Ｘ２は、仮想視点Ｄの画像、
（２）視聴ユーザＥの正面の表示領域Ｘ２〜Ｘ３は、仮想視点Ｅの画像、
（３）視聴ユーザＦの正面の表示領域Ｘ３〜Ｘ４は、仮想視点Ｆの画像、
このように、視聴ユーザの正面領域の画像は、各視聴ユーザの視点から観察される仮想視点画像に設定される。

この実施例１の構成では、視聴ユーザが表示部の正面方向以外の表示ユーザを見た場合に、その表示ユーザは、視聴ユーザの視点とは異なる視点の仮想視点画像であり、視線方向に違和感が発生する場合かある。
実施例３は、このような問題を解決する実施例である。

具体的には、例えば、以下の処理を実行する。
（１）視聴ユーザの視線方向にある表示部の表示画像をその視聴ユーザの視点から観察される仮想視点画像とする。
（２）会話を実行しているユーザ（話者）の視線方向の画像をそのユーザ（話者）の視点から観察される仮想視点画像とする。
（３）同一の画像領域を見ている視聴者がいる場合は、その画像領域の正面に近いユーザを優先ユーザとして、優先ユーザの視点から観察される仮想視点画像をその画像領域に表示する。
実施例３の情報処理装置は、例えば、これらの処理を実行して合成画像を生成する。

図２６以下を参照して、実施例３の情報処理装置の実行する処理の具体例について説明する。
図２６には、実施例３の情報処理装置の実行する以下の２つの処理例を示している。
（ａ）視聴ユーザの視線方向に応じて出力画像を制御する例１
（ｂ）視聴ユーザの視線方向に応じて出力画像を制御する例２（同一画像領域を見る視聴ユーザが複数である場合、画面位置に近い視聴ユーザを優先）

図２６（ａ）に示す例は、視聴ユーザの視線方向に応じて出力画像を制御する例である。
ユーザＤは正面方向（表示部２００の領域Ｘ１〜Ｘ２）を見ており、表示部２００の領域Ｘ１〜Ｘ２には、ユーザＤの視点から観察した仮想視点画像である仮想視点Ｄ画像６１１を表示する。

ユーザＥは右方向（表示部２００の領域Ｘ３〜Ｘ４）を見ており、表示部２００の領域Ｘ３〜Ｘ４には、ユーザＥの視点から観察した仮想視点画像である仮想視点Ｅ画像６１３を表示する。

ユーザＦは左方向（表示部２００の領域Ｘ２〜Ｘ３）を見ており、表示部２００の領域Ｘ２〜Ｘ３には、ユーザＦの視点から観察した仮想視点画像である仮想視点Ｆ画像６１２を表示する。

なお、図に示すユーザＤ〜Ｆは第２ロケーションの視聴ユーザである。表示部２００に表示する表示画像の生成処理は、第１ロケーションの情報処理装置において実行される。
第１ロケーションの情報処理装置は、第２ロケーションの情報処理装置から、第２ロケーションの視聴ユーザの視線方向情報を入力し、この情報に基づいて、図２６（ａ）に示すような設定の合成画像を生成して第２ロケーションに送信する。

なお、第１ロケーションの情報処理装置が、表示部の全表示領域に対応する３つの仮想視点画像、すなわち、視聴ユーザＤ，Ｅ，Ｆ各々の仮想視点対応の３つの表示全領域対応仮想視点画像を生成して第２ロケーションの情報処理装置に送信し、第２ロケーションの情報処理装置が、視聴ユーザＤ，Ｅ，Ｆの視線方向に応じて、これら、つの表示全領域対応仮想視点画像から画像切り出しを実行して、図２６（ａ）に示す設定の合成画像を生成して表示部２００に表示する構成としてもよい。

図２６（ｂ）は、表示部の１つの表示領域を複数の視聴ユーザが見ている場合の処理例である。
表示部２００の中央領域Ｘ２〜Ｘ３を視聴ユーザＤと視聴ユーザＥが見ている。

このように、同一の表示領域を複数の視聴ユーザが見ている場合、どちらかのユーザを優先ユーザとして選択して、優先ユーザの視点からの仮想視点画像をその領域に表示する。
図２６（ｂ）に示す例は、表示領域に近いユーザを優先ユーザとする例である。

表示部２００の領域Ｘ１〜Ｘ２には、領域Ｘ１〜Ｘ２の正面のユーザＤの視点から観察した仮想視点画像である仮想視点Ｄ画像６２１を表示する。

表示部２００の領域Ｘ２〜Ｘ３は、ユーザＤ，Ｅが見ているが、領域Ｘ２〜Ｘ３に近いユーザは、ユーザＥでありユーザＥが優先ユーザとなる。この場合、領域Ｘ２〜Ｘ３には、優先ユーザであるユーザＥの視点から観察した仮想視点画像である仮想視点Ｅ画像６２２を表示する。

ユーザＦは正面方向（表示部２００の領域Ｘ３〜Ｘ４）を見ており、表示部２００の領域Ｘ３〜Ｘ４には、ユーザＦの視点から観察した仮想視点画像である仮想視点Ｆ画像６２３を表示する。

この設定の合成画像の生成は、図２６（ａ）を参照して説明したと同様、第１ロケーションの情報処理装置、または第２ロケーションの情報処理装置のいずれかが行う。

図２７には、実施例３の情報処理装置の実行する以下の処理例を示している。
（ｃ）視聴ユーザ中の話者の視線方向に応じて出力画像を制御する例

図２７（ｃ）に示す例は、視聴ユーザ中の話者の視線方向に応じて出力画像を制御する例である。
第２ロケーションの視聴ユーザＤが話者であり、表示部の表示領域Ｘ２〜Ｘ３に表示された第１ロケーションのユーザＢに向かって話をしている。
この場合、表示領域Ｘ２〜Ｘ３の表示画像は、視聴ユーザ中の話者であるユーザＤの視点から観察した仮想視点画像である仮想視点Ｄ画像６３２とする。

表示領域Ｘ２〜Ｘ３に対しては、視聴ユーザＤ，Ｆが視線を向けているが、話者であるユーザＤを優先ユーザとして選択し、優先ユーザであるユーザＤの視点から観察した仮想視点画像である仮想視点Ｄ画像６３２を表示する。

表示部２００の領域Ｘ１〜Ｘ２には、領域Ｘ１〜Ｘ２の正面のユーザＤの視点から観察した仮想視点画像である仮想視点Ｄ画像６３１を表示する。
表示部２００の領域Ｘ３〜Ｘ４には、領域Ｘ３〜Ｘ４に視線を向けているユーザＥの視点から観察した仮想視点画像である仮想視点Ｅ画像６３３を表示する。

図２８には、実施例３の情報処理装置の実行する以下の処理例を示している。
（ｄ）表示ユーザの視線方向に応じて出力画像を制御する例

図２８（ｄ）に示す例は、複数の視聴ユーザが同じ表示ユーザを見ている場合に、その表示ユーザの画像を、表示ユーザの視線方向に応じて決定する例である。

第１ロケーションの表示ユーザＢは、第１ロケーションの表示部１００に表示された第２ロケーションのユーザＦを見ている。
一方、第２ロケーションの視聴ユーザＤと視聴ユーザＦは、いずれも同じ表示ユーザＢを見ている。

この領域に表示される表示ユーザＢは視聴ユーザＦを見ているので、この表示領域Ｘ２〜Ｘ３には視聴ユーザ中のユーザＦの視点から観察した仮想視点画像である仮想視点Ｆ画像６４２を表示する。

仮に表示ユーザＢが表示領域Ｘ２〜Ｘ３を見ていない視聴ユーザＥを見ている場合、あるいは誰も見ていない場合には、表示領域Ｘ２〜Ｘ３には、視聴ユーザＤまたは視聴ユーザＦのどちらかの仮想視点画像を提示する。
これらの処理により、表示ユーザＢが、視聴ユーザＤ，Ｆのいずれも見ていないことを、視聴ユーザＤ，Ｆが理解できることになる。

なお、表示領域Ｘ３〜Ｘ４はここを見ている視聴ユーザＥの仮想視点画像、すなわち視聴ユーザ中のユーザＥの視点から観察した仮想視点画像である仮想視点Ｅ画像６４３を提示する。表示領域Ｘ１〜Ｘ２はどの視聴ユーザも見ていないため、正面の視聴ユーザＤのの視点から観察した仮想視点画像である仮想視点Ｅ画像６４１を提示する。

［４−２．情報処理装置の構成例について］
次に、図２９を参照して本実施例３の情報処理装置の構成について説明する。
図２９は、第１ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第２ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。

図２９に示す本実施例３の情報処理装置の構成は、先に図２４を参照して説明した実施例２の情報処理装置の構成をベースとしており、図２４に示す情報処理装置のデータ処理部５２０内に、ユーザ状態（視線、話者）検出部７１１と、優先度判定部７１２を追加した構成である。
また、受信部４０２を介して入力する第２ロケーションからの情報として、視聴ユーザ状態（視線、話者）情報７３１を追加している。
さらに、送信部４０４を介して第２ロケーションに送信する情報として、第１ロケーション側のユーザ情報である視聴ユーザ状態（視線、話者）情報７４２を追加している。
その他の構成は、実施例２において図２４を参照して説明した構成と同一である。

以下、実施例２と異なる実施例３の構成と処理を中心として説明する。
データ処理部５２０内のユーザ状態（視線、話者）検出部７１１は、第１ロケーションのユーザのユーザ状態を検出する。
具体的には、各ユーザの視線方向や、各ユーザが話をしているか否か等のユーザ状態を検出する。
ユーザの視線方向は、具体的には、表示部４０３に表示されたどのユーザを見ているかの視線方向の判別を実行する。
この視線方向判定処理は、例えば画像入力部５２１に入力される異なる視点から撮影された複数の画像に基づいて実行する。
話者検出についても、画像入力部５２１に入力される画像に基づいて実行する。

なお、これらの視線検出処理や、話者検出処理は、画像に基づく処理の他、視線検出用のセンサや、音声方向検出用のセンサを用いる構成としてもよい。

ユーザ状態（視線、話者）検出部７１１の検出情報は、優先度判定部７１２に入力される。
さらに、送信部４０４を介して第２ロケーションに送信される。図に示す視聴ユーザ状態（視線、話者）情報７４２である。

優先度判定部７１２は、ユーザ状態（視線、話者）検出部７１１の検出情報、すなわち、第１ロケーションの各ユーザの視線方向情報や、話者情報と、第２ロケーションから受信部４０２を介して受信する視聴ユーザ状態（視線、話者）情報７３１を入力して、合成画像に設定する仮想視点画像をどの視点からの仮想視点画像に設定するかの優先度情報を生成して画像合成部５２８に入力する。

優先度の設定は、様々な方法が可能である。例えば、以下のような優先度設定が利用できる。
（１）表示部の各領域から各ユーザまでの距離を算出し、近いユーザほど高い優先度を割り当てる。
（２）マイクなどにより、一定時間単位で発言の多いユーザを特定し、そのユーザに高い優先度を割り当てる、
（３）相手地点における参加者の視線方向を受信し、自地点において複数のユーザが見ている領域に対応する相手地点のユーザの視線方向に近いユーザほど高い優先度を割り当てる。
（４）上記（１）〜（３）の組み合わせによって各ユーザの優先度を割り当てる。

画像合成部５２８は、仮想視点画像生成部５２６の生成した人物画像から構成される１つ以上の仮想視点画像と、背景画像生成部５２７の生成した背景画像の合成処理を実行し、第２ロケーションの表示部に表示する合成画像（＝送信画像（表示画像））を生成する。
なお、人物画像を含む仮想視点画像の合成処理は、基本的な処理としては、図７〜図１８を参照して説明した実施例１と同様、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。

さらに、本実施例３では、優先度判定部７１２から入力する優先度情報と、受信部４０２を介して入力する視聴ユーザ状態（視線、話者）情報７３１に基づいて、合成画像の各領域に設定する仮想視点画像をどの視点からの画像とするかを決定して合成画像を生成する。

具体的には、先に図２６〜図２８を参照して説明した処理に従って、各画像領域に出力する仮想視点画像を決定し、合成画像を生成する。

例えば、以下の仮想視点画像設定アルゴリズムに随って各画像領域に設定する仮想視点画像を決定する。
（１）視聴ユーザの視線方向にある表示部の表示画像をその視聴ユーザの視点から観察される仮想視点画像とする。
（２）会話を実行しているユーザ（話者）の視線方向の画像をそのユーザ（話者）の視点から観察される仮想視点画像とする。
（３）同一の画像領域を見ている視聴者がいる場合は、その画像領域の正面に近いユーザを優先ユーザとして、優先ユーザの視点から観察される仮想視点画像をその画像領域に表示する。
本実施例３の情報処理装置の画像合成部５２８は、例えば、これらの処理を実行して合成画像を生成する。

なお、本実施例３では実施例２と同様、人物を含む複数の仮想視点画像からなる合成画像を背景画像上に重畳して最終的な合成画像、すなわち、第２ロケーションの表示部に表示するための最終的な合成画像を生成する。
合成画像生成部５２８の生成した合成画像５４１は、送信部４０４を介して第２ロケーションに送信される。

［４−３．実施例３の情報処理装置の構成と処理の変形例（バリエーション）について］
次に、図２５〜図２９を参照して説明した実施例３の情報処理装置の構成と処理の変形例（バリエーション）について説明する。

以下、図２９を参照して説明した実施例３の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。

（１）優先度の設定
上述した実施例では、優先度の設定例として、以下の設定例について説明した。
（ａ）表示部の各領域から各ユーザまでの距離を算出し、近いユーザほど高い優先度を割り当てる。
（ｂ）マイクなどにより、一定時間単位で発言の多いユーザを特定し、そのユーザに高い優先度を割り当てる、
（ｃ）相手地点における参加者の視線方向を受信し、自地点において複数のユーザが見ている領域に対応する相手地点のユーザの視線方向に近いユーザほど高い優先度を割り当てる。
（ｄ）上記（ａ）〜（ｃ）の組み合わせによって各ユーザの優先度を割り当てる。

これらは優先度設定の一例であり、その他、様々な優先度設定アルゴリズムを適用可能である。
例えば、複数のユーザ（参加者）に予め優先度を設定し、この設定済みの優先度を利用する構成としてもよい。
また、視聴ユーザと、表示ユーザの双方のユーザ状態を考慮する優先度設定や、いずれか一方のユーザのユーザ状態のみを考慮した優先度設定等が可能である。
また、視聴ユーザ中、表示画面に近いユーザほど、視線に対する違和感が大きくなるので、表示画面に近いユーザに対する優先度を高める設定としてもよい。
その他、状況に応じた様々な優先度設定アルゴリズムが適用可能である。

優先度判定部７１２の実行する優先度判定の例を以下に示す。優先度判定部７１２は、例えば、以下の情報に基づいて優先度を判定することが可能である。
（ａ）表示部に表示する表示ユーザの位置、
（ｂ）表示部に表示する表示ユーザの視線方向、
（ｃ）表示部に表示する表示ユーザ中の話者、
（ｄ）表示部を見る視聴ユーザの位置、
（ｅ）表示部を見る視聴ユーザの視線方向、
（ｆ）表示部を見る視聴ユーザ中の話者、
上記（ａ）〜（ｆ）の少なくともいずれかの情報に基づいて判定する。

上記の判定基準を採用した優先度の設定例は、例えば以下の設定である。
（ａ）表示ユーザの表示される表示領域について、表示ユーザの位置がカメラに近いほど優先度を高くする。
具体的には、例えば、表示ユーザが多数おり、表示ユーザ１人毎の表示領域区分が困難であり、１つの仮想視点画像領域に複数の表示ユーザが入ってしまう場合、カメラに近い表示ユーザを優先し、その表示領域を、カメラに近い表示ユーザを見ている視聴ユーザの視点からの仮想視点画像とするといった処理である。
（ｂ）表示ユーザの表示される表示領域について、視線方向の先の視聴ユーザの優先度を高くする。
（ｃ）表示ユーザ中の話者が表示される表示領域について、表示ユーザの会話の相手となる視聴ユーザの優先度を高くする。
（ｄ）視聴ユーザの位置と表示部の表示領域との距離が近いほど、その表示領域について、その視聴ユーザの優先度を高くする。
（ｅ）視聴ユーザの視線方向にある表示部の表示領域について、その視聴ユーザの優先度を高くする。
（ｆ）視聴ユーザ中の話者が会話の相手とする表示ユーザが表示される表示領域について、その視聴ユーザの優先度を高くする。

（２）全体処理の変形例
上述した実施例では、第１ロケーションにおいて、第２ロケーションに表示するための合成画像を生成する構成としたが、第１ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第２ロケーションに送信し、第２ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは３Ｄモデルデータ等である。

［５．情報処理装置のハードウェア構成例について］
次に、図３０を参照して情報処理装置のハードウェア構成例について説明する。
図３０は、本開示の処理を実行する情報処理装置のハードウェア構成例を示す図である。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８０２、または記憶部８０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８０３には、ＣＰＵ８０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４により相互に接続されている。

ＣＰＵ８０１はバス８０４を介して入出力インタフェース８０５に接続され、入出力インタフェース８０５には、撮像部８２１の撮影画像の入力を行うとともに、ユーザ入力可能な各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部８０６、表示部８２２やスピーカなどに対するデータ出力を実行する出力部８０７が接続されている。ＣＰＵ８０１は、入力部８０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部８０７に出力する。

入出力インタフェース８０５に接続されている記憶部８０８は、例えばハードディスク等からなり、ＣＰＵ８０１が実行するプログラムや各種のデータを記憶する。通信部８０９は、Ｗｉ−Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

入出力インタフェース８０５に接続されているドライブ８１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア８１１を駆動し、データの記録あるいは読み取りを実行する。

［６．本開示の構成のまとめ］
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

なお、本明細書において開示した技術は、以下のような構成をとることができる。
（１）複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。

（２）前記画像合成部は、
各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出し、
各切り出し画像を組み合わせて前記合成画像を生成する（１）に記載の情報処理装置。

（３）前記仮想視点画像生成部は、
視聴ユーザの正面の表示領域に表示ユーザがある場合にのみ、その視聴ユーザ対応のユーザ視点対応仮想視点画像を生成する（１）または（２）に記載の情報処理装置。

（４）前記仮想視点画像生成部は、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して仮想視点画像を生成する（１）〜（３）いずれかに記載の情報処理装置。

（５）前記仮想視点画像生成部は、
３Ｄモデル生成部を有し、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して３Ｄモデルを生成し、生成した３Ｄモデルを利用して仮想視点画像を生成する（１）〜（４）いずれかに記載の情報処理装置。

（６）前記画像合成部は、
前記視聴ユーザの位置情報を入力し、入力した前記視聴ユーザの位置情報を利用して、前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する（１）〜（５）いずれかに記載の情報処理装置。

（７）前記画像合成部は、
前記表示部に表示する表示ユーザの位置情報を入力し、表示ユーザの位置情報と、前記視聴ユーザの位置情報との対応関係に基づいて、複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する（１）〜（６）いずれかに記載の情報処理装置。

（８）前記画像合成部は、
前記表示ユーザの位置と、前記視聴ユーザの位置が相対する設定である場合、その視聴ユーザの視点対応仮想視点画像を含む合成画像を生成する（７）に記載の情報処理装置。

（９）前記情報処理装置は、さらに、
前記撮影画像から、人物と背景画像を分離する背景画像分離部を有し、
前記仮想視点画像生成部は、人物を含む画像を適用した仮想視点画像を生成し、
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、背景画像の合成処理を実行する（１）〜（８）いずれかに記載の情報処理装置。

（１０）前記情報処理装置は、さらに、
前記背景画像分離部の生成した背景画像のオクルージョン領域を穴埋め補正して補正背景画像を生成する背景画像生成部を有し。
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、前期補正背景画像の合成処理を実行する（９）に記載の情報処理装置。

（１１）前記画像合成部は、
前記合成画像に含める仮想視点画像を、予め規定した優先度アルゴリズムに従って算出する優先度に応じて決定する（１）〜（１０）いずれかに記載の情報処理装置。

（１２）前記優先度は、
（ａ）前記表示部に表示する表示ユーザの位置、
（ｂ）前記表示部に表示する表示ユーザの視線方向、
（ｃ）前記表示部に表示する表示ユーザ中の話者、
（ｄ）前記表示部を見る視聴ユーザの位置、
（ｅ）前記表示部を見る視聴ユーザの視線方向、
（ｆ）前記表示部を見る視聴ユーザ中の話者、
上記（ａ）〜（ｆ）の少なくともいずれかの情報に基づいて決定する優先度である（１１）に記載の情報処理装置。

（１３）前記情報処理装置は、
前記画像合成部の生成した合成画像を送信する送信部を有する（１）〜（１２）いずれかに記載の情報処理装置。

（１４）前記情報処理装置は、
前記画像合成部の生成した合成画像を表示する表示部を有する（１）〜（１２）いずれかに記載の情報処理装置。

（１５）通信ネットワークを介してデータ受信を実行する受信部と、
前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
前記合成画像を表示する表示部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。

（１６）画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
前記送信装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
前記受信装置は、
前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システム。

（１７）情報処理装置において実行する情報処理方法であり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部が、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部が、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法。

（１８）情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記プログラムは、
前記仮想視点画像生成部に、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
前記画像合成部に、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラム。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本開示の一実施例の構成によれば、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
具体的には、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。
本構成により、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。

１０，２０データ処理部
１１，２１表示部（ディスプレイ）
１２，２２カメラ
１３，２３スピーカ
３０ネットワーク
１００表示部
１２１Ｌ視点カメラ
１２２Ｒ視点カメラ
２００表示部
３１１仮想視点Ｄ
３１２仮想視点Ｅ
３１３仮想視点Ｆ
３２１仮想視点Ｄ画像
３２２仮想視点Ｅ画像
３２３仮想視点Ｆ画像
３２６〜３２８選択領域
３３１合成画像
３４１仮想視点Ｄ画像
３４２仮想視点Ｅ画像
３４３仮想視点Ｆ画像
３５１〜３５２選択領域
３６１合成画像
３８１〜３８２選択領域
３８３合成画像
３９１仮想視点Ｄ画像
３９２仮想視点Ｆ画像
４０１撮像部
４０２受信部
４０３表示部
４０４送信部
４１０データ処理部
４１１画像入力部
４１２デプス検出部
４１３ユーザ位置検出部
４１４仮想視点画像生成部
４１５画像合成部
５２０データ処理部
５２１画像入力部
５２２デプス検出部
５２３３Ｄモデル生成部
５２４背景分離部
５２５ユーザ位置検出部
５２６仮想視点画像生成部
５２７背景画像生成部
５２８画像合成部
７１１ユーザ状態（視線、話者）検出部
７１２優先度判定部
８０１ＣＰＵ
８０２ＲＯＭ
８０３ＲＡＭ
８０４バス
８０５入出力インタフェース
８０６入力部
８０７出力部
８０８記憶部
８０９通信部
８１０ドライブ
８１１リムーバブルメディア
８２１撮像部
８２２表示部

Claims

複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
前記画像合成部は、
各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出し、
各切り出し画像を組み合わせて前記合成画像を生成する請求項１に記載の情報処理装置。
前記仮想視点画像生成部は、
視聴ユーザの正面の表示領域に表示ユーザがある場合にのみ、その視聴ユーザ対応のユーザ視点対応仮想視点画像を生成する請求項１に記載の情報処理装置。
前記仮想視点画像生成部は、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して仮想視点画像を生成する請求項１に記載の情報処理装置。
前記仮想視点画像生成部は、
３Ｄモデル生成部を有し、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して３Ｄモデルを生成し、生成した３Ｄモデルを利用して仮想視点画像を生成する請求項１に記載の情報処理装置。
前記画像合成部は、
前記視聴ユーザの位置情報を入力し、入力した前記視聴ユーザの位置情報を利用して、前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する請求項１に記載の情報処理装置。
前記画像合成部は、
前記表示部に表示する表示ユーザの位置情報を入力し、表示ユーザの位置情報と、前記視聴ユーザの位置情報との対応関係に基づいて、複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する請求項１に記載の情報処理装置。
前記画像合成部は、
前記表示ユーザの位置と、前記視聴ユーザの位置が相対する設定である場合、その視聴ユーザの視点対応仮想視点画像を含む合成画像を生成する請求項７に記載の情報処理装置。
前記情報処理装置は、さらに、
前記撮影画像から、人物と背景画像を分離する背景画像分離部を有し、
前記仮想視点画像生成部は、人物を含む画像を適用した仮想視点画像を生成し、
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、背景画像の合成処理を実行する請求項１に記載の情報処理装置。
前記情報処理装置は、さらに、
前記背景画像分離部の生成した背景画像のオクルージョン領域を穴埋め補正して補正背景画像を生成する背景画像生成部を有し。
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、前期補正背景画像の合成処理を実行する請求項９に記載の情報処理装置。
前記画像合成部は、
前記合成画像に含める仮想視点画像を、予め規定した優先度アルゴリズムに従って算出する優先度に応じて決定する請求項１に記載の情報処理装置。
前記優先度は、
（ａ）前記表示部に表示する表示ユーザの位置、
（ｂ）前記表示部に表示する表示ユーザの視線方向、
（ｃ）前記表示部に表示する表示ユーザ中の話者、
（ｄ）前記表示部を見る視聴ユーザの位置、
（ｅ）前記表示部を見る視聴ユーザの視線方向、
（ｆ）前記表示部を見る視聴ユーザ中の話者、
上記（ａ）〜（ｆ）の少なくともいずれかの情報に基づいて決定する優先度である請求項１１に記載の情報処理装置。
前記情報処理装置は、
前記画像合成部の生成した合成画像を送信する送信部を有する請求項１に記載の情報処理装置。
前記情報処理装置は、
前記画像合成部の生成した合成画像を表示する表示部を有する請求項１に記載の情報処理装置。
通信ネットワークを介してデータ受信を実行する受信部と、
前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
前記合成画像を表示する表示部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
前記送信装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
前記受信装置は、
前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システム。
情報処理装置において実行する情報処理方法であり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部が、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部が、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法。
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記プログラムは、
前記仮想視点画像生成部に、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
前記画像合成部に、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラム。