JPWO2017141511A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JPWO2017141511A1
JPWO2017141511A1 JP2017567955A JP2017567955A JPWO2017141511A1 JP WO2017141511 A1 JPWO2017141511 A1 JP WO2017141511A1 JP 2017567955 A JP2017567955 A JP 2017567955A JP 2017567955 A JP2017567955 A JP 2017567955A JP WO2017141511 A1 JPWO2017141511 A1 JP WO2017141511A1
Authority
JP
Japan
Prior art keywords
image
virtual viewpoint
user
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017567955A
Other languages
English (en)
Inventor
緒形 昌美
昌美 緒形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017141511A1 publication Critical patent/JPWO2017141511A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)

Abstract

表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成を実現する。複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。

Description

本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、例えばネットワークを介した双方向通信により画像、音声を送信し、双方向コミュニケーションを実行する情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
ネットワークを介した双方向通信により画像、音声を送信するテレビ会議システム等の双方向コミュニケーションシステムは、様々な分野で利用されている。
昨今では、高精細の大型ディスプレイが多く利用され、また、ネットワークを介して通信される画像、音声の品質も向上しており、ディスプレイに表示された遠隔のユーザとのコミュニケーションを、あたかもその場にいるような感覚で行うことが可能となっている。
しかし、このような、双方向コミュニケーションシステムにおける問題点として、表示部(ディスプレイ)に表示される会議参加者等のユーザの視線方向が、実際にユーザが見ている方向と一致しないという問題がある。
これは、ユーザ(会議参加者)を撮影するカメラが、ある1つの視点からの撮影画像であることに起因する。相手型の表示装置には、1つのカメラ視点から撮影された画像が表示される。
しかし、カメラ視点と異なる方向から表示画像を見ている視聴ユーザがいる場合、この視聴ユーザは、表示部に表示されたユーザの視点方向に違和感を持つことになる。
特に、表示部の前に複数人のユーザ(例えば、会議参加者)がいる場合、この問題が顕著となる。
表示部の前に複数の視聴者がいる場合、表示部の表示画像を撮影したカメラの位置に相当する位置にいるユーザは違和感のない画像を観察することができる。しかし、表示部の表示画像を撮影したカメラの位置に相当する位置とは異なる位置にいるユーザは、表示部に表示された相手方のユーザ(会議参加者)の視線が、本来とは全く異なって見えてしまうことがある。
このような問題を解決する構成を開示した従来技術として、例えば、特許文献1(特許3139100号公報)、特許文献2(特許3289730号公報)、特許文献3(特開2012−070081号公報)、特許文献4(特開2014−096701号公報)、特許文献5(特開2012−088538号公報)等がある。
しかし、これらの従来技術において開示されている方法は、特殊なディスプレイを利用することが必要な構成、あるいは画像に含まれる顔の眼の画像を補正して視線方向を変化させる構成等である。特殊なディスプレイを利用する構成は、従来のディスプレイをそのまま利用できずコスト高を招くことになる。また、顔の眼の画像を補正して視線方向を変化させる構成では、顔の一部分のみを補正することになり顔の表情に違和感が発生する可能性がある等の問題がある。
特許3139100号公報 特許3289730号公報 特開2012−070081号公報 特開2014−096701号公報 特開2012−088538号公報
本開示は、例えば、上述の問題点に鑑みてなされたものであり、例えば、双方向コミュニケーションシステムにおいて利用される表示部(ディスプレイ)の表示画像を、違和感の少ない画像とする情報処理装置、撮像装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
本開示の一実施例においては、視聴ユーザが多く観察する表示部の表示領域に表示するユーザの視線方向を実際の視線方向に一致させることを可能とした情報処理装置、撮像装置、情報処理システム、および情報処理方法、並びにプログラムを提供する。
本開示の第1の側面は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置にある。
さらに、本開示の第2の側面は、
通信ネットワークを介してデータ受信を実行する受信部と、
前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
前記合成画像を表示する表示部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置にある。
さらに、本開示の第3の側面は、
画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
前記送信装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
前記受信装置は、
前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システムにある。
さらに、本開示の第4の側面は、
情報処理装置において実行する情報処理方法であり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部が、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部が、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法にある。
さらに、本開示の第5の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記プログラムは、
前記仮想視点画像生成部に、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
前記画像合成部に、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
具体的には、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。
本構成により、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
双方向コミュニケーションシステムについて説明する図である。 双方向コミュニケーションシステムについて説明する図である。 表示部に表示される画像の問題点について説明する図である。 表示部に表示される画像の問題点について説明する図である。 表示部に表示される画像の問題点の解決例について説明する図である。 表示部に表示される画像の問題点の解決例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の実行する処理例について説明する図である。 本開示の実施例1の情報処理装置の構成例について説明する図である。 仮想視点画像の生成処理の具体例について説明する図である。 3Dモデルの生成処理の具体例について説明する図である。 本開示の実施例2の情報処理装置の実行する処理例について説明する図である。 本開示の実施例2の情報処理装置の実行する処理例について説明する図である。 本開示の実施例2の情報処理装置の構成例について説明する図である。 本開示の実施例3の情報処理装置の実行する処理例について説明する図である。 本開示の実施例3の情報処理装置の実行する処理例について説明する図である。 本開示の実施例3の情報処理装置の実行する処理例について説明する図である。 本開示の実施例3の情報処理装置の実行する処理例について説明する図である。 本開示の実施例3の情報処理装置の構成例について説明する図である。 情報処理装置のハードウェアの構成例について説明する図である。
以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
1.双方向コミュニケーションシステムの構成の概要と問題点について
2.本開示の実施例1の情報処理装置の構成と処理について
2−1.情報処理装置の実行する処理について
2−2.情報処理装置の構成例について
2−3.仮想視点画像生成処理の具体例について
2−4.3Dモデル生成処理の具体例について
2−5.実施例1の情報処理装置の構成と処理の変形例(バリエーション)について
3.本開示の実施例2の情報処理装置の構成と処理について
3−1.情報処理装置の実行する処理について
3−2.情報処理装置の構成例について
3−3.実施例2の情報処理装置の構成と処理の変形例(バリエーション)について
4.本開示の実施例3の情報処理装置の構成と処理について
4−1.情報処理装置の実行する処理について
4−2.情報処理装置の構成例について
4−3.実施例3の情報処理装置の構成と処理の変形例(バリエーション)について
5.情報処理装置のハードウェア構成例について
6.本開示の構成のまとめ
[1.双方向コミュニケーションシステムの構成の概要と問題点について]
まず、双方向コミュニケーションシステムの構成の概要と問題点について説明する。
図1は、双方向コミュニケーションシステム構成の一例を示す図である。
図1には、
(1)第1ロケーション
(2)第2ロケーション
これらの2つのロケーションの構成例を示している。
これら2つのロケーションは、各々離れた遠隔地にあり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワーク30を介して接続されている。
第1ロケーションには、ユーザA,B,Cがいる。
また、第1ロケーションには、データ処理部10と、データ処理部10に接続された表示部(ディスプレイ)11、カメラ12、音声入出力部(マイク&スピーカ)13がある。
一方、第2ロケーションには、ユーザD,E,Fがいる。
また、第2ロケーションには、データ処理部20と、データ処理部20に接続された表示部(ディスプレイ)21、カメラ22、音声入出力部(マイク&スピーカ)23がある。
第1ロケーションのカメラ12は、第1ロケーションのユーザA,B,Cを撮影し、撮影画像データが、データ処理部10、ネットワーク30を介して第2ロケーションのデータ処理部20に送信される。
第2ロケーションのデータ処理部20は、第1ロケーションからの受信画像を表示部21に表示する。
また、第1ロケーションの音声入出力部(マイク&スピーカ)13は、第1ロケーションのユーザA,B,Cの発話等を取得し、取得音声データが、データ処理部10、ネットワーク30を介して第2ロケーションのデータ処理部20に送信される。
第2ロケーションのデータ処理部20は、第1ロケーションからの受信音声を、音声入出力部(マイク&スピーカ)23を介して出力する。
一方、第2ロケーションのカメラ22は、第2ロケーションのユーザD,E,Fを撮影し、撮影画像データが、データ処理部20、ネットワーク30を介して第1ロケーションのデータ処理部10に送信される。
第1ロケーションのデータ処理部10は、第2ロケーションからの受信画像を表示部11に表示する。
また、第2ロケーションの音声入出力部(マイク&スピーカ)23は、第2ロケーションのユーザD,E,Fの発話等を取得し、取得音声データが、データ処理部20、ネットワーク30を介して第1ロケーションのデータ処理部10に送信される。
第1ロケーションのデータ処理部10は、第2ロケーションからの受信音声を、音声入出力部(マイク&スピーカ)13を介して出力する。
このような処理により、第1ロケーションのユーザA,B,Cと、第2ロケーションのユーザD,E,Fは、遠隔地のユーザの画像と発話を表示部、スピーカを介して取得し、双方向コミュニケーションを行うことが可能となる。
図2に、双方向コミュニケーションシステムにおいて実現される1つのコミュニケーション環境例について説明する図を示す。
図2(1)は、第1ロケーション側のユーザA,B,Cと、表示部11に表示される第2ロケーションのユーザD,E,Fを示す図である。
図2(2)は、第2ロケーション側のユーザD,E,Fと、表示部21に表示される第1ロケーションのユーザA,B,Cを示す図である。
これらの各ロケーションでは、それぞれ、遠方のロケーションにいるユーザが、目の前にいるようなイメージ、すなわち、図2(3)に示すように1つの会議室にいるような感覚でコミュニケーションを行うことが可能となる。
しかし、このような双方向コミュニケーションシステムにおいて、表示部(ディスプレイ)に表示されるユーザの視線方向が、実際に見ている方向と一致しないという問題が発生する。
これは、各ロケーションでユーザを撮影するカメラが置かれた一つの視点からの撮影画像が、相手型の表示装置に表示されとしまうことが主な要因である。
特に、表示部の前に複数人のユーザ(例えば、会議参加者)がいる場合、この問題が顕著となる。
この問題点について、図3以下を参照して説明する。
図3は、図1、図2を参照して説明した双方向コミュニケーションシステムにおいて、各ロケーションの表示部に表示される表示画像の例を示す図である。
第1ロケーションの表示部11には、第2ロケーションのユーザD,E,Fの画像が表示される。
この画像は、第2ロケーションのカメラ22の撮影画像である。
一方、第2ロケーションの表示部21には、第1ロケーションのユーザA,B,Cの画像が表示される。
この画像は、第1ロケーションのカメラ12の撮影画像である。
ここで、第1ロケーションのユーザCが、表示部11に表示された第2ロケーションのユーザD,E,Fの中央のユーザEを見て話を始めたとする。
表示部11には、第2ロケーションのユーザD,E,Fが表示されており、ユーザEは、表示部の水平方向の中央領域に表示されるため、ユーザCは、表示部11の中心方向(P2)を見て話をする。
なお、図3には、表示部11の水平方向を示す位置識別子として、図の左側から識別子:P1,P2,P3を示している。
第1ロケーションのユーザA,B,Cを撮影するカメラ12は、表示部の水平方向の中央領域(P2)に固定されている。
カメラ12は、位置P2からの視点画像を撮影し、撮影画像が第2ロケーションの表示部21に表示される。
第2ロケーションの表示部21に表示される第1ロケーションのユーザA,B,Cは、図3に示すような設定となる。
第1ロケーションの発話ユーザCは、表示部11に表示されたユーザEを見て話をしている。この視線方向は、カメラ12の位置(P)に向いている。
すなわち、ユーザCは、カメラ12に視線を向けて話をしている状態であり、ユーザCの画像は、カメラ12に対する正面向きの画像として撮影される。
この結果、第2ロケーションの表示部21に表示される第1ロケーションCの画像は、正面を向いている画像となる。
すなわち、第2ロケーションの表示部21の表示画像は、ユーザCが、第2ロケーションのユーザFに向かって話をしているような表示画像となる。
なお、実際の画像は、表示画像のユーザ視線に違和感がある程度であるが、図では、各ユーザの視線方向についての違和感を分かり易く表現するため、視線方向に併せて顔の向きを変更して示している。以下に示す他の図においても同様である。
このように、第1ロケーションのユーザCは、第2ロケーションのユーザEに対して話をしているにも関わらず、第2ロケーションのユーザFは、第1ロケーションのユーザCが、自分に対して話をしているように勘違いしてしまう。
このように、カメラの撮影視点の位置によって、表示部に表示される被写体の視線方向が決定されてしまうため、表示部の前に並ぶユーザの位置によっては、実際の視線方向とは、異なる視線方向の画像が観察されることになる。
図4は、誤った視線方向の画像が表示されるもう1つの例を示す図である。
第1ロケーションの表示部11には、第2ロケーションのユーザD,E,Fの画像が表示される。
この画像は、第2ロケーションのカメラ22の撮影画像である。
一方、第2ロケーションの表示部21には、第1ロケーションのユーザA,B,Cの画像が表示される。
この画像は、第1ロケーションのカメラ12の撮影画像である。
図4に示す例は、第1ロケーションのユーザCが、表示部11に表示された第2ロケーションのユーザFを見て話をしている例である。
表示部11には、第2ロケーションのユーザD,E,Fが表示されており、ユーザFは、表示部11のユーザCの正面領域(P3)に表示されるため、ユーザCは、表示部11の正面(P3)を見て話をする。
第1ロケーションのユーザA,B,Cを撮影するカメラ12は、表示部の水平方向の中央領域(P2)に固定されている。
カメラ12は、位置P2からの視点画像を撮影し、撮影画像が第2ロケーションの表示部21に表示される。
第2ロケーションの表示部21に表示される第1ロケーションのユーザA,B,Cは、図3に示すような設定となる。
第1ロケーションの発話ユーザCは、表示部11に表示されたユーザFを見て話をしている。この視線方向は、カメラ12の位置(P)に向いていない。
すなわち、ユーザCは、カメラ12と異なる方向に視線を向けて話をしている状態であり、ユーザCの画像は、カメラ12と異なる方向に視線を向けた画像として撮影される。
この結果、第2ロケーションの表示部21に表示される第1ロケーションCの画像は、図に示すように、右方向(Fより外側)を向いている画像となる。
すなわち、第2ロケーションの表示部21の表示画像は、ユーザCが、第2ロケーションのユーザFより外側を向いて話をしているような表示画像となる。
なお、前述したように、実際の画像は、表示画像のユーザ視線に違和感がある程度であるが、図では分かり易くするため、視線方向に併せて顔の向きを変更して示している。
このように、第1ロケーションのユーザCは、第2ロケーションのユーザFに対して話をしているにも関わらず、第2ロケーションのユーザFは、第1ロケーションのユーザCが、自分に対して話をしていないように勘違いしてしまう。
図3、図4を参照して説明したように、カメラの撮影視点の位置によって、表示部に表示される被写体の視線方向が決定されてしまう。
この視線方向は、カメラ視点から見た視線方向となる。
そのため、撮影画像を表示する表示部の前にいる視聴ユーザが、画像を撮影したカメラ視点と異なる視点位置から表示画像を観察すると、表示画像内の人物の視線方向は、実際の視線方向と異なる方向になり、スムーズなコミュニケーションの障害となる。
このような問題点を解決する従来構成の例について説明する。
例えば特許文献2(特許3289730号公報)には、図5に示すように、複数のカメラ31〜33によって、様々な視点方向の画像を撮影し、これらの複数の画像を多視点画像表示ディスプレイ35に表示する構成を開示している。
多視点画像表示ディスプレイ35は、見る方向によって異なる画像が視聴できるようにした特殊なディスプレイである。
多視点画像表示ディスプレイ35に表示されるD視点画像撮影カメラ31の撮影画像は、第2ロケーションのユーザDの位置からのみ視聴できる。
多視点画像表示ディスプレイ35に表示されるE視点画像撮影カメラ31の撮影画像は、第2ロケーションのユーザEの位置からのみ視聴できる。
多視点画像表示ディスプレイ35に表示されるF視点画像撮影カメラ31の撮影画像は、第2ロケーションのユーザFの位置からのみ視聴できる。
このような構成とすることで、第2ロケーションのユーザD,E,Fは、それぞれの位置(視点)に応じた違和感のない画像を視聴することができる。
しかし、この構成を実現するためには、特殊な多視点画像表示ディスプレイが必要となる。
また、第1ロケーションに設定するカメラの位置を第2ロケーションのユーザの位置に応じて変更しなければならないといった問題が発生する。
また、特許文献3(特開2012−070081号公報)には、図6に示すように、表示画像に含まれる人物の顔の眼の位置や形状等を補正して表示することによって、表示部の表示画像を実際の視線方向に一致させる構成を開示している。
しかし、この処理のためには、表示部に表示される顔画像を抽出し、さらに抽出した顔画像に含まれる眼の画像領域を特定して、各人物の実際の視線方向に応じて眼の画像領域に対する補正処理を行うことが必要であり、特殊な画像処理が必要となる。
さらに、このような画像の補正処理を行なうと、かえって違和感を増幅させた画像が表示されてしまう可能性がある。
以下では、このような問題を発生させることなく、表示部(ディスプレイ)に表示されるユーザの視線方向と実際の視線方向を一致させた画像を表示可能とした本開示の構成について説明する。
[2.本開示の実施例1の情報処理装置の構成と処理について]
以下、本開示の情報処理装置の第1実施例の構成と処理について説明する。
以下に説明する本開示の情報処理装置は、例えば、先に説明した図1や図2に示す双方向コミュニケーションシステムにおいて利用される表示部(ディスプレイ)の表示画像の制御を行う。
以下、本開示の複数の実施例について、順次、説明する。
[2−1.情報処理装置の実行する処理について]
図7以下を参照して、本開示の実施例1の情報処理装置の実行する処理について説明する。
図7には、図1、図2を参照して説明したと同様、双方向コミュニケーションを実行中の第1ロケーションと、第2ロケーションのユーザと表示部を示している。
(1)第1ロケーション
(2)第2ロケーション
これら2つのロケーションは、各々離れた遠隔地であり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワークを介して接続され、画像、音声を送受信する。
第1ロケーションには、ユーザA,B,Cがおり、第1ロケーション側のカメラ121,122によって撮影されたユーザA,B,Cを含む画像、またはこれらの撮影画像に基づいて生成される合成画像が第2ロケーションに送信され、第2ロケーションの表示部200に表示される。
この表示画像は、第2ロケーションの視聴ユーザD,E,Fによって観察される。
同様に、第2ロケーションには、ユーザD,E,Fがおり、第2ロケーション側のL視点カメラ221,R視点カメラ222によって撮影されたユーザD,E,Fを含む画像、または、これらの撮影画像に基づいて生成される合成画像が第1ロケーションに送信され、第1ロケーションの表示部100に表示される。
この表示画像は、第1ロケーションの視聴ユーザA,B,Cによって観察される。
第1ロケーションの側のカメラ121,122によって撮影された画像は、第1ロケーション側の情報処理装置のデータ処理部に入力され、第2ロケーションに対する送信画像(合成画像)が生成されて、第2ロケーションに送信される。
同様に、第2ロケーションの側のカメラ221,222によって撮影された画像は、第2ロケーション側の情報処理装置のデータ処理部に入力され、第1ロケーションに対する送信画像(合成画像)が生成されて、第1ロケーションに送信される。
第1ロケーションと第2ロケーションの情報処理装置の実行する処理は同様であり、以下では、代表例として、第1ロケーションの情報処理装置の実行する処理について説明する。
第1ロケーションには、表示部(ディスプレイ)100が備えられ、さらに、異なる視点から画像を撮影する複数のカメラ121,122を有する。
L視点カメラ121は、表示部100の左側のL視点からユーザA,B,Cを撮影する。
さらに、もう1つのR視点カメラ122は、表示部100の右側のR視点からユーザA,B,Cを撮影する。
第1ロケーションの情報処理装置は、これら2つの異なる視点から撮影された画像を入力して、図に示す3つの仮想視点からの観察画像(仮想視点画像)を生成する。すなわち、以下の3つの仮想視点からの観察画像(仮想視点画像)である。
(1)仮想視点D,311からの観察画像(仮想視点D画像)
(2)仮想視点E,312からの観察画像(仮想視点E画像)
(3)仮想視点F,313からの観察画像(仮想視点F画像)
仮想視点D〜F,311〜313は、第2ロケーションの視聴ユーザD,E,Fの視点位置に相当する。
第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,E,Fの視聴位置情報を第1ロケーションからネットワークを介して取得し、この第2ロケーション側の視聴ユーザD,E,Fの位置情報に応じて生成する仮想視点画像の視点位置を決定する。
すなわち、第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,E,Fの視聴位置に対応した仮想視点D〜F,311〜313を設定し、これらの各仮想視点から観察した仮想視点画像を生成する。
なお、仮想視点画像は、2つの異なる視点位置から撮影した2つの撮影画像、すなわち、L視点カメラ211の撮影したL視点画像と、R視点カメラ212の撮影したR視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。
第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図8を参照して説明する。
図8は、第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。
第1ロケーションの情報処理装置は、図8に示すように、第2ロケーションの視聴ユーザD,E,Fの視点位置(第2ロケーションの表示部200に対する相対的な視点位置)に応じた仮想視点からの画像を生成する。
図8に示す例では、第2ロケーションの視聴ユーザD,E,F、これら3人のユーザの視点位置に応じた3つの仮想視点から観察される3つの仮想視点画像を生成する。
図8に示す以下の3つの仮想視点画像である。
(1)仮想視点D,311からの観察画像に相当する仮想視点D画像321、
(2)仮想視点E,312からの観察画像に相当する仮想視点E画像322、
(3)仮想視点F,313からの観察画像に相当する仮想視点F画像323、
第1ロケーションの情報処理装置は、これら3の仮想視点画像から、第2ロケーションに送信する合成画像を生成する。
具体的には、図8の各仮想視点画像321〜323内の点線枠領域として示す選択領域326〜328を取得して、これらの選択領域326〜328を合成して1つの合成画像を生成する。
図9に、具体的な合成画像331の生成例を示す。
図9に示すように、仮想視点画像321〜323内の点線枠領域として示す選択領域326〜328を合成して1つの合成画像331が生成される。
第1ロケーションの情報処理装置は、この合成画像331を第2ロケーションに送信する。
第2ロケーションのロケーションの表示部200には、この合成画像331が表示される。
第2ロケーションの表示部200の表示画像の例を図10に示す。
図10に示すように、第2ロケーションの表示部200の表示画像は、仮想視点D画像341、仮想視点E画像342、仮想視点F画像343、これらの3つの仮想視点画像の合成画像331となる。
第2ロケーションの視聴ユーザDの正面の表示画像は、仮想視点D画像341となる。また、視聴ユーザDの正面の表示画像は、仮想視点E画像342となる。さらに、視聴ユーザFの正面の表示画像は、仮想視点F画像343となる。
このように、各視聴ユーザの正面にある表示画像は、それぞれ各視聴ユーザの視点から観察される画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。
図7〜図10を参照して説明した例は、第1ロケーション、第2ロケーションの双方にそれぞれ同数の3人のユーザ(双方向コミュニケーション参加者)が存在する場合の例であった。
しかし、双方のロケーションのユーザの数は様々な設定が想定される。
以下、様々な設定における処理例について説明する。
以下の2つの設定における処理について、順次、説明する。
(設定1)画像送信側のユーザ数(表示ユーザ数)が、画像受信表示側のユーザ数(視聴ユーザ数)より少ない場合
(設定2)画像送信側のユーザ数(表示ユーザ数)が、画像受信表示側のユーザ数(視聴ユーザ数)より多い場合
なお、いずれの場合も、基本的な処理態様は、表示部の表示ユーザと視聴ユーザが相対している設定では、その視聴ユーザの視点からの仮想視点画像を、その視聴ユーザの正面領域に表示するという処理態様である。
(設定1対応のの処理)
まず、図11以下を参照して、画像送信側のユーザ数が、画像受信表示側のユーザ数より少ない場合の処理例について説明する。
図11に示す例は、各ロケーションのユーザ設定が以下の設定である。
第1ロケーションにはユーザA,C(表示ユーザ)、
第2ロケーションには、ユーザD,E,F(視聴ユーザ)
これらのユーザ設定である。
なお、ここでは、代表例として第1ロケーションのユーザの画像を第2ロケーションに送信して、第2ロケーションの表示部200に表示する例を説明するので、第1ロケーションのユーザを表示ユーザ、第2ロケーションのユーザを視聴ユーザとして説明する。
図11に示すように、表示ユーザが2人(A,C)の場合、視線方向についての考慮が必要なユーザはA,Cの2人のみとなる。
第2ロケーションの視聴ユーザはD,E,Fの3人であるが、視聴ユーザEの正面には、表示ユーザが表示されない。
このような場合、第1ロケーションの情報処理装置は、L視点カメラ121、R視点カメラ122、これら2つの異なる視点から撮影された画像を入力して、図に示す2つの仮想視点からの観察画像(仮想視点画像)を生成する。すなわち、以下の2つの仮想視点からの観察画像(仮想視点画像)である。
(1)仮想視点D,311からの観察画像(仮想視点D画像)
(2)仮想視点F,313からの観察画像(仮想視点F画像)
仮想視点D,311は、第2ロケーションの視聴ユーザDの視点位置に相当する。
仮想視点F,313は、第2ロケーションの視聴ユーザFの視点位置に相当する。
仮想視点E,312からの観察画像(仮想視点E画像)については、第2ロケーションの視聴ユーザの正面位置に表示される表示ユーザがいないので、生成しない。
第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,E,Fの視聴位置情報を第1ロケーションからネットワークを介して取得し、この第2ロケーション側の視聴ユーザD,E,Fの位置情報と、その正面位置における表示ユーザの有無情報に応じて生成する仮想視点画像の視点位置を決定する。
すなわち、第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,E,Fの視聴位置に対応した仮想視点D〜F,311〜313を設定し、さらに、これらの各仮想視点の正面位置に表示ユーザがいるか否かを判定し、いる場合のみ、その仮想視点から観察した仮想視点画像を生成する。
本例では、第2ロケーションの視聴ユーザD,Fの各仮想視点の正面位置にのみ表示ユーザA,Cがおり、第2ロケーションの視聴ユーザEの仮想視点の正面位置には表示ユーザがいないので、視聴ユーザD,Fの各仮想視点から観察した2つの仮想視点画像を生成する。
なお、仮想視点画像は、2つの異なる視点位置から撮影した2つの撮影画像、すなわち、L視点カメラ211の撮影したL視点画像と、R視点カメラ212の撮影したR視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。
第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図12を参照して説明する。
図12は、第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。
第1ロケーションの情報処理装置は、図12に示すように、第2ロケーションの視聴ユーザD,Fの視点位置(第2ロケーションの表示部200に対する相対的な視点位置)に応じた仮想視点からの画像を生成する。
図12に示す例では、第2ロケーションの視聴ユーザD,F、これら2人のユーザの視点位置に応じた2つの仮想視点から観察される2つの仮想視点画像を生成する。
図12に示す以下の2つの仮想視点画像である。
(1)仮想視点D,311からの観察画像に相当する仮想視点D画像321、
(2)仮想視点F,313からの観察画像に相当する仮想視点F画像323、
第1ロケーションの情報処理装置は、これら2の仮想視点画像から、第2ロケーションに送信する合成画像を生成する。
具体的には、図12の各仮想視点画像321,323内の点線枠領域として示す選択領域351,352を取得して、これらの選択領域351,352を合成して1つの合成画像を生成する。
図13に、具体的な合成画像361の生成例を示す。
図13に示すように、仮想視点画像321,323内の点線枠領域として示す選択領域351,352を合成して1つの合成画像361が生成される。
第1ロケーションの情報処理装置は、この合成画像361を第2ロケーションに送信する。
第2ロケーションのロケーションの表示部200には、この合成画像361が表示される。
第2ロケーションの表示部200の表示画像の例を図14に示す。
図14に示すように、第2ロケーションの表示部200の表示画像は、仮想視点D画像371、仮想視点F画像372、これらの2つの仮想視点画像の合成画像361となる。
第2ロケーションの視聴ユーザDの正面の表示画像は、仮想視点D画像371となる。また、視聴ユーザFの正面の表示画像は、仮想視点F画像372となる。視聴ユーザEの正面には仮想視点E画像は設定されず、視聴ユーザEが左方向を見た場合は、仮想視点D画像371を観察し、右側を見た場合は、仮想視点F画像372を観察することになる。
このように、本例では、表示部を視聴する視聴ユーザの正面の表示領域に表示ユーザが表示されている場合に、その視聴ユーザの視点からの仮想視点画像を表示する。各仮想視点画像は、正面から視聴している視聴ユーザの視点からの観察画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。
ただし、視聴ユーザの正面の表示領域に表示ユーザが表示されない場合は、その視聴ユーザ視点からの仮想視点画像は表示しない。
(設定2対応のの処理)
次に、図15以下を参照して、画像送信側のユーザ数が、画像受信表示側のユーザ数より多い場合の処理例について説明する。
図15に示す例は、各ロケーションのユーザ設定が以下の設定である。
第1ロケーションにはユーザA,B,C(表示ユーザ)、
第2ロケーションには、ユーザD,F(視聴ユーザ)
これらのユーザ設定である。
図11に示すように、表示ユーザが3人(A,B,C)の場合、視線方向についての考慮が必要なユーザはA,B,Cの3人となる。
第2ロケーションの視聴ユーザはD,Fの2人である。
このような場合、第1ロケーションの情報処理装置は、L視点カメラ121、R視点カメラ122、これら2つの異なる視点から撮影された画像を入力して、図に示す2つの仮想視点からの観察画像(仮想視点画像)を生成する。すなわち、以下の2つの仮想視点からの観察画像(仮想視点画像)である。
(1)仮想視点D,311からの観察画像(仮想視点D画像)
(2)仮想視点F,313からの観察画像(仮想視点F画像)
仮想視点D,311は、第2ロケーションの視聴ユーザDの視点位置に相当する。
仮想視点F,313は、第2ロケーションの視聴ユーザFの視点位置に相当する。
仮想視点E,312からの観察画像(仮想視点E画像)については、第2ロケーションに、この視点対応の視聴ユーザがいないので、生成しない。
第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,Fの視聴位置情報を第1ロケーションからネットワークを介して取得し、この第2ロケーション側の視聴ユーザD,Fの位置情報に応じて生成する仮想視点画像の視点位置を決定する。
すなわち、第1ロケーションの情報処理装置は、第2ロケーションの視聴ユーザD,Fの視聴位置に対応した仮想視点D,311と仮想視点F313を設定し、これらの仮想視点から観察した仮想視点画像を生成する。
なお、仮想視点画像は、2つの異なる視点位置から撮影した2つの撮影画像、すなわち、L視点カメラ211の撮影したL視点画像と、R視点カメラ212の撮影したR視点画像を利用して生成する。この仮想視点画像の生成処理は、既存の処理を適用可能であるが、具体的な処理例については後段で説明する。
第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理例について、図16を参照して説明する。
図16は、第1ロケーションの情報処理装置の実行する仮想視点画像の生成処理を示す図である。
第1ロケーションの情報処理装置は、図16に示すように、第2ロケーションの視聴ユーザD,Fの視点位置(第2ロケーションの表示部200に対する相対的な視点位置)に応じた仮想視点からの画像を生成する。
図16に示す例では、第2ロケーションの視聴ユーザD,F、これら2人のユーザの視点位置に応じた2つの仮想視点から観察される2つの仮想視点画像を生成する。
図16に示す以下の2つの仮想視点画像である。
(1)仮想視点D,311からの観察画像に相当する仮想視点D画像321、
(2)仮想視点F,313からの観察画像に相当する仮想視点F画像323、
第1ロケーションの情報処理装置は、これら2の仮想視点画像から、第2ロケーションに送信する合成画像を生成する。
具体的には、図16の各仮想視点画像321,323内の点線枠領域として示す選択領域381,382を取得して、これらの選択領域381,382を合成して1つの合成画像を生成する。
仮想視点D画像321の選択領域381は、表示ユーザA,Bを含む画像領域であり、仮想視点F画像322の選択領域382は、表示ユーザCを含む画像領域である。
なお、図16に示す例では、表示ユーザBを表示ユーザAと同じ1つの選択領域381に含める設定としているが、表示ユーザBを表示ユーザCと同じ選択領域382に含める設定としてもよい。また、表示ユーザBをどちらの領域に含めるかについてを、表示ユーザBの視線方向に応じて決定する構成としてもよい。
例えば表示ユーザBが視聴ユーザDを見ている場合、仮想視点D側の選択領域381に含め、表示ユーザBが視聴ユーザFを見ている場合、仮想視点F側の選択領域382に含める。
図17に、具体的な合成画像383の生成例を示す。
図17に示すように、仮想視点画像321,323内の点線枠領域として示す選択領域381,382を合成して1つの合成画像383が生成される。
第1ロケーションの情報処理装置は、この合成画像383を第2ロケーションに送信する。
第2ロケーションのロケーションの表示部200には、この合成画像383が表示される。
第2ロケーションの表示部200の表示画像の例を図18に示す。
図18に示すように、第2ロケーションの表示部200の表示画像は、仮想視点D画像391、仮想視点F画像392、これらの2つの仮想視点画像の合成画像383となる。
第2ロケーションの視聴ユーザDの正面の表示画像は、仮想視点D画像391となる。また、視聴ユーザFの正面の表示画像は、仮想視点F画像392となる。視聴ユーザEの正面には仮想視点E画像は設定されず、正面〜左方向を見た場合は、仮想視点D画像391を観察し、右側を見た場合は、仮想視点F画像392を観察することになる。
このように、本例では、表示部を視聴する視聴ユーザの正面の表示領域に表示ユーザが表示されている場合に、その視聴ユーザの視点からの仮想視点画像を表示する。各仮想視点画像は、正面から視聴している視聴ユーザの視点からの観察画像となり、表示部の表示ユーザの実際の視点方向と一致した視点方向を持つ表示画像が表示されることになる。
ただし、表示部に表示された表示ユーザの正面に視聴ユーザがいない場合は、存在しない視聴ユーザ視点からの仮想視点画像は表示しない。
[2−2.情報処理装置の構成例について]
次に、図19を参照して実施例1の情報処理装置の構成について説明する。
図19は、第1ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第2ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。
撮像部401は、図7等に示すL視点カメラ121、R視点カメラ122に相当し、異なる視点からの画像を撮影する撮像部である。
表示部403は、受信部402を介して受信する第2ロケーションから送信される合成画像を表示する。
撮像部401の撮影画像は、データ処理部410に入力される。
データ処理部410は、これらの入力画像に基づいて、第2ロケーションの表示部に表示するための画像である合成画像を生成する。
撮像部401の撮影画像は、データ処理部410の画像入力部411を介して、仮想視点画像生成部414に入力される。
仮想視点画像生成部414は、特定の仮想視点からの画像を生成する処理を実行する。
仮想視点画像生成部414は、例えば、図7、図8他を参照して説明した以下の仮想視点画像を生成する。
(1)仮想視点D,311からの観察画像に相当する仮想視点D画像321、
(2)仮想視点E,312からの観察画像に相当する仮想視点E画像322、
(3)仮想視点F,313からの観察画像に相当する仮想視点F画像323、
これらの仮想視点画像は、図7等に示すL視点カメラ121、R視点カメラ122の撮影画像、すなわち、異なる視点からの画像と、デプス情報に基づいて生成する。
デプス情報は、デプス検出部412によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。
デプス検出部412によるデプス検出処理は、例えば図7等に示すL視点カメラ121、R視点カメラ122の撮影画像、すなわち、異なる視点からの画像を利用して実行される。
具体的には、ステレオマッチング法によって各画像の構成画素対応のデプスデータ(距離情報)を持つデプスマップを生成する。なお、撮影画像を用いずデプス計測可能な特殊なセンサを用いて各画像対応のデプスマップを生成する構成としてもよい。
ユーザ位置検出部413は、表示部403の前にいるユーザ(コミュニケーション参加者)の位置を検出する。例えば画像入力部411の入力する2つの異なる視点からの撮影画像に基づいてユーザ位置を検出する。なお、ユーザ位置検出部413は、位置センサを用いてユーザ位置を検出する構成としてもよい。
ユーザ位置検出部413の検出したユーザ位置情報421は、仮想視点画像生成部414、画像合成部415に入力される。さらに、送信部404を介して視聴ユーザ位置情報432として第2ロケーションに送信される。この送信情報は、第2ロケーションにおいて視聴ユーザ位置情報432として利用される。
仮想視点画像生成部414は、特定の仮想視点からの画像を生成するが、どの視点からの仮想視点画像を生成するかについては、上述した処理例において説明したように、表示ユーザと視聴ユーザの対応位置関係に基づいて決定する。
この処理のため、仮想視点画像生成部414は、ユーザ位置検出部413の生成するユーザ位置情報421を入力し、さらに、視聴ユーザのいる第2ロケーションから受信部402を介して受信する視聴ユーザ位置情報422を入力する。
仮想視点画像生成部414は、これらの入力情報に基づいて、どの視点からの仮想視点画像を生成するかについて決定する。
図7〜図18を参照して説明したように、基本的な処理としては、視聴ユーザと表示ユーザが各々正面方向に相対している場合、この設定における視聴ユーザの視点に対応する仮想視点画像を生成する。
なお、仮想視点画像生成部414は、被写体の3次元データからなる3Dモデルを生成する3Dモデル生成部を備えた構成としてもよい。3Dモデルは被写体の3次元位置データと各位置の画素値データによって構成される。なお、3Dモデルも、異なる視点からの画像と、デプス情報に基づいて生成することができる。具体的な処理例については後述する。
3Dモデルは、多数の視点からの仮想視点画像を生成するためのデータを有しており、仮想視点画像生成部414が3Dモデル生成部を備えた構成である場合、仮想視点画像生成部414は、まず3Dモデルを生成し、生成した3Dモデルから、必要な仮想視点画像を生成する。
仮想視点画像生成部414の生成した仮想視点画像は、画像合成部415に出力される。
画像合成部415は、仮想視点画像生成部414の生成した仮想視点画像の合成処理を実行し、第2ロケーションの表示部に表示する合成画像(=送信画像(表示画像))を生成する。
例えば、図9等を参照して説明したように、複数の仮想視点画像から、選択領域を抽出して1枚の合成画像を生成する。
なお、この合成処理は、表示ユーザと視聴ユーザの対応位置関係に基づいて実行される。
図7〜図18を参照して説明したように、基本的な処理としては、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。
合成画像生成部415の生成した合成画像431は、送信部404を介して第2ロケーションに送信される。
[2−3.仮想視点画像生成処理の具体例について]
次に、仮想視点画像生成部414の実行する仮想視点画像生成処理の具体例について、図20を参照して説明する。
図20は、右方向が水平方向を示すx軸、上方向が奥行きを示すz軸であり、xz平面を示している。
2台のカメラC_L,C_Rで撮影した画像I_L,I_Rから、仮想視点の仮想カメラC_Vで撮影した仮想視点画像I_Vを生成するものとする。
なお、本明細書において、下線(_)の後の文字は、下付き文字を表す。
例えば、I_Lは、Iと同じ意味である。
カメラC_L,C_Rが、図7他に示すL視点カメラ121と、R視点カメラ122に対応し、I_Lが、カメラC_Lの撮影画像、I_RがカメラC_Rの撮影画像である。
仮想カメラC_Vの撮影画像である仮想画像がI_Vは、例えば図7.図8に示す仮想視点D〜Fからの撮影画像である仮想視点D〜F画像に相当する。
カメラC_Lの光学中心を原点(x,z)=(0,0)とし、カメラC_LとカメラC_Rの離間距離はaとする。
各カメラの座標位置(x,z)は、以下の通りである。
カメラC_Lの位置=(0,0)、
カメラC_Rの位置=(a,0)、
仮想カメラC_Vの位置=(pa,0)。
ただし、0<p<1である。
各カメラの撮影画像の画像中心の座標(x,z)は、以下の通りである。
カメラC_Lの撮影画像I_Lの中心位置=(0,−f)、
カメラC_Rの撮影画像I_Rの中心位置=(a,−f)、
仮想カメラC_Vの撮影画像I_Vの中心位置=(pa,−f)、
3つのカメラが並ぶ直線軸から、距離Dにある被写体P(X)の上記3画像における被写体位置を以下の設定とする。
(1)カメラC_Lの撮影画像I_Lの被写体位置=(x_L,−f)、
(2)カメラC_Rの撮影画像I_Rの被写体位置=(x_R,−f)、
(3)仮想カメラC_Vの撮影画像I_Vの被写体位置=(x_V,−f)、
この時、被写体P(X)の座標位置(x,z)は、
(x,z)=((x_La)/(x_L−x_R+a),(−fa)/(x_L−x_R+a))
である。
すなわち、以下の(式1)によって示される。
Figure 2017141511
被写体P(X)のデプス(D)は、上記の被写体P(X)の座標位置(x,z)のZ座標に相当し、これらは、カメラC_LとカメラC_Rの撮影画像対応のデプスマップにおける被写体P(X)におけるデプスデータ(距離情報)に等しい。
カメラC_Lのデプスマップにおける被写体P(X)のデプスデータを[DM_L(XL)]とし、カメラC_Rのデプスマップにおける被写体P(X)のデプスデータを[DM_R(XR)]とすると、以下の関係式(式2)が成立する。
Figure 2017141511
一方、仮想カメラC_Vの撮影画像I_V上における被写体P(X)の座標位置(x_V,z)のx座標:x_Vは、以下の(式3)として示される。
Figure 2017141511
上記(式3)によって算出される仮想カメラC_Vの画像I_V上の座標(x_V,−f)に、カメラC_Lの画像I_Lの座標(x_L,−f)の画素値、または、カメラC_Rの画像I_Rの座標(x_R,−f)の画素値を設定することで、仮想カメラC_Vの視点における仮想視点画像I_Vを生成することができる。
図19に示す仮想視点画像生成部414は、図7に示すカメラ121,122の撮影画像と、これらの撮影画像に基づいて算出されるデプスマップを利用して、上記(式3)に従って、仮想視点から撮影された仮想視点画像を生成する。
なお、上記(式3)に含まれるデプス(D)として、先に説明した(式2)で示されるDの算出式を代入すると、以下の(式4)が得られる。
Figure 2017141511
すなわち、2つの異なる視点からのカメラの撮影画像を用い、これらの画像間の対応関係が求まれば、明示的にデプスマップを生成することなく、仮想視点画像を生成することも可能である。
[2−4.3Dモデル生成処理の具体例について]
先に図19を参照して説明したように、仮想視点画像生成部414は3Dモデルの生成処理を実行する3Dモデル生成部を有する構成としてもよい。
以下、3Dモデル生成部の実行する3Dモデル生成処理の具体例について、図21を参照して説明する。
図21は、図20と同様、右方向が水平方向を示すx軸、上方向が奥行きを示すz軸であり、xz平面を示している。
2台のカメラC_i,C_jで撮影した画像I_i,I_jから、多数の仮想視点から観察可能な3Dモデルを生成する。
カメラC_i,C_jが、図7他に示すL視点カメラ121と、R視点カメラ122に対応し、I_iが、カメラC_iの撮影画像、I_jがカメラC_jの撮影画像である。
カメラC_iの光学中心を原点(x,z)=(0,0)とし、カメラC_iとカメラC_jの離間距離はaとする。
各カメラの座標位置(x,z)は、以下の通りである。
カメラC_iの位置=(0,0)、
カメラC_jの位置=(t_j,0)、
仮想カメラC_Vの位置=(t_v,0)。
各カメラの撮影画像の画像中心の座標(x,z)は、以下の通りである。
カメラC_iの撮影画像I_iの中心位置=(0,−f)、
カメラC_jの撮影画像I_jの中心位置=(t_j,−f)、
仮想カメラC_Vの撮影画像I_Vの中心位置=(t_v,−f)、
カメラC_iとカメラC_jで撮影した画像と、各画像対応のデプスマップから、画像上の各画素に対応する3次元空間上の点の座標を算出することを考える。このとき、各デプスマップは、先に述べたステレオマッチング法や、デプス計測可能な特殊なセンサを用いて生成されているものとする。
いま、カメラC_iで撮影した画像I_i上の座標x_mを考えると、その画素が表現する3次元空間の点X_mの座標P(X_m)は、デプスマップDM_i(x_m)を参照することで幾何学的関係から以下の(式5)によって計算される。
Figure 2017141511
また、この点X_mの色E(X_m)は対応する画素の値I_i(x_m)で与えられる。この座標と色の組み合わせを3Dモデルの構成要素M(X_m)、すなわち、座標情報:P(X_m)と、色情報:E(X_m)からなる3Dモデルの構成要素、
M(X_m)=(P(X_m),E(X_m))
とする。
同じ画像上に対する他の画素、あるいは他のカメラ(たとえばC)で撮影された画像上の画素がそれぞれ表現する3次元空間の点に対しても3Dモデル構成要素を算出し、その集合を3Dモデルとする。
1つの仮想視点に対応する1つの仮想視点画像I_Vは、3Dモデルの各構成要素M(X_m)に対し、その座標X_mと仮想カメラC_Vの光学中心を結ぶ線分が仮想視点画像I_Vと交わる座標位置に、対応する色E(X_m)を割り当てることで生成することができる。
図19に示す仮想視点画像生成部414を、3Dモデル生成部を有する構成とした場合、仮想視点画像生成部414は、まず、図21を参照して説明した上記の処理に従って3Dモデルを生成し、さらに、生成した3Dモデルから任意視点の仮想視点画像を生成する。
[2−5.実施例1の情報処理装置の構成と処理の変形例(バリエーション)について]
次に、図7〜図21を参照して説明した実施例1の情報処理装置の構成と処理の変形例(バリエーション)について説明する。
以下、図19を参照して説明した実施例1の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。
(1)仮想視点画像の生成処理の省略例
上記の実施例において説明した仮想視点画像の生成位置に実カメラを配置して、実カメラの撮影画像を利用して合成画像を生成する構成としてもよい。この処理を行なえば、上述の実施例において説明した仮想視点画像の生成を省略することが可能となる。
(2)仮想視点画像の生成処理の変更例
仮想視点画像の生成処理に適用するデプスデータの取得は、撮影画像を用いて実行してもよいし、専用のセンサ(距離センサ)を用いてもよい。
また、デプス検出、3Dモデル生成、仮想視点画像生成、これらの処理は、既存の様々な方法を利用可能である。
(3)ユーザ位置検出処理の変更例
ユーザ位置検出部等において実行するユーザ位置の検出処理では、顔検出など既存の方法を用いた検出処理が可能である。
また、デプス検出部から得られるデプス情報を用い、表示部からある規定範囲にいる人物のみを参加者と判断して、その位置を検出する構成としてもよい。
第1ロケーションのユーザ位置検出部の検出情報は、ネットワークを介してコミュニケーション先である第2ロケーションに送信し、第2ロケーションでは、コミュニケーション終了まで、この検出情報に基づく位置に仮想カメラを設定するようにすることができる。
あるいは、第1ロケーションのユーザ位置検出部は、ユーザ位置を連続的に検出し、この検出情報を第2ロケーションに、遂次、送信し、第2ロケーションで、仮想カメラの位置を入力情報に応じて逐次、更新して運動視差を与えるようにする構成としてもよい。
ただし、この仮想カメラ位置の遂次変更処理を実行すると、表示部上において、異なる仮想視点画像境界部で不連続な見え方が発生する可能性がある。
この現象を回避するため、各仮想視点画像を、境界部に向けて発生する運動視差が徐々に小さくなるような設定とし、境界部で実質的な運動視差が発生しない設定とした画像を生成する構成とすることが好ましい。
またユーザ位置検出部を設けることなく、各参加者の位置はユーザが手動で設定し、その情報を相手地点に送信するようにしてもよい。また、各参加者の位置を規定位置として予め装置内の記憶部に格納し、これを利用する構成としてもよい。
(4)その他の構成の変更例
上述した実施例では、第1ロケーションにおいて、第2ロケーションに表示するための合成画像を生成する構成としたが、第1ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第2ロケーションに送信し、第2ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは3Dモデルデータ等である。
また、第1ロケーションの各被写体位置については、予め計測して第2ロケーションに送信し、第2ロケーションの情報処理装置内の記憶部に格納し、随時、利用可能な構成としていてもよい。
2つの仮想視点画像によって被写体像が分断されることを避けるため、各仮想画像の選択領域の切り出し位置は背景領域に位置させる設定が好ましい。また、合成時における境界部の連続性を考慮したうえで切り出し位置を決定することが好ましい。
複数画像の合成処理としては、例えば既存のスティッチング手法を用い、境界部の不連続性が目立たないように処理することが好ましい。
[3.本開示の実施例2の情報処理装置の構成と処理について]
次に、本開示の情報処理装置の第2実施例の構成と処理について説明する。
以下に説明する第2実施例の情報処理装置も、第1実施例の情報処理装置と同様、例えば、先に説明した図1や図2に示す双方向コミュニケーションシステムにおいて利用される表示部(ディスプレイ)の表示画像の制御を行う。
[3−1.情報処理装置の実行する処理について]
図22以下を参照して、本開示の実施例2の情報処理装置の実行する処理について説明する。
図22は、図1、図2を参照して説明した双方向コミュニケーションを実行中の第1ロケーションにおけるユーザ(A,B,C)とその背景にある壁501を示す図である。
ユーザA〜Cの画像は、2つの異なる視点から画像を撮影するL視点カメラ121と、R視点カメラ122によって撮影される。
第1ロケーションの情報処理装置は、これらの画像に基づいて、視聴ユーザである第2ロケーションのユーザ(D〜F)の視点から見た仮想視点画像を生成し、さらにこれらの仮想視点画像に基づいて合成画像を生成して第2ロケーションに送信する。
この処理は前述の第1実施例すと同様である。
第2実施例の情報処理装置は、さらに、L視点カメラ121と、R視点カメラ122によって撮影された画像から、ユーザ(A,B,C)以外の背景画像を分離し、さらに、背景画像中、ユーザ(A,B,C)の影となって出力されない画像領域(オクルージョン領域)の穴埋め補正を行い、この補正後の背景画像と、ユーザA〜C等を含む仮想視点画像を用いて、第2ロケーションの表示部に表示するための合成画像を生成する。
図22に示すように、背景画像となる壁501には、ユーザA〜Cの影になって、L視点カメラ121や、R視点カメラ122には撮影できない領域が含まれる。
図22に示す例では、壁501のp〜q領域、r〜s領域が撮影できない領域である。このような撮影されない領域はオクルージョン領域と呼ばれる。
本実施例2では、まず、背景画像と人物画像を分離した上で、背景画像中のオクルージョン領域を解消するための穴埋め補正を実行する。
穴埋め補正の一例について、図23を参照して説明する。
図23には、図22に示す撮影環境において、L視点カメラ121によって撮影された画像から背景領域を抽出して精製したL視点カメラ撮影背景画像502と、R視点カメラ122によって撮影された画像から背景領域を抽出して生成したR視点カメラ撮影背景画像503を示している。
これら2つの背景画像には、カメラと背景の間に存在するユーザA〜Cの影となって、背景画像が撮影できないオクルージョン領域が発生する。
情報処理装置は、このようなオクルージョン領域を解消するための穴埋め補正を実行する。例えば、図23に示すL視点カメラ撮影背景画像502のオクルージョン領域については、R視点カメラ撮影背景画像503から対応位置の画素値を利用して補正を行い、R視点カメラ撮影背景画像503のオクルージョン領域については、L視点カメラ撮影背景画像502から対応位置の画素値を利用して補正を行う。これらの補正により、オクルージョン領域を解消した補正背景画像504を生成する。
なお、補正背景画像は、例えばL視点カメラとR視点カメラの中央間の中央視点の仮想視点位置の仮想画像として生成する。あるいは、合成画像として利用する特定の仮想視点画像に対応する仮想視点からの背景画像を生成し、これらを合成する構成としてもよい。
また、L視点カメラ撮影背景画像502、R視点カメラ撮影背景画像503のいずれにも撮影されない領域については、周囲の画素値に基づく補間処理等により補正を行う。
第1ロケーションの情報処理装置は、このようにして生成した背景画像上に、ユーザ画像を含む仮想視点画像を重畳して最終的な合成画像、すなわち第2ロケーションの表示部に表示するための画像を生成して第2ロケーションに送信する。
[3−2.情報処理装置の構成例について]
次に、図24を参照して本実施例2の情報処理装置の構成について説明する。
図24は、第1ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第2ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。
撮像部401は、図7等に示すL視点カメラ121、R視点カメラ122に相当し、異なる視点からの画像を撮影する撮像部である。
表示部403は、受信部402を介して受信する第2ロケーションから送信される合成画像を表示する。
撮像部401の撮影画像は、データ処理部520に入力される。
データ処理部520は、これらの入力画像に基づいて、第2ロケーションの表示部に表示するための画像である合成画像を生成する。
撮像部401の撮影画像は、データ処理部520の画像入力部521を介して、3Dモデル生成部523に入力される。
3Dモデル生成部523は、多数視点からの仮想画像を含む3Dモデルの生成処理を実行する。
3Dモデル生成部523は、異なる視点からの画像と、デプス情報に基づいて3Dモデルを生成する。デプス情報は、デプス検出部522によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。
3Dモデル生成部523は、例えば、先に図21を参照して説明した処理に従って3Dモデル生成処理を実行する。
次の背景画像分離部524は、3Dモデル生成部523の生成した3Dモデルを利用してユーザ領域(人物領域)と背景領域の分離処理を実行する。
背景画像分離部524によって分離された人物領域画像は、仮想視点画像生成部526に入力され、背景画像は、背景画像生成部527に入力される。
仮想視点画像生成部526は、特定の仮想視点からの画像を生成する処理を実行する。
仮想視点画像生成部526は、実施例1と同様、例えば、図7、図8他を参照して説明した以下の仮想視点画像を生成する。
(1)仮想視点D,311からの観察画像に相当する仮想視点D画像321、
(2)仮想視点E,312からの観察画像に相当する仮想視点E画像322、
(3)仮想視点F,313からの観察画像に相当する仮想視点F画像323、
ただし、本実施例では、この仮想視点画像に背景画像は含まれず、人物領域の画像のみとなる。
これらの仮想視点画像は、図7等に示すL視点カメラ121、R視点カメラ122の撮影画像、すなわち、異なる視点からの画像と、デプス情報に基づいて生成する。
デプス情報は、デプス検出部522によって検出される画像内の被写体までの距離情報である。各画素単位で、カメラからの距離を検出する。
デプス検出部522によるデプス検出処理は、例えば図7等に示すL視点カメラ121、R視点カメラ122の撮影画像、すなわち、異なる視点からの画像を利用して実行される。
具体的には、ステレオマッチング法や、デプス計測可能な特殊なセンサを用いて各画像対応のデプスマップ、すなわち各画像の構成画素対応のデプスデータ(距離情報)を持つデプスマップを生成する。
なお、3Dモデル生成部523で生成した3Dモデルを利用して仮想視点画像を生成する構成としてもよい。
ユーザ位置検出部525は、表示部403の前にいるユーザ(コミュニケーション参加者)の位置を検出する。例えば画像入力部521の入力する2つの異なる視点からの撮影画像に基づいてユーザ位置を検出する。なお、ユーザ位置検出部525は、位置センサを用いてユーザ位置を検出する構成としてもよい。
ユーザ位置検出部525の検出したユーザ位置情報531は、仮想視点画像生成部526、画像合成部528に入力される。さらに、送信部404を介して視聴ユーザ位置情報542として第2ロケーションに送信される。この送信情報は、第2ロケーションにおいて視聴ユーザ位置情報として利用される。
仮想視点画像生成部526は、特定の仮想視点からの画像を生成するが、どの視点からの仮想視点画像を生成するかについては、先に実施例1において説明したと同様、表示ユーザと視聴ユーザの対応位置関係に基づいて決定する。
この処理のため、仮想視点画像生成部526は、ユーザ位置検出部525の生成するユーザ位置情報531を入力し、さらに、視聴ユーザのいる第2ロケーションから受信部402を介して受信する視聴ユーザ位置情報532を入力する。
仮想視点画像生成部526は、これらの入力情報に基づいて、どの視点からの仮想視点画像を生成するかについて決定する。
これは、先の実施例1対応の図7〜図18を参照して説明したと同様の処理であり、基本的な処理としては、視聴ユーザと表示ユーザが各々正面方向に相対している場合、この設定における視聴ユーザの視点に対応する仮想視点画像を生成する。
仮想視点画像生成部526の生成した仮想視点画像は、画像合成部528に出力される。
画像合成部528には、仮想視点画像生成部526の生成した仮想視点画像とともに、背景画像生成部527の生成した背景画像が入力される。
背景画像生成部527は、背景画像分離部524から入力される背景画像に基づいて、例えば先に図23を参照して説明したオクルージョンの穴埋め補正等の画像補正処理を実行し、補正された背景画像を画像合成部528に入力する。
なお、背景画像生成部527は、背景画像を例えばL視点カメラとR視点カメラの中央間の中央視点の仮想視点位置の仮想画像として生成する。あるいは、合成画像として利用する特定の仮想視点画像に対応する仮想視点からの背景画像を生成し、これらを合成する構成としてもよい。この場合、例えば仮想視点画像生成部526で利用した仮想視点情報を背景画像生成部527に入力して利用することが可能である。
画像合成部528は、仮想視点画像生成部526の生成した人物画像から構成される1つ以上の仮想視点画像と、背景画像生成部527の生成した背景画像の合成処理を実行し、第2ロケーションの表示部に表示する合成画像(=送信画像(表示画像))を生成する。
なお、人物画像を含む仮想視点画像の合成処理は、実施例1において説明したと同様の処理である。例えば、図9等を参照して説明したように、複数の仮想視点画像から、選択領域を抽出して1枚の合成画像を生成する。
なお、この合成処理は、表示ユーザと視聴ユーザの対応位置関係に基づいて実行される。
図7〜図18を参照して説明したように、基本的な処理としては、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。
さらに、本実施例2では、この人物を含む複数の仮想視点画像からなる合成画像を背景画像上に重畳して最終的な合成画像、すなわち、第2ロケーションの表示部に表示するための最終的な合成画像を生成する。
合成画像生成部528の生成した合成画像541は、送信部404を介して第2ロケーションに送信される。
[3−3.実施例2の情報処理装置の構成と処理の変形例(バリエーション)について]
次に、図22〜図24を参照して説明した実施例2の情報処理装置の構成と処理の変形例(バリエーション)について説明する。
以下、図24を参照して説明した実施例2の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。
(1)背景画像生成部について
背景画像生成部527の生成する背景画像は、L視点カメラ121とR視点カメラ122の中央視点の仮想画像として生成する例について説明したが、合成画像として利用される人物を含む仮想視点画像に整合させた仮想視点画像としてもよい。
また、背景画像生成部527は、あらかじめ用意した背景用の3Dモデルを用いて背景画像を生成する構成としてもよい。また、あらかじめ用意した2D画像を用いてもよい。
また、人物等の前景によって生じた穴の補間は、3Dモデル生成手段において、3Dモデル上で行うこともできる。
背景画像生成部527は、受信部402を介して相手地点(第2ロケーション)の視点位置情報を入力して、相手地点参加者の視点位置に基づいて、背景画像の視点位置を決めるようにしてもよい。
(2)その他の変形例
実施例1と同様、ユーザ位置検出部525が、連続的に参加者の位置を検出することにより、参加者の映像に対して運動視差を与えることができる。
背景画像生成部527においても、受信部402を介して相手地点の視点位置情報を入力することで、背景画像に対しても参加者の視点位置の変化に応じた運動視差を与えるようにすることができる。
この処理に際して、背景画像を分割して各参加者に割り当て、分割領域毎に異なる運動視差を与えるようにしてもよい。
なお、合成画像の選択領域間の境界部において不連続な見え方が発生することを回避するために、各領域の境界部に向けて発生する運動視差が徐々に小さくなるようにして、境界部では実質的に運動視差が発生しないように背景画像を生成することが好ましい。
上述した実施例では、第1ロケーションにおいて、第2ロケーションに表示するための合成画像を生成する構成としたが、第1ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第2ロケーションに送信し、第2ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは3Dモデルデータ等である。
[4.本開示の実施例3の情報処理装置の構成と処理について]
次に、本開示の情報処理装置の第3実施例の構成と処理について説明する。
以下に説明する第3実施例の情報処理装置も、第1実施例の情報処理装置と同様、例えば、先に説明した図1や図2に示す双方向コミュニケーションシステムにおいて利用される表示部(ディスプレイ)の表示画像の制御を行う。
[4−1.情報処理装置の実行する処理について]
図25以下を参照して、本開示の実施例3の情報処理装置の実行する処理について説明する。
図25には、図1、図2を参照して説明したと同様、双方向コミュニケーションを実行中の第1ロケーションと、第2ロケーションのユーザと表示部を示している。
(1)第1ロケーション
(2)第2ロケーション
これらの2つのロケーションの構成を示している。
これら2つのロケーションは、各々離れた遠隔地であり、各ロケーションにいるユーザ同士が、双方向コミュニケーションを行う。各ロケーションのシステム同士がネットワークを介して接続され、画像、音声を送受信する。
第1ロケーションには、ユーザA,B,Cがおり、第1ロケーション側のカメラ121,122によって撮影されたユーザA,B,Cを含む画像、または撮影画像に基づいて生成される合成画像が第2ロケーションに送信され、第2ロケーションの表示部200に表示される。
この表示画像は、第2ロケーションの視聴ユーザD,E,Fによって観察される。
同様に、第2ロケーションには、ユーザD,E,Fがおり、第2ロケーション側のカメラ221,222によって撮影されたユーザD,E,Fを含む画像、または撮影画像に基づいて生成される合成画像が第1ロケーションに送信され、第1ロケーションの表示部100に表示される。
この表示画像は、第1ロケーションの視聴ユーザA,B,Cによって観察される。
第1ロケーションの側のカメラ121,122によって撮影された画像は、第1ロケーション側の情報処理装置のデータ処理部に入力され、第2ロケーションに対する送信画像(合成画像)が生成されて、第2ロケーションに送信される。
同様に、第2ロケーションの側のカメラ221,222によって撮影された画像は、第2ロケーション側の情報処理装置のデータ処理部に入力され、第1ロケーションに対する送信画像(合成画像)が生成されて、第1ロケーションに送信される。
先に説明した実施例1では、表示部を見ている視聴ユーザの正面の表示領域に表示される表示ユーザの視線が、視聴ユーザの視点から観察したとき、実際の視線方向と同一の方向となるように制御した合成画像を生成して表示する構成例であった。
すなわち、図25に示すように、第2ロケーションの表示部200に表示される合成画像は、以下の設定となる。
(1)視聴ユーザDの正面の表示領域X1〜X2は、仮想視点Dの画像、
(2)視聴ユーザEの正面の表示領域X2〜X3は、仮想視点Eの画像、
(3)視聴ユーザFの正面の表示領域X3〜X4は、仮想視点Fの画像、
このように、視聴ユーザの正面領域の画像は、各視聴ユーザの視点から観察される仮想視点画像に設定される。
この実施例1の構成では、視聴ユーザが表示部の正面方向以外の表示ユーザを見た場合に、その表示ユーザは、視聴ユーザの視点とは異なる視点の仮想視点画像であり、視線方向に違和感が発生する場合かある。
実施例3は、このような問題を解決する実施例である。
具体的には、例えば、以下の処理を実行する。
(1)視聴ユーザの視線方向にある表示部の表示画像をその視聴ユーザの視点から観察される仮想視点画像とする。
(2)会話を実行しているユーザ(話者)の視線方向の画像をそのユーザ(話者)の視点から観察される仮想視点画像とする。
(3)同一の画像領域を見ている視聴者がいる場合は、その画像領域の正面に近いユーザを優先ユーザとして、優先ユーザの視点から観察される仮想視点画像をその画像領域に表示する。
実施例3の情報処理装置は、例えば、これらの処理を実行して合成画像を生成する。
図26以下を参照して、実施例3の情報処理装置の実行する処理の具体例について説明する。
図26には、実施例3の情報処理装置の実行する以下の2つの処理例を示している。
(a)視聴ユーザの視線方向に応じて出力画像を制御する例1
(b)視聴ユーザの視線方向に応じて出力画像を制御する例2(同一画像領域を見る視聴ユーザが複数である場合、画面位置に近い視聴ユーザを優先)
図26(a)に示す例は、視聴ユーザの視線方向に応じて出力画像を制御する例である。
ユーザDは正面方向(表示部200の領域X1〜X2)を見ており、表示部200の領域X1〜X2には、ユーザDの視点から観察した仮想視点画像である仮想視点D画像611を表示する。
ユーザEは右方向(表示部200の領域X3〜X4)を見ており、表示部200の領域X3〜X4には、ユーザEの視点から観察した仮想視点画像である仮想視点E画像613を表示する。
ユーザFは左方向(表示部200の領域X2〜X3)を見ており、表示部200の領域X2〜X3には、ユーザFの視点から観察した仮想視点画像である仮想視点F画像612を表示する。
なお、図に示すユーザD〜Fは第2ロケーションの視聴ユーザである。表示部200に表示する表示画像の生成処理は、第1ロケーションの情報処理装置において実行される。
第1ロケーションの情報処理装置は、第2ロケーションの情報処理装置から、第2ロケーションの視聴ユーザの視線方向情報を入力し、この情報に基づいて、図26(a)に示すような設定の合成画像を生成して第2ロケーションに送信する。
なお、第1ロケーションの情報処理装置が、表示部の全表示領域に対応する3つの仮想視点画像、すなわち、視聴ユーザD,E,F各々の仮想視点対応の3つの表示全領域対応仮想視点画像を生成して第2ロケーションの情報処理装置に送信し、第2ロケーションの情報処理装置が、視聴ユーザD,E,Fの視線方向に応じて、これら、つの表示全領域対応仮想視点画像から画像切り出しを実行して、図26(a)に示す設定の合成画像を生成して表示部200に表示する構成としてもよい。
図26(b)は、表示部の1つの表示領域を複数の視聴ユーザが見ている場合の処理例である。
表示部200の中央領域X2〜X3を視聴ユーザDと視聴ユーザEが見ている。
このように、同一の表示領域を複数の視聴ユーザが見ている場合、どちらかのユーザを優先ユーザとして選択して、優先ユーザの視点からの仮想視点画像をその領域に表示する。
図26(b)に示す例は、表示領域に近いユーザを優先ユーザとする例である。
表示部200の領域X1〜X2には、領域X1〜X2の正面のユーザDの視点から観察した仮想視点画像である仮想視点D画像621を表示する。
表示部200の領域X2〜X3は、ユーザD,Eが見ているが、領域X2〜X3に近いユーザは、ユーザEでありユーザEが優先ユーザとなる。この場合、領域X2〜X3には、優先ユーザであるユーザEの視点から観察した仮想視点画像である仮想視点E画像622を表示する。
ユーザFは正面方向(表示部200の領域X3〜X4)を見ており、表示部200の領域X3〜X4には、ユーザFの視点から観察した仮想視点画像である仮想視点F画像623を表示する。
この設定の合成画像の生成は、図26(a)を参照して説明したと同様、第1ロケーションの情報処理装置、または第2ロケーションの情報処理装置のいずれかが行う。
図27には、実施例3の情報処理装置の実行する以下の処理例を示している。
(c)視聴ユーザ中の話者の視線方向に応じて出力画像を制御する例
図27(c)に示す例は、視聴ユーザ中の話者の視線方向に応じて出力画像を制御する例である。
第2ロケーションの視聴ユーザDが話者であり、表示部の表示領域X2〜X3に表示された第1ロケーションのユーザBに向かって話をしている。
この場合、表示領域X2〜X3の表示画像は、視聴ユーザ中の話者であるユーザDの視点から観察した仮想視点画像である仮想視点D画像632とする。
表示領域X2〜X3に対しては、視聴ユーザD,Fが視線を向けているが、話者であるユーザDを優先ユーザとして選択し、優先ユーザであるユーザDの視点から観察した仮想視点画像である仮想視点D画像632を表示する。
表示部200の領域X1〜X2には、領域X1〜X2の正面のユーザDの視点から観察した仮想視点画像である仮想視点D画像631を表示する。
表示部200の領域X3〜X4には、領域X3〜X4に視線を向けているユーザEの視点から観察した仮想視点画像である仮想視点E画像633を表示する。
この設定の合成画像の生成は、図26(a)を参照して説明したと同様、第1ロケーションの情報処理装置、または第2ロケーションの情報処理装置のいずれかが行う。
図28には、実施例3の情報処理装置の実行する以下の処理例を示している。
(d)表示ユーザの視線方向に応じて出力画像を制御する例
図28(d)に示す例は、複数の視聴ユーザが同じ表示ユーザを見ている場合に、その表示ユーザの画像を、表示ユーザの視線方向に応じて決定する例である。
第1ロケーションの表示ユーザBは、第1ロケーションの表示部100に表示された第2ロケーションのユーザFを見ている。
一方、第2ロケーションの視聴ユーザDと視聴ユーザFは、いずれも同じ表示ユーザBを見ている。
この領域に表示される表示ユーザBは視聴ユーザFを見ているので、この表示領域X2〜X3には視聴ユーザ中のユーザFの視点から観察した仮想視点画像である仮想視点F画像642を表示する。
仮に表示ユーザBが表示領域X2〜X3を見ていない視聴ユーザEを見ている場合、あるいは誰も見ていない場合には、表示領域X2〜X3には、視聴ユーザDまたは視聴ユーザFのどちらかの仮想視点画像を提示する。
これらの処理により、表示ユーザBが、視聴ユーザD,Fのいずれも見ていないことを、視聴ユーザD,Fが理解できることになる。
なお、表示領域X3〜X4はここを見ている視聴ユーザEの仮想視点画像、すなわち視聴ユーザ中のユーザEの視点から観察した仮想視点画像である仮想視点E画像643を提示する。表示領域X1〜X2はどの視聴ユーザも見ていないため、正面の視聴ユーザDのの視点から観察した仮想視点画像である仮想視点E画像641を提示する。
この設定の合成画像の生成は、図26(a)を参照して説明したと同様、第1ロケーションの情報処理装置、または第2ロケーションの情報処理装置のいずれかが行う。
[4−2.情報処理装置の構成例について]
次に、図29を参照して本実施例3の情報処理装置の構成について説明する。
図29は、第1ロケーションに設置された情報処理装置の構成例を示すブロック図である。
なお、第2ロケーションにも同一の情報処理装置が設置され、ネットワークを介して相互に画像、音声、その他の制御情報の送受信が実行される。
図29に示す本実施例3の情報処理装置の構成は、先に図24を参照して説明した実施例2の情報処理装置の構成をベースとしており、図24に示す情報処理装置のデータ処理部520内に、ユーザ状態(視線、話者)検出部711と、優先度判定部712を追加した構成である。
また、受信部402を介して入力する第2ロケーションからの情報として、視聴ユーザ状態(視線、話者)情報731を追加している。
さらに、送信部404を介して第2ロケーションに送信する情報として、第1ロケーション側のユーザ情報である視聴ユーザ状態(視線、話者)情報742を追加している。
その他の構成は、実施例2において図24を参照して説明した構成と同一である。
以下、実施例2と異なる実施例3の構成と処理を中心として説明する。
データ処理部520内のユーザ状態(視線、話者)検出部711は、第1ロケーションのユーザのユーザ状態を検出する。
具体的には、各ユーザの視線方向や、各ユーザが話をしているか否か等のユーザ状態を検出する。
ユーザの視線方向は、具体的には、表示部403に表示されたどのユーザを見ているかの視線方向の判別を実行する。
この視線方向判定処理は、例えば画像入力部521に入力される異なる視点から撮影された複数の画像に基づいて実行する。
話者検出についても、画像入力部521に入力される画像に基づいて実行する。
なお、これらの視線検出処理や、話者検出処理は、画像に基づく処理の他、視線検出用のセンサや、音声方向検出用のセンサを用いる構成としてもよい。
ユーザ状態(視線、話者)検出部711の検出情報は、優先度判定部712に入力される。
さらに、送信部404を介して第2ロケーションに送信される。図に示す視聴ユーザ状態(視線、話者)情報742である。
優先度判定部712は、ユーザ状態(視線、話者)検出部711の検出情報、すなわち、第1ロケーションの各ユーザの視線方向情報や、話者情報と、第2ロケーションから受信部402を介して受信する視聴ユーザ状態(視線、話者)情報731を入力して、合成画像に設定する仮想視点画像をどの視点からの仮想視点画像に設定するかの優先度情報を生成して画像合成部528に入力する。
優先度の設定は、様々な方法が可能である。例えば、以下のような優先度設定が利用できる。
(1)表示部の各領域から各ユーザまでの距離を算出し、近いユーザほど高い優先度を割り当てる。
(2)マイクなどにより、一定時間単位で発言の多いユーザを特定し、そのユーザに高い優先度を割り当てる、
(3)相手地点における参加者の視線方向を受信し、自地点において複数のユーザが見ている領域に対応する相手地点のユーザの視線方向に近いユーザほど高い優先度を割り当てる。
(4)上記(1)〜(3)の組み合わせによって各ユーザの優先度を割り当てる。
画像合成部528は、仮想視点画像生成部526の生成した人物画像から構成される1つ以上の仮想視点画像と、背景画像生成部527の生成した背景画像の合成処理を実行し、第2ロケーションの表示部に表示する合成画像(=送信画像(表示画像))を生成する。
なお、人物画像を含む仮想視点画像の合成処理は、基本的な処理としては、図7〜図18を参照して説明した実施例1と同様、視聴ユーザの正面領域に、表示ユーザがいる場合、その視聴ユーザの視点からの仮想視点画像が設定された合成画像を生成する。
さらに、本実施例3では、優先度判定部712から入力する優先度情報と、受信部402を介して入力する視聴ユーザ状態(視線、話者)情報731に基づいて、合成画像の各領域に設定する仮想視点画像をどの視点からの画像とするかを決定して合成画像を生成する。
具体的には、先に図26〜図28を参照して説明した処理に従って、各画像領域に出力する仮想視点画像を決定し、合成画像を生成する。
例えば、以下の仮想視点画像設定アルゴリズムに随って各画像領域に設定する仮想視点画像を決定する。
(1)視聴ユーザの視線方向にある表示部の表示画像をその視聴ユーザの視点から観察される仮想視点画像とする。
(2)会話を実行しているユーザ(話者)の視線方向の画像をそのユーザ(話者)の視点から観察される仮想視点画像とする。
(3)同一の画像領域を見ている視聴者がいる場合は、その画像領域の正面に近いユーザを優先ユーザとして、優先ユーザの視点から観察される仮想視点画像をその画像領域に表示する。
本実施例3の情報処理装置の画像合成部528は、例えば、これらの処理を実行して合成画像を生成する。
なお、本実施例3では実施例2と同様、人物を含む複数の仮想視点画像からなる合成画像を背景画像上に重畳して最終的な合成画像、すなわち、第2ロケーションの表示部に表示するための最終的な合成画像を生成する。
合成画像生成部528の生成した合成画像541は、送信部404を介して第2ロケーションに送信される。
[4−3.実施例3の情報処理装置の構成と処理の変形例(バリエーション)について]
次に、図25〜図29を参照して説明した実施例3の情報処理装置の構成と処理の変形例(バリエーション)について説明する。
以下、図29を参照して説明した実施例3の情報処理装置の構成に対して、変更可能な構成について、順次、説明する。
(1)優先度の設定
上述した実施例では、優先度の設定例として、以下の設定例について説明した。
(a)表示部の各領域から各ユーザまでの距離を算出し、近いユーザほど高い優先度を割り当てる。
(b)マイクなどにより、一定時間単位で発言の多いユーザを特定し、そのユーザに高い優先度を割り当てる、
(c)相手地点における参加者の視線方向を受信し、自地点において複数のユーザが見ている領域に対応する相手地点のユーザの視線方向に近いユーザほど高い優先度を割り当てる。
(d)上記(a)〜(c)の組み合わせによって各ユーザの優先度を割り当てる。
これらは優先度設定の一例であり、その他、様々な優先度設定アルゴリズムを適用可能である。
例えば、複数のユーザ(参加者)に予め優先度を設定し、この設定済みの優先度を利用する構成としてもよい。
また、視聴ユーザと、表示ユーザの双方のユーザ状態を考慮する優先度設定や、いずれか一方のユーザのユーザ状態のみを考慮した優先度設定等が可能である。
また、視聴ユーザ中、表示画面に近いユーザほど、視線に対する違和感が大きくなるので、表示画面に近いユーザに対する優先度を高める設定としてもよい。
その他、状況に応じた様々な優先度設定アルゴリズムが適用可能である。
優先度判定部712の実行する優先度判定の例を以下に示す。優先度判定部712は、例えば、以下の情報に基づいて優先度を判定することが可能である。
(a)表示部に表示する表示ユーザの位置、
(b)表示部に表示する表示ユーザの視線方向、
(c)表示部に表示する表示ユーザ中の話者、
(d)表示部を見る視聴ユーザの位置、
(e)表示部を見る視聴ユーザの視線方向、
(f)表示部を見る視聴ユーザ中の話者、
上記(a)〜(f)の少なくともいずれかの情報に基づいて判定する。
上記の判定基準を採用した優先度の設定例は、例えば以下の設定である。
(a)表示ユーザの表示される表示領域について、表示ユーザの位置がカメラに近いほど優先度を高くする。
具体的には、例えば、表示ユーザが多数おり、表示ユーザ1人毎の表示領域区分が困難であり、1つの仮想視点画像領域に複数の表示ユーザが入ってしまう場合、カメラに近い表示ユーザを優先し、その表示領域を、カメラに近い表示ユーザを見ている視聴ユーザの視点からの仮想視点画像とするといった処理である。
(b)表示ユーザの表示される表示領域について、視線方向の先の視聴ユーザの優先度を高くする。
(c)表示ユーザ中の話者が表示される表示領域について、表示ユーザの会話の相手となる視聴ユーザの優先度を高くする。
(d)視聴ユーザの位置と表示部の表示領域との距離が近いほど、その表示領域について、その視聴ユーザの優先度を高くする。
(e)視聴ユーザの視線方向にある表示部の表示領域について、その視聴ユーザの優先度を高くする。
(f)視聴ユーザ中の話者が会話の相手とする表示ユーザが表示される表示領域について、その視聴ユーザの優先度を高くする。
(2)全体処理の変形例
上述した実施例では、第1ロケーションにおいて、第2ロケーションに表示するための合成画像を生成する構成としたが、第1ロケーションでは、合成画像の生成処理に必要となる中間データを生成して第2ロケーションに送信し、第2ロケーションにおいて、合成画像の生成処理を実行する構成としてもよい。
中間データとしては、例えば、異なる視点から撮影された画像とデプスデータ、あるいは3Dモデルデータ等である。
[5.情報処理装置のハードウェア構成例について]
次に、図30を参照して情報処理装置のハードウェア構成例について説明する。
図30は、本開示の処理を実行する情報処理装置のハードウェア構成例を示す図である。
CPU(Central Processing Unit)801は、ROM(Read Only Memory)802、または記憶部808に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)803には、CPU801が実行するプログラムやデータなどが記憶される。これらのCPU801、ROM802、およびRAM803は、バス804により相互に接続されている。
CPU801はバス804を介して入出力インタフェース805に接続され、入出力インタフェース805には、撮像部821の撮影画像の入力を行うとともに、ユーザ入力可能な各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部806、表示部822やスピーカなどに対するデータ出力を実行する出力部807が接続されている。CPU801は、入力部806から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部807に出力する。
入出力インタフェース805に接続されている記憶部808は、例えばハードディスク等からなり、CPU801が実行するプログラムや各種のデータを記憶する。通信部809は、Wi−Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
入出力インタフェース805に接続されているドライブ810は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア811を駆動し、データの記録あるいは読み取りを実行する。
[6.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
(2) 前記画像合成部は、
各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出し、
各切り出し画像を組み合わせて前記合成画像を生成する(1)に記載の情報処理装置。
(3) 前記仮想視点画像生成部は、
視聴ユーザの正面の表示領域に表示ユーザがある場合にのみ、その視聴ユーザ対応のユーザ視点対応仮想視点画像を生成する(1)または(2)に記載の情報処理装置。
(4) 前記仮想視点画像生成部は、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して仮想視点画像を生成する(1)〜(3)いずれかに記載の情報処理装置。
(5) 前記仮想視点画像生成部は、
3Dモデル生成部を有し、
複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して3Dモデルを生成し、生成した3Dモデルを利用して仮想視点画像を生成する(1)〜(4)いずれかに記載の情報処理装置。
(6) 前記画像合成部は、
前記視聴ユーザの位置情報を入力し、入力した前記視聴ユーザの位置情報を利用して、前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する(1)〜(5)いずれかに記載の情報処理装置。
(7) 前記画像合成部は、
前記表示部に表示する表示ユーザの位置情報を入力し、表示ユーザの位置情報と、前記視聴ユーザの位置情報との対応関係に基づいて、複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する(1)〜(6)いずれかに記載の情報処理装置。
(8) 前記画像合成部は、
前記表示ユーザの位置と、前記視聴ユーザの位置が相対する設定である場合、その視聴ユーザの視点対応仮想視点画像を含む合成画像を生成する(7)に記載の情報処理装置。
(9) 前記情報処理装置は、さらに、
前記撮影画像から、人物と背景画像を分離する背景画像分離部を有し、
前記仮想視点画像生成部は、人物を含む画像を適用した仮想視点画像を生成し、
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、背景画像の合成処理を実行する(1)〜(8)いずれかに記載の情報処理装置。
(10) 前記情報処理装置は、さらに、
前記背景画像分離部の生成した背景画像のオクルージョン領域を穴埋め補正して補正背景画像を生成する背景画像生成部を有し。
前記画像合成部は、
前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、前期補正背景画像の合成処理を実行する(9)に記載の情報処理装置。
(11) 前記画像合成部は、
前記合成画像に含める仮想視点画像を、予め規定した優先度アルゴリズムに従って算出する優先度に応じて決定する(1)〜(10)いずれかに記載の情報処理装置。
(12) 前記優先度は、
(a)前記表示部に表示する表示ユーザの位置、
(b)前記表示部に表示する表示ユーザの視線方向、
(c)前記表示部に表示する表示ユーザ中の話者、
(d)前記表示部を見る視聴ユーザの位置、
(e)前記表示部を見る視聴ユーザの視線方向、
(f)前記表示部を見る視聴ユーザ中の話者、
上記(a)〜(f)の少なくともいずれかの情報に基づいて決定する優先度である(11)に記載の情報処理装置。
(13) 前記情報処理装置は、
前記画像合成部の生成した合成画像を送信する送信部を有する(1)〜(12)いずれかに記載の情報処理装置。
(14) 前記情報処理装置は、
前記画像合成部の生成した合成画像を表示する表示部を有する(1)〜(12)いずれかに記載の情報処理装置。
(15) 通信ネットワークを介してデータ受信を実行する受信部と、
前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
前記合成画像を表示する表示部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
(16) 画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
前記送信装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部は、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部は、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
前記受信装置は、
前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システム。
(17) 情報処理装置において実行する情報処理方法であり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記仮想視点画像生成部が、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
前記画像合成部が、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法。
(18) 情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
前記プログラムは、
前記仮想視点画像生成部に、
前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
前記画像合成部に、
視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラム。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
具体的には、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成し、複数の仮想視点画像を合成して表示部に出力する合成画像を生成する。仮想視点画像生成部は、表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、画像合成部は、視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して合成画像を生成する。合成画像は、各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出して生成する。
本構成により、表示部に表示されるユーザの視点が実際の視点と異なって見える違和感を低減する構成が実現される。
10,20 データ処理部
11,21 表示部(ディスプレイ)
12,22 カメラ
13,23 スピーカ
30 ネットワーク
100 表示部
121 L視点カメラ
122 R視点カメラ
200 表示部
311 仮想視点D
312 仮想視点E
313 仮想視点F
321 仮想視点D画像
322 仮想視点E画像
323 仮想視点F画像
326〜328 選択領域
331 合成画像
341 仮想視点D画像
342 仮想視点E画像
343 仮想視点F画像
351〜352 選択領域
361 合成画像
381〜382 選択領域
383 合成画像
391 仮想視点D画像
392 仮想視点F画像
401 撮像部
402 受信部
403 表示部
404 送信部
410 データ処理部
411 画像入力部
412 デプス検出部
413 ユーザ位置検出部
414 仮想視点画像生成部
415 画像合成部
520 データ処理部
521 画像入力部
522 デプス検出部
523 3Dモデル生成部
524 背景分離部
525ユーザ位置検出部
526 仮想視点画像生成部
527 背景画像生成部
528 画像合成部
711 ユーザ状態(視線、話者)検出部
712 優先度判定部
801 CPU
802 ROM
803 RAM
804 バス
805 入出力インタフェース
806 入力部
807 出力部
808 記憶部
809 通信部
810 ドライブ
811 リムーバブルメディア
821 撮像部
822 表示部

Claims (18)

  1. 複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
    前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
    前記仮想視点画像生成部は、
    前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
    前記画像合成部は、
    視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
  2. 前記画像合成部は、
    各視聴ユーザ対応のユーザ視点対応仮想視点画像から、仮想視点画像対応の視点の視聴ユーザの正面位置にある表示領域画像を切り出し、
    各切り出し画像を組み合わせて前記合成画像を生成する請求項1に記載の情報処理装置。
  3. 前記仮想視点画像生成部は、
    視聴ユーザの正面の表示領域に表示ユーザがある場合にのみ、その視聴ユーザ対応のユーザ視点対応仮想視点画像を生成する請求項1に記載の情報処理装置。
  4. 前記仮想視点画像生成部は、
    複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して仮想視点画像を生成する請求項1に記載の情報処理装置。
  5. 前記仮想視点画像生成部は、
    3Dモデル生成部を有し、
    複数の異なる視点からの撮影画像と、撮影画像に含まれる被写体の距離情報からなるデプスデータを適用して3Dモデルを生成し、生成した3Dモデルを利用して仮想視点画像を生成する請求項1に記載の情報処理装置。
  6. 前記画像合成部は、
    前記視聴ユーザの位置情報を入力し、入力した前記視聴ユーザの位置情報を利用して、前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する請求項1に記載の情報処理装置。
  7. 前記画像合成部は、
    前記表示部に表示する表示ユーザの位置情報を入力し、表示ユーザの位置情報と、前記視聴ユーザの位置情報との対応関係に基づいて、複数のユーザ視点対応仮想視点画像から構成される合成画像を生成する請求項1に記載の情報処理装置。
  8. 前記画像合成部は、
    前記表示ユーザの位置と、前記視聴ユーザの位置が相対する設定である場合、その視聴ユーザの視点対応仮想視点画像を含む合成画像を生成する請求項7に記載の情報処理装置。
  9. 前記情報処理装置は、さらに、
    前記撮影画像から、人物と背景画像を分離する背景画像分離部を有し、
    前記仮想視点画像生成部は、人物を含む画像を適用した仮想視点画像を生成し、
    前記画像合成部は、
    前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、背景画像の合成処理を実行する請求項1に記載の情報処理装置。
  10. 前記情報処理装置は、さらに、
    前記背景画像分離部の生成した背景画像のオクルージョン領域を穴埋め補正して補正背景画像を生成する背景画像生成部を有し。
    前記画像合成部は、
    前記仮想視点画像生成部の生成した人物を含む仮想視点画像と、前期補正背景画像の合成処理を実行する請求項9に記載の情報処理装置。
  11. 前記画像合成部は、
    前記合成画像に含める仮想視点画像を、予め規定した優先度アルゴリズムに従って算出する優先度に応じて決定する請求項1に記載の情報処理装置。
  12. 前記優先度は、
    (a)前記表示部に表示する表示ユーザの位置、
    (b)前記表示部に表示する表示ユーザの視線方向、
    (c)前記表示部に表示する表示ユーザ中の話者、
    (d)前記表示部を見る視聴ユーザの位置、
    (e)前記表示部を見る視聴ユーザの視線方向、
    (f)前記表示部を見る視聴ユーザ中の話者、
    上記(a)〜(f)の少なくともいずれかの情報に基づいて決定する優先度である請求項11に記載の情報処理装置。
  13. 前記情報処理装置は、
    前記画像合成部の生成した合成画像を送信する送信部を有する請求項1に記載の情報処理装置。
  14. 前記情報処理装置は、
    前記画像合成部の生成した合成画像を表示する表示部を有する請求項1に記載の情報処理装置。
  15. 通信ネットワークを介してデータ受信を実行する受信部と、
    前記受信部を介して、複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
    前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部と、
    前記合成画像を表示する表示部を有し、
    前記仮想視点画像生成部は、
    前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
    前記画像合成部は、
    視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理装置。
  16. 画像送信を実行する送信装置と、前記送信装置の送信画像を受信し、表示部に表示する受信装置を有する情報処理システムであり、
    前記送信装置は、
    複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
    前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
    前記仮想視点画像生成部は、
    前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
    前記画像合成部は、
    視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成し、
    前記受信装置は、
    前記送信装置の送信する合成画像を受信し、受信した合成画像を表示部に表示する情報処理システム。
  17. 情報処理装置において実行する情報処理方法であり、
    前記情報処理装置は、
    複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
    前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
    前記仮想視点画像生成部が、
    前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成し、
    前記画像合成部が、
    視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する情報処理方法。
  18. 情報処理装置において情報処理を実行させるプログラムであり、
    前記情報処理装置は、
    複数の異なる視点からの撮影画像を入力して、複数の仮想視点画像を生成する仮想視点画像生成部と、
    前記複数の仮想視点画像を合成して表示部に出力する合成画像を生成する画像合成部を有し、
    前記プログラムは、
    前記仮想視点画像生成部に、
    前記表示部を見る複数の視聴ユーザ各々の視点に対応した複数のユーザ視点対応仮想視点画像を生成させ、
    前記画像合成部に、
    視聴ユーザと表示部との相対位置に応じて、複数のユーザ視点対応仮想視点画像の各々から一部を切り出し、切り出し画像を合成して前記合成画像を生成する処理を実行させるプログラム。
JP2017567955A 2016-02-17 2016-11-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム Pending JPWO2017141511A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016028033 2016-02-17
JP2016028033 2016-02-17
PCT/JP2016/084408 WO2017141511A1 (ja) 2016-02-17 2016-11-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JPWO2017141511A1 true JPWO2017141511A1 (ja) 2018-12-06

Family

ID=59624991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017567955A Pending JPWO2017141511A1 (ja) 2016-02-17 2016-11-21 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US10762688B2 (ja)
JP (1) JPWO2017141511A1 (ja)
WO (1) WO2017141511A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7030452B2 (ja) * 2017-08-30 2022-03-07 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、情報処理システム及びプログラム
JP2019103067A (ja) * 2017-12-06 2019-06-24 キヤノン株式会社 情報処理装置、記憶装置、画像処理装置、画像処理システム、制御方法、及びプログラム
US11282481B2 (en) * 2017-12-26 2022-03-22 Ntt Docomo, Inc. Information processing device
JP7119384B2 (ja) * 2018-01-23 2022-08-17 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
JP7091133B2 (ja) * 2018-05-09 2022-06-27 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7254464B2 (ja) 2018-08-28 2023-04-10 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
WO2021014775A1 (ja) * 2019-07-19 2021-01-28 富士フイルム株式会社 画像表示装置、方法及びプログラム
US11410331B2 (en) * 2019-10-03 2022-08-09 Facebook Technologies, Llc Systems and methods for video communication using a virtual camera
JP2022073651A (ja) * 2020-11-02 2022-05-17 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3289730B2 (ja) 1991-07-12 2002-06-10 日本電信電話株式会社 画像通信用入出力装置
JP3139100B2 (ja) 1992-02-13 2001-02-26 日本電気株式会社 多地点画像通信端末装置および多地点対話方式
JP2000165831A (ja) 1998-11-30 2000-06-16 Nec Corp 多地点テレビ会議システム
US7330584B2 (en) 2004-10-14 2008-02-12 Sony Corporation Image processing apparatus and method
US7742623B1 (en) * 2008-08-04 2010-06-22 Videomining Corporation Method and system for estimating gaze target, gaze sequence, and gaze map from video
JP2012070081A (ja) 2010-09-21 2012-04-05 Fuji Xerox Co Ltd 画像表示装置、画像表示プログラム及び画像表示システム
JP5601142B2 (ja) 2010-10-20 2014-10-08 カシオ計算機株式会社 画像表示装置、画像表示方法及びプログラム
US8890923B2 (en) * 2012-09-04 2014-11-18 Cisco Technology, Inc. Generating and rendering synthesized views with multiple video streams in telepresence video conference sessions
US8994780B2 (en) * 2012-10-04 2015-03-31 Mcci Corporation Video conferencing enhanced with 3-D perspective control
JP6091850B2 (ja) 2012-11-09 2017-03-08 シャープ株式会社 テレコミュニケーション装置及びテレコミュニケーション方法
JP7012642B2 (ja) * 2015-11-09 2022-01-28 ヴァーシテック・リミテッド アーチファクトを意識したビュー合成のための補助データ

Also Published As

Publication number Publication date
US10762688B2 (en) 2020-09-01
WO2017141511A1 (ja) 2017-08-24
US20190043245A1 (en) 2019-02-07

Similar Documents

Publication Publication Date Title
WO2017141511A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10235560B2 (en) Image processing apparatus, image processing method, and image communication system
KR101598069B1 (ko) 비디오에서의 시선 정렬 시스템 및 방법
US8451321B2 (en) Image processing apparatus, image processing method, and program
JP4144492B2 (ja) 画像表示装置
WO2003081921A1 (fr) Procede de traitement d'images tridimensionnelles et dispositif
US11006098B2 (en) Information processing apparatus, information processing system, and information processing method
JP2011090400A (ja) 画像表示装置および方法、並びにプログラム
US10389976B2 (en) Information processing apparatus, information processing system, and information processing method
US11204502B2 (en) Image generation apparatus, head mounted display, image generation system, image generation method, and program
JP2011010126A (ja) 画像処理装置、画像処理方法
JP6618260B2 (ja) 情報処理装置、情報処理方法、プログラム
WO2018084087A1 (ja) 画像表示システム、画像表示装置、その制御方法、及びプログラム
CN113170075B (zh) 信息处理装置、信息处理方法和程序
WO2013133057A1 (ja) 画像処理装置および方法、並びにプログラム
US11100716B2 (en) Image generating apparatus and image generation method for augmented reality
CN113632458A (zh) 广角相机透视体验的系统、算法和设计
CN115190286B (zh) 一种2d图像转换方法及装置
JP6849775B2 (ja) 情報処理装置、情報処理方法、プログラム
KR20130005148A (ko) 입체감 조절 장치 및 입체감 조절 방법
CN112913230B (zh) 图像生成装置及其方法
JP5906894B2 (ja) 3d入力装置および3d入力方法
WO2018016316A1 (ja) 画像処理装置、画像処理方法、プログラム、およびテレプレゼンスシステム
JP2021086287A (ja) 情報処理システム、情報処理装置、及び情報処理方法
KR20170111010A (ko) 가상 이미지를 이용한 영상 통화 시스템 및 방법과 이를 수행하기 위한 영상 통화 중계 서버