WO2024009745A1

WO2024009745A1 - 情報処理装置、情報処理方法、および記録媒体

Info

Publication number: WO2024009745A1
Application number: PCT/JP2023/022682
Authority: WO
Inventors: 清登染谷; 宜之高尾; 巨成高橋
Original assignee: ソニーグループ株式会社
Priority date: 2022-07-07
Filing date: 2023-06-20
Publication date: 2024-01-11

Abstract

本技術は、自然な撮影環境を提供しながら、前景背景分離を好適に行うことができるようにする情報処理装置、情報処理方法、および記録媒体に関する。本技術の情報処理装置は、被写体の背景となる映像であって、被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、第１のカメラの撮影と同期してディスプレイに表示させる表示制御部と、被写体およびディスプレイを、ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれるパターン映像に基づいて、第２のカメラの撮影映像から被写体の領域を分離する分離部とを備える。本技術は、例えば、３Ｄモデルの生成に用いられる映像を撮影するための撮影システムに適用することができる。

Description

情報処理装置、情報処理方法、および記録媒体

　本技術は、情報処理装置、情報処理方法、および記録媒体に関し、特に、自然な撮影環境を提供しながら、前景背景分離を好適に行うことができるようにした情報処理装置、情報処理方法、および記録媒体に関する。

　多視点で撮影された映像から被写体の３Ｄモデルを生成し、任意の視点位置に応じた３Ｄモデルの仮想視点映像を生成することで自由な視点の映像を提供する技術がある。このような技術は、ボリュメトリックキャプチャ技術などとも呼ばれている。

　３Ｄモデルは、例えば、異なる方向から撮影された複数の撮影映像に基づいて被写体の３次元形状の削り出しを行うVisual Hullの手法が用いられて生成される。

　３Ｄモデルの生成では、多視点で撮影された各撮影映像に対して前景背景分離を行う必要がある。前景背景分離では、各撮影映像内の被写体の領域と背景の領域が分離される。

　例えば、特許文献１には、前景背景分離の手法として、被写体がいない状態で背景だけを事前に撮影して得られた撮影映像と、被写体がいる状態で撮影して得られた撮影映像との差分をとることが記載されている。また、特許文献２には、前景背景分離の手法として、単色の背景環境(例えばグリーンバックやブルーバック)で被写体を撮影して得られた撮影映像をクロマキー処理することが記載されている。

特開２０１９－１２５２６９号公報特開２０１４－７２６９７号公報

　特許文献１に記載の手法では、カメラを固定する必要があったり、被写体としての演者の服の色と背景が似ていると、高精度に前景背景分離ができなかったりすることがある。

　また、特許文献２に記載の手法では、単色の背景環境を複数用意し、演者の服の色と異なる色の背景環境で撮影を行えば、クロマキー処理により高精度に前景背景分離ができるが、演者は、単色の背景環境で演技することになるため、仮想視点映像に合成される背景を想像しながら演技をする必要がある。

　本技術はこのような状況に鑑みてなされたものであり、自然な撮影環境を提供しながら、前景背景分離を好適に行うことができるようにするものである。

　本技術の一側面の情報処理装置は、被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させる表示制御部と、前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する分離部とを備える。

　本技術の一側面の情報処理方法は、情報処理装置が、被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する。

　本技術の一側面の記録媒体は、コンピュータに、被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する処理を実行させるためのプログラムを記録する。

　本技術の一側面においては、被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像が、前記第１のカメラの撮影と同期して前記ディスプレイに表示され、前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域が分離される。

本技術を適用した撮影システムの構成例を示す図である。撮影システムが撮影を行う時の状況の例を示す平面図である。メインカメラを用いた撮影の様子を示す図である。メインカメラにより撮影された撮影映像の例を示す図である。サブカメラの撮影映像を用いた３Ｄモデル生成の概要を説明する図である。 LEDディスプレイに入力される表示映像と、サブカメラの撮影映像の第１の例を示す図である。前景マスク画像の例を示す図である。 RGB一様パターンを含む表示映像の表示例を示す図である。 LEDディスプレイに入力される表示映像と、サブカメラの撮影映像の第２の例を示す図である。情報処理装置の機能構成例を示すブロック図である。情報処理装置が行う処理について説明するフローチャートである。背景の色と演者の服装の色が同じである状況の例を示す図である。演者の服装の色を考慮したRGB混色パターンを含む表示映像を表示させる情報処理装置の機能構成例を示すブロック図である。コンピュータのハードウェアの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．撮影システムの概要
　２．情報処理装置の構成と動作
　３．変形例

＜１．撮影システムの概要＞
　図１は、本技術を適用した撮影システムの構成例を示す図である。

　図１の撮影システムは、メインカメラ１１、Ｎ台（Ｎ＞１）のサブカメラ１２－１乃至１２－Ｎ、LEDディスプレイ１３、および情報処理装置２１により構成される。メインカメラ１１、サブカメラ１２－１乃至１２－Ｎ、およびLEDディスプレイ１３は、撮影スタジオなどの同じ撮影空間に配置される。

　メインカメラ１１（第１のカメラ）は、例えばバーチャルプロダクションによる撮影に用いられるカメラであり、情報処理装置２１による制御に従って、被写体とその背景を撮影する。

　サブカメラ１２－１乃至１２－Ｎ（第２のカメラ）は、例えばボリュメトリックキャプチャ技術を利用した仮想視点映像の生成に用いられるカメラであり、情報処理装置２１による制御に従って、被写体とその背景を撮影する。サブカメラ１２－１乃至１２－Ｎの撮影映像は、被写体の３Ｄモデルを生成するのに用いられる。

　なお、以下では、サブカメラ１２－１乃至１２－Ｎをそれぞれ区別する必要がない場合、単にサブカメラ１２と称して説明する。

　LED(Light Emitting Diode)ディスプレイ１３は、情報処理装置２１による制御に従って、例えばCG(Computer Graphics)で作成された仮想空間の映像を表示映像として表示する。

　情報処理装置２１は、コンピュータなどにより構成され、メインカメラ１１による被写体の撮影、サブカメラ１２による被写体の撮影、およびLEDディスプレイ１３による表示映像の表示を制御する。また、情報処理装置２１は、サブカメラ１２－１乃至１２－Ｎにより撮影された複数の撮影映像それぞれの被写体の領域と背景の領域を分離する前景背景分離を行う。

　図２は、撮影システムが撮影を行う時の状況の例を示す平面図である。

　図２の例では、撮影空間の中央に向けて６台のサブカメラ１２－１乃至１２－６が略等間隔で環状に配置されている。サブカメラ１２－１とサブカメラ１２－４、サブカメラ１２－２とサブカメラ１２－５、およびサブカメラ１２－３とサブカメラ１２－６は、それぞれ対向した状態で配置されている。

　サブカメラ１２－２とサブカメラ１２－３の間には、撮影空間の中央に向けてメインカメラ１１が配置されている。また、サブカメラ１２－５とサブカメラ１２－６の間には、LEDディスプレイ１３が正面を撮影空間の中央に向けて配置されている。ここでは、LEDディスプレイ１３は、メインカメラ１１とサブカメラ１２－２，１２－３の撮影範囲に含まれるように位置する。

　撮影システムによる撮影は、図２に示すように、被写体としての演者Ａ１が例えば撮影空間の中央に存在する状況で行われる。

　メインカメラ１１とサブカメラ１２－２，１２－３によって撮影された撮影映像には、LEDディスプレイ１３に表示された表示映像の少なくとも一部を背景として演者Ａ１が映ることになる。サブカメラ１２－１，１２－４乃至１２－６によって撮影された撮影映像には、撮影範囲内に存在する他のカメラや、撮影空間の壁、天井、床などを背景として演者Ａ１が映ることになる。なお、サブカメラ１２－１，１２－４乃至１２－６によって撮影された撮影映像には、LEDディスプレイ１３に表示された表示映像の少なくとも一部が映っていてもよい。また、サブカメラ１２－２，１２－３によって撮影された撮影映像には、撮影範囲内に存在する他のカメラや、撮影空間の壁、天井、床なども映っていてもよい。

　図３は、メインカメラ１１を用いた撮影の様子を示す図である。

　図３に示すように、演者Ａ１は、ウォール状の大型のLEDディスプレイ１３の前方に立ち、LEDディスプレイ１３に表示される表示映像を背景として演技を行う。LEDディスプレイ１３に表示される表示映像は、演者Ａ１が演技する場を模した背景映像を含む映像となる。演者Ａ１が演技をする場を模した背景映像は、例えば、ボリュメトリックキャプチャ技術を利用して生成される仮想視点映像に合成される背景の映像であってもよい。

　バーチャルプロダクションは、被写体である演者Ａ１と背景としての表示映像を、メインカメラ１１で撮影することで実現される。

　図４は、メインカメラ１１により撮影された撮影映像の例を示す図である。

　図４に示すように、メインカメラ１１により撮影された撮像映像は、演者Ａ１が、背景映像に映る仮想空間にあたかも存在するかのような映像となる。このように、メインカメラ１１の撮影者は、撮影システムを用いて撮影を行うことにより、演者Ａ１の背景に、背景映像に映る空間が広がっているような撮影映像をスタジオで撮影することができる。

　なお、LEDディスプレイ１３には、例えば、メインカメラ１１の視点（位置姿勢）に対応した背景映像を含む表示映像が表示される。メインカメラ１１の移動が可能な場合、メインカメラ１１の視点の変化に応じて、LEDディスプレイ１３に表示される背景映像を変化させることが可能である。例えば、LEDディスプレイ１３の全体には、背景映像の全体が表示され、メインカメラ１１の撮影範囲に含まれるLEDディスプレイ１３上の領域には、背景映像の一部分が、背景映像全体に重畳されるようにして表示される。LEDディスプレイ１３上の当該領域には、例えば、背景映像に映る仮想空間で演者Ａ１に向かってメインカメラ１１の視点から撮影した場合に背景となる部分の映像が、背景映像全体から切り出されて表示される。

　メインカメラ１１の視点は、例えば、メインカメラ１１に付加されたマーカやIMU(Inertial Measurement Unit)デバイスを用いた自己位置推定により取得される。

　図５は、サブカメラ１２の撮影映像を用いた３Ｄモデル生成の概要を説明する図である。

　図５には、３台のサブカメラ１２を用いて、演技を行っている演者Ａ１を被写体としての撮影が行われている例が示されている。図５の左側に示すように、演者Ａ１を囲むように配置された３台のサブカメラ１２－１乃至１２－３は、演者Ａ１を撮影する。

　異なる位置に配置された複数のサブカメラ１２の撮影映像を用いて、３Ｄモデリングが例えば情報処理装置２１により行われ、図５の中央に示すように、演者Ａ１の３ＤモデルＭｏ１が生成される。３ＤモデルＭｏ１は、例えば、異なる方向から演者Ａ１が撮影された撮影映像を用いて３次元形状の切り出しを行うVisual Hullの手法により生成される。

　以上のようにして生成された演者Ａ１の３ＤモデルＭｏ１のデータが再生側の装置に伝送され、再生される。すなわち、再生側の装置において、３ＤモデルＭｏ１のレンダリングがデータに基づいて行われることにより、視聴デバイスに仮想視点映像が表示される。図５の右側には、視聴者が使用する視聴デバイスとして、ディスプレイＤ１やヘッドマウントディスプレイＤ２が示されている。

　ところで、３Ｄモデルの生成では、各撮影映像内の被写体の領域と背景の領域を分離し、被写体のみのデータを抽出する前景背景分離を行う必要がある。

　前景背景分離の手法として、特許文献１には、被写体がいない状態で背景だけを事前に撮影して得られた撮影映像と、被写体がいる状態で撮影して得られた撮影映像との差分をとる手法が記載されている。また、特許文献２には、前景背景分離の手法として、単色の背景環境(例えばグリーンバックやブルーバック)で被写体を撮影して得られた撮影映像をクロマキー処理する手法が記載されている。

　また、特許文献２に記載の手法では、単色の背景環境を複数用意し、演者の服の色と異なる色の背景環境で撮影を行えば、クロマキー処理により高精度に前景背景分離ができるが、演者は、単色の背景環境で演技することになるため、撮影後に３Ｄモデルの映像に合成される背景を想像しながら演技をする必要がある。

　そこで、本技術の撮影システムでは、被写体の背景となる背景映像と、前景背景分離が容易な所定のパターンの映像であるパターン映像とを含む表示映像がLEDディスプレイ１３に表示され、被写体およびLEDディスプレイ１３を、LEDディスプレイ１３の表示と同期して撮影するサブカメラ１２の撮影映像に含まれるパターン映像に基づいて、サブカメラ１２の撮影映像に対する前景背景分離が行われる。

　図６は、LEDディスプレイ１３に入力される表示映像と、サブカメラ１２の撮影映像の第１の例を示す図である。

　図６には、RGB一様パターンがパターン映像としてLEDディスプレイ１３に表示される例が示されている。RGB一様パターンは、複数の相補的なパターン映像を含み、当該パターン映像が所定時間以内に順次表示され、被写体にとって知覚できない（Imperceptible）映像の一例である。RGB一様パターンは、複数の相補的なパターン映像として、赤色の一様な単色画像、緑色の一様な単色画像、および青色の一様な単色画像が順次表示される映像である。各単色画像は、画素値の赤色成分、青色成分、および緑色成分の加法混色により白色になる。例えば、赤色の単色画像の画素値(R,G,B)が(255,0,0)であり、緑色の単色画像の画素値が(0,255,0)であり、青色の単色画像の画素値が(0,0,255)である場合、各単色画像を加法混色すると、画素値は(255,255,255)となる。

　図６の白抜き矢印＃１で示すように、LEDディスプレイ１３には、表示映像として、例えば、赤色の単色画像Ｐ１Ｒ、緑色の単色画像Ｐ１Ｇ、青色の単色画像Ｐ１Ｂ、および背景映像のフレーム画像Ｐ１が順次入力されて表示される。

　LEDディスプレイ１３が、赤色の単色画像Ｐ１Ｒ、緑色の単色画像Ｐ１Ｇ、青色の単色画像Ｐ１Ｂ、および背景映像のフレーム画像Ｐ１を順次表示するのに同期して、サブカメラ１２は、被写体とLEDディスプレイ１３を撮影する。このような撮影によって、図６の白抜き矢印＃２で示すように、背景として赤色の単色画像Ｐ１Ｒが映るフレーム画像Ｐ１１Ｒ、背景として緑色の単色画像Ｐ１Ｇが映るフレーム画像Ｐ１１Ｇ、背景として青色の単色画像Ｐ１Ｂが映るフレーム画像Ｐ１１Ｂ、および、背景として背景映像のフレーム画像が映るフレーム画像Ｐ１１により構成される撮影映像が取得される。

　情報処理装置２１は、フレーム画像Ｐ１１Ｒ，Ｐ１１Ｇ，Ｐ１１Ｂの少なくともいずれかを用いてクロマキー処理などを行うことで、図７に示すような前景マスク画像（前景背景分離画像）Ｍ１を容易に生成することができる。前景マスク画像Ｍ１は、被写体（前景）の領域の画素値を１とし、被写体以外の背景の領域の画素値を０とした画像であり、フレーム画像Ｐ１１Ｒ，Ｐ１１Ｇ，Ｐ１１Ｂ，Ｐ１１に対する前景背景分離に用いられる。

　例えば、被写体としての演者の服装が赤色である場合、フレーム画像Ｐ１１Ｒを除いたフレーム画像Ｐ１１Ｇ，Ｐ１１Ｂが用いられて前景マスク画像Ｍ１が生成されるといったように、前景マスク画像Ｍ１の生成に３枚のフレーム画像Ｐ１１Ｒ，Ｐ１１Ｇ，Ｐ１１Ｂの全てが用いられる必要はない。

　なお、サブカメラ１２の撮影映像に、サブカメラ１２の撮影範囲内に存在する他のカメラや、撮影空間の壁、天井、床などが映る場合、クロマキー処理、および、被写体が映る撮影映像と背景だけが映る撮影映像との差分をとる処理が組み合わされて、前景マスク画像が生成されるようにしてもよい。また、サブカメラ１２の撮影映像にパターン映像が映らない場合、例えば、被写体が映る撮影映像と背景だけが映る撮影映像との差分をとる処理によって、前景マスク画像が生成される。

　画素値の赤色成分、青色成分、および緑色成分が加法混色により白色になる複数の単色画像がLEDディスプレイ１３に順次表示されるため、視覚の積分効果によって、撮影中の演者にとってはRGB一様パターンが白色に見えることになる。したがって、表示映像を見た演者には、背景映像が少し明るくなったように知覚され、RGB一様パターン自体は知覚されない。

　演者にとっては、グリーンバックのような特殊な環境下ではなく、演技する場を模した背景映像がLEDディスプレイ１３に表示された環境下で撮影が行われるため、演者は自然な演技をすることが可能となる。したがって、本技術の撮影システムは、自然な撮影環境を提供しながら、前景背景分離を行うのに用いられる前景マスク画像を容易に生成することが可能となる。

　なお、暗い赤色、暗い緑色、および暗い青色の単色画像が表示されるといったように、画素値の赤色成分、青色成分、および緑色成分それぞれが最大値よりも低い単色画像が表示されるようにしてもよい。例えば、暗い赤色の単色画像の画素値(R,G,B)は(128,0,0)であり、暗い緑色の単色画像の画素値は(0,128,0)であり、暗い青色の単色画像の画素値は(0,0,128)であってもよい。この場合、視覚の積分効果によって、撮影中の演者にとってはRGB一様パターンが灰色に見えることになる。暗い単色画像が表示されることで、RGB一様パターンによって生じる背景映像の白飛び（黒浮き）を低減させることができる。暗い単色画像が表示される場合、前景背景分離の精度を高めるため、サブカメラ１２のゲインを高くすることが想定される。サブカメラ１２のゲインを高くすると、サブカメラ１２の撮影映像内のノイズ量などが増加する可能性があるため、目的に応じて、単色画像それぞれの画素値の赤色成分、青色成分、および緑色成分が調整されることが望ましい。

　図８は、RGB一様パターンを含む表示映像の表示例を示す図である。

　図８のＡに示すように、各単色画像と背景映像のフレーム画像が交互に表示されるようにしてもよい。図８のＡの例では、赤色の単色画像Ｐ１Ｒ、背景映像のフレーム画像Ｐ１－１、緑色の単色画像Ｐ１Ｇ、背景映像のフレーム画像Ｐ１－２、青色の単色画像Ｐ１Ｂ、および背景映像のフレーム画像Ｐ１－３の順で表示映像がLEDディスプレイ１３に表示される。

　図８のＢに示すように、各単色画像が連続で表示された後に、背景映像のフレーム画像が表示されるようにしてもよい。図８のＢの例では、赤色の単色画像Ｐ１Ｒ、緑色の単色画像Ｐ１Ｇ、青色の単色画像Ｐ１Ｂ、背景映像のフレーム画像Ｐ１－１、背景映像のフレーム画像Ｐ１－２、および背景映像のフレーム画像Ｐ１－３の順で表示映像がLEDディスプレイ１３に表示される。

　なお、赤色の単色画像Ｐ１Ｒ、緑色の単色画像Ｐ１Ｇ、および青色の単色画像Ｐ１Ｂの表示順は任意である。

　各単色画像を連続で表示した後に、背景映像のフレーム画像を表示する方法は、各単色画像と背景映像のフレーム画像を交互に表示する方法に比べて、カラーブレイクが起こりにくい表示方法となる。

　LEDディスプレイにおいて明滅速度を高速にすることは、他の表示デバイス(LCD(Liquid Crystal Display)など)において明滅速度を高速にすることに比べて原理的に容易であるため、LEDディスプレイは、表示レート(Hz)を高速化しやすいデバイスといえる。表示レートが高速になるほど、カラーブレイクを低減させることが可能となるので、表示レートを高速化しやすいLEDディスプレイは、RGB一様パターンとの相性がよい。

　図９は、LEDディスプレイ１３に入力される表示映像と、サブカメラ１２の撮影映像の第２の例を示す図である。

　図９には、ISL(Imperceptible Structured Light)パターンがパターン映像としてLEDディスプレイ１３に表示される例が示されている。ISLパターンは、複数の相補的なパターン映像を含み、当該パターン映像が所定時間以内に順次表示され、被写体にとって知覚できない映像の一例である。ISLパターンは、複数の相補的なパターン映像として、輝度変化方向が互いに反転している１対のパターン画像が順次表示される映像である。

　図９に示すように、背景映像のフレーム画像に対して、所定のパターン画像(Structured Light)のポジ画像とネガ画像がそれぞれ重畳され、ポジフレーム（Pos Frame）とネガフレーム（Neg Frame）の２フレームが生成される。この２フレームがLEDディスプレイ１３に表示される。ここでは、背景映像のフレーム画像に対してポジ画像を重畳することは、背景映像のフレーム画像にパターン画像を加算することを示し、背景映像のフレーム画像に対してネガ画像を重畳することは、背景映像のフレーム画像からパターン画像を減算することを示す。パターン画像のポジ画像とネガ画像は、パターンの輝度変化方向が互いに反転しているので、LEDディスプレイ１３に２フレームが連続して表示されると、図９中段のプラスマークで示す視覚の積分効果によって、演者Ａ１はパターン画像を知覚することができない。したがって、表示映像を見た演者Ａ１には、背景映像だけが知覚される。

　これに対して、サブカメラ１２は、LEDディスプレイ１３の表示に同期して、ポジフレームとネガフレームをそれぞれ撮影する。撮影映像のフレーム画像には、パターン画像のポジ画像とネガ画像とがそれぞれ映る。情報処理装置２１は、図９下段のマイナスマークで示すように、２枚のフレーム画像の差分を求めることにより、パターン画像を抽出することができる。

　情報処理装置２１は、撮影映像から抽出したパターン画像に基づいて、LEDディスプレイ１３に表示されているパターンの３次元位置、および、当該パターンに対応する撮影映像上の２次元座標を取得し、例えばOpenCVのsolvePnPなどのライブラリを用いて3D-2D対応点をとることで、サブカメラ１２の視点を推定することができる。

　情報処理装置２１は、推定したサブカメラ１２の自己位置に基づいて、サブカメラ１２の撮影映像に含まれる表示映像のシミュレーションを行い、シミュレーションの結果を示すシム画像を生成する。情報処理装置２１は、演者が映っている実際の撮影映像のフレーム画像とシム画像の差分をとることで、前景マスク画像を生成することができる。

　ボリュメトリックキャプチャ技術では、一般的に、位置姿勢が固定された複数のカメラの位置姿勢などを事前にキャリブレーションしておく必要があるが、本技術の撮影システムは、ISLパターンを用いてサブカメラ１２の外部パラメータ（位置姿勢）を推定することができるため、サブカメラ１２を固定しない(サブカメラ１２を動かしながらの)自由度のある撮影を行うことが可能となる。

　また、一般的に、メインカメラ１１の視点に対応した表示映像をLEDディスプレイ１３に表示するために、メインカメラ１１に付加されたマーカやIMUデバイスを用いてメインカメラ１１の視点が取得されるが、情報処理装置２１は、メインカメラ１１の撮影映像に含まれるISLパターンに基づいてメインカメラ１１の視点を推定することができる。したがって、メインカメラ１１にマーカやIMUデバイスを付加する必要がなくなる。

＜２．情報処理装置の構成と動作＞
・情報処理装置の構成
　図１０は、情報処理装置２１の機能構成例を示すブロック図である。

　図１０に示すように、情報処理装置２１は、パターン生成部３１、背景信号生成部３２、表示信号生成部３３、表示制御部３４、同期部３５、撮影制御部３６、および前景背景分離部３７により構成される。

　パターン生成部３１は、前景背景分離が容易なパターン映像（例えば、RGB一様パターンやISLパターン）を示すパターン信号を生成し、表示信号生成部３３に供給する。

　背景信号生成部３２は、演者が演技する場を模した背景映像を示す背景信号を生成し、表示信号生成部３３に供給する。

　表示信号生成部３３は、各タイミングでLEDディスプレイ１３に、背景映像を表示させるか、パターン映像を表示させるか、または背景映像とパターン映像を重畳して表示させるかなどを決定し、パターン生成部３１から供給されたパターン信号と背景信号生成部３２から供給された背景信号に基づいて、表示映像を示す表示信号を生成する。表示信号生成部３３は、生成した表示信号を表示制御部３４に供給する。

　表示制御部３４は、表示信号生成部３３から供給された表示信号をLEDディスプレイ１３に供給し、同期部３５から供給されるタイミング信号に同期して表示映像をLEDディスプレイ１３に表示させる。

　同期部３５は、メインカメラ１１およびサブカメラ１２による撮影のフレームレートと、LEDディスプレイ１３による表示映像の表示のフレームレートとを同期させるためのタイミング信号を生成し、表示制御部３４と撮影制御部３６に供給する。メインカメラ１１およびサブカメラ１２による撮影のフレームレートは、LEDディスプレイ１３による表示のフレームレートの整数倍に設定されてもよい。

　撮影制御部３６は、同期部３５から供給されたタイミング信号に同期して、メインカメラ１１とサブカメラ１２に撮影を行わせる。撮影制御部３６は、サブカメラ１２から撮影映像を取得し、前景背景分離部３７に供給する。

　前景背景分離部３７は、撮影制御部３６から供給されたサブカメラ１２の撮影映像に含まれるパターン映像に基づいて、前景マスク画像を生成し、前景マスク画像を用いて、サブカメラ１２の撮影映像に対する前景背景分離を行う。

　情報処理装置２１は、複数のサブカメラ１２それぞれの撮影映像から抽出された被写体のみのデータを統合することで、被写体の３Ｄモデルを生成することができる。

・情報処理装置の動作
　次に、図１１のフローチャートを参照して、以上のような構成を有する情報処理装置２１が行う処理について説明する。

　ステップＳ１において、パターン生成部３１は、パターン信号を生成する。

　ステップＳ２において、背景信号生成部３２は、背景信号を生成する。

　ステップＳ３において、表示信号生成部３３は、パターン信号と背景信号に基づいて、表示信号を生成する。

　ステップＳ４において、表示制御部３４は、表示信号で示される表示映像を、タイミング信号に同期してLEDディスプレイ１３に表示させる。

　ステップＳ５において、撮影制御部３６は、タイミング信号に同期してメインカメラ１１とサブカメラ１２に撮影を行わせ、サブカメラ１２の撮影映像を取得する。

　ステップＳ６において、前景背景分離部３７は、サブカメラ１２の撮影映像に含まれるパターン映像に基づいて、前景マスク画像を生成し、前景マスク画像を用いて、サブカメラ１２の撮影映像に対する前景背景分離を行う。

　以上の処理により、本技術の撮影システムにおいては、背景映像と演者に知覚されないパターン映像とを含む表示映像がLEDディスプレイ１３に表示され、演者およびLEDディスプレイ１３が、サブカメラ１２によりLEDディスプレイ１３と同期して撮影される。

　本技術の撮影システムは、演技する場を模した背景映像がLEDディスプレイ１３に表示されるといったように演者にとって自然な撮影環境を提供しながら、撮影映像に含まれるパターン映像に基づいて、前景背景分離を行うのに用いられる前景マスク画像を容易に生成することが可能となる。

＜３．変形例＞
・背景映像の輝度を減衰させる例
　RGB一様パターンを単純にLEDディスプレイ１３に表示すると、視覚の積分効果によって、演者はRGB一様パターンを知覚することができないが、各単色画像が加法混色された白色の単色画像が背景映像に重畳されたように知覚するため、少し明るい背景映像を見ることになる。

　情報処理装置２１は、複数の相補的なパターン映像の輝度に応じて背景映像の輝度をあらかじめ減衰させて（暗くして）LEDディスプレイ１３に表示させることで、RGB一様パターンが表示されることによって生じる背景映像の黒浮き（白飛び）を低減させることが可能となる。したがって、演者は、より自然な明るさの撮影環境で演技を行うことができる。

　ただし、背景映像が元から暗い場合、背景映像を暗くすることは望ましくないので、背景映像の輝度を減衰させる方法は、背景映像が明るい場合に有効な方法となる。

・RGB混色パターンを表示する例
　以上においては、RGB一様パターンとして、赤色、緑色、および青色の単色画像が表示される例について説明したが、各単色画像は、それぞれの加法混色により白色になることで、演者にとっては少し明るい背景映像として知覚される。すなわち、赤色、緑色、および青色の単色画像を必ずしも表示する必要はなく、加法混色により白色になるような単色画像であれば、任意の色の単色画像を表示することも可能である。なお、白色の単色画像（画素値(255,255,255)）が背景映像のフレーム画像と交互に表示されてもよい。

　以下では、任意の色の複数の単色画像が順次表示される映像をRGB混色パターンと称して説明する。

　一般的に、図１２に示すように、グリーンバック環境で緑色の服装の演者が演技を行うといったように、背景の色と演者Ａ１の服装の色が同じである場合、前景背景分離が困難になる。この場合、演者Ａ１が異なる色の服装に着替えるか、撮影環境の色を変更する(ブルーバック環境に変更する)などの運用がなされている。

　本技術の撮影システムは、上述したようにLEDディスプレイ１３に任意の色の単色画像を表示してもよいため、演者の服装の色と異なる色の単色画像が表示されるようなRGB混色パターンをLEDディスプレイ１３に表示させることができる。

　演者の服装が事前にわかっている場合、クロマキー処理に適した色の単色画像が表示されるRGB混色パターンを、撮影者などが指定すればよい。演者の服装が直前までわからない場合や、演技の途中の衣装替えで服装の色が変わる場合、情報処理装置２１が、認識処理により撮影映像内の演者の大まかな位置を特定し、演者が映る領域から演者の服装の色や模様を抽出することで、RGB混色パターンで表示される単色画像の色を、演者の服装の色や模様に応じて動的に変更することができる。

　図１３は、演者の服装の色を考慮したRGB混色パターンを含む表示映像を表示させる情報処理装置２１の機能構成例を示すブロック図である。図１３において、図１０の構成と同じ構成には同一の符号を付してある。重複する説明については適宜省略する。

　図１３の情報処理装置２１は、演者認識部５１と服装色抽出部５２を有する点で、図１０の情報処理装置２１と異なる。

　演者認識部５１は、撮影制御部３６からメインカメラ１１の撮影映像またはサブカメラ１２の撮影映像を取得し、撮影映像内の演者が映る大まかな領域を認識する。演者認識部５１は、認識結果を服装色抽出部５２に供給する。

　服装色抽出部５２は、演者認識部５１により認識された撮影映像内の演者が映る大まかな領域の代表的な色を抽出し、代表的な色を演者の服装の色とする。服装色抽出部５２は、演者の服装の色を示す情報をパターン生成部３１に供給する。

　撮影映像内の演者が映る大まかな領域の認識結果は、人間を矩形で囲む認識結果や、演者の一部（例えば手や足の先）が認識から漏れているような認識結果であってもよい。演者と背景の境界が厳密にわからなくても、演者が映る大まかな領域がわかれば、服装色抽出部５２は、ヒストグラムなどの信号処理によって、演者の服装のおおよその色を取得することができる。

　パターン生成部３１は、服装色抽出部５２から供給された演者の服装の色を示す情報に応じた色の単色画像、例えば、演者の服装の色の捕食となる色の単色画像が表示されるようなRGB混色パターンを生成する。

　以上のように、本技術の撮影システムは、演者の服装の色に関わらず、前景背景分離を高精度に行うことが可能となる。

・その他
　以上においては、サブカメラ１２の撮影映像だけに対して前景背景分離を行う例（メインカメラ１１とサブカメラ１２が異なるカメラである例）について説明したが、メインカメラ１１が１台のサブカメラ１２として扱われ、メインカメラ１１の撮影映像に対しても前景背景分離が行われるようにしてもよい。言い換えると、メインカメラ１１とサブカメラ１２は、同一のカメラであってもよい。

　例えば、ISLパターンが背景映像のフレーム画像に重畳されたポジフレームとネガフレームが表示された後に、赤色の単色画像、緑色の単色画像、および青色の単色画像が表示されるといったように、ISLパターンとRGB一様パターン（RGB混色パターン）が組み合わされて表示されるようにしてもよい。

・コンピュータについて
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　CPU５０１，ROM５０２，RAM５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インタフェース５０５が接続される。入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７が接続される。また、入出力インタフェース５０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５０８、ネットワークインタフェースなどよりなる通信部５０９、リムーバブルメディア５１１を駆動するドライブ５１０が接続される。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを入出力インタフェース５０５及びバス５０４を介してRAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　CPU５０１が実行するプログラムは、例えばリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５０８にインストールされる。

　コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
　本技術は、以下のような構成をとることもできる。

（１）
　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させる表示制御部と、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する分離部と
　を備える情報処理装置。
（２）
　前記パターン映像は、所定時間以内に順次表示され前記被写体にとって知覚できない複数の相補的なパターン映像を含む
　前記（１）に記載の情報処理装置。
（３）
　前記複数の相補的なパターン映像は、加法混色により白色を示す赤色画像、緑色画像、および青色画像を含む複数の単色画像を含む
　前記（２）に記載の情報処理装置。
（４）
　前記表示映像は、前記背景映像のフレーム画像と前記複数の単色画像が交互に表示される映像である
　前記（３）に記載の情報処理装置。
（５）
　前記表示映像は、前記複数の単色画像が連続で表示された後に前記背景映像のフレーム画像が表示される映像である
　前記（３）に記載の情報処理装置。
（６）
　前記表示制御部は、前記複数の相補的なパターン映像の輝度に応じて前記背景映像の輝度を減衰させて表示させる
　前記（３）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記表示制御部は、前記被写体の服装に応じて前記複数の単色画像の色を変更する
　前記（３）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記第１のカメラの撮影映像または前記第２のカメラの撮影映像から、前記被写体の服装の色を抽出する抽出部をさらに備え、
　前記表示制御部は、前記抽出部により抽出された前記被写体の色に応じて前記複数の単色画像の色を変更する
　前記（７）に記載の情報処理装置。
（９）
　前記複数の相補的なパターン映像は、輝度変化方向が互いに反転している１対のパターン画像を含む
　前記（２）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記表示映像は、前記１対のパターン画像が前記背景映像のフレーム画像に重畳されて順次表示される映像である
　前記（９）に記載の情報処理装置。
（１１）
　前記分離部は、前記第２のカメラの撮影映像に含まれる前記パターン映像に基づいて推定された前記第２のカメラの視点に基づいて、前記第２のカメラの撮影映像に含まれる前記表示映像のシミュレーションを行い、前記シミュレーションの結果と前記第２のカメラの撮影映像のフレーム画像との差分に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記表示制御部は、前記第１のカメラの撮影映像に含まれる前記パターン映像に基づいて推定された前記第１のカメラの視点に対応した前記背景映像を前記ディスプレイに表示させる
　前記（９）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　前記表示制御部は、前記第１のカメラの視点の変化に応じて前記背景映像を変化させる
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記第２のカメラの撮影映像内の前記被写体の領域は、前記被写体の３Ｄモデルの生成に用いられる
　前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記ディスプレイは、LEDディスプレイである
　前記（１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
　前記第１のカメラと前記第２のカメラは、同一のカメラである
　前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
　前記第１のカメラと前記第２のカメラは、異なるカメラである
　前記（１）乃至（１５）のいずれかに記載の情報処理装置。
（１８）
　情報処理装置が、
　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　情報処理方法。
（１９）
　コンピュータに、
　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　処理を実行させるためのプログラムを記録した記録媒体。

　１１　メインカメラ，　１２　サブカメラ，　１３　LEDディスプレイ，　２１　情報処理装置，　３１　パターン生成部，　３２　背景信号生成部，　３３　表示信号生成部，　３４　表示制御部３４，　３５　同期部，　３６　撮影制御部，　３７　前景背景分離部，　５１　演者認識部，　５２　服装色抽出部

Claims

　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させる表示制御部と、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する分離部と
　を備える情報処理装置。
　前記パターン映像は、所定時間以内に順次表示され前記被写体にとって知覚できない複数の相補的なパターン映像を含む
　請求項１に記載の情報処理装置。
　前記複数の相補的なパターン映像は、加法混色により白色を示す赤色画像、緑色画像、および青色画像を含む複数の単色画像を含む
　請求項２に記載の情報処理装置。
　前記表示映像は、前記背景映像のフレーム画像と前記複数の単色画像が交互に表示される映像である
　請求項３に記載の情報処理装置。
　前記表示映像は、前記複数の単色画像が連続で表示された後に前記背景映像のフレーム画像が表示される映像である
　請求項３に記載の情報処理装置。
　前記表示制御部は、前記複数の相補的なパターン映像の輝度に応じて前記背景映像の輝度を減衰させて表示させる
　請求項３に記載の情報処理装置。
　前記表示制御部は、前記被写体の服装に応じて前記複数の単色画像の色を変更する
　請求項３に記載の情報処理装置。
　前記第１のカメラの撮影映像または前記第２のカメラの撮影映像から、前記被写体の服装の色を抽出する抽出部をさらに備え、
　前記表示制御部は、前記抽出部により抽出された前記被写体の色に応じて前記複数の単色画像の色を変更する
　請求項７に記載の情報処理装置。
　前記複数の相補的なパターン映像は、輝度変化方向が互いに反転している１対のパターン画像を含む
　請求項２に記載の情報処理装置。
　前記表示映像は、前記１対のパターン画像が前記背景映像のフレーム画像に重畳されて順次表示される映像である
　請求項９に記載の情報処理装置。
　前記分離部は、前記第２のカメラの撮影映像に含まれる前記パターン映像に基づいて推定された前記第２のカメラの視点に基づいて、前記第２のカメラの撮影映像に含まれる前記表示映像のシミュレーションを行い、前記シミュレーションの結果と前記第２のカメラの撮影映像のフレーム画像との差分に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　請求項９に記載の情報処理装置。
　前記表示制御部は、前記第１のカメラの撮影映像に含まれる前記パターン映像に基づいて推定された前記第１のカメラの視点に対応した前記背景映像を前記ディスプレイに表示させる
　請求項９に記載の情報処理装置。
　前記表示制御部は、前記第１のカメラの視点の変化に応じて前記背景映像を変化させる
　請求項１に記載の情報処理装置。
　前記第２のカメラの撮影映像内の前記被写体の領域は、前記被写体の３Ｄモデルの生成に用いられる
　請求項１に記載の情報処理装置。
　前記ディスプレイは、LEDディスプレイである
　請求項１に記載の情報処理装置。
　前記第１のカメラと前記第２のカメラは、同一のカメラである
　請求項１に記載の情報処理装置。
　前記第１のカメラと前記第２のカメラは、異なるカメラである
　請求項１に記載の情報処理装置。
　情報処理装置が、
　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　情報処理方法。
　コンピュータに、
　被写体の背景となる映像であって、前記被写体およびディスプレイを撮影する第１のカメラの視点に対応した背景映像とパターン映像とを含む表示映像を、前記第１のカメラの撮影と同期して前記ディスプレイに表示させ、
　前記被写体および前記ディスプレイを、前記ディスプレイの表示と同期して撮影する第２のカメラの撮影映像に含まれる前記パターン映像に基づいて、前記第２のカメラの撮影映像から前記被写体の領域を分離する
　処理を実行させるためのプログラムを記録した記録媒体。