WO2023047645A1

WO2023047645A1 - 情報処理装置、映像処理方法、プログラム

Info

Publication number: WO2023047645A1
Application number: PCT/JP2022/011245
Authority: WO
Inventors: 尚子菅野
Original assignee: ソニーグループ株式会社
Priority date: 2021-09-21
Filing date: 2022-03-14
Publication date: 2023-03-30

Abstract

情報処理装置は、表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う映像処理部を備えるようにする。

Description

情報処理装置、映像処理方法、プログラム

　本技術は、情報処理装置、映像処理方法、プログラムとして実現される映像処理技術に関する。

　映画等の映像コンテンツの制作のための撮影手法として、いわゆるグリーンバックにより演者が演技を行い、後に背景映像を合成する技術が知られている。
　また近年はグリーンバック撮影に代わって、大型の表示装置を設置したスタジオにおいて、表示装置に背景映像を表示させ、その前で演者が演技を行うことで、演者と背景を撮影できる撮影システムも開発され、いわゆるバーチャルプロダクション（Virtual Production）、インカメラＶＦＸ（In-Camera VFX）、またはＬＥＤウォールバーチャルプロダクション（LED Wall Virtual Production）として知られている
　下記特許文献１には、背景映像の前で演技する演者を撮影するシステムの技術が開示されている。
　また下記特許文献２には実際の被写体映像とＣＧ映像を合成する技術が開示されている。

米国特許出願公開第２０２０／０１４５６４４号明細書特開２００８－２８８９２２号公報

　大型の表示装置に背景映像を表示させたうえで、演者及び背景映像をカメラで撮影することによれば、別途合成する背景映像を用意しなくてもよいことや、演者やスタッフがシーンを視覚的に理解して演技や演技良否の判断をおこなうことができるなど、グリーンバック撮影に比べて利点が多い。
　このような撮影システムでは、表示させている背景映像と、実在する人や物などのオブジェクトが撮影映像に同時に含まれることになるが、その際に、撮影した映像が不自然になることがないようにしたいなど特有の要請がある。

　そこで本開示では表示装置に表示された映像とオブジェクトを同時に撮影する場合に、カメラや表示映像に関する制御が適切に実行できるようにする技術を提案する。

　本技術に係る情報処理装置は、表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う映像処理部を備える。
　例えば撮影のときに背景映像などを表示装置に表示させ、その表示映像とともに人や物といった実在するオブジェクトを撮影した場合、撮影映像には、表示装置の表示映像とオブジェクトが映り込む。この撮影映像において、表示映像とオブジェクト映像とを、マスク情報を用いて判別する。

本技術の実施の形態の撮影システムの説明図である。実施の形態の撮影システムのカメラ位置に応じた背景映像の説明図である。実施の形態の撮影システムのカメラ位置に応じた背景映像の説明図である。実施の形態の映像コンテンツ制作工程の説明図である。実施の形態の撮影システムのブロック図である。実施の形態の撮影システムの背景映像生成のフローチャートである。実施の形態の複数カメラを用いた撮影システムのブロック図である。実施の形態の情報処理装置のブロック図である。表示映像とオブジェクト映像を含む撮影映像の説明図である。撮影映像内での顔認識枠の表示の説明図である。実施の形態のマスクの説明図である。ＳＷＩＲカメラの説明図である。実施の形態のカメラの説明図である。実施の形態のカメラの他の例の説明図である。実施の形態の映像処理のフローチャートである。実施の形態の被写体判定処理のフローチャートである。実施の形態の被写体判定処理のフローチャートである。第１の実施の形態の表示制御処理のフローチャートである。第１の実施の形態の表示制御処理のフローチャートである。第１の実施の形態の顔認識枠表示例の説明図である。第１の実施の形態の顔認識枠表示例の説明図である。第１の実施の形態のエリア表示例の説明図である。第２の実施の形態のフォーカス制御処理のフローチャートである。第２の実施の形態のフォーカス制御処理のフローチャートである。第２の実施の形態のフォーカス制御の説明図である。第２の実施の形態の露光制御処理のフローチャートである。第２の実施の形態の露光制御処理及び輝度制御処理のフローチャートである。実施の形態の背景映像の表示パネルの構成例の説明図である。

　以下、実施の形態を次の順序で説明する。
＜１．撮影システム及びコンテンツ制作＞
＜２．情報処理装置の構成＞
＜３．バーチャルプロダクションに適用できる制御処理＞
＜４．第１の実施の形態＞
＜５．第２の実施の形態＞
＜６．第３の実施の形態＞
＜７．マスク生成のためのカメラの例＞
＜８．背景映像の表示パネルの構成例＞
＜９．まとめ及び変型例＞

　なお、本開示において「映像」或いは「画像」とは静止画、動画のいずれをも含む。また「映像」とはディスプレイに表示されている状態を指すだけでなく、ディスプレイに表示されていない状態の映像データについても「映像」と表記する。

＜１．撮影システム及び映像コンテンツ制作＞
　本開示の技術を適用できる撮影システム及び映像コンテンツの制作について説明する。
　図１は撮影システム５００を模式的に示している。この撮影システム５００はバーチャルプロダクションとしての撮影を行うシステムで、図では撮影スタジオに配置される機材の一部を示している。

　撮影スタジオにおいては演者５１０が演技その他のパフォーマンスを行うパフォーマンスエリア５０１が設けられる。このパフォーマンスエリア５０１の少なくとも背面、さらには左右側面や上面には、大型の表示装置が配置される。表示装置のデバイス種別は限定されないが、図では大型の表示装置の一例としてＬＥＤウォール５０５を用いる例を示している。

　１つのＬＥＤウォール５０５は、複数のＬＥＤパネル５０６を縦横に連結して配置することで、大型のパネルを形成する。ここでいうＬＥＤウォール５０５のサイズは特に限定されないが、演者５１０の撮影を行うときに背景を表示するサイズとして必要な大きさ、或いは十分な大きさであればよい。

　パフォーマンスエリア５０１の上方、或いは側方などの必要な位置に、必要な数のライト５８０が配置され、パフォーマンスエリア５０１に対して照明を行う。

　パフォーマンスエリア５０１の付近には、例えば映画その他の映像コンテンツの撮影のためのカメラ５０２が配置される。カメラ５０２は、カメラマン５１２が位置を移動させることができ、また撮影方向や、画角等の操作を行うことができる。もちろんリモート操作によってカメラ５０２の移動や画角操作等が行われるものも考えられる。またカメラ５０２が自動的もしくは自律的に移動や画角変更を行うものであってもよい。このためにカメラ５０２が雲台や移動体に搭載される場合もある。

　カメラ５０２によっては、パフォーマンスエリア５０１における演者５１０と、ＬＥＤウォール５０５に表示されている映像がまとめて撮影される。例えばＬＥＤウォール５０５に背景映像ｖＢとして風景が表示されることで、演者５１０が実際にその風景の場所に居て演技をしている場合と同様の映像を撮影できることになる。

　パフォーマンスエリア５０１の付近にはアウトプットモニタ５０３が配置される。このアウトプットモニタ５０３にはカメラ５０２で撮影されている映像がモニタ映像ｖＭとしてリアルタイム表示される。これにより映像コンテンツの制作を行う監督やスタッフが、撮影されている映像を確認することができる。

　このように、撮影スタジオにおいてＬＥＤウォール５０５を背景にした演者５１０のパフォーマンスを撮影する撮影システム５００では、グリーンバック撮影に比較して各種の利点がある。

　例えば、グリーンバック撮影の場合、演者が背景やシーンの状況を想像しにくく、それが演技に影響するということがある。これに対して背景映像ｖＢを表示させることで、演者５１０が演技しやすくなり、演技の質が向上する。また監督その他のスタッフにとっても、演者５１０の演技が、背景やシーンの状況とマッチしているか否かを判断しやすい。

　またグリーンバック撮影の場合よりも撮影後のポストプロダクションが効率化される。これは、いわゆるクロマキー合成が不要とすることができる場合や、色の補正や映り込みの合成が不要とすることができる場合があるためである。また、撮影時にクロマキー合成が必要とされた場合においても、背景用スクリーンを追加不要とされることも効率化の一助となっている。

　グリーンバック撮影の場合、演者の身体、衣装、物にグリーンの色合いが増してしまうため、その修正が必要となる。またグリーンバック撮影の場合、ガラス、鏡、スノードームなどの周囲の光景が映り込む物が存在する場合、その映り込みの画像を生成し、合成する必要があるが、これは手間のかかる作業となっている。

　これに対し、図１の撮影システム５００で撮影する場合、グリーンの色合いが増すことはないため、その補正は不要である。また背景映像ｖＢを表示させることで、ガラス等の実際の物品への映り込みも自然に得られて撮影されているため、映り込み映像の合成も不要である。

　ここで、背景映像ｖＢについて図２、図３で説明する。背景映像ｖＢを、ＬＥＤウォール５０５に表示させて、演者５１０とともに撮影を行うにしても、単純に背景映像ｖＢを表示させるのみでは、撮影された映像は背景が不自然になる。実際には立体で奥行きもある背景を平面的に背景映像ｖＢとしているためである。

　例えばカメラ５０２は、パフォーマンスエリア５０１の演者５１０に対して、多様な方向から撮影することができ、またズーム操作も行うことができる。演者５１０も一カ所に立ち止まっているわけではない。するとカメラ５０２の位置、撮影方向、画角などに応じて、演者５１０の背景の実際の見え方は変化するはずであるが、平面映像としての背景映像ｖＢではそのような変化が得られない。そこで背景が、視差を含めて、実際の見え方と同様になるように背景映像ｖＢを変化させる。

　図２はカメラ５０２が図の左側の位置から演者５１０を撮影している様子を示し、また図３はカメラ５０２が図の右側の位置から演者５１０を撮影している様子を示している。各図において、背景映像ｖＢ内に撮影領域映像ｖＢＣを示している。
　なお背景映像ｖＢのうちで撮影領域映像ｖＢＣを除いた部分は「アウターフラスタム」と呼ばれ、撮影領域映像ｖＢＣは「インナーフラスタム」と呼ばれる。
　ここで説明している背景映像ｖＢとは、撮影領域映像ｖＢＣ（インナーフラスタム）を含んで背景として表示される映像全体を指す。

　この撮影領域映像ｖＢＣ（インナーフラスタム）の範囲は、ＬＥＤウォール５０５の表示面内で、カメラ５０２によって実際に撮影される範囲に相当する。そして撮影領域映像ｖＢＣは、カメラ５０２の位置、撮影方向、画角等に応じて、実際にそのカメラ５０２の位置を視点としたときに見える光景を表現するように変形されたような映像となっている。

　具体的には、撮影領域映像ｖＢＣは、背景としての３Ｄ（three dimensions）モデルである３Ｄ背景データを用意し、その３Ｄ背景データに対して、リアルタイムで逐次、カメラ５０２の視点位置に基づいてレンダリングする。
　なお、実際には撮影領域映像ｖＢＣの範囲は、その時点でカメラ５０２によって撮影される範囲よりも少し広い範囲とされる。これはカメラ５０２のパン、チルトやズームなどにより撮影される範囲が若干変化したときに、描画遅延によってアウターフラスタムの映像が映り込んでしまうことを防止するためや、アウターフラスタムの映像からの回折光による影響を避けるためである。
　このようにリアルタイムでレンダリングされた撮影領域映像ｖＢＣの映像は、アウターフラスタムの映像と合成される。背景映像ｖＢで用いられるアウターフラスタムの映像は、予め３Ｄ背景データに基づいてレンダリングしたものであるが、そのアウターフラスタムの映像の一部に、リアルタイムでレンダリングした撮影領域映像ｖＢＣとして映像を組み込むことで、全体の背景映像ｖＢを生成している。

　これにより、カメラ５０２を前後左右に移動させたり、ズーム操作を行ったりしても、演者５１０とともに撮影される範囲の背景は、実際のカメラ５０２の移動に伴う視点位置変化に応じた映像として撮影されることになる。

　図２、図３に示すように、アウトプットモニタ５０３には、演者５１０と背景を含むモニタ映像ｖＭが表示されるが、これが撮影された映像である。このモニタ映像ｖＭにおける背景は、撮影領域映像ｖＢＣである。つまり撮影された映像に含まれる背景は、リアルタイムレンダリングされた映像となる。

　このように実施の形態の撮影システム５００においては、単に背景映像ｖＢを平面的に表示させるだけではなく、実際にロケを行った場合と同様の映像を撮影することができるように、撮影領域映像ｖＢＣを含む背景映像ｖＢをリアルタイムに変化させるようにしている。

　なお、ＬＥＤウォール５０５に表示させた背景映像ｖＢの全体ではなく、カメラ５０２によって映り込む範囲としての撮影領域映像ｖＢＣのみをリアルタイムにレンダリングすることで、システムの処理負担も軽減される。

　ここで、撮影システム５００で撮影を行うバーチャルプロダクションとしての映像コンテンツの制作工程を説明しておく。図４に示すように、映像コンテンツ制作工程は３つの段階に大別される。アセットクリエイションＳＴ１、プロダクションＳＴ２、ポストプロダクションＳＴ３である。

　アセットクリエイションＳＴ１は、背景映像ｖＢを表示するための３Ｄ背景データを制作する工程である。上述のように背景映像ｖＢは、撮影の際に３Ｄ背景データを用いてリアルタイムでレンダリングを行って生成する。そのために予め３Ｄモデルとしての３Ｄ背景データを制作しておく。

　３Ｄ背景データの制作手法の例として、フルＣＧ（Full Computer Graphics）、点群データ（Point Cloud）スキャン、フォトグラメトリ（Photogrammetry）という例がある。

　フルＣＧは、３Ｄモデルをコンピュータグラフィックスで制作する手法である。３つの手法の中で最も工数や時間を要する手法となるが、非現実的な映像や、実際には撮影が困難な映像などを背景映像ｖＢとしたい場合に用いられることが好適となる。

　点群データスキャンは、ある位置から例えばライダー（LiDAR）を用いて距離測定を行うとともに、同じ位置からカメラで３６０度の画像を撮影し、ライダーで測距した点の上にカメラで撮影した色データを載せることで点群データによる３Ｄモデルを生成する手法である。フルＣＧに比較して、短い時間で３Ｄモデル制作ができる。またフォトグラメトリより高精細の３Ｄモデルを制作しやすい。

　フォトグラメトリは、物体を複数視点から撮影して得た２次元画像から、視差情報を解析して寸法・形状を求める写真測量の技術である。３Ｄモデル制作を短時間で行うことができる。
　なお、フォトグラメトリによる３Ｄデータ生成において、ライダーで取得した点群情報を用いても良い。

　アセットクリエイションＳＴ１では、例えばこれらの手法を用いて３Ｄ背景データとなる３Ｄモデルを制作する。もちろん上記手法を複合的に用いてもよい。例えば点群データスキャンやフォトグラメトリで制作した３Ｄモデルの一部をＣＧで制作し、合成するなどである。

　プロダクションＳＴ２は、図１に示したような撮影スタジオにおいて撮影を行う工程である。この場合の要素技術として、リアルタイムレンダリング、背景表示、カメラトラッキング、照明コントロールなどがある。

　リアルタイムレンダリングは、図２、図３で説明したように各時点（背景映像ｖＢの各フレーム）で撮影領域映像ｖＢＣを得るためのレンダリング処理である。これはアセットクリエイションＳＴ１で制作した３Ｄ背景データに対して、各時点のカメラ５０２の位置等に応じた視点でレンダリングを行うものである。

　このようにリアルタイムレンダリングを行って撮影領域映像ｖＢＣを含む各フレームの背景映像ｖＢを生成し、ＬＥＤウォール５０５に表示させる。

　カメラトラッキングは、カメラ５０２による撮影情報を得るために行われ、カメラ５０２の各時点の位置情報、撮影方向、画角などをトラッキングする。これらを含む撮影情報を各フレームに対応させてレンダリングエンジンに提供することで、カメラ５０２の視点位置等に応じたリアルタイムレンダリングが実行できる。

　撮影情報はメタデータとして映像と紐づけられたり対応づけられたりする情報である。
　撮影情報としては各フレームタイミングでのカメラ５０２の位置情報、カメラの向き、画角、焦点距離、Ｆ値（絞り値）、シャッタースピード、レンズ情報などを含むことが想定される。

　照明コントロールとは、撮影システム５００における照明の状態をコントロールすることで、具体的にはライト５８０の光量、発光色、照明方向などの制御を行う。例えば撮影するシーンの時刻設定や場所の設定などに応じた照明コントロールが行われる。

　ポストプロダクションＳＴ３は、撮影後に行われる各種処理を示している。例えば映像の補正、映像の調整、クリップ編集、映像エフェクトなどが行われる。

　映像の補正としては、色域変換や、カメラや素材間の色合わせなどが行われる場合がある。
　映像の調整として色調整、輝度調整、コントラスト調整などが行われる場合がある。
　クリップ編集として、クリップのカット、順番の調整、時間長の調整などが行われる場合がある。
　映像エフェクトとして、ＣＧ映像や特殊効果映像の合成などが行われる場合がある。

　続いてプロダクションＳＴ２で用いられる撮影システム５００の構成を説明する。
　図５は、図１、図２、図３で概要を説明した撮影システム５００の構成を示すブロック図である。

　図５に示す撮影システム５００は、上述した、複数のＬＥＤパネル５０６によるＬＥＤウォール５０５、カメラ５０２、アウトプットモニタ５０３、ライト５８０を備える。そしてさらに撮影システム５００は、図５に示すように、レンダリングエンジン５２０、アセットサーバ５３０、シンクジェネレータ５４０、オペレーションモニタ５５０、カメラトラッカー５６０、ＬＥＤプロセッサ５７０、ライティングコントローラ５８１、ディスプレイコントローラ５９０を備える。

　ＬＥＤプロセッサ５７０は、各ＬＥＤパネル５０６に対応して設けられ、それぞれ対応するＬＥＤパネル５０６の映像表示駆動を行う。

　シンクジェネレータ５４０は、ＬＥＤパネル５０６による表示映像のフレームタイミングと、カメラ５０２による撮像のフレームタイミングの同期をとるための同期信号を発生し、各ＬＥＤプロセッサ５７０及びカメラ５０２に供給する。但し、シンクジェネレータ５４０からの出力をレンダリングエンジン５２０に供給することを妨げるものではない。

　カメラトラッカー５６０は、各フレームタイミングでのカメラ５０２による撮影情報を生成し、レンダリングエンジン５２０に供給する。例えばカメラトラッカー５６０は撮影情報の１つとして、ＬＥＤウォール５０５の位置或いは所定の基準位置に対する相対的なカメラ５０２の位置情報や、カメラ５０２の撮影方向を検出し、これらをレンダリングエンジン５２０に供給する。
　カメラトラッカー５６０による具体的な検出手法としては、天井にランダムに反射板を配置して、それらに対してカメラ５０２側から照射された赤外光の反射光から位置を検出する方法がある。また検出手法としては、カメラ５０２の雲台やカメラ５０２の本体に搭載されたジャイロ情報や、カメラ５０２の撮影映像の画像認識によりカメラ５０２の自己位置推定する方法もある。

　またカメラ５０２からレンダリングエンジン５２０に対しては、撮影情報として画角、焦点距離、Ｆ値、シャッタースピード、レンズ情報などが供給される場合もある。

　アセットサーバ５３０は、アセットクリエイションＳＴ１で制作された３Ｄモデル、即ち３Ｄ背景データを記録媒体に格納し、必要に応じて３Ｄモデルを読み出すことができるサーバである。即ち３Ｄ背景データのＤＢ（data Base）として機能する。

　レンダリングエンジン５２０は、ＬＥＤウォール５０５に表示させる背景映像ｖＢを生成する処理を行う。このためレンダリングエンジン５２０は、アセットサーバ５３０から必要な３Ｄ背景データを読み出す。そしてレンダリングエンジン５２０は、３Ｄ背景データをあらかじめ指定された空間座標から眺めた形でレンダリングしたものとして背景映像ｖＢで用いるアウターフラスタムの映像を生成する。
　またレンダリングエンジン５２０は、１フレーム毎の処理として、カメラトラッカー５６０やカメラ５０２から供給された撮影情報を用いて３Ｄ背景データに対する視点位置等を特定して撮影領域映像ｖＢＣ（インナーフラスタム）のレンダリングを行う。

　さらにレンダリングエンジン５２０は、予め生成したアウターフラスタムに対し、フレーム毎にレンダリングした撮影領域映像ｖＢＣを合成して１フレームの映像データとしての背景映像ｖＢを生成する。そしてレンダリングエンジン５２０は、生成した１フレームの映像データをディスプレイコントローラ５９０に送信する。

　ディスプレイコントローラ５９０は、１フレームの映像データを、各ＬＥＤパネル５０６で表示させる映像部分に分割した分割映像信号ｎＤを生成し、各ＬＥＤパネル５０６に対して分割映像信号ｎＤの伝送を行う。このときディスプレイコントローラ５９０は、表示部間の発色などの個体差／製造誤差などに応じたキャリブレーションを行っても良い。
　なお、ディスプレイコントローラ５９０を設けず、これらの処理をレンダリングエンジン５２０が行うようにしてもよい。つまりレンダリングエンジン５２０が分割映像信号ｎＤを生成し、キャリブレーションを行い、各ＬＥＤパネル５０６に対して分割映像信号ｎＤの伝送を行うようにしてもよい。

　各ＬＥＤプロセッサ５７０が、それぞれ受信した分割映像信号ｎＤに基づいてＬＥＤパネル５０６を駆動することで、ＬＥＤウォール５０５において全体の背景映像ｖＢが表示される。その背景映像ｖＢには、その時点のカメラ５０２の位置等に応じてレンダリングされた撮影領域映像ｖＢＣが含まれている。

　カメラ５０２は、このようにＬＥＤウォール５０５に表示された背景映像ｖＢを含めて演者５１０のパフォーマンスを撮影することができる。カメラ５０２の撮影によって得られた映像は、カメラ５０２の内部又は図示しない外部の記録装置において記録媒体に記録されるほか、リアルタイムでアウトプットモニタ５０３に供給され、モニタ映像ｖＭとして表示される。

　オペレーションモニタ５５０では、レンダリングエンジン５２０の制御のためのオペレーション画像ｖＯＰが表示される。エンジニア５１１はオペレーション画像ｖＯＰを見ながら背景映像ｖＢのレンダリングに関する必要な設定や操作を行うことができる。

　ライティングコントローラ５８１は、ライト５８０の発光強度、発光色、照射方向などを制御する。ライティングコントローラ５８１は、例えばレンダリングエンジン５２０とは非同期でライト５８０の制御を行うものとしてもよいし、或いは撮影情報やレンダリング処理と同期して制御を行うようにしてもよい。そのためレンダリングエンジン５２０或いは図示しないマスターコントローラ等からの指示によりライティングコントローラ５８１が発光制御を行うようにしてもよい。

　このような構成の撮影システム５００におけるレンダリングエンジン５２０の処理例を図６に示す。

　レンダリングエンジン５２０は、ステップＳ１０でアセットサーバ５３０から、今回使用する３Ｄ背景データを読み出し、内部のワークエリアに展開する。
　そしてアウターフラスタムとして用いる映像を生成する。

　その後レンダリングエンジン５２０は、ステップＳ２０で、読み出した３Ｄ背景データに基づく背景映像ｖＢの表示終了と判定するまで、ステップＳ３０からステップＳ６０の処理を、背景映像ｖＢのフレームタイミング毎に繰り返す。

　ステップＳ３０でレンダリングエンジン５２０は、カメラトラッカー５６０やカメラ５０２からの撮影情報を取得する。これにより、現フレームで反映させるカメラ５０２の位置や状態を確認する。

　ステップＳ４０でレンダリングエンジン５２０は、撮影情報に基づいてレンダリングを行う。即ち現在のフレームに反映させるカメラ５０２の位置、撮影方向、或いは画角等に基づいて３Ｄ背景データに対する視点位置を特定してレンダリングを行う。このとき、焦点距離、Ｆ値、シャッタースピード、レンズ情報などを反映した映像処理を行うこともできる。このレンダリングによって撮影領域映像ｖＢＣとしての映像データを得ることができる。

　ステップＳ５０でレンダリングエンジン５２０は、全体の背景映像であるアウターフラスタムと、カメラ５０２の視点位置を反映した映像、即ち撮影領域映像ｖＢＣを合成する処理を行う。例えばある特定の基準視点でレンダリングした背景全体の映像に対して、カメラ５０２の視点を反映して生成した映像を合成する処理である。これにより、ＬＥＤウォール５０５で表示される１フレームの背景映像ｖＢ、つまり撮影領域映像ｖＢＣを含む背景映像ｖＢが生成される。

　ステップＳ６０の処理は、レンダリングエンジン５２０又はディスプレイコントローラ５９０で行う。ステップＳ６０でレンダリングエンジン５２０又はディスプレイコントローラ５９０は、１フレームの背景映像ｖＢについて、個別のＬＥＤパネル５０６に表示される映像に分割した分割映像信号ｎＤを生成する。キャリブレーションを行う場合もある。そして各分割映像信号ｎＤを各ＬＥＤプロセッサ５７０に送信する。

　以上の処理により、各フレームタイミングで、カメラ５０２で撮像される撮影領域映像ｖＢＣを含む背景映像ｖＢがＬＥＤウォール５０５に表示されることになる。

　ところで図５では１台のカメラ５０２のみを示したが、複数台のカメラ５０２で撮影を行うこともできる。図７は複数のカメラ５０２ａ，５０２ｂを使用する場合の構成例を示している。カメラ５０２ａ，５０２ｂは、それぞれ独立してパフォーマンスエリア５０１における撮影を行うことができるようにされる。また各カメラ５０２ａ，５０２ｂ及び各ＬＥＤプロセッサ５７０は、シンクジェネレータ５４０により同期が維持される。

　カメラ５０２ａ，５０２ｂに対応して、アウトプットモニタ５０３ａ，５０３ｂが設けられ、それぞれ対応するカメラ５０２ａ，５０２ｂによって撮影された映像を、モニタ映像ｖＭａ，ｖＭｂとして表示するように構成される。

　またカメラ５０２ａ，５０２ｂに対応して、カメラトラッカー５６０ａ，５６０ｂが設けられ、それぞれ対応するカメラ５０２ａ，５０２ｂの位置や撮影方向を検出する。カメラ５０２ａ及びカメラトラッカー５６０ａからの撮影情報や、カメラ５０２ｂ及びカメラトラッカー５６０ｂからの撮影情報は、レンダリングエンジン５２０に送信される。

　レンダリングエンジン５２０は、カメラ５０２ａ側、或いはカメラ５０２ｂ側のいずれか一方の撮影情報を用いて、各フレームの背景映像ｖＢを得るためのレンダリングを行うことができる。

　なお図７では２台のカメラ５０２ａ、５０２ｂを用いる例を示したが、３台以上のカメラ５０２を用いて撮影を行うことも可能である。
　但し、複数のカメラ５０２を用いる場合、それぞれのカメラ５０２に対応する撮影領域映像ｖＢＣが干渉するという事情がある。例えば図７のように２台のカメラ５０２ａ、５０２ｂを用いる例では、カメラ５０２ａに対応する撮影領域映像ｖＢＣを示しているが、カメラ５０２ｂの映像を用いる場合、カメラ５０２ｂに対応する撮影領域映像ｖＢＣも必要になる。単純に各カメラ５０２ａ、５０２ｂに対応するそれぞれの撮影領域映像ｖＢＣを表示させると、それらが互いに干渉する。このため撮影領域映像ｖＢＣの表示に関する工夫が必要とされる。

＜２．情報処理装置の構成＞
　次に、アセットクリエイションＳＴ１、プロダクションＳＴ２、ポストプロダクションＳＴ３で用いることができる情報処理装置７０の構成例を図８で説明する。
　情報処理装置７０は、コンピュータ機器など、情報処理、特に映像処理が可能な機器である。この情報処理装置７０としては、具体的には、パーソナルコンピュータ、ワークステーション、スマートフォンやタブレット等の携帯端末装置、ビデオ編集装置等が想定される。また情報処理装置７０は、クラウドコンピューティングにおけるサーバ装置や演算装置として構成されるコンピュータ装置であってもよい。

　本実施の形態の場合、具体的には情報処理装置７０は、アセットクリエイションＳＴ１において３Ｄモデルを制作する３Ｄモデル制作装置として機能できる。
　また情報処理装置７０は、プロダクションＳＴ２で用いる撮影システム５００を構成するレンダリングエンジン５２０として機能できる。さらに情報処理装置７０はアセットサーバ５３０としても機能できる。
　また情報処理装置７０は、ポストプロダクションＳＴ３における各種映像処理を行う映像編集装置としても機能できる。

　図８に示す情報処理装置７０のＣＰＵ７１は、ＲＯＭ７２や例えばＥＥＰ－ＲＯＭ（Electrically Erasable Programmable Read-Only Memory）などの不揮発性メモリ部７４に記憶されているプログラム、または記憶部７９からＲＡＭ７３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７３にはまた、ＣＰＵ７１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　映像処理部８５は各種の映像処理を行うプロセッサとして構成される。例えば３Ｄモデル生成処理、レンダリング、ＤＢ処理、映像編集処理などのいずれか、或いは複数の処理を行うことができるプロセッサとされる。
　この映像処理部８５は例えば、ＣＰＵ７１とは別体のＣＰＵ、ＧＰＵ（Graphics Processing Unit）、ＧＰＧＰＵ（General-purpose computing on graphics processing units）、ＡＩ（artificial intelligence）プロセッサ等により実現できる。
　なお映像処理部８５はＣＰＵ７１内の機能として設けられてもよい。

　ＣＰＵ７１、ＲＯＭ７２、ＲＡＭ７３、不揮発性メモリ部７４、映像処理部８５は、バス８３を介して相互に接続されている。このバス８３にはまた、入出力インタフェース７５も接続されている。

　入出力インタフェース７５には、操作子や操作デバイスよりなる入力部７６が接続される。例えば入力部７６としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
　入力部７６によりユーザの操作が検知され、入力された操作に応じた信号はＣＰＵ７１によって解釈される。
　入力部７６としてはマイクロフォンも想定される。ユーザの発する音声を操作情報として入力することもできる。

　また入出力インタフェース７５には、ＬＣＤ（Liquid Crystal Display）或いは有機ＥＬ（ electro-luminescence）パネルなどよりなる表示部７７や、スピーカなどよりなる音声出力部７８が一体又は別体として接続される。
　表示部７７は各種表示を行う表示部であり、例えば情報処理装置７０の筐体に設けられるディスプレイデバイスや、情報処理装置７０に接続される別体のディスプレイデバイス等により構成される。
　表示部７７は、ＣＰＵ７１の指示に基づいて表示画面上に各種の画像、操作メニュー、アイコン、メッセージ等、即ちＧＵＩ（Graphical User Interface）としての表示を行う。

　入出力インタフェース７５には、ＨＤＤ（Hard Disk Drive）や固体メモリなどより構成される記憶部７９や通信部８０が接続される場合もある。

　記憶部７９は、各種のデータやプログラムを記憶することができる。記憶部７９においてＤＢを構成することもできる。
　例えば情報処理装置７０がアセットサーバ５３０として機能する場合、記憶部７９を利用して３Ｄ背景データ群を格納するＤＢを構築できる。

　通信部８０は、インターネット等の伝送路を介しての通信処理や、外部のＤＢ、編集装置、情報処理装置等の各種機器との有線／無線通信、バス通信などによる通信を行う。
　例えば情報処理装置７０がレンダリングエンジン５２０として機能する場合、通信部８０によりアセットサーバ５３０としてのＤＢにアクセスしたり、カメラ５０２やカメラトラッカー５６０からの撮影情報を受信したりすることができる。
　またポストプロダクションＳＴ３に用いる情報処理装置７０の場合も、通信部８０によりアセットサーバ５３０としてのＤＢにアクセスすることなども可能である。

　入出力インタフェース７５にはまた、必要に応じてドライブ８１が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体８２が適宜装着される。
　ドライブ８１により、リムーバブル記録媒体８２からは映像データや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータは記憶部７９に記憶されたり、データに含まれる映像や音声が表示部７７や音声出力部７８で出力されたりする。またリムーバブル記録媒体８２から読み出されたコンピュータプログラム等は必要に応じて記憶部７９にインストールされる。

　この情報処理装置７０では、例えば本実施の形態の処理のためのソフトウェアを、通信部８０によるネットワーク通信やリムーバブル記録媒体８２を介してインストールすることができる。或いは当該ソフトウェアは予めＲＯＭ７２や記憶部７９等に記憶されていてもよい。

＜３．バーチャルプロダクションに適用できる制御処理＞
　バーチャルプロダクションに適用できる本実施の形態の情報処理装置７０の制御処理について説明する。
　上述のバーチャルプロダクションによる撮影システム５００によりカメラ５０２で撮影された映像を「撮影映像ｖＣ」と表記する。通常、撮影映像ｖＣの映像に含まれる被写体の範囲はモニタ映像ｖＭと同様である。そして撮影映像ｖＣは、カメラ５０２により演者５１０等のオブジェクトとＬＥＤウォール５０５の背景映像ｖＢを撮影したものである。

　実施の形態の処理では、撮影映像ｖＣについて、マスク情報（後述の図１０のマスクＭＫ）を用いて背景エリアＡＲｂと前景エリアＡＲｆを分離することができる。

　背景エリアＡＲｂとは、撮影映像ｖＣ内で、背景映像ｖＢが映っている映像内領域のことである。上述の説明から理解されるように、実際には背景映像ｖＢのうちの撮影領域映像ｖＢＣが撮影映像ｖＣに映り込んでいる。
　前景エリアＡＲｆとは、撮影映像ｖＣ内で、前景となるオブジェクトが映っている映像内領域のことである。例えば演者５１０としての人物や、物品など、実際に存在する被写体が映されている領域である。

　撮影映像ｖＣに映り込んだ背景映像ｖＢはＬＥＤウォール５０５に表示された映像を撮影したものである。説明上、このように表示装置に表示されて撮影された映像を表示映像ｖＤと呼ぶ。撮影映像ｖＣにおける背景エリアＡＲｂの映像は、この表示映像ｖＤである。
　また撮影映像ｖＣに映り込んだオブジェクトの映像は、演者等の実在するオブジェクトを撮影したものである。説明上、これをオブジェクト映像ｖＯＢと呼ぶ。つまり前景エリアＡＲｆの映像はオブジェクト映像ｖＯＢである。

　上述のように実施の形態では、撮影映像ｖＣについて、マスクＭＫを用いて背景エリアＡＲｂと前景エリアＡＲｆを分離することができるが、これは、各被写体映像について、それらが表示映像ｖＤであるか、オブジェクト映像ｖＯＢであるかを判定できるということを意味する。或いは、撮影映像ｖＣの一画面内（１フレーム内）で、表示映像ｖＤのエリアと、オブジェクト映像ｖＯＢのエリアを判定できるということでもある。
　本実施の形態では、このような判定に基づいてカメラ５０２や背景映像ｖＢの生成に関する制御を行うようにするものである。

　まず、このような制御を行う背景について述べる。
　背景映像ｖＢとしては単に自然や建造物等による風景だけでなく人や物品が表示されることもある。例えばボリュームメトリック撮影技術として、実在の人物や場所を３次元デジタルデータに変換し、それを高画質に再現する技術もある。これにより例えば人物を三次元撮影してＣＧ映像として扱うことができる。これをバーチャルプロダクションにおける背景映像ｖＢの生成に利用すれば、人物が背景映像ｖＢに含まれることもある。

　このように背景映像ｖＢに人物が含まれる場合を考える。
　演者５１０としての実在する被写体と、ＬＥＤウォール５０５に表示された人物が同時に撮影される場合を想定し、カメラ５０２や情報処理装置７０が画像解析により被写体認識処理を行うとする。この場合、カメラ５０２等は、どちらが実在の演者５１０の映像であるかを判定できない。

　例えば図９に撮影映像ｖＣとして、実在の演者５１０の映像としてのオブジェクト映像ｖＯＢと、表示映像ｖＤとしての人物の映像が含まれていたとする。
　画像解析によってカメラ５０２が顔認識を行ったとすると、オブジェクト映像ｖＯＢとしての顔画像６０と、表示映像ｖＤとしての顔画像６１のいずれについても、顔画像と判定してしまう。

　このため、仮にカメラ５０２が、被写体として顔を認識した場合に顔認識枠６２をモニタ表示させるとすると、図１０のカメラモニタ映像ｖＣＭのように顔画像６０、６１の両方に顔認識枠６２を表示させてしまう。
　なお、図１０のカメラモニタ映像ｖＣＭとは、カメラ５０２が撮影中の被写体をビューファインダやその他のモニタ装置に表示させる映像としている。上述のモニタ映像ｖＭと考えてもよい。
　カメラマンやオペレータ等は、カメラモニタ映像ｖＣＭを見ることで、例えばカメラ５０２の被写体認識結果を知ることができるが、この場合、カメラモニタ映像ｖＣＭのみでは、いずれが実在の人物かがわからない。

　またカメラ５０２のオートフォーカス（以下「ＡＦ」）動作では、認識した被写体を合焦ターゲットとしてフォーカス動作を行う場合がある。図１０のように顔認識枠６２が表示されている場合、カメラ５０２はどちらも人物の顔と判定しているため、顔画像６０、６１の両方にフォーカス制御を行おうとする。このため、バーチャルプロダクション撮影時に、実在する被写体にフォーカスがかけられているのか、ＬＥＤウォール５０５に表示されている被写体（バーチャルな人物や物品等）にフォーカスがかけられているのか、カメラマン等が判断する必要がある。

　換言すれば、実在の演者５１０等を認識させたいとしても、カメラ５０２は、実在の人物かバーチャルな人物かが撮影映像ｖＣ上で区別できないため、表示動作やＡＦ動作が最適な状態とはなりにくいという事情がある。

　このような事情に鑑みて本実施の形態では、撮影映像ｖＣについて、マスクＭＫを用いて、背景エリアＡＲｂ（表示映像ｖＤ）と前景エリアＡＲｆ（オブジェクト映像ｖＯＢ）を明確に判定するようにする。そして判定結果に応じてカメラ５０２や背景映像ｖＢの生成に関する制御を行う。

　例えば図９のような撮影映像ｖＣの１フレームについて、図１１のようなマスクＭＫを生成する。これは撮影映像ｖＣの１フレーム内において、撮影されたオブジェクトの領域とＬＥＤウォール５０５の映像の領域とを分離する情報となる。
　例えばレンダリングエンジン５２０としての情報処理装置７０は、この図９に示すような撮影映像ｖＣのフレームについて、図１１に示すマスクＭＫを適用することで、顔画像６０，６１がオブジェクト映像ｖＯＢであるか表示映像ｖＤであるかを判定し、カメラ５０２に適切な表示やＡＦ動作を実行させたり、背景映像ｖＢの生成制御を行うようにしたりする。
　具体的な処理例は第１，第２，第３の実施の形態として後述する。

　ここでマスクＭＫの生成のための構成例を述べる。
　本実施の形態では、マスクＭＫの生成のために、ＳＷＩＲ（Short Wavelength Infra-Red）カメラ（赤外線短波長カメラ）を用いる。ＳＷＩＲカメラを用いることによって、光源変化の激しいＬＥＤウォール５０５の映像と前景となる被写体の映像の分離ができる。

　図１２Ａに、ＲＧＢカメラ、ＳＷＩＲカメラ、ＩＲカメラ（赤外光カメラ）のそれぞれについて撮影できる波長帯を示している、
　ＲＧＢカメラは例えば３８０ｎｍから７８０ｎｍの波長帯で可視光を撮影するカメラである。通常、撮影映像ｖＣを得るためのカメラ５０２としてはＲＧＢカメラが用いられる。
　ＩＲカメラは８００ｎｍから９００ｎｍの近赤外光を撮影するカメラである。

　ＳＷＩＲカメラとしては例えば次の（ａ）（ｂ）（ｃ）のような種類がある。
（ａ）９００ｎｍから２５００ｎｍの波長帯域を撮影できるカメラ
（ｂ）９００ｎｍから１７００ｎｍの波長帯域を撮影できるカメラ
（ｃ）１１５０ｎｍ付近（前後許容誤差あり）の波長帯域を撮影できるカメラ
　これらは一例であるが、例えばＳＷＩＲカメラは、ＩＲカメラより広い波長帯域をカバーするもので、例えば４００ｎｍから１７００ｎｍなどの波長帯域で撮影を行うことができるカメラが市販されている。図１２Ｂに市販のＳＷＩＲカメラの波長毎の量子効率を示した。図示のとおり、４００ｎｍから１７００ｎｍの範囲で高い量子効率を実現している。すなわち上記（ｂ）や（ｃ）の波長帯域をカバーできているため図１２Ｂのような特性のＳＷＩＲカメラであれば適用可能である。

　撮影システム５００では、例えばライト５８０の一部を用いて、演者５１０等のオブジェクトに対して赤外線を照射し、ＳＷＩＲカメラで撮影する。近赤外線帯では、ＬＥＤウォール５０５の映像は反射せずに黒映像となり、演者５１０等は赤外光を反射してある程度の輝度が観測される。従ってＳＷＩＲカメラの撮影映像においてフレーム内の輝度差分を判定することで、オブジェクトのみを高精度で抽出するマスクＭＫを生成できる。

　なお、ＩＲカメラでも演者５１０等に反射した赤外光を観測できるが、ＩＲカメラの場合、人物の髪の毛をシルエットとして検出することが難しい。一方でＳＷＩＲカメラの場合は、髪の毛も含めて人物の範囲を適切に検出することができる。
　髪の毛は肌に比べて反射しづらいが、髪の毛の領域の検出のためには高い波長帯をカバーできることが有効である。例えば上記（ｃ）のように１１５０ｎｍ付近を撮影できるカメラであれば、人の髪の毛の反射率と肌の反射率が同等となる。
　但し、髪の毛の反射率は男女や人種（黒髪・ブロンド髪等）でも異なるし、毛染めの有り無しでも変わるが、例えば図１２Ｂのような特性のＳＷＩＲカメラであれば、８５０ｎｍから１７００ｎｍの波長帯域を積分して撮影することで、肌と髪の明るさが同等になり、頭部の範囲を明確に判定できるようになる。

　このようなＳＷＩＲカメラを利用するために、例えばカメラ５０２を図１３のように構成する。
　１台のカメラ５０２としてのユニット内に、ＲＧＢカメラ５１とＳＷＩＲカメラ５２を配置する。そしてビームスプリッタ５０により入射光を分離し、それぞれ同一の光軸の状態で入射光がＲＧＢカメラ５１とＳＷＩＲカメラ５２に入射されるようにする。
　ＲＧＢカメラ５１からは撮影映像ｖＣとして用いられる映像Ｐｒｇｂが出力される。ＳＷＩＲカメラ５２からは、マスクＭＫの生成のための映像Ｐｓｗｉｒが出力される。

　このようにカメラ５０２を、ＲＧＢカメラ５１とＳＷＩＲカメラ５２を備えた同軸カメラとして構成することで、ＲＧＢカメラ５１とＳＷＩＲカメラ５２は、視差が発生せず、映像Ｐｒｇｂと映像Ｐｓｗｉｒは、互いに同一のタイミング及び同一の画角、視野範囲の映像となるようにすることができる。

　光軸が一致するように予めカメラ５０２としてのユニット内で機械的な位置調整とともにキャリブレーション用の映像を用いた光軸位置合わせが行われる。例えばキャリブレーション用の映像を撮影し、特徴点を検出して位置合わせを行う処理を事前に行うようにする。
　なお高精細な映像コンテンツ制作のためにＲＧＢカメラ５１は高解像度のカメラを用いる場合でも、ＳＷＩＲカメラ５２も同様に高解像度とする必要はない。ＳＷＩＲカメラ５２は撮影範囲がＲＧＢカメラ５１と一致する映像を抽出できるものであればよい。従ってセンササイズや画サイズはＲＧＢカメラ５１と一致するものに限定されない。

　また撮影時に、ＲＧＢカメラ５１とＳＷＩＲカメラ５２は、フレームタイミングの同期がとられるようにする。
　またＲＧＢカメラ５１のズーム操作に応じて、ＳＷＩＲカメラ５２もズームが行われたり画像の切り出し範囲が調整されたりするようにするとよい。

　なおＳＷＩＲカメラ５２とＲＧＢカメラ５１はステレオ配置でも構わない。被写体が奥行方向に移動しない場合は、視差は問題にならないためである。
　またＳＷＩＲカメラ５２は複数台でも構わない。

　例えば撮影システム５００におけるカメラ５０２として図１３のような構成を用いる場合は、映像Ｐｒｇｂ、映像Ｐｓｗｉｒがレンダリングエンジン５２０に供給される。
　図８の構成のレンダリングエンジン５２０は、映像処理部８５で映像Ｐｓｗｉｒを用いてマスクＭＫの生成を行う。またレンダリングエンジン５２０は、映像Ｐｒｇｂを撮影映像ｖＣとして用いるが、映像処理部８５で、映像Ｐｒｇｂの各フレームについて、マスクＭＫを用いて背景エリアＡＲｂと前景エリアＡＲｆを判定し、必要な制御処理や映像処理を行ったうえで、撮影映像ｖＣを記録媒体に記録させることができる。例えば撮影映像ｖＣを記憶部７９に記憶する。或いはアセットサーバ５３０その他の外部装置に転送して記録させることができる。

　図１４はカメラ５０２としての他の構成例を示している。
　この場合、図１３の構成に加えて、カメラ５０２としてのユニット内にマスク生成部５３を備えるようにしている。マスク生成部５３は、例えば映像処理プロセッサで構成できる。マスク生成部５３はＳＷＩＲカメラ５２からの映像Ｐｓｗｉｒを入力してマスクＭＫの生成を行う。なおマスクＭＫの生成の際に映像Ｐｓｗｉｒからの切り出し範囲を調整する場合は、マスク生成部５３は、ＲＧＢカメラ５１からの映像Ｐｒｇｂも入力して参照することになる。

　このカメラ５０２からは、映像ＰｒｇｂとマスクＭＫがレンダリングエンジン５２０に供給される。その場合レンダリングエンジン５２０は、マスクＭＫを取得して、映像Ｐｒｇｂの各フレームについて、マスクＭＫを用いて背景エリアＡＲｂと前景エリアＡＲｆを分離することができる。

　なお図示していないが、図１３，図１４の構成の場合でも、上述したように撮影情報の一部がカメラ５０２からレンダリングエンジン５２０に供給される。
　例えば撮影情報としての画角、焦点距離、Ｆ値（絞り値）、シャッタースピード、レンズ情報、カメラの向きなどは、ＲＧＢカメラ５１に関する情報として、カメラ５０２からレンダリングエンジン５２０に供給される。またカメラトラッカー５６０で検出されカメラ５０２の位置情報やカメラの向きなども、撮影情報としてレンダリングエンジン５２０に供給される。

＜４．第１の実施の形態＞
　以下、具体的な処理例を説明していく。第１の実施の形態として、撮影時にレンダリングエンジン５２０がカメラ５０２によるカメラモニタ映像ｖＣＭの表示のための制御を行う例を挙げる。以下、カメラ５０２としては図１３の構成を想定する。

　図１５はレンダリングエンジン５２０が撮影映像ｖＣのフレーム毎に行う制御処理を示している。
　上述の図６のようにレンダリングエンジン５２０は、ＬＥＤウォール５０５に表示する背景映像ｖＢの生成のために、フレーム毎に撮影領域映像ｖＢＣのレンダリングを行っている。それと並行してレンダリングエンジン５２０は、カメラ５０２で撮影された撮影映像ｖＣのフレーム毎に図１５の処理を行う。

　ステップＳ１０１でレンダリングエンジン５２０は、映像取得を行う。つまりカメラ５０２から送信されてくる１フレームの撮影映像ｖＣを処理対象とする。
　具体的にはレンダリングエンジン５２０は、カメラ５０２から送信されてくる１フレームの映像Ｐｒｇｂ、映像Ｐｓｗｉｒを処理対象とすることになる。同時にレンダリングエンジン５２０は、当該フレームに対応してカメラ５０２やカメラトラッカー５６０から送信されてくる撮影情報も取得する。

　ステップＳ１０２でレンダリングエンジン５２０は、今回のフレームに適用するマスクＭＫを生成する。即ちレンダリングエンジン５２０は上述のように映像Ｐｓｗｉｒを用いてマスクＭＫの生成を行う。

　ステップＳ１０３でレンダリングエンジン５２０は、ステップＳ１０２で生成したマスクＭＫを用いて、今回取得したフレームの撮影映像ｖＣ、つまり映像Ｐｒｇｂについての背景エリアＡＲｂと前景エリアＡＲｆを特定する。つまり当該フレーム内で、表示映像ｖＤの領域とオブジェクト映像ｖＯＢの領域を特定する。

　ステップＳ１０４でレンダリングエンジン５２０は、被写体判定処理を行う。被写体判定処理として顔認識を行う例を図１６、図１７に示す。

　図１６の例では、レンダリングエンジン５２０は、ステップＳ１２０で、今回のフレーム内での顔認識処理を行う。
　フレーム内で顔を検出しなければステップＳ１２１から被写体判定処理を終える。

　フレーム内で１又は複数の顔が認識された場合は、レンダリングエンジン５２０はステップＳ１２１からステップＳ１２２に進み、マスクＭＫを用いて、認識した各顔について、それが表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかの判定を行う。レンダリングエンジン５２０は、フレーム内で顔と認識した領域の座標と、マスクＭＫで示される背景エリアＡＲｂと前景エリアＡＲｆの座標を比較することで、認識したそれぞれの顔が、表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを判定できる。

　ステップＳ１２３でレンダリングエンジン５２０は、各顔についての判定結果に応じてメタデータを生成する。すなわち、フレーム内の顔の位置情報や、その顔が表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかの情報などをメタデータとする。

　図１７の例は、オブジェクト映像ｖＯＢとしての顔のみ認識する例である。
　図１７のステップＳ１３０でレンダリングエンジン５２０は、マスクＭＫを用いて今回のフレーム内でエリア判定を行う。具体的には前景エリアＡＲｆの範囲を判定する。
　そしてステップＳ１３１でレンダリングエンジン５２０は、前景エリアＡＲｆ内で顔認識処理を行う。
　顔が認識されなければステップＳ１３２から被写体判定処理を終える。

　前景エリアＡＲｆ内で１又は複数の顔が認識された場合は、レンダリングエンジン５２０はステップＳ１３２からステップＳ１３３に進み、各顔についてのメタデータを生成する。この場合は、フレーム内の顔の位置情報や、その顔がオブジェクト映像ｖＯＢであることを示す情報などをメタデータとする。

　例えば以上の図１６，図１７のような処理として、図１５のステップＳ１０４の被写体判定処理を行ったら、レンダリングエンジン５２０は図１５のステップＳ１０５の制御処理を行う。このステップＳ１０５の制御処理は、カメラ５０２に対する制御、又はレンダリングエンジン５２０における背景映像ｖＢの生成処理に関する制御を行うものである。
　この第１の実施の形態では、カメラ５０２の表示やフォーカス動作に関する制御を行う例を挙げる。

　ステップＳ１０５としてレンダリングエンジン５２０は、例えば図１８や図１９の処理を行う。

　図１８の例では、ステップＳ１４０としてレンダリングエンジン５２０は、図１６の被写体判定処理に基づいて、被写体の認識枠の表示制御を行う。具体的には図２０に示すように、顔画像６０，６１について第１認識枠６４、第２認識枠６５の表示制御を行う。

　この例でいう認識枠とは、撮影映像ｖＣ内での顔画像の認識枠である。第１認識枠６４とは、オブジェクト映像ｖＯＢとしての顔の認識枠であり、第２認識枠６５とは、表示映像ｖＤとしての顔認識枠である。図２０では、第１認識枠６４は実線で示し、第２認識枠６５は破線で示しているが、例えばこのように第１認識枠６４と、第２認識枠６５は、線の種類、色、形状などが異なるように表示させる。

　つまり、レンダリングエンジン５２０はステップＳ１４０の制御処理として、被写体判定（顔認識）の結果に応じて、認識した各顔についての位置情報と、表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを示す情報をカメラ５０２に送信して、認識枠表示を指示する。カメラ５０２は、供給された情報に基づいて、第１認識枠６４、第２認識枠６５の両方又は一方を、カメラモニタ映像ｖＣＭに表示させる。これにより図２０のように異なる態様で第１認識枠６４、第２認識枠６５が表示される。
　或いはレンダリングエンジン５２０は、第１認識枠６４、第２認識枠６５としての枠の表示態様や表示位置をカメラ５０２に指示するようにしてもよい。

　第１認識枠６４や第２認識枠６５が、カメラモニタ映像ｖＣＭ上で互いに異なる態様で表示されることで、カメラマンやオペレータなどは、各顔画像が、オブジェクト映像ｖＯＢであるのか表示映像ｖＤであるのかを明確に認識しながら、撮影や各種操作を行うことができる。

　なお、第１認識枠６４，第２認識枠６５の表示態様が異なるように制御する以外に、顔画像自体の表示態様を変化させてもよい。例えばオブジェクト映像ｖＯＢの顔は通常のままとし、表示映像ｖＤの顔は、モノクロ化（グレースケール化）、特定色化、低輝度化するなどしてもよい。いずれにしても、顔画像が表示映像ｖＤであるかオブジェクト映像ｖＯＢが区別できるように表示態様が異なるようにすればよい。

　図１９の例は、以上のような第１認識枠６４、第２認識枠６５としての認識枠表示制御に加えてフォーカス動作の制御を行う例である。
　レンダリングエンジン５２０はステップＳ１４０で、上記のように第１認識枠６４、第２認識枠６５の表示制御を行うとともに、ステップＳ１４１で、カメラ５０２に対して、第１認識枠６４の被写体に対してフォーカス動作を行うようにＡＦ動作を指示する制御を行う。或いは、カメラ５０２が、第１認識枠６４としての位置情報を受信することに応じて、その第１認識枠６４の被写体をターゲットとしてＡＦ動作を開始するようにしてもよい。

　このようにすることで、顔画像をターゲットとしてＡＦ動作を行う場合において、撮影映像ｖＣ内に表示映像ｖＤとしての顔とオブジェクト映像ｖＯＢとしての顔が混在していても、正しくオブジェクト映像ｖＯＢの顔に対してＡＦ動作を行うことができるようになる。

　ところで、図１７で説明したように、被写体判定処理として、前景エリアＡＲｆ内でのみ顔認識を行う処理例もある。その場合に、図１８，図１９のように制御処理を適用した場合、図２２のように第１認識枠６４のみが表示され、第２認識枠６５は表示されないようにすることができる。この場合もカメラマンやオペレータは、カメラモニタ映像ｖＣＭにおいて第１認識枠６４の有無により、オブジェクト映像ｖＯＢの顔であるのか表示映像ｖＤの顔であるかが識別できる。

　以上の図２０，図２１の制御は、顔画像を認識した場合の例であるが、もちろん顔画像に限らず、動物、物品等の何らかの被写体を認識する場合に、以上の処理を適用できる。

　また図１５のステップＳ１０５で行うカメラモニタ映像ｖＣＭの表示制御に関しては、図１８，図１９のような認識枠の表示制御に限らず、被写体が表示映像ｖＤであるかオブジェクト映像ｖＯＢかを識別できるような表示制御であればよい。例えばマスクＭＫをカメラ５０２に送信して、マスクＭＫに応じてカメラモニタ映像ｖＣＭの表示が行われるようにしてもよい。
　例えば図２２はマスクＭＫによって前景エリアＡＲｆとされる範囲と、背景エリアＡＲｂとされる範囲で表示態様を異なるようにする例である。例えば前景エリア表示６６を、背景エリア表示６７よりも高輝度表示させて、表示映像ｖＤより目立つようにする。或いはこの前景エリア表示６６はカラー表示で、背景エリア表示６７はモノクロ表示などとしてもよい。すなわちマスクＭＫとしてのエリア区別が認識できるように、前景エリア表示６６と背景エリア表示６７が異なる態様で行われるようにすれば良い。

　図１５のステップＳ１０５として以上の各例のような制御処理を終えたら、レンダリングエンジン５２０はステップＳ１０６で映像記録を行う。
　即ち今回のフレームを、撮影映像ｖＣの１フレームデータとして記録媒体に記録させる。このときに、図１６のステップＳ１２３や図１７のステップＳ１３３で生成したメタデータも、フレームに対応させて記録する。例えばフレーム内の顔の位置情報や、その顔画像が表示映像ｖＤであるかオブジェクト映像ｖＯＢかを示す情報などである。
　また今回のフレームで生成したマスクＭＫも、メタデータとして記録させてもよい。
　さらに、ステップＳ１０５でカメラ５０２に指示した制御パラメータを、メタデータとして記録させても良い。

　これらのメタデータをフレームに対応させて記録することで、後の時点の映像処理の際に、各フレームについての被写体が表示映像ｖＤであるかオブジェクト映像ｖＯＢを判別したり、マスクＭＫで背景エリアＡＲｂと前景エリアＡＲｆを判別したり、その時点のカメラ制御に応じた処理を行ったりすることができる。

＜５．第２の実施の形態＞
　第２の実施の形態としてフォーカス位置のエリア判定に応じて、背景映像ｖＢの生成処理やカメラ５０２のフォーカス動作についての制御処理を行う例を説明する。なお、第２の実施の形態の処理例も図１５で説明することができる。但し、ステップＳ１０５の制御処理としての図２３，図２４のような処理を行う例とする。

　例えばレンダリングエンジン５２０は、図１５のステップＳ１０１からステップＳ１０４までの処理で、上記例のようにフレーム内の顔画像を認識したとする。その後のステップＳ１０５の制御処理では、カメラ５０２のフォーカス位置に応じて背景映像ｖＢの生成処理を制御することとする。

　まず図２３の例を説明する。
　レンダリングエンジン５２０はステップＳ２０１でカメラ５０２の現在のフォーカス位置を取得する。例えばカメラ５０２において例えばマニュアルフォーカス動作が行われている場合の、現在の焦点距離を取得すればよい。

　ステップＳ２０２でレンダリングエンジン５２０は、現在の焦点距離と、ステップＳ１０４の被写体判定により判定された被写体の情報から、フォーカス対象とされている被写体を判定し、マスクＭＫを用いてその被写体のエリア判定を行う。これは合焦している被写体が、実在のオブジェクトであるかＬＥＤウォール５０５の背景映像ｖＢであるかを判定する処理といえる。
　具体的にはレンダリングエンジン５２０は、フレーム内でフォーカス対象の被写体、つまり合焦状態の被写体を判定する。そして、その被写体のフレーム内の位置をマスクＭＫと比較することで、フォーカス対象の被写体が、表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを判定できる。

　なお、レンダリングエンジン５２０は、各フレームの時点のカメラ５０２の位置情報や撮影方向の情報を、上述した撮影情報として、カメラ５０２又はカメラトラッカー５６０から取得している。従って各フレームの時点で、カメラ５０２の位置や撮影方向と、ＬＥＤウォール５０５の位置関係を把握できる。そのため焦点距離を取得することでフォーカスがオブジェクトに合わされているかＬＥＤウォール５０５に合わされているかを判定できる。或いは、フォーカス対象がオブジェクトからＬＥＤウォール５０５に徐々に変化していることや、或いはその逆も判定できる。このような判定を併用してもよい。

　ステップＳ２０３でレンダリングエンジン５２０は、フォーカス対象が背景映像ｖＢ、つまりＬＥＤウォール５０５の表示映像ｖＤであるか否かにより処理を分岐する。
　フォーカス対象が実際のオブジェクトであって背景映像ｖＢではない場合、レンダリングエンジン５２０はステップＳ２０５に進み、背景映像ｖＢのデフォーカス制御を行う。すなわちレンダリングにより生成する背景映像ｖＢ（撮影領域映像ｖＢＣ）について、デフォーカス効果を与えるようにする。この場合のデフォーカス量は固定量でもよいが、その時点の焦点距離から求められるパフォーマンスエリア５０１内の位置（フォーカスされている位置）とＬＥＤウォール５０５の間の距離に応じて決定する可変量としてもよい。

　このような制御により、撮影映像ｖＣは例えば図２５Ａのように背景がぼけ、オブジェクト映像ｖＯＢが際だったような映像となる。

　一方、フォーカス対象が背景映像ｖＢである場合、レンダリングエンジン５２０はステップＳ２０４に進み、背景映像ｖＢのフォーカス制御を行う。すなわち生成する背景映像ｖＢがぼけのない合焦状態の映像となるように制御する。
　このような制御により、撮影映像ｖＣは例えば図２５Ｂのように背景が合焦した映像となる。オブジェクト映像ｖＯＢは、実際にカメラ５０２のフォーカス対象とならないことで、ぼけた映像となる。

　カメラ５０２の焦点距離に応じて、レンダリングエンジン５２０が、このような背景映像ｖＢのフォーカス／デフォーカス制御を行うことで、背景映像ｖＢについても、多様なフォーカス状態を表現できる。
　例えば撮影映像ｖＣ内でオブジェクト映像ｖＯＢとしての顔画像と、表示映像ｖＤとしての顔画像が共に存在する場合において、背景映像ｖＢ内の人物などに合焦させたいような場合や、オブジェクト映像ｖＯＢの人物と表示映像ｖＤの人物を交互に合焦させたいような場合に適した撮影が実現できることになる。

　また、各フレームで、背景映像ｖＢのデフォーカス量を、焦点位置とＬＥＤウォール５０５の距離に応じて可変設定することで、徐々にオブジェクト映像ｖＯＢから表示映像ｖＤにフォーカス対象が遷移していくような映像表現も実現される。

　以上の図２３の処理を、図１５のステップＳ１０５で行った場合には、レンダリングエンジン５２０は、ステップＳ１０６での記録の際に、背景映像ｖＢについてのフォーカス／デフォーカス制御のパラメータをメタデータとし、フレームに関連付けて記録するようにしてもよい。

　次に図２４の例を説明する。
　レンダリングエンジン５２０は、図１５のステップＳ１０５として図２４のステップＳ２０１，Ｓ２０２を上記の図２３と同様に行う。
　そしてステップＳ２１０でレンダリングエンジン５２０は、現在の焦点位置が背景近辺になっているか否かを確認する。ここでいう背景近辺とは、ＬＥＤウォール５０５の表面から所定距離以内などとして定義することができる。或いは、その時点でカメラ５０２から最も遠いオブジェクト映像ｖＯＢのデプス距離＋所定値としてもよい。すなわち焦点位置がオブジェクト映像ｖＯＢよりも奥側のＬＥＤウォール５０５に接近している状態を検知できるようにする。
　或いはマスクＭＫにより、フォーカス対象がフレーム内の表示映像ｖＤの範囲に移行した場合に、焦点位置が背景近辺になったと判定してもよい。

　そして背景近辺と判定した場合は、ステップＳ２０３からステップＳ２１１に進みレンダリングエンジン５２０はカメラ５０２に対してフォーカス制限指示を行う。これは、それ以上の遠方にフォーカスすることを制限する制御である。

　つまり図２４の処理例は、カメラ５０２の焦点位置が、オブジェクトよりもＬＥＤウォール５０５側に移行しようとすると、それを制限するように制御するものである。
　これにより、カメラ５０２のフォーカス制御は、常に実在のオブジェクトを対象として行われるようになり、背景映像ｖＢに合焦されることがないようにすることができる。ＬＥＤウォール５０５の背景映像ｖＢに合焦しないことで、撮影映像ｖＣにおいてモアレを発生させないようにすることができる。
　またこのような制御は、表示映像ｖＤ内で認識した被写体に対してＡＦ動作が行われるようなことを回避したいケースにも有用となる。

　なお図２３，図２４の処理は、図１５のステップＳ１０５の処理としたが、図２３，図２４の処理を先の図１８，図１９の処理と共に行ってもよい。
　また図２３，図２４の処理を行う場合に、図１５のステップＳ１０４の被写体判定処理を行わない処理例も考えられる。

＜６．第３の実施の形態＞
　第３の実施の形態として、撮影時にカメラ５０２の撮影動作に関するパラメータの制御を行う例を挙げる。ここでは露光制御パラメータとして、Ｆ値、シャッタースピード、ＩＳＯゲインを制御する例で説明する。

　第３の実施の形態の処理例も図１５で説明することができ、ステップＳ１０５の制御処理としての図２６，図２７のような処理を行う例とする。
　例えばレンダリングエンジン５２０は、図１５のステップＳ１０１からステップＳ１０４までの処理の後、ステップＳ１０５の制御処理では、撮影映像ｖＣの輝度に応じてカメラ５０２の露光制御パラメータを指示することとする。

　まず図２６の例を説明する。
　レンダリングエンジン５２０はステップＳ３０１で現在のフレームについて、前景エリアＡＲｆの面内輝度を測定する。これはマスクＭＫにより前景エリアＡＲｆとされた範囲の例えば全画素の輝度値の平均値などとする。或いはピーク値、重心値としてもよい。また前景エリアＡＲｆの全画素ではなく、所定以上の輝度値の高輝度となっている画素の平均値などでもよい。

　ステップＳ３０２でレンダリングエンジン５２０は、カメラ５０２に対してＦ値、シャッタースピード、ＩＳＯゲインのいずれかのパラメータ、又はこれらのうちの複数のパラメータの制御を行う。即ちステップＳ３０１で計測した前景エリアＡＲｆの面内輝度に基づいて、前景エリアＡＲｆのオブジェクト映像ｖＯＢの輝度が適切な状態となるようにカメラ５０２の露光制御を行うようにする。

　ステップＳ３０３でレンダリングエンジン５２０は、カメラ５０２に送信した制御パラメータをメタデータとする。

　レンダリングエンジン５２０は、以上の図２６の処理を、図１５のステップＳ１０５で行った後、ステップＳ１０６では撮影映像ｖＣのフレームを記録するとともに、ステップＳ３０２の制御パラメータを含むメタデータを、フレームに関連付けて記録する。これらのメタデータをフレームに対応させて記録することで、後の時点の映像処理の際に、各フレームについての露光パラメータを判定し、それに応じた処理を行うことができる。

　以上の図１５，図２６の処理を行うことで、ＬＥＤウォール５０５の背景映像ｖＢの輝度にかかわらず、オブジェクト映像ｖＯＢの輝度の状態に応じてカメラ５０２の露光量が適切に自動制御されることになる。

　次に図２７の例を説明する。
　レンダリングエンジン５２０はステップＳ３２１で現在のフレームについて、前景エリアＡＲｆの面内輝度と、背景エリアＡＲｂの面内輝度をそれぞれ測定する。
　例えば前景エリアＡＲｆの面内輝度は、上述と同様、マスクＭＫにより前景エリアＡＲｆとされた範囲の全画素（或いは一部の画素）の輝度値の平均値、ピーク値、重心値などである。背景エリアＡＲｂの面内輝度は、マスクＭＫにより背景エリアＡＲｂとされた範囲の全画素或いは一部の画素の輝度値の平均値、ピーク値、重心値などである。

　ステップＳ３２２でレンダリングエンジン５２０は、カメラ５０２に対してＦ値、シャッタースピード、ＩＳＯゲインのいずれか、又は複数のパラメータの制御を行う。
　またステップＳ３２３でレンダリングエンジン５２０は、レンダリングする背景映像ｖＢ（撮影領域映像ｖＢＣ）についての輝度値を制御する。

　このステップＳ３２２，Ｓ３２３の制御は、ステップＳ３２１で計測した前景エリアＡＲｆの面内輝度と背景エリアＡＲｂの面内輝度に応じて、カメラ５０２の露光調整を行うとともに、背景映像ｖＢの輝度を調整するものとなる。

　撮影時にＬＥＤウォール５０５に表示される背景映像ｖＢが明るすぎると、表示映像ｖＤが白飛びしてしまうことがある。また背景映像ｖＢが明るすぎて、それに応じたカメラ５０２の露光調整で、オブジェクト映像ｖＯＢが暗くなりすぎることもある。さらに背景映像ｖＢが暗すぎて、被写体も暗くなってしまい、スタジオの追加ライティングが必須となるような場合もある。
　そこで、撮影映像ｖＣにおけるオブジェクト映像ｖＯＢと表示映像ｖＤが自然な明るさになるように、面内輝度値を計測し、輝度値に応じてカメラ５０２の露光量調整や背景映像ｖＢの輝度調整を行うようにする。

　ステップＳ３２４でレンダリングエンジン５２０は、カメラ５０２に送信した制御パラメータ、及び背景映像ｖＢの制御パラメータをメタデータとする。

　レンダリングエンジン５２０は、以上の図２７の処理を、図１５のステップＳ１０５で行った後、ステップＳ１０６では撮影映像ｖＣのフレームを記録するとともに、ステップＳ３０３の制御パラメータを含むメタデータを、フレームに関連付けて記録する。
　これらのメタデータをフレームに対応させて記録することで、後の時点の映像処理の際に、各フレームについての露光パラメータや背景映像ｖＢの輝度パラメータを判定し、それに応じた処理を行うことができる。

　以上の図１５，図２７の処理を行うことで、撮影される表示映像ｖＤとオブジェクト映像ｖＯＢの輝度が調整され、前景と背景が自然な明るさとなった撮影映像ｖＣを得ることができる。

　図２６，図２７の処理は、図１５のステップＳ１０５の処理としたが、図２３，図２４の処理を先の図１８，図１９の処理や、図２３，図２４の処理と共に行ってもよい。
　また図２６，図２７の処理を行う場合に、図１５のステップＳ１０４の被写体判定処理を行わない処理例も考えられる。
　また図２７においてステップＳ３２２の処理を行わず、ステップＳ３２３の背景映像ｖＢについての制御のみを行う処理例も考えられる。

　なお、カメラ５０２のパラメータとして露光制御パラメータを指示する例を挙げたが、例えば被写体判定処理に応じてシーンに応じた撮影モードをカメラ５０２に指示するようなカメラ制御も可能である。撮影モードとは、例えばポートレートモード、風景モード、夜景モード、夕焼けモード。動体モードなどのことである。例えばマスクＭＫによりオブジェクト映像ｖＯＢか表示映像ｖＤかの判定を行うことができるため、オブジェクト映像の被写体種別に応じて撮影モードを制御したり、表示映像ｖＤ（背景映像ｖＢ）のシーンに応じて撮影モードを制御したりすることができる。

＜７．マスク生成のためのカメラの例＞
　以上の説明では、マスクＭＫの生成のためにＳＷＩＲカメラ５２を用いるものとしたが、実在する被写体の領域の特定するためのマスクＭＫを生成のためにＳＷＩＲカメラ５２以外のものを用いてもよい。

　例えばＫｉｎｅｃｔやＬｉＤＡＲのようなデプスカメラ、ＴｏＦ（Time of Flight）センサを用いて、被写体の奥行を計測し、被写体と背景ＬＥＤの距離差分で分離することで、マスクＭＫを生成することもできる。

　また例えば、サーモグラフィカメラを用いて、人物の体温を利用して被写体を分離してマスクＭＫを生成することもできる。

＜８．背景映像の表示パネルの構成例＞
　図１でＬＥＤウォール５０５の例を説明したが、ここで背景映像ｖＢの表示パネルの他の例を挙げておく。背景映像ｖＢの表示パネルは各種の構成が考えられる。

　図２８Ａはパフォーマンスエリア５０１における床の部分も含めてＬＥＤウォール５０５が設けられている例である。この場合、背面、左側面、右側面、床面にそれぞれＬＥＤウォール５０５が設けられている。

　図２８Ｂは、パフォーマンスエリア５０１をボックス上に囲うように上面、背面、左側面、右側面、床面にそれぞれＬＥＤウォール５０５が設けられている例である。
　図２６Ｃは、円筒内壁状のＬＥＤウォール５０５が設けられている例である。

　ここまで表示装置としてＬＥＤウォール５０５を挙げ、表示される表示映像は、３Ｄ背景データをレンダリングした背景映像である例を挙げた。そしてその場合、撮影映像ｖＣにおいて表示映像エリアの例としての背景エリアＡＲｂと、オブジェクト映像エリアとしての前景エリアＡＲｆの例で、これらを分離して映像処理を行うことができるようにした。
　本開示の技術はこのような背景、前景という関係に限らず適用できる。

　例えば図２８Ｄは、表示装置５１５が他の被写体と並ぶように設けられている例である。例えばテレビジョン放送のスタジオなどで、リモート出演する出演者を表示装置５１５に表示させ実際にスタジオに居る出演者とともに撮影するような場合である。
　この場合、背景、前景という明確な区別はないが、撮影映像には、表示映像とオブジェクト映像が混在することになる。そのような場合も、マスクＭＫを用いて表示映像エリアとオブジェクト映像エリアを分離することができるため、実施の形態の処理を同様に適用できることになる。

　これ以外にも多様な例が考えられるが、撮影した映像内に、表示装置の映像と、実際に存在するオブジェクトの映像が含まれる場合に、それらのエリアを区別して、各種の映像処理を行う場合に本開示の技術を適用できる。

＜９．まとめ及び変形例＞
　以上の実施の形態によれば次のような効果が得られる。
　実施の形態の情報処理装置７０は、表示装置の表示映像（例えば背景映像ｖＢ）とオブジェクトとを撮影した撮影映像ｖＣに対して、マスクＭＫを用いてオブジェクト映像ｖＯＢと表示映像ｖＤとを判定する処理を行う映像処理部８５を備える。具体的には、マスクＭＫを用いて撮影映像ｖＣ内におけるオブジェクト映像エリア（例えば前景エリアＡＲｆ）と表示映像エリア（例えば背景エリアＡＲｂ）を判定し、被写体映像がオブジェクト映像ｖＯＢと表示映像ｖＤのいずれであるかを判定する。
　これにより、表示装置に表示された映像と実在するオブジェクトを同時に撮影する場合において、制御対象の被写体やエリアについて、表示映像ｖＤかオブジェクト映像ｖＯＢかの判定結果に応じた制御ができるようになる。

　第１，第２，第３の実施の形態では、表示装置としてＬＥＤウォール５０５を挙げ、表示される表示映像ｖＤは、３Ｄ背景データをレンダリングした背景映像ｖＢである例を挙げた。また撮影映像ｖＣは、背景映像ｖＢを表示するＬＥＤウォール５０５を背景にしてオブジェクト、例えば演者５１０や物品を撮影した映像であるとした。
　ＬＥＤウォール５０５に表示された背景映像ｖＢを撮影することで、撮影映像ｖＣの各フレームには、背景映像ｖＢが映された背景エリアＡＲｂと、演者５１０や物などのオブジェクトが映された前景エリアＡＲｆが含まれることになる。これら背景エリアＡＲｂと前景エリアＡＲｆは、撮影している対象が、表示された映像と実物という点で異なることで、それぞれに適した制御がある。
　例えばカメラ５０２における顔認識結果の表示、フォーカス制御、露光制御、或いは背景映像ｖＢについての、フォーカス制御、露光制御などを行う場合に、撮影映像ｖＣにおける背景エリアＡＲｂと前景エリアＡＲｆを区別できることで、制御対象のエリアや被写体に適した制御が可能となる。これによりバーチャルプロダクションとして映像制作を行う場合に適切な制御が実現され、バーチャルプロダクションの利点を生かした映像制作を促進できる。

　第１の実施の形態では、映像処理部８５は判定処理として、撮影映像ｖＣ内での被写体判定により認識した被写体が、オブジェクト映像ｖＯＢであるか表示映像ｖＤであるかを判定する処理を行う例を挙げた。
　例えば図１６の例のように、顔画像の認識処理を行った場合に、各顔画像が表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを判定することで、認識した顔画像に適した制御を行うことができる。認識処理は顔画像を対象とするものに限らない。人物の顔、人物の身体、手や足などの身体の一部、動物の顔や身体物体、人工物、自然物など、多様な被写体が想定される。これらの被写体を認識した場合に、それが表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを判定することで、適した制御が可能となる。

　第１の実施の形態では、映像処理部８５は判定処理として、撮影映像ｖＣ内でオブジェクト映像ｖＯＢが映されたオブジェクト映像エリア（前景エリアＡＲｆ）を判定し、オブジェクト映像エリア内で被写体判定を行う例を挙げた。
　例えば図１７の例のように、撮影映像ｖＣ内で、前景エリアＡＲｆを判定して、前景エリアＡＲｆ内で顔画像の認識処理を行う。この処理によりオブジェクト映像ｖＯＢについての顔認識などが可能となる。上述と同様、認識処理は顔画像を対象とするものに限らない。
　また図１７の例とは異なり、撮影映像ｖＣ内で表示映像ｖＤが映された表示映像エリアとしての背景エリアＡＲｂを判定し、背景エリアＡＲｂ内で被写体の認識処理を行うようにしてもよい。これにより表示映像ｖＤについての顔認識などが可能となる。

　第１、第２、第３の実施の形態では、映像処理部８５が、判定処理の結果に基づいて、表示装置の表示映像とオブジェクトとを撮影するカメラ５０２の制御を行う例を挙げた。
　これによりカメラ５０２が、その制御対象の被写体がオブジェクト映像ｖＯＢであるか表示映像ｖＤであるかに応じた動作を行うことができるようになる。

　第１の実施の形態では、映像処理部８５が、判定処理の結果に基づいて、カメラ５０２に対して被写体の表示に関する制御を行う例を挙げた。
　例えば顔画像等の被写体の認識処理を行ってカメラモニタ映像ｖＣＭで認識枠を表示させる際に、各顔画像が表示映像ｖＤであるかオブジェクト映像ｖＯＢであるかを判定することで、認識した顔画像に適した表示制御を行うことができる。例えば認識した顔画像について図２０のように第１認識枠６４と第２認識枠６５を表示させることで、各顔画像６０，６１が、オブジェクト映像ｖＯＢであるか表示映像ｖＤであるかをカメラマンやオペレータ等が容易に認識できるようになる。
　また図２１のように、例えばオブジェクト映像ｖＯＢとしての顔画像６０のみに顔認識枠（第１認識枠６４）を表示させるようにしてもよい。
　さらに他の例として表示映像ｖＤとしての顔画像６１のみに顔認識枠を表示させるようにしてもよい。すなわち表示映像エリア（背景エリアＡＲｂ）内で被写体の認識処理を行うようにし、認識された顔画像に顔認識枠を表示させるような処理である。
　さらに図２２のように、前景エリアＡＲｆと背景エリアＡＲｂが明確にわかるような表示を実行させてもよい。これらの表示制御によっても、カメラマンやオペレータ等が撮影映像ｖＣ内で容易に被写体が表示映像ｖＤ認識できるようになり、カメラ５０２に的確な動作を実行させることができる。

　第１、第２の実施の形態では、映像処理部８５が判定処理の結果に基づいて、カメラ５０２に対してフォーカス動作に関する制御を行う例を挙げた。
　特に第１の実施の形態では、オブジェクトに対してフォーカス動作が行われるように制御を行う例を挙げた。例えば図１９の例のように、カメラ５０２が顔画像に対してＡＦ処理を行う場合に、オブジェクト映像ｖＯＢとしての顔画像に対してＡＦ動作を実行するように指示することができる。これにより、演者５１０等に対して適切なＡＦ制御を行うことができる。
　また第２の実施の形態の図２４の例のように、ＡＦ動作やマニュアルフォーカス操作により、ファーカスポイントがＬＥＤウォール５０５の表示映像ｖＤ側に行く場合に、ＬＥＤウォール５０５への合焦を制限することで、撮影映像ｖＣにモアレが発生しないようにすることもできる。

　第３の実施の形態では、映像処理部８５が判定処理の結果に基づいて、カメラ５０２に対して露光制御を行う例を挙げた。
　これにより撮影映像ｖＣにおけるオブジェクト映像ｖＯＢや表示映像ｖＤの輝度を適切に調整できる。特にＬＥＤウォール５０５の背景映像ｖＢの輝度にかかわらず、オブジェクトに対する露光状態が適切な状態となるようにすることができる。

　第２、第３の実施の形態では、映像処理部８５が判定処理の結果に基づいて、表示装置の表示映像に関する制御を行う例を挙げた。
　図２３や図２７の例のように、ＬＥＤウォール５０５に表示される背景映像ｖＢについて制御することで、表示映像ｖＤとオブジェクト映像ｖＯＢが混在する撮影映像ｖＣの品質を向上させることが可能となる。

　第２の実施の形態では、映像処理部８５が判定処理の結果に基づいて、表示装置の表示映像のフォーカス状態に関する制御を行う例を挙げた。
　例えば図２３の例のように、カメラ５０２によるフォーカス位置に応じて、ＬＥＤウォール５０５に表示させる背景映像ｖＢについて合焦状態を変化させる。これによりカメラ５０２のフォーカス動作と連動して、撮影映像ｖＣ内のオブジェクト映像ｖＯＢと表示映像ｖＤの合焦及びボケの状態が制御される。
　背景映像ｖＢ内の合焦やボケの具体の変化を加える処理は、背景映像ｖＢ（撮影領域映像ｖＢＣ）の全体でなく、撮影領域映像ｖＢＣ内の特定の被写体についてのみ行ってもよい。例えば図２５のような例では、背景映像ｖＢには風景と人が含まれているが、画面内でフォーカス対象とされた部分の映像（例えば人の映像）のみ、合焦させたりデフォーカスさせたりすることもできる。

　第３の実施の形態では、映像処理部８５が判定処理の結果に基づいて、表示装置の表示映像の輝度に関する制御を行う例を挙げた。
　例えば図２７の例のように、背景エリアＡＲｂと前景エリアＡＲｆの面内輝度のバランスに応じて、背景映像ｖＢの輝度を調整する制御を行う。これにより、表示映像ｖＤとオブジェクト映像ｖＯＢが混在する撮影映像ｖＣにおいて、輝度バランスのよい撮影映像ｖＣが得られるようにすることができる。

　第１、第２、第３の実施の形態では、映像処理部８５が判定処理に関して撮影映像ｖＣに関連づけるメタデータを生成する例を挙げた。
　判定処理に関する情報をメタデータとして生成することで、例えば撮影映像ｖＣと関連づけてメタデータを記録したり送信したりすることができる。これにより撮影映像ｖＣに対する後の処理のときに、判定処理に関する情報を参照することができる。

　実施の形態では、メタデータは、撮影映像の被写体についての判定処理の判定結果を含むものとした。例えば図１６、図１７の例では、認識した被写体について、オブジェクト映像ｖＯＢであるのか表示映像ｖＤであるのかの判定結果の情報を含むメタデータを生成するものとした。
　これにより撮影映像ｖＣに対する後の処理のときに、撮影映像ｖＣ内の被写体について、オブジェクト映像ｖＯＢか表示映像ｖＤかを判定して、判定に応じた画像処理を行うことが可能になる。

　実施の形態では、メタデータは、撮影映像の被写体又はエリアについての判定処理の判定結果に基づく制御パラメータを含むものとした。例えば図２６、図２７の例では、判定に基づいて指示したカメラパラメータや、背景映像ｖＢの制御パラメータや、これらによる輝度情報を含むメタデータを生成するものとした。
　これにより撮影映像ｖＣに対する後の処理のときに、撮影映像ｖＣ内の被写体やエリアに応じた制御内容を参照できる。撮影時の制御内容などに応じた編集なども可能となる。

　実施の形態では、メタデータは、マスクＭＫを含むものとした。
　これにより撮影映像ｖＣに対する後の処理のときに、その撮影映像ｖＣのフレーム毎のマスクＭＫを用いることができる。従って、ポストプロダクションＳＴ３の段階で、情報処理装置７０が被写体についてマスクＭＫを用いて表示映像ｖＤとオブジェクト映像ｖＯＢを判定し、判定結果に応じた映像処理を行うということもできる。

　第１，第２，第３の実施の形態では、映像処理部８５は、撮影時に、撮影映像ｖＣのフレーム毎にマスクＭＫを生成して、そのフレームについての判定処理を行うものとした。
　例えばレンダリングエンジン５２０は、カメラ５０２による撮影を行っているときに、ほぼリアルタイムで、撮影映像ｖＣのフレーム毎に、マスクＭＫを用いて背景エリアＡＲｂと前景エリアＡＲｆを判定したり、認識した被写体がオブジェクト映像ｖＯＢか表示映像ｖＤかの判定をしたりする。そして判定に基づいてカメラ５０２や背景映像ｖＢの生成に関する制御を行う。これによりプロダクションＳＴ２の段階で高品質な撮影映像ｖＣを得ることができる。

　なおレンダリングエンジン５２０は、カメラ５０２による撮影を行っているときに、撮影映像ｖＣのフレーム毎に、映像Ｐｓｗｉｒを用いてマスクＭＫを生成することで、フレーム毎に適切に判定処理を行うことが可能になる。
　一方で、図１４のようにカメラ５０２でマスクＭＫを生成する場合は、レンダリングエンジン５２０はカメラ５０２から送信されたマスクＭＫを用いることができる。その場合、図１５のステップＳ１０２でマスクＭＫを生成しなくてもよく、レンダリングエンジン５２０の処理負担が軽減される。

　実施の形態においては、マスクＭＫは、撮影映像と同一の映像を撮影するＳＷＩＲカメラ５２で得られる映像Ｐｓｗｉｒに基づいて生成されるものとした。
　例えば可視光線領域から近赤外線領域（例えば４００ｎｍから１７００ｎｍ）までの広い波長帯域に高感度を有するＳＷＩＲカメラによる映像は、オブジェクト（特に人）と、光源変化の激しい背景映像ｖＢを適切に分離できるものとなる。これによりマスクＭＫを生成することで、背景エリアＡＲｂの表示映像ｖＤと前景エリアＡＲｆのオブジェクト映像ｖＯＢを適切に判別できる。

　実施の形態では、ＳＷＩＲカメラ５２は、表示映像（背景映像ｖＢ）とオブジェクトを撮影した撮影映像ｖＣを得るＲＧＢカメラ５１と、同じ光軸で被写体光が入射される構成とされているものとした（図１３，図１４参照）。
　例えばカメラ５０２は、撮影映像ｖＣを得るＲＧＢカメラ５１と、ＳＷＩＲカメラ５２を、同軸カメラとして配置したものとする。これにより、撮影映像ｖＣと同じ画角の映像をＳＷＩＲカメラ５２でも得ることができる。従ってＳＷＩＲカメラ５２の映像から生成したマスクＭＫは、ＲＧＢカメラ５１による撮影映像ｖＣに合致したものとでき、背景エリアＡＲｂと前景エリアＡＲｆを適切に分離できるものとなる。

　なお本技術の映像処理部の例として図８のレンダリングエンジン５２０における映像処理部８５を挙げたが、例えばレンダリングエンジン５２０以外の情報処理装置において映像処理部が設けられ、実施の形態で説明した処理を行うようにしてもよい。或いはカメラ５０２等が映像処理部を有して、実施の形態で説明した処理を行うようにしてもよい。

　第１，第２，第３の実施の形態の処理例は組み合わせることもできる。つまりレンダリングエンジン５２０や、他の情報処理装置７０において、第１，第２，第３の実施の形態の処理例の全部又は一部を組み合わせて実行することもできる。

　第１，第２，第３の実施の形態の処理例は、クラウドコンピューティングにより実施することもできる。例えばプロダクションＳＴ２においてレンダリングエンジン５２０やアセットサーバ５３０の機能をクラウドサーバとしての情報処理装置７０が実現するようにしてもよい。

　実施の形態のプログラムは、上述の映像処理部８５の処理を、例えばＣＰＵ、ＤＳＰ等のプロセッサ、或いはこれらを含むデバイスに実行させるプログラムである。
　即ち実施の形態のプログラムは、表示装置の表示映像ｖＤ（例えば背景映像ｖＢ）とオブジェクトとを撮影した撮影映像ｖＣ内の表示映像ｖＤとオブジェクト映像ｖＯＢを分離するマスクＭＫを用いて、撮影映像ｖＣ内におけるオブジェクト映像ｖＯＢと表示映像ｖＤに関する判定処理を情報処理装置７０に実行させるプログラムである。
　このようなプログラムにより、上述したプロダクションＳＴ２やポストプロダクションＳＴ３に利用できる情報処理装置７０を、各種のコンピュータ装置により実現できる。

　このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのＨＤＤや、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記録しておくことができる。また、このようなプログラムは、フレキシブルディスク、ＣＤ－ＲＯＭ(Compact Disc Read Only Memory)、ＭＯ(Magneto Optical)ディスク、ＤＶＤ(Digital Versatile Disc)、ブルーレイディスク（Blu-ray Disc（登録商標））、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。

　またこのようなプログラムによれば、実施の形態の情報処理装置７０の広範な提供に適している。例えばパーソナルコンピュータ、通信機器、スマートフォンやタブレット等の携帯端末装置、携帯電話機、ゲーム機器、ビデオ機器、ＰＤＡ（Personal Digital Assistant）等にプログラムをダウンロードすることで、これらの装置を本開示の情報処理装置７０として機能させることができる。

　なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　なお本技術は以下のような構成も採ることができる。
　（１）
　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う映像処理部を備えた
　情報処理装置。
　（２）
　前記表示装置に表示される表示映像は３Ｄ背景データをレンダリングした背景映像であり、
　前記撮影映像は、前記背景映像を表示する表示装置を背景にしてオブジェクトを撮影した映像である
　上記（１）に記載の情報処理装置。
　（３）
　前記映像処理部は前記判定処理として、
　前記撮影映像内での被写体判定により認識した被写体が、オブジェクト映像であるか表示映像であるかを判定する処理を行う
　上記（１）又は（２）に記載の情報処理装置。
　（４）
　前記映像処理部は前記判定処理として、
　前記撮影映像内でオブジェクト映像が映されたオブジェクト映像エリア、又は表示映像が映された表示映像エリアを判定し、前記オブジェクト映像エリア又は前記表示映像エリアのいずれかで被写体判定を行う
　上記（１）から（３）のいずれかに記載の情報処理装置。
　（５）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラの制御を行う
　上記（１）から（４）のいずれかに記載の情報処理装置。
　（６）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対して被写体の表示に関する制御を行う
　上記（１）から（５）のいずれかに記載の情報処理装置。
　（７）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対してフォーカス動作に関する制御を行う
　上記（１）から（６）のいずれかに記載の情報処理装置。
　（８）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対して露光制御を行う
　上記（１）から（７）のいずれかに記載の情報処理装置。
　（９）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像に関する制御を行う
　上記（１）から（８）のいずれかに記載の情報処理装置。
　（１０）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像のフォーカス状態に関する制御を行う
　上記（１）から（９）のいずれかに記載の情報処理装置。
　（１１）
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像の輝度に関する制御を行う
　上記（１）から（１０）のいずれかに記載の情報処理装置。
　（１２）
　前記映像処理部は、
　前記判定処理に関して前記撮影映像に関連づけるメタデータを生成する
　上記（１）から（１１）のいずれかに記載の情報処理装置。
　（１３）
　前記メタデータは、撮影映像の被写体についての前記判定処理の判定結果を含む
　上記（１２）に記載の情報処理装置。
　（１４）
　前記メタデータは、撮影映像の被写体又はエリアについての前記判定処理の判定結果に基づく制御パラメータを含む
　上記（１２）又は（１３）に記載の情報処理装置。
　（１５）
　前記メタデータは、前記マスク情報を含む
　上記（１２）から（１４）のいずれかに記載の情報処理装置。
　（１６）
　前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記マスク情報を生成して、フレームにおける前記判定処理を行う
　上記（１）から（１５）のいずれかに記載の情報処理装置。
　（１７）
　前記マスク情報は、撮影映像と同一の映像を撮影する赤外線短波長カメラで得られる映像に基づいて生成される
　上記（１）から（１６）のいずれかに記載の情報処理装置。
　（１８）
　前記赤外線短波長カメラは、前記表示映像とオブジェクトを撮影した撮影映像を得るカメラと、同じ光軸で被写体光が入射される構成とされている
　上記（１７）に記載の情報処理装置。
　（１９）
　情報処理装置が、
　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う
　映像処理方法。
　（２０）
　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を
　情報処理装置に実行させるプログラム。

７０　情報処理装置、
７１　ＣＰＵ
８５　映像処理部
５００　撮影システム
５０１　パフォーマンスエリア
５０２，５０２ａ，５０２ｂ　カメラ
５０３　アウトプットモニタ
５０５　ＬＥＤウォール
５０６　ＬＥＤパネル
５２０　レンダリングエンジン
５３０　アセットサーバ
５４０　シンクジェネレータ
５５０　オペレーションモニタ
５６０　カメラトラッカー
５７０　ＬＥＤプロセッサ
５８０　ライト
５８１　ライティングコントローラ
５９０　ディスプレイコントローラ
ｖＢ　背景映像
ｖＢＣ　撮影領域映像
ｖＣ　撮影映像
ＭＫ　マスク
ＡＲｂ　背景エリア
ＡＲｆ　前景エリア
ｖＤ　表示映像
ｖＯＢ　オブジェクト映像

Claims

　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う映像処理部を備えた
　情報処理装置。
　前記表示装置に表示される表示映像は３Ｄ背景データをレンダリングした背景映像であり、
　前記撮影映像は、前記背景映像を表示する表示装置を背景にしてオブジェクトを撮影した映像である
　請求項１に記載の情報処理装置。
　前記映像処理部は前記判定処理として、
　前記撮影映像内での被写体判定により認識した被写体が、オブジェクト映像であるか表示映像であるかを判定する処理を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は前記判定処理として、
　前記撮影映像内でオブジェクト映像が映されたオブジェクト映像エリア、又は表示映像が映された表示映像エリアを判定し、前記オブジェクト映像エリア又は前記表示映像エリアのいずれかで被写体判定を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラの制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対して被写体の表示に関する制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対してフォーカス動作に関する制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像とオブジェクトとを撮影するカメラに対して露光制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像に関する制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像のフォーカス状態に関する制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理の結果に基づいて、前記表示装置の表示映像の輝度に関する制御を行う
　請求項１に記載の情報処理装置。
　前記映像処理部は、
　前記判定処理に関して前記撮影映像に関連づけるメタデータを生成する
　請求項１に記載の情報処理装置。
　前記メタデータは、撮影映像の被写体についての前記判定処理の判定結果を含む
　請求項１２に記載の情報処理装置。
　前記メタデータは、撮影映像の被写体又はエリアについての前記判定処理の判定結果に基づく制御パラメータを含む
　請求項１２に記載の情報処理装置。
　前記メタデータは、前記マスク情報を含む
　請求項１２に記載の情報処理装置。
　前記映像処理部は、撮影時に、前記撮影映像のフレーム毎に、前記マスク情報を生成して、フレームにおける前記判定処理を行う
　請求項１に記載の情報処理装置。
　前記マスク情報は、撮影映像と同一の映像を撮影する赤外線短波長カメラで得られる映像に基づいて生成される
　請求項１に記載の情報処理装置。
　前記赤外線短波長カメラは、前記表示映像とオブジェクトを撮影した撮影映像を得るカメラと、同じ光軸で被写体光が入射される構成とされている
　請求項１７に記載の情報処理装置。
　情報処理装置が、
　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を行う
　映像処理方法。
　表示装置の表示映像とオブジェクトとを撮影した撮影映像内の表示映像とオブジェクト映像を分離するマスク情報を用いて、前記撮影映像内におけるオブジェクト映像と表示映像に関する判定処理を
　情報処理装置に実行させるプログラム。