WO2024075525A1

WO2024075525A1 - 情報処理装置およびプログラム

Info

Publication number: WO2024075525A1
Application number: PCT/JP2023/034199
Authority: WO
Inventors: 雄生杉江
Original assignee: ソニーグループ株式会社
Priority date: 2022-10-05
Filing date: 2023-09-21
Publication date: 2024-04-11

Abstract

本技術は、映像制作をより効率的に行うことができるようにする情報処理装置およびプログラムに関する。情報処理装置は、カメラにより撮影された撮影画像と、自己位置推定により得られたカメラのポーズ情報と、ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える。本技術はバーチャルプロダクションとしての撮影を行う撮影システムに適用することができる。

Description

情報処理装置およびプログラム

　本技術は、情報処理装置およびプログラムに関し、特に、映像制作をより効率的に行うことができるようにした情報処理装置およびプログラムに関する。

　近年、映画等の映像コンテンツの制作のための撮影手法として、バーチャルプロダクションや、LED（Light Emitting Diode）ウォールバーチャルプロダクションなどと呼ばれる手法が知られている。バーチャルプロダクションは、インカメラVFX（Visual Effects）とも呼ばれている。

　このような撮影手法では、スタジオに設置された大型のディスプレイに背景映像を表示させ、そのディスプレイの前で演者が演技を行うことで、演者と背景を撮影することができる。したがって、撮影時に演者やスタッフがシーンを視覚的に理解して演技や演技良否の判断を行うことができるだけでなく、撮影後の編集処理も軽減させることができる。

　ところで、上述の撮影手法では、実際の風景を背景に撮影した場合と同等の映像を撮影できるようにするため、自己位置推定によりカメラの位置や撮影方向を推定し、その推定結果に応じて、大型のディスプレイに表示させる背景映像を変化させている。特に、背景映像における、カメラにより撮影される部分を含む領域がカメラの位置等の推定結果に応じて変化し、このような領域はインナーフラスタムと呼ばれている。

　以上のようなカメラの自己位置推定は、グリーンバック撮影や一般的なAR（Augmented Reality）映像コンテンツの撮影などにも用いられている。

　また、自己位置推定に関する技術として、ドローンでの自己位置推定の信頼度を算出し、その信頼度に応じて警告表示や飛行制御を行う技術が提案されている（例えば、特許文献１参照）。さらに、ユーザが頭部にウェアラブル端末を装着してコンテンツを視聴しているときに、そのウェアラブル端末の自己位置推定の信頼度が低下すると、自己位置の補正を行うために、他のユーザのウェアラブル端末に救援信号を送信する技術も提案されている（例えば、特許文献２参照）。

特開２０２２－１２１７３号公報国際公開第２０２１／１７６９４７号

　しかしながら、上述した技術では、映像コンテンツの撮影時やポストプロダクションと呼ばれる撮影後の編集時への適用は考えられていなかった。

　本技術は、このような状況に鑑みてなされたものであり、映像制作をより効率的に行うことができるようにするものである。

　本技術の第１の側面の情報処理装置は、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える。

　本技術の第１の側面のプログラムは、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付けるステップを含む。

　本技術の第１の側面においては、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とが関連付けられる。

　本技術の第２の側面の情報処理装置は、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える。

　本技術の第２の側面のプログラムは、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行うステップを含む。

　本技術の第２の側面においては、予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理が行われる。

撮影システムの構成例を示す図である。カメラ位置に応じた背景映像について説明する図である。カメラ位置に応じた背景映像について説明する図である。映像コンテンツの制作工程について説明する図である。撮影システムにおけるカメラの周辺部分の構成について説明する図である。自己位置推定とポーズ信頼度について説明する図である。撮影処理部の構成例を示す図である。自己位置推定ユニットの他の構成例を示す図である。データ出力処理を説明するフローチャートである。 CG映像の合成について説明する図である。用途に応じたポーズ信頼度の閾値の選択について説明する図である。ポーズ信頼度の活用について説明する図である。ポーズ情報とポーズ信頼度がある場合とない場合の処理を説明する図である。ポーズ情報とポーズ信頼度がない場合のUIと表示画面を示す図である。ポーズ情報とポーズ信頼度がある場合のUIと表示画面を示す図である。ポーズ情報をそのまま用いるか否かの切り替えについて説明する図である。情報処理装置の構成例を示す図である。映像合成処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈撮影システムおよび映像コンテンツ制作について〉
　本技術は、カメラにより撮影された画像と、自己位置推定の結果を示すカメラのポーズ情報と、ポーズ情報の信頼度を示すポーズ信頼度とを関連付けることで、映像制作をより効率的に行うことができるようにするものである。

　なお、ここでいう「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る（リンクさせ得る）ようにすることを意味する。すなわち、撮影された画像、ポーズ情報、およびポーズ信頼度のデータ（ファイル）としての形態は任意である。

　例えば画像と、ポーズ情報と、ポーズ信頼度とが、１つのデータ（ファイル）としてまとめられてもよいし、それぞれ個別のデータ（ファイル）としてもよい。

　例えば画像に関連付けられたポーズ情報とポーズ信頼度は、その画像とは別の伝送路上で伝送されるようにしてもよい。また、例えば画像に関連付けられたポーズ情報やポーズ信頼度は、その画像とは別の記録媒体（または同一の記録媒体の別の記録エリア）に記録されるようにしてもよい。勿論、画像とポーズ情報とポーズ信頼度とをまとめて、１つのストリームデータにしたり、１つのファイルにしたりしてもよい。

　さらに、例えば画像と、ポーズ情報と、ポーズ信頼度とに対して、一意に識別可能な１つの（同一の）IDを付与することにより関連付けられるようにしてもよい。

　その他、この「関連付け」は、データ全体でなく、データ（ファイル）の一部であってもよい。例えば、画像が複数フレームからなる動画像である場合、ポーズ情報やポーズ信頼度が、画像の複数フレームや１フレームなどといった任意の単位に対して関連付けられるようにしてもよい。

　また、本開示において「映像」または「画像」とは静止画、動画のいずれをも含むこととする。さらに「映像」とはディスプレイに表示されている状態を指すだけでなく、ディスプレイに表示されていない状態の映像データについても包括的に「映像」と表記する場合がある。例えば実施の形態において、ディスプレイでの表示に至る前における背景映像や、カメラによる撮影映像は、実際に表示されている映像ではなく映像データであるが、便宜上「背景映像」、「撮影映像」等と表記する。

　それでは、以下、本技術のより具体的な実施の形態について説明する。

　特に、以下では本技術をバーチャルプロダクションとしての撮影を行う撮影システムに適用した場合を例として説明を行う。

　図１は撮影システム１１を模式的に示す図である。この撮影システム１１はバーチャルプロダクションとしての撮影を行うシステムであり、図１では撮影スタジオに配置される機材の一部が示されている。

　撮影スタジオには、演者２１が演技やその他のパフォーマンスを行うパフォーマンスエリア２２が設けられている。このパフォーマンスエリア２２の少なくとも背面、さらには左右側面や上面には、大型の表示装置が配置される。

　表示装置のデバイス種別は限定されないが、図１では大型の表示装置の一例としてLEDウォール２３を用いる例が示されている。

　１つのLEDウォール２３は、複数のLEDパネル２４を縦横に連結して配置することにより形成されている。このように複数のLEDパネル２４を並べて連結することにより、LEDウォール２３として大型のパネルを形成することができる。

　なお、LEDウォール２３のサイズは特に限定されないが、演者２１の撮影を行うときに背景を表示するサイズとして必要な大きさ、または十分な大きさであればよい。

　撮影スタジオにおけるパフォーマンスエリア２２の上方や側方などの必要な位置には、必要な数だけライト２５が配置され、それらのライト２５によってパフォーマンスエリア２２に対する照明が行われる。

　パフォーマンスエリア２２の付近には、例えば映画やその他の映像コンテンツの撮影のためのカメラ２６が配置される。

　カメラマン２７はカメラ２６の位置を移動させることができ、またカメラ２６の撮影方向や、画角等の操作を行うこともできる。

　勿論、リモート操作によってカメラ２６の移動や画角操作等が行われることも考えられる。また、カメラ２６が自動的もしくは自律的に移動や画角変更を行ってもよい。そのためにカメラ２６が雲台や移動体に搭載される場合もある。

　カメラ２６によって、パフォーマンスエリア２２における演者２１と、LEDウォール２３に表示されている映像がまとめて（同時に）撮影される。

　例えばLEDウォール２３に背景映像vBとして風景が表示されることで、演者２１が実際にその風景の場所に居て演技をしている場合と同様の映像を撮影できることになる。

　パフォーマンスエリア２２の付近にはアウトプットモニタ２８が配置されている。このアウトプットモニタ２８には、例えばカメラ２６で撮影されている映像がモニタ映像vMとしてリアルタイム表示される。これにより映像コンテンツの制作を行う監督やスタッフは、カメラ２６により撮影されている映像を確認することができる。

　以上のように、撮影スタジオにおいてLEDウォール２３を背景にした演者２１のパフォーマンスを撮影する撮影システム１１では、グリーンバック撮影と比較して各種の利点がある。

　例えば、グリーンバック撮影の場合、演者が背景やシーンの状況を想像しにくく、そのことが演技に影響するということがある。これに対して背景映像vBを表示させることで、演者２１が演技しやすくなり、演技の質が向上する。また監督やその他のスタッフにとっても、演者２１の演技が背景やシーンの状況とマッチしているか否かを判断しやすい。

　さらに、撮影システム１１での撮影を行う場合、グリーンバック撮影の場合よりも撮影後のポストプロダクションが効率化される。

　これは、撮影システム１１での撮影により、いわゆるクロマキ合成を不要とすることができる場合や、色の補正や映り込みの合成を不要とすることができる場合があるためである。また、クロマキ合成が必要とされた場合においても、撮影時に緑や青の映像を表示するだけで済むため、物理的な背景用スクリーンの追加が不要であることも効率化の一助となっている。

　グリーンバック撮影の場合、演者の身体、衣装、物にグリーンの色合いが増してしまうため、その修正が必要となる。また、グリーンバック撮影の場合、ガラス、鏡、スノードームなどの周囲の光景が映り込む物が被写体として存在する場合、その映り込みの画像を生成し、合成する必要があるが、これは手間のかかる作業となっている。

　これに対し、図１の撮影システム１１で撮影する場合、カメラ２６で撮影して得られる映像上において、被写体のグリーンの色合いが増すことはないため、その補正は不要である。また、背景映像vBを表示させることで、ガラス等の実際の物品への映り込みも自然に得られて撮影されているため、映り込み映像の合成も不要である。

　ここで、背景映像vBについて、図２および図３を参照して説明する。なお、図２および図３において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　背景映像vBを、LEDウォール２３に表示させて、演者２１とともに撮影を行うにしても、単純に背景映像vBを表示させるのみでは、撮影された映像は背景が不自然なものとなる。実際には立体で奥行きもある背景を平面的に背景映像vBとしているためである。

　例えばカメラ２６は、パフォーマンスエリア２２の演者２１に対して、多様な方向から撮影を行うことができ、またズーム操作も行うことができる。演者２１も一カ所に立ち止まっているわけではない。

　するとカメラ２６の位置、撮影方向、画角などに応じて、演者２１の背景の実際の見え方は変化するはずであるが、平面映像としての背景映像vBではそのような変化が得られない。そこで、背景映像vBを変化させることで、背景が視差を含めて実際の見え方と同様になるようにされる。

　図２は、カメラ２６が図中の左側の位置から演者２１を撮影している様子を示しており、図３はカメラ２６が図中の右側の位置から演者２１を撮影している様子を示している。

　図２および図３において、背景映像vB内に撮影領域映像vBCが示されている。

　なお、背景映像vBのうちで撮影領域映像vBCを除いた部分は「アウターフラスタム」と呼ばれ、撮影領域映像vBCは「インナーフラスタム」と呼ばれる。ここで説明している背景映像vBとは、撮影領域映像vBC（インナーフラスタム）を含んで背景として表示される映像全体を指す。

　この撮影領域映像vBC（インナーフラスタム）の範囲は、LEDウォール２３の表示面内で、カメラ２６によって実際に撮影される範囲に相当する。そして撮影領域映像vBCは、カメラ２６の位置、撮影方向、画角等に応じて、実際にそのカメラ２６の位置を視点としたときに見える光景を表現するような映像となっている。

　具体的には、撮影領域映像vBCには、背景としての3D（three dimensions）モデルである3D背景データを用意し、その3D背景データに対してリアルタイムで逐次、カメラ２６の視点位置に基づいてレンダリングを行うことで得られた映像（画像）が表示される。

　なお、実際には撮影領域映像vBCの範囲は、その時点でカメラ２６によって撮影される範囲よりも少し広い範囲とされる。

　これはカメラ２６のパン、チルトやズームなどにより撮影される範囲が若干変化したときに、描画遅延によってアウターフラスタムの映像が映り込んでしまうことを防止するためや、アウターフラスタムの映像からの回折光による影響を避けるためである。

　このようにリアルタイムでレンダリングされた撮影領域映像vBCは、アウターフラスタムの映像と合成される。

　背景映像vBで用いられるアウターフラスタムの映像は、予め3D背景データに基づいてレンダリングされたものである場合や、毎フレームまたは間欠的なフレーム毎に、リアルタイムにレンダリングされる場合があるが、そのアウターフラスタムの映像の一部に、撮影領域映像vBC（インナーフラスタム）の映像を組み込むことで、全体の背景映像vBが生成される。

　なお、アウターフラスタムの映像もインナーフラスタムと同様に毎フレームレンダリングするケースがあるが、ここでは静止した映像を例にとり、以降の説明では主にアウターフラスタムの映像は先頭フレームのみレンダリングする場合を例として説明する。

　以上のことから、カメラ２６を前後左右に移動させたり、ズーム操作を行ったりしても、演者２１とともに撮影される範囲の背景は、実際のカメラ２６の移動に伴う視点位置やFOV（Field of View（視野））の変化に応じた映像として撮影されることになる。

　図２や図３に示すように、アウトプットモニタ２８には、演者２１と背景を含むモニタ映像vMが表示されるが、このモニタ映像vMは、カメラ２６により撮影された映像である。このモニタ映像vMにおける背景は、撮影領域映像vBCである。つまり撮影された映像に含まれる背景は、リアルタイムレンダリングされた映像となる。

　以上のような撮影システム１１においては、単に背景映像vBを平面的に表示させるだけではなく、実際に風景を撮影した場合と同様の映像を撮影することができるように、撮影領域映像vBCを含む背景映像vBをリアルタイムに変化させるようにしている。

　なお、LEDウォール２３に表示させた背景映像vBの全体ではなく、カメラ２６によって映り込む範囲としての撮影領域映像vBCのみをリアルタイムにレンダリングすることで、システムの処理負担も軽減するような工夫を行ってもよい。

　ここで、撮影システム１１で撮影を行うバーチャルプロダクションとしての映像コンテンツの制作工程について説明する。

　図４に示すように、映像コンテンツ制作工程は３つの段階に大別される。すなわち、映像コンテンツの制作工程には、主にアセットクリエイションST1、プロダクションST2、およびポストプロダクションST3がある。

　アセットクリエイションST1は、背景映像vBを表示するための3D背景データを制作する工程である。上述のように背景映像vBは、撮影の際に3D背景データが用いられてリアルタイムでレンダリングが行われて生成される。そのために予め3Dモデルとしての3D背景データが制作される。

　3D背景データの制作手法の例として、フルCG（Full Computer Graphics）、点群データ（Point Cloud）スキャン、フォトグラメトリ（Photogrammetry）などがある。

　フルCGは、3Dモデルをコンピュータグラフィックスで制作する手法である。フルCGは、３つの手法の中で最も工数や時間を要する手法となるが、非現実的な映像や、実際には撮影が困難な映像などを背景映像vBとしたい場合に用いられることが好適となる。

　点群データスキャンは、ある位置から例えばライダ（LiDAR（Light Detection And Ranging））を用いて距離測定を行うとともに、同じ位置からカメラで360度の画像を撮影し、ライダで測距した点の上にカメラで撮影した色データを載せることで点群データによる3Dモデルを生成する手法である。

　点群データスキャンは、フルCGと比較して、短い時間で3Dモデル制作ができる。また、点群データスキャンには、フォトグラメトリより高精細の3Dモデルを制作しやすいという利点がある。

　フォトグラメトリは、物体を複数視点から撮影して得た２次元画像から、視差情報を解析して寸法・形状を求める写真測量の技術である。

　フォトグラメトリでは、3Dモデル制作を短時間で行うことができる。なお、フォトグラメトリによる3Dデータ生成において、ライダで取得した点群情報を用いてもよい。

　アセットクリエイションST1では、例えばこれらの手法が用いられて3D背景データとなる3Dモデルが制作される。勿論、上記手法を複合的に用いてもよい。例えば点群データスキャンやフォトグラメトリで制作した3Dモデルの一部をCGで制作し、合成するなどである。

　プロダクションST2は、図１に示したような撮影スタジオにおいて撮影を行う工程である。この場合の要素技術として、リアルタイムレンダリング、背景表示、カメラトラッキング、照明コントロールなどがある。

　リアルタイムレンダリングは、図２や図３で説明したように各時点（背景映像vBの各フレーム）で撮影領域映像vBCを得るためのレンダリング処理である。これはアセットクリエイションST1で制作した3D背景データに対して、各時点のカメラ２６の位置等に応じた視点でレンダリングを行うものである。

　このようにリアルタイムレンダリングが行われて撮影領域映像vBCを含む各フレームの背景映像vBが生成され、LEDウォール２３に表示される。

　カメラトラッキングは、カメラ２６によるメタ情報を得るために行われ、カメラ２６の各時点の位置情報、撮影方向、画角などをトラッキングする処理である。

　カメラ２６の各時点の位置情報、撮影方向、画角などを含むメタ情報を各フレームに対応させてレンダリングエンジンに提供することで、カメラ２６の視点位置等に応じたリアルタイムレンダリングが実行可能となる。

　メタ情報は映像と紐づけられたり対応づけられたりする情報である。メタ情報としては各フレームタイミングでのカメラ２６の位置情報、カメラの向き、画角、焦点距離、Ｆ値（絞り値）、シャッタースピード、レンズ情報などを含むことが想定される。

　メタ情報に含まれているカメラ２６の位置情報、およびカメラの向きを示す情報からなる情報が、上述の自己位置推定の結果を示すポーズ情報であり、メタ情報には、ポーズ情報の信頼度を示すポーズ信頼度も含まれている。

　照明コントロールとは、撮影システム１１における照明の状態をコントロールすることで、具体的にはライト２５の光量、発光色、照明方向などの制御である。例えば撮影するシーンの時刻設定や場所の設定などに応じた照明コントロールが行われる。

　ポストプロダクションST3は、撮影後に行われる各種処理を示している。例えばポストプロダクションST3では、映像の補正、映像の調整、クリップ編集、映像エフェクトなどが行われる。

　映像の補正としては、色域変換や、カメラや素材間の色合わせなどが行われる場合がある。映像の調整として色調整、輝度調整、コントラスト調整などが行われる場合がある。

　また、クリップ編集として、クリップのカット、順番の調整、時間長の調整などが行われる場合があり、映像エフェクトとして、CG映像や特殊効果映像の合成などが行われる場合がある。

〈カメラ周辺部分の構成例〉
　続いて、図１に示した撮影システム１１におけるカメラ２６の周辺部分の構成について説明する。

　図４に示した映像コンテンツ制作工程におけるプロダクションST2とポストプロダクションST3の部分では、より詳細には、例えば図５の矢印Q11に示すような作業が行われる。

　すなわち、まずLEDウォール２３が設置されるなどして撮影スタジオの設営が行われ、その後、カメラ２６やアウトプットモニタ２８の配置等が事前セットアップとして行われる。

　そして、撮影システム１１により実際に映像コンテンツの撮影が行われ、撮影により得られた映像（画像）の確認が行われる。

　なお、以下、カメラ２６での撮影により得られた、映像（動画像）、特に動画像である映像を構成する１つのフレームを撮影画像とも称することとする。

　以上の撮影スタジオの設営から映像の確認までの作業が上述のプロダクションST2で行われる。なお、映像の確認は、ポストプロダクションST3の作業として行われることもある。

　プロダクションST2の後、撮影で得られたコンテンツの映像（画像）の送出と、送出された映像に対する編集作業（ポストプロダクション）が上述のポストプロダクションST3として行われる。

　図５の上側には、撮影システム１１のうち、プロダクションST2の作業として行われる映像コンテンツの撮影を行うための部分の構成が示されている。

　撮影システム１１には、撮影のための構成としてカメラ２６を含む撮影処理部５１が設けられているとともに、撮影領域映像vBC（インナーフラスタム）を生成するための構成としてCG生成プロセッサ５２が設けられている。

　撮影処理部５１は、カメラ２６、センサユニット６１、および自己位置推定ユニット６２を有している。また、CG生成プロセッサ５２は、例えばPC（Personal Computer）やサーバなどの装置に設けられており、上述のレンダリングエンジンを実現する。

　撮影時には、例えばLEDウォール２３に表示された背景となる撮影領域映像vBC（インナーフラスタム）と、前景となる実在の演者２１とからなる撮影シーンがカメラ２６により撮影される。このとき、カメラ２６のポーズ情報を得るために、センサユニット６１と自己位置推定ユニット６２が用いられる。

　センサユニット６１は、カメラ２６に取り付けられており、イメージセンサ、ジャイロセンサ、LiDAR等の測距センサ、GPS（Global Positioning System）センサ等の測位センサなどからなる。

　センサユニット６１は、カメラ２６の自己位置推定のためのセンシングを行い、その結果得られたセンサ出力信号を自己位置推定ユニット６２に出力する。

　自己位置推定ユニット６２は、センサユニット６１から供給されたセンサ出力信号に基づいて自己位置推定を行い、その結果得られたポーズ情報やポーズ信頼度を出力する。

　例えば自己位置推定ユニット６２は、カメラ２６に取り付けられる小型なデバイスであってもよいし、カメラ２６とは別に設置されるPCやサーバなどの装置であってもよい。

　また、センサユニット６１と自己位置推定ユニット６２の少なくとも何れか一方がカメラ２６内部に設けられるようにしてもよい。

　撮影時には、自己位置推定ユニット６２で得られたポーズ情報とポーズ信頼度が、例えばEthernet経由でCG生成プロセッサ５２に供給される。

　CG生成プロセッサ５２は、事前に用意された3D背景データと、撮影処理部５１（自己位置推定ユニット６２）から供給されたポーズ情報およびポーズ信頼度とに基づいてレンダリング処理を行い、撮影領域映像vBCを生成する。

　なお、より詳細には、カメラ２６についての画角や焦点距離、Ｆ値などもCG生成プロセッサ５２に供給され、必要に応じて撮影領域映像vBCの生成に利用される。

　CG生成プロセッサ５２は、得られた撮影領域映像vBCを含む背景映像vBを、適宜、図示せぬディスプレイコントローラ等を介してLEDウォール２３に供給して表示させる。これにより、カメラ２６の位置や撮影方向に応じた撮影領域映像vBCを表示させることができる。

　また、撮影画像とポーズ情報とポーズ信頼度の関連付けが行われる。関連付けにあたっては、撮影画像全体に対して１または複数の各時刻のポーズ情報とポーズ信頼度が関連付けられるようにしてもよい。例えば、撮影画像が動画像である場合、動画像の各フレームと、ポーズ情報の取得タイミング等とが一致しないこともある。すなわち、動画像のフレームとポーズ情報が同期していないこともある。この場合、動画像全体に対して各時刻のポーズ情報とポーズ信頼度を関連付けておけば、後段において、補間処理等により動画像の各フレームに同期したポーズ情報とポーズ信頼度を得ることができる。撮影画像が静止画像である場合でも、動画像における場合と同様にして、撮影画像と同期したポーズ情報およびポーズ信頼度を得ることができる。

　関連付けの具体的な例として、例えば、図中、右側に示すように撮影画像と、その撮影画像の撮影時におけるポーズ情報およびポーズ信頼度とを含む動画ファイルが生成され、得られた動画ファイルが映像エフェクトなどの処理を行うPC等の装置へと供給される。この場合、例えば撮影画像とポーズ情報とポーズ信頼度とを同一の動画ファイルに格納することで関連付けが行われる。

　なお、動画ファイルは、メモリに記録されてPC等の装置へと供給されるようにしてもよいし、任意の規格に準拠したフォーマットで直接またはネットワークを介してPC等の装置へと供給されるようにしてもよい。また、動画ファイルに格納される撮影画像は、RAW画像であってもよいし、RAW画像に対する現像処理を行うことで得られた、いわゆる輝度信号と色差信号からなるYC画像であってもよい。

　ここで、図６を参照して、自己位置推定とポーズ信頼度について説明する。

　カメラ２６の自己位置推定は、どのような手法により実現されてもよいが、例えば自己位置推定ユニット６２では、自己位置推定としてSLAM（Simultaneous Localization and Mapping）が行われる。

　SLAMでは、カメラ２６の位置同定と環境地図作成が並行して実行される。

　この場合、例えばセンサユニット６１に設けられたイメージセンサにより撮影された画像の信号（画像信号）がセンサ出力信号として自己位置推定ユニット６２に供給される。

　自己位置推定ユニット６２は、センサ出力信号に基づく画像に含まれる特徴点の軌跡を解析することで、特徴点の３次元位置を推定するとともに、カメラ２６の位置姿勢を推定し、その結果としてポーズ情報を得る。また、自己位置推定ユニット６２は、画像から抽出された特徴点の３次元位置情報を用いて周囲の地図である環境地図を作成する。

　このように、センサ出力信号としての画像信号を用いて自己位置推定を行う場合、図中、右上に示すポーズ情報（x,y,z,p,t,r）が得られる。すなわち、ポーズ情報として、カメラ２６の空間上の位置を示すｘ座標、ｙ座標、およびｚ座標と、カメラ２６の向きを示す角度であるパンｐ、チルｔ、およびロールｒとが得られる。

　この場合、ポーズ情報の分散（Δx,Δy,Δz,Δp,Δt,Δr）やinlier ratioなどをポーズ信頼度の算出に利用することができる。これらの分散やinlier ratioは、自己位置推定の過程で得られる情報である。

　ポーズ情報の分散は、ポーズ情報を構成する座標や角度といった各要素の分散であり、この分散が小さいほど、ポーズ信頼度が高く（大きく）なるようにすることができる。

　また、inlier ratioは、画像から抽出された特徴点の総数と、inlierとされた特徴点、つまり自己位置推定に利用可能とされた特徴点の数であるinlier数との比であり、inlier ratioが大きいほどポーズ信頼度が高くなるようにすることができる。

　さらに、例えば測距センサで得られたセンサ出力信号、つまりdTof（direct Time of Flight）方式での測距により得られた測距センサから被写体までの距離ｚを利用してポーズ情報を求めるDepth SLAMなどと呼ばれる手法の自己位置推定もある。

　そのような手法でポーズ情報を得る場合、あるいは被写体までの距離を計測する場合には、図中、右下に示すように、自己位置推定の過程で得られる距離ｚの分散Δｚや、距離ｚのピーク数（多峰性）などをポーズ信頼度の算出に利用することができる。

　すなわち、距離ｚを利用してポーズ情報を求める場合、測距センサでは比較的短い期間に複数回の測距が行われるため、例えば矢印Q21に示す距離ｚのヒストグラムが得られる。そこで、そのヒストグラムにおける距離ｚの分散Δｚをポーズ信頼度の算出に利用することができる。この場合、分散Δｚが小さいほど、ポーズ信頼度が高く（大きく）なるようにすることができる。

　また、距離ｚのヒストグラムには、例えば矢印Q22に示すように複数のピークが存在していることもあり、このようなピークの数をポーズ信頼度の算出に利用することができる。この場合、ピーク数が少ないほど、ポーズ信頼度が高くなるようにすることができる。

〈撮影処理部の構成例〉
　図７は、撮影処理部５１のより詳細な構成例を示す図である。

　この例では、撮影処理部５１はカメラ２６、センサユニット６１、および自己位置推定ユニット６２を有している。

　カメラ２６は、撮影部９１、ISP（Image Signal Processor）部９２、表示部９３、入力部９４、および制御部９５を有している。また、制御部９５には、SDI（Serial Digital Interface）出力部１０１、ファイル出力部１０２、ポーズ重畳部１０３が設けられている。

　撮影部９１は、固定または交換式のレンズ、および、イメージセンサからなり、演者２１や撮影領域映像vBCなどを被写体として撮影を行い、その結果得られたコンテンツの映像、すなわち映像の各フレーム（画像）をISP部９２に供給する。

　ISP部９２は、プロセッサなどからなり、撮影部９１から供給された画像に対して、適宜、画素欠陥補正や色分離処理などの各種の画像処理を施し、その結果得られた撮影画像を制御部９５に供給する。特に、この例では、ISP部９２からの撮影画像が制御部９５のSDI出力部１０１およびファイル出力部１０２に供給される。なお、撮影画像がRAW画像とされる場合には、色分離処理など、一部の処理は行われない。

　表示部９３は、例えば電子ビューファインダや小型ディスプレイなどからなり、制御部９５から供給された撮影画像やメニュー画像など、各種の画像を表示する。入力部９４は、例えばボタンやスイッチなどからなり、ユーザ（カメラマン２７）の操作に応じた信号を制御部９５に供給する。

　制御部９５は、カメラ２６全体の動作を制御する。例えば制御部９５は、撮影部９１を制御して撮影を行わせたり、ISP部９２から供給された撮影画像に基づくスルー画像を表示部９３に供給して表示させたりする。

　また、制御部９５は、SDI出力部１０１、ファイル出力部１０２、およびポーズ重畳部１０３を有している。

　SDI出力部１０１は、ISP部９２から供給された撮影画像に基づき、SDI形式に準拠した撮影画像の映像信号を生成し、ポーズ重畳部１０３に供給する。

　なお、ここではSDI形式を例として説明を行うが、伝送用の映像信号として他のどのような形式の映像信号が生成されるようにしてもよい。

　ファイル出力部１０２は、ISP部９２から供給された撮影画像を含む、例えばRAW動画像圧縮フォーマットなどの任意のフォーマットの映像信号、すなわち動画ファイルを生成し、ポーズ重畳部１０３に供給する。

　ポーズ重畳部１０３は、自己位置推定ユニット６２からポーズ情報およびポーズ信頼度の供給を受けて、撮影画像とポーズ情報とポーズ信頼度とを関連付ける関連付け部として機能する。

　例えばポーズ重畳部１０３は、SDI出力部１０１から供給されたSDI形式の撮影画像（映像信号）と、自己位置推定ユニット６２から供給されたポーズ情報およびポーズ信頼度とを関連付けることで得られた映像信号をカメラ２６の後段に出力する。

　この場合、例えばSDI形式の映像信号のブランキング期間など、所定の期間（区間）にポーズ情報およびポーズ信頼度を重畳する（埋め込む）ことで撮影画像との関連付けが行われる。そしてポーズ情報およびポーズ信頼度が重畳された映像信号がポーズ重畳部１０３から出力される。

　このとき、撮影画像の映像信号の出力先は、例えばアウトプットモニタ２８やスイッチャ、PC等の装置などとされる。その他、撮影スタジオ外に設置された、映像確認を行うためのモニタ等の装置に撮影画像の映像信号が出力されるようにしてもよい。

　また、例えばポーズ重畳部１０３は、ファイル出力部１０２から供給された撮影画像と、自己位置推定ユニット６２から供給されたポーズ情報およびポーズ信頼度とを関連付けることで得られた映像信号（動画ファイル）を出力する。

　この場合、例えば撮影画像の動画ファイル内に、ポーズ情報とポーズ信頼度をメタデータなどとして格納することで撮影画像との関連付けが行われる。この例では、動画ファイルの出力先は、例えばカメラ２６に装着されたリムーバブル記録媒体や、カメラ２６と有線または無線により接続されているポストプロダクション用のPC等の装置などとされる。

　その他、撮影画像とポーズ情報とポーズ信頼度とがUUID（Universally Unique Identifier）やUMID（Unique Material IDentifier）などの一意なIDにより関連付けられるようにしてもよい。

　そのような場合、例えば撮影画像とポーズ情報とポーズ信頼度とに対して同一のIDが付与される。

　そして、例えば付与されたIDおよび撮影画像を含むファイルと、そのファイルとは異なる、付与されたID、ポーズ情報、およびポーズ信頼度を含む別のファイルとが生成されるようにしてもよい。また、例えばIDが付与された撮影画像と、同じIDが付与されたポーズ情報およびポーズ信頼度とが別々にポストプロダクション用のPCなどの外部の装置に伝送（送信）されるようにしてもよい。

　このような場合においても、付与されたIDに基づいて、撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とを正しく特定することが可能である。

　また、カメラ２６には、センサユニット６１が取り付けられている。センサユニット６１は、カメラ２６に着脱可能であってもよいし、カメラ２６と一体となっており、着脱できないようになされていてもよい。

　センサユニット６１は、センサ選択部１２１およびセンサ部１２２－１乃至センサ部１２２－Ｎを有している。

　センサ選択部１２１は、自己位置推定ユニット６２から供給される制御信号に基づいて、Ｎ個のセンサ部１２２－１乃至センサ部１２２－Ｎのうちの自己位置推定に用いるセンサ部、すなわち自己位置推定に適したセンサ部を選択する。

　センサ部１２２－１乃至センサ部１２２－Ｎは、例えばイメージセンサ、ジャイロセンサ、LiDAR等の測距センサ、GPSセンサ等の測位センサなどからなり、カメラ２６の自己位置推定のためのセンシングを行って、その結果得られたセンサ出力信号を出力する。

　なお、以下、センサ部１２２－１乃至センサ部１２２－Ｎを特に区別する必要のない場合、単にセンサ部１２２とも称する。

　例えばセンサ選択部１２１は、自己位置推定ユニット６２からの制御信号に基づき選択したセンサ部１２２のみを駆動させてセンシングを行わせ、センシングにより得られたセンサ出力信号が自己位置推定ユニット６２に供給されるようにすることができる。

　また、センサ選択部１２１がＮ個全てのセンサ部１２２にセンシングを行わせ、それらのＮ個のセンサ部１２２のなかから制御信号に基づき選択されたセンサ部１２２のセンサ出力信号のみが自己位置推定ユニット６２に供給されるようにしてもよい。

　センサ選択部１２１により自己位置推定の実行に適したセンサ部１２２を選択することで、自己位置推定ユニット６２では、より安定して自己位置推定を行うことができる。すなわち、より確からしいポーズ情報を継続して得ることができる。

　自己位置推定ユニット６２は、自己位置演算部１４１、UDP（User Datagram Protocol）送信部１４２、およびセンサ制御部１４３を有している。

　自己位置演算部１４１は、例えばプロセッサなどからなり、センサユニット６１から供給された１または複数のセンサ部１２２のセンサ出力信号に基づいて、カメラ２６の自己位置推定を行う。すなわち、自己位置推定により、カメラ２６のポーズ情報およびポーズ信頼度が算出される。

　自己位置演算部１４１は、自己位置推定により得られたポーズ情報およびポーズ信頼度をカメラ２６のポーズ重畳部１０３に供給する。

　また、自己位置演算部１４１は、ポーズ情報およびポーズ信頼度をUDP送信部１４２に供給するとともに、ポーズ信頼度をセンサ制御部１４３に供給する。

　UDP送信部１４２は、自己位置演算部１４１から供給されたポーズ情報およびポーズ信頼度を、UDPに従った通信により、自己位置推定ユニット６２とネットワークを介して接続されているPC等の装置へと送信する。

　例えばUDP送信部１４２によるポーズ情報およびポーズ信頼度の送信先は、図５に示したCG生成プロセッサ５２が設けられた装置などとされる。

　センサ制御部１４３は、自己位置演算部１４１から供給されたポーズ信頼度に基づいて、自己位置推定に用いるセンサ部１２２の切り替え、すなわち自己位置推定に用いるセンサ出力信号の切り替えを行う。

　具体的には、センサ制御部１４３は、ポーズ信頼度に基づいて、センサユニット６１に設けられたＮ個のセンサ部１２２のうちの自己位置推定に用いるセンサ部１２２を選択し、その選択結果を示す制御信号をセンサユニット６１に供給する。

　例えばセンサ制御部１４３では、撮影開始時には、予め定められたセンサ部１２２が選択されるようにし、その後、ポーズ信頼度が所定の閾値未満となったときにセンサ部１２２（センサ出力信号）を選択し直す、つまりセンサ部１２２を切り替えるようにすることができる。

　この場合、現時点で自己位置推定に用いられているセンサ部１２２とはセンシング方向や種別が異なるセンサ部１２２へと切り替えることが考えられる。

　具体的には、例えばＮ個の各センサ部１２２が互いに異なる方向を撮影方向（センシング方向）とするイメージセンサであるとする。すなわち、Ｎ個の各センサ部１２２が互いに異なる方向に向けられて配置されたイメージセンサであるとする。

　また、センサ部１２２－１が選択されており、センサ部１２２－１で得られたセンサ出力信号に基づき自己位置推定を行っていたが、ある時点でポーズ信頼度が所定の閾値未満となったとする。

　この場合、センサ制御部１４３は、例えばセンサ部１２２－１に対して予め定められたセンサ部１２２－２等の他のセンサ部１２２を、自己位置推定に用いる新たなセンサ部１２２として選択し、その選択結果を示す制御信号を出力する。

　例えば撮影スタジオでは、天井や壁など、カメラ２６（センサユニット６１）から見て、自己位置推定のポーズ信頼度が低下してしまう被写体のある方向（以下、不適切な方向とも称する）を予め特定することが可能である。

　また、あるセンサ部１２２が不適切な方向を向いているときに、アウトプットモニタ２８のある方向など、カメラ２６（センサユニット６１）から見て、十分に高いポーズ信頼度が得られる方向（以下、適切な方向とも称する）を向いている他のセンサ部１２２も予め特定可能である。

　そこで、各センサ部１２２に対して、それらのセンサ部１２２が不適切な方向を向いている状態となったときに、適切な方向を向いている他のセンサ部１２２を予め特定しておけば、ポーズ信頼度が低下したときに適切なセンサ部１２２を選択することが可能である。

　また、例えばＮ個のセンサ部１２２のうちのいくつかのセンサ部１２２が互いに異なる種別のセンサからなるとする。

　さらに、現時点でセンサ部１２２としてのイメージセンサが利用されて自己位置推定を行っていたが、ある時点でポーズ信頼度が所定の閾値未満となったとする。

　この場合、センサ制御部１４３は、例えば測距センサなど、イメージセンサとは異なる種別のセンサからなるセンサ部１２２を、自己位置推定に用いる新たなセンサ部１２２として選択し、その選択結果を示す制御信号を出力する。

　このようにすれば、イメージセンサが苦手とする撮影シーンでも、測距センサ等の他の種別のセンサを利用することで、十分なポーズ信頼度で自己位置推定を行うことができるようになる。

　なお、自己位置推定に用いるセンサ部１２２は、センサ出力信号に基づき選択されてもよい。また、ここではセンサ制御部１４３がポーズ信頼度に基づきセンサ部１２２を選択し、その選択結果を示す制御信号をセンサユニット６１（センサ選択部１２１）に供給する例について説明する。この場合、センサ選択部１２１は、制御信号により示されるセンサ部１２２を、自己位置推定に用いるセンサ部１２２として選択することになる。

　しかし、これに限らず、センサ制御部１４３が制御信号としてポーズ信頼度を出力し、センサ選択部１２１が制御信号として供給されたポーズ信頼度に基づき、自己位置推定に用いるセンサ部１２２を選択するようにしてもよい。

　その他、一旦、Ｎ個全てのセンサ部１２２のセンサ出力信号が自己位置演算部１４１に供給されるようにしてもよい。そのような場合、自己位置演算部１４１は、供給されたＮ個のセンサ出力信号のうち、センサ制御部１４３により選択されたセンサ部１２２のセンサ出力信号を用いて自己位置推定を行う。

　以上のような撮影処理部５１の一部または全部が、撮影画像とポーズ情報とポーズ信頼度とを関連付ける情報処理装置として機能する。

　この場合、例えばセンサユニット６１の一部または全部の構成がカメラ２６に設けられるようにしてもよいし、自己位置推定ユニット６２の一部または全部の構成がカメラ２６に設けられるようにしてもよい。

　また、例えばポーズ重畳部１０３など、カメラ２６の一部の構成が自己位置推定ユニット６２に設けられるようにしてもよいし、自己位置推定ユニット６２の一部または全部や、ポーズ重畳部１０３などがセンサユニット６１に設けられるようにしてもよい。

〈自己位置推定ユニットの他の構成例〉
　なお、ポーズ情報の関連付けの他の例として、撮影画像のタイムコードと、ポーズ情報とを関連付けるようにすることもできる。

　そのような場合、例えば図８に示すように、自己位置推定ユニット６２に、撮影画像のタイムコードとポーズ情報の関連付けを行うファイル生成部１５１を設けることが考えられる。なお、図８において図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図８の例では、自己位置推定ユニット６２は、自己位置演算部１４１、UDP送信部１４２、センサ制御部１４３、およびファイル生成部１５１を有している。すなわち、図８に示す自己位置推定ユニット６２の構成は、図７に示した自己位置推定ユニット６２に、さらにファイル生成部１５１が設けられた構成となっている。

　ファイル生成部１５１には、カメラ２６の制御部９５から撮影画像のタイムコードが供給されるとともに、自己位置演算部１４１からポーズ情報も供給される。なお、自己位置演算部１４１からファイル生成部１５１に、ポーズ情報だけでなくポーズ信頼度も供給されるようにしてもよい。

　ファイル生成部１５１は、供給されたタイムコードと、ポーズ情報とが格納されたファイルを生成することで、タイムコードとポーズ情報とを関連付ける。ファイル生成部１５１は、撮影画像のタイムコードとポーズ情報とが含まれたファイルを生成すると、そのファイルをリムーバブル記録媒体、CG生成プロセッサ５２、ポストプロダクション用のPC等の装置やクラウドを構成するサーバなど、任意の出力先に出力（供給）する。

　このようなファイルの生成により、撮影画像とポーズ情報とが関連付けられたともいうことができる。なお、ファイルには、ポーズ情報のポーズ信頼度も格納され、タイムコードとポーズ情報とポーズ信頼度が関連付けられてもよい。また、タイムコードに代えて、撮影画像のフレーム番号など、撮影画像の時刻に関する情報がポーズ情報と関連付けられてもよい。その他、タイムコード（撮影画像）とポーズ情報の関連付けは、上述した一意なIDの付与など、どのようにして行われてもよい。

〈データ出力処理の説明〉
　次に、撮影処理部５１の動作について説明する。

　撮影処理部５１では、カメラ２６による撮影が開始されると、図９に示すデータ出力処理が行われる。以下、図９のフローチャートを参照して、撮影処理部５１によるデータ出力処理について説明する。

　ステップＳ１１において制御部９５は、撮影画像を取得する。

　例えば撮影部９１で撮影が行われると、ISP部９２では撮影部９１から出力された画像に対して画像処理が行われ、その結果得られた撮影画像が出力される。

　制御部９５のSDI出力部１０１やファイル出力部１０２は、このようにしてISP部９２から出力された撮影画像を取得する。また、SDI出力部１０１は、SDI形式に準拠した撮影画像、すなわち撮影画像の映像信号を生成してポーズ重畳部１０３に供給し、ファイル出力部１０２は、所定のフォーマットの映像信号（動画ファイル）を生成してポーズ重畳部１０３に供給する。

　また、例えば撮影処理部５１では、カメラ２６による撮影が開始されると同時に、センサ部１２２によるセンシングも開始される。

　センサ選択部１２１は、センサ制御部１４３から供給される制御信号に応じて、複数のセンサ部１２２のなかから自己位置推定に用いるセンサ部１２２を選択し、選択したセンサ部１２２で得られたセンサ出力信号を自己位置演算部１４１に供給する。

　ステップＳ１２において自己位置演算部１４１は、センサユニット６１から出力された、１または複数のセンサ部１２２で得られたセンサ出力信号を取得する。

　ステップＳ１３において自己位置演算部１４１は、ステップＳ１２で取得したセンサ出力信号に基づいて自己位置推定を行う。例えばステップＳ１３では、自己位置推定としてSLAMが行われ、これによりポーズ情報とポーズ信頼度が得られる。

　自己位置演算部１４１は、自己位置推定により得られたポーズ情報およびポーズ信頼度をカメラ２６のポーズ重畳部１０３とUDP送信部１４２に供給するとともに、ポーズ信頼度をセンサ制御部１４３に供給する。

　ステップＳ１４においてポーズ重畳部１０３は、撮影画像と、ポーズ情報と、ポーズ信頼度とを関連付けて出力する。

　例えばポーズ重畳部１０３は、SDI出力部１０１から供給されたSDI形式の撮影画像のブランキング期間に、自己位置推定ユニット６２から供給されたポーズ情報およびポーズ信頼度を埋め込むことで関連付けを行い、得られた映像信号を出力する。

　このようにすることで、既存の伝送系に対して配線を追加するなどの変更を加えることなくポーズ情報とポーズ信頼度を転送し、転送先においてポーズ情報やポーズ信頼度を活用することができる。

　また、例えばポーズ重畳部１０３は、ファイル出力部１０２から供給された撮影画像の動画ファイルに、自己位置推定ユニット６２から供給されたポーズ情報とポーズ信頼度を格納することで撮影画像との関連付けを行い、得られた動画ファイルを出力する。例えばポーズ情報とポーズ信頼度は、撮影画像のメタデータとして動画ファイルに格納される。

　その他、例えばUDP送信部１４２は、自己位置演算部１４１から供給されたポーズ情報およびポーズ信頼度を、UDPに従った通信により、CG生成プロセッサ５２が設けられた装置などに送信する。これによりCG生成プロセッサ５２では、3D背景データと、ポーズ情報およびポーズ信頼度とに基づくレンダリング処理を行い、撮影領域映像vBCを生成することができる。

　ステップＳ１５においてセンサ制御部１４３は、自己位置演算部１４１から供給されたポーズ信頼度に基づいて、自己位置推定に用いるセンサ部１２２の切り替え制御を行う。

　例えばセンサ制御部１４３は、ポーズ信頼度が所定の閾値以上である場合、センサ部１２２の切り替えは行わず、現時点で用いられているセンサ部１２２をそのまま継続して用いる。すなわち、自己位置推定に用いるセンサ部１２２として、現時点で用いられているセンサ部１２２がそのまま選択される。

　これに対して、センサ制御部１４３はポーズ信頼度が所定の閾値未満である場合、センサ部１２２の切り替えを行う。例えばセンサ制御部１４３は、現時点で用いられているセンサ部１２２に対して、予め切り替え用として定められているセンサ部１２２を切り替え後のセンサ部１２２として選択する。

　センサ制御部１４３は、切り替え後のセンサ部１２２を示す制御信号をセンサユニット６１に供給する。するとセンサ選択部１２１は、センサ制御部１４３からの制御信号に応じて、自己位置演算部１４１へとセンサ出力信号を出力するセンサ部１２２の切り替えを行う。

　なお、後述するようにCG生成プロセッサ５２やカメラ２６などにより、ポーズ信頼度に基づいて、ポーズ信頼度が低下したことを通知する警告表示を必要に応じて行うなど、ポーズ信頼度に応じた処理を行う場合には、必ずしもセンサ制御部１４３によるセンサ部１２２の切り替え制御が行われる必要はない。逆に、センサ制御部１４３によるセンサ部１２２の切り替え制御を行う場合には、CG生成プロセッサ５２やカメラ２６などにおいて、ポーズ信頼度が低下したことを通知する警告表示など、ポーズ信頼度に応じた処理は必ずしも行われる必要はない。この場合、カメラ２６やCG生成プロセッサ５２へのポーズ信頼度の供給は行われなくてもよい。

　ステップＳ１６において制御部９５は、撮影画像をポーズ情報およびポーズ信頼度と関連付けて出力する処理を終了するか否かを判定する。例えば撮影画像の撮影が終了した場合、処理を終了すると判定される。

　ステップＳ１６において、まだ処理を終了しないと判定された場合、その後、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１６において処理を終了すると判定された場合、撮影処理部５１の各部は行っている処理を停止させ、データ出力処理は終了する。

　データ出力処理のステップＳ１４で関連付けられた撮影画像とポーズ情報とポーズ信頼度は、動画ファイルなどの形式で、ポーズ重畳部１０３によりリムーバブル記録媒体に記録されたり、通信によりポーズ重畳部１０３からポストプロダクション用のPC等の装置へと送信されたりする。例えばリムーバブル記録媒体に記録された動画ファイルは、ポストプロダクション用のPC等の装置へと供給される。

　以上のようにして撮影処理部５１は、撮影画像の撮影時に自己位置推定を行い、撮影画像と、自己位置推定により得られたポーズ情報およびポーズ信頼度とを関連付けて出力する。

　このようにすることで、撮影時や撮影後のポストプロダクションなどにおいてポーズ情報およびポーズ信頼度を活用し、映像制作をより効率的に行うことができるようになる。

〈ポーズ信頼度の活用について〉
　撮影画像と関連付けられたポーズ信頼度は、撮影時や撮影後に活用することができる。

　具体的には、例えば撮影時においてポーズ信頼度が低下した場合に、ポーズ信頼度が低下したことを示す警告表示を行うことで撮影作業の効率低下を抑制することができる。

　このとき、警告表示は、例えばカメラ２６やアウトプットモニタ２８、LEDウォール２３などで行うようにすることが考えられる。なお、ポーズ信頼度が低下した旨の警告の提示は、表示による提示に限らず、音や振動などにより行われてもよいし、表示、音、振動などのうちの１または複数の提示方法を組み合わせて行われてもよい。

　また、例えば撮影後のポストプロダクションにおいて、映像エフェクトとしてCG映像等の合成処理を行う場合に、ポーズ情報をそのまま合成処理に用いるか否か等の判定にポーズ信頼度を利用することも考えられる。

　図１０に映像エフェクトとしてCG映像等の合成処理を行う例を示す。合成処理は、撮影時に行われるようにしてもよいし、撮影後のポストプロダクションにおいて行われるようにしてもよい。

　この例では、例えば映像コンテンツとして、矢印Q41に示すようなシーンを制作することとする。ここでは、背景として木があり、その木の前に前景として演者２１と馬HR11が存在している。特に、馬HR11は演者２１の手前側に位置している。

　このようなシーンの撮影を行う場合、例えば矢印Q42に示すように、撮影スタジオではLEDウォール２３に背景としての木が表示され、そのLEDウォール２３の前で演者２１が演技を行う。そして、LEDウォール２３上の撮影領域映像vBCと演者２１が被写体とされてカメラ２６により撮影が行われる。

　このとき、例えば撮影中に、カメラ２６において得られた撮影画像に対して、ポーズ情報が用いられて馬HR11のCG映像が合成され、その結果得られた映像がアウトプットモニタ２８にモニタ映像vMとして表示されるようにすることができる。

　このような合成処理は、撮影後のポストプロダクションにおいて行われるようにしてもよいが、撮影中に行うことで撮影スタッフ等がアウトプットモニタ２８でモニタ映像vMを見て意図通りの映像が得られているかを確認することができる。

　以上のように、撮影画像と関連付けられたポーズ情報およびポーズ信頼度は、撮影時にも撮影後にも活用することができる。

　この場合、例えばポーズ情報の用途、換言すればポーズ情報を利用するアプリケーションに応じて、ポーズ信頼度に関する閾値を変更してもよい。これにより、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。

　ここでいう用途とは、例えばLEDウォール２３を用いた撮影画像の撮影や、グリーンバック撮影、ポストプロダクションなどである。また、ポストプロダクションでも、前景となるCG映像の合成等の編集内容や、グリーンバック撮影等の撮影手法などによって異なる用途とすることができる。

　図１１に用途に応じたポーズ信頼度の閾値の例を示す。ポーズ信頼度の閾値は、例えばポーズ信頼度が低下したことを通知する警告表示などに用いられる。

　図１１では、横軸は時間、すなわち撮影画像のタイムコードを示しており、縦軸はポーズ信頼度を示している。

　この例では、例えば用途として、前景合成用途と背景合成用途があるとし、ポーズ信頼度が閾値未満となったタイミングで警告表示が行われる。

　ここでの前景合成用途は、ポストプロダクションで撮影画像に対して前景となるCG映像（AR）を合成する処理にポーズ情報とポーズ信頼度を利用する場合などである。

　また、背景合成用途は、LEDウォール２３を用いた撮影やグリーンバック撮影などの撮影時または撮影後において、背景映像を合成する処理にポーズ情報とポーズ信頼度を利用する場合などである。具体的には、背景合成用途は、例えば撮影領域映像vBCの生成を行う場合などである。

　図１１では、曲線L11は、各時刻におけるポーズ信頼度を示している。また、直線L12は前景合成用途におけるポーズ信頼度の閾値を示しており、直線L13は背景合成用途におけるポーズ信頼度の閾値を示している。

　したがって、例えば前景合成用途でポーズ情報を利用する場合、曲線L11に示すポーズ信頼度の値が直線L12に示す閾値未満となると警告表示が行われる。同様に、背景合成用途でポーズ情報を利用する場合には、曲線L11に示すポーズ信頼度の値が直線L13に示す閾値未満となると警告表示が行われる。

　ポーズ情報を利用して背景映像や前景映像を合成する場合、ポーズ信頼度が低下すると、すなわちポーズ情報が正確ではなくなると、正しい位置関係で映像を合成することができなくなってしまい、合成で得られる映像の粗が目立ってしまう。

　特に、前景映像を合成するときには、背景映像を合成するときよりも映像の粗が目立ちやすいため、前景合成用途でのポーズ情報の要求精度は、背景合成用途でのポーズ情報の要求精度よりも高い。そのため、直線L12に示す前景合成用途時の閾値は、直線L13に示す背景合成用途時の閾値よりも大きく設定されている。

　なお、例えば前景映像を合成する場合などであっても、撮影時の利用と、撮影後のポストプロダクション時の利用とでポーズ信頼度の閾値が異なるようにしてもよい。そのような場合、撮影時におけるポーズ信頼度の閾値を、ポストプロダクション時のポーズ信頼度の閾値よりも小さくすることが考えられる。

　以上のような、用途に応じたポーズ信頼度の閾値の変更（設定）は、アプリケーションプログラム側でユーザの操作を必要とせずに行われるようにしてもよいし、ユーザがアプリケーションプログラム等を指定することなどにより行われるようにしてもよい。

　例えばPC等の装置において用途ごとにアプリケーションプログラムが用意されている場合には、そのPC等の装置で起動されたアプリケーションプログラムが、ポーズ信頼度の閾値として、自身（アプリケーションプログラム）に対応する用途に対して定められた閾値を設定する。

　ポーズ信頼度の閾値の変更（設定）を行う具体的な例として、例えば撮影時にカメラ２６やCG生成プロセッサ５２が、ポーズ信頼度と閾値の比較結果に応じて警告表示を行う場合などが考えられる。

　例えばカメラ２６の制御部９５は、コンテンツの映像の撮影が開始されると、複数の用途ごとに予め用意されたポーズ信頼度の閾値のなかから、背景合成用途などの撮影時のポーズ情報の用途の閾値を選択（設定）する。換言すれば、制御部９５は、ポーズ情報の用途に応じて、警告を行うか否かを判定するためのポーズ信頼度の閾値を切り替える。

　この場合、制御部９５は、カメラマン２７の入力部９４に対する操作に応じて閾値を選択してもよいし、カメラマン２７の操作を必要とせずに、設定されているモード等に応じて閾値を選択するようにしてもよい。

　制御部９５は、逐次、自己位置演算部１４１からポーズ情報とポーズ信頼度の供給を受けると、供給されたポーズ信頼度と、選択した閾値とを比較し、ポーズ信頼度が閾値未満となると、表示部９３にポーズ信頼度が低下した旨の警告を表示させる。

　このような警告表示を行うことで、表示部９３としての電子ビューファインダを見ているカメラマン２７は、早期に撮影ミス等に気付くことができる。また、撮影スタッフ等もアウトプットモニタ２８でモニタ映像vMを見て、撮影ミスや画質の低下などが発生していないかを常に確認する必要がなくなる。これらのことから、撮影作業の効率を向上させることができる。

　また、例えばカメラ２６における場合と同様に、CG生成プロセッサ５２も用途に応じたポーズ信頼度の閾値を選択し、選択した閾値と、逐次、UDP送信部１４２から供給されるポーズ信頼度とを比較するようにしてもよい。

　この場合、CG生成プロセッサ５２は、ポーズ信頼度が閾値未満となると、ポーズ信頼度が低下した旨の警告がアウターフラスタム部分に重畳された背景映像vBを生成する。そしてCG生成プロセッサ５２は、生成した背景映像vBを、図示せぬディスプレイコントローラ等を介してLEDウォール２３に供給して表示させる。

　これにより、背景映像vBにおける撮影領域映像vBC外の部分、つまりアウターフラスタム部分に警告を表示させ、撮影に影響を及ぼすことなく撮影ミス等を通知し、撮影作業の効率を向上させることができる。

　その他、例えば自己位置推定ユニット６２のセンサ制御部１４３によるセンサ部１２２の切り替え制御に用いられるポーズ信頼度の閾値も、ポーズ情報の用途に応じて選択（設定）されるようにしてもよい。

　また、ポーズ信頼度の閾値の変更（設定）を行う他の具体的な例として、例えばポストプロダクションにおいて、ポーズ情報をそのまま用いるか、または既存のカメラトラッキングにより求めたポーズ情報を用いるかを切り替える場合などが考えられる。

　例えば、ポストプロダクションにおいて、撮影画像に前景または背景となるCG映像を合成する合成処理を行う場合、その合成処理では、撮影画像上におけるCG映像の合成位置等を決定するためにカメラ２６のポーズ情報が必要となる。

　このとき、自己位置推定ユニット６２で得られたポーズ情報のポーズ信頼度が十分に高い場合には、ポーズ情報をそのまま合成処理に用いることが可能である。

　しかし、ポーズ信頼度が低い場合には、ポーズ情報をそのまま合成処理に用いると、CG映像が正しい位置や向きで合成されず、合成後の撮影画像の品質が低下してしまう。

　そこで、例えば図１２に示すように、ポーズ信頼度に応じて、ポーズ情報をそのまま合成処理に用いるか、既存のカメラトラッキングにより求めたポーズ情報を合成処理に用いるようにするかを切り替えるようにしてもよい。このようにすることで、効率よく高品質な撮影画像を得ることができる。

　図１２では、横軸は時間、すなわち撮影画像のタイムコードを示しており、縦軸はポーズ信頼度を示している。

　また、曲線L21は各時刻におけるポーズ信頼度を示しており、直線L22および直線L23は、合成処理時の用途である前景合成用途に基づき選択（設定）された、ポーズ信頼度の閾値を示している。

　特に、ここでは、前景合成用途に対して２つの閾値が選択されている。なお、ここでは直線L22と直線L23のそれぞれにより示される閾値が用途に応じて設定される例について説明する。しかし、例えば直線L22により示される閾値など、一方の閾値は用途に応じて設定されるが、直線L23により示される閾値など、他方の閾値は用途によらず一定であるなどとされてもよい。

　例えば曲線L21により示されるポーズ信頼度が、直線L22により示される閾値以上である場合、ポーズ情報は十分信頼できるので、撮影画像に関連付けられているポーズ情報がそのまま合成処理で用いられる。

　換言すれば、曲線L21により示されるポーズ信頼度が、直線L22により示される閾値以上である領域R21内となる区間では、ポーズ情報がそのまま合成処理で用いられる。

　このように、ポーズ情報が十分信頼できる場合には、撮影画像に関連付けられたポーズ情報をそのまま合成処理に用いることができるため、ポストプロダクションにおいてポーズ情報を求める必要がなくなる。したがって、その分だけポストプロダクションの処理時間を削減し、映像制作をより効率的に行うことができる。

　また、ポーズ信頼度が、直線L23により示される閾値以上であるが、直線L22により示される閾値未満である場合、ポーズ情報は十分信頼できるとはいえないため、既存のカメラトラッキングにより最終的なポーズ情報が求められる。そして、既存のカメラトラッキングにより求められたポーズ情報が合成処理に用いられる。

　換言すれば、曲線L21により示されるポーズ信頼度が、直線L23により示される閾値以上で、かつ直線L22により示される閾値未満である領域R22内となる区間では、既存のカメラトラッキングによりポーズ情報が求められる。

　但し、この場合、撮影画像に関連付けられたポーズ情報が、これから求めようとするポーズ情報の初期値として用いられて既存のカメラトラッキングが行われる。

　ここでいう、既存のカメラトラッキングとは、撮影画像のみに基づいてポーズ情報を算出する処理であり、このような既存のカメラトラッキングは、マッチムーブ処理と呼ばれている。

　マッチムーブ処理においては、編集者であるユーザが特徴点等を指定するなどの入力作業が必要となることや、処理の収束までに時間がかかることなどから、ポーズ情報を得るまでに膨大な処理時間が必要である。そうすると、ポストプロダクションの作業効率、すなわち映像の制作効率が低下してしまう。

　そこで、本技術では、ポーズ信頼度が直線L23により示される閾値以上で、かつ直線L22により示される閾値未満である場合には、撮影画像に関連付けられたポーズ情報が初期値として活用され、マッチムーブ処理によりポーズ情報が算出される。

　このようにすることで、マッチムーブ処理をより早く収束させて短時間でポーズ情報を得ることができるだけでなく、より確からしいポーズ情報を得ることができる。

　例えば、初期値がない前提からポーズ情報の推定、つまりカメラ２６の位置姿勢の推定を開始すると解の探索範囲が広くなるため、処理の収束が遅く、またポーズ情報の推定結果が局所最適解となってしまう可能性も高くなる。

　これに対して、ある程度信頼できるポーズ情報を初期値として活用すれば、マッチムーブ処理の収束も早く、また局所的に解の探索を行えばよくなるため、より信頼できる、つまり、より確からしいポーズ情報を得ることができる。

　また、例えば曲線L21により示されるポーズ信頼度が、直線L23により示される閾値未満である場合、撮影画像に関連付けられているポーズ情報は信頼できない可能性がある。そのため、現時点よりも前の時点における、比較的信頼できるポーズ情報が初期値として用いられて既存のカメラトラッキングが行われ、その結果得られたポーズ情報が合成処理に用いられる。

　換言すれば、曲線L21により示されるポーズ信頼度が、直線L23により示される閾値未満である領域R23内となる区間では、直前の比較的信頼できるポーズ情報が初期値として用いられ、既存のカメラトラッキングにより最終的なポーズ情報が求められる。

　この場合、初期値とされるポーズ情報は、例えば曲線L21により示される、現時点よりも時間的に前の各時点のポーズ情報のなかから選択される。

　なお、初期値とされるポーズ情報は、ユーザにより指定されたものであってもよいし、ユーザの指定操作を必要とせずに、各時点のポーズ信頼度等に基づきアプリケーションプログラムにより選択されたものであってもよい。

　この例では、ポーズ信頼度が直線L23により示される閾値未満となっている時点よりも時間的に前にあり、かつポーズ信頼度が直線L23により示される閾値以上である、曲線L21上の点PI11に対応する時点のポーズ情報が初期値として選択される。

　これは、点PI11に対応する時点においては、ポーズ信頼度が直線L23により示される閾値以上となっているので、この時点のポーズ情報は初期値とするのには十分信頼できるからである。

　このように、現時点よりも時間的に前の時点における、比較的信頼できるポーズ情報を初期値として用いて既存のカメラトラッキングによりポーズ情報を求める場合、初期値を指定せずに既存のカメラトラッキングを行う場合よりも、マッチムーブ処理をより早く収束させるとともに処理負荷も軽減させることができる。

　以上のように、ポストプロダクションにおいて、ポーズ情報をそのまま用いるか否かの切り替えにポーズ信頼度を活用することで、映像制作をより効率的に行うことができる。特に、ポーズ情報の用途に応じてポーズ信頼度の閾値を選択することで、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。

　ここで、ポストプロダクションにおいて、撮影画像に関連付けられたポーズ情報およびポーズ信頼度がある場合とない場合の処理の違い、すなわちポーズ情報とポーズ信頼度を活用する場合としない場合の処理の違いの例について説明する。

　ここでは、ポストプロダクションでの処理として、ポーズ情報を利用して撮影画像にCG映像を合成する例について説明する。

　そのような場合、撮影画像に関連付けられたポーズ情報およびポーズ信頼度がないときには、例えば図１３の左側に示すように処理が行われる。図１３の左側に示す例では、上述のマッチムーブ処理（既存のカメラトラッキング）が行われる。

　具体的には、まず撮影画像が入力されると、撮影画像に対してレンズ歪補正が行われ、撮影画像のレンズに起因する歪みが補正される。これにより、撮影画像は歪みのない理想的なレンズで撮影を行ったときの状態に近くなり、後段において特徴点追跡をより精度よく行うことができるようになる。

　続いて、レンズ歪補正後の撮影画像に対して動被写体マスキングが行われる。自己位置推定時には、撮影画像上における動被写体の領域はノイズとなるので、動被写体マスキングにより動被写体の領域が自己位置推定時の推定対象領域から除外される。このとき、適宜、ユーザにより動被写体の領域が指定される。

　動被写体マスキングが行われると、次に撮影画像に対する特徴点追跡が行われ、撮影画像内の各領域の動き量（オプティカルフロー）が算出される。

　撮影画像に関連付けられたポーズ情報とポーズ信頼度がない場合、以上のレンズ歪補から特徴点追跡までの処理が、自己位置推定のための前処理として行われる。

　そして、前処理が行われると、特徴点追跡により得られた動き量が用いられて、撮影画像に対する自己位置推定（3Dカメラ位置推定）が行われる。

　その後、撮影画像上における地面領域の選択が行われ、その選択結果と自己位置推定の結果とに基づいてCG映像の合成、つまりCG映像の配置が行われる。

　これに対して、撮影画像に関連付けられたポーズ情報およびポーズ信頼度があるときには、例えば図１３の右側に示すように処理が行われる。

　すなわち、まず撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力される。

　そして、入力された撮影画像上における地面領域の選択が行われ、その選択結果と、入力されたポーズ情報とに基づいてCG映像の合成（CG映像の配置）が行われる。

　撮影画像にポーズ情報とポーズ信頼度が関連付けられている場合、既に自己位置推定の結果であるポーズ情報があるため、図中、左側の例で示した前処理と自己位置推定を行う必要がなくなる。すなわち、画像のみに基づくカメラ２６の自己位置の推定を行わなくてもよい。

　したがって、ポストプロダクションでの処理負荷や処理時間を軽減させるとともに、ユーザの待ち時間も削減し、映像制作の効率を向上させることができる。

　また、図１３を参照して説明した処理が行われるときのUI（User Interface）と表示画面の遷移の例を図１４および図１５に示す。

　図１４は、図１３の左側に示した、撮影画像に関連付けられたポーズ情報とポーズ信頼度がない場合の処理が行われるときのUIと表示画面の例を示している。

　この場合、例えば表示画面上には、図１４の右下に示すUI１６１が表示される。このUI１６１には、文字「unti-distortion」、「masking」、「tracking」、および「3D camera pose」のそれぞれが表示されたボタンが設けられている。

　撮影画像が入力された後、矢印Q61に示すようにUI１６１上の文字「unti-distortion」が表示されたボタンが操作されるとレンズ歪補正が行われ、適宜、矢印Q62に示すようにレンズ歪等が表示画面上に表示される。このレンズ歪補正は、カメラ２６でのレンズ交換がなければ、最初に１度だけ設定を行うだけでよい。

　続いて、矢印Q63に示すようにUI１６１上の文字「masking」が表示されたボタンが操作されると動被写体マスキングが行われ、矢印Q64に示すように表示画面における撮影画像上の動被写体の領域がマスクされる。

　そして、矢印Q65に示すようにUI１６１上の文字「tracking」が表示されたボタンが操作されると特徴点追跡が行われ、矢印Q66に示すように特徴点追跡の処理結果が表示画面における撮影画像上に表示される。

　さらに、矢印Q67に示すようにUI１６１上の文字「3D camera pose」が表示されたボタンが操作されると自己位置推定が行われ、矢印Q68に示すように表示画面上に自己位置推定の結果など、ポーズ情報に関する画面が表示される。

　その後、矢印Q69に示すように、特徴点などが表示された撮影画像上で地面領域の選択が行われると、矢印Q70に示すように撮影画像上でのCG映像の配置が行われる。

　これに対して、図１５には、図１３の右側に示した、撮影画像に関連付けられたポーズ情報とポーズ信頼度がある場合の処理が行われるときのUIと表示画面の例が示されている。

　図１５の例では撮影画像と、その撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力されると、表示画面上にはUI１６１が表示される。この場合、UI１６１には文字「use pose meta」が表示されたボタンB81がさらに表示されている。

　そして、UI１６１上のボタンB81が操作されると、表示画面には矢印Q81に示すように、撮影画像に関連付けられているポーズ情報、すなわち撮影画像とともに取得された自己位置推定の結果など、ポーズ情報に関する画面が表示される。

　その後、図１４における場合と同様に、特徴点などが表示された撮影画像上で地面領域の選択が行われると、撮影画像上でのCG映像の配置が行われる。

　また、図１５に示したように撮影画像に関連付けられたポーズ情報とポーズ信頼度が用いられる場合、撮影画像に関連付けられているポーズ信頼度が低く、ポーズ情報が十分に信頼できるものではないこともある。

　そのような場合、ポーズ信頼度に応じて、ポーズ情報をそのまま合成処理（CG映像の配置）に用いるか、既存のカメラトラッキングによりポーズ情報を求めて合成処理に用いるかの切り替えが行われるようにしてもよい。すなわち、図１２を参照して説明した切り替えが行われるようにしてもよい。

　具体的には、例えば図１６に示すように、表示画面に表示されたUI１６１上の文字「use pose meta」が表示されたボタンB81が操作されると、装置（アプリケーションプログラム）側ではポーズ情報の用途に応じた閾値が選択され、閾値とポーズ信頼度の比較が行われる。

　例えば矢印Q91に示すように、連続する複数のフレームの撮影画像と、それらの各撮影画像に関連付けられたポーズ情報およびポーズ信頼度とが入力されたとする。

　矢印Q91に示す部分の上側には各フレームの撮影画像が示されており、矢印Q91に示す部分の下側には各フレーム（撮影画像）におけるポーズ信頼度が示されている。特に、曲線L91は、各フレームにおけるポーズ信頼度を示しており、縦軸および横軸はポーズ信頼度およびフレーム（時間）を示している。

　この例では、図中の縦軸の部分に記されているように、用途に応じたポーズ信頼度の閾値として、より大きい閾値PR11と、より小さい閾値PR12とが選択（設定）されている。なお、閾値PR12は用途によらず一定の値とされてもよい。

　閾値PR11および閾値PR12が選択されると、最初のフレームから順番に、撮影画像に関連付けられたポーズ信頼度と、選択された閾値PR11および閾値PR12との比較が行われていく。

　このとき、例えばフレームFLM11のように、ポーズ信頼度が閾値PR11以上である場合には、撮影画像と関連付けられているポーズ情報が、合成処理（CG映像の配置）に用いるポーズ情報として選択される。

　また、例えばフレームFLM12のように、ポーズ信頼度が閾値PR12以上かつ閾値PR11未満となった場合には、矢印Q92に示すダイアログ（確認ウィンドウ）が表示画面に表示される。

　このダイアログには、ポーズ情報を初期値として自己位置推定、すなわち既存のカメラトラッキング（マッチムーブ処理）を行うかを問う文字メッセージと、文字メッセージに対する応答（回答）のためのボタンなどが表示されている。

　例えば、ユーザがダイアログ上における文字「Yes」が表示された、既存のカメラトラッキングを行う旨のボタンを操作すると、その操作に従って既存のカメラトラッキングが行われる。

　すなわち、フレームFLM12の撮影画像に関連付けられているポーズ情報が初期値として用いられて、撮影画像に基づくマッチムーブ処理が行われ、その結果得られたポーズ情報が合成処理（CG映像の配置）に用いるポーズ情報とされる。

　さらに、例えばフレームFLM13のように、ポーズ信頼度が閾値PR12未満となった場合には、矢印Q93に示すように初期値とするフレームの選択を促すメッセージが表示される。このとき、例えば表示画面上における各フレームの撮影画像やポーズ信頼度が表示された部分に、初期値として用いるポーズ情報のフレームを選択するためのカーソルが表示され、ユーザはカーソルを動かして所望のフレームを選択する。換言すれば、ユーザにより初期値とするポーズ情報が選択される。

　すると、ユーザにより選択されたフレームにおける、撮影画像に関連付けられたポーズ情報が初期値として用いられ、撮影画像に基づくマッチムーブ処理が行われる。そして、その結果得られたポーズ情報が合成処理（CG映像の配置）に用いるポーズ情報とされる。

　このように、ポーズ情報をそのまま用いるか否かの切り替えが行われる場合においても、ユーザが追加で行う必要がある操作は、ダイアログに対する操作程度であり、効率よくポストプロダクションでの作業を進めることができる。

〈情報処理装置の構成例〉
　以上のようなポストプロダクションでの処理は、例えばPCなどの情報処理装置において行われる。図１７に、そのような情報処理装置の構成例を示す。

　図１７に示す情報処理装置１８１は、ポストプロダクションでの処理として、直接または間接的にカメラ２６から供給された、予め関連付けられている撮影画像とポーズ情報とポーズ信頼度とに基づく処理を行う。ここでいう処理とは、上述した撮影画像の入力後に行われる、適宜ポーズ情報を算出する処理や撮影画像上にCG映像（画像）を合成する処理などである。

　情報処理装置１８１は、入力部１９１、表示部１９２、記録部１９３、通信部１９４、および制御部１９５を有している。

　入力部１９１は、マウスやキーボードなどからなり、ユーザの操作に応じた信号を制御部１９５に供給する。表示部１９２はディスプレイなどからなり、制御部１９５の制御に従って撮影画像や、CG映像の合成のための画面など、各種の画像を表示する。

　記録部１９３は、例えば不揮発性のメモリなどからなり、制御部１９５から供給された撮影画像や、用途ごとのアプリケーションプログラムなどの各種のデータを記録するとともに、必要に応じて記録しているデータを制御部１９５に供給する。

　通信部１９４は、外部の装置と通信を行う。例えば通信部１９４は、制御部１９５から供給されたデータを外部の装置に送信したり、外部の装置から送信されてきた、撮影画像と、ポーズ情報およびポーズ信頼度とが関連付けられて格納されている動画像ファイルなどの任意のデータを受信して制御部１９５に供給したりする。

　制御部１９５は、情報処理装置１８１全体の動作を制御する。

　例えば制御部１９５は、ポーズ情報の用途に応じて、ポーズ信頼度の閾値を切り替えたり、切り替え後の閾値とポーズ信頼度との比較結果に応じて、適宜、撮影画像に基づく自己位置推定（マッチムーブ処理）によりポーズ情報を算出したりする。また、例えば制御部１９５は、入力部１９１からの信号に応じて、撮影画像上にCG映像（画像）を合成するなどの処理も行う。

〈映像合成処理の説明〉
　続いて、情報処理装置１８１の動作について説明する。

　例えば情報処理装置１８１では、撮影画像と、ポーズ情報およびポーズ信頼度とが関連付けられて格納されている動画像ファイルが予めカメラ２６から取得され、記録部１９３に記録されているとする。

　このような状態で、ポストプロダクションでの処理として、撮影画像にCG映像を合成する処理を実行させるために、ユーザが入力部１９１を操作し、ポストプロダクションの専用のアプリケーションプログラムの起動を指示したとする。

　すると、制御部１９５は、指定されたアプリケーションプログラムを記録部１９３から読み出して起動させる。

　また、例えば制御部１９５は、ユーザによる操作に応じて、指定された動画像ファイルを記録部１９３から読み出し、適宜、図１６に示したUI１６１を表示部１９２に表示させる。このような状態で、ユーザによりUI１６１上の文字「use pose meta」が表示されたボタンB81が操作されると、情報処理装置１８１は、撮影画像にCG映像を合成する処理として、図１８に示す映像合成処理を行う。

　以下、図１８のフローチャートを参照して、情報処理装置１８１による映像合成処理について説明する。

　ステップＳ８１において制御部１９５は、上述したポストプロダクションなどの用途に応じた閾値の設定を行う。

　例えば制御部１９５は、起動させたアプリケーションプログラムに対して予め定められた、より大きい閾値th1と、閾値th1よりも小さい閾値th2を、用途に応じたポーズ信頼度の閾値として選択する。

　閾値th1および閾値th2は、例えば図１６を参照して説明した閾値PR11および閾値PR12に対応する。

　また、制御部１９５は、記録部１９３から読み出した動画ファイルに格納されているコンテンツの映像の各フレームを順番に処理対象のフレームとして以下の処理を行う。

　ステップＳ８２において制御部１９５は、処理対象のフレームのポーズ信頼度が閾値th1未満であるか否かを判定する。

　ステップＳ８２において、ポーズ信頼度が閾値th1未満でない、つまりポーズ信頼度が閾値th1以上であると判定された場合、撮影画像に関連付けられたポーズ情報は十分信頼できるものであるので、その後、処理はステップＳ８３へと進む。

　ステップＳ８３において制御部１９５は、処理対象のフレームの撮影画像に関連付けられているポーズ情報を、そのままCG映像の合成処理に用いるポーズ情報として選択する。ステップＳ８３の処理が行われると、その後、処理はステップＳ８８へと進む。

　また、ステップＳ８２において、ポーズ信頼度が閾値th1未満であると判定された場合、ステップＳ８４において制御部１９５は、処理対象のフレームのポーズ信頼度が閾値th2未満であるか否かを判定する。

　ステップＳ８４において、ポーズ信頼度が閾値th2未満でない、つまりポーズ信頼度が閾値th2以上で、かつ閾値th1未満であると判定された場合、その後、処理はステップＳ８５へと進む。

　この場合、撮影画像に関連付けられたポーズ情報は、ある程度は信頼できるが、十分に信頼できるとはいえないものであるので、ステップＳ８５の処理が行われる。このとき、制御部１９５は、適宜、ポーズ情報を初期値とした自己位置推定を行うかを選択させるためのダイアログを表示部１９２に表示させ、ダイアログに対するユーザの操作に応じてステップＳ８５の処理を行う。

　ステップＳ８５において制御部１９５は、処理対象のフレームの撮影画像に関連付けられているポーズ情報を初期値として用いて、撮影画像に基づく自己位置推定を行う。ここでは自己位置推定として、上述のマッチムーブ処理が行われる。

　制御部１９５は、自己位置推定により得られたポーズ情報を、CG映像の合成処理に用いる最終的なポーズ情報とし、その後、処理はステップＳ８８へと進む。

　また、ステップＳ８４において、ポーズ信頼度が閾値th2未満であると判定された場合、その後、ステップＳ８６の処理が行われる。

　この場合、撮影画像に関連付けられたポーズ情報は、信頼できないものである可能性が高い。そこで、例えば制御部１９５は、適宜、表示部１９２に、初期値として用いるポーズ情報のフレームを選択するためのカーソルや文字メッセージなどを表示させ、ユーザにフレーム（ポーズ情報）の選択を促す。すると、ユーザは入力部１９１を操作することで、処理対象のフレームよりも時間的に前のフレームのなかから、初期値として用いるポーズ情報のフレームを選択する。

　すると、ステップＳ８６において制御部１９５は、ユーザの操作により入力部１９１から供給された信号に応じて、初期値として用いるポーズ情報のフレーム、すなわち初期値として用いるポーズ情報を選択する。ここで初期値として用いられるポーズ情報は、予め撮影画像に関連付けられているポーズ情報である。

　ステップＳ８７において制御部１９５は、ステップＳ８６で選択されたフレームのポーズ情報を初期値として用いて、撮影画像に基づく自己位置推定を行う。ここでは自己位置推定として、上述のマッチムーブ処理が行われる。

　ステップＳ８３の処理、ステップＳ８５の処理、またはステップＳ８７の処理が行われると、その後、ステップＳ８８の処理が行われる。

　ステップＳ８８において制御部１９５は、CG映像の合成処理に用いるとしたポーズ情報に基づいて、処理対象のフレームの撮影画像上に所定のCG映像を合成する合成処理を行う。このとき、適宜、地面領域の選択結果なども用いられる。

　なお、処理対象のフレームにおいて、ユーザによりCG映像の合成が指示されていない場合には、ステップＳ８８の処理は行われない。

　ステップＳ８９において制御部１９５は、撮影画像にCG映像を合成する処理を終了するか否かを判定する。例えばステップＳ８９では、全てのフレームが処理対象として処理された場合に、終了すると判定される。

　ステップＳ８９において、まだ処理を終了しないと判定された場合、その後、処理はステップＳ８２に戻り、上述した処理が繰り返し行われる。すなわち、新たなフレームが処理対象とされて、そのフレームの撮影画像にCG映像が合成される。

　これに対して、ステップＳ８９において処理を終了すると判定された場合、情報処理装置１８１の各部は、行っている処理を停止し、映像合成処理は終了する。

　以上のようにして情報処理装置１８１は、ポーズ情報の用途ごとに設定した閾値とポーズ信頼度とを比較し、その比較結果に応じてポーズ情報を求めて撮影画像にCG映像を合成する。

　情報処理装置１８１では、撮影画像と予め関連付けられたポーズ情報およびポーズ信頼度を用いることで、ポストプロダクションの処理時間を削減し、映像制作をより効率的に行うことができる。

　しかも、ポーズ情報の用途に応じてポーズ信頼度の閾値を選択（設定）することで、より適切にポーズ情報およびポーズ信頼度を活用し、映像制作をさらに効率的に行うことができる。

　なお、ここではポーズ信頼度に基づく処理として、ポストプロダクションで行われる、撮影画像にCG映像を合成する処理を例として説明した。しかし、これに限らず、撮影画像に関連付けられたポーズ信頼度に基づく処理として、撮影時等におけるポーズ信頼度の低下を通知する警告表示など、様々な処理を行うことが可能である。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。なお、コンピュータには、GPU(Graphics Processing Unit)が設けられるようにしてもよい。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える
　情報処理装置。
（２）
　１または複数のセンサのセンサ出力信号に基づいて、前記自己位置推定を行う自己位置演算部をさらに備える
　（１）に記載の情報処理装置。
（３）
　前記ポーズ信頼度に基づいて、前記自己位置推定に用いる前記センサ出力信号を切り替えるセンサ制御部をさらに備える
　（２）に記載の情報処理装置。
（４）
　前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なるセンシング方向の前記センサの前記センサ出力信号に切り替える
　（３）に記載の情報処理装置。
（５）
　前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なる種別の前記センサの前記センサ出力信号に切り替える
　（３）に記載の情報処理装置。
（６）
　前記ポーズ信頼度に応じて警告を行う制御部をさらに備える
　（１）乃至（５）の何れか一項に記載の情報処理装置。
（７）
　前記制御部は、前記警告を行うか否かを判定するための前記ポーズ信頼度の閾値を、前記ポーズ情報の用途に応じて切り替える
　（６）に記載の情報処理装置。
（８）
　前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度を同一ファイルに格納することで前記関連付けを行う
　（１）乃至（７）の何れか一項に記載の情報処理装置。
（９）
　前記関連付け部は、前記撮影画像の信号の所定区間に、前記ポーズ情報および前記ポーズ信頼度を埋め込むことで前記関連付けを行う
　（１）乃至（７）の何れか一項に記載の情報処理装置。
（１０）
　前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度に対して同一のIDを付与することで前記関連付けを行う
　（１）乃至（７）の何れか一項に記載の情報処理装置。
（１１）
　前記撮影画像は、動画像である
　（１）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
　カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける
　ステップを含む処理をコンピュータに実行させるプログラム。
（１３）
　予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える
　情報処理装置。
（１４）
　前記制御部は、前記ポーズ情報の用途に応じて前記ポーズ信頼度の閾値を切り替え、前記ポーズ信頼度と前記閾値との比較結果に応じた処理を行う
　（１３）に記載の情報処理装置。
（１５）
　前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　（１４）に記載の情報処理装置。
（１６）
　前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　（１５）に記載の情報処理装置。
（１７）
　前記制御部は、処理対象のフレームの前記ポーズ信頼度が、前記閾値よりも小さい他の閾値未満である場合、前記処理対象のフレームよりも前の他のフレームの前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　（１５）または（１６）に記載の情報処理装置。
（１８）
　前記制御部は、前記ポーズ情報に基づいて、前記撮影画像に他の画像を合成する
　（１３）乃至（１７）の何れか一項に記載の情報処理装置。
（１９）
　前記撮影画像は、動画像である
　（１３）乃至（１８）の何れか一項に記載の情報処理装置。
（２０）
　予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　撮影システム，　２３　LEDウォール，　２６　カメラ，　２８　アウトプットモニタ，　５１　撮影処理部，　５２　CG生成プロセッサ，　６１　センサユニット，　６２　自己位置推定ユニット，　９５　制御部，　１０３　ポーズ重畳部，　１２１　センサ選択部，　１２２－１乃至１２２－Ｎ，１２２　センサ部，　１４１　自己位置演算部，　１４３　センサ制御部

Claims

　カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける関連付け部を備える
　情報処理装置。
　１または複数のセンサのセンサ出力信号に基づいて、前記自己位置推定を行う自己位置演算部をさらに備える
　請求項１に記載の情報処理装置。
　前記ポーズ信頼度に基づいて、前記自己位置推定に用いる前記センサ出力信号を切り替えるセンサ制御部をさらに備える
　請求項２に記載の情報処理装置。
　前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なるセンシング方向の前記センサの前記センサ出力信号に切り替える
　請求項３に記載の情報処理装置。
　前記センサ制御部は、前記自己位置推定に用いる前記センサ出力信号を、異なる種別の前記センサの前記センサ出力信号に切り替える
　請求項３に記載の情報処理装置。
　前記ポーズ信頼度に応じて警告を行う制御部をさらに備える
　請求項１に記載の情報処理装置。
　前記制御部は、前記警告を行うか否かを判定するための前記ポーズ信頼度の閾値を、前記ポーズ情報の用途に応じて切り替える
　請求項６に記載の情報処理装置。
　前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度を同一ファイルに格納することで前記関連付けを行う
　請求項１に記載の情報処理装置。
　前記関連付け部は、前記撮影画像の信号の所定区間に、前記ポーズ情報および前記ポーズ信頼度を埋め込むことで前記関連付けを行う
　請求項１に記載の情報処理装置。
　前記関連付け部は、前記撮影画像、前記ポーズ情報、および前記ポーズ信頼度に対して同一のIDを付与することで前記関連付けを行う
　請求項１に記載の情報処理装置。
　前記撮影画像は、動画像である
　請求項１に記載の情報処理装置。
　カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とを関連付ける
　ステップを含む処理をコンピュータに実行させるプログラム。
　予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う制御部を備える
　情報処理装置。
　前記制御部は、前記ポーズ情報の用途に応じて前記ポーズ信頼度の閾値を切り替え、前記ポーズ信頼度と前記閾値との比較結果に応じた処理を行う
　請求項１３に記載の情報処理装置。
　前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　請求項１４に記載の情報処理装置。
　前記制御部は、前記ポーズ信頼度が前記閾値未満である場合、前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　請求項１５に記載の情報処理装置。
　前記制御部は、処理対象のフレームの前記ポーズ信頼度が、前記閾値よりも小さい他の閾値未満である場合、前記処理対象のフレームよりも前の他のフレームの前記ポーズ情報を初期値として用いて、前記撮影画像に基づく自己位置推定により最終的な前記ポーズ情報を算出する
　請求項１５に記載の情報処理装置。
　前記制御部は、前記ポーズ情報に基づいて、前記撮影画像に他の画像を合成する
　請求項１３に記載の情報処理装置。
　前記撮影画像は、動画像である
　請求項１３に記載の情報処理装置。
　予め関連付けられた、カメラにより撮影された撮影画像と、自己位置推定により得られた前記カメラのポーズ情報と、前記ポーズ情報のポーズ信頼度とに基づく処理を行う
　ステップを含む処理をコンピュータに実行させるプログラム。