WO2023047637A1

WO2023047637A1 - 情報処理装置およびプログラム

Info

Publication number: WO2023047637A1
Application number: PCT/JP2022/009842
Authority: WO
Inventors: 真人島川
Original assignee: ソニーグループ株式会社
Priority date: 2021-09-22
Filing date: 2022-03-08
Publication date: 2023-03-30

Abstract

映像処理装置（情報処理装置）は、被写体の周囲に配置した複数のカメラ（第１の撮像装置）がそれぞれ撮像した複数の実画像を取得するＶоｌｕｍｅｔｒｉｃ映像撮影部（第１の取得部）と、複数の実画像から、被写体の３Ｄモデルを生成するVolumetric映像生成部（生成部）と、３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、被写体に提示するスタジオ内映像表示部（提示部）と、を備える。

Description

情報処理装置およびプログラム

　本開示は、情報処理装置およびプログラムに関し、特に、被写体（演者）に対して、自身を観測している仮想カメラの位置を知らせることができる情報処理装置およびプログラムに関する。

　従来、現実の３Ｄ空間をセンシングした情報、例えば異なる視点から被写体を撮像した多視点映像を用いて、視聴空間内に３Ｄオブジェクトを生成し、そのオブジェクトが視聴空間内に存在しているかのように見える映像（ボリュメトリック映像）を生成する方法が提案されている（例えば、特許文献１）。

国際公開第２０１７／０８２０７６号

　しかしながら、特許文献１において、被写体は、仮想カメラの設置位置を知ることができないため、歌唱やダンス等のパフォーマンスを行う際に、仮想カメラの位置を意識したパフォーマンスを行うことができないという課題があった。

　本開示では、被写体に対して、自身を観測している仮想カメラの位置を知らせることができる情報処理装置およびプログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、被写体の周囲に配置した複数の第１の撮像装置がそれぞれ撮像した複数の実画像を取得する第１の取得部と、前記複数の実画像から、前記被写体の３Ｄモデルを生成する生成部と、前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、を備える情報処理装置である。

第１の実施形態の映像処理システムの概要を示すシステム構成図である。被写体の３Ｄモデルを生成する流れの概要を示す図である。３Ｄモデルを表現するために必要なデータの内容を示す図である。スタジオに設置された撮像表示装置の概略構成を示す図である。表示パネルのＯＮ／ＯＦＦとカメラのＯＮ／ＯＦＦのタイミング制御の一例を示す図である。表示パネルに表示される仮想カメラ提示情報の一例を示す図である。仮想カメラ提示情報の具体例を示す第１の図である。仮想カメラ提示情報の具体例を示す第２の図である。仮想カメラ提示情報の代表的なバリエーションを示す図である。仮想カメラが、表示パネルがない位置に設定されていることを示す仮想カメラ提示情報の一例を示す図である。仮想カメラ提示情報が、仮想カメラのカメラワークを表示した例を示す図である。複数の仮想カメラの設定位置が重複した場合の仮想カメラ提示情報の一例を示す図である。第１の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。仮想カメラ情報生成部の入出力情報の一例を示す図である。第１の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。図１５における仮想カメラ情報生成処理の流れの一例を示すフローチャートである。図１５における仮想カメラ提示情報生成処理の流れの一例を示すフローチャートである。図１７における仮想カメラグループ表示タイプ判定処理の流れの一例を示すフローチャートである。図１７における仮想カメラグループ優先度判定処理の流れの一例を示すフローチャートである。図１７における仮想カメラグループ提示情報生成処理の流れの一例を示すフローチャートである。図２０における仮想カメラ提示情報生成処理（通常）の流れの一例を示すフローチャートである。図２０における仮想カメラ提示情報生成処理（位置補正）の流れの一例を示すフローチャートである。図２０における仮想カメラグループ提示情報生成処理（通常）の流れの一例を示すフローチャートである。図２０における仮想カメラグループ提示情報生成処理（位置補正）の流れの一例を示すフローチャートである。図２０におけるカメラワーク表示処理の流れの一例を示すフローチャートである。図１７における仮想カメラグループ音声生成処理の流れの一例を示すフローチャートである。図１５における仮想カメラ提示情報出力処理の流れの一例を示すフローチャートである。図１５におけるVolumetric映像生成処理の流れの一例を示すフローチャートである。図１５におけるVolumetric映像と背景映像の重畳処理の流れの一例を示すフローチャートである。第２の実施形態の映像処理システムの概要を示すシステム構成図である。第２の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。第３の実施形態の映像処理システムの概要を示すシステム構成図である。第３の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。ユーザが視聴デバイスを用いて、カメラワーク情報を設定する方法を示す図である。ユーザが視聴デバイスを用いて、オペレータ映像と、オペレータ音声と、オペレータメッセージとを設定する方法を示す図である。視聴ユーザ数に応じた仮想カメラグループ提示情報の一例を示す図である。視聴ユーザが観測位置を変更した際の、仮想カメラグループ提示情報の一例を示す図である。視聴ユーザと演者がコミュニケーションを図る機能の一例を示す図である。第３の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。図３９におけるコミュニケーション映像／音声生成処理の流れの一例を示すフローチャートである。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．第１の実施形態
　　　１－１．第１の実施形態の映像処理システムの概略構成
　　　１－２．前提事項の説明－３Ｄモデルの生成
　　　１－３．前提事項の説明－３Ｄモデルのデータ構造
　　　１－４．撮像表示装置の概略構成
　　　１－５．仮想カメラ提示情報の説明
　　　１－６．仮想カメラ提示情報のバリエーション
　　　１－７．第１の実施形態の映像処理システムの機能構成
　　　１－８．第１の実施形態の映像処理システムが行う処理の全体の流れ
　　　１－９．仮想カメラ情報生成処理の流れ
　　　１－１０．仮想カメラ提示情報生成処理の流れ
　　　　１－１０－１．仮想カメラグループ表示タイプ判定処理の流れ
　　　　１－１０－２．仮想カメラグループ優先度判定処理の流れ
　　　　１－１０－３．仮想カメラグループ提示情報生成処理の流れ
　　　　１－１０－４．仮想カメラグループ音声生成処理の流れ
　　　１－１１．仮想カメラ提示情報出力処理の流れ
　　　１－１２．Volumetric映像生成処理の流れ
　　　１－１３．Volumetric映像と背景映像の重畳処理の流れ
　　　１－１４．第１の実施形態の作用効果
　　２．第２の実施形態
　　　２－１．第２の実施形態の映像処理システムの概略構成
　　　２－２．第２の実施形態の映像処理システムの機能構成
　　　２－３．第２の実施形態の映像処理システムの作用
　　　２－４．第２の実施形態の作用効果
　　３．第３の実施形態
　　　３－１．第３の実施形態の映像処理システムの概略構成
　　　３－２．第３の実施形態の映像処理システムの機能構成
　　　３－３．仮想カメラ情報の取得方法
　　　３－４．仮想カメラグループ提示情報の形態
　　　３－５．第３の実施形態の映像処理システムが行う処理の流れ
　　　３－６．第３の実施形態の作用効果

（１．第１の実施形態）
［１－１．第１の実施形態の映像処理システムの概略構成］
　まず、図１を用いて、本開示の第１の実施形態である映像処理システム１０ａについて説明する。図１は、第１の実施形態の映像処理システムの概要を示すシステム構成図である。

　映像処理システム１０ａは、Volumetricスタジオ１４ａと映像処理装置１２ａとを備える。なお、映像処理装置１２ａは、Volumetricスタジオ１４ａで撮影した映像を少ない遅延時間で処理するために、Volumetricスタジオ１４ａに設置するのが望ましい。

　Volumetricスタジオ１４ａは、被写体２２の３Ｄモデル２２Ｍを生成するために、被写体２２の撮像を行うスタジオである。Volumetricスタジオ１４ａには、撮像表示装置１３が設置されている。

　撮像表示装置１３は、Volumetricスタジオ１４ａの内壁面１５に被写体２２を取り囲むように配置された複数のカメラ１６によって、被写体２２の撮像を行う。また、撮像表示装置１３は、Volumetricスタジオ１４ａの内壁面１５に被写体２２を取り囲むように配置された表示パネル１７に、被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を提示する。仮想視点に係る情報は、例えば、仮想カメラが設定された位置や観測方向等を示す情報である。

　映像処理装置１２ａは、カメラ１６から取得した実カメラ映像Ｉに基づいて、被写体２２の３Ｄモデル２２Ｍを生成する。また、映像処理装置１２ａは、被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報（仮想カメラ提示情報２０）を生成する。そして、映像処理装置１２ａは、生成した仮想カメラ提示情報２０を、表示パネル１７に出力する。また、映像処理装置１２ａは、設定した仮想視点から被写体２２の３Ｄモデル２２Ｍを見た画像を、視聴デバイスに応じた形態でレンダリングすることによって、Volumetric映像２４を生成する。具体的には、ユーザの視聴デバイスが、タブレット端末やスマートフォン等の２次元ディスプレイである場合、映像処理装置１２ａは、被写体２２の３Ｄモデル２２Ｍを２次元画像にレンダリングする。また、ユーザの視聴デバイスが、例えばＨＭＤ（Head　Mount　Display）のように３次元情報を表示可能な視聴デバイスである場合、映像処理装置１２ａは、被写体２２の３Ｄモデル２２Ｍを３Ｄ画像にレンダリングする。

　更に、映像処理装置１２ａは、取得した背景映像２６ａに、生成したVolumetric映像２４を重畳して、設定された仮想視点から観測した映像を生成する。生成された映像は、例えばユーザの視聴環境に配信されて、ユーザの視聴デバイスに表示される。なお、映像処理装置１２ａは、本開示における情報処理装置の一例である。

［１－２．前提事項の説明－３Ｄモデルの生成］
　次に、図２を用いて、本実施形態の前提事項である、被写体の３Ｄモデルを生成する処理の流れを説明する。図２は、被写体の３Ｄモデルを生成する流れの概要を示す図である。

　図２に示すように、被写体２２の３Ｄモデル２２Ｍは、複数のカメラ１６（１６ａ，１６ｂ，１６ｃ）による被写体２２の撮像と、３Ｄモデリングにより被写体２２の３Ｄ情報を有する３Ｄモデル２２Ｍを生成する処理と、を経て行われる。

　具体的には、複数のカメラ１６は、図２に示すように、被写体２２を取り囲むように、被写体２２の外側に、被写体２２の方向を向いて配置される。図２は、カメラの台数が３台の例を示しており、カメラ１６ａ，１６ｂ，１６ｃが被写体２２の周りに配置されている。なお、図２においては、人物が被写体２２とされているが、被写体２２は人物に限定されない。また、カメラ１６の台数は３台に限定されるものではなく、より多くの台数のカメラを備えてもよい。

　異なる視点から、３台のカメラ１６ａ，１６ｂ，１６ｃによって、同期してボリュメトリック（以下、Volumetricと呼ぶ）撮像された複数の視点画像（実カメラ映像Ｉ）を用いて３Ｄモデリングが行われ、３台のカメラ１６ａ，１６ｂ，１６ｃの映像フレーム単位で被写体２２の３Ｄモデル２２Ｍが生成される。

　３Ｄモデル２２Ｍは、被写体２２の３Ｄ情報を有するモデルである。３Ｄモデル２２Ｍは、被写体２２の表面形状を表す形状情報を、例えば、ポリゴンメッシュと呼ばれる、頂点（Vertex）と頂点との繋がりで表現したメッシュデータの形式で有する。また、３Ｄモデル２２Ｍは、各ポリゴンメッシュに対応した、被写体２２の表面状態を表すテクスチャ情報を有する。なお、３Ｄモデル２２Ｍが有する情報の形式はこれらに限定されるものではなく、その他の形式の情報であってもよい。

　３Ｄモデル２２Ｍを再構成する際には、メッシュ位置に応じて、当該メッシュの色や模様や質感を表すテクスチャを貼り付ける、いわゆるテクスチャマッピングを行う。テクスチャマッピングは、３Ｄモデル２２Ｍのリアリティを向上させるために、視点位置に応じた（View　Dependent：以下ＶＤと呼ぶ）テクスチャを貼り付けるのが望ましい。これにより、３Ｄモデル２２Ｍを任意の仮想視点から撮像した際に、視点位置に応じてテクスチャが変化するため、より高画質の仮想画像が得られる。しかし、伝送に必要な帯域が増大するため、３Ｄモデル２２Ｍには、視線位置に依らない（View　Independent：以下ＶＩと呼ぶ）テクスチャを貼り付けてもよい。

　読み出された３Ｄモデル２２Ｍを含むVolumetric映像２４は、背景映像２６ａに重畳されて、再生装置である例えば携帯端末８０に伝送されて再生される。３Ｄモデル２２Ｍのレンダリングが行われて、３Ｄモデル２２Ｍを含むVolumetric映像２４が再生されることにより、ユーザの携帯端末８０に３Ｄ形状を有する映像が表示される。

［１－３．前提事項の説明－３Ｄモデルのデータ構造］
　次に、図３を用いて、３Ｄモデル２２Ｍを表現するために必要なデータの内容を説明する。図３は、３Ｄモデルを表現するために必要なデータの内容を示す図である。

　被写体２２の３Ｄモデル２２Ｍは、被写体２２の形状を示すメッシュ情報Ｍと、被写体２２の表面の質感（色合い、模様等）を示すテクスチャ情報Ｔとによって表現される。

　メッシュ情報Ｍは、３Ｄモデル２２Ｍの表面上のいくつかの部位を頂点として、それらの頂点の繋がりによって３Ｄモデル２２Ｍの形状を表す（ポリゴンメッシュ）。また、メッシュ情報Ｍの代わりに、被写体２２を観測する視点位置から被写体２２の表面までの距離を表すデプス情報Ｄｐ（非図示）を用いてもよい。被写体２２のデプス情報Ｄｐは、例えば、隣接する撮像装置で撮像された画像から検出した、被写体２２の同じ領域に対する視差に基づいて算出する。なお、撮像装置の代わりに測距機構を備えるセンサ（例えばＴＯＦ（Time　Of　Flight）カメラ）や赤外線（ＩＲ）カメラを設置して、被写体２２までの距離を得てもよい。

　本実施形態では、テクスチャ情報Ｔとして２通りのデータを使用する。１つは、３Ｄモデル２２Ｍを観測する視点位置に依らない（ＶＩ）テクスチャ情報Ｔａである。テクスチャ情報Ｔａは、３Ｄモデル２２Ｍの表面のテクスチャを、例えば、図３に示すＵＶテクスチャマップのような展開図の形式で記憶したデータである。即ち、テクスチャ情報Ｔａは、視点位置に依らないデータである。例えば、３Ｄモデル２２Ｍが洋服を着た人物である場合に、テクスチャ情報Ｔａとして、洋服の模様と人物の皮膚や毛髪とを含むＵＶテクスチャマップが用意される。そして、３Ｄモデル２２Ｍを表すメッシュ情報Ｍの表面に、当該メッシュ情報Ｍに対応するテクスチャ情報Ｔａを貼り付ける（ＶＩレンダリング）ことによって、３Ｄモデル２２Ｍを描画することができる。そして、このとき、３Ｄモデル２２Ｍの観測位置が変化した場合であっても、同じ領域を表すメッシュには同じテクスチャ情報Ｔａを貼り付ける。このように、テクスチャ情報Ｔａを用いたＶＩレンダリングは、３Ｄモデル２２Ｍが着用している洋服のテクスチャ情報Ｔａを、洋服の部位を表す全てのメッシュに貼り付けることによって実行されるため、一般に、データサイズが小さく、レンダリング処理の計算負荷も軽い。但し、貼り付けられたテクスチャ情報Ｔａは一様であって、観測位置を変更してもテクスチャは変化しないため、テクスチャの品質は一般に低い。

　もう１つのテクスチャ情報Ｔは、３Ｄモデル２２Ｍを観測する視点位置に依存する（ＶＤ）テクスチャ情報Ｔｂである。テクスチャ情報Ｔｂは、被写体２２を多視点から観測した画像の集合によって表現される。即ち、テクスチャ情報Ｔｂは、視点位置に応じたデータである。具体的には、被写体２２をＮ台のカメラで観測した場合、テクスチャ情報Ｔｂは、各カメラが同時に撮像したＮ枚の画像で表現される。そして、３Ｄモデル２２Ｍの任意のメッシュに、テクスチャ情報Ｔｂをレンダリングする場合、Ｎ枚の画像の中から、該当するメッシュに対応する領域を全て検出する。そして、検出された複数の領域にそれぞれ写ったテクスチャを重み付けして、該当するメッシュに貼り付ける。このように、テクスチャ情報Ｔｂを用いたＶＤレンダリングは、一般に、データサイズが大きく、レンダリング処理の計算負荷は重い。しかし、貼り付けられたテクスチャ情報Ｔｂは、観測位置に応じて変化するため、テクスチャの品質は一般に高い。

［１－４．撮像表示装置の概略構成］
　次に、図４と図５を用いて、第１の実施形態の映像処理システム１０ａが備える撮像表示装置の概略構成を説明する。図４は、スタジオに設置された撮像表示装置の概略構成を示す図である。図５は、表示パネルのＯＮ／ＯＦＦとカメラのＯＮ／ＯＦＦのタイミング制御の一例を示す図である。

　Volumetricスタジオ１４ａにおいて、被写体２２の周囲には、被写体２２を取り囲むように複数のカメラ１６（１６ａ，１６ｂ，１６ｃ…）が配置されている。そして、隣り合うカメラ１６の隙間を埋めるように、複数の表示パネル１７（１７ａ，１７ｂ，１７ｃ…）が配置されている。表示パネル１７は、例えばＬＥＤパネル、液晶パネル、有機ＥＬパネル等である。複数のカメラ１６と複数の表示パネル１７とは、撮像表示装置１３ａを構成する。なお、図４において、カメラ１６と表示パネル１７とは、被写体２２の周囲一列に配置されているが、カメラ１６と表示パネル１７とは、Volumetricスタジオ１４ａの上下方向に、複数列に亘って配置されてもよい。

　撮像表示装置１３ａにおいて、複数のカメラ１６は、被写体２２の３Ｄモデル２２Ｍを生成するために、同時刻に被写体２２を撮像する。即ち、複数のカメラ１６の撮像タイミングは同期制御されている。

　また、撮像表示装置１３ａにおいて、複数の表示パネル１７には、仮想カメラ提示情報２０が表示される。なお、仮想カメラ提示情報２０について、詳しくは後述する（図７参照）。

　なお、カメラ１６の撮像タイミングと、表示パネル１７の表示タイミングとは重ならないようにタイミング制御される。詳しくは後述する（図５参照）。

　撮像表示装置１３の構成は、撮像表示装置１３ａに限定されるものではない。図４に示す撮像表示装置１３ｂは、表示パネル１７（１７ａ，１７ｂ，１７ｃ…）の代わりに、プロジェクタ２８（２８ａ，２８ｂ，２８ｃ…）と、プロジェクタ２８が投影した画像情報が投影される透過型スクリーン１８（１８ａ，１８ｂ，１８ｃ…）とを備える。

　プロジェクタ２８は、透過型スクリーン１８の背面側から、仮想カメラ提示情報２０を投影する。

　また、図４に示す撮像表示装置１３ｃは、表示パネル１７（１７ａ，１７ｂ，１７ｃ…）の代わりに、プロジェクタ２９（２９ａ，２９ｂ，２９ｃ…）と、当該プロジェクタ２９が投影した画像情報が投影される反射型スクリーン１９（１９ａ，１９ｂ，１９ｃ…）とを備える。

　プロジェクタ２８は、反射型スクリーン１９の正面側から、仮想カメラ提示情報２０を投影する。

　また、本開示の最も簡易的な実現形態として、図示はしないが、表示パネル１７の代わりに、全周位に亘ってレーザビームを投光可能なレーザポインタのような投影装置を用いて、仮想視点の位置を、輝点として提示してもよい。

　カメラ１６による被写体２２の撮像と、表示パネル１７（またはプロジェクタ２８、２９）への仮想カメラ提示情報２０の表示とは、図５に示すタイミングチャートに基づいて制御される。

　具体的には、撮像表示装置１３は、カメラ１６の撮像動作と、表示パネル１７（またはプロジェクタ２８、２９）への視覚情報の提示とを、時間的に交互に行う。即ち、カメラ１６が被写体２２の撮像を行う際には、表示パネル１７（またはプロジェクタ２８、２９）への視覚情報の提示（仮想カメラ提示情報２０の表示）は行われない。一方、表示パネル１７（またはプロジェクタ２８、２９）に仮想カメラ提示情報２０を提示する際には、カメラ１６による被写体２２の撮像を行わない。これによって、カメラ１６が被写体２２の撮像を行った際に、背景に仮想カメラ提示情報２０が写り込むのを防止する。

　図５では、カメラ１６が撮像を行う時間と、表示パネル１７（またはプロジェクタ２８、２９）に視覚情報（仮想カメラ提示情報２０）を提示する時間を略等しく描いているが、これらの時間の比率は、被写体２２の動きを確実に撮像できて、尚且つ、被写体２２が、仮想カメラ提示情報２０を十分に視認することができるように設定される。

　なお、映像処理装置１２ａは、撮像した被写体２２を含む画像の中から、被写体２２を分離する処理を行う。そのため、当該処理を行っている際に、表示パネル１７（またはプロジェクタ２８、２９）に仮想カメラ提示情報２０を表示してもよい。また、被写体２２を確実かつ容易に分離するために、ＩＲカメラとＩＲライトを用いて撮像してもよい。

［１－５．仮想カメラ提示情報の説明］
　次に、図６、図７、図８を用いて、仮想カメラ提示情報２０の具体例を説明する。図６は、表示パネルに表示される仮想カメラ提示情報の一例を示す図である。図７は、仮想カメラ提示情報の具体例を示す第１の図である。図８は、仮想カメラ提示情報の具体例を示す第２の図である。

　図６に示すように、Volumetricスタジオ１４ａの内壁面１５には、Ｈ軸に沿う縦方向とθ軸に沿う横方向に、複数の表示パネル１７が敷き詰められている。そして、４枚の表示パネル１７の隣接位置には、カメラ１６が設置されている。

　図１に示した映像処理装置１２ａは、仮想視点に対応する位置に、画枠２１を表示する。そして、画枠２１の中には、例えば図７に示す仮想カメラ提示情報２０が表示される。画枠２１は、例えば矩形状であり、映像処理装置１２ａから指示された、左上頂点（θo，ｈo）、横幅Ｗａ、高さＨａの位置に設定される。そして、設定された画枠２１の内部に、仮想カメラ提示情報２０が表示される。

　なお、図６に示すように、設定される画枠２１は、複数の表示パネル１７と重複するものであってもよい。また、映像処理装置１２ａが設定する仮想視点の数は１つに限らないため、一般に、Volumetricスタジオ１４ａの内壁面１５には、複数の画枠２１が設定される。

　このようにして設定された画枠２１には、例えば、図７に示す仮想カメラ提示情報２０が表示される。

　図７に示す仮想カメラ提示情報２０ａ（２０）は、画枠２１の内部に、カメラアイコン３０と、タリーランプ３１と、カメラマンアイコン３２と、カメラ名３３とを含む。仮想カメラ提示情報２０ａ（２０）は、映像処理装置１２ａが設定した仮想視点の位置を被写体２２に知らせる情報である。なお、仮想カメラ提示情報２０は、本開示における仮想視点に係る情報の一例である。

　カメラアイコン３０は、映像処理装置１２ａが設定した仮想視点の位置に置かれた仮想カメラを模擬したアイコンである。カメラアイコン３０は、被写体２２と仮想視点との距離、仮想視点における視線方向を模擬した形態で表示される。また、カメラアイコン３０は、Volumetricスタジオ１４ａの内壁面１５の向こう側から被写体２２を覗き込むような形態で表示される。

　タリーランプ３１は、仮想視点の位置に置かれた仮想カメラの動作状態を示す。例えば、仮想カメラが撮像及び配信を行っている場合（On　Air状態）には、タリーランプ３１が赤色に点灯する。また、仮想カメラが撮像のみを行っている場合には、タリーランプ３１が緑色に点灯する。

　カメラマンアイコン３２は、仮想視点をコントロールするオペレータに一意に対応付けられたアイコンであり、予め設定された任意のアイコンが表示される。被写体２２は、カメラマンアイコン３２を確認することによって、仮想視点の位置を設定しているオペレータが誰であるかを認識することができる。なお、被写体２２と仮想視点の距離に応じて、カメラマンアイコン３２の大きさを変化させてもよい。例えば、被写体２２と仮想視点の距離が近いほど、カメラマンアイコン３２を大きく表示してもよい。また、カメラマンアイコン３２は、オペレータ自身を撮像した映像であってもよい。

　カメラ名３３は、仮想カメラに一意に対応付けられた識別情報であり、予め設定された任意の名称が表示される。

　仮想カメラ提示情報２０は、設定された仮想視点の状態に応じた形態に変化する。図７に示す仮想カメラ提示情報２０ｂ（２０）は、仮想カメラ提示情報２０ａとは異なる仮想視点に係る情報を表示したものである。より具体的には、仮想カメラ提示情報２０ｂ（２０）は、仮想カメラ提示情報２０ａ（２０）とは別の仮想カメラの情報である。また、仮想視点における視線方向が、仮想カメラ提示情報２０ａとは異なっている。

　また、仮想カメラ提示情報２０ｂに表示されたカメラアイコン３０およびカメラマンアイコン３２は、仮想カメラ提示情報２０ａにおけるカメラアイコン３０およびカメラマンアイコン３２よりも大きく描画されている。これは、仮想カメラ提示情報２０ｂが示す仮想視点の位置は、仮想カメラ提示情報２０ａが示す仮想視点の位置よりも被写体２２に近いことを示している。

　なお、図７には図示しないが、仮想視点と被写体２２とが近いほど、画枠２１の大きさを大きくしてもよい。

　図８に示す仮想カメラ提示情報２０ｃ（２０）は、映像処理装置１２ａによって仮想視点をコントロールするオペレータが、被写体２２に対するメッセージを表示した例である。即ち、仮想カメラ提示情報２０ｃ（２０）は、メッセージ情報３７を含む。

［１－６．仮想カメラ提示情報のバリエーション］
　次に、図９から図１２を用いて、仮想カメラ提示情報２０のバリエーションを説明する。図９は、仮想カメラ提示情報の代表的なバリエーションを示す図である。

　図９において、仮想カメラ提示情報２０ｄ（２０）は、仮想カメラが被写体２２の方向を向いていることを示す。

　仮想カメラ提示情報２０ｄ（２０）が提示された状態で、別の仮想カメラが接近した場合、映像処理装置１２ａは、仮想カメラ提示情報２０ｅ（２０）を提示する。仮想カメラ提示情報２０ｅ（２０）は、「１カメ」と「２カメ」が互いに接近した状態にあることを示す。なお、このように複数のカメラをグループ化した状態で表示された仮想カメラ提示情報２０を、特に、仮想カメラグループ提示情報２００と呼ぶ。

　また、仮想カメラ提示情報２０ｄ（２０）が提示された状態で、仮想カメラが被写体２２に接近した場合、仮想カメラ提示情報２０ｆ（２０）が提示される。仮想カメラ提示情報２０ｆ（２０）は、カメラアイコン３０が、より大きく描画されることによって、仮想カメラが被写体２２に接近したことを示す。なお、このときに、画枠２１をより大きく描画してもよい。また、図９には図示しないが、仮想カメラが被写体２２から遠ざかった場合は、カメラアイコン３０がより小さく描画される。

　仮想カメラ提示情報２０ｇ（２０）は、仮想カメラ提示情報２０ｄ（２０）が提示された状態から、仮想カメラの向きが変化した場合に提示される情報である。図９の仮想カメラ提示情報２０ｇ（２０）は、仮想カメラが右に向きを変えたことを示している。

　仮想カメラ提示情報２０ｈ（２０）は、仮想視点に置かれた仮想カメラが、実際に撮影を開始した状態であることを示す。この場合、タリーランプ３１の表示形態が、撮影中であることを示す状態に変更される。

　図１０は、仮想カメラが、表示パネルがない位置に設定されていることを示す仮想カメラ提示情報の一例を示す図である。

　仮想視点（仮想カメラ）は、被写体２２を取り囲むいずれの位置にも設置することができる。そのため、Volumetricスタジオ１４ａの天井や床面のように、表示パネル１７を設置できない、あるいは設置が困難な位置にも、仮想カメラを設置することができる。このような場合、映像処理装置１２ａは、仮想カメラ提示情報２０の中に、仮想カメラが表示パネル１７の設置位置の外側にあることを示すカメラ位置表示アイコン３４を表示する。

　図１０に示す仮想カメラ提示情報２０ｉ（２０）は、カメラ位置表示アイコン３４ａ（３４）を含む。カメラ位置表示アイコン３４ａ（３４）は、仮想カメラが、Volumetricスタジオ１４ａの内壁面１５の天井に設定されていることを示す。

　また、仮想カメラ提示情報２０ｊ（２０）は、カメラ位置表示アイコン３４ｂ（３４）を含む。カメラ位置表示アイコン３４ｂ（３４）は、仮想カメラが、Volumetricスタジオ１４ａの内壁面１５の床面に設定されていることを示す。

　図１０に示す仮想カメラ提示情報２０ｋ（２０）は、カメラ位置表示アイコン３４ｃ（３４）を含む。カメラ位置表示アイコン３４ｃ（３４）は、カメラ位置表示アイコン３４ａ（３４）を変形したアイコンである。カメラ位置表示アイコン３４ｃ（３４）は、仮想カメラが、天井のどのあたりに設定されているかを示す。カメラ位置表示アイコン３４ｃ（３４）が含む矩形領域は、仮想カメラの設定位置を示している。仮想カメラが、仮想カメラ提示情報２０ｋ（２０）が表示されている側の最上部（天井）に設定されている場合、カメラ位置表示アイコン３４ｃ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｃ（３４）の最下部に表示される。一方、仮想カメラが、仮想カメラ提示情報２０ｋ（２０）が表示されている側の背面側の最上部（天井）に設定されている場合、カメラ位置表示アイコン３４ｃ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｃ（３４）の最上部に表示される。また、仮想カメラが被写体２２の真上に設置されている場合、カメラ位置表示アイコン３４ｃ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｃ（３４）の中央に表示される。

　また、仮想カメラ提示情報２０ｌ（２０）は、カメラ位置表示アイコン３４ｄ（３４）を含む。カメラ位置表示アイコン３４ｄ（３４）は、カメラ位置表示アイコン３４ｂ（３４）を変形したアイコンである。カメラ位置表示アイコン３４ｄ（３４）は、仮想カメラが、床面のどのあたりに設定されているかを示す。カメラ位置表示アイコン３４ｄ（３４）が含む矩形領域は、仮想カメラの設定位置を示している。仮想カメラが、仮想カメラ提示情報２０ｌ（２０）が表示されている側の最下部（床面）に設定されている場合、カメラ位置表示アイコン３４ｄ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｄ（３４）の最上部に表示される。一方、仮想カメラが、仮想カメラ提示情報２０ｌ（２０）が表示されている側の背面側の最下部（床面）に設定されている場合、カメラ位置表示アイコン３４ｄ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｃ（３４）の最下部に表示される。また、仮想カメラが被写体２２の真下に設置されている場合、カメラ位置表示アイコン３４ｄ（３４）が含む矩形領域は、カメラ位置表示アイコン３４ｄ（３４）の中央に表示される。

　図１１は、仮想カメラ提示情報が、仮想カメラのカメラワークを表示した例を示す図である。

　図１１に示す画枠２１の中に表示される仮想カメラ提示情報２０ｍ（２０）は、映像処理装置１２ａが生成した仮想カメラの移動軌跡を示すカメラワーク情報３５と、カメラワーク３６とを含む。なお、カメラワーク情報３５は、カメラワークの名称を示す。

　カメラワーク３６は、仮想カメラの実際の動きの方向を示す矢印である。仮想カメラの動きを矢印で表現することによって、被写体２２は、仮想カメラの動きを予測してパフォーマンスを行うことができる。なお、図１１に示すように、カメラワーク３６を示す矢印の前方を濃く表示して、カメラワーク３６を示す矢印の後方を徐々に薄く表示することによって、カメラワークの方向を強調してもよい。

　また、仮想カメラの移動速度が遅い場合は、図１１に示すように、現在の仮想カメラの位置をカメラワーク３６に重畳して逐次表示してもよいが、仮想カメラの移動速度が速い場合は、カメラワーク３６の終点に仮想カメラの位置を表示してもよい。

　図１２は、複数の仮想カメラの設定位置が重複した場合の仮想カメラ提示情報の一例を示す図である。

　映像処理装置１２ａは、Volumetricスタジオ１４ａの内壁面１５に、複数の仮想カメラを設定する。設定された複数の仮想カメラは、それぞれ自由に移動する。したがって、複数の仮想カメラの位置が接近する場合がある。

　図１２は、設定された２つの仮想カメラが、時刻ｔの経過とともに、互いに接近する方向に移動した後、すれ違って遠ざかる様子を示している。

　この場合、最初は、各仮想カメラに対応する仮想カメラ提示情報２０ｎ１（２０）と仮想カメラ提示情報２０ｎ２（２０）とが表示される。そして、２つの仮想カメラの位置が接近した場合、１つの画枠２１に、仮想カメラ提示情報２０ｎ３（２０）、即ち仮想カメラグループ提示情報２００が表示される。仮想カメラグループ提示情報２００は、分割された１枚の画枠２１の中に、接近した位置にある複数の仮想カメラの仮想カメラ提示情報２０を含む。

　その後、２つの仮想カメラがすれ違った後は、再び、各仮想カメラに対応する仮想カメラ提示情報２０ｎ１（２０）と仮想カメラ提示情報２０ｎ２（２０）とが表示される。

［１－７．第１の実施形態の映像処理システムの機能構成］
　次に、図１３と図１４を用いて、映像処理システム１０ａの機能構成を説明する。図１３は、第１の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。図１４は、仮想カメラ情報生成部の入出力情報の一例を示す図である。

　図１３に示すように、映像処理システム１０ａは、映像処理装置１２ａと、撮像表示装置１３を構成するカメラ１６と表示パネル１７とを備える。また、映像処理システム１０ａは、周辺機器であるリモコン５４と、インカム５５と、マイク５６と、スピーカ５７と、視聴デバイス５３ａとを備える。なお、カメラ１６と表示パネル１７の機能は、前述した通りであるため、説明を省略する。

　映像処理装置１２ａは、コントローラ４０と、仮想カメラ情報生成部４１と、仮想カメラ提示情報生成部４２と、ＵＩ部４３と、スタジオ内映像表示部４４と、音声出力部４５と、Volumetric映像撮影部４６と、Volumetric映像生成部４７と、マスタオーディオ出力部４８と、オーディオ収録部４９と、ＣＧ背景生成部５０と、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１と、配信部５２とを備える。これらの機能部は、コンピュータの構成を備える映像処理装置１２ａのＣＰＵが、映像処理装置１２ａの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置１２ａの全て、または一部の機能を、ハードウエアによって実現してもよい。

　コントローラ４０は、仮想カメラに係る情報を生成する。コントローラ４０は、例えば、ジョイスティックや選択ボタン等の操作デバイスを備えた情報入力装置であり、ユーザの操作指示に応じて、仮想視点の位置やカメラワーク情報等を設定する。なお、映像処理装置１２ａは、複数のコントローラ４０を備えることによって、複数の仮想視点を設定可能である。

　また、コントローラ４０は、非図示のカメラとマイクとを備える。コントローラ４０が備えるカメラは、仮想視点をコントロールするオペレータを撮像する。また、コントローラ４０が備えるマイクは、仮想視点をコントロールするオペレータの発話（音声）を取得する。

　コントローラ４０は、更に、仮想視点をコントロールするオペレータのメッセージを選択、送信する選択ボタン等の操作デバイスを備える。

　仮想カメラ情報生成部４１は、コントローラ４０から、仮想視点に係る情報およびオペレータに係る情報を取得する。仮想視点に係る情報は、例えば、図１４に示す仮想カメラ位置情報Ｆａと、カメラワーク情報Ｆｂと、カメラ情報Ｆｆとを含む。また、オペレータに係る情報は、例えば、図１４に示すオペレータ映像Ｆｃと、オペレータ音声Ｆｄと、オペレータメッセージＦｅとを含む。なお、仮想カメラ情報生成部４１は、本開示における第２の取得部の一例である。

　仮想カメラ位置情報Ｆａは、仮想カメラの位置座標、仮想カメラの向き、仮想カメラの画角等を含む。仮想カメラ位置情報Ｆａは、コントローラ４０が備えるジョイスティック等の操作デバイスの操作によって設定される。

　カメラワーク情報Ｆｂは、仮想カメラの移動軌跡に係る情報である。カメラワーク情報Ｆｂは、具体的には、カメラワーク開始位置、カメラワーク終了位置、開始位置と終了位置の間の軌跡、仮想カメラの移動速度、カメラワークの名称等を含む。カメラワーク情報Ｆｂは、コントローラ４０が備える選択ボタン等の操作デバイスの操作によって設定される。

　カメラ情報Ｆｆは、仮想視点に係る、カメラ番号、カメラ名、カメラ状態、カメラアイコン／イメージ、カメラ優先度等の情報を含む。

　オペレータ映像Ｆｃは、仮想視点をコントロールするオペレータ自身を撮像した映像である。映像処理装置１２ａは、オペレータ映像Ｆｃを、カメラマンアイコン３２（図７参照）の代わりに、仮想カメラ提示情報２０の中に表示してもよい。

　オペレータ音声Ｆｄは、仮想視点をコントロールするオペレータが被写体２２に伝える音声メッセージである。

　オペレータメッセージＦｅは、仮想視点をコントロールするオペレータが被写体２２に伝えるテキストメッセージである。オペレータメッセージＦｅは、コントローラ４０が備える選択ボタン等の操作デバイスの操作によって設定される。

　仮想カメラ情報生成部４１は、取得した各種情報を仮想カメラ毎に纏めた仮想カメラ情報Ｆ（図１４参照）を生成する。そして、仮想カメラ情報生成部４１は、生成した仮想カメラ情報Ｆを仮想カメラ提示情報生成部４２に送る。なお、カメラワーク情報Ｆｂについては、仮想カメラ情報生成部４１の内部でカメラワークの再生状態を管理して、カメラワーク再生中であれば、仮想カメラの位置情報を逐次更新する。

　仮想カメラ提示情報生成部４２は、表示パネル１７に提示する仮想カメラ提示情報２０を生成する。より具体的には、仮想カメラ提示情報生成部４２は、被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を生成する。より具体的には、仮想カメラ情報Ｆが有する仮想カメラの位置座標、カメラ情報に基づき、必要に応じて、いずれも前述した、タリーランプ３１の表示色の変更、複数の仮想カメラ提示情報２０の合成、仮想カメラが天井や床面にあることを示すカメラ位置表示アイコン３４の生成等を行うことによって、仮想カメラ提示情報２０を生成する。更に、仮想カメラ提示情報生成部４２は、音声出力部４５から出力する音声出力を生成する。

　ＵＩ部４３は、被写体２２またはディレクターが所持するリモコン５４から、映像処理装置１２ａが使用する各種パラメータの設定変更等を行う。被写体２２は、ＵＩ部４３を操作することによって、仮想視点をコントロールする特定のオペレータを選択して、選択したオペレータと音声会話を行う。なお、ＵＩ部４３は、本開示における選択部の一例である。

　スタジオ内映像表示部４４は、仮想カメラ提示情報生成部４２から受け取った仮想カメラ提示情報２０を、複数の表示パネル１７の対応する位置に表示する。なお、スタジオ内映像表示部４４は、本開示における提示部の一例である。

　音声出力部４５は、仮想カメラ情報Ｆから受け取った音声データをインカム５５に出力する。これによって、仮想視点をコントロールするオペレータの各種指示を被写体２２に伝達する。

　Volumetric映像撮影部４６は、被写体２２の周囲に配置されて、外部同期された複数のカメラ１６を用いて、複数の方向から同時に撮像した被写体２２の実画像を撮像する。また、Volumetric映像撮影部４６は、撮像によって得られた実カメラ映像Ｉを、フレーム番号と、撮像したカメラ１６を特定する識別情報とを含むVolumetricカメラ映像データとして、Volumetric映像生成部４７に送る。なお、Volumetric映像撮影部４６は、本開示における第１の取得部の一例である。

　Volumetric映像生成部４７は、Volumetric映像撮影部４６からVolumetricカメラ映像データを受け取って、Volumetric映像生成処理を行う。なお、Volumetric映像生成部４７は、カメラ１６の歪補正を行うための内部キャリブレーション、および各カメラ１６の相対位置を求める外部キャリブレーションを行ったキャリブレーションデータを保持しており、当該キャリブレーションデータを用いて、撮像した実カメラ映像Ｉを補正する。そして、Volumetric映像生成部４７は、Volumetric映像撮影部４６が取得したVolumetricカメラ映像データに基づいて、被写体２２のモデリング処理、即ち３Ｄモデル２２Ｍの生成を行う。その後、Volumetric映像生成部４７は、取得した仮想カメラ位置情報に基づいて、被写体２２の３Ｄモデル２２Ｍを仮想視点から見たVolumetric映像のレンダリングを行う。Volumetric映像生成部４７は、レンダリングしたVolumetric映像とフレーム番号と仮想カメラ情報Ｆとを、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１に送る。なお、Volumetric映像生成部４７は、本開示における生成部の一例である。

　マスタオーディオ出力部４８は、被写体２２が歌唱やダンスパフォーマンスを行う際の楽曲をスピーカ５７から出力する。また、マスタオーディオ出力部４８は、当該楽曲のオーディオデータを、オーディオ収録部４９に送る。

　オーディオ収録部４９は、マスタオーディオ出力部４８からのオーディオデータと、マイク５６から入力されたオーディオデータ（例えば、被写体２２の歌唱データ）とをミックスしたオーディオデータを生成して、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１に送る。

　ＣＧ背景生成部５０は、予め用意された背景ＣＧデータに基づき、フレーム番号付きの背景ＣＧデータを生成する。そして、ＣＧ背景生成部５０は、生成した背景ＣＧデータをVolumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１に送る。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、取得したVolumetric映像データと背景ＣＧデータとを、Volumetric映像データに含まれる仮想カメラ位置情報に基づいてレンダリング処理及び重畳処理することによって、仮想視点から見た、例えば２Ｄ映像を生成する。そして、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、生成した２Ｄ映像とオーディオ情報とを多重化（ＭＵＸ）した配信コンテンツを、配信部５２に送る。なお、ユーザの視聴デバイス５３ａが３次元情報を表示可能なデバイスである場合、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、被写体２２の３Ｄモデル２２Ｍを３Ｄ画像にレンダリングすることによって、３Ｄ映像を生成する。

　配信部５２は、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１から受け取ったコンテンツを、視聴デバイス５３ａに向けて配信する。

　周辺機器として用意されるリモコン５４は、映像処理装置１２ａが使用する各種パラメータの設定変更等を行う。

　インカム５５は、被写体２２が装着して、仮想視点をコントロールするオペレータからの音声を聞く。

　マイク５６は、被写体２２の歌声や会話を録音する。

　スピーカ５７は、被写体２２が、撮影時に聞く音楽等を出力する。

　視聴デバイス５３ａは、ユーザが、１２ａから配信されたコンテンツを視聴するために用いるデバイスである。視聴デバイス５３ａは、例えば、タブレット端末やスマートフォン等である。

［１－８．第１の実施形態の映像処理システムが行う処理の全体の流れ］
　図１５を用いて、映像処理システム１０ａが行う処理の全体の流れを説明する。

　仮想カメラ情報生成部４１は、仮想カメラ情報Ｆを生成する仮想カメラ情報生成処理を行う（ステップＳ１１）。なお、仮想カメラ情報生成処理の詳細は後述する（図１６参照）。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０を生成する仮想カメラ提示情報生成処理を行う（ステップＳ１２）。なお、仮想カメラ提示情報生成処理の詳細は後述する（図１７参照）。

　スタジオ内映像表示部４４は、仮想カメラ提示情報２０を、表示パネル１７の対応する位置に提示する映像を生成して、生成した映像を表示パネル１７に出力する仮想カメラ提示情報出力処理を行う（ステップＳ１３）。なお、仮想カメラ提示情報出力処理の詳細は後述する（図１７，図２７参照）。

　Volumetric映像生成部４７は、Volumetric映像撮影部４６から受け取ったVolumetricカメラ映像データに基づいてVolumetric映像を生成するVolumetric映像生成処理を行う（ステップＳ１４）。なお、Volumetric映像生成処理の流れは後述する（図２８参照）。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、Volumetric映像と背景映像の重畳処理を行う（ステップＳ１５）。なお、Volumetric映像と背景映像の重畳処理の流れは後述する（図２９参照）。

　配信部５２は、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１から受け取ったコンテンツを、視聴デバイス５３ａに向けて配信する配信処理を行う（ステップＳ１６）。

［１－９．仮想カメラ情報生成処理の流れ］
　図１６を用いて、仮想カメラ情報生成処理の流れを説明する。図１６は、図１５における仮想カメラ情報生成処理の流れの一例を示すフローチャートである。

　仮想カメラ情報生成部４１は、コントローラ４０から、仮想カメラ位置情報Ｆａとカメラワーク情報Ｆｂを取得する（ステップＳ２１）。

　仮想カメラ情報生成部４１は、カメラワーク情報Ｆｂに基づき、カメラワークキューを更新する（ステップＳ２２）。

　仮想カメラ情報生成部４１は、カメラワークキューに再生中のカメラワークがあるかを判定する（ステップＳ２３）。再生中のカメラワークがあると判定される（ステップＳ２３：Ｙｅｓ）とステップＳ２４に進む。一方、再生中のカメラワークがあると判定されない（ステップＳ２３：Ｎｏ）とステップＳ２６に進む。

　ステップＳ２３において、再生中のカメラワークがあると判定されると、仮想カメラ情報生成部４１は、仮想カメラ位置情報Ｆａを、現在再生中のカメラワークのフレーム番号とカメラワーク情報Ｆｂに基づき更新する（ステップＳ２４）。

　次に、仮想カメラ情報生成部４１は、仮想カメラ情報Ｆを生成して、現在のカメラワークに基づき、カメラワーク名と再生フレーム番号を設定する（ステップＳ２５）。その後、メインルーチン（図１５）に戻る。

　一方、ステップＳ２３において、再生中のカメラワークがあると判定されないと、仮想カメラ情報生成部４１は、カメラワーク名と再生フレーム番号をクリアすることによって、その時点における仮想カメラの位置を維持する（ステップＳ２６）。その後、メインルーチン（図１５）に戻る。

［１－１０．仮想カメラ提示情報生成処理の流れ］
　図１７を用いて、仮想カメラ情報生成処理の流れを説明する。図１７は、図１５における仮想カメラ提示情報生成処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、現在のフレーム番号の全ての仮想カメラ情報Ｆを取得する（ステップＳ３１）。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０を生成する（ステップＳ３２）。

　仮想カメラ提示情報生成部４２は、生成した仮想カメラ提示情報２０に基づいて、近傍のカメラをグループ化して仮想カメラグループ提示情報２００を生成する（ステップＳ３３）。

　仮想カメラ提示情報生成部４２は、仮想カメラグループ提示情報２００に基づいて、仮想カメラグループ表示タイプ判定処理を行う（ステップＳ３４）。なお、仮想カメラグループ表示タイプ判定処理の詳細は後述する（図１８参照）。

　仮想カメラ提示情報生成部４２は、同じグループに含まれる仮想カメラ情報Ｆを、カメラ状態やカメラ優先度に基づいてソートする仮想カメラグループ優先度判定処理を行う（ステップＳ３５）。なお、仮想カメラグループ優先度判定処理の詳細は後述する（図１９参照）。

　仮想カメラ提示情報生成部４２は、仮想カメラグループ提示情報２００を生成する仮想カメラグループ提示情報生成処理を行う（ステップＳ３６）。なお、仮想カメラグループ提示情報生成処理の詳細は後述する（図２０参照）。

　仮想カメラ提示情報生成部４２は、被写体２２に提示する音声出力を生成する仮想カメラグループ音声生成処理を行う（ステップＳ３７）。なお、仮想カメラグループ音声生成処理の詳細は後述する（図２６参照）。その後、メインルーチン（図１５）に戻る。

［１－１０－１．仮想カメラグループ表示タイプ判定処理の流れ］
　図１８を用いて、図１７のステップＳ３４に示した仮想カメラグループ表示タイプ判定処理の流れを説明する。図１８は、図１７における仮想カメラグループ表示タイプ判定処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラの数が２以上で、仮想カメラをグループ表示する際の最大分割数が２以上であるかを判定する（ステップＳ４１）。条件を満足する場合（ステップＳ４１：Ｙｅｓ）はステップＳ４２に進む。一方、条件を満足しない場合（ステップＳ４１：Ｎｏ）はステップＳ４３に進む。

　ステップＳ４１において、条件を満足すると判定されると、仮想カメラ提示情報生成部４２は、仮想カメラの数が４以上で、仮想カメラをグループ表示する際の最大分割数が４以上であるかを判定する（ステップＳ４２）。条件を満足する場合（ステップＳ４２：Ｙｅｓ）は、仮想カメラの数、および仮想カメラをグループ表示する際の最大分割数を増やして、ステップＳ４１，ステップＳ４２と同様の判定を続ける。一方、条件を満足しない場合（ステップＳ４２：Ｎｏ）はステップＳ４５に進む。

　ステップＳ４１，ステップＳ４２と同様の判定を続けて、条件を満足すると判定されると、仮想カメラ提示情報生成部４２は、仮想カメラの数が７以上で、仮想カメラをグループ表示する際の最大分割数が７以上であるかを判定する（ステップＳ４４）。条件を満足する場合（ステップＳ４４：Ｙｅｓ）はステップＳ４７に進む。一方、条件を満足しない場合（ステップＳ４４：Ｎｏ）はステップＳ４６に進む。

　ステップＳ４１において、条件を満足しない（ステップＳ４１：Ｎｏ）と判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ表示タイプを１、即ち、仮想カメラ表示分割数を１とする（ステップＳ４３）。その後、図１７のフローチャートに戻る。

　ステップＳ４２において、条件を満足しない（ステップＳ４２：Ｎｏ）と判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ表示タイプを２、即ち、仮想カメラ表示分割数を２とする（ステップＳ４３）。その後、図１７のフローチャートに戻る。

　ステップＳ４４において、条件を満足しない（ステップＳ４４：Ｙｅｓ）と判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ表示タイプを６４、即ち、仮想カメラ表示分割数を６４とする（ステップＳ４３）。その後、図１７のフローチャートに戻る。

　ステップＳ４４において、条件を満足しない（ステップＳ４４：Ｎｏ）と判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ表示タイプを４９、即ち、仮想カメラ表示分割数を４９とする（ステップＳ４３）。その後、図１７のフローチャートに戻る。

［１－１０－２．仮想カメラグループ優先度判定処理の流れ］
　図１９を用いて、図１７のステップＳ３５に示した仮想カメラグループ優先度判定処理の流れを説明する。図１９は、図１７における仮想カメラグループ優先度判定処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、同じグループに含まれる仮想カメラ情報Ｆをカメラ状態、カメラ優先度に合わせてソートする（ステップＳ５１）。その後、図１７のフローチャートに戻る。

［１－１０－３．仮想カメラグループ提示情報生成処理の流れ］
　図２０を用いて、図１７のステップＳ３６に示した仮想カメラグループ提示情報生成処理の流れを説明する。図２０は、図１７における仮想カメラグループ提示情報生成処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、グループに含まれる仮想カメラは１つかを判定する（ステップＳ６１）。グループに含まれる仮想カメラは１つであると判定される（ステップＳ６１：Ｙｅｓ）とステップＳ６２に進む。一方、グループに含まれる仮想カメラは１つであると判定されない（ステップＳ６１：Ｎｏ）とステップＳ６８に進む。

　ステップＳ６１において、グループに含まれる仮想カメラは１つであると判定されると、仮想カメラ提示情報生成部４２は、画枠が表示可能な位置にあるかを判定する（ステップＳ６２）。画枠が表示可能な位置にあると判定される（ステップＳ６２：Ｙｅｓ）とステップＳ６３に進む。一方、画枠が表示可能な位置にあると判定されない（ステップＳ６２：Ｎｏ）とステップＳ６４に進む。

　ステップＳ６２において、画枠が表示可能な位置にあると判定されると、仮想カメラ提示情報生成部４２は、通常の仮想カメラ提示情報２０を生成する（ステップＳ６３）。その後、ステップＳ６５に進む。なお、ステップＳ６３で行う処理の詳細な流れは後述する（図２１参照）。

　ステップＳ６２において、画枠が表示可能な位置にあると判定されないと、仮想カメラ提示情報生成部４２は、位置補正した仮想カメラ提示情報２０を生成する（ステップＳ６４）。その後、ステップＳ６５に進む。なお、ステップＳ６４で行う処理の詳細な流れは後述する（図２２参照）。

　ステップＳ６３またはステップＳ６４に続いて、仮想カメラ提示情報生成部４２は、カメラワークが再生中であるかを判定する（ステップＳ６５）。カメラワークが再生中であると判定される（ステップＳ６５：Ｙｅｓ）と、ステップＳ６６に進む。一方、カメラワークが再生中であると判定されないと、図１７のフローチャートに戻る。

　ステップＳ６５において、カメラワークが再生中であると判定されると、仮想カメラ提示情報生成部４２は、カメラワーク表示設定がオンになっているかを判定する（ステップＳ６６）。カメラワーク表示設定がオンになっていると判定される（ステップＳ６６：Ｙｅｓ）と、ステップＳ６７に進む。一方、カメラワーク表示設定がオンになっていると判定されない（ステップＳ６６：Ｎｏ）と、図１７のフローチャートに戻る。

　ステップＳ６６において、カメラワーク表示設定がオンになっていると判定されると、仮想カメラ提示情報生成部４２は、カメラワーク表示処理を行う（ステップＳ６７）。その後、図１７のフローチャートに戻る。なお、ステップＳ６７で行う処理の詳細な流れは後述する（図２５参照）。

　ステップＳ６１に戻り、ステップＳ６１において、グループに含まれる仮想カメラは１つであると判定されないと、仮想カメラ提示情報生成部４２は、画枠が表示可能な位置にあるかを判定する（ステップＳ６８）。画枠が表示可能な位置にあると判定される（ステップＳ６８：Ｙｅｓ）とステップＳ６９に進む。一方、画枠が表示可能な位置にあると判定されない（ステップＳ６８：Ｎｏ）とステップＳ７０に進む。

　ステップＳ６８において、画枠が表示可能な位置にあると判定されると、仮想カメラ提示情報生成部４２は、通常の仮想カメラグループ提示情報２００を生成する（ステップＳ６９）。その後、図１７のフローチャートに戻る。なお、ステップＳ６８で行う処理の詳細な流れは後述する（図２３参照）。

　ステップＳ６８において、画枠が表示可能な位置にあると判定されないと、仮想カメラ提示情報生成部４２は、位置補正した仮想カメラグループ提示情報２００を生成する（ステップＳ７０）。その後、図１７のフローチャートに戻る。なお、ステップＳ７０で行う処理の詳細な流れは後述する（図２４参照）。

　次に、図２１を用いて、通常の仮想カメラ提示情報２０の生成処理の流れを説明する。図２１は、図２０における仮想カメラ提示情報生成処理（通常）の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０の表示モードがノーマルであるかを判定する（ステップＳ７１）。仮想カメラ提示情報２０の表示モードがノーマルであると判定される（ステップＳ７１：Ｙｅｓ）とステップＳ７２に進む。一方、仮想カメラ提示情報２０の表示モードがノーマルであると判定されない（ステップＳ７１：Ｎｏ）とステップＳ７３に進む。

　ステップＳ７１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ情報Ｆに基づいて、仮想カメラ提示情報２０を生成する（ステップＳ７２）。その後、図２０のフローチャートに戻る。なお、図２１に示す仮想カメラ提示情報２０ｐ１（２０）は、ステップＳ７２で生成された仮想カメラ提示情報の一例である。

　一方、ステップＳ７１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラを模したパーティクル３８が描画された仮想カメラ提示情報２０を生成する（ステップＳ７３）。その後、図２０のフローチャートに戻る。なお、図２１に示す仮想カメラ提示情報２０ｐ２（２０）は、ステップＳ７３で生成された仮想カメラ提示情報の一例である。

　次に、図２２を用いて、位置補正した仮想カメラ提示情報２０の生成処理の流れを説明する。図２２は、図２０における仮想カメラ提示情報生成処理（位置補正）の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０の表示モードがノーマルであるかを判定する（ステップＳ８１）。仮想カメラ提示情報２０の表示モードがノーマルであると判定される（ステップＳ８１：Ｙｅｓ）とステップＳ８２に進む。一方、仮想カメラ提示情報２０の表示モードがノーマルであると判定されない（ステップＳ８１：Ｎｏ）とステップＳ８３に進む。

　ステップＳ８１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部４２は、仮想カメラ情報Ｆに基づいて、画角情報を更新して仮想カメラ提示情報２０を生成する（ステップＳ８２）。その後、図２０のフローチャートに戻る。なお、図２２に示す仮想カメラ提示情報２０ｑ１（２０），２０ｑ２（２０）は、ステップＳ８２で生成されて、内壁面１５に表示された仮想カメラ提示情報の一例である。

　一方、ステップＳ８１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラを模したパーティクルが描画された仮想カメラ提示情報２０を生成する（ステップＳ８３）。その後、図２０のフローチャートに戻る。なお、図２２に示す仮想カメラ提示情報２０ｑ３（２０），２０ｑ４（２０）は、ステップＳ８３で生成されて、内壁面１５に表示された仮想カメラ提示情報の一例である。

　次に、図２３を用いて、通常の仮想カメラグループ提示情報２００の生成処理の流れを説明する。図２３は、図２０における仮想カメラグループ提示情報生成処理（通常）の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０の表示モードがノーマルであるかを判定する（ステップＳ９１）。仮想カメラ提示情報２０の表示モードがノーマルであると判定される（ステップＳ９１：Ｙｅｓ）とステップＳ９２に進む。一方、仮想カメラ提示情報２０の表示モードがノーマルであると判定されない（ステップＳ９１：Ｎｏ）とステップＳ９６に進む。

　ステップＳ９１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部４２は、画枠２１の分割表示枠に残りがあるかを判定する（ステップＳ９２）。画枠２１の分割表示枠に残りがあると判定される（ステップＳ９２：Ｙｅｓ）とステップＳ９３に進む。一方、画枠２１の分割表示枠に残りがあると判定されない（ステップＳ９２：Ｎｏ）と、図２０のフローチャートに戻る。

　ステップＳ９２において、画枠２１の分割表示枠に残りがあると判定されると、仮想カメラ提示情報生成部４２は、表示すべき仮想カメラがあるかを判定する（ステップＳ９３）。表示すべき仮想カメラがあると判定される（ステップＳ９３：Ｙｅｓ）とステップＳ９４に進む。一方、表示すべき仮想カメラがあると判定されない（ステップＳ９３：Ｎｏ）と、図２０のフローチャートに戻る。

　ステップＳ９３において、表示すべき仮想カメラがあると判定されると、仮想カメラ提示情報生成部４２は、図２１のフローチャートを実行することによって、通常の仮想カメラ提示情報２０の生成処理を行う（ステップＳ９４）。

　そして、仮想カメラ提示情報生成部４２は、分割表示枠に、ステップＳ９４で生成された仮想カメラ提示情報２０を描画する（ステップＳ９５）。その後、ステップＳ９２に戻って、前述した処理を繰り返す。なお、図２３に示す仮想カメラ提示情報２００ａ（２００）は、ステップＳ９５で生成された情報の一例である。

　一方、ステップＳ９１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラを模したパーティクル３８が描画された仮想カメラグループ提示情報２００を生成する（ステップＳ９６）。その後、図２０のフローチャートに戻る。なお、図２３に示す仮想カメラ提示情報２００ｂ（２００）は、ステップＳ９６で生成された情報の一例である。

　次に、図２４を用いて、位置補正した仮想カメラグループ提示情報２００の生成処理の流れを説明する。図２４は、図２０における仮想カメラグループ提示情報生成処理（位置補正）の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０の表示モードがノーマルであるかを判定する（ステップＳ１０１）。仮想カメラ提示情報２０の表示モードがノーマルであると判定される（ステップＳ１０１：Ｙｅｓ）とステップＳ１０２に進む。一方、仮想カメラ提示情報２０の表示モードがノーマルであると判定されない（ステップＳ１０１：Ｎｏ）とステップＳ１０７に進む。

　ステップＳ１０１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されると、仮想カメラ提示情報生成部４２は、画枠２１の分割表示枠に残りがあるかを判定する（ステップＳ１０２）。画枠２１の分割表示枠に残りがあると判定される（ステップＳ１０２：Ｙｅｓ）とステップＳ１０３に進む。一方、画枠２１の分割表示枠に残りがあると判定されない（ステップＳ１０２：Ｎｏ）と、ステップＳ１０６に進む。

　ステップＳ１０２において、画枠２１の分割表示枠に残りがあると判定されると、仮想カメラ提示情報生成部４２は、表示すべき仮想カメラがあるかを判定する（ステップＳ１０３）。表示すべき仮想カメラがあると判定される（ステップＳ１０３：Ｙｅｓ）とステップＳ１０４に進む。一方、表示すべき仮想カメラがあると判定されない（ステップＳ１０３：Ｎｏ）と、ステップＳ１０６に進む。

　ステップＳ１０３において、表示すべき仮想カメラがあると判定されると、仮想カメラ提示情報生成部４２は、図２２のフローチャートを実行することによって、位置補正した仮想カメラ提示情報２０の生成処理を行う（ステップＳ１０４）。

　そして、仮想カメラ提示情報生成部４２は、分割表示枠に、ステップＳ１０４で生成された仮想カメラ提示情報２０を描画する（ステップＳ１０５）。その後、ステップＳ１０２に戻って、前述した処理を繰り返す。なお、図２４に示す仮想カメラ提示情報２００ｃ（２００）は、ステップＳ１０５で生成された仮想カメラグループ提示情報の一例である。

　なお、ステップＳ１０２において、画枠２１の分割表示枠に残りがあると判定されないか、ステップＳ１０３において、表示すべき仮想カメラがあると判定されないと、仮想カメラ提示情報生成部４２は、分割表示枠を位置補正して表示する（ステップＳ１０６）。その後、図２０のフローチャートに戻る。

　また、ステップＳ１０１において、仮想カメラ提示情報２０の表示モードがノーマルであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラを模したパーティクルが描画された仮想カメラグループ提示情報２００を生成する（ステップＳ１０７）。その後、図２０のフローチャートに戻る。なお、図２４に示す仮想カメラ提示情報２００ｄ（２００）は、ステップＳ１０７で生成された仮想カメラグループ提示情報の一例である。

　次に、図２５を用いて、カメラワークを表示するカメラワーク表示処理の流れを説明する。図２５は、図２０におけるカメラワーク表示処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、生成した仮想カメラ提示情報２０から、画枠情報と、カメラワーク名と、カメラワークフレーム番号を取得する（ステップＳ１１１）。なお、画枠情報は、画枠の表示位置、画枠サイズ等を有する情報である。

　次に、仮想カメラ提示情報生成部４２は、画枠情報と、カメラワーク名と、カメラワークフレーム番号とに基づいて、カメラワーク提示情報を生成する（ステップＳ１１２）。なお、カメラワーク提示情報は、例えば、図１１に示したカメラワーク情報３５である。

　そして、仮想カメラ提示情報生成部４２は、仮想カメラ提示情報２０に、カメラワーク提示情報を重畳する（ステップＳ１１３）。その後、図２０のフローチャートに戻る。

［１－１０－４．仮想カメラグループ音声生成処理の流れ］
　図２６を用いて、図１７のステップＳ３７に示した仮想カメラグループ音声生成処理の流れを説明する。図２６は、図１７における仮想カメラグループ音声生成処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ音声出力モードがＡＬＬ、即ち、全ての仮想カメラ情報Ｆが有するオーディオデータをミックスして出力するモードであるかを判定する（ステップＳ１２１）。仮想カメラ音声出力モードがＡＬＬであると判定される（ステップＳ１２１：Ｙｅｓ）とステップＳ１２２に進む。一方、仮想カメラ音声出力モードがＡＬＬであると判定されない（ステップＳ１２１：Ｎｏ）とステップＳ１２３に進む。

　ステップＳ１２１において、仮想カメラ音声出力モードがＡＬＬであると判定されると、仮想カメラ提示情報生成部４２は、音声出力部４５に対して、全ての仮想カメラ情報Ｆのオーディオフレームデータ（ビデオフレームデータに対応するオーディオデータ）をミックスして音声出力データを生成する（ステップＳ１２２）。その後、図１７に戻る。

　一方、ステップＳ１２１において、仮想カメラ音声出力モードがＡＬＬであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラ音声出力モードがOn　Airカメラ、即ち、撮像および配信を行っている仮想カメラの仮想カメラ情報Ｆが有するオーディオデータを出力するモードであるかを判定する（ステップＳ１２３）。仮想カメラ音声出力モードがOn　Airカメラであると判定される（ステップＳ１２３：Ｙｅｓ）とステップＳ１２４に進む。一方、仮想カメラ音声出力モードがOn　Airカメラであると判定されない（ステップＳ１２３：Ｎｏ）とステップＳ１２５に進む。

　ステップＳ１２３において、仮想カメラ音声出力モードがOn　Airカメラであると判定されると、仮想カメラ提示情報生成部４２は、カメラ状態がOn　Airである仮想カメラ情報Ｆのオーディオフレームデータから音声出力データを生成する（ステップＳ１２４）。その後、図１７に戻る。

　一方、ステップＳ１２３において、仮想カメラ音声出力モードがOn　Airカメラであると判定されないと、仮想カメラ提示情報生成部４２は、仮想カメラ音声出力モードがTargetカメラ、即ち、指定された特定の仮想カメラ情報Ｆが有するオーディオデータを出力するモードであるかを判定する（ステップＳ１２５）。仮想カメラ音声出力モードがTargetカメラであると判定される（ステップＳ１２５：Ｙｅｓ）とステップＳ１２６に進む。一方、仮想カメラ音声出力モードがTargetカメラであると判定されない（ステップＳ１２５：Ｎｏ）とステップＳ１２７に進む。

　ステップＳ１２５において、仮想カメラ音声出力モードがTargetカメラであると判定されると、仮想カメラ提示情報生成部４２は、指定されたカメラ番号に対応する仮想カメラ情報Ｆのオーディオフレームデータから音声出力データを生成する（ステップＳ１２６）。その後、図１７に戻る。

　一方、ステップＳ１２５において、仮想カメラ音声出力モードがTargetカメラであると判定されないと、仮想カメラ提示情報生成部４２は、無音の音声出力データを生成する（ステップＳ１２７）。その後、図１７に戻る。

［１－１１．仮想カメラ提示情報出力処理の流れ］
　図２７を用いて、図１５のステップＳ１３に示した仮想カメラ提示情報出力処理の流れを説明する。図２７は、図１５における仮想カメラ提示情報出力処理の流れの一例を示すフローチャートである。

　スタジオ内映像表示部４４は、仮想カメラ提示情報生成部４２から仮想カメラ提示情報２０を取得する（ステップＳ１３１）。なお、スタジオ内映像表示部４４は、仮想カメラ提示情報生成部４２から仮想カメラグループ提示情報２００を取得してもよい。

　スタジオ内映像表示部４４は、仮想カメラ提示情報２０から、内壁面１５に表示する映像を生成する（ステップＳ１３２）。

　スタジオ内映像表示部４４は、ステップＳ１３２で生成した映像を各表示パネル１７に出力する（ステップＳ１３３）。なお、映像をプロジェクタ２８，２９から投影する場合は、スタジオ内映像表示部４４は、ステップＳ１３２で生成した映像を各プロジェクタ２８，２９に出力する。その後、図１７に戻る。

［１－１２．Volumetric映像生成処理の流れ］
　図２８を用いて、図１５のステップＳ１４に示したVolumetric映像生成処理の流れを説明する。図２８は、図１５におけるVolumetric映像生成処理の流れの一例を示すフローチャートである。

　Volumetric映像生成部４７は、Volumetric映像撮影部４６から、カメラ１６が撮像した映像データ（実カメラ映像Ｉ）を取得する（ステップＳ１４１）。

　Volumetric映像生成部４７は、ステップＳ１４１で取得した映像データに基づいて、被写体２２の３Ｄモデル２２Ｍを生成するモデリング処理を行う（ステップＳ１４２）。

　Volumetric映像生成部４７は、仮想カメラ提示情報生成部４２から、仮想カメラ位置情報Ｆａを取得する（ステップＳ１４３）。

　Volumetric映像生成部４７は、仮想カメラ位置情報Ｆａに基づいて、３Ｄモデル２２Ｍを仮想視点から見たVolumetric映像のレンダリング処理を行う（ステップＳ１４４）。

　Volumetric映像生成部４７は、仮想カメラ位置情報Ｆａに基づいて、仮想視点から３Ｄモデル２２ＭまでのDepth、即ち距離を計算する（ステップＳ１４５）。

　Volumetric映像生成部４７は、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１に対して、Volumetric映像データ（ＲＧＢ－Ｄ）を出力する（ステップＳ１４６）。なお、Volumetric映像データは色情報（ＲＧＢ）と距離情報（Ｄ）とを有する。その後、メインルーチン（図１５）に戻る。

［１－１３．Volumetric映像と背景映像の重畳処理の流れ］
　図２９を用いて、図１５のステップＳ１５に示したVolumetric映像と背景映像の重畳処理の流れを説明する。図２９は、図１５におけるVolumetric映像と背景映像の重畳処理の流れの一例を示すフローチャートである。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、Volumetric映像生成部４７から、Volumetric映像データを取得する（ステップＳ１５１）。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、ＣＧ背景生成部５０から、背景ＣＧデータを取得する（ステップＳ１５２）。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、背景ＣＧデータを３Ｄ描画する（ステップＳ１５３）。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、背景ＣＧデータが描画された３Ｄ空間上にVolumetric映像を重畳する（ステップＳ１５４）。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、ステップＳ１５４で生成した３Ｄ空間を仮想視点から見た２Ｄ映像を生成する（ステップＳ１５５）。なお、ユーザの視聴デバイス５３ａが３Ｄ映像を表示可能である場合は、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、３Ｄ映像を生成する。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、ステップＳ１５５で生成した２Ｄ映像（または３Ｄ映像）を、配信部５２に出力する（ステップＳ１５６）。その後、メインルーチン（図１５）に戻る。

　なお、図２９のフローチャートには記載しないが、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、生成した２Ｄ映像（または３Ｄ映像）とオーディオ情報とを多重化（ＭＵＸ）する処理も行う。

［１－１４．第１の実施形態の作用効果］
　以上説明したように、第１の実施形態の映像処理装置１２ａ（情報処理装置）は、被写体２２の周囲に配置した複数のカメラ１６（第１の撮像装置）がそれぞれ撮像した複数の実画像（実カメラ映像Ｉ）を取得するVolumetric映像撮影部４６（第１の取得部）と、複数の実画像から、被写体２２の３Ｄモデル２２Ｍを生成するVolumetric映像生成部４７（生成部）と、３Ｄモデル２２Ｍを、視聴デバイス５３ａに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、被写体２２に提示するスタジオ内映像表示部４４（提示部）と、を備える。

　これにより、Volumetricスタジオ１４ａにおいて、あたかも実際のカメラでカメラマンが直接撮影している状況を再現することができる。したがって、被写体２２は、仮想カメラを意識したパフォーマンスを行うことができるため、配信コンテンツの臨場感をより高めることができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）は、仮想視点に係る情報を取得する仮想カメラ情報生成部４１（第２の取得部）を更に備える。

　これにより、仮想カメラに係る情報を確実に簡単かつ取得することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点の位置を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ａ，２０ｂ）。

　これにより、あたかも、実際のカメラでカメラマンが直接撮影している状況を再現することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する。

　これにより、被写体２２は、直観的に仮想カメラの位置を把握することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点がある位置を示す情報を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｉ，２０ｊ，２０ｋ，２０ｌ）。

　これにより、表示パネル１７やプロジェクタ２８，２９を設置できないスタジオであっても、仮想視点の位置を提示することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点と被写体２２との距離を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｆ）。

　これにより、被写体２２は、仮想カメラと自身との距離を直感的に把握することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点からの観測方向を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｇ）。

　これにより、被写体２２は、仮想カメラの向きを直感的に把握することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点の移動方向を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｍ）。

　これにより、実際のカメラではなし得ない、Volumetricならではのカメラワークを行いながら、仮想カメラの位置を被写体２２に伝えることができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点に置かれた仮想カメラの動作状態を、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｈ）。

　これにより、被写体２２は、仮想カメラの動作状態を直感的に把握することができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、仮想視点をコントロールするオペレータのメッセージを、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｃ）。

　これにより、被写体２２は、仮想視点をコントロールするオペレータとコミュニケーションをしながらパフォーマンスを行うことができる。

　また、第１の実施形態の映像処理装置１２ａ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、被写体２２に提示する（例えば、仮想カメラ提示情報２０ｎ３）。

（２．第２の実施形態）
［２－１．第２の実施形態の映像処理システムの概略構成］
　次に、図３０を用いて、本開示の第２の実施形態である映像処理システム１０ｂについて説明する。図３０は、第２の実施形態の映像処理システムの概要を示すシステム構成図である。

　映像処理システム１０ｂは、前述した映像処理システム１０ａとほぼ等しい機能を備えるが、Volumetric映像データを重畳する背景データを実カメラで撮像する点と、背景データを撮像する実カメラの位置を仮想視点として設定する点が異なる。以下、図３０を用いて映像処理システム１０ｂの概略構成を説明する。なお、映像処理システム１０ａと共通の構成要素については、説明を省略する。

　映像処理システム１０ｂは、Volumetricスタジオ１４ａと、２Ｄ撮影スタジオ１４ｂと、映像処理装置１２ｂとを備える。

　２Ｄ撮影スタジオ１４ｂは、Volumetricスタジオ１４ａとは異なるスタジオである。２Ｄ撮影スタジオ１４ｂには、複数の実カメラ６０が備えられている。各実カメラ６０は、カメラマンの操作、または外部からの制御信号によって、位置や観測方向、画角等を変更可能となっている。また、２Ｄ撮影スタジオ１４ｂの壁面には、任意の背景が描かれるか、プロジェクタ等によって任意の背景が投影される。更に、２Ｄ撮影スタジオ１４ｂの内部には、点灯状態を任意の制御可能な複数の照明装置が備えられる。２Ｄ撮影スタジオ１４ｂにおいて、実カメラ６０が撮像した２Ｄ実映像Ｊは、映像処理装置１２ｂに入力される。なお、実カメラ６０は、本開示における第２の撮像装置の一例である。

　映像処理装置１２ｂは、カメラ１６から取得した実カメラ映像Ｉに基づいて、被写体２２の３Ｄモデル２２Ｍを生成する。また、映像処理装置１２ａは、実カメラ６０が仮想視点にあると見做して、当該仮想視点から見た被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイス５３ａに応じた形態の画像にレンダリングする。また、映像処理装置１２ａは、実カメラ６０に係る情報に基づいて、仮想視点に係る仮想カメラ提示情報２０を生成して、表示パネル１７に出力する。

　更に、映像処理装置１２ｂは、実カメラ６０から２Ｄ実映像Ｊを取得する。また、映像処理装置１２ｂは、取得した２Ｄ実映像Ｊを背景映像２６ｂとして、３Ｄモデル２２Ｍに基づくVolumetric映像２４を重畳する。生成された映像は、例えばユーザの視聴環境に配信される。なお、映像処理装置１２ｂは、本開示における情報処理装置の一例である。

［２－２．第２の実施形態の映像処理システムの機能構成］
　次に、図３１を用いて、映像処理システム１０ｂの機能構成を説明する。図３１は、第２の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。

　図３１に示すように、映像処理システム１０ｂは、映像処理装置１２ｂと、撮像表示装置１３を構成するカメラ１６と表示パネル１７と、実カメラ６０とを備える。また、映像処理システム１０ｂは、周辺機器であるリモコン５４と、インカム５５と、マイク５６と、スピーカ５７と、視聴デバイス５３ａとを備える。

　映像処理装置１２ｂは、仮想カメラ提示情報生成部４２と、ＵＩ部４３と、スタジオ内映像表示部４４と、音声出力部４５と、Volumetric映像撮影部４６と、Volumetric映像生成部４７と、マスタオーディオ出力部４８と、オーディオ収録部４９と、配信部５２と、仮想カメラ情報取得部６２と、仮想カメラ情報送信部６３と、２Ｄ映像撮影部６４と、仮想カメラ情報受信部６５と、Volumetric映像／オーディオ送信部６６と、Volumetric映像／オーディオ受信部６７と、Volumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８と、を備える。これらの機能部は、コンピュータの構成を備える映像処理装置１２ｂのＣＰＵが、映像処理装置１２ｂの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置１２ｂの全て、または一部の機能を、ハードウエアによって実現してもよい。

　前述した各機能部位のうち、図３１の点線Ｌ１よりも左側に記載されている機能部位は、Volumetricスタジオ１４ａに設置される。そして、点線Ｌ１よりも右側に記載されている機能部位は、２Ｄ撮影スタジオ１４ｂに設置される。以下、映像処理システム１０ａとは異なる機能部位についてのみ、各機能部位が備える機能を説明する。

　仮想カメラ情報取得部６２は、２Ｄ撮影スタジオ１４ｂ側の実カメラ６０（第２の撮像装置）から、実カメラ６０に係る情報を取得する。実カメラ６０に係る情報とは、実カメラ６０を仮想カメラと見做した際の仮想カメラ情報Ｆである。仮想カメラ情報Ｆの内容は、第１の実施形態で説明した通りである。なお、仮想カメラ情報取得部６２は、本開示における第２の取得部の一例である。

　仮想カメラ情報送信部６３は、仮想カメラ情報取得部６２が取得した仮想カメラ情報Ｆを、Volumetricスタジオ１４ａ側に送信する。

　仮想カメラ情報受信部６５は、２Ｄ撮影スタジオ１４ｂ側から仮想カメラ情報Ｆを受信する。

　２Ｄ映像撮影部６４は、実カメラ６０が撮像した２Ｄ実映像Ｊから、背景２Ｄ映像を生成する。

　Volumetric映像／オーディオ送信部６６は、Volumetricスタジオ１４ａで生成したVolumetric映像とオーディオデータを、２Ｄ撮影スタジオ１４ｂ側に送信する。

　Volumetric映像／オーディオ受信部６７は、Volumetricスタジオ１４ａ側から、Volumetric映像とオーディオデータを受信する。

　Volumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８は、被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイス５３ａに応じた形態の画像にレンダリングして、被写体２２とは別の場所にある実カメラ６０（第２の撮像装置）が撮像した画像に重畳する。また、Volumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８は、重畳された画像を、オーディオデータと多重化（ＭＵＸ）する。なお、Volumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８は、本開示における重畳部の一例である。

　なお、映像処理システム１０ｂは、映像処理システム１０ａが備えるコントローラ４０（図１３参照）を備えない。これは、映像処理システム１０ｂにおいては、実カメラ６０自身が、仮想カメラに係る情報を生成するためである。具体的には、実カメラ６０は、ジャイロセンサや加速度センサを有する。実カメラ６０は、ジャイロセンサや加速度センサの出力を検出することによって、実カメラ６０自身の撮影方向や移動方向を検出する。

　また、実カメラ６０が置かれた２Ｄ撮影スタジオ１４ｂには、２Ｄ撮影スタジオ１４ｂにおける実カメラ６０の位置を測定する、非図示の位置検出センサが設置されている。位置検出センサは、２Ｄ撮影スタジオ１４ｂに設置された、互いに異なる発光パターンのＩＲ信号を送信する複数のベースステーションと、実カメラ６０に設置された、ベースステーションからのＩＲ信号を検出するＩＲセンサとで構成される。ＩＲセンサは、検出した複数のＩＲ信号の強度に基づいて、２Ｄ撮影スタジオ１４ｂにおける自身の位置を検出する。なお、実カメラ６０は、自身が撮像した画像に基づいて、２Ｄ撮影スタジオ１４ｂにおける自身の位置と方向とを検出してもよい。このように、実カメラ６０は、各種センサが取得した情報に基づいて、仮想カメラに係る情報を生成する。

　なお、実カメラ６０は、更に、カメラワーク情報の選択と開始を指示する、選択ボタン等の操作デバイスと、カメラワーク情報の選択肢等を表示する表示デバイスとを備える。

　なお、図３１において、映像処理装置１２ｂのうち、仮想カメラ情報取得部６２と、仮想カメラ情報送信部６３と、２Ｄ映像撮影部６４と、Volumetric映像／オーディオ受信部６７と、Volumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８と、配信部５２は、実カメラ６０が置かれた２Ｄ撮影スタジオ１４ｂに設置される。そして、映像処理装置１２ｂのその他の機能部位は、Volumetricスタジオ１４ａに設置される。

［２－３．第２の実施形態の映像処理システムの作用］
　映像処理システム１０ｂが行う処理の流れは、前述した映像処理システム１０ａが行う処理の流れと同じである。そのため、詳細な処理の流れの説明は省略する。

　なお、映像処理システム１０ａにあっては、背景ＣＧ映像は３Ｄ情報を有する必要があったが、映像処理システム１０ｂでは、実カメラ６０の動きに応じた仮想カメラ情報Ｆがフレーム毎に生成される。そして、映像処理装置１２ｂは、仮想カメラ情報Ｆに応じたVolumetric映像を生成して、実カメラ６０が撮影した２Ｄ実映像Ｊに基づく背景２Ｄ映像に重畳する。したがって、映像処理システム１０ａのように、３Ｄの背景データ（背景ＣＧ映像）を用意する必要がない。

　また、映像処理システム１０ｂは、目的のロケーションで撮影したかのような映像を生成するシステムとして知られているバーチャルプロダクション（Virtual　Production）とは異なる特性を持つ。即ち、よく知られたバーチャルプロダクションでは、実カメラの動きに合わせて、背景に３ＤＣＧを描画して、その前に立った被写体を撮影する。これに対して、映像処理システム１０ｂにあっては、２Ｄ撮影スタジオ１４ｂに用意された実物の背景を撮影する実カメラ６０の動きに合わせてパフォーマンスを行う被写体２２のVolumetric映像を生成する。したがって、被写体と背景の位置付けが、よく知られたバーチャルプロダクションとは逆になっている。そのため、映像処理システム１０ｂを利用することによって、現在のバーチャルプロダクションの応用範囲を拡大することができる。

［２－４．第２の実施形態の作用効果］
　以上説明したように、第２の実施形態の映像処理装置１２ｂ（情報処理装置）は、被写体２２の３Ｄモデル２２Ｍを、視聴デバイス５３ａに応じた形態の画像にレンダリングして、被写体２２とは別の場所にある実カメラ６０（第２の撮像装置）が撮像した画像に重畳するVolumetric映像・２Ｄ映像重畳／オーディオＭＵＸ部６８（重畳部）を更に備えて、仮想カメラ情報取得部６２（第２の取得部）は、実カメラ６０を、仮想視点に置かれた仮想カメラと見做して、実カメラ６０から仮想視点に係る情報を取得する。

　これにより、離れた場所に設置した実カメラ６０を仮想カメラと見做した際に、Volumetricスタジオ１４ａにおいて、あたかも実際のカメラでカメラマンが直接撮影している状況を再現することができる。したがって、被写体２２は、仮想カメラを意識したパフォーマンスを行うことができるため、配信コンテンツの臨場感をより高めることができる。

（３．第３の実施形態）
［３－１．第３の実施形態の映像処理システムの概略構成］
　次に、図３２を用いて、本開示の第３の実施形態である映像処理システム１０ｃについて説明する。図３２は、第３の実施形態の映像処理システムの概要を示すシステム構成図である。

　映像処理システム１０ｃは、前述した映像処理システム１０ａ，１０ｂとほぼ等しい機能を備える。但し、映像処理システム１０ａ，１０ｂが、生成した配信コンテンツを、ユーザの視聴デバイス５３ａに対して、一方通行で配信していたのに対して、映像処理システム１０ｃでは、ユーザが視聴デバイス５３ｂを用いて、インタラクティブに仮想視点の位置をコントロールできる点が異なる。以下、図３２を用いて、映像処理システム１０ｃの概略構成を説明する。なお、映像処理システム１０ａ，１０ｂと共通の構成要素については、説明を省略する。

　映像処理システム１０ｃは、Volumetricスタジオ１４ａと、映像処理装置１２ｃと、視聴デバイス５３ｂとを備える。なお、映像処理装置１２ｃは、Volumetricスタジオ１４ａに設置されてもよい。

　映像処理装置１２ｃは、カメラ１６から取得した実カメラ映像Ｉに基づいて、被写体２２の３Ｄモデル２２Ｍを生成する。また、映像処理装置１２ｃは、ユーザの視聴デバイス５３ｂから仮想カメラ情報Ｆを取得する。また、映像処理装置１２ｃは、仮想カメラ情報Ｆに基づく仮想視点から見た被写体２２の３Ｄモデル２２Ｍを、ユーザの視聴デバイス５３ｂに応じた形態の画像にレンダリングする。また、映像処理装置１２ｃは、仮想視点に係る仮想カメラ提示情報２０を生成して、表示パネル１７に出力する。ここで、仮想視点に係る情報は、複数の視聴ユーザの各々が、自身の視聴デバイス５３ｂで、映像処理装置１２ｃがレンダリングした画像を視聴する際の視点に係る情報である。

　更に、映像処理装置１２ｃは、取得した背景映像２６ａに、生成した３Ｄモデル２２Ｍに基づくVolumetric映像２４を重畳して、設定された仮想視点から観測した映像を生成する。そして、映像処理装置１２ｃは、生成した映像を、ユーザの視聴デバイス５３ｂに配信する。なお、映像処理装置１２ｃは、本開示における情報処理装置の一例である。

［３－２．第３の実施形態の映像処理システムの機能構成］
　次に、図３３を用いて、映像処理システム１０ｃの機能構成を説明する。図３３は、第３の実施形態の映像処理システムの機能構成の一例を示す機能ブロック図である。

　図３３に示すように、映像処理システム１０ｃは、映像処理装置１２ｃと、視聴デバイス５３ｂと、撮像表示装置１３を構成するカメラ１６と表示パネル１７とを備える。また、映像処理システム１０ｃは、周辺機器であるリモコン５４と、インカム５５と、マイク５６と、スピーカ５７とを備える。

　映像処理装置１２ｃは、仮想カメラ提示情報生成部４２と、ＵＩ部４３と、スタジオ内映像表示部４４と、音声出力部４５と、Volumetric映像撮影部４６と、Volumetric映像生成部４７と、マスタオーディオ出力部４８と、オーディオ収録部４９と、ＣＧ背景生成部５０と、Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１と、配信部５２と、仮想カメラ情報取得部６２と、仮想カメラ情報送信部６３と、仮想カメラ情報受信部６５と、配信受信部７０と、Volumetric映像出力部７１と、オーディオ出力部７２と、を備える。これらの機能部は、コンピュータの構成を備える映像処理装置１２ｃのＣＰＵが、映像処理装置１２ｃの動作を制御する非図示の制御プログラムを実行することによって実現される。また、映像処理装置１２ｃの全て、または一部の機能を、ハードウエアによって実現してもよい。

　前述した各機能部位のうち、図３３の点線Ｌ２よりも左側に記載されている機能部位は、Volumetricスタジオ１４ａに設置される。そして、点線Ｌ２よりも右側に記載されている機能部位は、視聴デバイスを手にしているユーザ環境に設置されて、望ましくは、視聴デバイス５３ｂに内蔵される。以下、映像処理システム１０ａ，１０ｂとは異なる機能部位についてのみ、各機能部位が備える機能を説明する。

　仮想カメラ情報取得部６２は、視聴デバイス５３ｂから仮想カメラ位置情報とユーザの映像・メッセージ等を含む仮想カメラ情報Ｆを取得する。

　仮想カメラ情報送信部６３は、仮想カメラ情報取得部６２が取得した仮想カメラ情報ＦをVolumetricスタジオ１４ａ側に送信する。

　仮想カメラ情報受信部６５は、仮想カメラ情報送信部６３から仮想カメラ情報Ｆを受信する。

　配信受信部７０は、Volumetricスタジオ１４ａ側から送信された配信コンテンツを受信する。なお、配信受信部７０が受信するコンテンツは、ユーザが視聴するコンテンツとは異なり、単に、Volumetric映像と背景ＣＧとオーディオデータとが多重化されたものである。

　Volumetric映像出力部７１は、配信受信部７０が受信した多重化された信号の中から、Volumetric映像と背景ＣＧとをデコードする。また、Volumetric映像出力部７１は、被写体２２の３Ｄモデル２２Ｍを、仮想カメラ位置情報Ｆａに基づく観測位置から見たVolumetric映像のレンダリングを行う。また、Volumetric映像出力部７１は、レンダリングしたVolumetric映像を背景ＣＧデータに重畳する。そして、Volumetric映像出力部７１は、背景ＣＧデータが重畳された映像を視聴デバイス５３ｂに出力する。

　オーディオ出力部７２は、配信受信部７０が受信した多重化された信号の中から、オーディオデータをデコードする。そして、オーディオ出力部７２は、デコードしたオーディオデータを視聴デバイス５３に出力する。

　Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１は、Volumetric映像、背景ＣＧ、オーディオデータを多重化（ＭＵＸ）する。なお、映像処理装置１２ａが備えるVolumetric映像・ＣＧ重畳／オーディオＭＵＸ部５１（図１３参照）とは異なり、Volumetric映像と背景ＣＧとの重畳は、Volumetric映像出力部７１で行うため、ここでは信号の多重化（ＭＵＸ）のみを行う。

　なお、視聴デバイス５３ｂは、映像処理装置１２ａにおけるコントローラ４０の機能を備える。視聴デバイス５３ｂは、例えば、スマートフォンやタブレット端末のような携帯端末や、ＨＭＤ、裸眼立体視が可能な空間再現ディスプレイ、またはディスプレイとゲームコントローラとの組み合わせ等が用いられる。なお、視聴デバイス５３ｂは、少なとも、位置と方向を指定する機能と、メニュー内容を選択決定する機能と、映像処理装置１２ｃと通信を行う機能とを備える。

　視聴デバイス５３ｂは、これらの機能を備えることによって、コントローラ４０と同様に、仮想視点を設定するために必要な位置と方向とを設定する。即ち、視聴デバイス５３ｂ自身が仮想カメラの役割を果たす。また、視聴デバイス５３ｂは、仮想視点（仮想カメラ）のカメラワークを選択決定する。更に、視聴デバイス５３ｂは、被写体２２に対するメッセージを選択決定する。

［３－３．仮想カメラ情報の取得方法］
　図３４と図３５を用いて、視聴デバイス５３ｂの一例である携帯端末８０から仮想カメラ情報Ｆを取得する方法を説明する。図３４は、ユーザが視聴デバイスを用いて、カメラワーク情報を設定する方法を示す図である。図３５は、ユーザが視聴デバイスを用いて、オペレータ映像と、オペレータ音声と、オペレータメッセージとを設定する方法を示す図である。

　視聴デバイス５３ｂの一例である携帯端末８０において、映像処理システム１０ｃを利用するアプリケーションを立ち上げた際に表示される非図示のメインメニューから、カメラワークの設定メニューを選択すると、視聴デバイス５３ｂの表示画面には、図３４に示すカメラワーク選択ボタン７４が表示される。なお、携帯端末８０の表示画面は、タッチパネルの機能を兼ね備えており、手指を用いて、表示画面に表示されたＧＵＩ（Graphical　User　Interface）をコントロールすることができる。

　カメラワーク選択ボタン７４は、カメラワークの設定を開始する際に押下するボタンである。

　カメラワーク選択ボタン７４が押下されると、携帯端末８０の表示画面には、カメラワーク選択ウインドウ７５が表示される。カメラワーク選択ウインドウ７５には、予めプリセットされた、カメラワークの一覧が表示される。また、カメラワーク選択ウインドウ７５に表示された任意のカメラワークに重畳して、カメラワーク開始ボタン７６が表示される。

　携帯端末８０のユーザは、カメラワーク開始ボタン７６を、自身が設定したいカメラワークの種類に重畳させる。そして、カメラワーク開始ボタン７６を押下することによって、カメラワークの設定が完了する。設定されたカメラワークは、カメラワーク情報Ｆｂとして、仮想カメラ情報取得部６２に送られる。

　なお、図３４には図示しないが、カメラワークの設定メニューの中で、カメラワークの開始位置と終了位置、カメラワークの速度等も併せて設定することができる。

　また、携帯端末８０において、映像処理システム１０ｃを利用するアプリケーションを立ち上げた際に表示される非図示のメインメニューから、オペレータメッセージの設定メニューを選択すると、携帯端末８０の表示画面には、図３５に示すメッセージ選択ボタン７７が表示される。

　メッセージ選択ボタン７７は、オペレータメッセージの選択を開始する際に押下するボタンである。

　メッセージ選択ボタン７７が押下されると、携帯端末８０の表示画面には、メッセージ選択ウインドウ７８が表示される。メッセージ選択ウインドウ７８には、予めプリセットされた、メッセージの一覧が表示される。また、メッセージ選択ウインドウ７８に表示された任意のメッセージに重畳して、メッセージ送信ボタン７９が表示される。

　携帯端末８０のユーザは、メッセージ送信ボタン７９を、自身が設定したいメッセージに重畳させる。そして、メッセージ送信ボタン７９を押下することによって、オペレータメッセージＦｅの設定が完了する。設定されたオペレータメッセージＦｅは、仮想カメラ情報取得部６２に送られる。

　また、プリセットされたメッセージ以外に、視聴デバイス５３ｂに内蔵されたＩＮカメラ８１とマイク８２を用いて取得した、オペレータの画像や音声を、オペレータメッセージＦｅとして設定してもよい。

　なお、携帯端末８０は、ジャイロセンサや加速度センサの出力を検出することによって、自身の撮影方向や移動方向を検出する仮想カメラ位置情報Ｆａを検出する。これは、第２の実施形態において、実カメラ６０が仮想カメラ位置情報Ｆａを検出する方法と同じであるため、更なる説明は省略する。

［３－４．仮想カメラグループ提示情報の形態］
　図３６、図３７、図３８を用いて、映像処理システム１０ｃが提示する仮想カメラグループ提示情報２００の形態を説明する。図３６は、視聴ユーザ数に応じた仮想カメラグループ提示情報の一例を示す図である。図３７は、視聴ユーザが観測位置を変更した際の、仮想カメラグループ提示情報の一例を示す図である。図３８は、視聴ユーザと演者がコミュニケーションを図る機能の一例を示す図である。

　映像処理システム１０ｃは、多数のユーザが、各自の視聴デバイス５３ｂによって自由に仮想視点の位置を設定する。したがって、多くのユーザの仮想視点の位置が近接する状況が発生する。図３６は、このような場合に提示される仮想カメラグループ提示情報２００の一例を示す。

　図３６の横軸は、特定位置から視聴ユーザ数を示す。左方ほど視聴ユーザ数が少なく、右方ほど視聴ユーザ数が多いことを示している。

　例えば、仮想カメラグループ提示情報２００ｅ、２００ｆ、２００ｇは、１つの画枠２１を分割して、分割された各領域に、視聴ユーザが存在することを示す人型アイコン（図７のカメラマンアイコン３２に相当する）を表示したものである。このような表示形態によって、仮想カメラグループ提示情報２００が提示されている位置から、どれ位のユーザが視聴しているかを示すことができる。なお、１つの人型アイコンが１人の視聴ユーザを表してもよいし、１つの人型アイコンに、予め設定した人数を対応させてもよい。このように、仮想カメラグループ提示情報２００ｅ、２００ｆ、２００ｇは、特定位置から視聴しているユーザの密度を示している。なお、仮想カメラグループ提示情報２００ｇにおいて、１つの人型アイコンが大きく表示されているのは、何人かのユーザが被写体２２に近接した位置で視聴していることを示している。また、後述するように、人型アイコンは、別の基準で拡大表示される場合もある（図３８参照）。

　仮想カメラグループ提示情報２００ｅ、２００ｆ、２００ｇの上部に表示されている人数（１００２６人）は、現在の総視聴ユーザ数を示している。なお、現在の総視聴ユーザ数を表示する代わりに、仮想カメラグループ提示情報２００が提示されている方向から視聴している視聴ユーザ数を表示してもよい。

　また、視聴ユーザ数の表示方法は、これに限るものではなく、視聴ユーザの密度が直感的にわかる提示形態、例えば、仮想カメラグループ提示情報２００ｈ，２００ｉ，２００ｊのようなパーティクル表示を行ってもよい。

　図３７は、視聴ユーザが仮想視点を変更した際の、仮想カメラグループ提示情報２００の変化の一例を示している。

　図３７は、時刻ｔ０において、仮想カメラグループ提示情報２００ｋ，２００ｌが提示されている状態を示している。また、図３７は、時刻ｔ１において、仮想カメラグループ提示情報２００ｋに表示されている１人または複数の視聴ユーザＵが、仮想視点の位置を変更した状態を示している。更に、図３７は、時刻ｔ２において、視聴ユーザＵの仮想視点の位置が、仮想カメラグループ提示情報２００ｌが提示されている位置に到達したことを示している。

　このとき、時刻ｔ１において、仮想カメラグループ提示情報２００ｋは、視聴ユーザＵに対応する人型アイコンが消去された仮想カメラグループ提示情報２００ｍに変更される。そして、視聴ユーザＵに対応する仮想カメラ提示情報２０ｒが、新たに提示される。

　更に、時刻ｔ２において、視聴ユーザＵに対応する仮想カメラ提示情報２０ｒが消去される。そして、仮想カメラグループ提示情報２００ｌが、視聴ユーザＵに対応する人型アイコンが追加された仮想カメラグループ提示情報２００ｎに変更される。

　なお、視聴ユーザＵに対応する仮想カメラ提示情報２０ｒ（２０）は、図３７の下段に示す仮想カメラ提示情報２０ｓ（２０）のように簡易表示としてもよい。

　図３８は、映像処理システム１０ｃにおいて、視聴ユーザが被写体２２とコミュニケーションを行う例を示している。

　図３８に示す仮想カメラグループ提示情報２００ｐ（２００）は、特定の視聴ユーザからオペレータメッセージが送信された場合に、仮想カメラ提示情報２０ｒ（２０）の該当するユーザの分割表示枠に、メッセージ情報３７が表示された例である。

　また、被写体２２が特定の視聴ユーザとコミュニケーションをとりたい場合、被写体２２は、自身が所持するリモコン５４の操作情報を、ＵＩ部４３に与えることによって、カーソル表示をＯＮにする。カーソル表示がＯＮになると、図３８に示すように、仮想カメラグループ提示情報２００ｑ（２００）に重畳させて、カーソル９０が表示される。被写体２２は、リモコン５４を操作することによって、表示されたカーソル９０の位置を、コミュニケーションをとりたい視聴ユーザの位置に移動させて、当該視聴ユーザを選択する。または、コミュニケーションをとりたいTargetカメラ番号を指定する。

　更に、被写体２２は、コミュニケーションモードをＯＮにする。コミュニケーションモードをＯＮにすることによって、選択された視聴ユーザの分割表示枠が拡大表示されて、図３８に示す仮想カメラグループ提示情報２００ｒ（２００）が提示された状態になる。なお、コミュニケーションモードは、映像処理システム１０ｃのデフォルト設定で常にＯＮにしておいてもよい。この場合、被写体２２がカーソル９０によって視聴ユーザを選択すると、当該視聴ユーザと即座にコミュニケーションが可能になる。このように、被写体２２は、選択部の一例であるＵＩ部４３の作用によって、任意の視聴ユーザを選択して、選択された視聴ユーザとコミュニケーションを行うことができる。

　仮想カメラグループ提示情報２００ｒ（２００）には、ユーザの画像が拡大表示されるため、被写体２２は、選択したユーザと視線を合わせることができる。また、このとき、被写体２２は、インカム５５を通して、ユーザのメッセージを聞くことができる。なお、このようなコミュニケーション機能は、前記した映像処理システム１０ａ，１０ｂにおいても、同様に実現することができる。

　ここでいう特定の視聴ユーザとは、例えば、有料ユーザやプレミアムユーザ等の優先度の高いユーザを想定している。即ち、優先度の高いユーザの視聴デバイス５３ｂ（仮想カメラ）は、第１の実施形態で説明したカメラ情報Ｆｆ（図１４参照）において、高いカメラ優先度を有する。そして、優先度の高いユーザは、被写体２２とのコミュニケーションを優先的に行うことができる。

　なお、映像処理装置１２ｃは、被写体２２と特定の視聴ユーザとがコミュニケーションを行っている様子、例えば、図３８に示すように、被写体２２の背中越しに仮想カメラグループ提示情報２００ｒ（２００）が映っている様子を、別の視聴ユーザが視聴できるようにしてもよい。

［３－５．第３の実施形態の映像処理システムが行う処理の流れ］
　図３９と図４０を用いて、映像処理システム１０ｃが行う処理の流れを説明する。図３９は、第３の実施形態の映像処理システムが行う処理の流れの一例を示すフローチャートである。図４０は、図３９におけるコミュニケーション映像／音声生成処理の流れの一例を示すフローチャートである。

　仮想カメラ提示情報生成部４２は、仮想カメラ提示情報生成処理を行う（ステップＳ１６１）。なお、仮想カメラ提示情報生成処理の流れは、図１７に示した通りである。

　ＵＩ部４３は、カーソル表示がＯＮ状態にあるかを判定する（ステップＳ１６２）。カーソル表示がＯＮ状態にあると判定される（ステップＳ１６２：Ｙｅｓ）とステップＳ１６４に進む。一方、カーソル表示がＯＮ状態にあると判定されない（ステップＳ１６２：Ｎｏ）とステップＳ１６３に進む。

　ステップＳ１６２において、カーソル表示がＯＮ状態にあると判定されると、ＵＩ部４３は、カーソル９０の映像を生成する（ステップＳ１６４）。その後、ステップＳ１６３に進む。

　一方、ステップＳ１６２において、カーソル表示がＯＮ状態にあると判定されない場合、またはステップＳ１６４が実行された後で、ＵＩ部４３は、コミュニケーションモードがＯＮ状態にあるかを判定する（ステップＳ１６３）。コミュニケーションモードがＯＮ状態にあると判定される（ステップＳ１６３：Ｙｅｓ）とステップＳ１６６に進む。一方、コミュニケーションモードがＯＮ状態にあると判定されない（ステップＳ１６３：Ｎｏ）とステップＳ１６５に進む。

　ステップＳ１６３において、コミュニケーションモードがＯＮ状態にあると判定されると、仮想カメラ提示情報生成部４２は、コミュニケーション映像／音声生成処理を行う（ステップＳ１６６）。その後、ステップＳ１６５に進む。なお、映像／音声生成処理の詳細は、図４０に示す。

　一方、ステップＳ１６３において、コミュニケーションモードがＯＮ状態にあると判定されない場合、またはステップＳ１６６が実行された後で、仮想カメラ提示情報生成部４２は、仮想カメラ映像／音声にコミュニケーション映像／音声とカーソル９０の映像を重畳する（ステップＳ１６５）。

　次に、仮想カメラ提示情報生成部４２は、スタジオ内映像表示部４４と音声出力部４５対して、仮想カメラ提示情報２０（または仮想カメラグループ提示情報２００）を出力する（ステップＳ１６７）。その後、仮想カメラ提示情報生成部４２は、図３９の処理を終了する。

　次に、図４０を用いて、ステップＳ１６６で行う映像／音声生成処理の詳細を説明する。

　仮想カメラ提示情報生成部４２は、コミュニケーションターゲットの仮想カメラ番号に対応する仮想カメラ提示情報２０（または仮想カメラグループ提示情報２００）を取得する（ステップＳ１７１）。

　仮想カメラ提示情報生成部４２は、画枠情報、ビデオフレームデータ、オーディオフレームデータ、メッセージから、コミュニケーション映像／音声を生成する（ステップＳ１７２）。その後、メインルーチン（図３９）に戻る。

［３－６．第３の実施形態の作用効果］
　以上説明したように、第３の実施形態の映像処理装置１２ｃ（情報処理装置）において、仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイス５３ｂで、レンダリングされた画像を視聴する際の視点に係る情報である。

　これによって、複数の視聴ユーザに対して、各自の視点位置に応じた画像を配信することができる。

　また、第３の実施形態の映像処理装置１２ｃ（情報処理装置）において、スタジオ内映像表示部４４（提示部）は、複数の仮想視点に係る情報を、分割した画枠２１の中に並べて、被写体２２に提示する。

　これによって、被写体２２は、特定の方向から視聴している視聴ユーザの概数を把握することができる。

　また、第３の実施形態の映像処理装置１２ｃ（情報処理装置）は、被写体２２の操作情報を取得して、仮想視点に置かれた視聴デバイス５３ｂ（仮想カメラ）を選択するＵＩ部４３（選択部）を更に備えて、被写体２２は、ＵＩ部４３が選択した視聴デバイス５３ｂの操作者とコミュニケーションを行う。

　これによって、被写体２２は、任意の視聴ユーザとコミュニケーションを行うことができる。

　なお、本明細書に記載された効果は、あくまで例示であって限定されるものではなく、他の効果があってもよい。また、本開示の実施形態は、上述した実施形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本開示は、以下のような構成もとることができる。

　（１）
　被写体の周囲に配置した複数の第１の撮像装置がそれぞれ撮像した複数の実画像を取得する第１の取得部と、
　前記複数の実画像から、前記被写体の３Ｄモデルを生成する生成部と、
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
　を備える情報処理装置。
　（２）
　前記仮想視点に係る情報を取得する第２の取得部を更に備える、
　前記（１）に記載の情報処理装置。
　（３）
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングして、前記被写体とは別の場所にある第２の撮像装置が撮像した画像に重畳する重畳部を更に備えて、
　前記第２の取得部は、前記第２の撮像装置を、仮想視点に置かれた仮想カメラと見做して、前記第２の撮像装置から前記仮想視点に係る情報を取得する、
　前記（２）に記載の情報処理装置。
　（４）
　前記仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイスで、前記レンダリングされた画像を視聴する際の視点に係る情報である、
　前記（１）乃至（３）のいずれか１つに記載の情報処理装置。
　（５）
　前記提示部は、
　前記仮想視点の位置を、前記被写体に提示する、
　前記（１）乃至（４）のいずれか１つに記載の情報処理装置。
　（６）
　前記提示部は、
　前記仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する、
　前記（１）乃至（５）のいずれか１つに記載の情報処理装置。
　（７）
　前記提示部は、
　前記仮想視点がある位置を示す情報を、前記被写体に提示する、
　前記（１）乃至（６）のいずれか１つに記載の情報処理装置。
　（８）
　前記提示部は、
　前記仮想視点と前記被写体との距離を、前記被写体に提示する、
　前記（１）乃至（７）のいずれか１つに記載の情報処理装置。
　（９）
　前記提示部は、
　前記仮想視点からの観測方向を、前記被写体に提示する、
　前記（１）乃至（８）のいずれか１つに記載の情報処理装置。
　（１０）
　前記提示部は、
　前記仮想視点の移動方向を、前記被写体に提示する、
　前記（１）乃至（９）のいずれか１つに記載の情報処理装置。
　（１１）
　前記提示部は、
　前記仮想視点に置かれた仮想カメラの動作状態を、前記被写体に提示する、
　前記（１）乃至（１０）のいずれか１つに記載の情報処理装置。
　（１２）
　前記提示部は、
　前記仮想視点をコントロールするオペレータのメッセージを、前記被写体に提示する、
　前記（１）乃至（１１）のいずれか１つに記載の情報処理装置。
　（１３）
　前記提示部は、
　複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、前記被写体に提示する、
　前記（１）乃至（１２）のいずれか１つに記載の情報処理装置。
　（１４）
　前記提示部は、
　前記複数の仮想視点に係る情報を、分割した画枠の中に並べて、前記被写体に提示する。
　前記（１３）に記載の情報処理装置。
　（１５）
　前記被写体の操作情報を取得して、仮想視点に置かれた仮想カメラを選択する選択部を更に備えて、
　前記被写体は、前記選択部が選択した仮想カメラの操作者とコミュニケーションを行う、
　前記（１）乃至（１４）のいずれか１つに記載の情報処理装置。
　（１６）
　コンピュータを、
　被写体の周囲に配置した複数の第１の撮像装置がそれぞれ撮像した複数の実画像を取得する第１の取得部と、
　前記複数の実画像から、前記被写体の３Ｄモデルを生成する生成部と、
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
　して機能させるプログラム。

　１０ａ，１０ｂ，１０ｃ…映像処理システム、１２ａ，１２ｂ，１２ｃ…映像処理装置（情報処理装置）、１３，１３ａ，１３ｂ，１３ｃ…撮像表示装置、１４ａ…Volumetricスタジオ、１４ｂ…２Ｄ撮影スタジオ、１５…内壁面、１６，１６ａ，１６ｂ，１６ｃ…カメラ（第１の撮像装置）、１７…表示パネル、１８…透過型スクリーン、１９…反射型スクリーン、２０…仮想カメラ提示情報（仮想視点に係る情報）、２１…画枠、２２…被写体、２２Ｍ…３Ｄモデル、２４…Volumetric映像、２６ａ，２６ｂ…背景映像、２８，２９…プロジェクタ、３０…カメラアイコン、３１…タリーランプ、３２…カメラマンアイコン、３３…カメラ名、３４…カメラ位置表示アイコン、３５…カメラワーク情報、３６…カメラワーク、３７…メッセージ情報、３８…パーティクル、４１…仮想カメラ情報生成部（第２の取得部）、４３…ＵＩ部（選択部）、４４…スタジオ内映像表示部（提示部）、４６…Volumetric映像撮影部（第１の取得部）、４７…Volumetric映像生成部（生成部）、５１…Volumetric映像・ＣＧ重畳／オーディオＭＵＸ部、５３ａ，５３ｂ…視聴デバイス、６０…実カメラ（第２の撮像装置）、６２…仮想カメラ情報取得部（第２の取得部）、７４…カメラワーク選択ボタン、７５…カメラワーク選択ウインドウ、７６…カメラワーク開始ボタン、７７…メッセージ選択ボタン、７８…メッセージ選択ウインドウ、７９…メッセージ送信ボタン、８０…携帯端末、９０…カーソル、２００…仮想カメラグループ提示情報、Ｆ…仮想カメラ情報、Ｆａ…仮想カメラ位置情報、Ｆｂ…カメラワーク情報、Ｆｃ…オペレータ映像、Ｆｄ…オペレータ音声、Ｆｅ…オペレータメッセージ、Ｆｆ…カメラ情報、Ｉ…実カメラ映像、Ｊ…２Ｄ実映像、Ｍ…メッシュ情報、Ｔａ，Ｔｂ…テクスチャ情報、Ｕ…視聴ユーザ

Claims

　被写体の周囲に配置した複数の第１の撮像装置がそれぞれ撮像した複数の実画像を取得する第１の取得部と、
　前記複数の実画像から、前記被写体の３Ｄモデルを生成する生成部と、
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
　を備える情報処理装置。
　前記仮想視点に係る情報を取得する第２の取得部を更に備える、
　請求項１に記載の情報処理装置。
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングして、前記被写体とは別の場所にある第２の撮像装置が撮像した画像に重畳する重畳部を更に備えて、
　前記第２の取得部は、前記第２の撮像装置を、仮想視点に置かれた仮想カメラと見做して、前記第２の撮像装置から前記仮想視点に係る情報を取得する、
　請求項２に記載の情報処理装置。
　前記仮想視点に係る情報は、複数の視聴ユーザの各々が、視聴デバイスで、前記レンダリングされた画像を視聴する際の視点に係る情報である、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点の位置を、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点の位置に、当該位置に仮想視点があることを示す情報を提示する、
　請求項５に記載の情報処理装置。
　前記提示部は、
　前記仮想視点がある位置を示す情報を、前記被写体に提示する、
　請求項５に記載の情報処理装置。
　前記提示部は、
　前記仮想視点と前記被写体との距離を、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点からの観測方向を、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点の移動方向を、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点に置かれた仮想カメラの動作状態を、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記仮想視点をコントロールするオペレータのメッセージを、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　複数の仮想視点の位置が接近した際に、当該複数の仮想視点に係る情報を合成して、前記被写体に提示する、
　請求項１に記載の情報処理装置。
　前記提示部は、
　前記複数の仮想視点に係る情報を、分割した画枠の中に並べて、前記被写体に提示する。
　請求項１３に記載の情報処理装置。
　前記被写体の操作情報を取得して、仮想視点に置かれた仮想カメラを選択する選択部を更に備えて、
　前記被写体は、前記選択部が選択した仮想カメラの操作者とコミュニケーションを行う、
　請求項１に記載の情報処理装置。
　コンピュータを、
　被写体の周囲に配置した複数の第１の撮像装置がそれぞれ撮像した複数の実画像を取得する第１の取得部と、
　前記複数の実画像から、前記被写体の３Ｄモデルを生成する生成部と、
　前記３Ｄモデルを、視聴デバイスに応じた形態の画像にレンダリングする際の仮想視点に係る情報を、前記被写体に提示する提示部と、
　して機能させるプログラム。