WO2024014197A1

WO2024014197A1 - 映像処理装置、映像処理方法およびプログラム

Info

Publication number: WO2024014197A1
Application number: PCT/JP2023/021294
Authority: WO
Inventors: 哲也菊川
Original assignee: ソニーグループ株式会社
Priority date: 2022-07-14
Filing date: 2023-06-08
Publication date: 2024-01-18

Abstract

本開示に係る一形態の映像処理装置は、被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、を備える。

Description

映像処理装置、映像処理方法およびプログラム

　本開示は、映像処理装置、映像処理方法およびプログラムに関する。

　従来、現実の３Ｄ空間をセンシングした情報、例えば異なる視点から被写体を撮像した多視点画像を用いて、視聴空間内に３Ｄオブジェクトを生成し、そのオブジェクトが視聴空間内に存在しているかのように見える映像（ボリュメトリック映像）を生成する方法が提案されている。

　例えば特許文献１では、カメラから被写体の表面までの距離を表すデプスマップに基づいて、被写体の３Ｄ形状を求めている。

　また、画像に映った人物の骨格を推定する技術が知られている。例えば、特許文献２では、２次元画像に映った人物の骨格を推定している。

国際公開第２０１８／０７４２５２号特許第５７８４３６５号公報

　従来技術によれば、被写体の３Ｄ形状を精度よく生成することができる。しかし、ボリュメトリック技術により生成される被写体の３Ｄ形状は、多視点カメラから得られる画像に基づいていることから、その活用が難しい場合がある。例えば、３Ｄ形状に何らかのエラーが存在する場合、多視点カメラの台数分の画像修正を手作業で行うことを要するので、非常に作業負担が大きくなる。また、撮影および生成に手間がかかるため、生成した３Ｄ形状を含む映像のうち、例えば一部シーンのみ撮影し直すだけであっても大きな労力が費やされることになる。このため、被写体の３Ｄ形状等を含むボリュメトリック動画の活用は容易でないという現状がある。

　そこで、本開示では、被写体の３Ｄ形状を簡易に活用することができる映像処理装置、映像処理方法およびプログラムを提案する。

　上記の課題を解決するために、本開示に係る一形態の映像処理装置は、被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、を備える。

被写体の３Ｄモデルを生成する処理の流れの概要を示す図である。被写体の骨格を推定する方法を説明する図である。被写体の３Ｄ骨格を推定する処理を説明する図である。実施形態の映像処理装置のハードウェア構成の一例を示すハードウェアブロック図である。ボリュメトリック映像の生成処理の流れの一例を示すフローチャートである。実施形態に係る映像処理を説明するための図（１）である。実施形態に係る映像処理を説明するための図（２）である。実施形態に係る映像処理を説明するための図（３）である。実施形態に係る映像処理装置の構成例を示す図である。実施形態に係る映像処理の第１の具体例を示す図（１）である。実施形態に係る映像処理の第１の具体例を示す図（２）である。実施形態に係る映像処理の第１の具体例を示す図（３）である。実施形態に係る映像処理の手順を示すフローチャートである。実施形態に係る映像処理におけるデータの流れを示すフローチャートである。実施形態に係る映像処理の第２の具体例を示す図（１）である。実施形態に係る映像処理の第２の具体例を示す図（２）である。実施形態に係る映像処理の第２の具体例を示す図（３）である。実施形態に係る映像処理の第２の具体例における手順を示すフローチャートである。実施形態に係る映像処理の第２の具体例におけるデータの流れを示すフローチャートである。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、以下に示す項目順序に従って本開示を説明する。
　　１．本開示の実施形態
　　　１－１．前提事項の説明－３Ｄモデルの生成
　　　１－２．前提事項の説明－ボリュメトリック映像の生成
　　　１－３．前提事項の説明－骨格推定
　　　１－４．前提事項の説明－３Ｄ骨格の推定
　　　１－５．前提事項の説明－映像処理装置のハードウェア構成
　　　１－６．前提事項の説明－映像処理の流れの一例
　　　１－７．実施形態に係る映像処理の概要
　　　１－８．実施形態に係る映像処理装置の構成
　　　１－９．実施形態に係る映像処理の手順
　　　１－１０．実施形態に係る映像処理におけるデータの流れ
　　　１－１１．実施形態に係る映像処理の第２の具体例
　　　１－１２．実施形態の第２の具体例に係る映像処理の手順
　　　１－１３．実施形態の第２の具体例に係る映像処理におけるデータの流れ
　　２．本開示の応用例
　　　２－１．コンテンツの制作
　　　２－２．仮想空間での体験
　　　２－３．遠隔地とのコミュニケーション
　　　２－４．その他の活用例
　　　２－５．その他の実施形態
　　３．本開示に係る映像処理装置の効果

（１．本開示の実施形態）
（１－１．前提事項の説明－３Ｄモデルの生成）
　まず、図１を用いて、本開示を適用した映像処理装置１００が、被写体９０の３Ｄモデル９０Ｍを生成する処理の流れを説明する。図１は、被写体の３Ｄモデルを生成する処理の流れの概要を示す図である。

　図１に示すように、被写体９０の３Ｄモデル９０Ｍは、複数のカメラ７０（カメラ７０ａ、カメラ７０ｂ、カメラ７０ｃ）による被写体９０の撮像と、３Ｄモデリングにより被写体９０の３Ｄ情報を有する３Ｄモデル９０Ｍを生成する処理と、を経て行われる。

　複数のカメラ７０は、図１に示すように、現実世界に存在する被写体９０を取り囲むように、被写体９０の外側に、被写体９０の方向を向いて配置される。図１は、カメラの台数が３台の例を示しており、カメラ７０ａ、カメラ７０ｂ、カメラ７０ｃが、それぞれ被写体９０の周りに配置されている。なお、カメラ７０の台数は３台に限定されるものではなく、より多くの台数のカメラを備えてもよい。また、カメラ７０ａ、カメラ７０ｂ、カメラ７０ｃのカメラパラメータ７１ａ、カメラパラメータ７１ｂ、カメラパラメータ７１ｃは、キャリブレーションを行うことによって、予め取得される。カメラパラメータ７１ａ、カメラパラメータ７１ｂ、カメラパラメータ７１ｃは、カメラ７０ａ、カメラ７０ｂ、カメラ７０ｃの内部パラメータと外部パラメータとを含む。なお、複数のカメラ７０は、被写体９０までの距離を示すデプス情報を取得してもよい。

　異なる視点から、３台のカメラ７０ａ、カメラ７０ｂ、カメラ７０ｃによって、同期して撮影された多視点画像Ｉを用いて、被写体９０の３Ｄモデリングが行われる。なお、多視点画像Ｉは、カメラ７０ａが撮像した２次元画像Ｉａと、カメラ７０ｂが撮像した２次元画像Ｉｂと、カメラ７０ｃが撮像した２次元画像Ｉｃとを含む。この３Ｄモデリングによって、３台のカメラ７０ａ、カメラ７０ｂ、カメラ７０ｃが撮像した画像のフレーム単位で、被写体９０の３Ｄモデル９０Ｍが生成される。

　３Ｄモデル９０Ｍは、例えば特許文献１に説明された方法で生成される。具体的には、Visual　Hullを用いて、複数の視点からの画像（例えば、複数の視点からのシルエット画像）を用いて被写体９０の３次元形状を削り出すことによって、被写体９０の３Ｄモデル９０Ｍを生成する。

　３Ｄモデル９０Ｍは、被写体９０の表面形状を表す形状情報を、例えば、頂点（Vertex）と頂点との繋がりで表現したポリゴンメッシュデータＭで表現する。ポリゴンメッシュデータＭは、例えば、メッシュの頂点の３次元座標と、どの頂点を組み合わせて三角形メッシュを形成するかを示すインデックス情報とを有する。なお、３Ｄモデルの表現の方法はこれらに限定されるものではなく、点の位置情報で表現される所謂ポイントクラウドの表現方法で記述されてもよい。また、これらの３Ｄ形状データに紐づけられる形で、被写体９０の色を表す色情報データが、テクスチャデータＴとして生成される。テクスチャデータには、どの方向から見ても一定の色となるView　Independentテクスチャと、視聴する方向によって色が変化するView　Dependentテクスチャとがある。

　生成された３Ｄモデル９０Ｍは、当該３Ｄモデル９０Ｍを生成した計算機とは別の計算機で利用される場合が多いため、伝送・蓄積に適したフォーマットに圧縮（符号化）される。そして、圧縮された３Ｄモデル９０Ｍは、当該３Ｄモデル９０Ｍを利用する計算機に送信される。

（１－２．前提事項の説明－ボリュメトリック映像の生成）
　送信された３Ｄモデル９０Ｍを受信した計算機は、圧縮された３Ｄモデル９０Ｍを解凍（復号化）する。そして、計算機は、解凍された３Ｄモデル９０ＭのポリゴンメッシュデータＭとテクスチャデータＴとを用いて、被写体９０を任意の視点から観測した映像（ボリュメトリック映像）を生成する。

　具体的には、３Ｄモデル９０ＭのポリゴンメッシュデータＭを任意のカメラ視点に投影して、投影されたポリゴンメッシュデータＭに、色や模様を表すテクスチャデータＴを貼り付けるテクスチャマッピングを行う。

　生成された画像は、ユーザの視聴環境に置かれた表示装置８０に表示される。表示装置８０は、例えば、ヘッドマウントディスプレイ、空間ディスプレイ、携帯電話（スマートフォン）、テレビ、ＰＣ等である。

　なお、本実施形態では説明を簡単にするため、３Ｄモデル９０Ｍの生成と、生成された３Ｄモデル９０Ｍを変形させたボリュメトリック映像の生成とを同じ機器（映像処理装置１００）が実行するものとして説明する。なお、本開示の説明では、被写体の３Ｄ表現をボリュメトリック映像と称するが、かかるボリュメトリック映像とは、被写体を表現するための３Ｄデータと読み替えてもよい。

（１－３．前提事項の説明－骨格推定）
　次に、図２を用いて、被写体９０である人物の画像から、当該人物の２Ｄ骨格８２を推定する方法を説明する。図２は、被写体９０の骨格を推定する方法を説明する図である。なお、２Ｄ骨格８２は、被写体９０の姿勢を表す。

　２Ｄ骨格８２は、例えば特許文献２に説明された方法で生成される。具体的には、映像処理装置１００は、予め、人物のシルエット画像と、当該シルエット画像から生成した胴体や手足を表すセグメントとをデータベース化する。そして、映像処理装置１００は、撮像された画像とデータベースとを照合することによって、骨格の形状、及び関節の位置、手先・足先・顔の位置等を推定する。

　また、同様の処理を、ディープラーニングを用いた機械学習によって生成されたニューラルネットワークを用いて行う例も知られている。

　このような骨格推定を行うことによって、図２に示すように、被写体９０の画像から、２Ｄ骨格８２の位置と形状とが推定される。２Ｄ骨格８２は、ボーン８２ａと、関節８２ｂと、頭部８２ｃと、手先８２ｄと、足先８２ｅとを含む。

　ボーン８２ａは、互いに接続された構造物（関節８２ｂ、頭部８２ｃ、手先８２ｄ、足先８２ｅ）を繋ぐリンクである。関節８２ｂは、異なる２つのボーン８２ａの接続点である。頭部８２ｃは、被写体９０の頭部に対応する位置を示す。手先８２ｄ、足先８２ｅは、被写体９０の手先及び足先に対応する位置を示す。

（１－４．前提事項の説明－３Ｄ骨格の推定）
　続いて、図３を用いて、被写体９０の３Ｄ骨格８３の推定方法を説明する。図３は、被写体の３Ｄ骨格を推定する処理を説明する図である。

　映像処理装置１００は、２次元画像Ｉａ、２次元画像Ｉｂ、２次元画像Ｉｃの各々に写った被写体９０の像から、上記手法により推定した２Ｄ骨格８２に基づいて、被写体９０の３Ｄ骨格８３を推定する。

　具体的には、図３に示すように、映像処理装置１００は、２次元画像Ｉａ、２次元画像Ｉｂ、２次元画像Ｉｃの中の任意の２枚の画像、例えば、２次元画像Ｉａおよび２次元画像Ｉｂに写った被写体９０の２Ｄ骨格８２の位置から、被写体９０の３Ｄ骨格８３を推定する。各カメラの設置位置及び光軸の向きは、予め行ったキャリブレーションによって既知であるため、各画像に写った同じ部位の座標がわかれば、三角測量の原理を用いて、当該部位の３次元座標を推定することができる。

　映像処理装置１００は、２次元画像Ｉａから推定された２Ｄ骨格８２の手先８２ｄを示す点Ｐ１とカメラ７０ａの光学中心とを結ぶ線分を延長する。また、映像処理装置１００は、２次元画像Ｉｂから推定された２Ｄ骨格８２の手先８２ｄを示す点Ｐ２とカメラ７０ｂの光学中心とを結ぶ線分を延長する。２本の延長線は、空間上の点Ｐ３で交わる。この点Ｐ３は、被写体９０の３Ｄ骨格８３の手先８３ｄを表す。

　映像処理装置１００は、同様の処理を、２次元画像Ｉａから推定された２Ｄ骨格８２と、２次元画像Ｉｂから推定された２Ｄ骨格８２との対応する全て関節、及び、頭部８２ｃ、手先８２ｄ、足先８２ｅを示す全ての端点に対して行う。これによって、映像処理装置１００は、被写体９０の３Ｄ骨格８３を推定することができる。

　なお、複数のカメラ７０（カメラ７０ａ、カメラ７０ｂ、カメラ７０ｃ）のレイアウトによっては、被写体９０の死角が生じるため、映像処理装置１００は、できるだけ多くの複数のカメラのペアに対して、上記処理を行う。これによって、映像処理装置１００は、被写体９０の３Ｄ骨格８３を漏れなく推定する。例えば、本実施形態の場合、映像処理装置１００は、カメラ７０ａとカメラ７０ｂのペア、カメラ７０ａとカメラ７０ｃのペア、カメラ７０ｂとカメラ７０ｃのペア、のそれぞれに対して、上記処理を行うのが望ましい。

（１－５．前提事項の説明－映像処理装置のハードウェア構成）
　上述のように、本実施形態の映像処理装置１００は、被写体９０の３Ｄモデル９０Ｍと２Ｄ骨格８２とを生成する。また、映像処理装置１００は、被写体９０の３Ｄ骨格８３を推定する。更に、映像処理装置１００は、操作者の指示に基づいて、３Ｄモデル９０Ｍの姿勢を変形させる。なお、映像処理装置１００は、本開示における映像処理装置の一例である。

　図４を用いて、映像処理装置１００のハードウェア構成を説明する。図４は、実施形態の映像処理装置のハードウェア構成の一例を示すハードウェアブロック図である。

　図４に示されるコンピュータにおいて、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３は、バス２４を介して相互に接続されている。バス２４には、入出力インタフェース２５も接続されている。入出力インタフェース２５には、入力装置２６、出力装置２７、記憶装置２８、通信装置２９、およびドライブ装置３０が接続されている。

　入力装置２６は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子等を備える。出力装置２７は、例えば、ディスプレイ、スピーカ、出力端子等を備える。前記した表示装置８０は、出力装置２７の一例である。記憶装置２８は、例えば、ハードディスク、ＲＡＭディスク、不揮発性のメモリ等を備える。通信装置２９は、例えば、ネットワークインタフェース等を備える。ドライブ装置３０は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブルメディアを駆動する。

　以上のように構成されるコンピュータは、ＣＰＵ２１が、例えば、記憶装置２８に記憶されているプログラムを、入出力インタフェース２５およびバス２４を介して、ＲＡＭ２３にロードして実行することにより、上述した一連の処理を行う。ＲＡＭ２３にはまた、ＣＰＵ２１が各種の処理を実行する上において必要なデータ等も適宜記憶される。

　コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアをドライブ装置３０に装着することにより、入出力インタフェースを介して、記憶装置２８にインストールすることができる。

　また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信装置２９で受信し、記憶装置２８にインストールすることができる。

（１－６．前提事項の説明－映像処理の流れの一例）
　映像処理装置１００による３Ｄモデルの生成、すなわちボリュメトリック映像の生成の流れの概要について、図５を用いて説明する。図５は、ボリュメトリック映像の生成処理の流れの一例を示すフローチャートである。

　図５に示すように、映像処理装置１００は、被写体の３Ｄモデルを生成するための画像データを取得する（ステップＳ１０１）。映像処理装置１００は、被写体の３Ｄモデルを生成するための画像データに基づいて、被写体の３次元情報を有するモデルを生成する（ステップＳ１０２）。

　映像処理装置１００は、生成された３Ｄモデルの形状およびテクスチャデータを伝送や蓄積に好適なフォーマットにエンコードする（ステップＳ１０３）。映像処理装置１００は、符号化されたデータを伝送し（ステップＳ１０４）、伝送されたデータを計算機が受信する（ステップＳ１０５）。計算機は、デコード処理を行い、表示に必要な形状およびテクスチャデータに変換する。また、計算機は、形状およびテクスチャデータを用いてレンダリングを行う（ステップＳ１０６）。そして、計算機（もしくは、ボリュメトリック映像を表示する表示装置８０）は、レンダリングした結果を表示する（ステップＳ１０７）。

　なお、上述のように、画像データを取得して処理する映像処理装置１００と、ボリュメトリック映像を生成する計算機とは、同一の機器であってもよい。

（１－７．実施形態に係る映像処理の概要）
　以上を前提として、実施形態に係る映像処理を説明する。図６は、実施形態に係る映像処理を説明するための図（１）である。実施形態において、映像処理装置１００は、被写体を多視点カメラによって撮影し、上述した前提技術を利用して、被写体のボリュメトリック動画５０を生成する。図７での図示は省略しているが、ボリュメトリック動画５０に含まれる被写体は３Ｄデータであるため、再生時には、ユーザは被写体をあらゆる角度から視聴することができる。すなわち、映像処理装置１００は、被写体を背景から分離し、被写体のみを３Ｄモデルとして様々な角度から視認可能な動画であるボリュメトリック動画５０を生成する。

　通常、ボリュメトリック動画は、多視点カメラで撮影した複数の動画に基づいて生成される。このため、ボリュメトリック動画の一部を差し替えたい場合（例えば、ダンスシーンを撮影した動画の後半部分だけを撮り直したい場合等）や、動画の一部にエラーが発生した場合など、動画の修正を行うことが難しい。そこで、映像処理装置１００は、実施形態に係る映像処理により、柔軟に編集可能なボリュメトリック動画を生成する。これにより、映像処理装置１００は、ボリュメトリック動画を簡易に活用させることを可能とする。

　この点について、図７を用いて説明する。図７は、実施形態に係る映像処理を説明するための図（２）である。

　図７において、多視点カメラによって撮影された被写体を含むボリュメトリック映像５４は、映像にエラー等が発生しておらず、ボリュメトリック映像として好適なフレーム（以下、このようなフレームを「理想的なフレーム」と称する）であるものとする。このとき、映像処理装置１００は、ボリュメトリック映像５４に含まれる被写体に対してリギング（rigging）を行う。すなわち、映像処理装置１００は、上記前提技術で説明したような、被写体に対応した３Ｄ骨格であるスケルトンデータを生成し、そのスケルトンデータを自在に動かすためのリグを埋め込む。

　そして、映像処理装置１００は、リグを用いて、スケルトンデータをフレームに沿って動かす。図７に示すスケルトンデータ動画５６は、スケルトンデータを用いて被写体が歩いている様子を表す動画である。

　かかるスケルトンデータに基づいて映像のリターゲット処理（映像への再適用）を行うことで、映像処理装置１００は、スケルトンデータに基づいたボリュメトリック動画を得ることができる。得られたボリュメトリック動画は、例えば、図６に示したボリュメトリック動画５０と同様の動画となる。

　すなわち、通常は連番のボリュメトリックを使って動画表示することでボリュメトリック動画５０を得る手法に対して、実施形態に係る映像処理では、１つの静止ボリュメトリックをスケルトンデータを用いて連番表示することでボリュメトリック動画を得る。具体的には、映像処理装置１００は、連番のスケルトンデータ（図７ではスケルトンデータ動画５６）と、リグ入り静止ボリュメトリック（図７ではボリュメトリック映像５４）によって、ボリュメトリックによる動画表現を可能とする。

　かかる映像処理に関して、図８を用いて具体的に説明する。図８は、実施形態に係る映像処理を説明するための図（３）である。

　図８に示すフレーム２００は、被写体２０１のボリュメトリック映像の１フレームであり、理想的なフレームであるものとする。映像処理装置１００は、フレーム２００にリギングを行い、被写体２０１のスケルトンデータを動かすためのリグを生成する。

　その後、映像処理装置１００は、被写体２０１が別の動作を行っている所定のフレーム２０４を取得する（ステップＳ１０）。フレーム２０４は、映像処理装置１００がボリュメトリック映像を生成しようとする、ターゲットとなるフレームである。

　映像処理装置１００は、例えばマーカレスモーションキャプチャを用いて、フレーム２０４に対応するスケルトンデータ２０６を生成する。

　そして、映像処理装置１００は、ボリュメトリック（３Ｄデータ）であるフレーム２００を、得られたスケルトンデータ２０６を用いてリターゲットする（ステップＳ１２）。具体的には、映像処理装置１００は、ボリュメトリックに埋め込まれたリグを用いて、スケルトンデータ２０６に対応する形状にボリュメトリックを変形する（ステップＳ１４）。

　図８に示すフレーム２１２は、被写体２０１のボリュメトリック映像の１フレームであり、フレーム２０４に対応する動作を行ったスケルトンデータから生成されたボリュメトリック映像である。このように、映像処理装置１００は、リグ入りのボリュメトリックを一つ生成することで、ボリュメトリックでないフレームに対応するスケルトンデータを得ることで、当該フレームに対応する新たなボリュメトリックをリターゲット処理によって得ることができる。具体的には、映像処理装置１００は、変形したボリュメトリックをターゲットカメラに再投影することで、ボリュメトリックなシルエット動画（人の動きを３Ｄで再現可能な動画）を得ることができる。

　以上のように、実施形態に係る映像処理によれば、理想のフレームに対してリグを入れる作業が発生するが、その後のフレームは、スケルトンデータに基づいて被写体を変形することによりボリュメトリック映像が得られる。実施形態に係る映像処理によれば、すべてのフレームで連番のボリュメトリック映像を生成することを要しないため、処理のデータ量を削減できる。また、実施形態に係る映像処理は、特別な映像処理システムを必要としないため、システム構築にコストを掛けることなく、ボリュメトリック動画を得ることができる。以上から、実施形態に係る映像処理装置１００は、ボリュメトリック動画の簡易な活用を実現することができる。

（１－８．実施形態に係る映像処理装置の構成）
　次に、映像処理装置１００の構成について説明する。図９は、実施形態に係る映像処理装置１００の構成例を示す図である。

　図９に示すように、映像処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、映像処理装置１００は、映像処理装置１００を管理する管理者やユーザ等から各種操作を受け付ける入力部（例えば、キーボードやタッチディスプレイ等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）やネットワークインタフェイスコントローラ（Network　Interface　Controller）等によって実現される。通信部１１０は、ネットワークＮと有線または無線で接続され、ネットワークＮを介して、計算機や外部装置等と情報の送受信を行う。ネットワークＮは、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、インターネット、Ｗｉ－Ｆｉ（登録商標）、ＵＷＢ（Ultra　Wide　Band）、ＬＰＷＡ（Low　Power　Wide　Area）等の無線通信規格もしくは方式で実現される。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　記憶部１２０は、実施形態に係る映像処理を行うための各種情報を記憶する。例えば、記憶部１２０は、映像処理装置１００で機能するアプリ等のプログラムや、処理に用いる各種データ（画像データ等）を記憶する。

　制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）、ＧＰＵ等によって、映像処理装置１００内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。制御部１３０は、例えば、図３に示したＣＰＵ２１に対応する。

　図９に示すように、制御部１３０は、取得部１３１と、推定部１３２と、適用部１３３と、生成部１３４と、出力部１３５とを含む。

　取得部１３１は、各種情報を取得する。例えば、取得部１３１は、ボリュメトリック等の３Ｄデータを生成する元となる画像データを取得する。具体的には、取得部１３１は、被写体を取り囲む多数のカメラが撮影した複数の画像データを取得する。なお、以下の説明では、同時刻に被写体を様々な角度から撮影した複数の画像データを「フレーム」と称する場合がある。例えば、１秒間のボリュメトリック動画には、６０枚や１２０枚のフレームが含まれる。

　推定部１３２は、被写体を複数の視点から撮影した多視点画像に基づいて、被写体の３Ｄ骨格（スケルトンデータ）を推定する。かかる推定処理は、上述したように、様々な既知の技術が用いられてもよい。

　また、推定部１３２は、連続に撮影された複数の多視点画像に基づいて、複数のフレームにおける被写体の３Ｄ骨格を推定する。後述する生成部１３４は、連続したフレームに基づき推定されたスケルトンデータの各々からボリュメトリック映像を生成することで、図５で示したような、連続したボリュメトリック映像（ボリュメトリック動画）を生成することができる。

　また、推定部１３２は、予め生成された第２の３Ｄデータ（通常の処理により生成されたボリュメトリック映像）に不具合が存在する場合には、その第２の３Ｄデータに対応する多視点画像のフレームにおける被写体の３Ｄ骨格を推定する。この場合、後述する適用部１３３は、推定された被写体の３Ｄ骨格を、第２の３Ｄデータに対応する多視点画像のフレームにおける被写体に適用する。また、生成部１３４は、３Ｄ骨格が適用された被写体の３Ｄデータを、第２の３Ｄデータに代えて生成する。かかる処理について、図１０を用いて説明する。

　図１０は、実施形態に係る映像処理の第１の具体例を示す図（１）である。図１０に示すフレーム２２０は、被写体である人物２２１を撮影した画像データ２２２と、画像データ２２２に対応するボリュメトリック映像２２４を示している。

　ボリュメトリック映像は、被写体を３Ｄ表現するために活用されることから、その生成において、撮影した画像から被写体と背景とを分離する処理が行われる。図１０の例では、画像データ２２２から人物２２１と背景とを分離する処理が行われる。分離処理は、例えば、背景差分や機械学習による全景背景分離等により行われる。分離処理により、画像から、被写体のみのシルエット画像が生成される。

　ところで、かかる分離においては、処理手法によらず、シルエット部分に不具合が発生する可能性があることが知られている。すなわち、シルエット部分の一部が背景と判定されることにより、結果として生成されるボリュメトリックの形状に穴が開く問題が発生しうる。図１０に示す例では、ボリュメトリック映像２２４において、領域２２６で示した一部が背景と誤認され、穴が空いている様子を示している。

　穴が空いたフレームが発生すると、手作業でシルエットを修正する必要が生じうる。しかし、ボリュメトリック映像は、例えばカメラ５０台分など多数の画像データに基づいて生成されるものであるため、その作業コストが非常に大きくなる。

　そこで、映像処理装置１００は、以下に示す処理により、上記課題を解決する。この点について、図１１を用いて説明する。図１１は、実施形態に係る映像処理の第１の具体例を示す図（２）である。

　図１１において、生成部１３４は、理想的なフレーム２２８に基づいてボリュメトリック映像を生成し、リグを入れておく。その後、推定部１３２は、不具合のあるフレーム（例えば、穴の空いたフレーム）を検出した場合に、かかるフレームにおけるスケルトンデータ２３０を推定する。

　そして、適用部１３３は、推定されたスケルトンデータ２３０をリグ入りのボリュメトリックにリターゲットし、姿勢を合わせる。生成部１３４は、リターゲットしたボリュメトリックを、穴が空いたように撮影されてしまうカメラに再投影することで、シルエット２３２を生成する。シルエット２３２は、理想的なフレーム２２８のリグを利用して、スケルトンデータ２３０からボリュメトリックが再構築されているため、領域２３４に穴が存在しない。これにより、生成部１３４は、穴が空くような不具合のないシルエットを得ることができる。

　また、映像処理装置１００は、異なる手法により、不具合のないシルエットを得ることもできる。具体的には、生成部１３４は、第２の３Ｄデータと被写体の３Ｄデータとの論理和をとることで、第３の３Ｄデータを生成する。この点について、図１２を用いて説明する。図１２は、実施形態に係る映像処理の第１の具体例を示す図（３）である。

　図１２に示すフレーム２３６は、シルエットの一部の領域２３７において、穴が空いたフレームである。このようなフレーム２３６を上記処理により補正した場合、領域２３７には穴がないものの、ほかの不具合が発生する場合がある。例えば、図１２に示すフレーム２３８は、領域２３７に対応する箇所には穴がないが、被写体の腕の部分が欠けているという不具合（ノイズ）を有するフレームである。

　このような場合、生成部１３４は、両フレームの論理和（OR演算）を行い、両フレームのいずれかにおいて被写体のデータが含まれる箇所を、被写体と判定してもよい。これにより、生成部１３４は、穴やノイズのないフレーム２４０を得ることができる。すなわち、フレーム２３８のようにリターゲット処理により生成されるシルエットについては、穴以外の部分で削れる場合があるため、生成部１３４は、論理和演算を行い、データの適切な箇所のみを用いてシルエットを生成することができる。

　かかる処理により、映像処理装置１００は、シルエットを手作業で修正する必要がなくなるため、作業負担を軽減しつつ、穴などの不具合のないボリュメトリック映像を生成することができる。

　図９に戻って説明を続ける。適用部１３３は、推定部１３２によって推定された被写体の３Ｄ骨格を、多視点画像とは異なる他の画像に含まれる被写体であって、画像において背景と分離された被写体に適用する。多視点画像とは異なる他の画像とは、例えば、当該多視点画像とは異なるフレーム（撮影タイミングの異なるフレーム）における画像データ等である。

　適用部１３３は、他の画像に含まれる被写体に付されたリグに基づいて、被写体の３Ｄ骨格を当該被写体に適用する。すなわち、適用部１３３は、リグ入りの３Ｄモデル（ボリュメトリック）をリターゲットする。

　生成部１３４は、適用部１３３によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する。具体的には、生成部１３４は、３Ｄ骨格が適用され（リターゲットされ）、カメラに再投影されることで生成されたシルエットに基づいて、被写体の３Ｄデータ（ボリュメトリック）を生成する。

　例えば、生成部１３４は、複数のフレームにおける被写体の３Ｄ骨格（時系列や動作として連続したスケルトンデータ）に基づいて、３Ｄデータとして、被写体のボリュメトリック動画を生成する。

　出力部１３５は、生成部１３４によって生成された３Ｄデータを出力する。例えば、出力部１３５は、３Ｄデータであるボリュメトリック動画をユーザが利用する表示装置８０等に出力することで、当該動画をユーザに提供する。

（１－９．実施形態に係る映像処理の手順）
　次に、図１３を用いて、実施形態に係る映像処理の手順について説明する。図１３は、実施形態に係る映像処理の手順を示すフローチャートである。

　図１３に示すように、映像処理装置１００は、多視点カメラから取得されたフレームのうち、理想的なフレームを検索する（ステップＳ２０１）。かかる処理は、例えば映像処理装置１００の管理者の目視によって行われてもよいし、理想的なフレームを判定するための機械学習モデル等を用いて自動で行われてもよい。

　続いて、映像処理装置１００は、理想的なフレームにおける被写体について、リグ入りモデルを作成する（ステップＳ２０２）。そして、映像処理装置１００は、リグ入りモデルに関するボリュメトリック作成処理を開始する（ステップＳ２０３）。

　まず、映像処理装置１００は、フレームに含まれる被写体を背景と分離し、シルエットを作成する（ステップＳ２０４）。そして、映像処理装置１００は、作成したシルエットについて改善が必要か否かを判定する（ステップＳ２０５）。例えば、映像処理装置１００の管理者は、目視によって、シルエットに穴が空いていたり、何らかのノイズが含まれていたりするかを判定する。

　そして、映像処理装置１００の管理者がシルエット改善が必要であると判定すると（ステップＳ２０５；Ｙｅｓ）、映像処理装置１００は、当該フレームの被写体について骨格推定を行い、スケルトンデータを生成する（ステップＳ２０６）。

　続けて、映像処理装置１００は、生成したスケルトンデータに対して、リグ入りモデルをリターゲットする（ステップＳ２０７）。そして、映像処理装置１００は、リターゲットされたデータをターゲットカメラに再投影することで、当該フレームのシルエットを生成する（ステップＳ２０８）。図１１または図１２で示したように、かかるシルエットは、穴やノイズなどの不具合が解消されたシルエットとなる。

　映像処理装置１００は、ステップＳ２０５においてシルエット改善が必要でないと判定した場合（ステップＳ２０５；Ｎｏ）、または、ステップＳ２０８で新たに生成したシルエットを取得した場合、かかるシルエットに基づいて、ボリュメトリックを作成する（ステップＳ２０９）。

　映像処理装置１００は、処理対象とするすべてのフレームについて、上記の処理を行ったかを判定する（ステップＳ２１０）。すべてのフレームを処理していない場合（ステップＳ２１０；Ｎｏ）、映像処理装置１００は、ステップＳ２０４からの処理を繰り返す。一方、すべてのフレームを処理した場合（ステップＳ２１０；Ｙｅｓ）、映像処理装置１００は、ボリュメトリック生成処理を終了する。

（１－１０．実施形態に係る映像処理におけるデータの流れ）
　次に、図１４を用いて、実施形態に係る映像処理におけるデータの流れについて説明する。図１４は、実施形態に係る映像処理におけるデータの流れを示すフローチャートである。

　まず、映像処理装置１００は、所定の記憶領域（例えば記憶部１２０）にアクセスし、多視点カメラの撮影により得られた２次元画像およびカメラパラメータを取得する（ステップＳ３０１）。映像処理装置１００は、取得したデータのうち理想的なフレームからリグ入りボリュメトリックを生成し、記憶領域に保存する（ステップＳ３０２）。また、映像処理装置１００は、かかるリグ入りボリュメトリックを後段の処理で利用できるよう、リターゲット処理部に送る（ステップＳ３０３）。

　また、映像処理装置１００は、不具合のあるシルエットが生成される２次元画像（フレーム）において、２次元画像に含まれる被写体のスケルトンデータを生成し（ステップＳ３０４）、記憶領域に保存する（ステップＳ３０５）。また、映像処理装置１００は、かかるスケルトンデータを後段の処理で利用できるよう、リターゲット処理部に送る（ステップＳ３０６）。

　映像処理装置１００は、スケルトンデータに基づき、リグ入りモデルのボリュメトリックのリターゲット処理を行い、リターゲットモデルを生成し、記憶領域に保存する（ステップＳ３０７）。

　映像処理装置１００は、リターゲットモデルを多視点カメラに再投影し（ステップＳ３０８）、新たにシルエットを生成し、記憶領域に保存する（ステップＳ３０９）。そして、映像処理装置１００は、新たに生成したシルエットを取得するとともに（ステップＳ３１０）、多視点カメラのカメラパラメータ等を取得し（ステップＳ３１１）、取得した情報に基づいてボリュメトリックを生成する。映像処理装置１００は、生成した補正後ボリュメトリックを記憶領域に保存し（ステップＳ３１２）、処理を終了する。

（１－１１．実施形態に係る映像処理の第２の具体例）
　次に、図１５以下を用いて、実施形態に係る映像処理の第２の具体例について説明する。図１５は、実施形態に係る映像処理の第２の具体例を示す図（１）である。

　第２の具体例では、ボリュメトリック生成の処理対象となる被写体が複数存在する例を示す。動画等のコンテンツにおいては、被写体が複数いる場合でもまとめて撮影することが一般的に行われることから、被写体が複数いるような場合にも適切にボリュメトリックが生成できることが望ましい。

　図１５に示す例は、複数被写体２５０を撮影する状況を示す。この場合、複数被写体２５０の身体が重なり合う領域２５２をシルエット化すると、オクルージョンが発生しやすい。図１５に示すフレーム２５４は、複数被写体２５０を撮影した画像データの一例である。領域２５２に対応する領域２５６は、複数被写体２５０が重なり合うことでオクルージョンが発生しており、シルエット化した場合に、どの箇所がどの被写体に属するのかを判定することが困難な状況となっている。

　すなわち、被写体が複数いる場合の映像処理には、下記のような課題が存在する。まず、複数の被写体をまとめてオブジェクトファイルとして生成すると、生成後に、それぞれの被写体の位置を微調整するなどの修正が難しくなる。また、被写体同士が離れている場合は問題にならないが、近い位置にいる場合は、互いの身体等でのオクルージョンが発生し、ボリュメトリック形状の精度が低下する。なお、これらの問題を解消するため、被写体ごとに撮影することも考えられるが、この場合、それぞれの被写体の位置やタイミングを合わせることが難しいといった別の問題が発生する。例えばダンスシーンの撮影では、複数人で踊るべきシーンを、一人の演者が、他の演者が存在する場合と同じように踊るのは難しい。

　そこで、実施形態に係る映像処理装置１００は、下記の処理により、上記課題を解決する。すなわち、映像処理装置１００に係る推定部１３２は、複数の被写体を含む多視点画像に基づいて、複数の被写体の各々の３Ｄ骨格を推定する。そして、適用部１３３は、複数の被写体の各々の３Ｄ骨格を、多視点画像とは異なる他の画像に含まれる各々の被写体に適用する。さらに、生成部１３４は、３Ｄ骨格が適用された各々の被写体の３Ｄデータを生成する。

　具体的には、映像処理装置１００は、複数被写体をまとめて撮影し、各々にリグ入りボリュメトリックを生成する。そして、所定のフレームにおいて、複数被写体が近づくことでオクルージョンが発生するような場合には、リグ入りのボリュメトリックをリターゲットして、各々のシルエットを得る。映像処理装置１００は、得られたシルエットに基づいて複数被写体をまとめてモデリングしてもよいし、各々を別々にモデリングしてもよい。すなわち、映像処理装置１００に係る生成部１３４は、３Ｄ骨格が適用された各々の被写体を一つにまとめた３Ｄデータを生成してもよい。かかる処理により、映像処理装置１００は、複数被写体が含まれるフレームであっても、適切なボリュメトリックを生成することができる。

　かかる処理について、図１６を用いて説明する。図１６は、実施形態に係る映像処理の第２の具体例を示す図（２）である。

　図１６に示すフレーム２６０は、被写体３００と被写体３１０とを含む。この場合、映像処理装置１００は、手動もしくは自動処理により、被写体を分離する。図１６に示すフレーム２６２では、映像処理装置１００が、フレーム２６０から被写体３１０のみを分離した状況を示す。そして、映像処理装置１００は、被写体３１０のリグ入りボリュメトリックを生成する。なお、図示は省略するが、映像処理装置１００は、被写体３００のみを分離したフレームから、被写体３００に対応するリグ入りボリュメトリックを生成する。

　このように、映像処理装置１００は、分離したリグ入りボリュメトリックを得ることで、上述してきた映像処理を適用できるようになるため、被写体３００や被写体３１０を任意には位置した映像等を新たに生成することも可能になる。例えば、図１６に示すフレーム２６４やフレーム２６６は、映像処理装置１００が、被写体３００や被写体３１０の位置や大きさを任意に変化させた例を示している。

　このように、複数被写体が含むフレームであっても、映像処理装置１００は、一度被写体を分離して各々のリグ入りボリュメトリックを生成することにより、各々の被写体ごとにリターゲットが可能になるため、より柔軟に複数被写体のボリュメトリックを生成することができる。例えば、映像処理装置１００の管理者は、手作業でフレームに含まれる被写体を分割し、それぞれに生成したボリュメトリックにしてリグ入れ処理をすることで、各々の被写体のボリュメトリックを得ることができる。これにより、映像処理装置１００は、各々のボリュメトリックを任意に配置するなど柔軟な映像生成が可能になるので、例えばダンスシーンなどの撮影後に位置を微調整したいという要求に応えることができる。

　なお、映像処理装置１００は、機械学習モデル等を利用して自動的に被写体を分離し、リグ入りボリュメトリックを生成してもよい。全てのフレームを目視の上、手作業で被写体を分割することは現実的でないため、自動化するメリットは大きい。

　なお、映像処理装置１００は、複数のシルエット画像から一人のシルエットを生成する手法として、異なる手法を採ることもできる。具体的には、映像処理装置１００に係る適用部１３３は、複数の被写体の各々の３Ｄ骨格を各々の被写体に適用する場合に、少なくとも一つの被写体が含まれる複数の画像同士において、背景と分離された被写体に対応するデータの論理積をとることにより、適用先の被写体のデータを特定してもよい。この点について、図１７を用いて説明する。図１７は、実施形態に係る映像処理の第２の具体例を示す図（３）である。

　図１７に示すフレーム２７０は、複数被写体のシルエットが重なっている状況を示す。また、フレーム２７２は、リグ入りボリュメトリックに基づいて、一人の被写体のみについて新たにシルエットを生成した状況を示す。なお、図１２でも説明したように、フレーム２７２の領域２７４では、リターゲット処理においてノイズが発生し、一部の欠けがみられるものとする。

　この場合に、映像処理装置１００は、フレーム２７０とフレーム２７２においてシルエットと判定されている箇所の論理積（ＡＮＤ処理）をとる。すると、両フレームにおいてともにシルエットと判定されている箇所のみが抽出されるので、映像処理装置１００は、フレーム２７６のように、適切な一人のシルエットを特定できる。この場合、映像処理装置１００に係る生成部１３４は、特定された被写体の形状を補正し、補正後の３Ｄ骨格に基づいて、被写体の３Ｄデータを生成してもよい。例えば、生成部１３４は、フレーム２７６のシルエットに既知のモルフォロジー処理等を行い、シルエットの形状を補正することができる。具体的には、生成部１３４は、論理積をとったことにより本来よりも細身で表現されてしまう傾向にあるシルエットにモルフォロジー処理を行うことで、本来の形状に近づけることができる。なお、ＡＮＤ処理を行うことでノイズによる余分な形状が発生した場合等でも、かかる箇所は、他の角度から撮影したカメラによって削られることになるため問題とならないと想定される。

（１－１２．実施形態の第２の具体例に係る映像処理の手順）
　次に、図１８を用いて、実施形態に係る第２の具体例の手順について説明する。図１８は、実施形態に係る映像処理の第２の具体例における手順を示すフローチャートである。

　図１８に示すように、映像処理装置１００は、多視点カメラから取得されたフレームのうち、理想的なフレームを検索する（ステップＳ４０１）。

　続いて、映像処理装置１００は、理想的なフレームにおける複数の被写体について、それぞれにボリュメトリックを作成する（ステップＳ４０２）。さらに、映像処理装置１００は、各モデル（各々の被写体のボリュメトリック）を分割し、リグ入りモデルを生成する（ステップＳ４０３）。そして、映像処理装置１００は、複数被写体のボリュメトリック作成処理を開始する（ステップＳ４０４）。

　まず、映像処理装置１００は、フレームに含まれる被写体を背景と分離し、シルエットを作成する（ステップＳ４０５）。そして、映像処理装置１００は、作成したシルエットについて改善が必要か否かを判定する（ステップＳ４０６）。

　そして、映像処理装置１００の管理者がシルエット改善が必要であると判定すると（ステップＳ４０６；Ｙｅｓ）、映像処理装置１００は、当該フレームの被写体について骨格推定を行い、スケルトンデータを生成する（ステップＳ４０７）。

　続けて、映像処理装置１００は、生成したスケルトンデータに対してモルフォロジー処理を行い、形状を補正する（ステップＳ４０８）。続いて、映像処理装置１００は、補正したスケルトンデータに基づいて、リグ入りモデルをリターゲットする（ステップＳ４０９）。そして、映像処理装置１００は、リターゲットされたデータをターゲットカメラに再投影する（ステップＳ４１０）。なお、映像処理装置１００は、再投影のあとに、生成されたシルエットを補正するためのモルフォロジー処理等を行ってもよい。

　映像処理装置１００は、ステップＳ４０６においてシルエット改善が必要でないと判定した場合（ステップＳ４０６；Ｎｏ）、または、ステップＳ４１０で新たに生成したシルエットを取得した場合、かかるシルエットに基づいて、ボリュメトリックを作成する（ステップＳ４１１）。

　映像処理装置１００は、処理対象とするすべてのフレームについて、上記の処理を行ったかを判定する（ステップＳ４１２）。すべてのフレームを処理していない場合（ステップＳ４１２；Ｎｏ）、映像処理装置１００は、ステップＳ４０５からの処理を繰り返す。一方、すべてのフレームを処理した場合（ステップＳ４１２；Ｙｅｓ）、映像処理装置１００は、ボリュメトリック生成処理を終了する。

（１－１３．実施形態の第２の具体例に係る映像処理におけるデータの流れ）
　次に、図１９を用いて、実施形態の第２の具体例に係る映像処理におけるデータの流れについて説明する。図１９は、実施形態に係る映像処理の第２の具体例におけるデータの流れを示すフローチャートである。

　まず、映像処理装置１００は、所定の記憶領域にアクセスし、多視点カメラの撮影により得られた２次元画像およびカメラパラメータを取得する（ステップＳ５０１）。映像処理装置１００は、取得したデータのうち理想的なフレームからリグ入りボリュメトリックを生成し、記憶領域に保存する（ステップＳ５０２）。また、映像処理装置１００は、かかるリグ入りボリュメトリックを後段の処理で利用できるよう、リターゲット処理部に送る（ステップＳ５０３）。

　また、映像処理装置１００は、不具合のあるシルエットが生成される２次元画像（フレーム）において、２次元画像に含まれる被写体のスケルトンデータを生成し（ステップＳ５０４）、記憶領域に保存する（ステップＳ５０５）。また、映像処理装置１００は、かかるスケルトンデータを後段の処理で利用できるよう、リターゲット処理部に送る（ステップＳ５０６）。

　映像処理装置１００は、スケルトンデータに基づき、リグ入りモデルのボリュメトリックのリターゲット処理を行い、リターゲットモデルを生成し、記憶領域に保存する（ステップＳ５０７）。

　映像処理装置１００は、リターゲットモデルを多視点カメラに再投影し（ステップＳ５０８）、新たにシルエットを生成し、記憶領域に保存する（ステップＳ５０９）。そして、映像処理装置１００は、新たに生成したシルエットを取得し（ステップＳ５１０）、モルフォロジー処理等の補正を行う。そして、映像処理装置１００は、補正したシルエットを取得するとともに（ステップＳ５１１）、多視点カメラのカメラパラメータ等を取得し（ステップＳ５１２）、取得した情報に基づいてボリュメトリックを生成する。映像処理装置１００は、生成した補正後ボリュメトリックを記憶領域に保存し（ステップＳ５１３）、処理を終了する。

（２．本開示の応用例）
（２－１．コンテンツの制作）
　例えば、映像処理装置１００は、映像処理装置１００が生成した被写体９０の３Ｄモデル９０Ｍと、他のサーバで管理されている３Ｄモデルとを合成して映像コンテンツを制作してもよい。また、例えば、Ｌｉｄａｒ等の撮像装置で背景データが存在している場合、被写体９０の３Ｄモデル９０Ｍと背景データとを組み合わせることで、映像処理装置１００は、被写体９０が、あたかも背景データで示す場所にいるようなコンテンツを制作することができる。

（２－２．仮想空間での体験）
　例えば、映像処理装置１００は、ユーザがアバターとなってコミュニケーションを行う場である仮想空間の中に、ボリュメトリックである被写体９０を配置することができる。この場合、ユーザは、アバターとなって仮想空間で実写の被写体９０を視聴することが可能となる。

（２－３．遠隔地とのコミュニケーション）
　例えば、映像処理装置１００は、被写体９０の３Ｄモデル９０Ｍを遠隔地に送信することにより、遠隔地にある再生装置を通じて遠隔地のユーザが被写体９０の３Ｄモデル９０Ｍを視聴することを可能にさせる。例えば、映像処理装置１００は、被写体９０の３Ｄモデル９０Ｍをリアルタイムに伝送することにより、被写体９０と遠隔地のユーザとがリアルタイムにコミュニケーションをとる状況を作り出すことができる。例えば、被写体９０が先生であり、ユーザが生徒である場合や、被写体９０が医者であり、ユーザが患者である場合等が想定できる。

（２－４．その他の活用例）
　例えば、映像処理装置１００は、複数の被写体９０の３Ｄモデル９０Ｍに基づいて、スポーツ等の自由視点映像を生成することもできる。また、ユーザは、生成した自分のボリュメトリックを配信プラットフォームに配信することもできる。このように、本明細書に記載した実施形態における内容は、種々の技術やサービスに応用することができる。

（２－５．その他の実施形態）
　上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。

　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、適用部１３３と生成部１３４とは統合されてもよい。

　また、上述してきた各実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

（３．本開示に係る映像処理装置の効果）
　上述のように、本開示に係る映像処理装置（実施形態では映像処理装置１００）は、推定部（実施形態では推定部１３２）と、適用部（実施形態では適用部１３３）と、生成部（実施形態では生成部１３４）とを備える。推定部は、被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する。適用部は、推定部によって推定された被写体の３Ｄ骨格を、多視点画像とは異なる他の画像に含まれる被写体であって、当該画像において背景と分離された被写体に適用する。推定部は、適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する。

　このように、本開示に係る映像処理装置は、３Ｄデータ（ボリュメトリック）生成の対象とする被写体の３Ｄ骨格を推定し、推定した３Ｄ骨格に基づいて３Ｄデータを生成する。これにより、映像処理装置は、すべてのフレームで連番のボリュメトリック映像を生成することを要しないため、処理のデータ量を削減できる。また、かかる映像処理は、特別な映像処理システムを必要としないため、システム構築にコストを掛けることなく、適切な３Ｄデータを得ることができる。これにより、映像処理装置は、３Ｄ形状の簡易な活用を実現することができる。

　また、適用部は、他の画像に含まれる被写体に付されたリグに基づいて、被写体の３Ｄ骨格を被写体に適用する。

　このように、映像処理装置は、理想的なフレームにおいてリグ入りのモデルを生成し、そのリグに基づいて３Ｄ骨格を被写体に適用するので、被写体の様々な動きに即したボリュメトリックを生成することができる。

　また、推定部は、連続に撮影された複数の多視点画像に基づいて、複数のフレームにおける被写体の３Ｄ骨格を推定する。生成部は、複数のフレームにおける被写体の３Ｄ骨格に基づいて、３Ｄデータとして、被写体のボリュメトリック動画を生成する。

　このように、映像処理装置は、リグ入りモデルを用いてスケルトンデータのみを動かし、かかるスケルトンデータに基づいてボリュメトリックを生成することで、連続したボリュメトリック映像であるボリュメトリック動画を簡易に作成することができる。

　また、推定部は、予め生成された第２の３Ｄデータに不具合が存在する場合には、当該第２の３Ｄデータに対応する多視点画像のフレームにおける被写体の３Ｄ骨格を推定する。適用部は、推定部によって推定された被写体の３Ｄ骨格を、第２の３Ｄデータに対応する多視点画像のフレームにおける被写体に適用する。生成部は、適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを、第２の３Ｄデータに代えて生成する。また、生成部は、第２の３Ｄデータと被写体の３Ｄデータとの論理和をとることで、第３の３Ｄデータを生成してもよい。

　このように、映像処理装置は、スケルトンデータに基づいてリターゲットを行うので、分離処理等でノイズが発生したフレームの被写体に対しても、適切なボリュメトリックを生成することができる。

　また、推定部は、複数の被写体を含む多視点画像に基づいて、当該複数の被写体の各々の３Ｄ骨格を推定する。適用部は、複数の被写体の各々の３Ｄ骨格を、多視点画像とは異なる他の画像に含まれる各々の被写体に適用する。生成部は、適用部によって３Ｄ骨格が適用された各々の被写体の３Ｄデータを生成する。

　このように、映像処理装置は、複数の被写体に対しても同様にボリュメトリックを生成できる。これにより、映像処理装置は、被写体同士のオクルージョンによる形状の精度低下を軽減させたり、被写体ごとの別々のモデルを任意に配置するようなレンダリング時の位置調整を可能にさせたりすることができる。

　また、適用部は、複数の被写体の各々の３Ｄ骨格を各々の被写体に適用する場合に、少なくとも一つの被写体が含まれる複数の画像同士において、背景と分離された被写体に対応するデータの論理積をとることにより、適用先の被写体のデータを特定する。

　このように、映像処理装置は、被写体同士が重なるようなフレームにおいては論理積を用いて被写体を特定することで、各々の被写体のシルエットを適切に特定することができる。

　また、生成部は、特定された被写体の形状を補正し、補正後の３Ｄ骨格に基づいて、当該被写体の３Ｄデータを生成する。

　このように、映像処理装置は、補正を行うことにより、被写体本来の自然な形状でモデリングを行うことができる。

　また、生成部は、適用部によって３Ｄ骨格が適用された各々の被写体を一つにまとめた３Ｄデータを生成する。

　このように、映像処理装置は、実施形態に係る映像処理を用いて、複数の被写体が含まれるボリュメトリック動画を生成することもできる。映像処理装置によれば、各々の被写体のモデルの位置や大きさを任意に変更できるので、例えばユーザによるボリュメトリック動画の活用を促進することができる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、
　を備える映像処理装置。
（２）
　前記適用部は、
　前記他の画像に含まれる前記被写体に付されたリグに基づいて、前記被写体の３Ｄ骨格を前記被写体に適用する、
　前記（１）に記載の映像処理装置。
（３）
　前記推定部は、
　連続に撮影された複数の前記多視点画像に基づいて、複数のフレームにおける前記被写体の３Ｄ骨格を推定し、
　前記生成部は、
　前記複数のフレームにおける前記被写体の３Ｄ骨格に基づいて、前記３Ｄデータとして、前記被写体のボリュメトリック動画を生成する、
　前記（１）または（２）に記載の映像処理装置。
（４）
　前記推定部は、
　予め生成された第２の３Ｄデータに不具合が存在する場合には、当該第２の３Ｄデータに対応する多視点画像のフレームにおける被写体の３Ｄ骨格を推定し、
　前記適用部は、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記第２の３Ｄデータに対応する多視点画像のフレームにおける被写体に適用し、
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを、前記第２の３Ｄデータに代えて生成する、
　前記（１）～（３）のいずれか１つに記載の映像処理装置。
（５）
　前記生成部は、
　前記第２の３Ｄデータと前記被写体の３Ｄデータとの論理和をとることで、第３の３Ｄデータを生成する、
　前記（４）に記載の映像処理装置。
（６）
　前記推定部は、
　複数の被写体を含む前記多視点画像に基づいて、当該複数の被写体の各々の３Ｄ骨格を推定し、
　前記適用部は、
　前記複数の被写体の各々の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる各々の前記被写体に適用し、
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された各々の被写体の３Ｄデータを生成する、
　前記（１）～（５）のいずれか１つに記載の映像処理装置。
（７）
　前記適用部は、
　前記複数の被写体の各々の３Ｄ骨格を各々の前記被写体に適用する場合に、少なくとも一つの被写体が含まれる複数の画像同士において、背景と分離された前記被写体に対応するデータの論理積をとることにより、適用先の被写体のデータを特定する、
　前記（６）に記載の映像処理装置。
（８）
　前記生成部は、
　特定された前記被写体の形状を補正し、補正後の３Ｄ骨格に基づいて、当該被写体の３Ｄデータを生成する、
　前記（７）に記載の映像処理装置。
（９）
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された各々の被写体を一つにまとめた３Ｄデータを生成する、
　前記（６）または（７）に記載の映像処理装置。
（１０）
　コンピュータが、
　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定し、
　推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用し、
　前記３Ｄ骨格が適用された被写体の３Ｄデータを生成する、
　ことを含む映像処理方法。
（１１）
　コンピュータを、
　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、
　を備えた映像処理装置として機能させるためのプログラム。

　１００　映像処理装置
　１１０　通信部
　１２０　記憶部
　１３０　制御部
　１３１　取得部
　１３２　推定部
　１３３　適用部
　１３４　生成部
　１３５　出力部

Claims

　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、
　を備える映像処理装置。
　前記適用部は、
　前記他の画像に含まれる前記被写体に付されたリグに基づいて、前記被写体の３Ｄ骨格を前記被写体に適用する、
　請求項１に記載の映像処理装置。
　前記推定部は、
　連続に撮影された複数の前記多視点画像に基づいて、複数のフレームにおける前記被写体の３Ｄ骨格を推定し、
　前記生成部は、
　前記複数のフレームにおける前記被写体の３Ｄ骨格に基づいて、前記３Ｄデータとして、前記被写体のボリュメトリック動画を生成する、
　請求項１に記載の映像処理装置。
　前記推定部は、
　予め生成された第２の３Ｄデータに不具合が存在する場合には、当該第２の３Ｄデータに対応する多視点画像のフレームにおける被写体の３Ｄ骨格を推定し、
　前記適用部は、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記第２の３Ｄデータに対応する多視点画像のフレームにおける被写体に適用し、
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを、前記第２の３Ｄデータに代えて生成する、
　請求項１に記載の映像処理装置。
　前記生成部は、
　前記第２の３Ｄデータと前記被写体の３Ｄデータとの論理和をとることで、第３の３Ｄデータを生成する、
　請求項４に記載の映像処理装置。
　前記推定部は、
　複数の被写体を含む前記多視点画像に基づいて、当該複数の被写体の各々の３Ｄ骨格を推定し、
　前記適用部は、
　前記複数の被写体の各々の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる各々の前記被写体に適用し、
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された各々の被写体の３Ｄデータを生成する、
　請求項１に記載の映像処理装置。
　前記適用部は、
　前記複数の被写体の各々の３Ｄ骨格を各々の前記被写体に適用する場合に、少なくとも一つの被写体が含まれる複数の画像同士において、背景と分離された前記被写体に対応するデータの論理積をとることにより、適用先の被写体のデータを特定する、
　請求項６に記載の映像処理装置。
　前記生成部は、
　特定された前記被写体の形状を補正し、補正後の３Ｄ骨格に基づいて、当該被写体の３Ｄデータを生成する、
　請求項７に記載の映像処理装置。
　前記生成部は、
　前記適用部によって３Ｄ骨格が適用された各々の被写体を一つにまとめた３Ｄデータを生成する、
　請求項６に記載の映像処理装置。
　コンピュータが、
　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定し、
　推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用し、
　前記３Ｄ骨格が適用された被写体の３Ｄデータを生成する、
　ことを含む映像処理方法。
　コンピュータを、
　被写体を複数の視点から撮影した多視点画像に基づいて、当該被写体の３Ｄ骨格を推定する推定部と、
　前記推定部によって推定された前記被写体の３Ｄ骨格を、前記多視点画像とは異なる他の画像に含まれる前記被写体であって、当該画像において背景と分離された前記被写体に適用する適用部と、
　前記適用部によって３Ｄ骨格が適用された被写体の３Ｄデータを生成する生成部と、
　を備えた映像処理装置として機能させるためのプログラム。