WO2022137907A1

WO2022137907A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2022137907A1
Application number: PCT/JP2021/042275
Authority: WO
Inventors: 智博大井
Original assignee: ソニーグループ株式会社
Priority date: 2020-12-25
Filing date: 2021-11-17
Publication date: 2022-06-30

Abstract

情報処理装置（３０）は、仮想視点映像生成部（３６）と姿勢推定部（３３）とポーズ生成部（３４）と影生成部（３７）と合成部（３８）とを有する。仮想視点映像生成部（３６）は、複数の視点から撮影された被写体の撮影データ（ＩＤ）を用いて、被写体を仮想視点から見た被写体の仮想視点映像（ＶＩ）を生成する。姿勢推定部（３３）は、撮影データ（ＩＤ）を用いて被写体の姿勢を推定する。ポーズ生成部（３４）は、姿勢に対応した被写体の３Ｄ形状を有するポーズモデル（ＰＭ）を生成する。影生成部（３７）は、ポーズモデル（ＰＭ）を用いて、被写体の影を仮想視点から見た影映像（ＳＨ）を生成する。合成部（３８）は、仮想視点映像（ＶＩ）と影映像（ＳＨ）とを合成する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　実在の人物や場所を３Ｄデータに変換し、自由な視点（仮想視点）で再現するボリュメトリックキャプチャ技術が知られている。この技術では、異なる視点から撮影された複数の実映像を用いて被写体の３Ｄモデルが生成される。そして、３Ｄモデルを用いて任意の視点の映像（仮想視点映像）が生成される。カメラの配置にとらわれない自由な視点の映像が生成できるため、スポーツ放送やエンターテイメント分野など、様々な分野への応用が期待されている。

国際公開第２０１７／０８２０７６号

　被写体の実写３Ｄモデルは、限られた台数のカメラの映像から生成される。そのため、実写３Ｄモデルを用いて被写体の影を生成すると、影の輪郭は滑らかにならない。影の輪郭はソフトウェア的に整形されるが、整形処理には多くの時間とコストがかかる。整形処理に時間がかかるため、仮想視点の映像をリアルタイムでライブ配信することも難しい。

　そこで、本開示では、高品質な影を有する仮想視点映像を生成することが可能な情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た仮想視点映像を生成する仮想視点映像生成部と、前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成するポーズ生成部と、前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、前記仮想視点映像と前記影映像とを合成する合成部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

ボリュメトリックキャプチャ技術の説明図である。ボリュメトリックモデルを用いて生成される影映像を示す図である。ビルボードを仮想視点映像として用いた例を示す図である。映像配信システムの概略図である。レンダリングサーバの構成の一例を示す図である。３Ｄスキャナの構成の一例を示す図である。ポーズモデルを示す図である。仮想視点映像および影映像の一例を示す図である。仮想視点映像、ポーズモデルおよび影映像を仮想視点とは異なる視点から見た図である。仮想視点映像および影映像の他の例を示す図である。レンダリングサーバの情報処理方法を示すフローチャートである。レンダリングサーバのハードウェア構成の一例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．ボリュメトリックキャプチャ技術］
［２．影映像に関する課題］
［３．映像配信システムの構成］
［４．レンダリングサーバの構成］
［５．３Ｄスキャニング］
［６．ポーズモデル］
［７．仮想視点映像および影映像の生成］
［８．情報処理方法］
［９．レンダリングサーバのハードウェア構成］
［１０．効果］

［１．ボリュメトリックキャプチャ技術］
　図１は、ボリュメトリックキャプチャ技術の説明図である。

　ボリュメトリックキャプチャ技術は、３Ｄ空間をまるごと撮りこみ、自由な視点で再現する自由視点映像技術の一つである。複数のカメラ１０で撮影された映像を切り替えるのではなく、３Ｄ空間全体をデータ化するため、本来カメラ１０が存在しない視点からの映像も生成可能である。映像制作は、撮影ステップと、モデリングステップと、再生ステップと、を含む。

　撮影ステップでは、複数のカメラ１０によって被写体ＳＵが撮影される。複数のカメラ１０は、被写体ＳＵを含む撮影空間ＳＳの周囲を囲むように配置される。死角が生じないように、複数のカメラ１０の取り付け位置および取り付け方向、ならびに、複数の照明装置１１の取り付け位置および取り付け方向が適切に設定される。複数のカメラ１０は、所定のフレームレートで被写体ＳＵを複数の視点から同期して撮影する。

　モデリングステップでは、被写体ＳＵの撮影データに基づいて、フレームごとに、被写体ＳＵのボリュメトリックモデルＶＭが生成される。ボリュメトリックモデルＶＭは、撮影された瞬間の被写体ＳＵの位置姿勢を示す３Ｄモデルである。被写体ＳＵの３Ｄ形状は、視体積交差法およびステレオマッチング法などの公知の方法により検出される。

　ボリュメトリックモデルＶＭは、例えば、被写体ＳＵのジオメトリ情報、テクスチャ情報およびデプス情報を含む。ジオメトリ情報は、被写体ＳＵの３Ｄ形状を示す情報である。ジオメトリ情報は、例えば、ポリゴンデータまたはボクセルデータとして取得される。テクスチャ情報は、被写体ＳＵの色、模様および質感などを示す情報である。デプス情報は、撮影空間ＳＳ内での被写体ＳＵの深度を示す情報である。

　再生ステップでは、ボリュメトリックモデルＶＭを視点情報に基づいてレンダリングして仮想視点映像ＶＩが生成される。視点情報は、被写体ＳＵを視聴する仮想視点に関する情報を含む。視点情報は、映像製作者または視聴者ＡＤによって入力される。ディスプレイＤＰには、被写体ＳＵを仮想視点から見た仮想視点映像ＶＩが表示される。

［２．影映像に関する課題］
　図２は、ボリュメトリックモデルＶＭを用いて生成される影映像ＳＨを示す図である。

　ボリュメトリックモデルＶＭは実映像に基づいて生成されるため、衣服のしわなどがリアルに再現される。しかし、カメラ１０の設置台数や設置位置などの制約によって、十分な撮影データが得られず、再現される被写体ＳＵの輪郭が粗くなったり時間的に揺らいだりする場合がある。この場合、被写体ＳＵの影映像ＳＨがきれいに再現されず、視聴者に違和感を与える可能性がある。

　図３は、ビルボードＢＢを仮想視点映像ＶＩとして用いた例を示す図である。

　ビルボードＢＢは、常に仮想視点ＶＰの方向を向くように向きが設定された厚みのないテクスチャ付きの板である。ビルボードＢＢの形状およびテクスチャは、ボリュメトリックモデルＶＭのジオメトリ情報およびテクスチャ情報を用いて生成される。ビルボードＢＢは、データ量が小さいため、演算負荷を低減することができるが、影映像ＳＨを安定させることにも寄与する。影映像ＳＨは、ビルボードＢＢに光源ＬＳからの光を当てたときの影を演算することにより求められる。

　図３の左下に示すように、ビルボードＢＢの手前に光源ＬＳが設定された場合には、ビルボードＢＢの後ろ側に影映像ＳＨが生成される。影映像ＳＨは、被写体となる人物の足元から伸びるように表示されている。図３の右下に示すように、仮想視点ＶＰをビルボードＢＢの後ろ側に移動すると、光源ＬＳの位置が変わらないので影映像ＳＨの位置は変化しないが、影映像ＳＨと人物の足元との間に隙間Ｇが生じる場合がある。これは、ビルボードＢＢが配置される仮想空間ＶＳの形状と被写体が撮影された撮影空間ＳＳの形状とが必ずしも一致しないためである。正面（光源ＬＳ側）から見たときには、隙間ＧがビルボードＢＢによって隠れるため認識されないが、仮想視点ＶＰを変えると、隙間Ｇが露わになるため認識されるようになる。

　上述のように、ボリュメトリックモデルＶＭに基づいて影映像ＳＨを生成すると、高品質な影映像ＳＨが得られない可能性がある。そのため、本開示では、ボリュメトリックモデルＶＭとは異なる影用の３Ｄモデルを用いて影映像ＳＨが生成される。以下、影映像ＳＨの生成方法について具体的に説明する。

［３．映像配信システムの構成］
　図４は、映像配信システム１の概略図である。

　映像配信システム１は、実映像から仮想視点映像ＶＩおよび影映像ＳＨを生成して配信するシステムである。映像配信システム１は、例えば、複数のカメラ１０と、映像送信用ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）２０と、レンダリングサーバ３０と、エンコーダ４０と、配信サーバ５０と、を有する。

　複数のカメラ１０は、異なる視点から被写体ＳＵを撮影した複数の視点映像ＶＰＩを映像送信用ＰＣ２０に出力する。映像送信用ＰＣ２０は、複数の視点映像ＶＰＩを含む撮影データをエンコードしてレンダリングサーバ３０に送信する。レンダリングサーバ３０は、複数の視点映像ＶＰＩを用いて被写体ＳＵをモデリングし、視点情報に基づいて仮想視点映像ＶＩおよび影映像ＳＨを生成する。レンダリングサーバ３０は、仮想視点映像ＶＩと影映像ＳＨとを合成した合成映像をエンコーダ４０に出力する。エンコーダ４０は、レンダリングサーバ３０で生成された合成映像をエンコードして配信サーバ５０に出力する。配信サーバ５０は、エンコーダ４０から取得した合成映像をネットワークを介してライブ配信する。

　図４の例では、カメラ１０の映像が映像送信用ＰＣ２０を介してレンダリングサーバ３０に送信された。しかし、レンダリングサーバ３０を撮影現場に設置してレンダリングを行う場合には、映像送信用ＰＣ２０は省略することができる。また、ライブ配信を行わない場合には、エンコーダ４０および配信サーバ５０は省略することができる。

［４．レンダリングサーバの構成］
　図５は、レンダリングサーバ３０の構成の一例を示す図である。

　レンダリングサーバ３０は、撮影データＩＤを含む各種情報を処理する情報処理装置である。レンダリングサーバ３０は、例えば、デコード部３１、ボリュメトリックモデル生成部３２、姿勢推定部３３、ポーズ生成部３４、レンダリング部３５および映像出力部３９を有する。

　デコード部３１は、映像送信用ＰＣ２０から送信された撮影データＩＤをデコードして複数の視点映像ＶＰＩを取得する。デコード部３１は、複数の視点映像ＶＰＩをボリュメトリックモデル生成部３２および姿勢推定部３３に出力する。

　ボリュメトリックモデル生成部３２は、被写体ＳＵの撮影データに基づいて、フレームごとに、被写体ＳＵのボリュメトリックモデルＶＭを生成する。例えば、ボリュメトリックモデル生成部３２は、背景差分などの公知の手法を用いて、視点映像ＶＰＩごとに、被写体ＳＵを背景から分離する。ボリュメトリックモデル生成部３２は、視点映像ＶＰＩごとに抽出された複数の視点の被写体ＳＵの映像から、被写体ＳＵのジオメトリ情報、テクスチャ情報およびデプス情報を検出する。ボリュメトリックモデル生成部３２は、検出されたジオメトリ情報、テクスチャ情報およびデプス情報に基づいて、被写体ＳＵのボリュメトリックモデルＶＭを生成する。ボリュメトリックモデル生成部３２は、生成された各フレームのボリュメトリックモデルＶＭをレンダリング部３５に順次出力する。

　姿勢推定部３３は、被写体ＳＵの撮影データを用いて被写体ＳＵの姿勢ＰＯを推定する。姿勢推定方法としては、姿勢推定ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）などを用いた公知の姿勢推定技術が用いられる。姿勢推定技術は、ターゲットとなる人物または物の映像から複数のキーポイントＫＰ（ターゲットが人間であれば、肩・肘・手首・腰・膝・足首などを示す複数の特徴点：図７参照）を抽出し、キーポイントＫＰ同士の相対位置に基づいてターゲットの姿勢ＰＯを推定する技術である。

　ポーズ生成部３４は、姿勢ＰＯに対応した被写体ＳＵの３Ｄ形状を有するポーズモデルＰＭを生成する。例えば、ポーズ生成部３４は、撮影前に被写体ＳＵを３Ｄスキャンして得られた被写体ＳＵのスキャンデータＳＤを取得する。スキャンデータＳＤは、被写体ＳＵのジオメトリ情報およびテクスチャ情報を含む。ポーズ生成部３４は、スキャンデータＳＤおよび姿勢ＰＯを用いてポーズモデルＰＭを生成する。ポーズモデルＰＭは、影映像ＳＨを生成するための被写体ＳＵの３Ｄモデルである。なお、スキャンデータＳＤおよびポーズモデルＰＭは、色情報を含まなくてもよい。

［５．３Ｄスキャニング］
　図６は、３ＤスキャナＳＣの構成の一例を示す図である。

　被写体ＳＵの３Ｄスキャンは、３ＤスキャナＳＣを用いて実施される。３ＤスキャナＳＣは、例えば、被写体ＳＵを取り囲むように環状に配置された複数の計測用支柱１２を有する。計測用支柱１２は、被写体ＳＵの側方を通って上部に延びるように配置された棒状のフレーム１４と、フレーム１４の延在方向に沿って取り付けられた複数のカメラ１３と、を有する。被写体ＳＵに近接して配置された複数の計測用支柱１２によって、被写体ＳＵを囲む狭い籠状の計測空間ＭＳが形成される。

　複数の計測用支柱１２に取り付けられた複数のカメラ１３によって被写体ＳＵが様々な方向から同期して撮影される。３Ｄスキャンは、カメラ１０による撮影（仮想視点映像ＶＩを生成するための撮影）時と同じ装いの被写体ＳＵに対して実施される。複数のカメラ１３の撮影データに基づいて、被写体ＳＵのジオメトリ情報およびテクスチャ情報を含む被写体モデルが生成される。

　被写体モデルの生成方法は、ボリュメトリックモデルＶＭの生成方法と同様であるが、スキャンデータＳＤに含まれるジオメトリ情報は、ボリュメトリックモデルＶＭに含まれるジオメトリ情報よりも詳細である。そのため、ボリュメトリックモデルＶＭを用いた場合よりも被写体モデルを用いた場合の方が被写体ＳＵの３Ｄ形状を高品質に再現できる。

　図６の例では、３ＤスキャナＳＣとしてフォトスキャナが用いられたが、３ＤスキャナＳＣはフォトスキャナに限定されない。レーザスキャナなどの他のスキャン方式の３ＤスキャナＳＣが用いられてもよい。

［６．ポーズモデル］
　図７は、ポーズモデルＰＭを示す図である。

　姿勢推定部３３は、被写体ＳＵの撮影データＩＤから複数のキーポイントＫＰを抽出する。姿勢推定部３３は、複数のキーポイントＫＰを接続して得られる骨格ＳＫを被写体ＳＵの姿勢ＰＯと推定する。ポーズ生成部３４は、姿勢推定部３３で得られた骨格ＳＫとスキャンデータＳＤとに基づいてポーズモデルＰＭを生成する。そのため、ポーズモデルＰＭを用いて生成される被写体ＳＵの輪郭は、仮想視点映像ＶＩにおける被写体ＳＵの輪郭よりも滑らかであり時間的な揺らぎも小さい。よって、自然で違和感の少ない影映像ＳＨが生成される。

　図５に戻って、レンダリング部３５は、映像制作者または視聴者ＡＤから仮想視点ＶＰに関する視点情報を取得する。レンダリング部３５は、ボリュメトリックモデルＶＭおよびポーズモデルＰＭを視点情報に基づいてレンダリングし、仮想視点から見た影付きの映像を生成する。レンダリング部３５は、例えば、仮想視点映像生成部３６、影生成部３７および合成部３８を有する。なお、レンダリング部３５は、１つの仮想視点から見た影付きの映像だけでなく、複数視点から見た複数の影付きの映像を生成してもよい。

［７．仮想視点映像および影映像の生成］
　図８は、仮想視点映像ＶＩおよび影映像ＳＨの一例を示す図である。

　仮想視点映像生成部３６は、ボリュメトリックモデルＶＭを仮想視点ＶＰに基づいてレンダリングする。これにより、仮想視点映像生成部３６は、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。影生成部３７は、ポーズモデルＰＭを用いて、被写体ＳＵの影を仮想視点ＶＰから見た影映像ＳＨを生成する。合成部３８は、仮想視点映像ＶＩと影映像ＳＨとを合成する。

　仮想視点映像生成部３６は、実際の被写体ＳＵの撮影データＩＤを用いて仮想視点映像ＶＩを生成する。撮影時の被写体ＳＵの情報（被写体ＳＵの表情、姿勢、汗の具合、洋服のしわ、風による髪の乱れなど）がそのまま再現されるため、撮影時の状況を精密に再現したリアルな映像が得られる。そのため、高い臨場感および没入感が得られる。

　図９は、仮想視点映像ＶＩ、ポーズモデルＰＭおよび影映像ＳＨを仮想視点ＶＰとは異なる視点から見た図である。

　影映像ＳＨは、仮想空間ＶＳ内の被写体ＳＵの位置ＰＳにポーズモデルＰＭを配置したときに生じるポーズモデルＰＭの影の映像である。合成部３８は、ポーズモデルＰＭを表示せずに、被写体ＳＵの位置ＰＳにおいて仮想視点映像ＶＩと影映像ＳＨとを合成する。図９の例では、仮想視点映像ＶＩはビルボードＢＢとして生成されているが、仮想視点映像ＶＩはビルボードＢＢに限られない。仮想視点映像ＶＩに写る被写体ＳＵは仮想空間ＶＳの地面ＧＤと接触している。合成部３８は、地面ＧＤと被写体ＳＵとの接触部ＣＴから影が伸びるように影映像ＳＨの位置を設定する。

　図１０は、仮想視点映像ＶＩおよび影映像ＳＨの他の例を示す図である。

　図１０には、人物ＨＭが道具ＴＬを操る様子が示されている。道具ＴＬは例えば縄である。図１０の例では、複数の人物ＨＭが撮影空間ＳＳで縄を使って縄跳びをしている。図９の例では、被写体ＳＵは人物ＨＭであったが、図１０の例では、被写体ＳＵは、人物ＨＭ、および、人物ＨＭが保持する道具ＴＬを含む。この場合、姿勢推定部３３は、人物ＨＭの姿勢ＰＯ、および、人物ＨＭに対する道具ＴＬの姿勢ＰＯを推定する。影生成部３７は、人物ＨＭの姿勢ＰＯおよび道具ＴＬの姿勢ＰＯに対応した人物ＨＭの影および道具ＴＬの影の映像を影映像ＳＨとして生成する。

　図１０の例では、道具ＴＬは縄であったが、道具ＴＬは縄に限られない。道具ＴＬは、楽器、ラケット、バットおよびボールなどでもよい。

　図５に戻って、映像出力部３９は、仮想視点映像ＶＩと影映像ＳＨとを合成した合成映像を映像信号に変換して出力データＯＤとして出力する。出力データＯＤは、エンコーダ４０を介して配信サーバ５０に送信される。

［８．情報処理方法］
　図１１は、レンダリングサーバ３０の情報処理方法を示すフローチャートである。

　ステップＳ１において、複数のカメラ１０は被写体ＳＵを複数の視点から同期して撮影する。複数のカメラ１０によって撮影された複数の視点映像ＶＰＩを含む撮影データＩＤは、レンダリングサーバ３０に送信される。撮影データＩＤは、レンダリングサーバ３０のボリュメトリックモデル生成部３２および姿勢推定部３３に供給される。

　ステップＳ２において、ボリュメトリックモデル生成部３２は、被写体ＳＵの撮影データＩＤを用いて被写体ＳＵのボリュメトリックモデルＶＭを生成する。ステップＳ３において、仮想視点映像生成部３６は、ボリュメトリックモデルＶＭを用いて、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。

　ステップＳ４において、姿勢推定部３３は、被写体ＳＵの撮影データＩＤを用いて被写体ＳＵの姿勢ＰＯを推定する。ステップＳ５において、ポーズ生成部３４は、撮影前の計測によって得られたスキャンデータＳＤを用いて、被写体ＳＵの姿勢ＰＯに対応したポーズモデルＰＭを生成する。ステップＳ６において、影生成部３７は、ポーズモデルＰＭを用いて、被写体ＳＵの影を仮想視点ＶＰから見た影映像ＳＨを生成する。

　ステップＳ７において、合成部３８は、仮想視点映像ＶＩと影映像ＳＨとを合成する。合成映像は配信サーバ５０を介してライブ配信される。

［９．レンダリングサーバのハードウェア構成］
　図１２は、レンダリングサーバ３０のハードウェア構成の一例を示す図である。

　レンダリングサーバ３０の情報処理は、例えば、図１２に示すコンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１００、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒy）１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラム（プログラムデータ１４５０）に基づいて動作し、各部の制御を行う。たとえば、ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）などのブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラムなどを格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（たとえばインターネット）と接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、表示装置やスピーカーやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）などの光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。

　たとえば、コンピュータ１０００が実施形態にかかる情報処理装置（レンダリングサーバ３０）として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、図５に示された各機能を実現する。また、ＨＤＤ１４００には、本開示にかかる情報処理プログラム、各種モデル（ボリュメトリックモデルＶＭ、被写体モデル、ポーズモデルＰＭ）および各種データ（スキャンデータＳＤなど）が格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［１０．効果］
　レンダリングサーバ３０は、仮想視点映像生成部３６と姿勢推定部３３とポーズ生成部３４と影生成部３７と合成部３８とを有する。仮想視点映像生成部３６は、複数の視点から撮影された被写体ＳＵの撮影データＩＤを用いて、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。姿勢推定部３３は、撮影データＩＤを用いて被写体ＳＵの姿勢ＰＯを推定する。ポーズ生成部３４は、姿勢ＰＯに対応した被写体ＳＵの３Ｄ形状を有するポーズモデルＰＭを生成する。影生成部３７は、ポーズモデルＰＭを用いて、被写体ＳＵの影を仮想視点ＶＰから見た影映像ＳＨを生成する。合成部３８は、仮想視点映像ＶＩと影映像ＳＨとを合成する。本実施形態の情報処理方法は、レンダリングサーバ３０の処理がコンピュータ１０００により実行される。本実施形態のプログラムは、レンダリングサーバ３０の処理をコンピュータ１０００に実現させる。

　この構成によれば、影映像ＳＨを生成するためのポーズモデルＰＭが被写体ＳＵの姿勢ＰＯに基づいて別途生成される。そのため、高品質な影を有する仮想視点映像ＶＩが生成される。また、影の整形処理が不要になるため、仮想視点の映像をリアルタイムでライブ配信することも容易になる。

　影映像ＳＨは、仮想空間ＶＳ内の被写体ＳＵの位置ＰＳにポーズモデルＰＭを配置したときに生じるポーズモデルＰＭの影の映像である。合成部３８は、ポーズモデルＰＭを表示せずに、被写体ＳＵの位置ＰＳにおいて仮想視点映像ＶＩと影映像ＳＨとを合成する。

　この構成によれば、仮想視点映像ＶＩの位置ＰＳに応じた適切な位置に影映像ＳＨが表示される。

　仮想視点映像ＶＩに写る被写体ＳＵは仮想空間ＶＳの地面ＧＤと接触している。合成部３８は、地面ＧＤと被写体ＳＵとの接触部ＣＴから影が伸びるように影映像ＳＨの位置を設定する。

　この構成によれば、影映像ＳＨが仮想視点映像ＶＩから乖離した位置に表示されることが抑制される。影映像ＳＨと仮想視点映像ＶＩとが地面ＧＤとの接触部ＣＴで接続されるため、違和感のない合成映像が生成される。

　ポーズ生成部３４は、撮影前に被写体ＳＵを３Ｄスキャンして得られた被写体ＳＵのスキャンデータＳＤを用いてポーズモデルＰＭを生成する。

　この構成によれば、３Ｄスキャンによって被写体ＳＵの精密なジオメトリ情報が得られる。精密なジオメトリ情報を用いることで高品質な影映像ＳＨが生成される。

　３Ｄスキャンは、撮影時と同じ装いの被写体ＳＵに対して実施される。

　この構成によれば、仮想視点映像ＶＩに写る被写体ＳＵの装いに合わせた適切な影映像ＳＨが生成される。

　ポーズモデルＰＭを用いて生成される被写体ＳＵの輪郭は、仮想視点映像ＶＩにおける被写体ＳＵの輪郭よりも滑らかである。

　この構成によれば、滑らかな輪郭を有する影映像ＳＨが生成される。

　被写体は、人物ＨＭ、および、人物ＨＭが操る道具ＴＬを含む。姿勢推定部３３は、人物ＨＭの姿勢ＰＯ、および、人物ＨＭに対する道具ＴＬの姿勢ＰＯを推定する。影生成部３７は、人物ＨＭの姿勢ＰＯおよび道具ＴＬの姿勢ＰＯに対応した人物ＨＭの影および道具ＴＬの影の映像を影映像ＳＨとして生成する。

　この構成によれば、人物ＨＭと道具ＴＬの双方について適切な影映像ＳＨが生成される。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［付記］
　なお、本技術は以下のような構成も取ることができる。
（１）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
　前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成するポーズ生成部と、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、
　前記仮想視点映像と前記影映像とを合成する合成部と、
　を有する情報処理装置。
（２）
　前記影映像は、仮想空間内の前記被写体の位置に前記ポーズモデルを配置したときに生じる前記ポーズモデルの影の映像であり、
　前記合成部は、前記ポーズモデルを表示せずに、前記被写体の位置において前記仮想視点映像と前記影映像とを合成する、
　上記（１）に記載の情報処理装置。
（３）
　前記仮想視点映像に写る前記被写体は前記仮想空間の地面と接触しており、
　前記合成部は、前記地面と前記被写体との接触部から前記影が伸びるように前記影映像の位置を設定する、
　上記（２）に記載の情報処理装置。
（４）
　前記ポーズ生成部は、撮影前に前記被写体を３Ｄスキャンして得られた前記被写体のスキャンデータを用いて前記ポーズモデルを生成する、
　上記（１）ないし（３）のいずれか１つに記載の情報処理装置。
（５）
　前記３Ｄスキャンは、撮影時と同じ装いで行われる、
　上記（４）に記載の情報処理装置。
（６）
　前記ポーズモデルを用いて生成される前記被写体の輪郭は、前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
　上記（４）または（５）に記載の情報処理装置。
（７）
　前記被写体は、人物、および、前記人物が操る道具を含み、
　前記姿勢推定部は、前記人物の姿勢、および、前記人物に対する前記道具の姿勢を推定し、
　前記影生成部は、前記人物の姿勢および前記道具の姿勢に対応した前記人物の影および前記道具の影の映像を前記影映像として生成する、
　上記（１）ないし（６）のいずれか１つに記載の情報処理装置。
（８）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成し、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
　前記仮想視点映像と前記影映像とを合成する、
　ことを有する、コンピュータにより実行される情報処理方法。
（９）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成し、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
　前記仮想視点映像と前記影映像とを合成する、
　ことをコンピュータに実現させるプログラム。

３０　レンダリングサーバ（情報処理装置）
３３　姿勢推定部
３４　ポーズ生成部
３６　仮想視点映像生成部
３７　影生成部
３８　合成部
ＣＴ　地面と被写体との接触部
Ｇ　隙間
ＧＤ　仮想空間の地面
ＩＤ　撮影データ
ＫＰ　キーポイント
ＬＳ　光源
ＰＭ　ポーズモデル
ＰＯ　姿勢
ＰＳ　仮想空間内の被写体の位置
ＳＤ　スキャンデータ
ＳＨ　影映像
ＳＫ　骨格
ＳＵ　被写体
ＴＬ　道具
ＶＩ　仮想視点映像
ＶＰ　仮想視点
ＶＰＩ　視点映像
ＶＳ　仮想空間

Claims

　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
　前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成するポーズ生成部と、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成する影生成部と、
　前記仮想視点映像と前記影映像とを合成する合成部と、
　を有する情報処理装置。
　前記影映像は、仮想空間内の前記被写体の位置に前記ポーズモデルを配置したときに生じる前記ポーズモデルの影の映像であり、
　前記合成部は、前記ポーズモデルを表示せずに、前記被写体の位置において前記仮想視点映像と前記影映像とを合成する、
　請求項１に記載の情報処理装置。
　前記仮想視点映像に写る前記被写体は前記仮想空間の地面と接触しており、
　前記合成部は、前記地面と前記被写体との接触部から前記影が伸びるように前記影映像の位置を設定する、
　請求項２に記載の情報処理装置。
　前記ポーズ生成部は、撮影前に前記被写体を３Ｄスキャンして得られた前記被写体のスキャンデータを用いて前記ポーズモデルを生成する、
　請求項１に記載の情報処理装置。
　前記３Ｄスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
　請求項４に記載の情報処理装置。
　前記ポーズモデルを用いて生成される前記被写体の輪郭は、前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
　請求項４に記載の情報処理装置。
　前記被写体は、人物、および、前記人物が操る道具を含み、
　前記姿勢推定部は、前記人物の姿勢、および、前記人物に対する前記道具の姿勢を推定し、
　前記影生成部は、前記人物の姿勢および前記道具の姿勢に対応した前記人物の影および前記道具の影の映像を前記影映像として生成する、
　請求項１に記載の情報処理装置。
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成し、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
　前記仮想視点映像と前記影映像とを合成する、
　ことを有する、コンピュータにより実行される情報処理方法。
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するポーズモデルを生成し、
　前記ポーズモデルを用いて、前記被写体の影を前記仮想視点から見た影映像を生成し、
　前記仮想視点映像と前記影映像とを合成する、
　ことをコンピュータに実現させるプログラム。