WO2023238660A1

WO2023238660A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2023238660A1
Application number: PCT/JP2023/019249
Authority: WO
Inventors: 智博大井
Original assignee: ソニーグループ株式会社
Priority date: 2022-06-10
Filing date: 2023-05-24
Publication date: 2023-12-14

Abstract

情報処理装置は、仮想視点映像生成部、姿勢推定部、アバタ生成部、画像比較部および補正部を有する。仮想視点映像生成部は、複数の視点から撮影された被写体の撮影データを用いて、被写体を仮想視点から見た被写体の仮想視点映像を生成する。姿勢推定部は、撮影データを用いて被写体の姿勢を推定する。アバタ生成部は、姿勢に対応した被写体の３Ｄ形状を有するアバタモデルを生成する。アバタ生成部は、アバタモデルを仮想視点に基づいてレンダリングしてアバタを生成する。画像比較部は、仮想視点映像とアバタとの差分を抽出する。補正部は、差分に基づいて仮想視点映像を補正する。

Description

情報処理装置、情報処理方法およびプログラム

　本発明は、情報処理装置、情報処理方法およびプログラムに関する。

　実在の人物や場所を３Ｄデータに変換し、自由な視点（仮想視点）で再現するボリュメトリックキャプチャ技術が知られている。この技術では、異なる視点から撮影された複数の実映像を用いて被写体の３Ｄモデルが生成される。そして、３Ｄモデルを用いて任意の視点の映像（仮想視点映像）が生成される。カメラの配置にとらわれない自由な視点の映像が生成できるため、スポーツ放送やエンターテイメント分野など、様々な分野への応用が期待されている。

国際公開第２０１７／０８２０７６号

　被写体の実写３Ｄモデルは、限られた台数のカメラの映像から生成される。カメラの死角になる部分など、撮影データから３Ｄ形状やテクスチャが得られない部分の色や形状は実映像から推定して生成される。推定による誤差が大きい部分は手動で整形されるが、整形処理には多くの時間とコストがかかる。

　そこで、本開示では、高品質な仮想視点映像を容易に生成することが可能な情報処理装置、情報処理方法およびプログラムを提案する。

　本開示によれば、複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、前記差分に基づいて前記仮想視点映像を補正する補正部と、を有する情報処理装置が提供される。また、本開示によれば、前記情報処理装置の情報処理がコンピュータにより実行される情報処理方法、ならびに、前記情報処理装置の情報処理をコンピュータに実現させるプログラムが提供される。

ボリュメトリックキャプチャ技術の説明図である。死角となる部位の映像に関する課題を説明する図である。実物と仮想視点映像との比較の一例を示す図である。映像配信システムの概略図である。レンダリングサーバの構成の一例を示す図である。３Ｄスキャナの構成の一例を示す図である。アバタモデルを示す図である。アバタとの比較結果に基づく仮想視点映像の補正の一例を示す図である。補正対象部位の特定方法の一例を示す図である。補正対象部位の特定方法の一例を示す図である。レンダリングサーバの情報処理方法を示すフローチャートである。レンダリングサーバのハードウェア構成の一例を示す図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行われる。
［１．ボリュメトリックキャプチャ技術］
［２．死角となる部位の映像に関する課題］
［３．映像配信システムの構成］
［４．レンダリングサーバの構成］
［５．３Ｄスキャニング］
［６．アバタモデル］
［７．アバタとの比較結果に基づく仮想視点映像の補正］
［８．情報処理方法］
［９．レンダリングサーバのハードウェア構成］
［１０．効果］

［１．ボリュメトリックキャプチャ技術］
　図１は、ボリュメトリックキャプチャ技術の説明図である。

　ボリュメトリックキャプチャ技術は、３Ｄ空間をまるごと撮りこみ、自由な視点で再現する自由視点映像技術の一つである。複数のカメラ１０で撮影された映像を切り替えるのではなく、３Ｄ空間全体をデータ化するため、本来カメラ１０が存在しない視点からの映像も生成可能である。映像制作は、撮影ステップと、モデリングステップと、再生ステップと、を含む。

　撮影ステップでは、複数のカメラ１０によって被写体ＳＵが撮影される。複数のカメラ１０は、被写体ＳＵを含む撮影空間ＳＳの周囲を囲むように配置される。死角が生じないように、複数のカメラ１０の取り付け位置および取り付け方向、ならびに、複数の照明装置１１の取り付け位置および取り付け方向が適切に設定される。複数のカメラ１０は、所定のフレームレートで被写体ＳＵを複数の視点から同期して撮影する。

　モデリングステップでは、被写体ＳＵの撮影データに基づいて、フレームごとに、被写体ＳＵのボリュメトリックモデルＶＭが生成される。ボリュメトリックモデルＶＭは、撮影された瞬間の被写体ＳＵの位置および姿勢を示す３Ｄモデルである。被写体ＳＵの３Ｄ形状は、視体積交差法およびステレオマッチング法などの公知の方法により検出される。

　ボリュメトリックモデルＶＭは、例えば、被写体ＳＵのジオメトリ情報、テクスチャ情報およびデプス情報を含む。ジオメトリ情報は、被写体ＳＵの３Ｄ形状を示す情報である。ジオメトリ情報は、例えば、ポリゴンデータまたはボクセルデータとして取得される。テクスチャ情報は、被写体ＳＵの色、模様および質感などを示す情報である。デプス情報は、撮影空間ＳＳ内での被写体ＳＵの深度を示す情報である。

　再生ステップでは、ボリュメトリックモデルＶＭを視点情報に基づいてレンダリングして仮想視点映像ＶＩが生成される。視点情報は、被写体ＳＵを視聴する仮想視点に関する情報を含む。視点情報は、映像製作者または視聴者ＡＤによって入力される。ディスプレイＤＰには、被写体ＳＵを仮想視点から見た仮想視点映像ＶＩが表示される。

［２．死角となる部位の映像に関する課題］
　図２は、死角となる部位の映像に関する課題を説明する図である。

　ボリュメトリックモデルＶＭは実映像に基づいて生成されるため、服や顔の質感がリアルに再現される。しかし、カメラ１０の設置台数や設置位置などの制約によって、十分な撮影データが得られず、場所によって正確な色や形状などの情報が得られない場合がある。この場合、被写体ＳＵがきれいに再現されず、視聴者に違和感を与える可能性がある。

　例えば、図２の「ａ」および「ｂ」は、カメラ１０のある場所から見た仮想視点を示す。図２の「ｃ」は、カメラ１０のない場所から見た仮想視点を示す。仮想視点「ａ」および「ｂ」から見た仮想視点映像は、実映像から正確に再現される。しかし、仮想視点「ｃ」に関しては、色や形状に関する情報がないため、近隣の実映像から色や形状を推測して仮想視点映像を生成する必要がある。そのため、実物との間に誤差が生じやすい。

　図３は、実物と仮想視点映像との比較の一例を示す図である。

　図３の下側は、カメラのない場所から見た仮想視点の映像である。図３の上側は、仮想視点と同一の視点から撮影された実物の映像である。図３の下側の仮想視点映像には、顎の下側に色誤りのある領域（エラー領域ＥＲ）が存在する。エラー領域ＥＲは、カメラ１０の設置台数や設置位置などの制約によって、撮影データから３Ｄデータが得られなかった部位に生じる。このような部位の映像は、近隣の実映像（図３の例では、顎や髪の毛の映像）から色や形状を推測して生成される。近隣の色や形状の特徴が誤って反映されると、実物との間に誤差が生じ、視聴者ＡＤに違和感を与える可能性がある。

　上述のように、カメラ１０で見えない部位の映像を推測によって生成すると、高品質な映像が得られない可能性がある。そのため、本開示では、事前に用意しておいた被写体ＳＵの高解像度の３Ｄデータに基づいて、カメラ１０に映る被写体ＳＵと同一姿勢のアバタモデルＡＭ（図７参照）が生成される。アバタモデルＡＭをレンダリングすることで、色や形状が正確に再現されたアバタＡＢ（図８参照）が生成される。アバタＡＢが持つ色や形状の情報を用いて仮想視点映像ＶＩを補正することで、高品質な仮想視点映像ＶＩが得られる。以下、仮想視点映像ＶＩの補正方法について具体的に説明する。

［３．映像配信システムの構成］
　図４は、映像配信システム１の概略図である。

　映像配信システム１は、実映像から仮想視点映像ＶＩを生成して配信するシステムである。映像配信システム１は、例えば、複数のカメラ１０、映像送信用ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）２０、レンダリングサーバ３０、エンコーダ４０および配信サーバ５０を有する。

　複数のカメラ１０は、異なる視点から被写体ＳＵを撮影した複数の視点映像ＶＰＩを映像送信用ＰＣ２０に出力する。映像送信用ＰＣ２０は、複数の視点映像ＶＰＩを含む撮影データをエンコードしてレンダリングサーバ３０に送信する。レンダリングサーバ３０は、複数の視点映像ＶＰＩを用いて被写体ＳＵをモデリングし、視点情報に基づいて仮想視点映像ＶＩを生成する。レンダリングサーバ３０は、仮想視点映像ＶＩをアバタＡＢに基づいて補正し、補正後の仮想視点映像ＶＩ（補正映像ＶＩＣ）をレンダリングサーバ３０に出力する。レンダリングサーバ３０は、補正映像ＶＩＣをエンコーダ４０に出力する。エンコーダ４０は、レンダリングサーバ３０で生成された補正映像ＶＩＣをエンコードして配信サーバ５０に出力する。配信サーバ５０は、エンコーダ４０から取得した補正映像ＶＩＣをネットワークを介してライブ配信する。

　図４の例では、カメラ１０の映像が映像送信用ＰＣ２０を介してレンダリングサーバ３０に送信された。しかし、レンダリングサーバ３０を撮影現場に設置してレンダリングを行う場合には、映像送信用ＰＣ２０は省略することができる。また、ライブ配信を行わない場合には、エンコーダ４０および配信サーバ５０は省略することができる。

［４．レンダリングサーバの構成］
　図５は、レンダリングサーバ３０の構成の一例を示す図である。

　レンダリングサーバ３０は、撮影データＩＤを含む各種情報を処理する情報処理装置である。レンダリングサーバ３０は、例えば、デコード部３１、ボリュメトリックモデル生成部３２、姿勢推定部３３、アバタ生成部３４、レンダリング部３５および映像出力部３９を有する。

　デコード部３１は、映像送信用ＰＣ２０から送信された撮影データＩＤをデコードして複数の視点映像ＶＰＩを取得する。デコード部３１は、複数の視点映像ＶＰＩをボリュメトリックモデル生成部３２および姿勢推定部３３に出力する。

　ボリュメトリックモデル生成部３２は、被写体ＳＵの撮影データに基づいて、フレームごとに、被写体ＳＵのボリュメトリックモデルＶＭを生成する。例えば、ボリュメトリックモデル生成部３２は、背景差分などの公知の手法を用いて、視点映像ＶＰＩごとに、被写体ＳＵを背景から分離する。ボリュメトリックモデル生成部３２は、視点映像ＶＰＩごとに抽出された複数の視点の被写体ＳＵの映像から、被写体ＳＵのジオメトリ情報、テクスチャ情報およびデプス情報を検出する。ボリュメトリックモデル生成部３２は、検出されたジオメトリ情報、テクスチャ情報およびデプス情報に基づいて、被写体ＳＵのボリュメトリックモデルＶＭを生成する。ボリュメトリックモデル生成部３２は、生成された各フレームのボリュメトリックモデルＶＭをレンダリング部３５に順次出力する。

　姿勢推定部３３は、被写体ＳＵの撮影データを用いて被写体ＳＵの姿勢ＰＯを推定する。姿勢推定方法としては、姿勢推定ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）などを用いた公知の姿勢推定技術が用いられる。姿勢推定技術は、ターゲットとなる人物または物の映像から複数のキーポイントＫＰ（ターゲットが人間であれば、肩・肘・手首・腰・膝・足首などを示す複数の特徴点：図７参照）を抽出し、キーポイントＫＰ同士の相対位置に基づいてターゲットの姿勢ＰＯを推定する技術である。

　アバタ生成部３４は、姿勢ＰＯに対応した被写体ＳＵの３Ｄ形状を有するアバタモデルＡＭを生成する。例えば、アバタ生成部３４は、撮影前に被写体ＳＵを３Ｄスキャンして得られた被写体ＳＵのスキャンデータＳＤを取得する。スキャンデータＳＤは、被写体ＳＵのジオメトリ情報およびテクスチャ情報を含む。アバタ生成部３４は、スキャンデータＳＤおよび姿勢ＰＯを用いてアバタモデルＡＭを生成する。アバタモデルＡＭは、比較映像となるアバタＡＢを生成するための被写体ＳＵの３Ｄモデルである。アバタ生成部３４は、アバタモデルＡＭを仮想視点に基づいてレンダリングしてアバタＡＢを生成する。

［５．３Ｄスキャニング］
　図６は、３ＤスキャナＳＣの構成の一例を示す図である。

　被写体ＳＵの３Ｄスキャンは、３ＤスキャナＳＣを用いて実施される。３ＤスキャナＳＣは、例えば、被写体ＳＵを取り囲むように環状に配置された複数の計測用支柱１２を有する。計測用支柱１２は、被写体ＳＵの側方を通って上部に延びるように配置された棒状のフレーム１４と、フレーム１４の延在方向に沿って取り付けられた複数のカメラ１３と、を有する。被写体ＳＵに近接して配置された複数の計測用支柱１２によって、被写体ＳＵを囲む狭い籠状の計測空間ＭＳが形成される。

　複数の計測用支柱１２に取り付けられた複数のカメラ１３によって被写体ＳＵが様々な方向から同期して撮影される。３Ｄスキャンは、カメラ１０による撮影（仮想視点映像ＶＩを生成するための撮影）時と同じ装いの被写体ＳＵに対して実施される。複数のカメラ１３の撮影データに基づいて、被写体ＳＵのジオメトリ情報およびテクスチャ情報を含む被写体モデルが生成される。

　被写体モデルの生成方法は、ボリュメトリックモデルＶＭの生成方法と同様であるが、スキャンデータＳＤに含まれるジオメトリ情報は、ボリュメトリックモデルＶＭに含まれるジオメトリ情報よりも詳細である。そのため、ボリュメトリックモデルＶＭを用いた場合よりも被写体モデルを用いた場合の方が被写体ＳＵの３Ｄ形状を高品質に再現できる。

　図６の例では、３ＤスキャナＳＣとしてフォトスキャナが用いられたが、３ＤスキャナＳＣはフォトスキャナに限定されない。レーザスキャナなどの他のスキャン方式の３ＤスキャナＳＣが用いられてもよい。

［６．アバタモデル］
　図７は、アバタモデルＡＭを示す図である。

　姿勢推定部３３は、被写体ＳＵの撮影データＩＤから複数のキーポイントＫＰを抽出する。姿勢推定部３３は、複数のキーポイントＫＰを接続して得られる骨格ＳＫを被写体ＳＵの姿勢ＰＯと推定する。アバタ生成部３４は、姿勢推定部３３で得られた骨格ＳＫとスキャンデータＳＤとに基づいてアバタモデルＡＭを生成する。そのため、アバタモデルＡＭを用いて生成される被写体ＳＵの輪郭（アバタＡＢの輪郭）は、仮想視点映像ＶＩにおける被写体ＳＵの輪郭よりも滑らかであり時間的な揺らぎも小さい。よって、アバタＡＢの情報を用いて仮想視点映像ＶＩを補正することで、自然で違和感の少ない補正映像ＶＩＣが得られる。

　図５に戻って、レンダリング部３５は、映像制作者または視聴者ＡＤから仮想視点ＶＰに関する視点情報を取得する。レンダリング部３５は、ボリュメトリックモデルＶＭおよびアバタモデルＡＭを視点情報に基づいてレンダリングする。レンダリング部３５は、例えば、仮想視点映像生成部３６、画像比較部３７および補正部３８を有する。

［７．アバタとの比較結果に基づく仮想視点映像の補正］
　図８は、アバタＡＢとの比較結果に基づく仮想視点映像ＶＩの補正の一例を示す図である。

　仮想視点映像生成部３６は、ボリュメトリックモデルＶＭを仮想視点ＶＰに基づいてレンダリングする。これにより、仮想視点映像生成部３６は、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。

　仮想視点映像生成部３６は、実際の被写体ＳＵの撮影データＩＤを用いて仮想視点映像ＶＩを生成する。撮影時の被写体ＳＵの情報（被写体ＳＵの表情、姿勢、汗の具合、洋服のしわ、風による髪の乱れなど）がそのまま再現されるため、撮影時の状況を精密に再現したリアルな映像が得られる。そのため、高い臨場感および没入感が得られる。しかし、カメラ１０から見えない部分の色や形状は推測により生成されるため、推測誤差が大きい部分は画像の乱れとして認識される。そのため、別途用意したアバタＡＢの情報を用いて仮想視点映像ＶＩが補正される。

　補正処理は、画像比較部３７および補正部３８を用いて行われる。画像比較部３７は、仮想視点映像ＶＩとアバタＡＢとの差分を抽出する。補正部３８は、仮想視点映像ＶＩとアバタＡＢとの差分に基づいて仮想視点映像ＶＩを補正する。

　例えば、画像比較部３７は、撮影空間ＳＳに設置された複数のカメラ１０（視点）と被写体ＳＵとの位置関係に基づいて補正対象部位ＴＧを特定する。画像比較部３７は、補正対象部位ＴＧにおける仮想視点映像ＶＩとアバタＡＢとの差分を選択的に抽出する。抽出される差分には、仮想視点映像ＶＩとアバタＡＢとの間の色および形状の少なくとも一方の差分が含まれる。

　図９および図１０は、補正対象部位ＴＧの特定方法の一例を示す図である。

　補正対象部位ＴＧは、カメラ１０から認識しにくい部位として特定される。図９の例では、被写体ＳＵが傘をさしている。カメラ１０は傘ごしに被写体ＳＵを撮影するため、傘の陰に隠れた頭や背中の部分はカメラ１０から認識しにくい。よって、被写体ＳＵの頭や背中が補正対象部位ＴＧとして特定される。

　画像比較部３７は、補正対象部位ＴＧを被写体ＳＵの認識率の分布に基づいて判定する。認識率とは、複数の視点（カメラ１０）からの認識のされやすさを意味する。認識率は、被写体ＳＵの部位ごとに算出される。例えば、撮影空間ＳＳに設置されたカメラ１０の全数をＮとする。傘などの物体に邪魔されずに対象となる部位（対象部位）を認識（撮影）可能なカメラ１０の数をＭとすると、対象部位の認識率はＭ／Ｎとして算出される。

　画像比較部３７は、被写体ＳＵの部位ごとに、当該部位を認識可能な視点の割合を認識率として算出する。画像比較部３７は、認識率が許容基準を下回る部位を補正対象部位ＴＧとして特定する。許容基準は、システム開発者によって任意に設定される。図１０の例では、各部位の認識率が「Ｘ％以上」、「Ｘ～Ｙ％」および「Ｙ％以下」に分類されている。補正対象部位ＴＧは、認識率が「Ｙ％以下」の部位として特定される。

　対象部位がカメラ１０で認識可能か否かは、例えば、次のようなシミュレーションに基づいて判定される。まず、カメラ１０の位置に仮想的な光源（仮想光源）が設置される。被写体ＳＵの位置にはアバタＡＢが仮想的に設置され、仮想光源からアバタＡＢに向けて光が照射される。アバタＡＢにおいて光が当たっている部位は被照明部位として算出される。アバタＡＢの被照明部位に対応する被写体ＳＵの部位は、カメラ１０で認識可能な部位として特定される。被照明部位以外の部位（影になっている部位）に対応する被写体ＳＵの部位は、カメラ１０で認識不可能な部位として特定される。

　図５に戻って、映像出力部３９は、補正後の仮想視点映像ＶＩ（補正映像ＶＩＣ）を映像信号に変換して出力データＯＤとして出力する。出力データＯＤは、エンコーダ４０を介して配信サーバ５０に送信される。

［８．情報処理方法］
　図１１は、レンダリングサーバ３０の情報処理方法を示すフローチャートである。

　ステップＳ１において、複数のカメラ１０は被写体ＳＵを複数の視点から同期して撮影する。複数のカメラ１０によって撮影された複数の視点映像ＶＰＩを含む撮影データＩＤは、レンダリングサーバ３０に送信される。撮影データＩＤは、レンダリングサーバ３０のボリュメトリックモデル生成部３２および姿勢推定部３３に供給される。

　ステップＳ２において、ボリュメトリックモデル生成部３２は、被写体ＳＵの撮影データＩＤを用いて被写体ＳＵのボリュメトリックモデルＶＭを生成する。ステップＳ３において、仮想視点映像生成部３６は、ボリュメトリックモデルＶＭを用いて、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。

　ステップＳ４において、姿勢推定部３３は、被写体ＳＵの撮影データＩＤを用いて被写体ＳＵの姿勢ＰＯを推定する。ステップＳ５において、アバタ生成部３４は、撮影前の計測によって得られたスキャンデータＳＤを用いて、被写体ＳＵの姿勢ＰＯに対応したアバタモデルＡＭを生成する。アバタ生成部３４は、アバタモデルＡＭを仮想視点ＶＰに基づいてレンダリングしてアバタＡＢを生成する。

　ステップＳ６において、画像比較部３７は、仮想視点映像ＶＩとアバタＡＢとの差分を抽出する。ステップＳ７において、補正部３８は、仮想視点映像ＶＩとアバタＡＢとの差分に基づいて仮想視点映像ＶＩを補正する。補正後の仮想視点映像ＶＩ（補正映像ＶＩＣ）は配信サーバ５０を介してライブ配信される。

［９．レンダリングサーバのハードウェア構成］
　図１２は、レンダリングサーバ３０のハードウェア構成の一例を示す図である。

　レンダリングサーバ３０の情報処理は、例えば、図１２に示すコンピュータ１０００によって実現される。コンピュータ１０００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１００、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒy）１２００、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３００、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１４００、通信インターフェイス１５００、および入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラム（プログラムデータ１４５０）に基づいて動作し、各部の制御を行う。たとえば、ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）などのブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラムなどを格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例としての、実施形態にかかる情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（たとえばインターネット）と接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。たとえば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウスなどの入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、表示装置やスピーカーやプリンタなどの出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラムなどを読み取るメディアインターフェイスとして機能してもよい。メディアとは、たとえばＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ＰＤ（Ｐｈａｓｅ　ｃｈａｎｇｅ　ｒｅｗｒｉｔａｂｌｅ　Ｄｉｓｋ）などの光学記録媒体、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌ　ｄｉｓｋ）などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。

　たとえば、コンピュータ１０００が実施形態にかかる情報処理装置（レンダリングサーバ３０）として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、図５に示された各機能を実現する。また、ＨＤＤ１４００には、本開示にかかる情報処理プログラム、各種モデル（ボリュメトリックモデルＶＭ、被写体モデル、アバタモデルＡＭ）および各種データ（スキャンデータＳＤなど）が格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

［１０．効果］
　レンダリングサーバ３０は、仮想視点映像生成部３６、姿勢推定部３３、アバタ生成部３４、画像比較部３７および補正部３８を有する。仮想視点映像生成部３６は、複数の視点から撮影された被写体ＳＵの撮影データＩＤを用いて、被写体ＳＵを仮想視点ＶＰから見た被写体ＳＵの仮想視点映像ＶＩを生成する。姿勢推定部３３は、撮影データＩＤを用いて被写体ＳＵの姿勢ＰＯを推定する。アバタ生成部３４は、姿勢ＰＯに対応した被写体ＳＵの３Ｄ形状を有するアバタモデルＡＭを生成する。アバタ生成部３４は、アバタモデルＡＭを仮想視点ＶＰに基づいてレンダリングしてアバタＡＢを生成する。画像比較部３７は、仮想視点映像ＶＩとアバタＡＢとの差分を抽出する。補正部３８は、差分に基づいて仮想視点映像ＶＩを補正する。本開示の情報処理方法は、レンダリングサーバ３０の処理がコンピュータ１０００により実行される。本開示のプログラムは、レンダリングサーバ３０の処理をコンピュータ１０００に実現させる。

　この構成によれば、被写体ＳＵの正確な情報を持つアバタＡＢが被写体ＳＵの姿勢に基づいて別途生成される。仮想視点映像ＶＩをアバタＡＢとの比較結果に基づいて補正することで、高品質な仮想視点映像ＶＩ（補正映像ＶＩＣ）が容易に生成される。

　画像比較部３７は、複数の視点と被写体ＳＵとの位置関係に基づいて補正対象部位を特定する。画像比較部３７は、補正対象部位における仮想視点映像ＶＩとアバタＡＢとの差分を選択的に抽出する。

　この構成によれば、補正処理の負荷が軽減される。

　画像比較部３７は、被写体ＳＵの部位ごとに、当該部位を認識可能な視点の割合を認識率として算出する。画像比較部３７は、認識率が許容基準を下回る部位を補正対象部位として特定する。

　この構成によれば、補正対象部位が適切に特定される。

　差分は、仮想視点映像ＶＩとアバタＡＢとの間の色の差分を含む。

　この構成によれば、色の誤りが少ない仮想視点映像ＶＩが提供される。

　差分は、仮想視点映像ＶＩとアバタＡＢとの間の形状の差分を含む。

　この構成によれば、形状の誤差が小さい仮想視点映像ＶＩが提供される。

　アバタ生成部３４は、撮影前に被写体ＳＵを３Ｄスキャンして得られた被写体ＳＵのスキャンデータＳＤを用いてアバタモデルＡＭを生成する。

　この構成によれば、３Ｄスキャンによって被写体ＳＵの精密なジオメトリ情報が得られる。精密なジオメトリ情報に基づいて補正を行うことで高品質な仮想視点映像ＶＩが生成される。

　３Ｄスキャンは、撮影時と同じ装いの被写体ＳＵに対して実施される。

　この構成によれば、仮想視点映像ＶＩに写る被写体ＳＵの装いに合わせた適切なアバタＡＢが生成される。

　アバタモデルＡＭを用いて生成される被写体ＳＵの輪郭は仮想視点映像ＶＩにおける被写体ＳＵの輪郭よりも滑らかである。

　この構成によれば、仮想視点映像ＶＩにおける被写体ＳＵの輪郭がアバタＡＢの輪郭情報に基づいて滑らかに補正される。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

［付記］
　なお、本技術は以下のような構成も採ることができる。
（１）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
　前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、
　前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、
　前記差分に基づいて前記仮想視点映像を補正する補正部と、
　を有する情報処理装置。
（２）
　前記画像比較部は、前記複数の視点と前記被写体との位置関係に基づいて補正対象部位を特定し、前記補正対象部位における前記差分を選択的に抽出する、
　上記（１）に記載の情報処理装置。
（３）
　前記画像比較部は、前記被写体の部位ごとに、前記部位を認識可能な視点の割合を認識率として算出し、前記認識率が許容基準を下回る部位を前記補正対象部位として特定する、
　上記（２）に記載の情報処理装置。
（４）
　前記差分は、前記仮想視点映像と前記アバタとの間の色の差分を含む、
　上記（１）ないし（３）のいずれか１つに記載の情報処理装置。
（５）
　前記差分は、前記仮想視点映像と前記アバタとの間の形状の差分を含む、
　上記（１）ないし（４）のいずれか１つに記載の情報処理装置。
（６）
　前記アバタ生成部は、撮影前に前記被写体を３Ｄスキャンして得られた前記被写体のスキャンデータを用いて前記アバタモデルを生成する、
　上記（１）ないし（５）のいずれか１つに記載の情報処理装置。
（７）
　前記３Ｄスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
　上記（６）に記載の情報処理装置。
（８）
　前記アバタモデルを用いて生成される前記被写体の輪郭は前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
　上記（６）または（７）に記載の情報処理装置。
（９）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、
　前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
　前記仮想視点映像と前記アバタとの差分を抽出し、
　前記差分に基づいて前記仮想視点映像を補正する、
　ことを有する、コンピュータにより実行される情報処理方法。
（１０）
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、
　前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
　前記仮想視点映像と前記アバタとの差分を抽出し、
　前記差分に基づいて前記仮想視点映像を補正する、
　ことをコンピュータに実現させるプログラム。

３０　レンダリングサーバ（情報処理装置）
３３　姿勢推定部
３４　アバタ生成部
３６　仮想視点映像生成部
３７　画像比較部
３８　補正部
ＡＭ　アバタモデル
ＩＤ　撮影データ
ＰＯ　姿勢
ＳＤ　スキャンデータ
ＳＵ　被写体
ＶＩ　仮想視点映像
ＶＰ　仮想視点

Claims

　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成する仮想視点映像生成部と、
　前記撮影データを用いて前記被写体の姿勢を推定する姿勢推定部と、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成するアバタ生成部と、
　前記仮想視点映像と前記アバタとの差分を抽出する画像比較部と、
　前記差分に基づいて前記仮想視点映像を補正する補正部と、
　を有する情報処理装置。
　前記画像比較部は、前記複数の視点と前記被写体との位置関係に基づいて補正対象部位を特定し、前記補正対象部位における前記差分を選択的に抽出する、
　請求項１に記載の情報処理装置。
　前記画像比較部は、前記被写体の部位ごとに、前記部位を認識可能な視点の割合を認識率として算出し、前記認識率が許容基準を下回る部位を前記補正対象部位として特定する、
　請求項２に記載の情報処理装置。
　前記差分は、前記仮想視点映像と前記アバタとの間の色の差分を含む、
　請求項１に記載の情報処理装置。
　前記差分は、前記仮想視点映像と前記アバタとの間の形状の差分を含む、
　請求項１に記載の情報処理装置。
　前記アバタ生成部は、撮影前に前記被写体を３Ｄスキャンして得られた前記被写体のスキャンデータを用いて前記アバタモデルを生成する、
　請求項１に記載の情報処理装置。
　前記３Ｄスキャンは、撮影時と同じ装いの前記被写体に対して実施される、
　請求項６に記載の情報処理装置。
　前記アバタモデルを用いて生成される前記被写体の輪郭は前記仮想視点映像における前記被写体の輪郭よりも滑らかである、
　請求項６に記載の情報処理装置。
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、
　前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
　前記仮想視点映像と前記アバタとの差分を抽出し、
　前記差分に基づいて前記仮想視点映像を補正する、
　ことを有する、コンピュータにより実行される情報処理方法。
　複数の視点から撮影された被写体の撮影データを用いて、前記被写体を仮想視点から見た前記被写体の仮想視点映像を生成し、
　前記撮影データを用いて前記被写体の姿勢を推定し、
　前記姿勢に対応した前記被写体の３Ｄ形状を有するアバタモデルを生成し、
　前記アバタモデルを前記仮想視点に基づいてレンダリングしてアバタを生成し、
　前記仮想視点映像と前記アバタとの差分を抽出し、
　前記差分に基づいて前記仮想視点映像を補正する、
　ことをコンピュータに実現させるプログラム。