WO2022107688A1

WO2022107688A1 - 画像生成装置、画像生成方法、およびプログラム

Info

Publication number: WO2022107688A1
Application number: PCT/JP2021/041667
Authority: WO
Inventors: 良徳大橋
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2020-11-19
Filing date: 2021-11-12
Publication date: 2022-05-27
Also published as: US20230415040A1; JP2022081271A

Abstract

本開示の画像生成装置１００は、プレイヤーの体を認識するプレイヤー認識部１０２と、視点位置及び視点方向を含む視点情報を取得する視点取得部１０３と、認識結果に基づいて、プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するメッシュ生成部１０５と、視点情報における視点位置から視点方向に見たときのプレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、レンダリングされたプレイヤーのメッシュ構造にレンダリングされた仮想オブジェクトを重畳することにより、画像を生成する画像生成部１１０と、を含む。

Description

画像生成装置、画像生成方法、およびプログラム

　本開示は、画像生成装置、画像生成方法、およびプログラムに関する。

　ゲーム機に接続されたヘッドマウントディスプレイ（ＨＭＤ）を頭部に装着して、ＨＭＤに表示された画面を見ながら、コントローラなどを操作してゲームプレイすることが行われている。ＨＭＤを装着すると、ＨＭＤに表示される映像以外をユーザは見ないため、映像世界への没入感が高まり、ゲームのエンタテインメント性を一層高める効果がある。また、ＨＭＤに仮想現実（ＶＲ）の映像を表示させ、ＨＭＤを装着したユーザが頭部を回転させると、３６０度見渡せる全周囲の仮想空間が表示されるようにすると、さらに映像への没入感が高まり、ゲームなどのアプリケーションの操作性も向上する。

　また、ＨＭＤに搭載されたカメラによって外界の映像を撮影してディスプレイパネルに表示することのできるビデオ透過（ビデオシースルー）型ＨＭＤもある。ビデオ透過型ＨＭＤでは、カメラで撮影される外界の映像にコンピュータグラフィックス（ＣＧ）によって生成された仮想世界のオブジェクトを重畳させることで拡張現実（ＡＲ）の映像を生成して表示することもできる。拡張現実の映像は、現実世界から切り離された仮想現実とは違って、現実世界が仮想オブジェクトで拡張されたものであり、ユーザは現実世界とのつながりを意識しつつ、仮想世界を体験することができる。

　ゲームをプレイするプレイヤーの画像に対して仮想オブジェクトを重畳させた画像を表示する場合、奥にあるはずの仮想オブジェクトが手前にあるはずのプレイヤーの体の一部を上書きしてしまうことがある。そのため、奥行きが正確に表現できない場合がある。その結果、プレイヤーの体と仮想オブジェクトとの間で一体感が得られず、画像が不自然なものとなる。

　上記課題に鑑みて、本開示の１つの目的は、プレイヤーの体とそのプレイヤーの体に重畳された仮想オブジェクトについて奥行きがより正確に表現された画像を提供することが可能な画像生成装置、画像生成方法、およびプログラムを提供することにある。

　上記課題を解決するために、本開示のある態様の画像生成装置は、プレイヤーの体を認識するプレイヤー認識部と、視点位置及び視点方向を含む視点情報を取得する視点取得部と、前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するメッシュ生成部と、前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成する画像生成部と、を含む。

　本開示の別の態様の画像生成方法は、プレイヤーの体を認識するステップと、視点位置及び視点方向に関する視点情報を取得するステップと、前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するステップと、前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成するステップと、を含む。

　本開示のさらに別の態様のプログラムは、プレイヤーの体を認識するステップと、視点位置及び視点方向に関する視点情報を取得するステップと、前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するステップと、前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成するステップと、をコンピュータに実行させるためのプログラムである。

　なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本開示の態様として有効である。

　本開示によれば、プレイヤーの体とそのプレイヤーの体に重畳された仮想オブジェクトについて奥行きがより正確に表現された画像を提供することが可能となる。

第１実施形態の画像生成システムの全体概要図である。ユーザによる実施形態の利用例を示す図である。第１実施形態の画像生成装置の構成図である。スケルトンを例示する図である。メッシュ構造を例示する図である。仮想オブジェクトがプレイヤーのメッシュ構造に重畳される例を示す図である。撮影画像の例を示す図である。図５の撮影画像に仮想オブジェクトを重畳した画像の例を示す図である。従来手法によってオクルージョンを表現した例を示す図である。第１実施形態の手法によってオクルージョンを表現した例を示す図である。第２実施形態の画像生成装置の構成図である。現実空間の撮影画像が重畳されたプレイヤーのメッシュ構造を示す。図１０Ａのプレイヤーのメッシュ構造における脚部に、機械構造の脚部の仮想オブジェクトを重畳した例を示す図である。空間を歪ませる処理の例を示す図である。図１０Ｃの処理後に仮想オブジェクトを重畳した例を示す図である。

＜第１実施形態＞
　図１は、第１実施形態の画像生成システムの全体概要図である。図１の画像生成システム１０は、画像生成装置１００を含む。画像生成装置１００の一例は、ゲーム機である。画像生成装置１００は、ヘッドマウントディスプレイ（ＨＭＤ）１５、カメラ１９、及び画像提供装置２１に接続される。画像生成装置１００に接続されるＨＭＤ１５の数は、図１の例に限定されるものではない。

　画像生成装置１００は、制御部１１と、記憶部１２と、インタフェース部１３と、を含む。制御部１１はプロセッサを含み、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。記憶部１２は、ＲＡＭ等のメモリデバイスを含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。

　インタフェース部１３は、ＨＭＤ１５、カメラ１９、及び画像提供装置２１のそれぞれの間のデータ通信のためのインタフェースである。画像生成装置１００は、インタフェース部１３を介して有線又は無線でＨＭＤ１５と、カメラ１９と、画像提供装置２１と、に接続される。具体的には、インタフェース部１３は、映像・音声をデジタル信号で伝送する通信インタフェースの標準規格であるＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等のマルチメディアインタフェースを含む。

　ＨＭＤ１５は、ユーザの頭部に装着してディスプレイに表示される静止画や動画などを鑑賞し、ヘッドホンから出力される音声や音楽などを聴くための視聴装置である。ＨＭＤ１５には、ジャイロセンサや加速度センサが設けられる。ＨＭＤ１５は、これらのセンサを用いて、ＨＭＤ１５を装着したユーザの頭部の位置情報と頭部の回転角や傾きなどを計測する。ＨＭＤ１５には、カメラユニット（不図示）が搭載される。ＨＭＤ１５は、カメラユニットを用いて、ユーザがＨＭＤ１５を装着している間、そのユーザの視点で外界を撮影することができる。ＨＭＤ１５は、その撮影した撮影画像を画像生成装置１００に供給する。ＨＭＤ１５は、その撮影画像に基づいて画像生成装置１００によって生成された画像をディスプレイに表示する。

　カメラ１９は、ゲームのプレイヤー及びその周囲に存在する床や壁などの物体を撮影できるように設置される。カメラ１９は、撮影した現実空間の撮影画像を画像生成装置１００に供給する。

　画像提供装置２１は、画像生成装置１００からその生成された画像を受信し、その受信した画像をユーザに提供可能に構成される。画像提供装置２１は、画像生成装置１００から受信した画像を表示可能に構成される。また、画像提供装置２１は、受信した画像をコンテンツファイルとして動画配信サーバ（不図示）にアップロード可能に構成される。

　画像生成装置１００は、ユーザによる操作情報を入力するための入力部（不図示）に接続されてもよい。画像生成装置１００は、通信ネットワークを介して外部とデータ通信を行うための通信インタフェースを有してもよい。

　図２は、ユーザによる本実施形態の利用例を示す。図２の例では、ユーザＡは、ゲームをプレイするプレイヤーであり、ＨＭＤ１５を装着している。図２の例では、ユーザＢは、ゲーム内でのユーザＡのプレイを観戦する観戦者であり、画像提供装置２１によって表示されるユーザＡのプレイ画像を視聴している。また、図２の例では、カメラ１９はユーザＡの正面からユーザＡを撮影するように配置される。ただし、この配置に限定されず、カメラ１９はユーザＡの真横、真後ろ、斜め横等の任意の位置からユーザＡを撮影するように配置されてもよい。後述するように、本実施形態では、プレイヤーの体と仮想オブジェクトとの間のオクルージョンをより正確に表現することが可能となる。そのため、例えば、図２のように観戦者がプレイヤーの視点とは異なる第三者の視点でプレイヤーのゲームプレイを観戦する場合に好適である。そのほかにも、ゲームのプレイヤーが自身のゲームプレイの様子を第三者視点のカメラ１９で撮影して、画像提供装置２１を介してそのゲームプレイを他のユーザに配信する場合に好適である。

　図３は、本実施形態の画像生成装置の構成図である。画像生成装置１００は、プレイヤー認識部１０２と、撮影画像取得部１０１と、視点取得部１０３と、スケルトン生成部１０４と、メッシュ生成部１０５と、画像生成部１１０と、ＨＤＭＩ送受信部１０６と、を含む。画像生成部１１０は、レンダリング部１１１と、重畳部１１２と、ポストプロセス部１１３と、歪み処理部１１４と、を含む。図３は機能に着目したブロック図を描いており、これらの機能ブロックはハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現することができる（後述する図９も同様である）。

　以下、第三者視点の画像を生成する場合を例に、本実施形態について説明する。具体的には、図２の例のように、ユーザＢがユーザＡのゲームプレイを観戦するためにカメラ１９の視点の画像を生成する場合について説明する。ユーザＡ（プレイヤー）のＨＭＤ１５及び画像提供装置２１には、各々の視点で生成された同じゲームプレイ（ユーザＡのゲームプレイ）の画像が供給されるものとする。

　撮影画像取得部１０１は、現実空間の撮影画像を取得する。本実施形態の現実空間の撮影画像は、カメラ１９からＨＤＭＩ送受信部１０６を介して取得される。撮影画像取得部１０１は、取得した各撮影画像をプレイヤー認識部１０２、視点取得部１０３及び重畳部１１２に供給する。

　プレイヤー認識部１０２は、プレイヤーの体を認識する。具体的には、プレイヤー認識部１０２は、撮影画像取得部１０１で取得された撮影画像におけるユーザＡの各身体部位の位置及び姿勢に基づいて、プレイヤーの体の各身体部位の位置及び姿勢を認識する。例えば、プレイヤー認識部１０２は、カメラ１９の撮影画像に基づいて、学習済みの機械学習モデルを用いてプレイヤーの各部位の位置及び姿勢を推定することで、プレイヤーの体を認識する。例えば、プレイヤー認識部１０２は、オープンポーズ（Open Pose）などを用いてプレイヤーの体を認識することができる。プレイヤー認識部１０２は、その認識結果をスケルトン生成部１０４に供給する。

　視点取得部１０３は、カメラ１９から撮影画像取得部１０１を介して供給された撮影画像に基づいて、カメラ１９の視点位置および視線方向を含む視点情報を取得する。視点取得部１０３は、取得した各視点情報をレンダリング部１１１に供給する。カメラ１９の視点情報は、プレイヤーの視点とは異なる観戦者の視点情報の一例である。

　スケルトン生成部１０４は、プレイヤー認識部１０２の認識結果に基づいて、プレイヤーの体のスケルトンを生成する。例えば、スケルトン生成部１０４は、プレイヤーの体の各身体部位の位置及び姿勢の認識結果に基づいて、学習済みの機械学習モデルを用いてプレイヤーのスケルトンにおける各部位の位置及び姿勢を推定することで、このスケルトンを生成する。例えば、スケルトン生成部１０４は、オープンポーズ（Open Pose）などを用いてスケルトンを生成することができる。

　図４Ａは、スケルトン生成部１０４が生成するスケルトンを示す。図４Ａの例は、図２のカメラ１９の視点（正面視）からユーザＡを見たときの場合を示す（以下の図４Ｂ及び図４Ｃも同様である）。図４Ａのスケルトン３０は、プレイヤーの体の各端部及び各関節を示す複数のノード３１を有する。具体的には、スケルトン３０は、プレイヤーの頭部ノード３１ａ、胸部ノード３１ｂ、腰部ノード３１ｃ、肩ノード３１ｄ、肘ノード３１ｅ、手首ノード３１ｆ、手ノード３１ｇ、膝ノード３１ｈ、足首ノード３１ｉ及び足ノード３１ｊを含む。隣接するノード３１は、ボーン３２によって接続される。本実施形態では、スケルトン生成部１０４は、プレイヤーの身体部位に対応する各ノード３１の基準の位置及び姿勢（例えば、ゲーム開始時の初期の位置及び姿勢）に対する位置及び姿勢を推定することにより、スケルトン３０を生成する。推定された各ノード３１の位置及び姿勢のデータは、記憶部１２に記憶される。そのため、プレイヤーの体の各部位についての奥行き方向の位置関係を正確に反映することが可能となる。スケルトン生成部１０４は、生成したスケルトンをメッシュ生成部１０５に供給する。

　メッシュ生成部１０５は、生成されたスケルトンが反映されたプレイヤーのメッシュ構造を生成する。例えば、メッシュ生成部１０５は、取得された現実空間の撮影画像におけるプレイヤーの形状に基づいて、スケルトンをメッシュ構造でモデル化することで、プレイヤーのメッシュ構造３３を生成する（図４Ｂ参照）。プレイヤーのメッシュ構造のモデル化は、公知の方法により行われる。メッシュ生成部１０５は、生成したプレイヤーのメッシュ構造をレンダリング部１１１に供給する。

　レンダリング部１１１は、カメラ１９の視点情報にしたがって、その視点情報の視点位置から視線方向に見たときにおける、プレイヤーのメッシュ構造と仮想オブジェクトとをそれぞれレンダリングする。具体的には、レンダリング部１１１は、仮想オブジェクトをレンダリングしてカラー値を画素バッファ１２１に保存するとともに、プレイヤーのメッシュ構造をたとえば白（ＲＧＢ（２５５，２５５，２５５））、またはグレー（ＲＧＢ（１２８，１２８，１２８））でレンダリングしてレンダリングして画素バッファ１２１に保存する。レンダリング部１１１は、プレイヤーのメッシュ構造への重畳用の仮想オブジェクトとして、例えば、プレイヤーのアバター、衣装、装飾品等のプレイヤーのメッシュ構造の少なくとも一部に装着可能な仮想オブジェクトをレンダリングする。

　レンダリング部１１１がプレイヤーのメッシュ構造をレンダリングする際、プレイヤーのメッシュ構造の奥行き値（メッシュデプス値）がプレイヤーのメッシュ構造用のデプスバッファ（「メッシュデプスバッファ」と呼ぶ）１２２に書き込まれる。プレイヤーのメッシュ構造よりも手前側に他の仮想オブジェクトが存在する場合は、その画素にはメッシュデプスバッファ１２２においてメッシュデプス値が書き込まれないか、又は他の仮想オブジェクトのレンダリング時にメッシュデプス値が上書き消去される。その結果、プレイヤーのメッシュ構造が描画されている部分のみの領域が生成される。

　レンダリング部１１１が仮想オブジェクトをレンダリングする際、仮想オブジェクトの奥行き値（シーンデプス値）が仮想空間レンダリング用のデプスバッファ（「シーンデプスバッファ」と呼ぶ）１２３に書き込まれ、仮想オブジェクト間の前後関係が判定される。仮想オブジェクトが描画されない画素はシーンデプスバッファ１２３において具体的なデプス値が書き込まれず、シーンデプス値は無限大（不定）である。

　さらに、レンダリング部１１１は、プレイヤーのメッシュ構造に重畳されることになる仮想オブジェクトによる光に関する表現をレンダリングする。仮想オブジェクトの光に関する表現としては、例えば、仮想オブジェクトがプレイヤーのメッシュ構造に落とす影や仮想オブジェクトのプレイヤーのメッシュ構造への映り込み、仮想オブジェクトの半透明化、仮想光源によるプレイヤーのメッシュ構造へのライティング表現などが挙げられる。たとえばシャドウマッピングは光源からの深度マップを平面に投影する方法やレイトレーシングなどの手法を用いて影や映り込みを描画することができる。仮想オブジェクトの影や映り込みの半透明の画像をユーザのメッシュ構造に重畳することでユーザのメッシュ構造に対する仮想オブジェクトの影や映り込みを表現することができる。ユーザのメッシュ構造は白一色でレンダリングされているため、影や映り込みが描画された領域とは区別することができる。このようにして、プレイヤーのメッシュ構造に重畳される仮想オブジェクトによる光に関する表現が画像に付与される。

　レンダリング部１１１は、レンダリングされたプレイヤーのメッシュ構造とレンダリングした仮想オブジェクトとを重畳部１１２に供給する。

　重畳部１１２は、レンダリング部１１１がレンダリングしたプレイヤーのメッシュ構造に撮影画像を重畳する。具体的には、重畳部１１２は、シーンデプス値が無限の領域とメッシュデプス値が書き込まれている領域とに、撮影画像を重畳する。メッシュデプス値に書き込まれている領域は、仮想オブジェクトの影やライティング表現（映りこみなど）の色情報を残して撮影画像と重畳する。重畳部１１２は、撮影画像が重畳されたプレイヤーのメッシュ構造に仮想オブジェクトを重畳する。

　図４Ｃを参照する。重畳部１１２は、アバターの仮想オブジェクトをプレイヤーのメッシュ構造の上に貼り付けられるように重畳することにより、プレイヤーのアバター３４を生成する。ここで、図４Ｃの例では、プレイヤーの全身がアバターの仮想オブジェクトによって重畳されたが、これに限定されず、プレイヤーの体の一部が仮想オブジェクトによって重畳されてもよい。この場合、仮想オブジェクトによって重畳される部分以外の箇所からは、撮影画像が重畳されたプレイヤーのメッシュ構造が見えるようになる。

　重畳部１１２は、重畳した画像をポストプロセス部１１３に供給する。

　ポストプロセス部１１３は、重畳された画像に対して、仮想オブジェクトによる光に関する表現を施すための処理を実行する。また、ポストプロセス部１１３は、プレイヤーのメッシュ構造の位置及び姿勢の少なくとも一方に応じた描画エフェクトを施すための処理を実行する。この描画エフェクトは、例えば、プレイヤーのメッシュ構造の位置の変化に応じたモーションブラー、プレイヤーのメッシュ構造の姿勢に応じてプレイヤーのメッシュ構造から立ち上がるオーラ等を含む。ポストプロセス部１１３は、これら以外にも、被写界深度調整、トーンマッピング、アンチエイリアシングなどのポストプロセスを施し、画像が自然で滑らかに見えるように後処理してもよい。ポストプロセス部１１３は、ポストプロセスが施された画像を歪み処理部１１４に供給する。

　歪み処理部１１４は、ポストプロセスが施された画像に対してカメラ１９の光学系で生じる歪みに合わせて画像を変形（distortion）させて歪ませる処理を施す。歪み処理部１１４は、歪ませる処理が施された画像をＨＤＭＩ送受信部１０６に供給する。

　以上のようにして、画像生成部１１０は、ユーザＡ及びＢ毎に、各ユーザＡ及びＢの視点位置から視点方向に見たときのプレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングする。画像生成部１１０は、そのレンダリングされたメッシュ構造にそのレンダリングされた仮想オブジェクトを重畳することにより、画像を生成する。

　ＨＤＭＩ送受信部１０６は、画像生成部１１０により生成された画像をＨＤＭＩにしたがって画像提供装置２１に伝送する。画像生成装置１００から伝送された画像は、画像提供装置２１のディスプレイに表示される。これによりユーザＢは、プレイヤーに仮想オブジェクトが重畳された画像を見ることができる。この画像は、プレイヤーの背景画像としてビデオシースルー画像が重畳されたＡＲ画像であってもよい。あるいは、この画像は、プレイヤーの背景画像として仮想空間を示す仮想オブジェクトが重畳されたＶＲ画像であってもよい。

　ここで、図５～図８を参照して、ゲームをプレイするプレイヤーの画像に仮想オブジェクトを重畳させた画像について説明する。

　図５は、カメラ１９により撮影される撮影画像の例を示す。図５の撮影画像は、カメラ１９がゲームをプレイするユーザＡを撮影したものである。図５の例では、ユーザＡはカメラ１９の正面に立っており、ユーザＡの顔４００が主に撮影されている。

　図６は、図５の撮影画像に仮想オブジェクトを重畳した画像の例を示す。図６に示すように、ユーザＡの顔４００の周囲の部分は熊の被り物の仮想オブジェクト５００によって重畳される。これにより、ユーザＢはユーザＡの顔４００の周囲に熊の被り物の仮想オブジェクト５００が描かれた画像を画像提供装置２１を介して見ることができる。

　図７は、従来手法によってオクルージョンを表現した例を示す図である。比較のため、図７を用いてオクルージョン及び奥行きが適切に表現されない例を説明する。図７の例は、ユーザＡが手６００で顔４００を隠そうとしている様子を示す。ユーザＡが手６００で顔４００を隠すように手６００を顔４００の前に持っていくと、撮影画像にはユーザＡの顔４００よりも図面手前側の位置において手６００が映り込む。このとき、図７において奥側にあるはずの熊の被り物の仮想オブジェクト５００が、図７において手前側にあるはずのユーザＡの手６００の一部に重畳される場合がある。熊の被り物の仮想オブジェクト５００とユーザＡの手６００の一部との位置関係が正しく判定されない場合があるためである。そのため、従来手法では、本来見えるはずのユーザＡの手６００の一部が熊の被り物の仮想オブジェクト５００によって見えなくなるような不適切なオクルージョンが発生する。その結果、奥行きや適切に表現されず、プレイヤーの体と仮想オブジェクトとの間で一体感が得られなくなって画像が不自然なものとなる。そのため、プレイヤーの体の各部位とプレイヤーに重畳される画像との位置関係を正しく表現する必要がある。

　図８は、本実施形態の手法によってオクルージョンを表現した例を示す図である。本実施形態の画像生成装置１００は、プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成し、そのプレイヤーのメッシュ構造に仮想オブジェクトを重畳する。上述したように、スケルトンはプレイヤーの体の各部位の奥行きを含む位置関係を正確に反映する。そのため、本実施形態によると、プレイヤーの体とプレイヤーのメッシュ構造に重畳される仮想オブジェクトとの間のオクルージョンをより適切に表現することが可能となる。その結果、奥行きが適切に表現され、プレイヤーの体と仮想オブジェクトとの間で一体感が得られるようになり、自然な画像を提供することが可能となる。

　本実施形態では、視点情報は、プレイヤーとは異なる観戦者の視点位置及び視点方向を含む。本構成によると、プレイヤーの奥行きが適切に表現された第三者（観戦者）の視点の画像を観戦者に画像を提供することが可能となる。

　本実施形態では、画像生成部１１０は、プレイヤーのメッシュ構造に重畳された仮想オブジェクトによる光に関する表現を付与するように画像を生成する。従来、プレイヤーの体に仮想オブジェクトによる光に関する表現を正確に反映させることができなかった。本構成によると、スケルトンに基づいて生成されたプレイヤーのメッシュ構造がプレイヤーの体の各部位の位置関係を正確に反映するため、プレイヤーの体に仮想オブジェクトによる光に関する表現がより正確に反映された画像を提供することが可能となる。

　本実施形態では、画像生成部１１０は、プレイヤーのメッシュ構造の位置及び姿勢のうちの少なくとも１つに応じた描画エフェクトを付与するように、画像を生成する。本構成によると、プレイヤーのメッシュ構造がプレイヤーの体の各部位の位置関係を適切に反映しているため、モーションブラー等の描画エフェクトをより適切に表現することが可能となる。

　本実施形態では、プレイヤーのメッシュ構造に撮影画像が重畳され、その撮影画像が重畳されたプレイヤーのメッシュ構造に仮想オブジェクトを重畳される。そのため、本構成によると、プレイヤーの体において仮想オブジェクトが重畳させた部分と、プレイヤーの現実の外見が反映されたプレイヤーの体の他の部分との間のオクルージョンをより正確に表現することが可能となる。

＜第２実施形態＞
　以下、本開示の第２実施形態を説明する。以下の実施形態の図面および説明では、第１実施形態と同一または同等の構成要素、部材には、同一の符号を付する。第１実施形態と重複する説明を適宜省略し、第１実施形態と相違する構成について重点的に説明する。

　図９は、第２実施形態の画像生成装置の構成図である。本実施形態の画像生成装置１００は、奥行き取得部１０７と、実空間デプスバッファ１２４と、をさらに備える。本実施形態では、プレイヤーの背景画像としてビデオシースルー画像が重畳されたＡＲ画像が提供される。

　奥行き取得部１０７は、現実空間の奥行き情報を取得する。本実施形態の現実空間の奥行き情報は、カメラ１９から取得される。現実空間の奥行き情報は、たとえば、赤外線パターン、Ｓｔｒｕｃｔｕｒｅｄ　Ｌｉｇｈｔ、ＴＯＦ（Time Of Flight）などの方式のデプスセンサを用いて取得されてもよい。奥行き取得部１０７は、取得した奥行き情報をメッシュ生成部１０５に供給する。

　本実施形態のメッシュ生成部１０５は、プレイヤーのメッシュ構造を含む現実空間のメッシュ構造を生成する。具体的には、メッシュ生成部１０５は、現実空間の奥行き情報に基づいて、現実空間をメッシュ構造でモデル化することにより、現実空間のメッシュ構造を生成する。現実空間のメッシュ構造のモデル化は、公知の方法により行われる。現実空間のメッシュ構造は、現実空間の壁、床、天井、静止物体などを含む。

　レンダリング部１１１は、現実空間のメッシュ構造をたとえば白（ＲＧＢ（２５５，２５５，２５５））でレンダリングして画素バッファ１２１に保存する。レンダリング部１１１が現実オブジェクトをレンダリングする際、現実オブジェクトの奥行き値（「実空間デプス値」と呼ぶ）が現実空間レンダリング用の実空間デプスバッファ１２４に書き込まれる。実空間デプス値は、現実オブジェクト間の前後関係を判定する際に用いられる。実空間デプス値は、現実空間の奥行き情報に基づいて生成される。

　本実施形態によると、プレイヤーのメッシュ構造を含む現実空間のメッシュ構造の位置関係を適切に表現することが可能となる。その結果、プレイヤーのメッシュ構造に重畳された仮想オブジェクトとその周囲に存在する物体（例えばボールなど）との間のオクルージョンをより適切に表現することが可能となる。その結果、現実空間のメッシュ構造の奥行きをより正確に表現することが可能となる。

＜第３実施形態＞
　以下、本開示の第３実施形態を説明する。

　図１０Ａは、現実空間の撮影画像が重畳されたプレイヤーのメッシュ構造を示す。図１０Ａのプレイヤーのメッシュ構造における脚部に、機械構造の脚部の仮想オブジェクト（図１０Ｂ参照）を重畳する場合を考える。図１０Ｂに示すように、重畳する機械構造の脚部の仮想オブジェクトがメッシュ構造における脚部よりも小さい場合、メッシュ構造の脚部が機械構造の脚部の仮想オブジェクトからはみ出てしまうことがある。この場合、メッシュ構造の脚部と機械構造の脚部の仮想オブジェクトがフィットせず、不自然になりやすくなる。

　そこで、本実施形態のポストプロセス部１１３は、仮想オブジェクトが重畳されるプレイヤーのメッシュ構造の部分がその重畳される仮想オブジェクトからはみ出る場合、その重畳される部分が仮想オブジェクトからはみ出さなくなるように、その部分におけるスケルトンの周囲の空間を歪ませる処理を施す。ここでは、水平方向と鉛直方向との少なくとも一方について、この空間を歪ませる処理が行われる。以下、図１０Ｃ及び図１０Ｄを用いてこの処理について説明する。

　図１０Ｃを参照する。図１０Ｃの処理では、まず、プレイヤーのメッシュ構造の脚部を、スケルトンの腰部ノード３１ｃ、膝ノード３１ｈ、足首ノード３１ｉ及び足ノード３１ｊをそれぞれ接続するボーン３２に沿って（図４参照）、その周囲の空間を歪ませる。本実施形態では、ボーン３２に向かってその周囲の空間の画素を引き寄せる処理が行われる。ボーンに近いほど、画素の引き寄せ量が大きくなる。これにより、プレイヤーのメッシュ構造の脚部を細くすることができる。

　図１０Ｄを参照する。この処理後のプレイヤーのメッシュ構造の脚部に機械構造の脚部の仮想オブジェクトを重畳する。図１０Ｄに示すように、プレイヤーの脚部には、機械構造の脚部の仮想オブジェクトのみが見えるようになる。

　本構成によると、プレイヤーの体の部位と比較して小さい仮想オブジェクトを重畳する場合であっても、仮想オブジェクトをプレイヤーのメッシュ構造に対してフィットさせることができる。そのため、プレイヤーのメッシュ構造と仮想オブジェクトの大きさの違いによる違和感の発生を抑制することが可能となる。

　本実施形態では、プレイヤーのメッシュ構造がその重畳される仮想オブジェクトからはみ出る場合を例にしたが、これに限定されない。例えば、プレイヤーのメッシュ構造の一部の上（例えば頭部の上）に非常に重い物体がある場合には、プレイヤーのメッシュ構造の一部を押しつぶすように、その周囲の空間を歪ませてもよい。また、例えば、プレイヤーのアバター自体が非常に重いアバター（例えば巨大な岩のような宇宙人のアバターなど）として設定されている場合、そのアバターが立っている床付近の空間を歪ませてもよい。このように、仮想オブジェクトの特性に合わせてプレイヤーのメッシュ構造を小さく見せることが可能となる。

＜変形例＞
　画像生成装置１００の少なくとも一部の機能は、ＨＭＤ１５又は画像提供装置２１に実装されてもよい。あるいは、画像生成装置１００の少なくとも一部の機能は、ネットワークを介して画像生成装置１００に接続されたサーバに実装されてもよい。

　画像生成装置１００は、さらにネットワークを介してサーバに接続されてもよい。その場合、サーバは、複数のユーザがネットワークを介して参加できるゲームなどのオンラインアプリケーションを画像生成装置１００に提供してもよい。ＨＭＤ１５又は画像提供装置２１は、画像生成装置１００の代わりに、コンピュータや携帯端末に接続されてもよい。

　上記実施形態では、ユーザＡはゲームをプレイするプレイヤーとし、ユーザＢはゲーム内でのユーザＡのプレイを観戦する観戦者としたが、これに限定されない。例えば、ユーザＡ及びＢの両方がゲームをプレイするプレイヤーであってもよい。

　上記実施形態では、プレイヤー認識部１０２は、カメラ１９から供給された撮影画像に基づいてプレイヤーの体を認識したが、これに限定されない。例えば、トラッカを用いてユーザの身体部位の位置や姿勢を検出することによってプレイヤーの体を認識してもよい。

　上記実施形態では、ゲームをプレイするユーザＡがＨＭＤ１５を装着した例を示したが、ＨＭＤ１５は設けられなくてもよい。この場合、例えば、別途設けられたディスプレイに画像生成装置１００の画像を供給し、このディスプレイに表示された画像を基にユーザＡがゲームをプレイすればよい。

　上記実施形態では、カメラ１９及び画像提供装置２１を用いた例を示したが、これらは用いられなくてもよい。この場合、例えば、ユーザＢもＨＭＤ１５を装着し、ユーザＢのＨＭＤ１５の撮影画像をカメラ１９の撮影画像の代わりに画像生成装置１００に供給し、ＨＭＤ１５の視点情報に基づいて画像生成装置１００によって生成された画像をＨＭＤ１５で表示すればよい。

　図２の例では、カメラ１９及び画像提供装置２１は別体であるが、一体で構成されてもよい。この場合、例えば、撮影機能と表示機能を有するパーソナルコンピュータ等が用いられればよい。

　上記実施形態では、プレイヤーの仮想オブジェクトに撮影画像が重畳されたが、撮影画像を重畳せずに、メッシュ構造に仮想オブジェクトのみを重畳させてもよい。

　ポストプロセス部における上記光に関する表現や上記描画エフェクト等について各処理は、必要に応じて実行されなくてもよい。

　上記の説明では、ポストプロセスとして、被写界深度調整、トーンマッピング、アンチエイリアシングなどの処理を例示したが、歪み処理、単純な拡大・縮小、台形変換なども含めてポストプロセスと呼んでもよい。

　以上、本開示を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

１０　画像生成システム、　１５　ＨＭＤ、　１００　画像生成装置、　１０１　撮影画像取得部、　１０２　プレイヤー認識部、　１０３　視点取得部、　１０４　スケルトン生成部、　１０５　メッシュ生成部、　１０６　ＨＤＭＩ送受信部、　１０７　奥行き取得部、　１１０　画像生成部、　１１１　レンダリング部、　１１２　重畳部、　１１３　ポストプロセス部、　１１４　歪み処理部、　１２１　画素バッファ、　１２２　メッシュデプスバッファ、　１２３　シーンデプスバッファ、　１２４　実空間デプスバッファ。

Claims

　プレイヤーの体を認識するプレイヤー認識部と、
　視点位置及び視点方向を含む視点情報を取得する視点取得部と、
　前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するメッシュ生成部と、
　前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成する画像生成部と、
　を含む、画像生成装置。
　現実空間の撮影画像を取得する撮影画像取得部と、
　前記現実空間の奥行き情報を取得する奥行き取得部と、をさらに含み、
　前記画像生成部は、前記撮影画像及び前記奥行き情報に基づいて、前記現実空間に存在する物体と前記プレイヤーのメッシュ構造に重畳された前記仮想オブジェクトとの間のオクルージョンを表現するように、前記画像を生成する、請求項１に記載の画像生成装置。
　前記画像生成部は、前記プレイヤーのメッシュ構造の位置及び姿勢のうちの少なくとも１つに応じた描画エフェクトを付与するように、前記画像を生成する、請求項１又は２に記載の画像生成装置。
　前記視点情報は、前記プレイヤーの視点とは異なる観戦者の視点位置及び視点方向を含む、請求項１から３のいずれか１項に記載の画像生成装置。
　現実空間の撮影画像を取得する撮影画像取得部をさらに備え、
　前記画像生成部は、前記プレイヤーのメッシュ構造に前記プレイヤーの前記撮影画像を重畳し、その撮影画像が重畳されたプレイヤーのメッシュ構造に、仮想オブジェクトを重畳することにより、前記画像を生成する、請求項１から４のいずれか１項に記載の画像生成装置。
　前記画像生成部は、前記プレイヤーのメッシュ構造に重畳された前記仮想オブジェクトによる光に関する表現を付与するように、前記画像を生成する、請求項１から５のいずれか１項に記載の画像生成装置。
　前記画像生成部は、前記プレイヤーの体と前記プレイヤーのメッシュ構造に重畳された前記仮想オブジェクトとの間のオクルージョンを表現するように、前記画像を生成する、請求項１から６のいずれか１項に記載の画像生成装置。
　前記画像生成部は、仮想オブジェクトが重畳される前記プレイヤーのメッシュ構造の部分における前記スケルトンの周囲の空間を歪ませることにより、前記画像を生成する、請求項１から７のいずれか１項に記載の画像生成装置。
　前記画像生成部は、仮想オブジェクトが重畳される前記プレイヤーのメッシュ構造の部分がその重畳される仮想オブジェクトからはみ出している場合、前記部分が前記その重畳される仮想オブジェクトからはみ出さなくなるように、前記部分における前記スケルトンの周囲の空間を歪ませることにより、前記画像を生成する、請求項１から８のいずれか１項に記載の画像生成装置。
　前記画像生成部は、前記プレイヤーとは異なる他のプレイヤーの視点から見た場合の前記プレイヤーのメッシュ構造に前記仮想オブジェクトを重畳することにより、前記画像を生成する、請求項１から９のいずれか１項に記載の画像生成装置。
　プレイヤーの体を認識するステップと、
　視点位置及び視点方向に関する視点情報を取得するステップと、
　前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するステップと、
　前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成するステップと、
　を含む、画像生成方法。
　プレイヤーの体を認識するステップと、
　視点位置及び視点方向に関する視点情報を取得するステップと、
　前記認識結果に基づいて、前記プレイヤーの体のスケルトンが反映されたプレイヤーのメッシュ構造を生成するステップと、
　前記視点情報における前記視点位置から前記視点方向に見たときの前記プレイヤーのメッシュ構造及び仮想オブジェクトをレンダリングし、前記レンダリングされたプレイヤーのメッシュ構造に前記レンダリングされた仮想オブジェクトを重畳することにより、画像を生成するステップと、
　をコンピュータに実行させるためのプログラム。