WO2020195767A1

WO2020195767A1 - ３ｄモデル送信装置、及び、３ｄモデル受信装置

Info

Publication number: WO2020195767A1
Application number: PCT/JP2020/010181
Authority: WO
Inventors: 山本　智幸; 恭平池田
Original assignee: シャープ株式会社
Priority date: 2019-03-25
Filing date: 2020-03-10
Publication date: 2020-10-01
Also published as: JP2022074178A

Abstract

伝送データ量を低減し、再生する３Ｄモデルの品質を向上させる為のデータを生成し送信する３Ｄモデル送信装置を実現する。３Ｄモデル送信装置はソースモデルを表現するＲＧＢＤ画像およびメタデータを生成する仮想撮影部と、前記ＲＧＢＤ画像に含まれる各画像を符号化してＲＧＢＤストリームを生成するビデオエンコーダと、前記ＲＧＢＤストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える３Ｄモデル送信装置であって、前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成される。

Description

３Ｄモデル送信装置、及び、３Ｄモデル受信装置

　本発明の一態様は、３Ｄモデル送信装置、及び、３Ｄモデル受信装置に関する。
　本願は、２０１９年３月２５日に日本で出願された特願２０１９－５７０１０号に基づき優先権を主張し、その内容をここに援用する。

　近年、AR (Augmented Reality) 及びVR (Virtual Reality) 技術が注目されている。また技術の発展に伴い、AR及びVRのコンテンツに係るリアルタイム配信の技術への関心も高まっている。

　従来技術であるHoloportationでは、形状モデルと多視点カラー画像（RGB画像) を配信し、受信側でそれらを統合することで、3Dモデルを伝送して遠隔地のAR空間上に再現する。

　また、KinectFusionと呼ばれる技術をベースとした、デプス画像を統合して3Dモデルを構築する技術が検討されている。KinectFusionを利用することで、リアルタイムに、低解像度のデプス画像から精密な3Dモデルを構築できる。これを利用すれば、デプス画像を伝送することでHoloportationと同様に3Dモデルの伝送と再生が実現できる。

　現実の環境において、3Dモデルの伝送と再生を広く利用するためには、以下の要求を満たす必要がある。すなわち、一般的なユーザが使用可能なネットワーク帯域の制約下で3Dモデルを伝送し、一般的なユーザが入手可能な再生デバイスの性能の制約化で実時間で高品質の3Dモデルを再生することが要求される。

R. A. Newcombe, A. J. Davison, S. Izadi, P. Kohli, O. Hilliges, J. Shotton, D. Molyneaux, S. Hodges, D. Kim, and A. Fitzgibbon, "KinectFusion: Real-time dense surface mapping and tracking," in Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on, 2011, pp. 127-136.

　しかしながら、従来技術では、前述の要求を満たすような3Dモデル伝送は実現できていない。本発明の一態様は、上記の問題に鑑みてなされたものであり、3Dモデルの伝送と再生に必要な要求を満たす3Dモデル伝送システムを実現する。また、そのような3Dモデル伝送システムを構成するための仮想撮影装置、3Dモデル再生装置を実現する。

　上記の課題を解決するために、本発明の一態様に係る３Ｄモデル送信装置は以下の手段を備える。

　ソースモデルを表現するＲＧＢＤ画像およびメタデータを生成する仮想撮影手段と、前記ＲＧＢＤ画像に含まれる各画像を符号化してＲＧＢＤストリームを生成するビデオエンコード手段と、前記ＲＧＢＤストリームを蓄積して要求に応じて出力するストリーム蓄積手段を備える3Dモデル送信手段であって、前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする３Ｄモデル送信手段。

　また、上記の課題を解決するために、本発明の一態様に係る３Ｄモデル受信装置は以下の手段を備える。

　ユーザ視点に基づいてＲＧＢＤストリームを選択受信するストリーム受信手段と、前記ＲＧＢＤストリームを復号してＲＧＢＤ画像を導出するビデオデコード手段と、前記ＲＧＢＤ画像に基づいて再生モデルを生成して出力する３Ｄモデル再生手段を備えた３Ｄモデル受信手段であって、前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする３Ｄモデル受信手段。

　本発明の一態様によれば、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を選択的に送信または受信することで伝送データ量を抑制しつつ、高品質な3Dモデルを伝送できる。

実施形態１に係る3Dモデル送信装置および3Dモデル受信装置の機能ブロック図である。実施形態１に係るRGBD画像の構成を例示する図である。実施形態１に係る仮想撮影部の機能ブロック図である。実施形態１に係る3Dモデル再生部の機能ブロック図である。実施形態１に係る仮想撮影部の処理の流れを示すフローチャートである。実施形態１に係る既定視点を例示する図である。実施形態１に係る視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像の構成を例示する図である。実施形態１の第一の変形例に係るテクスチャ設定部の機能ブロック図である。実施形態１に第二の変形例に係るテクスチャ設定部の機能ブロック図である。

　〔実施形態１〕
　以下、本発明の一実施形態について、図１～図７に基づいて説明する。

　本実施形態において3Dモデル伝送システムは、3Dモデル送信装置100と3Dモデル受信装置２００により実現される。一般のサービスでは、3Dモデル送信装置100はサーバに配置され、3Dモデル受信装置200はユーザが使用するクライアント（例えばHMD: Head Mount Display) の一部として提供される。以下では、そのような前提で、サーバ側から送信された3Dモデルを離れた地点のユーザが受信して3Dモデルを再生する例を説明する。しかしながら、両者を同一ハードウェアに実装する構成も可能である。

　＜3Dモデル送信装置100の構成＞
　図1に基づいて本実施形態に係る3Dモデル送信装置100の構成を説明する。3Dモデル送信装置100は、仮想撮影部1、ビデオエンコーダ3、適応ストリーム蓄積部4を備えている。

　3Dモデル送信装置100は、入力される3Dモデル（ソースモデル）からRGBD画像（カラー画像およびデプス画像）を含んで構成されるRGBDストリームを生成して蓄積する。蓄積されたRGBDストリームは、クライアントである3Dモデル受信装置からの要求に応じて選択的に出力される。

　仮想撮影部1は、入力のソースモデルに基づき、RGBD画像を生成して出力する。ソースモデルは、三次元空間中の人や物等の対象を表現するデータであり、形状と色の情報を含んでいる。以下の説明では、ソースモデルとして、対象の形状をメッシュ、色を頂点に関連付けられたテクスチャとして、例えば頂点若しくはメッシュからなる3Dモデルとする。しかしながら、本発明の範囲はそれに限られず、別の表現形式のソースモデルを入力してもよい。仮想撮影部1の詳細処理は後述する。RGBD画像の構成を図２に示す。RGBD画像は、1枚以上のカラー画像と、1枚以上のデプス画像から構成される。本発明の特徴的な要素として、RGBD画像は視点非依存RGBD画像と、視点依存RGB画像を含んで構成される。視点非依存RGBD画像は、さらに視点非依存カラー画像と、視点非依存デプス画像とから構成される。視点依存RGB画像は、既定のK個の視点それぞれに対応する視点依存カラー画像から構成される。視点kに対応する視点依存カラー画像を視点依存カラー画像kと呼称する。

　ビデオエンコーダ3は、RGBD画像に含まれる各画像を符号化して圧縮する。符号化には、例えばHEVC(High Efficiency Video Coding)方式を用いる。加えて、符号化された画像を構成要素として視点依存RGBDストリームを生成する。視点依存RGBDストリームは、前述の既定視点毎に生成され、視点kに対応するストリームを視点依存RGBDストリームkと呼称する。

　ストリーム蓄積部4は、視点依存RGBDストリームを保持する。また、要求に応じて、適切な視点依存RGBDストリームを出力する。

　以上説明した3Dモデル送信装置100によれば、入力ソースモデルから視点非依存RGBD画像と視点依存RGB画像の符号化データを含んで構成される視点依存RGBDストリームを生成し、ユーザの要求に応じて供給できる。

　ユーザが視点を選択可能な自由視点映像のアプリケーションでは対象が全周から観察されることが想定され、視聴方向によって観察される対象の部分領域は大きく異なる。そのため既定の複数の視点に対して視点依存RGB画像を準備することで、所望の視点およびその近傍視点における対象の情報に多くのデータを割り当てることができるため同一データ量での再生画像品質の改善が可能となる。一般に、ユーザ視点に応じて受信するストリームを切り替えて画像を選択する場合、ストリーム切り替えに要する遅延の影響により切り替え時の再生画質が低下する問題が生じる。本発明による方式では、視点非依存RGBD画像と視点依存RGB画像により視点依存RGBDストリームを構成しているため、切り替えのタイミングにおいても、視点非依存RGBD画像を用いることで一定の画質を維持できる。

　＜3Dモデル受信装置200の構成＞
　図１に基づいて本実施形態に係る3Dモデル受信装置200の構成を説明する。3Dモデル受信装置200は、ストリーム受信部5、ビデオデコーダ6、および、3Dモデル再生部2を含んで構成される。

　3Dモデル受信装置200は、時刻毎に入力されるユーザ視点に基づいて適切なRGBDストリームを選択して受信する。さらに、受信したRGBDストリームを再生して各時刻の3Dモデルを生成して再生モデルとして出力する。

　ストリーム受信部5は、入力されるユーザ視点に基づいて何れのRGBDストリームを受信するかを決定し、当該RGBDストリームを3Dモデル送信装置100に要求して受信する。受信したRGBDストリームはビデオデコーダ6に出力する。ここで、RGBDストリームの選択は、概略的には、ユーザ視点に近い既定視点に対応するRGBDストリームを選択する。

　ビデオデコーダ6は、入力されるRGBDストリームを復号して結果として得られるRGBD画像を3Dモデル再生部2に出力する。視点依存RGBDストリームkが入力された場合、ビデオデコーダ6はストリームから視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像kの符号化データを抽出する。各符号化データに、前述の3Dモデル送信装置100内のビデオエンコーダ3で圧縮に用いた方式に対応する復号処理を適用して視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像kを生成し、それらの画像を含んで構成されるRGBD画像を出力する。

　3Dモデル再生部2は、入力されるRGBD画像に基づいて3Dモデルを生成して出力する。3Dモデル再生部2の詳細処理は後述する。

　以上説明した3Dモデル受信装置200によれば、視点非依存RGBD画像と視点依存RGB画像の符号化データを含んで構成される視点依存RGBDストリームをユーザ視点に応じて選択して受信し、受信したRGBDストリームを再生して3Dモデルを再生できる。

　視点依存RGB画像には、関連付けられた視点近傍から観察した場合に品質の高い3Dモデルを再生できる。3Dモデル受信装置200によれば、ユーザ視点に近い視点に対応するRGBDストリームを選択的に受信して3Dモデルを再生することで、全て視点非依存の情報として送る場合に比べて少ないデータを受信して品質の高い3Dモデルを再生できる。受信および処理データ量が低減することで、3Dモデル再生の処理速度を向上し、かつ、消費電力を低減できる。

　＜仮想撮影部1の詳細＞
　仮想撮影部1は、入力のソースモデルに基づき、RGBD画像を生成して出力する。図２を参照して説明した通り、RGBD画像は視点非依存カラー画像、視点非依存デプス画像、および、既定視点毎に作成される複数枚の視点依存カラー画像から構成される。加えて、仮想撮影部1は、RGBD画像の画像構成情報とカメラ情報を含むメタデータを出力する。

　図３は、本実施形態に係る仮想撮影部1の機能ブロック図である。図３に示す通り、仮想撮影部1は、画像撮影部11、3Dモデル再生部12、エラー領域検出部13、および、カメラ情報設定部14を備えている。

　概略的に言えば、仮想撮影部1は、ソースモデルを撮影するための仮想カメラのセットを順次設定し、設定した仮想カメラで撮影したRGBDデータから再生される3Dモデルをフィードバックして評価することで次に追加する仮想カメラを決定する手順で最終的なRGBDデータを生成する。

　＜既定視点の定義＞
　視点依存カラー画像の決定に利用される既定視点のセットは任意に指定できるが、少なくとも1個以上の既定視点を設定する必要がある。例として対象の周囲に4個の既定視点を設置する場合の対象と既定視点の関係を図６に示す。4個の既定視点vp1、vp2、vp3、vp4は、対象（図中のTarget）を中心とする円周上に均等な間隔で配置され、対象の方を向いている。なお、図では表せていないが、視点は3次元空間中に配置されており、高さ方向（図示された平面と垂直な方向）の値も持つ。例えば高さ方向の成分には一般的な目の高さを設定する。図中のarea1～area4は、それぞれ対応する既定視点のカバー空間を表す。既定視点のカバー空間とは、近傍の視点が既定視点となる空間を表す。例えば、既定視点vp1に対してカバー空間area1が定義される。

　＜RGBD画像の構成＞
　本実施形態の仮想撮影部1で生成される視点非依存カラー画像および視点非依存デプス画像はそれぞれの画像を分割したサブ画像により構成される。各サブ画像は、概略的には、特定の位置に置かれた単一のカメラからソースモデルを撮影して得られる画像に相当する。すなわち、デプス画像のサブ画像（デプスサブ画像）は、単一のカメラからソースモデルが表現する対象を観察した際のデプスを画像形式で記録した情報である。例えば、当該情報をグレースケール画像の輝度値で表した画像の部分領域に格納できる。同様にカラー画像のサブ画像（カラーサブ画像）は、カラー画像の部分領域に格納できる。なお、本発明におけるカメラとして、仮想カメラを想定しているが、少なくともサブ画像の一部を実在するカメラで撮影しても構わない。

　各画像のサブ画像への分割について図７を参照して説明する。視点非依存カラー画像の分割例を図７(a)に示す。視点依存カラー画像VPICは、VPIC_A1～A3、VPIC_B1～24、VPIC_C1～C12の計39枚のカラーサブ画像から構成される。ここで、カラーサブ画像は3個のグループ、すなわちVPIC_A1～A3を含む「VPIC_A」、VPIC_B1～B24を含む「VPIC_B」VPIC_C1～C12を含む「VPIC_C」に分類されている。定性的には、グループ「VPIC_A」のカラーサブ画像は対象全体をカバーする基礎的なカラー情報を提供する。グループ「VPIC_B」のカラーサブ画像はグループ「VPIC_A」で不足したカラー情報を提供する。グループ「VPIC_C」はグループ「VPIC_A」と「VPIC_B」のいずれでも不十分なカラー情報を提供する。

　なお、図示したように、グループ「VPIC_A」に属するカラーサブ画像の解像度として、他のグループ（「VPIC_B」および「VPIC_C」）に属するカラーサブ画像の解像度に比べて高い解像度を設定することが好ましい。基礎的なカラー情報を提供するグループに対してより多くの画素を利用してより多くの情報を割り当てることができるため再生3Dモデルの品質が向上する。

　また、グループ「VPIC_B」に属するカラーサブ画像の個数は、グループ「VPIC_C」に属するカラーサブ画像の個数よりも多くすることが好ましい。グループ「VPIC_C」ではグループ「VPIC_B」で補いきれなかった対象のカラー情報を追加する。そのため、個々のカラーサブ画像が補えるカラー情報の期待値は先に適用されるグループ「VPIC_B」の方が「VPIC_C」に比べて多くなる。そのため、グループ「VPIC_B」に対してより多くの情報を割り当てる、すなわちカラーサブ画像の個数を多くすることで、再生3Dモデルの品質が向上する。

　視点非依存デプス画像の分割例を図７(b)に示す。視点依存デプス画像VPIDは、VPID_A1～A3、VPID_B1～24、VPID_C1～C12の計39枚のカラーサブ画像から構成される。ここで、デプスサブ画像は3個のグループ、すなわちVPID_A1～A3を含む「VPID_A」、VPID_B1～B24を含む「VPID_B」VPID_C1～C12を含む「VPID_C」に分類されている。定性的には、グループ「VPID_A」のデプスサブ画像は対象全体をカバーする基礎的な形状情報を提供する。グループ「VPID_B」のデプスサブ画像はグループ「VPID_A」で不足した形状情報を提供する。グループ「VPID_C」はグループ「VPID_A」と「VPID_B」のいずれでも不十分な形状情報を提供する。

　なお、視点非依存カラー画像と、視点非依存デプス画像とで共通の分割を用いることが好ましい。各画像におけるサブ画像の位置やサイズ、および、サブ画像に関連付けられたカメラパラメータを伝送する情報に含めることが必要であるが、共通の分割を用いることでそのような情報のデータ量を低減できる。

　上記で説明したグループとは異なるサブ画像グループの分類方法として、視点依存画像に含まれるサブ画像のグループと、視点非依存画像に含まれるサブ画像のグループが定義できる。

　視点依存カラー画像および視点依存デプス画像のサブ画像への分割は必ずしも上記の通りでなくてもよいが、視点非依存で対象の情報を表現するために、少なくとも２以上のサブ画像を含んで構成される必要がある。

　また、上記の例で説明したように、視点非依存カラー画像または視点非依存デプス画像を構成するサブ画像を２以上のグループに分類し、一つのグループはより高い解像度のサブ画像を含み、別の少なくとも一つのグループはより低い解像度のサブ画像を含むよう構成することが好ましい。

　なお、上記の例では視点非依存カラー画像と視点非依存デプス画像はそれぞれ１枚の例を示したが、複数枚の画像により構成してもよい。しかしながら、一般的なシステムにおいては、視点非依存カラー画像と視点非依存デプス画像をそれぞれ１枚ずつとする方が好ましい。一般的なビデオデコーダは同時に復号する画像の枚数が制限されているため、少数の画像として処理する方が再生時の負荷が低下する。

　視点依存カラー画像の分割例を図７(c)に示す。既定視点kに対応する視点依存カラー画像(図中のVPDC）は単一のカラーサブ画像VPDC_Akから構成される。視点依存カラー画像の解像度として、視点非依存カラー画像を構成するいずれのカラーサブ画像の解像度よりも高い解像度を設定することが好ましい。視点依存カラー画像は、関連付けられた既定視点付近から観察した対象の情報を、視点非依存カラー画像の情報に加えて補う役割がある。したがって、視点非依存カラー画像に比べて高い密度で対象のカラー情報をサンプリングして画像を構成することで再生3Dモデルの品質が向上する。

　なお、視点依存カラー画像を構成するカラーサブ画像の個数は必ずしも1個でなくてもよく、2個以上のカラーサブ画像から構成してもよい。しかしながら、視点依存カラー画像を構成するカラーサブ画像の枚数は、視点非依存カラー画像を構成するカラーサブ画像の枚数よりも少ないことが好ましい。視点非依存の情報に関しては、対象を複数の視点から観察した情報がより重要であり、したがって一定以上の個数のサブ画像を利用する必要がある。一方、視点依存の情報に関しては、対象を既定視点付近から観察した情報を伝えればよく、対象を多様な方向から観察する重要性が低下する。そのため、サブ画像への分割数を相対的に少なくすることで、一つのサブ画像辺りの解像度を高めることができ、再生3Dモデルの品質が向上する。

　＜メタデータの構成＞
　メタデータには画像構成情報が含まれる。画像構成情報は、視点非依存カラー画像、視点非依存デプス画像、視点依存カラー画像それぞれに含まれるサブ画像の個数と、各サブ画像の位置・サイズ情報を含む。例えば、サブ画像の位置・サイズ情報は、サブ画像の画像上の位置を表す座標とサブ画像の高さと幅により構成される。

　メタデータにはカメラ情報が含まれる。カメラ情報は、視点非依存カラー画像と視点非依存デプス画像に含まれる各サブ画像に関連付けられた仮想カメラのカメラパラメータを含む。ここでのカメラパラメータは、三次元空間におけるカメラの位置と方向を表す外部カメラパラメータと、カメラ座標系での空間上の点の位置と画像上の座標との対応関係を表す内部カメラパラメータを含む。内部カメラパラメータは、例えば、撮影画像の幅と高さ、焦点距離、および、撮影画像上の光軸位置との組み合わせにより表現される。

　加えて、メタデータにはデプスレンジ変換情報を含んでいてもよい。デプスレンジ変換情報は、デプス画像の画素値と、実際のデプス値との関係を示す情報である。例えばデプスサブ画像毎に付与されるデプスレンジ変換情報として、デプスサブ画像のデプスオフセットを利用できる。実際のデプス値からデプスオフセットを引いた値をデプスサブ画像の画素値に設定することで、限られた画素値の値域でもより広い範囲のデプスが表現できる。なお、デプスオフセットには、サブ画像の各画素に対応するデプスの最小値よりも小さい値を設定しておく必要がある。

　＜画面撮影部11＞
　画像撮影部11は、入力されるソースモデルおよびカメラ情報に基づき、RGBD画像を生成して出力する。

　まず、視点非依存カラー画像を作成する。カメラ情報から、視点非依存カラー画像撮影のための仮想カメラの個数および各仮想カメラのカメラパラメータを読みだす。仮想カメラ毎にカメラパラメータを用いた投影により対象を仮想的に撮影し、結果を視点非依存カラー画像上の空き領域に記録する。仮想カメラ毎のカメラパラメータおよび撮影結果の記録位置はメタデータに追加される。

　次に、視点非依存デプス画像を作成する。詳細については視点非依存カラー画像の場合と同様であるため省略する。なお、視点非依存カラー画像と視点非依存デプス画像で共通の仮想カメラセットを撮影に用いる場合、一方のカメラパラメータおよび撮影結果の記録位置のメタデータへの追加を省略してもよい。

　次に、視点依存カラー画像を作成する。カメラ情報から視点依存カラー画像用のカメラパラメータを読みだす。K個の既定視点に含まれる各既定視点について、読みだしたカメラパラメータでソースモデルを撮影して視点依存カラー画像とする。カメラパラメータをメタデータに追加する。

　以上の手順により、画像撮影部11は、視点非依存カラー画像、視点非依存デプス画像、および、K枚の視点依存カラー画像から構成されるRGBD画像を生成して出力する。合わせて、各サブ画像の撮影に用いたカメラパラメータと、撮影結果の画像上の位置・サイズ情報を含むメタデータを生成して出力する。

　＜3Dモデル再生部12＞
　3Dモデル再生部12は、入力されるRGBD画像に基づき再生3Dモデル（再生モデル）を生成する。ここで、再生モデルとは、RGBD画像に基づき再現される3Dモデルである。再生モデルは例えば頂点、メッシュ、テクスチャにより表現される3Dモデルである。

　3Dモデル再生部12は、入力されるRGBD画像に含まれる視点非依存デプス画像を、同じく入力されるカメラ情報を利用して統合して3Dモデルの形状を表すメッシュを生成する。メッシュにテクスチャマッピング処理によりカラー情報を付与した上で再生モデルを生成して出力する。

　3Dモデル再生部12の詳細な構成を図４に示す。3Dモデル再生部12は、デプス統合部121、メッシュ生成部122、および、テクスチャ設定部123を備える。以下の3Dモデル再生部12の説明では、視点非依存デプス画像に含まれるデプスサブ画像を単にデプス画像とも呼ぶ。

　＜デプス統合部121＞
　デプス統合部121では、入力されたRGBD画像に基づきデプス画像統合処理（デプス統合）を実行して生成されたボリュームデータを出力する。ボリュームデータとは、3D空間をボクセルに分割し、ボクセル毎にデータを格納する場合のデータ全体を表す。ボクセルは3D空間をグリッド状に分割して得られる矩形領域である。3D空間に存在するボクセルの集合をボクセル空間と呼称する。

　デプス統合処理では、デプス画像およびカメラパラメータに基づき、ボクセル毎のボクセルデータを計算する。ボクセルデータにはTSDF（Truncated Signed Distance Function）値およびウェイト値を含む。初期状態では、ボクセルの持つTSDF値及びウェイト値はいずれも0に設定する。TSDF値は、ボクセルから3Dモデルの面までの符号付き距離を表す。TSDF値の絶対値が小さい程、面に近いことを意味する。TSDF値は、例えば、正のTSDF値は面よりもカメラ側にボクセルが位置することを意味する。負のTSDF値は、面よりも奥にボクセルが位置することを意味する。また、ウェイト値は、対応するTSDF値の信頼度を表す数値であり、最小値は0である。

　上述したボクセルのTSDF値及びウェイト値を、デプス画像と、該デプス画像に対応したカメラパラメータに基づき、計算する。具体的には、カメラパラメータに含まれる、カメラの位置及び向きに配置されたカメラと、対応するデプス画像の、各画素を通る光線上にあるボクセルについて、TSDF値及びウェイト値を計算する。ただし、光線上の全てのボクセルについて両値を計算する必要は無く、カメラから見て、光線上にある3Dモデルの面（対応する画素のデプス値）までの間に存在するボクセルと、同面から奥にある任意の数のボクセルについて、両値を計算すれば良い。

　ボクセルのTSDF値は、ボクセルの位置から、光線上にある3Dモデルの面（対応する画素のデプス値）までの距離である。またウェイト値は、例えば、光線上にあるデプス画像の画素の法線と、該光線の内積である。ここでは、ウェイト値は0及び正の値のみを考える。なお、ボクセルが0でないTSDF値及びウェイト値を保持している場合は、既存のTSDF値と、新たなTSDF値について、対応するウェイトが重みである重み付き平均を計算し、該平均値を、新たなTSDF値として該ボクセルのTSDF値に上書きする。また、ウェイト値は、既存のウェイト値と新たなウェイト値を合計した数値を新たなウェイト値として、該ボクセルのウェイト値に上書きする。以上の計算を、全てのデプス画像の、全ての画素について順に行う。本発明においては、視点非依存RGBD画像に含まれる、全てのデプスサブ画像の、全ての画素について計算する。

　　（TSDF統合の別の例１）
　なお、上記の説明では、カメラの光線上にあるボクセルを対象としてTSDF値及びウェイト値を計算すると説明しているが、各値を計算する対象とするボクセルを別の方法で選んでも良い。例えば、デプス画像の各画素に記録されたデプスサンプルについて、デプスサンプルの法線方向にあるボクセルを対象としてもよい。デプスサンプルの法線は、デプス画像の画素毎に近傍画素のデプスサンプルから推定される面に垂直な方向を法線として利用できる。統合では、デプスサンプルの法線上にあり、該画素から所定の閾値以内の距離にあるボクセルについて、TSDF値及びウェイト値を計算する。上述の構成により、少ない枚数のデプス画像を統合する場合であっても、再生モデルにおけるホール領域の発生を抑制する効果を得られる。

　　（TSDF統合の別の例２）
　なお、デプスサンプルの法線を利用した別の方法によりデプス統合することもできる。デプス画像を構成する各画素に記録されたデプスサンプルに対して以下の処理を実行する。

　（１）まず、デプスサンプル毎に処理対象ボクセル群を決定する。処理対象ボクセル群は、デプスサンプルが含まれるボクセルを中心として所定の範囲内のボクセルを含んで構成する。例えば、デプスサンプルを含むボクセルを中心とする一辺3ボクセルの立方体に含まれるボクセルを処理対象ボクセル群とする。

　（２）処理対象ボクセル群に含まれる各ボクセルを対象ボクセルに設定し、対象ボクセル毎にTSDF値およびウェイト値を更新する。

　（３）対象ボクセルの中心とデプスサンプルの距離を更新TSDF値とする。デプスサンプルに対応するカメラ光線とデプスサンプル法線の角度に基づく法線ウェイトを計算する。法線ウェイトは光線と法線の角度が大きいほど小さい値を設定する。対象ボクセル中心とデプスサンプル上を通過する法線と平行な直線の距離に基づき距離ウェイトを設定する。前記距離が長いほど小さい値のウェイトを設定する。新ウェイト値を前記法線ウェイトと距離ウェイトに基づき導出する。例えば、0から1の範囲に正規化した法線ウェイトと距離ウェイトの積を新ウェイト値とする。

　（４）新TSDF値と新ウェイト値を用いて、対象ボクセルのTSDF値とウェイト値を更新する。更新には、前述のTSDF統合例で説明した方法が利用できる。

　上記の手順によれば、デプスサンプルが含まれるボクセルだけではなく近傍のボクセルのTSDF値も更新している。そのため、より少ないデプスサンプルから広い空間範囲のTSDF値を更新できるためホールの少ないボリュームデータが生成できる。一般にデプスサンプルからカメラ光軸と垂直な方向に離れるほどデプスの信頼性は低下する。上記手順によれば、距離ウェイトを用いることで信頼性の低い位置のボクセルに対するデプスサンプルの影響を抑制できるため再生モデルの品質を高めることができる。

　　（TSDF統合の並列実行を可能とする例）
　なお、上述のデプス画像統合処理では、デプス画素の統合毎にTSDF値をウェイトに基づく平均値により計算していた。しかし、この計算手順によると、複数のデプス画素を用いて同一ボクセルのTSDFを更新する場合にデプスの統合順序によって結果が変化するという問題が生じる。そのため、ウェイトを乗じたTSDF値を加算するバッファB1と、ウェイトを加算するバッファB2を設け、全てのデプス画素の処理が完了した後にバッファB1の値をバッファB2の値で除算することでTSDF値を導出してもよい。このような手順で統合することで、最終的なTSDF値がデプス画素の処理順序に依存することなく計算できるため、並列計算が実行可能な環境下で高速にTSDF値が計算できる。なお、TSDFの精度とウェイトの精度によってはバッファB1の値域が問題となる場合がある。そのような場合には、バッファB1において、量子化したウェイトとTSDF値の積を加算するような構成にすることで桁あふれによるオーバフローを避けることができる。

　なお、上述のデプス画像統合処理では、デプス画像に含まれる全画素を対象として、TSDF値及びウェイト値を計算すると説明したが、デプス画像中の背景部に該当する画素を、計算から除外しても良い。そのような構成により、再生モデルの生成に寄与しない計算を省略できるため処理速度を向上する効果を得られる。

　また、デプス画像に映された物体の輪郭付近の画素を、統合の対象から除外しても良い。上述した物体の輪郭とは、例えば、デプス画像内の前景部と背景部の境界部分にある画素を指す。例えば、デプス画像中の画素であり、隣接する画素が持つデプス値との差が任意の値よりも大きい画素を境界画素に設定できる。デプス画像は一般的には符号化されて蓄積または伝送される。その際、物体輪郭近辺のデプス値は、符号化による歪が生じやすい。そのため、輪郭近辺のデプスを統合することで再生モデルに悪影響を及ぼす可能性がある。例えば、再生モデルが歪み、品質が低下する。そこで、統合の際に輪郭近辺のデプスを統合から除外することが好ましい。

　なお、デプス画像毎に、異なる範囲のボクセルについて、デプス統合計算を行っても構わない。具体的には、前述のようなデプス画像の優先度を判定した上で、優先度の高いデプス画像の統合時に、より広い範囲のボクセルについてTSDF値及びウェイト値を計算する。例えば、優先度の高いデプス画像については、デプスの画素に対応する面を中心とする一辺３ボクセルの立方体に含まれるボクセルのTSDF値及びウェイト値を計算し、優先度の低いデプス画像についてはデプスの画素に対応する面を含むボクセルのみTSDF値及びウェイト値を計算する。上述の構成により、後者のデプス画像をデプス統合する際に、該デプス画像が、ホール領域の周辺に及ぼす影響を抑えられるため、該デプス画像を統合することで再生モデルに発生するノイズを抑制する効果を得られる。

　＜メッシュ生成部122＞
　メッシュ生成部122では、入力されるボリュームデータに含まれるTSDF値とウェイト値を参照してMarching Cubes方を適用して3Dモデルのメッシュを導出する。メッシュ導出処理において、記録されたウェイトが0であるボクセルの計算をスキップすることが好ましい。それにより処理時間が低減できる。

　　（TSDFフィルタ）
　なお、Marching Cubes法により3Dモデルを生成する処理の前に、ボクセル空間にフィルタを適用しても良い。例えば、TSDF値の補間を行うフィルタを適用できる。具体的には、負のTSDF値及び非0のウェイトを保持しているボクセルと隣接し、保持しているTSDF値及びウェイト値が0であるボクセルに、0でない負のTSDF値及びウェイト値を与えるフィルタである。該ボクセルに与えられるTSDF値は、例えば、隣接する、負のTSDF値及び0でないウェイトを保持しているボクセルのTSDF値の平均値であっても良い。また、ウェイト値は、0ではない最低の値に設定される。言い替えると、Marching Cubes法において計算がスキップされないウェイトであって、与えられうるウェイト値の0でない最低値である。上述の構成により、再生モデルに発生するホール領域を埋めることができ、再生モデルの精度を高める効果を得られる。
　また例えば、上述のフィルタをかけた後でかけられるフィルタであって、上述のフィルタによりTSDF値及びウェイトが与えられたボクセルと隣接し、正のTSDF値及び0でないウェイトを保持しているボクセルと隣接し、保持しているTSDF値及びウェイト値が0であるボクセルに、0でない正のTSDF値及びウェイト値を与えるフィルタである。該ボクセルに与えられるTSDF値は、例えば、隣接する、正のTSDF値及び0でないウェイトを保持しているボクセルのTSDF値の平均値であっても良い。また例えば、上述のフィルタによりTSDF値及びウェイトが与えられたボクセルのTSDF値の、符号を入れ変えた値であっても良い。また、ウェイト値は、0ではない最低の値に設定される。

　上述の構成により、デプス情報を統合することで計算されるボクセル空間を補間することができる。これにより、ホール領域に相当するボクセルであって、正のTSDFを持つボクセルと隣接しており、かつウェイトが0のボクセルに対し、負のTSDF値を与えることができる。即ち、再生モデルに発生するホール領域をさらに埋めることができ、再生モデルの品質を高める効果を得られる。

　上述の２種のフィルタは、TSDF値の符号を入れ変えたフィルタであっても構わない。

　また例えば、任意の値よりも小さいウェイト値を持つボクセルについて、TSDF値及びウェイト値を0に置き換えるフィルタを使用してもよい。上述の構成により、信頼度の低いTSDF値を取り除くことで、再生モデルに発生するノイズを抑制することができ、再生モデルの品質を高める効果を得られる。

　＜テクスチャ設定部123＞
　テクスチャ設定部123では、テクスチャマッピング処理を実行する。テクスチャマッピング処理は、概略的には、メッシュ構造の構成要素である三角形の各頂点に対して対応するRGBD画像に含まれるカラー画像（視点非依存カラー画像または視点依存カラー画像）上の画素位置を決定する処理である。そのような画素位置をテクスチャ情報と呼称する。以下では、視点非依存カラー画像のカラーサブ画像、および、視点依存カラー画像のカラーサブ画像を総称して単にカラーサブ画像と呼称する。各カラーサブ画像には対応するカメラパラメータがRGBD画像に伴うメタデータに含まれている。

　テクスチャマッピング処理では、三角形の各頂点を各カラーサブ画像に投影することで、各頂点に対応する各カラーサブ画像上の画素位置（UV座標)を導出する。

　次に、いずれのカラーサブ画像上のUV座標を利用するかを決定する。具体的には、メッシュ構造を構成する三角形が投影されたカラーサブ画像上の三角形の面積が最も広いカラーサブ画像を選択する。

　なお、オクルージョン判定を実行し、三角形が特定のカラーサブ画像に映されていないと判定された場合には計算を省略して当該カラーサブ画像を候補から除外してもよい。これにより誤投影による品質劣化を避け、かつ、処理量を削減できる。

　上記手順によりカラーサブ画像およびUV座標を決定することで、メッシュを構成する三角形に対し、当該三角形を最も多い画素数で撮影したカラーサブ画像の部分領域をマッピングできる。したがって、三角形に解像度の高い、すなわち、詳細なカラーを対応付けて再生できる。

　また、本発明においては、RGBD画像は視点非依存カラー画像と視点依存カラー画像を含んで構成されている。視点依存カラー画像は視点非依存カラー画像に較べて特定の範囲内の視点位置から観察した対象の情報を高解像度で含んでいる。そのため、視点依存カラー画像がカバーする視点範囲から観察される対象の表面については、上記の手順でカラーサブ画像を選択した場合に視点依存カラー画像上の領域が選択され高解像度のテクスチャが割り当てられる可能性が高い。したがって、視点非依存カラー画像と視点依存カラー画像を併用し、かつ、上記の手順によりテクスチャのUV座標を決定することで、再生モデルの品質を向上する効果が得られる。

　＜再生モデル生成処理の手順＞
　3Dモデル再生部12における再生モデル生成処理は以下の手順で実行される。まず、デプ統合部121は入力RGBD画像に含まれるデプス画像に基づきボリュームデータを生成してメッシュ生成部122に出力する。次に、メッシュ生成部122は、入力されたボリュームデータに基づいてメッシュを生成してテクスチャ設定部に出力する。最後に、テクスチャ設定部123は、入力RGBD画像に含まれるカラー画像と入力されたメッシュに基づいてテクスチャ情報を決定し、メッシュとテクスチャ情報を合わせて再生モデルとして出力する。

　以上の処理により、3Dモデル再生部はデプス画像から再生3Dモデルを生成する。

　　（デプス画像プリフィルタ）
　なお、3Dモデル再生部12に入力されたRGBD画像に含まれるデプス画像をそのまま使用せず、フィルタを適用したデプス画像を使用してもよい。例えば、バイラテラルフィルタに代表される平滑化フィルタを適用する。また、フィルタ処理ではなくデプス画像の一部領域のみを利用してもよい。例えば、ソースモデルが前景部分と背景部分から構成される場合、前景部分に相当するデプス画像の領域のみを用いてもよい。

　　（デプス画像毎の統合ウェイト）
　また、デプス情報に含まれるデプス画像毎に、異なるウェイト値の最大値を用いて、デプス統合計算を行っても構わない。具体的には、デプス画像の優先度を決定し、優先度の高いデプス画像により高いウェイト値を与えてもよい。デプス画像の優先度は、例えば、カメラの設定順が早いほど高い優先度を与えるよう設定できる。すなわち、設定順が早いカメラに対応するデプス画像を統合する際に用いたウェイト値よりも低いウェイト値を用いて、設定順が遅いカメラに対応するデプス画像を統合する。例えば、前者のデプス画像には1倍のウェイトを与え、後者のデプス画像には0.1倍のウェイトを使用する。また例えば、後者のデプス画像の統合には、0ではない最低値のウェイトを用いる。上述の構成により、設定順の早いカメラによるデプス画像に比べ、設定順の遅いカメラによるデプス画像は、デプス統合への影響が弱まるため、ホール領域以外の領域に与える影響が抑制される。これにより、再生モデルの精度の低下を防ぐ効果を得られる。

　また、同様に、解像度の高いデプスをより優先度の高いデプスとしてもよい。すなわち、解像度の高いデプス画像のウェイト値よりも、解像度の低いデプス画像のウェイト値を小さくしても良い。例えば、1280×960の解像度を持つデプス画像には1倍のウェイトを与え、640×480の解像度を持つデプス画像には0.25倍のウェイトを与え、デプス統合の計算を行う。上述の構成により、デプス統合において、デプスの精度を信頼できる高解像度のデプス画像の影響を強めることができるため、再生モデルの精度を向上させる効果を得られる。

　なお、カメラ情報に含まれるカメラパラメータに、カメラの優先度の情報が付随する場合、該優先度に基づいてRGBD画像を生成しても良い。具体的には、カメラの優先度の高いカメラから順に撮影することでサブ画像を生成してRGBD画像に追加する。RGBD画像を格納する画像の解像度には一般に制限が有るため、必ずしも全てのサブ画像をRGBD画像に追加できるわけではない。このため、カメラの優先度に基づいてデプス画像をデプス情報に追加することで、重要なサブ画像を先に追加する。これにより、重要なサブ画像が解像度の制約により追加できないケースを減らすることができる。

　＜エラー領域検出部13＞
　エラー領域検出部13は、入力されるソースモデルと再生モデルを比較することでエラー領域を検出して出力する。エラー領域には例えば再生モデルの一部がソースモデルに比べて欠損しているようなホール領域を含む。エラー領域は頂点もしくはメッシュにより表現される。

　前述のホール領域は、さらに詳しく言えば、3Dモデル中の特定の領域である。ソースモデルを例にとって説明すると、ソースモデルの該領域にホールが存在せず、該領域に対応する再生モデル中の領域にホールが存在する領域である。言い替えると、ソースモデルには存在しないはずのホールが、再生モデルの対応する箇所に発生してしまっている領域である。本発明の目的の一つは、上述した再生モデル中のホール領域を抑制するRGBD画像を決定することにある。以降の説明において、ホール領域を抑制もしくは取り除く処理を指して、ホールを埋める若しくはホールを補償する等とも示す。

　ホール領域を推定する方法は問わない。例えば、ソースモデル中のある頂点と、該頂点と最近傍である再生モデル中の頂点までの距離を計算し、距離が一定値以上であれば、ソースモデルの頂点はホール領域に相当する頂点だと判断しても良い。なお、この場合、実際にホールが存在している領域に限らず、参照モデルと再生モデルの間で形状の差が大きい領域もホール領域と判断される。上述の構成により、上述した形状の差が大きい領域に関しても、カメラパラメータの追加により修正する効果を得られる。

　また例えば、ソースモデル中のある頂点と、該頂点と最近傍である再生モデル中の頂点について、該再生モデル中の頂点が所属するメッシュの数が一定以下であれば、該参照モデルの頂点はホール領域に相当すると判断する方法であっても良い。TSDF値とウェイト値を用いて再生モデルのメッシュ構造を導出する際に、再生モデル内のホール領域と隣接しない頂点が所属するメッシュの数は、再生モデルが三角メッシュにより構成されている場合、通常は4から8の範囲に収まる。故に、例えば、再生モデル内のある頂点が所属するメッシュの数が3以下であれば、ホール領域に隣接した頂点だと判断できるため、該参照モデル中の頂点はホール領域に相当すると判断しても良い。上述の構成により、上述したような最近傍頂点同士の距離では検出できないようなホール領域であっても検出することができる効果を得られる。また、上記の方法によるホール検出は複雑な計算を要しないため、リアルタイムのホール検出が可能となる効果を得られる。

　また、エラー領域検出部13では、再生モデルの精度を追加で導出してもよい。再生モデルの精度とは、3Dモデル再生部１２において生成される再生モデルが、参照モデルに対しどの程度近しいのかを表す指標である。再生モデルの精度は、例えば、参照モデルの頂点と再生モデルの頂点について、最近傍の頂点間の距離の平均で計算される。また例えば、参照モデルから見た再生モデルのRMSE（Root Mean Square Error）値である。また例えば、任意のカメラパラメータを持つカメラで参照モデルを見た時のデプス画像と、再生モデルを見た時のデプス画像とで、PSNR等の画像間の誤差を計算し、該精度を、再生モデルの精度として扱っても良い。

　以上の処理により、ホール領域と判断された参照モデルの頂点若しくはメッシュを、参照モデルから抜き出すことで、エラー領域として抽出する。

　＜カメラ情報設定部14＞
　カメラ情報設定部14は、入力されるエラー領域情報を分析することで、追加すべき仮想カメラのカメラパラメータを決定してカメラ情報を生成して出力する。

　カメラ情報の設定方法として、初期カメラ設定方法と、追加カメラ設定方法の2種類の方法を用いる。初期カメラ設定方法は、特定時刻のソースモデルに対して初回の仮想カメラ設定時に使用される。2回目以降の仮想カメラ設定には追加カメラ設定方法が使用される。

　初期カメラ設定の時点では、カメラ情報は空であり、再生モデルが存在しないため手がかりとしてエラー領域が与えられていない。そのため、初期カメラ設定では、視点非依存カラー画像および視点非依存デプス画像を撮影するための仮想カメラの配置を、3D空間におけるソースモデルの配置を利用して決定する。具体的には、ソースモデルを包含するバウンディングボックスを配置し、バウンディングボックスを囲むようにカメラを配置して外部カメラパラメータを決定する。内部カメラパラメータは、ソースモデルの全体が仮想カメラで撮影されるサブ画像に含まれるような値に設定する。

　視点依存カラー画像の撮影に用いる仮想カメラは既定視点を仮想カメラ位置とし、ソースモデル全体が撮影画像に含まれるような内部カメラパラメータを設定する。

　追加カメラ設定時には、エラー領域情報を参照して視点非依存カラー画像および視点非依存デプス画像の撮影に用いる仮想カメラを決定する。追加仮想カメラを決定する手順として、具体的には、まず入力されたエラー領域情報に含まれるエラー領域をクラスタリングし、複数のクラスタに分解する。以降は、クラスタに分解されたエラー領域をサブモデルと呼ぶ。次に、個々のサブモデルについて、撮影に適したカメラパラメータを決定し、それらの追加仮想カメラのカメラパラメータとする。撮影に適したカメラパラメータは、例えば、サブモデルに含まれる頂点の法線と、カメラの光線で作られる偏角の内積が大きくなるような、カメラの位置、向き及び焦点距離を持つカメラパラメータである。また例えば、サブモデルの重心をカメラの光軸に捉えるような位置及び向きを持つカメラパラメータである。また例えば、サブモデルの全体を画面内に収めつつ、画面全体にサブモデルを写すような位置、向き及び焦点距離を持つカメラパラメータである。

　なお、一度に追加される仮想カメラのカメラパラメータの一部を共通化することが好ましい。具体的には、仮想カメラの解像度を共通の値に設定する。追加仮想カメラの個数は、エラー領域を既存のカメラと大きく重複せずにカバーする必要があるため、初期仮想カメラに比べて個数が多い。そのため、カメラパラメータを共通化することで、カメラ毎に別のカメラパラメータを送る必要がなくなるため、メタデータのデータ量を削減できる。加えて、仮想カメラの撮影画像はサブ画像として利用されるため、共通の解像度とすることで隙間なく画像を利用できる効果もある。特に、共通化する解像度は高さ64画素、幅64画素であることが好ましい。HEVCに代表される一般的なビデオ圧縮においては一辺64画素の正方形のブロックが処理単位として使用される。ブロック境界には歪が生じやすいため、仮想カメラの解像度をビデオ圧縮におけるブロックサイズと一致させることでサブ画像の歪が軽減される。そのため、再生モデルの品質が向上する。

　　（クラスタリングの例１）
　エラー領域のサブモデルへのクラスタリングには、例えば、適当な頂点を基準に、該頂点に近い頂点であり、かつ該頂点の法線と近い法線を持つ頂点を、該頂点と同じクラスタに振り分けるクラスタリング方法が適用できる。これにより、法線の向きが類似し、近い位置に集まっている頂点を、サブモデルとして抽出できる。

　　（クラスタリングの例２）
　クラスタリングに別の方法を用いてもよい。具体的には、エラー領域のクラスタリングは空間分布によるクラスタリングとフェイス法線によるクラスタリングの2段階で行う。まず、エラー領域を構成するフェイスを空間分布に基づき複数の空間クラスタに分類する。クラスタの分類は3D空間内で近傍に位置するフェイスを集めることで実行される。例えば、空間をグリッド状のボクセルに分割し、内部にフェイスが存在する隣接ボクセルを結合して得られるボクセル群に含まれるフェイス群を一つの空間クラスタとする。

　フェイス法線に基づくクラスタリングでは、同一の空間クラスタに含まれるフェイスの法線分布を調べ、分布中央付近の類似法線を持つフェイス群を一つの法線クラスタとする。さらに、空間クラスタに属するフェイスのうち、前記法線クラスタに含まれないフェイスに対して同様の方法を繰り返して別の法線クラスタを抽出する。空間クラスタには複数の方向の面が含まれる場合があり、そのような場合に追加で導出した法線クラスタは有効である。以上の手順により抽出された法線クラスタは、空間的に近い位置にあり、かつ類似方向の法線を持つフェイスを含んでいる。そのため、一つの仮想カメラにより撮影できる。

　なお、クラスタリングにより得られたクラスタのフェイス数が少ない場合には、同クラスタを仮想カメラ設定の対象から除外しても構わない。クラスタのフェイス数が少ない場合には、エラーと判定されたフェイスが少ないことを意味する。したがって、そのようなクラスタを撮影しても改善幅が小さいことが多いため撮影されるサブ画像の増加に伴う伝送データ量に見合わない確率が高い。したがって、そのようなクラスタへの仮想カメラ設定を省略することで、伝送データ量を低減できる。

　　（追加仮想カメラの解像度）
　なお、追加カメラ設定時に撮影に使われる仮想カメラの解像度は、初期カメラ設定時に使われる仮想カメラの解像度に比べ、低い解像度であることが好ましい。初期カメラとして使用される仮想カメラにより撮影されるデプス画像は、再生モデルの詳細を保つために十分な解像度が必要となる。一方、追加カメラ設定処理で追加される仮想カメラにより撮影されるデプス画像は、エラー領域を修正することを目的とするため、詳細の情報を保持する必要性が小さい。そのため、初期カメラ設定時に比較して低い解像度としても再生モデルの品質への影響が小さい。上述の構成により、追加カメラ設定処理で追加される仮想カメラの解像度を減らすことで、デプス情報全体のデータ量を減らすことができ、送信データ量を抑制できる。

　　（直前フレームのカメラ情報を利用）
　なお、ソースモデルが時間的に連続した対象を表す時刻毎のフレーム毎に表現される場合、初期カメラ設定は前に処理したフレームにおけるカメラ情報を参照して決定しても良い。具体的には、前フレームにおいて使用されたカメラ情報を設定しても良い。そのような構成により、フレーム毎に生成されるRGBD画像を構成する各サブ画像を撮影する仮想カメラ位置の時間変化を抑制できるため、時間相関を利用することでRGBD画像に含まれる画像の圧縮率が向上する。したがって、伝送データ量を抑制できる。

　また、前フレームのカメラ情報を利用する際、3Dモデル再生部12において生成される再生モデルの精度が一定以下である場合、カメラ情報を初期化して前フレームのカメラ情報に依存しない方法で仮想カメラを設定してもよい。この処理により、時間変化により参照モデルが大きく変化し、エラー領域が変化するような場合であっても、余計な仮想カメラの追加を抑制できる。

　　（重要領域に対する追加カメラの設定）
　なお、カメラパラメータを設定する際、参照モデル中の重要な領域を、多数のカメラ若しくは高い解像度のカメラで撮影するような構造であっても良い。上述した重要な部分とは、例えば、参照モデルに人間が含まれている場合、該人間の頭部若しくは顔である。また例えば、参照モデルに数値が含まれている場合、該数値が描かれた領域である。いずれの場合でも、重要な領域を検出する方法は問わない。この他、上記した重要な部分は、任意に設定されても良い。上述の構成により、3Dモデル受信装置200において、該重要な領域を精度良く再現できる効果を得られる。

　＜RGBD画像生成処理＞
　本実施形態に関わる仮想撮影部1におけるRGBD画像生成処理の手順を図５を参照して説明する。図５は、RGBD画像生成処理の流れを示すフローチャートである。

　（S100）カメラ情報設定部14は初期カメラセットを決定しカメラ設定情報として画像撮影部11に出力する。次にS101を実行する。

　（S101）画像撮影部11は、入力されたソースモデルとカメラ設定情報に基づき、RGBD画像および付随するメタデータを生成する。RGBD画像およびメタデータは3Dモデル再生部12に出力される。次にS102を実行する。

　（S102）3Dモデル再生部12は、入力されたRGBD画像に基づき、再生モデルを生成してエラー領域検出部13に出力する。次にS103を実行する。

　（S103）エラー領域検出部13は、入力された参照モデル及び再生モデルに基づき、エラー領域を検出してエラー検出情報としてカメラ情報設定部14に出力する。次にS104を実行する。

　（S104）カメラ情報設定部14は、入力されたエラー検出情報に基づき、カメラ情報を生成する。次にS105を実行する。

　（S105）ループ終了条件を満たすか否かを判定する。ループ終了条件を満たす場合、S106の処理に進む。ループ終了条件を満たさない場合、カメラ情報設定部14で生成されたカメラ情報が画像撮影部11に入力され、S101の処理に進む。

　（S106）S101で生成された最新のRGBDデータを外部に出力して処理を終了する。

　上述の、RGBD画像生成処理では、S101からS104の処理を繰り返す毎に、RGBD画像にデプスサブ画像が追加される。S103とS104の処理で生成されるカメラ情報は、デプス情報を統合することで生成される再生モデルに存在するエラー領域を観察するようなカメラパラメータであるため、追加デプス画像は、上述のエラー領域を改善するために有効な情報を含むデプス画像となる。従って、上述の処理手順によりデプス画像を順次追加してRGBD画像を生成することで、3Dモデル再生部12において、上述のエラー領域を改善した再生モデルを生成できる効果を得られる。言い替えると、より参照モデルに近い再生モデルを生成できる。

　なお、S104において、必ずしも全てのサブモデルについてカメラパラメータを生成する必要はなく、特定の条件を持つサブモデルについて、カメラパラメータを生成しなくとも良い。例えば、サブモデルに含まれるメッシュの面積の合計が、任意の値を下回ることである。言い替えると、対応するホール領域の面積が、任意の値を下回るサブモデルについては、カメラパラメータを生成しなくとも良い。上述の構成により、小さいホール領域を埋めるためにデプス画像が追加されることがなくなり、デプス情報全体のデータ量を減らすことができ、送信するトラフィック量を抑制することが可能となる。

　なお、S104において生成されるカメラパラメータには、カメラの優先度の情報が付与されても良い。上述のカメラの優先度とは、サブクラスタ毎に設定される情報であり、画像撮影部11において、デプス画像をRGBD画像に追加する順序を表すために用いられる。

　カメラの優先度を設定する方法とは、例えば、サブモデル毎にメッシュの面積の合計値を計算し、合計値の高い順に、優先度を設定する方法であっても良い。

　上記S105におけるループ終了条件とは、例えば、S101の実行回数が利用できる。S101の実行回数が既定の回数以上であればループ終了条件を満たしたと判定する。

　また例えば、S101において、デプスサブ画像がRGBD画像に追加出来なくなった場合、ループ終了条件を満たしたと判定しても良い。

　また例えば、S102において、生成された再生モデルの精度が任意の値を上回った場合、ループ終了条件を満たしたと判定しても良い。

　また例えば、S103において、検出されたホール領域の面積が任意の値を下回った場合、ループ終了条件を満たしたと判定しても良い。

　また例えば、S102において、生成された再生モデルの精度が、前のループで生成された再生モデルの精度を下回った場合、ループ終了条件を満たしたと判定しても良い。この場合、出力されるRGBD画像は、前のループで生成されたRGBD画像を用いることが好ましい。

　なお、S102からS104の処理において、途中でループ終了条件を満たした場合、S104が終了するまでの処理をスキップしても良い。

　＜変形例：テクスチャ設定部123a＞
　上記実施形態で説明したテクスチャ設定部123の代わりに異なる方法でテクスチャマッピング処理を実行するテクスチャ設定部123aを用いてもよい。図８は、テクスチャ設定部123aの構成を表すブロック図である。テクスチャ設定部123aは、RGBD画像分離部1231、視点非依存テクスチャ設定部1232、および、視点依存テクスチャ設定部1233を含んで構成される。テクスチャ設定部123aの入出力はテクスチャ設定部123の入出力と同様である。すなわち、RGBD画像とメッシュを入力としてテクスチャ付メッシュを出力する。

　RGBD画像分離部1231では、入力されるRGBD画像を視点依存カラー画像、視点非依存カラー画像、デプス画像に分離して出力する。

　視点非依存テクスチャ設定部1232では、入力されるメッシュと視点非依存カラー画像に基づいてテクスチャマッピングを行いテクスチャ付メッシュとして出力する。テクスチャマッピングでは、メッシュを構成するフェイスの頂点毎に対応する視点非依存カラー画像上の画素位置をUV座標として設定する。具体的な方法は、テクスチャ設定部123で説明した方法が適用できる。

　視点依存テクスチャ設定部1233では、入力されるテクスチャ付メッシュと視点依存カラー画像に基づいてテクスチャマッピングを行い、更新したテクスチャ付メッシュを出力する。具体的には、テクスチャ付メッシュを構成するフェイスの頂点毎に視点依存カラー画像上の画素位置をUV座標として設定する。頂点の対応する画素位置は、視点依存カラー画像に付随するカメラパラメータに基づく投影により計算できる。なお、頂点が視点依存カラー画像内に投影できない場合はUV座標の設定をスキップする。すなわち、視点依存カラー画像内に投影される頂点についてはその画素位置によりUV座標を上書きし、そうでない場合は、設定済のUV座標を維持する。

　テクスチャ設定部123aによるテクスチャマッピング処理は次の手順で実行される。まず、RGBD画像分離部1231は入力のRGBD画像を分離して視点非依存カラー画像を視点非依存テクスチャ設定部1232に、視点依存カラー画像を視点依存テクスチャ設定部1233にそれぞれ出力する。次に、視点非依存テクスチャ設定部1232は、入力のメッシュおよび視点非依存カラー画像に基づいてテクスチャ付メッシュを生成して視点依存テクスチャ設定部1233に出力する。最後に、視点依存テクスチャ設定部1233は、入力のテクスチャ付メッシュと視点依存カラー画像に基づいてテクスチャ付メッシュを更新して出力する。

　上記手順によると視点依存カラー画像を利用してテクスチャが設定できるフェイスについては、視点非依存カラー画像よりも視点依存カラー画像が優先して選択される。視点依存カラーは視点非依存カラーよりも高解像度の対象のカラー情報を含んでいるため、品質の高いテクスチャが設定されたテクスチャ付メッシュを生成して出力できるため、再生モデルの品質が向上する。

　　（依存・非依存テクスチャの境界フィルタ）
　視点依存テクスチャ設定部1233において、視点依存カラー画像がテクスチャとして適用されるフェイスと、視点非依存カラー画像がテクスチャとして適用されるフェイスの境界となるフェイス（境界フェイス）を検出し、当該境界フェイスのテクスチャを境界が目立ちにくくなるよう補正して利用してもよい。具体的な補正の方法としては、境界フェイスについては視点依存カラー画像上のフェイス投影領域のテクスチャと、入力のテクスチャ付メッシュで設定されていた視点非依存カラー画像上のフェイス投影領域のテクスチャをブレンドする方法が適用できる。なお、境界フェイスは、フェイスを構成する頂点の一部のみが画面外に投影されるフェイスとして検出できる。メッシュ上で、前記フェイスに隣接するフェイスを境界フェイスに含めてもよい。

　視点依存カラー画像と、視点非依存カラー画像は一般的に異なる画像として圧縮されるため、本来同じ色の表面でも量子化に伴う平均画素値のバイアスの違いにより異なる色となる場合がある。上記の境界フェイスの補正により、そのような色の違いにより境界フェイスが目立つことを緩和できる。

　＜変形例：テクスチャ設定部123b＞
　上記実施形態で説明したテクスチャ設定部123の代わりに異なる方法でテクスチャマッピング処理を実行するテクスチャ設定部123bを用いてもよい。図９は、テクスチャ設定部123bの構成を表すブロック図である。テクスチャ設定部123bは、RGBD画像分離部1231、カラータイプ判定部1234、テクスチャウェイト設定部1235、およびマルチテクスチャ設定部1236を含んで構成される。テクスチャ設定部123bの入出力はテクスチャ設定部123の入出力と同様である。すなわち、RGBD画像とメッシュを入力としてテクスチャ付メッシュを出力する。

　RGBD画像分離部1231は、テクスチャ設定部123aの同名の構成要素と同一である。なお、以下では、出力される視点非依存カラー画像と視点依存カラー画像を総称してカラー画像と呼ぶ。

　カラータイプ判定部1234は、入力されるカラー画像が視点非依存カラー画像か視点依存カラー画像かを判定し、判定結果をカラー画像に付与して出力する。

　テクスチャウェイト設定部1235は、入力されるメッシュ、カラー画像、および、カラータイプ判定結果に基づいてテクスチャウェイトを決定して出力する。テクスチャウェイトは、フェイスのテクスチャを複数のカラー画像上の領域をブレンディングすることで生成する場合に各領域の影響の割合を表す値である。例えば、フェイスを３種類のカメラパラメータでカラー画像上に投影することで3個の対応領域R1、R2、R3が得られる。各領域に対応するブレンディングウェイトをw1、w2、w3に設定した場合、当該フェイスのテクスチャは(w1×Tex_R1＋w3×Tex_R2＋w3×Tex_R3)÷Rsumにより導出される。ここでTex_R1、Tex_R2、Tex_R3はそれぞれ領域R1、R2、R3のカラーを表しRsumはw1、w2、w3の和に等しい。テクスチャウェイト設定部1235では、入力されるカラータイプの情報を参照し、カラー画像が視点依存カラー画像である場合に、カラー画像が視点非依存カラー画像である場合よりも大きいテクスチャウェイトが割り当てられるようテクスチャウェイトを決定する。例えば、視点依存カラー画像に対するテクスチャウェイトが視点非依存カラー画像に対するテクスチャウェイトの2倍となるよう設定する。または、カラータイプに依存せずに導出したウェイトを、視点依存カラー画像のみ所定の倍率で増加するよう設定することもできる。

　マルチテクスチャ設定部1236は、入力されるメッシュ、カラー画像、および、テクスチャウェイトに基づいてテクスチャ付メッシュを生成して出力する。生成されるテクスチャメッシュは、例えば、複数のカラー画像とメッシュのデータに加え、各頂点に対して複数のUV値およびテクスチャウェイトが属性値として設定されたデータとなる。別の例として、カラー画像とテクスチャウェイトに基づいてフェイス毎のテクスチャを一度合成した上で別のテクスチャ画像として生成し、テクスチャ画像とメッシュのデータに加え、頂点の属性値としてテクスチャ画像上の対応画素位置のUV座標を記録したデータをテクスチャ付メッシュとしてもよい。

　テクスチャ設定部123bによるテクスチャマッピング処理は次の手順で実行される。まず、RGBD画像分離部1231は入力のRGBD画像を分離してカラー画像をカラータイプ判定部1232、テクスチャウェイト判定部1235、および、マルチテクスチャ設定部1236に出力する。次に、カラータイプ判定部1234は、入力のカラー画像毎に視点依存か視点非依存かを示すカラータイプを判定してテクスチャウェイト設定部1235に出力する。次に、テクスチャウェイト設定部1235は、入力のメッシュ、カラー画像、および、カラータイプに基づいてテクスチャウェイトを決定してマルチテクスチャ設定部1236に出力する。最後に、マルチテクスチャ設定部は、入力のメッシュ、カラー画像、および、テクスチャウェイトに基づいてテクスチャ付メッシュを生成して出力する。

　上記手順によると視点依存カラー画像を優先するようテクスチャウェイトを設定できるため、視点非依存カラー画像よりも視点依存カラー画像の情報を優先してテクスチャが設定される。視点依存カラーは視点非依存カラーよりも高解像度の対象のカラー情報を含んでいるため、品質の高いテクスチャが設定されたテクスチャ付メッシュを生成して出力できるため、再生モデルの品質が向上する。

　　（視点切り替え時のテクスチャウェイトの調整）
　視点依存カラー画像はユーザ視点に応じて動的に切り替わる。したがって、特定のフェイスに対して特定の時刻tでは対応する視点依存カラー画像が存在せず、次の時刻t＋1では対応視点依存カラー画像が存在するような場合がある。一方、視点非依存カラー画像はユーザ視点に依らず常に参照できる。そのため、常に視点依存カラー画像に対応するテクスチャウェイトを大きい値に設定すると、上記のような切り替えの状況において、再生モデルのテクスチャが急に切り替わりユーザに不快感を与える。そのため、視点依存カラー画像が切り替わった時刻から所定の時間をかけて徐々にテクスチャウェイトを大きくなるようにテクスチャウェイトを設定することが好ましい。それにより前述の不快感を抑制できる。

　＜デプスのサブ画像グループを利用したTSDF統合処理負荷の調整＞
　TSDF統合処理の対象とするデプスサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質が調整可能となる効果を奏する。

　上記実施形態では図７(b)に示したようなグループ分けされたサブ画像から構成される視点非依存デプス画像を用いて3Dモデルを伝送するシステムを説明した。このサブ画像のグループを利用することで、3Dモデル再生におけるTSDF統合処理の処理量を調整することが可能になるという効果がある。以下、図７で説明したサブ画像のグループを例に挙げて説明するが、それ以外のグループ分けにも適用できる。例えば、画像内の位置により規定されるグループを利用できる。また、サブ画像のサイズや形状により規定されるグループを利用できる。

　図７(b)に示した視点依存デプス画像のサブ画像は「VPID_A」「VPID_B」「VPID_C」の3つのサブ画像グループに分類されている。前から順に3Dモデル再現のための重要度の高い情報を含むようグループが構成されている。再生時のTSDF統合処理において、通常は全てのグループのサブ画像を用いてボリュームデータを構成する。一方、「VPID_A」のグループに属するサブ画像のみを用いてボリュームデータを構成することもでき、その場合にはより少ない処理量で統合が可能となるかわりに再生モデルの品質は低下する。TSDF統合処理では各デプスサンプルの値を参照してTSDF値を更新することでボリュームデータを導出する。そのため、処理対象となるサブ画像の数が減ると処理量も減少する。「VPID_A」と「VPID_B」の２グループに属するサブ画像を用いた場合、処理量と再生モデルの品質は前述の２ケースの中間となる。VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。

　なお、上記のような制御を行うためには、サブ画像のグループを再生時に識別する必要がある。一つの方法はメタデータ等でいずれのサブ画像がいずれのグループに属するかの情報を記述する方法が挙げられる。別の方法では、各グループに属するサブ画像の数をあらかじめ共有しておき、既定の順序（例えば左上からラスタスキャン順）にサブ画像を画像上に配置する方法がある。この方法によればメタデータによるデータ量の増加を抑制できる。

　＜カラーのサブ画像グループを利用したテクスチャマッピング処理負荷の調整＞
　テクスチャマッピング処理の対象とするカラーサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。

　上記実施形態では図７(a)に示したようなグループ分けされたサブ画像から構成される視点非依存カラー画像を用いて3Dモデルを伝送するシステムを説明した。このサブ画像のグループを利用することで、3Dモデル再生におけるテクスチャマッピング処理の処理量を調整することが可能になるという効果がある。以下、図７で説明したサブ画像のグループを例に挙げて説明するが、それ以外のグループ分けにも適用できる。

　図７(a)に示した視点依存カラー画像のサブ画像は「VPIC_A」「VPIC_B」「VPIC_C」の3つのサブ画像グループに分類されている。前から順に3Dモデル再現のための重要度の高い情報を含むようグループが構成されている。再生時のテクスチャマッピング処理において、通常は全てのグループのサブ画像を用いてテクスチャを設定する。一方、「VPIC_A」のグループに属するサブ画像のみを用いてテクスチャを設定することもでき、その場合にはより少ない処理量でテクスチャが設定可能となるかわりに再生モデルの品質は低下する。テクスチャマッピングでは、フェイスのテクスチャとして使用するべきサブ画像を決定する処理が含まれている。そのため、対象となるサブ画像を減らすことで処理量が削減できる。「VPID_A」と「VPID_B」の２グループに属するサブ画像を用いた場合、処理量と再生モデルの品質は前述の２ケースの中間となる。VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。

　＜再生時に決定するサブ画像グループに応じたTSDF統合処理負荷の調整＞
　TSDF統合処理時のボクセル解像度をデプスサブ画像が属するグループに基づいて選択することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。

　上記の説明では図７に示したサブ画像のグループに応じてTSDF統合処理やテクスチャマッピング処理の処理量と再生品質を調整できることを説明した。別の観点で決定したサブ画像グループを用いて3Dモデル再生処理量と再生品質のトレードオフを実現することも可能である。例えば、ユーザ視点に基づき分類されたサブ画像のグループに基づいて、TSDFの統合解像度を調整することで前記トレードオフが実現できる。

　ユーザ視点に基づいた分類では、ユーザ視点への近さに基づきサブ画像を分類する。サブ画像毎にカメラパラメータが割り当てられているため、ユーザ視点の位置・方向とサブ画像に関連付けられたカメラの位置・方向を比較してサブ画像とユーザ視点の近さを評価する。この近さの評価結果に基づき、ユーザ視点に近いサブ画像のグループと、ユーザ視点から遠いサブ画像のグループとに分類する。

　TSDF統合においてはTSDF値を格納するボクセルの個数が増加するほど統合処理の処理量が増加し、統合される再生モデルの品質が向上する。したがって、個数が多いボクセル群（高解像度ボクセル群）と個数が少ないボクセル群（低解像度ボクセル群）を準備し、以下の方法で統合を行うことで再生処理量と再生モデル品質のトレードオフが実現できる。

　（Ａ）処理量小、品質低：両方のグループを低解像度ボクセル群に統合する
　（Ｂ）処理量中、品質中：ユーザ視点に近いグループを高解像度ボクセル群に統合し、ユーザ視点から遠いグループを低解像度ボクセル群に統合する
　（Ｃ）処理量大、品質高：両方のグループを高解像度ボクセル群に統合する。

　VRやARのアプリケーションでは実時間再生が重要であるため、通常の処理量では実時間再生ができないような状況でも、前記の処理量と品質のトレードオフを利用して実時間再生が可能となるためユーザの不快感が軽減する。

　＜サブ画像グループによる品質と再生処理量の調整＞
　3Dモデル再生処理をサブ画像が属するグループに基づいて実行することで、再生時に処理量と再生モデル品質の調整が可能となる効果を奏する。

　以上の説明において、いくつかのサブ画像グループの定義方法（視点非依存グループと視点依存グループ、メタデータにより規定されるグループ、画像内の位置により規定されえるグループ、サブ画像のサイズや形状により規定されるグループ、ユーザ視点位置との近さに応じたグループ）を示した。また、そのようなサブ画像のグループに基づいて、3Dモデル再生処理（TSDF統合処理、テクスチャマッピング処理）の処理量と再生モデル品質の調整が行えることを示した。例示したサブ画像グループの定義や3Dモデル再生処理の具体例だけではなく、他の同様の組み合わせも可能である。まとめると、次のように表現できる。本発明において実現される3Dモデル受信装置および3Dモデル再生装置では、サブ画像から構成されるカラー画像またはデプス画像を使用して3Dモデルを再生する。その際、サブ画像のグループに基づいて3Dモデル再生処理の処理量と再生モデル品質を調整できる。

　〔付記事項〕
　以上説明した実施形態では3Dモデル送信装置100と3Dモデル受信装置200の組み合わせにより3Dモデルの伝送を実現している。しかしながら、同様の機能ブロックを含んで構成される別の装置の組み合わせにより3Dモデルを伝送しても構わない。

　例えば、3Dモデル送信装置100の代わりに、仮想撮影部1を含む仮想撮影装置、ビデオエンコーダ3を含むビデオエンコード装置、および、ストリーム蓄積部4を含むストリーム蓄積装置の組み合わせにより同等の機能を実現することができる。

　同様に、3Dモデル受信装置200の代わりに、ストリーム受信部5を含むストリーム受信装置、ビデオデコーダ6を含むビデオデコード装置、および、3Dモデル再生部2を含む3Dモデル再生装置の組み合わせにより同等の機能を実現することができる。

　〔ソフトウェアによる実現例〕
　3Dモデル送信装置100及び3Dモデル受信装置200の制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、3Dモデル送信装置100及び3Dモデル受信装置200は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも１つのプロセッサ（制御装置）を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも１つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本発明の態様１に係る３Ｄモデル送信装置の構成は、ソースモデルを表現するＲＧＢＤ画像およびメタデータを生成する仮想撮影部と、前記ＲＧＢＤ画像に含まれる各画像を符号化してＲＧＢＤストリームを生成するビデオエンコーダと、前記ＲＧＢＤストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える3Dモデル送信装置であって、前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする構成である。

　上記の構成によれば、伝送データ量を抑えると共に、３Ｄモデル受信装置において再生モデルの品質を向上させられるＲＧＢＤストリームを生成して送信する３Ｄモデル送信装置を実現できる。

　本発明の態様2に係る３Ｄモデル送信装置の構成は、上記態様1において、前記ＲＧＢＤ画像は、Ｋ個の既定視点に関連付けられたＫ枚の視点依存カラー画像を含んで構成され、前記メタデータは、Ｋ個の既定視点の情報を含むことを特徴とする構成である。

　本発明の態様3に係る３Ｄモデル送信装置の構成は、上記態様2において、前記ビデオエンコーダは、前記既定視点毎に対応するＲＧＢＤストリームを生成し、前記既定視点毎のＲＧＢＤストリームは、視点非依存カラー画像、視点非依存デプス画像、および、特定の既定視点に対応する１枚の視点依存カラー画像をそれぞれ符号化したデータを含んで構成されることを特徴とする構成である。

　本発明の態様4に係る３Ｄモデル送信装置の構成は、上記態様1から態様3の何れかにおいて、前記視点非依存カラー画像は複数のカラーサブ画像から構成され、前記視点非依存デプス画像は複数のデプスサブ画像から構成されることを特徴とする構成である。

　本発明の態様5に係る３Ｄモデル送信装置の構成は、上記態様4において、前記視点非依存カラー画像の複数のカラーサブ画像と、前記視点非依存デプス画像の複数のデプスサブ画像とは、同数かつ同一形状であることを特徴とする構成である。

　本発明の態様6に係る３Ｄモデル送信装置の構成は、上記態様4から態様5の何れかにおいて、前記カラーサブ画像は少なくとも２以上のグループに分類されており、各グループに含まれるカラーサブ画像の解像度は同一であることを特徴とする構成である。

　本発明の態様7に係る３Ｄモデル送信装置の構成は、上記態様4から態様6の何れかにおいて、前記デプスサブ画像は少なくとも２以上のグループに分類されており、各グループに含まれるデプスサブ画像の解像度は同一であることを特徴とする構成である。

　本発明の態様8に係る３Ｄモデル送信装置の構成は、上記態様4から態様7の何れかにおいて、前記カラーサブ画像は少なくとも２以上のグループに分類されており、第一のグループに含まれるカラーサブ画像の解像度は、別の第二のグループに含まれるカラーサブ画像の解像度よりも高く設定されていることを特徴とする構成である。

　本発明の態様9に係る３Ｄモデル送信装置の構成は、上記態様4から態様8の何れかにおいて、前記カラーサブ画像は少なくとも２以上のグループに分類されており、第一のグループに含まれるカラーサブ画像の個数を、別の第二のグループに含まれるカラーサブ画像の個数よりも多くすることを特徴とする構成である。

　本発明の態様10に係る３Ｄモデル送信装置の構成は、上記態様4から態様9の何れかにおいて、前記視点依存カラー画像の解像度は、前記視点非依存カラー画像を構成する何れのカラーサブ画像の解像度よりも高いことを特徴とする構成である。

　本発明の態様11に係る３Ｄモデル送信装置の構成は、上記態様4から態様10の何れかにおいて、前記視点依存カラー画像を構成するカラーサブ画像の個数は、前記視点非依存カラー画像を構成するカラーサブ画像の個数よりも少ないことを特徴とする構成である。

　本発明の態様12に係る３Ｄモデル送信装置の構成は、上記態様1から態様11の何れかにおいて、前記仮想撮影部はソースモデルをカメラ情報に基づき撮影してＲＧＢＤ画像を生成する画像撮影部と、ＲＧＢＤ画像に基づき再生モデルを生成する３Ｄモデル再生部と、再生モデルとソースモデルに基づきエラー領域情報を導出するエラー領域検出部と、エラー領域情報に基づいてカメラ情報を導出するカメラ情報設定部を備え、前記３Ｄモデル再生部は、前記３Ｄモデル再生部はＲＧＢＤ画像からボリュームデータを生成するデプス統合部と、ボリュームデータからメッシュを生成するメッシュ生成部と、メッシュとＲＧＢＤ画像に基づきテクスチャ情報を設定して再生モデルを生成するテクスチャ設定部を備えることを特徴とする構成である。

　本発明の態様13に係る３Ｄモデル送信装置の構成は、上記態様12において、前記デプス統合部は、デプスサンプル毎に処理対象ボクセル群を決定し、当該処理対象ボクセル群に含まれるボクセル毎にデプスサンプルに対応する法線に基づいてＴＳＤＦ値およびウェイト値を更新することでデプスを統合することを特徴とする構成である。

　本発明の態様14に係る３Ｄモデル送信装置の構成は、上記態様12から態様13の何れかにおいて、前記デプス統合部は、ウェイトとＴＳＤＦ値の積を加算するバッファと、ウェイトの和を加算するバッファを備えることを特徴とする構成である。

　本発明の態様15に係る３Ｄモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、メッシュを構成する各三角形をＲＧＢＤ画像に含まれる各カラーサブ画像に投影し、投影された三角形のカラーサブ画像上での面積が最も広いカラーサブ画像を選択し、当該カラーサブ画像上の画素位置をテクスチャのＵＶ座標に設定することを特徴とする構成である。

　本発明の態様15aに係る３Ｄモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、視点非依存テクスチャ設定部と視点依存テクスチャ設定部を備え、視点非依存カラー画像を用いて生成したテクスチャ付メッシュを視点依存カラー画像に基づいて更新することでテクスチャ付メッシュを生成することを特徴とする構成である。

　本発明の態様15bに係る３Ｄモデル送信装置の構成は、上記態様12において、前記テクスチャ設定部は、カラータイプ判定部とテクスチャウェイト設定部とマルチテクスチャ設定部を備え、前記テクスチャウェイト設定部は、カラー画像が視点依存カラー画像である場合に、カラー画像が視点非依存カラー画像である場合に比べて大きいテクスチャウェイトを設定することを特徴とする構成である。

　本発明の態様16に係る３Ｄモデル送信装置の構成は、上記態様12において、前記カメラ情報設定部は、エラー領域をクラスタリングすることで導出したクラスタ毎に仮想カメラを決定することでカメラ情報を生成し、前記クラスタリングは、空間分布によるクラスタリングと、フェイス法線によるクラスタリングの２段階で実行されることを特徴とする構成である。

　本発明の態様17に係る３Ｄモデル受信装置の構成は、ユーザ視点に基づいてＲＧＢＤストリームを選択受信するストリーム受信と、前記ＲＧＢＤストリームを復号してＲＧＢＤ画像を導出するビデオデコーと、前記ＲＧＢＤ画像に基づいて再生モデルを生成して出力する３Ｄモデル再生を備えた３Ｄモデル受信装置であって、前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする構成である。

　上記の構成によれば、少ない伝送データ量で３Ｄモデル送信装置からＲＧＢＤストリームを受信し、品質の高い再生モデルを生成する３Ｄモデル受信装置を実現できる。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

Claims

　ソースモデルを表現するＲＧＢＤ画像およびメタデータを生成する仮想撮影部と、
　前記ＲＧＢＤ画像に含まれる各画像を符号化してＲＧＢＤストリームを生成するビデオエンコーダと、
　前記ＲＧＢＤストリームを蓄積して要求に応じて出力するストリーム蓄積部を備える3Dモデル送信装置であって、
　前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする３Ｄモデル送信装置。
　前記ＲＧＢＤ画像は、１以上の整数Ｋに対して、Ｋ個の既定視点に関連付けられたＫ枚の視点依存カラー画像を含んで構成され、
　前記メタデータは、Ｋ個の既定視点の情報を含むことを特徴とする請求項１に記載の３Ｄモデル送信装置。
　前記ビデオエンコーダは、前記既定視点毎に対応するＲＧＢＤストリームを生成し、
　前記既定視点毎のＲＧＢＤストリームは、視点非依存カラー画像、視点非依存デプス画像、および、特定の既定視点に対応する１枚の視点依存カラー画像をそれぞれ符号化したデータを含んで構成されることを特徴とする請求項２に記載の３Ｄモデル送信装置。
　前記視点非依存カラー画像は複数のカラーサブ画像から構成され、
　前記視点非依存デプス画像は複数のデプスサブ画像から構成され、
　前記カラーサブ画像は少なくとも２以上のグループに分類されており、各グループに含まれるカラーサブ画像の解像度は同一であることを特徴とする請求項１から請求項３に記載の３Ｄモデル送信装置。
　前記仮想撮影部はソースモデルをカメラ情報に基づき撮影してＲＧＢＤ画像を生成する画像撮影部と、
　ＲＧＢＤ画像に基づき再生モデルを生成する３Ｄモデル再生部と、
　再生モデルとソースモデルに基づきエラー領域情報を導出するエラー領域検出部と、
　エラー領域情報に基づいてカメラ情報を導出するカメラ情報設定部を備え、
　前記３Ｄモデル再生部は、
　前記３Ｄモデル再生部はＲＧＢＤ画像からボリュームデータを生成するデプス統合部と、
　ボリュームデータからメッシュを生成するメッシュ生成部と、
　メッシュとＲＧＢＤ画像に基づきテクスチャ情報を設定して再生モデルを生成するテクスチャ設定部を備えることを特徴とする請求項１から請求項４に記載の３Ｄモデル送信装置。
　前記デプス統合部は、デプスサンプル毎に処理対象ボクセル群を決定し、当該処理対象ボクセル群に含まれるボクセル毎にデプスサンプルに対応する法線に基づいてＴＳＤＦ値およびウェイト値を更新することでデプスを統合することを特徴とする請求項５に記載の３Ｄモデル送信装置。
　前記デプス統合部は、ウェイトとＴＳＤＦ値の積を加算するバッファと、ウェイトの和を加算するバッファを備えることを特徴とする請求項５から請求項６に記載の３Ｄモデル送信装置。
　前記テクスチャ設定部は、メッシュを構成する各三角形をＲＧＢＤ画像に含まれる各カラーサブ画像に投影し、投影された三角形のカラーサブ画像上での面積が最も広いカラーサブ画像を選択し、当該カラーサブ画像上の画素位置をテクスチャのＵＶ座標に設定することを特徴とする請求項５に記載の３Ｄモデル送信装置。
　前記カメラ情報設定部は、エラー領域をクラスタリングすることで導出したクラスタ毎に仮想カメラを決定することでカメラ情報を生成し、
　前記クラスタリングは、空間分布によるクラスタリングと、フェイス法線によるクラスタリングの２段階で実行されることを特徴とする請求項５に記載の３Ｄモデル送信装置。
　ユーザ視点に基づいてＲＧＢＤストリームを選択受信するストリーム受信部と、
　前記ＲＧＢＤストリームを復号してＲＧＢＤ画像を導出するビデオデコーダと、
　前記ＲＧＢＤ画像に基づいて再生モデルを生成して出力する３Ｄモデル再生部を備えた３Ｄモデル受信装置であって、
　前記ＲＧＢＤ画像は、視点非依存カラー画像、視点非依存デプス画像、および、視点依存カラー画像を含んで構成されることを特徴とする３Ｄモデル受信装置。