JPWO2020026846A1

JPWO2020026846A1 - 画像処理装置および方法

Info

Publication number: JPWO2020026846A1
Application number: JP2020533425A
Authority: JP
Inventors: 央二中神; 幸司矢野; 加藤　毅; 毅加藤; 智隈
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-08-02
Filing date: 2019-07-19
Publication date: 2021-08-26
Anticipated expiration: 2039-07-19
Also published as: EP3833029A1; US11405644B2; CN112514396A; US20210297696A1; EP3833029A4; JP7331852B2; WO2020026846A1

Abstract

本開示は、より容易に２次元画像を再生することができるようにする画像処理装置および方法に関する。３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、そのパッチと異なる２次元画像とを含むビデオフレームを生成し、その生成されたビデオフレームを符号化して、ビットストリームを生成する。本開示は、例えば、画像処理装置、電子機器、画像処理方法、またはプログラム等に適用することができる。

Description

本開示は、画像処理装置および方法に関し、特に、より容易に２次元画像を再生することができるようにした画像処理装置および方法に関する。

従来、例えばポイントクラウド（Point cloud）のような、３次元形状のオブジェクトを表す３Ｄデータの符号化方法として、例えばOctree等のような、ボクセル（Voxel）を用いた符号化があった（例えば非特許文献１参照）。

近年、その他の符号化方法として、例えば、ポイントクラウドの位置と色情報それぞれを、小領域毎に２次元平面に投影し、２次元画像用の符号化方法で符号化するアプローチ（以下、ビデオベースドアプローチ（Video-based approach）とも称する）が提案されている（例えば、非特許文献２乃至非特許文献４参照）。

このように符号化される３Ｄデータは、例えば、ビットストリームとして伝送され、復号後、その３次元形状のオブジェクトを任意の位置および向きのカメラで撮像した撮像画像のような２次元画像として再生された。

R. Mekuria, Student Member IEEE, K. Blom, P. Cesar., Member, IEEE, "Design, Implementation and Evaluation of a Point Cloud Codec for Tele-Immersive Video",tcsvt_paper_submitted_february.pdf Tim Golla and Reinhard Klein, "Real-time Point Cloud Compression ," IEEE, 2015 K. Mammou,"Video-based and Hierarchical Approaches Point Cloud Compression", MPEG m41649, Oct. 2017 K. Mammou,"PCC Test Model Category 2 v0,"N17248 MPEG output document, October 2017

しかしながら、このような再生方法の場合、復号して再構築した３Ｄデータが示す３次元形状のオブジェクトを、任意の位置および向きのカメラで撮像するようにレンダリングする必要があり、処理の負荷が増大するおそれがあった。

本開示は、このような状況に鑑みてなされたものであり、より容易に２次元画像を再生することができるようにするものである。

本技術の一側面の画像処理装置は、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームを生成する生成部と、前記生成部により生成された前記ビデオフレームを符号化して、ビットストリームを生成する符号化部とを備える画像処理装置である。

本技術の一側面の画像処理方法は、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームを生成し、生成された前記ビデオフレームを符号化して、ビットストリームを生成する画像処理方法である。

本技術の他の側面の画像処理装置は、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームの符号化データを含むビットストリームより、前記符号化データを抽出する抽出部と、前記抽出部により前記ビットストリームから抽出された前記符号化データを復号して、前記２次元画像を復元する２次元復号部とを備える画像処理装置である。

本技術の他の側面の画像処理方法は、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームの符号化データを含むビットストリームより、前記符号化データを抽出し、前記ビットストリームから抽出された前記符号化データを復号して、前記２次元画像を復元する画像処理方法である。

本技術の一側面の画像処理装置および方法においては、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、そのパッチと異なる２次元画像とを含むビデオフレームが生成され、その生成されたビデオフレームが符号化されて、ビットストリームが生成される。

本技術の他の側面の画像処理装置および方法においては、３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、そのパッチと異なる２次元画像とを含むビデオフレームの符号化データを含むビットストリームより、その符号化データが抽出され、そのビットストリームから抽出された符号化データが復号されて、その２次元画像が復元される。

本開示によれば、画像を処理することができる。特に、より容易に２次元画像を再生することができる。

ビットストリームへの２Ｄデータの付加について説明する図である。システムの概要を説明する図である。カメラパラメータの例を説明する図である。シンタックスの例を説明する図である。シンタックスの例を説明する図である。シンタックスの例を説明する図である。２Ｄデータの付加の例を説明する図である。符号化装置の主な構成例を示すブロック図である。２Ｄデータ生成部の主な構成例を示すブロック図である。符号化処理の流れの例を説明するフローチャートである。２Ｄデータ生成処理の流れの例を説明するフローチャートである。復号装置の主な構成例を示すブロック図である。復号処理の流れの例を説明するフローチャートである。復号装置の主な構成例を示すブロック図である。コンピュータの主な構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．２Ｄデータの付加
２．第１の実施の形態（符号化装置）
３．第２の実施の形態（復号装置）
４．第３の実施の形態（復号装置）
５．付記

＜１．２Ｄデータの付加＞
＜技術内容・技術用語をサポートする文献等＞
本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。

非特許文献１：（上述）
非特許文献２：（上述）
非特許文献３：（上述）
非特許文献４：（上述）
非特許文献５：TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU（International Telecommunication Union）, "Advanced video coding for generic audiovisual services", H.264, 04/2017
非特許文献６：TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU（International Telecommunication Union）, "High efficiency video coding", H.265, 12/2016
非特許文献７：Jianle Chen, Elena Alshina, Gary J. Sullivan, Jens-Rainer, Jill Boyce, "Algorithm Description of Joint Exploration Test Model 4", JVET-G1001_v1, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 7th Meeting: Torino, IT, 13-21 July 2017

つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献６に記載されているQuad-Tree Block Structure、非特許文献７に記載されているQTBT（Quad Tree Plus Binary Tree） Block Structureが実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース（Parsing）、シンタックス（Syntax）、セマンティクス（Semantics）等の技術用語についても同様に、実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。

＜ポイントクラウド＞
従来、点群の位置情報や属性情報等により３次元形状のオブジェクトを表すポイントクラウドや、頂点、エッジ、面で構成され、多角形表現を使用して３次元形状のオブジェクトを定義するメッシュ等の３Ｄデータが存在した。

例えばポイントクラウドの場合、立体構造物（３次元形状のオブジェクト）を多数の点の集合（点群）として表現する。つまり、ポイントクラウドのデータは、この点群の各点の位置情報や属性情報（例えば色等）により構成される。したがってデータ構造が比較的単純であるとともに、十分に多くの点を用いることにより任意の立体構造物を十分な精度で表現することができる。

＜ビデオベースドアプローチの概要＞
このようなポイントクラウドの位置と色情報それぞれを、小領域毎に２次元平面に投影して２次元画像化し、その２次元画像を２次元画像用の符号化方法で符号化するビデオベースドアプローチ（Video-based approach）が提案されている。

このビデオベースドアプローチでは、入力されたポイントクラウド（Point cloud）が複数のセグメンテーション（領域とも称する）に分割され、領域毎に２次元平面に投影される。なお、ポイントクラウドの位置毎のデータ（すなわち、各ポイントのデータ）は、上述のように位置情報（Geometry（Depthとも称する））と属性情報（Texture）とにより構成され、それぞれ、領域毎に２次元平面に投影される。

そして、この２次元平面に投影された各セグメンテーション（パッチとも称する）は、２次元画像に配置され、例えば、AVC（Advanced Video Coding）やHEVC（High Efficiency Video Coding）等といった、２次元平面画像用の符号化方式により符号化される。

＜レンダリング＞
このように符号化される３Ｄデータは、例えば、符号化されてビットストリームとして伝送され、伝送先において、復号後、再生される。例えば、２次元画像を表示する２Ｄディスプレイを有するデバイスの場合、復号されて再構築された３Ｄデータが示す３次元形状のオブジェクトは、任意の位置および向きのカメラで撮像するようにレンダリングして、２次元画像（レンダリング画像とも称する）として２Ｄディスプレイに表示される。

なお、このようにオブジェクトがレンダリングされた２次元画像（レンダリング画像）は、符号化の際の２次元画像（パッチを配置した２次元画像）とは異なる画像である。パッチを配置した２次元画像は、３Ｄデータを伝送するためのフォーマットであり、表示することを目的とした画像ではない。つまり、仮にこのパッチを配置した２次元画像を表示しても、その表示画像は、それを視聴するユーザには理解することができない画像（コンテンツとして成立していない画像）となる。これに対してレンダリング画像は、３次元形状のオブジェクトを２次元表現した画像である。したがって、その表示画像は、それを視聴するユーザにとって理解可能な画像（コンテンツとして成立している画像）となる。

しかしながら、この再生方法の場合、３次元形状のオブジェクトのレンダリングが必要であるが、このレンダリングの負荷が大きく、処理時間が増大するおそれがあった。例えば、ビットストリームがどのようなコンテンツのデータであるかを確認する場合であっても、そのビットストリームを復号して３Ｄデータを再構築し、その３Ｄデータが示すオブジェクトをさらにレンダリングして２次元画像として再生する必要があった。そのため、ビットストリームの内容確認に要する時間が増大するおそれがあった。また、例えば、符号化側においてお勧めのカメラワーク（レンダリングするカメラの位置や方向等）を指定し、復号側において、オブジェクトがそのお勧めのカメラワークでレンダリングされたレンダリング画像を表示する場合も、復号側によるオブジェクトのレンダリングが必要であるため、レンダリング画像の表示に要する時間が増大するおそれがあった。

また、レンダリングの負荷が大きいため、より高性能なデバイスにしか、ビットストリームの復号・再生機能を搭載することができなくなるおそれがあった。すなわち、ビットストリームの復号・再生機能を搭載不可能なデバイスが増大するおそれがあった（ビットストリームの復号・再生機能を搭載可能なデバイスが低減するおそれがあった）。

＜２Ｄデータの付加＞
そこで、図１の表１０の上から１番目の行に示されるように、符号化側において、３Ｄデータのビデオベースドアプローチにおいて、ビットストリームに、３Ｄデータとは別の２Ｄデータを付加するようにする。つまり、レンダリングを必要とせずに表示可能なデータを、３Ｄデータのビットストリームに含めるようにする。

このようにすることにより、復号側において、３次元形状のオブジェクトのレンダリングを行わずに、２次元画像を表示する（ビットストリームに含まれる２Ｄデータを再生する）ことができる。

例えば、図２の復号側において、３Ｄデータを３次元コンテンツとして３Ｄディスプレイ３５に表示する場合は、３Ｄデータデコーダ３２がその３Ｄデータのビットストリームを復号して３Ｄデータ（例えばPoint Cloud）を再構築し、３Ｄディスプレイ３５がその３Ｄデータを表示する。

これに対して、例えば、図２の復号側において、３Ｄデータを２次元画像として２Ｄディスプレイ３６に表示する場合、３Ｄデータデコーダ３２がその３Ｄデータのビットストリームを復号して３Ｄデータを再構築し、レンダラ３４がその３Ｄデータをレンダリングしてレンダリング画像（２次元画像）を生成し、２Ｄディスプレイ３６がそのレンダリング画像を表示する。つまり、この場合、レンダリング処理が必要であり、負荷が増大するおそれがあった。

これに対して、ビットストリームに２Ｄデータ（例えばレンダリング画像）が付加されている場合、デマルチプレクサ３１がそのビットストリームから２Ｄデータの符号化データを抽出し、２Ｄビデオデコーダ３３がその符号化データを復号して２次元画像を生成し、２Ｄディスプレイ３６がその２次元画像を表示することができる。つまり、復号側のレンダリング処理をスキップ（省略）することができる。

つまり、より容易に２次元画像を表示することができる。したがって、例えば、ビットストリームの内容を示す２次元画像をビットストリームに含めることにより、復号側において、３次元形状のオブジェクトのレンダリングを行わずに、その２次元画像を表示することができる。したがって、より高速にビットストリームの内容確認を行うことができる。また、例えば、お勧めのカメラワークのレンダリング画像を２Ｄデータとしてビットストリームに付加することにより、復号側において、３次元形状のオブジェクトのレンダリングを行わずに、そのレンダリング画像を表示することができる。したがって、より高速にお勧めのカメラワークを確認することができる。

また、処理の負荷が大きい３次元形状のオブジェクトのレンダリングを行わずに２次元画像を表示することができるので、より低性能のデバイスにおいても、ビットストリームに含まれる２Ｄデータを再生することができる。したがって、ビットストリームの復号・再生機能を搭載不可能なデバイスの低減を抑制する（ビットストリームの復号・再生機能を搭載可能なデバイスを増大させる）ことができる。

＜２Ｄデータの内容＞
なお、この３Ｄデータのビットストリームに付加する２Ｄデータの内容は、３Ｄデータのパッチと異なるものであれば任意である。例えば、図１の表１０の上から２行目に示されるように、３Ｄデータが示す３次元形状のオブジェクトのレンダリング画像であってもよい。

例えば、３Ｄデータが示す３次元形状のオブジェクトを所定のカメラワーク（レンダリング用カメラの位置や方向等）で撮像するように３Ｄデータをレンダリングしたレンダリング画像であってもよい。例えば、図２の符号化側において、３Ｄデータエンコーダ２１が、３Ｄデータ（Point Cloud）を符号化する際に、符号化対象の３Ｄデータのレンダリング画像も符号化して符号化データを生成し、そのレンダリング画像の符号化データを、３Ｄデータの符号化データを含むビットストリームに付加するようにしてもよい。つまり、レンダリング画像を３Ｄデータのビットストリームに付加するようにしてもよい。

このようにすることにより、復号側において、レンダリングを行わずに（つまり、より容易に）、レンダリング画像を表示することができる。例えば、図２の復号側において、デマルチプレクサ３１がビットストリームからレンダリング画像の符号化データを抽出し、２Ｄビデオデコーダが符号化データを復号することにより、レンダリング画像を得ることができる。つまり、レンダリング処理をスキップ（省略）することができる。

また、例えば、図１の表１０の上から３行目に示されるように、このレンダリング画像は、推奨するカメラ位置および方向より、３Ｄデータが示す３次元形状のオブジェクトを撮像したようにレンダリングした画像であるようにしてもよい。つまり、このレンダリング画像は、お勧めのカメラワークでレンダリングした画像であるようにしてもよい。

例えば、図２の符号化側において、３Ｄデータエンコーダ２１が、３Ｄデータ（Point Cloud）を符号化する際に、符号化対象の３Ｄデータのオブジェクトをお勧めのカメラワークでレンダリングしたレンダリング画像も符号化して符号化データを生成し、そのレンダリング画像の符号化データを、３Ｄデータの符号化データを含むビットストリームに付加するようにしてもよい。つまり、お勧めのカメラワークでレンダリングしたレンダリング画像を３Ｄデータのビットストリームに付加するようにしてもよい。

このようにすることにより、復号側において、符号化側により指定されるお勧めのカメラワークのレンダリング画像を、レンダリングを行わずに（つまり、より容易に）、表示することができる。例えば、図２の復号側において、デマルチプレクサ３１がビットストリームからレンダリング画像の符号化データを抽出し、２Ｄビデオデコーダが符号化データを復号することにより、符号化側により指定されるお勧めのカメラワークのレンダリング画像を得ることができる。つまり、レンダリング処理をスキップ（省略）することができる。

なお、例えば、図１の表１０の上から４行目に示されるように、このレンダリング画像は、符号化側において生成されるようにしてもよい。例えば、図２の符号化側において、レンダラ２２が、符号化対象の３Ｄデータのオブジェクトをレンダリングしてレンダリング画像を生成し、３Ｄデータエンコーダ２１が、そのレンダリング画像を符号化して、３Ｄデータのビットストリームに付加するようにしてもよい。

このようにすることにより、復号側において、符号化側において生成されたレンダリング画像を、レンダリングを行わずに（つまり、より容易に）、表示することができる。例えば、図２の復号側において、デマルチプレクサ３１がビットストリームからレンダリング画像の符号化データを抽出し、２Ｄビデオデコーダが符号化データを復号することにより、レンダラ２２が生成したレンダリング画像を得ることができる。つまり、復号側のレンダリング処理をスキップ（省略）することができる。

なお、この２Ｄデータは、上述の例に限定されない。この２Ｄデータは、レンダリング画像でなくてもよい。例えば、２Ｄデータは、ビットストリームに含まれる３Ｄデータの内容に関する情報（文字、数字、記号、図形、絵柄等）を含む画像であってもよい。このような２Ｄデータをビットストリームに付加することにより、復号側において、より容易に、３Ｄデータの内容に関する情報を表示することができる。つまり、復号側のユーザは、より高速にビットストリームの内容を把握することができる。また、ユーザは、より多様なデバイスにおいて、ビットストリームの内容を把握することができる。

また、２Ｄデータは、ビットストリームに含まれる３Ｄデータとは独立した内容の画像（無関係の画像）であってもよい。例えば、２Ｄデータは、ビットストリームに含まれる３Ｄデータが示すオブジェクトと異なるオブジェクトのレンダリング画像であってもよいし、ビットストリームに含まれる３Ｄデータの内容とは無関係の情報（文字、数字、記号、図形、絵柄等）を含む画像であってもよい。このような２Ｄデータをビットストリームに付加することにより、復号側において、より容易に、より多様な情報を表示することができる。つまり、復号側のユーザは、より高速により多様な情報を得ることができる。また、ユーザは、より多様なデバイスにおいて、より多様な情報を得ることができる。

また、２Ｄデータおよび３Ｄデータは、それぞれ、動画像であってもよいし、静止画像であってもよい。さらに、この２Ｄデータおよび３Ｄデータの再生時間の長さは、互いに同一であってもよいし、互いに異なっていてもよい。このような２Ｄデータをビットストリームに付加することにより、復号側において、動画像であっても静止画像であっても、より容易に２Ｄデータを表示することができる。つまり、復号側のユーザは、動画像であっても静止画像であっても、より高速に、その２Ｄデータの視聴を開始することができる。また、ユーザは、動画像であっても静止画像であっても、より多様なデバイスにおいて、その２Ｄデータを視聴することができる。

また、複数の２Ｄデータを、３Ｄデータのビットストリームに付加するようにしてもよい。さらに、この複数の２Ｄデータの再生時間の長さは、互いに同一であってもよいし、互いに異なっていてもよい。また、この複数の２Ｄデータが、それぞれが順次再生されるような状態で、ビットストリームに付加されるようにしてもよい。

例えば、複数の２Ｄデータを、それぞれが順次再生されるような状態で、ビットストリームに付加することにより、復号側において、より容易に、その複数の２Ｄデータを順次再生することができる。つまり、復号側のユーザは、より高速に、その複数の２Ｄデータの視聴を開始することができる。また、ユーザは、より多様なデバイスにおいて、この複数の２Ｄデータを視聴することができる。

例えば、図１の表１０の上から５行目に示されるように、この複数の２Ｄデータとして、例えば、同一の動画像を複数回ビットストリームに付加するようにしてもよい。このようにすることにより、復号側において、より容易に、動画像を複数回再生することができる。つまり、復号側のユーザは、より高速に、その複数回の動画像視聴を開始することができる。また、ユーザは、より多様なデバイスにおいて、この複数回の動画像視聴を行うことができる。

また、例えば、図１の表１０の上から５行目に示されるように、この複数の２Ｄデータとして、例えば、互いに異なる内容の動画像を、それぞれが順次再生されるような状態で、ビットストリームに付加するようにしてもよい。例えば、この互いに異なる内容の動画像として、互いに異なるカメラワーク（カメラの位置や方向等）によりレンダリングされた複数のレンダリング画像（動画像）をビットストリームに付加するようにしてもよい。このようにすることにより、復号側において、より容易に、複数の視点の（複数のカメラワークの）レンダリング画像を表示する（各視点の（各カメラワークの）レンダリング画像を順次表示する）ことができる。つまり、復号側のユーザは、より高速に、その複数の視点のレンダリング画像の視聴を開始することができる。また、ユーザは、より多様なデバイスにおいて、この複数の視点のレンダリング画像の視聴を行うことができる。

＜２Ｄデータの場所＞
なお、２Ｄデータは、ビットストリームの任意の場所に付加するようにしてもよい。例えば、ビデオフレームに２Ｄデータが付加されるようにしてもよい。上述したように、ポイントクラウド（３Ｄデータ）は、点群の位置情報および属性情報により構成される。また、ビデオベースドアプローチの場合、ポイントクラウドの位置情報と属性情報とは、それぞれセグメンテーションごとに２次元平面に投影され、パッチとしてビデオフレームにパッキングされる。このようなビデオフレームに上述の２Ｄデータを付加するようにしてもよい。

このようにビデオフレームに２Ｄデータを付加することにより、３Ｄデータとともに２Ｄデータを符号化することができる。例えば、図２の場合、３Ｄデータエンコーダ２１は、パッキングされたビデオフレームを、例えば、AVCやHEVC等のような２次元平面画像用の符号化方式により符号化することにより、３Ｄデータおよび２Ｄデータを符号化することができる。つまり、２Ｄデータの符号化をより容易に行うことができる。

また、復号側においても２Ｄデータの復号をより容易に行うことができる。例えば、図２の場合、２Ｄビデオデコーダ３３は、例えば、AVCやHEVC等のような２次元平面画像用の復号方式により符号化データを復号することにより、２Ｄデータを生成することができる。

なお、例えば、図１の表１０の上から６行目に示されるように、ポイントクラウドの属性情報のパッチがパッキングされるカラービデオフレームに２Ｄデータが付加されるようにしてもよい。図３に示されるように、３Ｄデータのビットストリーム４０は、ストリームヘッダ（Stream header）４１、並びに、GOFストリーム（GOF（Group of Frames） stream）４２−１、GOFストリーム４２−２、・・・、GOFストリーム４２−ｎ−１、およびGOFストリーム４２−ｎ（ｎは任意の自然数）を有する。

ストリームヘッダ４１は、このビットストリーム４０のヘッダ情報であり、このビットストリーム４０に関する各種情報が格納される。

GOFストリーム４２−１乃至GOFストリーム４２−ｎは、それぞれ、時間方向の相関をランダムアクセス内でパッキングしたものである。つまり、これらは、所定の時間分のビットストリームである。GOFストリーム４２−１乃至GOFストリーム４２−ｎを互いに区別して説明する必要がない場合、GOFストリーム４２と称する。

GOFストリーム４２は、GOFヘッダ（GOF header）５１、GOFジオメトリビデオストリーム（GOF geometry video stream）５２、GOFオグジリアリインフォメーションアンドオキュパンシーマップス（GOF auxiliary info & occupancy maps）５３、およびGOFテクスチャビデオストリーム（GOF texture video stream）５４を有する。

GOFヘッダ５１は、当該GOFストリーム４２に対応するパラメータ６１を含む。パラメータ６１には、例えば、フレームの高さに関する情報（frameWidth）、フレームの横幅に関する情報（frameHeight）、オキュパンシーマップのレゾリューションに関する情報（occupancyResolution）等のパラメータが含まれる。

GOFジオメトリビデオストリーム５２は、ポイントクラウドの位置情報のパッチがパッキングされるジオメトリビデオフレーム（geometry video frame）６２を、例えば、AVCやHEVC等のような２次元平面画像用の符号化方式により符号化した符号化データ（ビットストリーム）である。

GOFオグジリアリインフォメーションアンドオキュパンシーマップス５３は、オグジリアリインフォメーション（auxiliary info）とオキュパンシーマップ（occupancy map）６４を所定の符号化方式により符号化した符号化データ（ビットストリーム）である。オキュパンシーマップ６４は、２次元平面の各位置における、位置情報および属性情報の有無を示すマップ情報である。

GOFテクスチャビデオストリーム５４は、カラービデオフレーム（color video frame）６５を、例えば、AVCやHEVC等のような２次元平面画像用の符号化方式により符号化した符号化データ（ビットストリーム）である。このカラービデオフレーム６５に、２Ｄデータ７２を付加するようにしてもよい。

このような構成とすることにより、３Ｄデータとともに２Ｄデータを符号化することができる。例えば、図２の場合、３Ｄデータエンコーダ２１は、パッキングされたカラービデオフレームを、例えば、AVCやHEVC等のような２次元平面画像用の符号化方式により符号化することにより、ポイントクラウドの属性情報だけでなく２Ｄデータも符号化することができる。つまり、２Ｄデータの符号化をより容易に行うことができる。

また、復号側においても２Ｄデータの復号をより容易に行うことができる。例えば、図２の場合、デマルチプレクサ３１が、ビットストリームからカラービデオフレームの符号化データ（図３の例の場合、GOFテクスチャビデオストリーム５４）を抽出し、２Ｄビデオデコーダ３３が、例えば、AVCやHEVC等のような２次元平面画像用の復号方式によりその抽出された符号化データ（GOFテクスチャビデオストリーム５４）を復号することにより、２Ｄデータ（図３の例の場合、２Ｄデータ７２）を生成することができる。

なお、この場合、２Ｄデータ７２は、ポイントクラウドとは異なる情報であるので、オキュパンシーマップ６４には、この２Ｄデータ７２は反映されていない。したがって、例えば３Ｄデータデコーダ３２（図２）が３Ｄデータのビットストリーム４０を復号する場合、この２Ｄデータ７２は無視される。つまり、３Ｄデータデコーダ３２は、２Ｄデータが付加されていない３Ｄデータのビットストリームを復号する場合と同様に、このビットストリーム４０を復号することができる。つまり、容易に、３Ｄデータを復号することができる。

また、２Ｄデータは、全てのカラービデオフレームに付加するようにしてもよいし、一部のビデオフレームに付加するようにしてもよい。例えば、図１の表１０の上から７行目に示されるように、カラービデオフレームが時間方向に階層符号化される場合、全部の符号化階層のビデオフレームに２Ｄデータが付加されるようにしてもよいし、一部の符号化階層のビデオフレームに２Ｄデータが付加されるようにしてもよい。

ビデオベースドアプローチの場合、１つのポイントクラウドフレームから所定数の２次元画像を生成することによりパッチの奥行を表現することができる。換言するに、１つのポイントクラウドフレームに対して、奥行方向に複数のパッチを生成することができる。その場合、パッキングされたビデオフレームを時間方向に階層符号化して、パッチの奥行方向の位置毎に符号化階層を割り当てることができる（各パッチをその奥行方向に応じた階層のビデオフレームに配置することができる）。

このような階層構造の場合、例えば３Ｄデータの全てのカラービデオフレームに対して先頭から順に２Ｄデータを付加するようにすると、符号化・復号順において後方のカラービデオフレームに２Ｄデータが付加されない可能性がある。つまり、３Ｄデータの全カラービデオフレームから２Ｄデータを抽出して表示すると、符号化・復号順が後方のビデオフレームがノイズ画像（２Ｄデータでない画像）となってしまうおそれがある。

そこで、２Ｄデータを、上述の階層構造の内の一部の符号化階層のカラービデオフレームにのみ付加し、全符号化階層のカラービデオフレームをその階層構造に従って符号化するようにし、２Ｄデータを再生する場合は、その２Ｄデータが付加された符号化階層のカラービデオフレームの符号化データのみを復号するようにしてもよい。例えば、１つの符号化階層のカラービデオフレームに２Ｄデータを付加し、全符号化階層のカラービデオフレームをその階層構造に従って符号化するようにし、２Ｄデータを再生する場合は、その２Ｄデータが付加された符号化階層のカラービデオフレームの符号化データのみを復号するようにしてもよい。このようにすることにより、復号した全てのカラービデオフレームから２Ｄデータを抽出することができるので、上述したノイズ画像の表示を抑制することができる。

また、２Ｄデータを、上述の階層構造の内の全部の符号化階層のカラービデオフレームに付加するようにしてもよい。例えば、符号化階層構造の全てのカラービデオフレームに対して先頭から順に２Ｄデータを付加するようにしてもよい。その場合、同一の２Ｄデータを繰り返し付加するようにしてもよい。例えば、あるカラービデオフレームに対して２次元動画像の最後のフレームの画像が付加されると、その次以降のカラービデオフレームに対して、再び、その２Ｄデータの画像が最初のフレームから付加されるようにしてもよい。このようにすることにより、復号した全てのカラービデオフレームから２Ｄデータを抽出することができるので、上述したノイズ画像の表示を抑制することができる。

例えば、２Ｄデータを３Ｄデータのレンダリング画像とする場合、所定のカメラワークでレンダリングされた各レンダリング画像を、全階層のカラービデオフレームに対して先頭から順に付加し、最後のレンダリング画像を付加後、残りのカラービデオフレームに対して、一度付加したレンダリング画像を、再度、最初のレンダリング画像から順に付加するようにしてもよい。このようにすることにより、復号側において、１本のレンダリング画像の動画像を繰り返し表示するようにすることができる。

また、新たな２Ｄデータを付加するようにしてもよい。例えば、あるカラービデオフレームに対して２次元が動画像の最後のフレームの画像が付加されると、その次以降のカラービデオフレームに対して、新たな２Ｄデータの画像が最初のフレームから付加されるようにしてもよい。このようにすることにより、復号した全てのカラービデオフレームから２Ｄデータを抽出することができるので、上述したノイズ画像の表示を抑制することができる。

例えば、２Ｄデータを３Ｄデータのレンダリング画像とする場合、所定のカメラワークでレンダリングされた各レンダリング画像を、全階層のカラービデオフレームに対して先頭から順に付加し、最後のレンダリング画像を付加後、新たなカメラワークでレンダリングされた各レンダリング画像を、残りのカラービデオフレームに対して順に付加するようにしてもよい。このようにすることにより、復号側において、複数本のレンダリング画像の動画像を順次表示するようにすることができる。

なお、カラービデオフレームをスケーラブルに階層符号化する場合も、同様に、全部の階層のビデオフレームに２Ｄデータが付加されるようにしてもよいし、一部の階層のビデオフレームに２Ｄデータが付加されるようにしてもよい。

なお、２Ｄデータは、カラービデオフレーム以外に付加されるようにしてもよい。例えば、ジオメトリビデオフレームに２Ｄデータを付加するようにしてもよい。

＜２Ｄデータ用シンタックス＞
以上のような３Ｄデータのビットストリームに付加する２Ｄデータに関する情報を、さらにビットストリームに含めるようにしてもよい。この２Ｄデータに関する情報は、どのような情報であってもよい。

また、この２Ｄデータに関する情報は、ビットストリームの任意の位置に付加するようにしてもよい。例えば、２Ｄデータに関する情報をメタデータとして、ビットストリームのヘッダに付加するようにしてもよい。例えば、図３に示されるように、ビットストリーム４０のストリームヘッダ４１に、２Ｄ制御シンタックス（2D Control Syntax）７１として付加するようにしてもよい。

例えば、図１の表１０の上から８行目に示されるように、２次元画像に関する情報が、ビットストリームに２次元画像のデータが含まれているか否かを示す２次元画像有無識別情報を含むようにしてもよい。

２Ｄ制御シンタックス７１の例を図４に示す。図４に示されるように、２Ｄ制御シンタックス７１として、thumbnail_available_flagが伝送されるようにしてもよい。thumbnail_available_flagは、そのビットストリーム内に２Ｄデータが存在するか否か（２Ｄデータが付加されたか否か）を示すフラグ情報（すなわち、２次元画像有無識別情報）である。このフラグ情報が真（例えば「１」）の場合、そのビットストリーム内に２Ｄデータが存在することを示す。また、このフラグ情報が偽（例えば「０」）の場合、そのビットストリーム内に２Ｄデータが存在しないことを示す。

また、例えば図１の表１０の上から１１行目に示されるように、２次元画像に関する情報が、２次元画像の再生を補助する２次元画像再生補助情報を含むようにしてもよい。例えば、thumbnail_available_flagが真の場合（if(thumbnail_available_flag){）、２Ｄ制御シンタックス７１として、num_rendering_view、InsertionMethod、SeparationID、およびIndependentDecodeflagが伝送されるようにしてもよい。これらのシンタックスは、２次元画像の再生を補助する２次元画像再生補助情報である。

num_rendering_viewは、レンダリング済みの視点数（カメラワークの数）を示す情報である。InsertionMethodは、LayerIDやTemporalIDでレイヤを分けて２Ｄデータを付加しているか、または、リピート等によって２Ｄデータを付加しているか（全レイヤに２Ｄデータを付加しているか）を示す情報である。なお、LayerIDやTemporalIDでレイヤを分けて２Ｄデータを付加している場合、AVCやHEVCのデコーダの動作変更が必要になる。つまり、この情報に基づいてそのデコーダの動作変更を行うことができる。SeparationIDは、LayerIDまたはTemporalIDの切れ目を示す情報である。この情報をAVCやHEVCのデコーダに渡すことにより、特定のレイヤのみを表示させることができる。

IndependentDecodeflagは、２Ｄデータ部分がタイル（Tile）等によって独立に復号可能であるか否かを示すフラグ情報である。このフラグ情報が真（例えば「１」）の場合、２Ｄデータを独立に復号することができることを示す。また、このフラグ情報が偽（例えば「０」）の場合、２Ｄデータを独立に復号することができないことを示す。

また、IndependentDecodeflagが真の場合（if(IndependentDecodeflag){）、２Ｄ制御シンタックス７１としてMCTS_IDが伝送されるようにしてもよい。MCTS_IDは、別途MCTS SEI（Motion-Constrained Tile Sets Suplemental Enhancement Information）において定義されている特定のタイル部分を復号するために指定するタイルの識別情報である。

もちろん、図４に示されるシンタックスは一例であり、２Ｄ制御シンタックス７１にどのようなシンタックスが含まれるようにしてもよい。

また、例えば図１の表１０の上から９行目に示されるように、２次元画像に関する情報が、２次元画像が付加された空間方向の位置を管理する２次元画像空間位置管理情報を含むようにしてもよい。例えば図５に示されるように、def_disp_win_left_offset、def_disp_win_right_offset、def_disp_win_top_offset、およびdef_disp_win_bottom_offsetが伝送されるようにしてもよい。これらのシンタックスは、２次元画像が付加された空間方向の位置を管理する２次元画像空間位置管理情報である。

def_disp_win_left_offsetは、カラービデオフレーム６５の左端を基準とする２Ｄデータ７２の左端のオフセットを示す情報である。def_disp_win_right_offsetは、カラービデオフレーム６５の左端を基準とする２Ｄデータ７２の右端のオフセットを示す情報である。def_disp_win_top_offsetは、カラービデオフレーム６５の上端を基準とする２Ｄデータ７２の上端のオフセットを示す情報である。def_disp_win_bottom_offsetは、カラービデオフレーム６５の上端を基準とする２Ｄデータ７２の下端のオフセットを示す情報である。つまり、これらの情報により、付加された２Ｄデータの位置を特定することができる。つまり、デコーダは、これらの情報に基づいて、より容易に、カラービデオフレームに付加された２Ｄデータを抽出することができる。つまり、より容易に２Ｄデータを再生することができる。

なお、これらの情報（def_disp_win_offset）はHEVCにおいて規定される情報である。例えば、図６のＡに示されるようなシンタックスとしてこれらの情報が伝送される。つまり、HEVCのデコーダを用いてより容易に２Ｄデータを再生することができる。

なお、ビデオフレームの符号化・復号にAVCを用いる場合、これらの情報の代わりに、AVCにおいて規定されるCropping_offsetを用いるようにしてもよい。例えば、図６のＢに示されるようなシンタックスとして、Cropping_offsetを伝送するようにしてもよい。このようにすることにより、AVCのデコーダを用いてより容易に２Ｄデータを再生することができる。

また、例えば図１の表１０の上から１０行目に示されるように、２次元画像に関する情報が、２次元画像が付加された時間方向の位置を管理する２次元画像時間位置管理情報を含むようにしてもよい。例えば図７に示されるように、カラービデオフレームを時間方向に階層符号化するとする。この場合に、TemporalIDを用いて一部の階層のカラービデオフレームにのみ２Ｄデータを付加するようにしてもよい。つまり、このTemporalIDが、２次元画像が付加された時間方向の位置を管理する２次元画像時間位置管理情報である。

例えば、図７のように、カラービデオフレームが２階層に階層化されているとする。この場合に、下側のVideo0の階層のビデオフレームに２Ｄデータを付加してTemporalID=0とし、上側のVideo1の階層のビデオフレームには２Ｄデータを付加しないようにしてTemporalID=1とする。このようにすることにより、デコーダは、TemporalIDに基づいて２Ｄデータが付加された階層のビデオフレーム（図７の例の場合、Video0の階層のビデオフレーム）のみを復号することができる。したがって、より容易にノイズ画像の再生を抑制することができる。なお、TemporalIDの代わりにLayerIDを用いるようにしてもよい。

なお、上述した２次元画像空間位置管理情報や２次元画像時間位置管理情報は、例えば、GOFテクスチャビデオストリームに含めるようにしてもよい。このようにすることにより、デコーダは、GOFテクスチャビデオストリームを復号することにより、容易に２Ｄデータを再生することができる。

例えば、図２において、デマルチプレクサ３１は、メタデータ（例えば２Ｄ制御シンタックス７１）に基づいてカラービデオフレームの符号化データ（GOFテクスチャビデオストリーム）をビットストリームから抽出し、２Ｄビデオデコーダ３３に供給する。２Ｄビデオデコーダ３３は、そのGOFテクスチャビデオストリームを復号し、２Ｄデータを抽出することにより、レンダリング画像を得ることができる。

＜２Ｄデータの符号化＞
例えば図１の表１０の上から１２行目に示されるように、カラービデオフレームに付加された２Ｄデータを、その部分だけ独立に（パッチ等とは独立に）符号化するようにしてもよい。つまり、カラービデオフレームに付加された２Ｄデータを、その部分だけ独立に（パッチ等とは独立に）復号することができるようにしてもよい。換言するに、２Ｄデータを、例えばタイル（Tile）、スライス（Slice）、またはピクチャ（Picture）のような、独立に符号化・復号可能なデータ単位としてビデオフレームに付加するようにしてもよい。

このようにすることにより、デコーダ（例えば２Ｄビデオデコーダ３３）は、GOFテクスチャビデオストリームの、その２Ｄデータの部分のみを復号することにより、２Ｄデータを得ることができる。したがって、復号の負荷の増大を抑制する（復号の負荷を低減させる）ことができる。

また、このように２Ｄデータを独立に符号化・復号する場合、例えば図１の表１０の上から１３行目に示されるように、その２Ｄデータ用の符号化パラメータ（他の領域とは独立に設定された符号化パラメータ）を用いて、その２Ｄデータを符号化・復号するようにしてもよい。このようにすることにより、２Ｄデータにより適した符号化パラメータを用いることができるので、符号化効率の低減を抑制する（符号化効率を向上させる）ことができる。また、２Ｄデータの主観的画質の低減を抑制する（主観的画質を向上させる）ことができる。

なお、１つのビデオフレーム内に付加することができる２Ｄデータの数は、任意である。例えば図１の表１０の上から１４行目に示されるように、１つのビデオフレーム内に複数の２Ｄデータを付加するようにしてもよい。

＜２．第１の実施の形態＞
＜符号化装置＞
次に、以上のような２Ｄデータの付加を実現する構成について説明する。図８は、本技術を適用した画像処理装置の一態様である符号化装置の構成の一例を示すブロック図である。図８に示される符号化装置１００は、ポイントクラウドのような３Ｄデータを２次元平面に投影して２次元画像用の符号化方法により符号化を行う装置（ビデオベースドアプローチを適用した符号化装置）である。

なお、図８においては、処理部やデータの流れ等の主なものを示しており、図８に示されるものが全てとは限らない。つまり、符号化装置１００において、図８においてブロックとして示されていない処理部が存在したり、図８において矢印等として示されていない処理やデータの流れが存在したりしてもよい。これは、符号化装置１００内の処理部等を説明する他の図においても同様である。

図８に示されるように符号化装置１００は、パッチ分解部１１１、パッキング部１１２、補助パッチ情報圧縮部１１３、ビデオ符号化部１１４、ビデオ符号化部１１５、OMap符号化部１１６、２Ｄデータ生成部１１７、およびマルチプレクサ１１８を有する。

パッチ分解部１１１は、３Ｄデータの分解に関する処理を行う。例えば、パッチ分解部１１１は、符号化装置１００に入力される、３次元構造を表す３Ｄデータ（例えばポイントクラウド（Point Cloud））を取得する。また、パッチ分解部１１１は、取得したそのポイントクラウドを複数のセグメンテーションに分解し、そのセグメンテーション毎にポイントクラウドを２次元平面に投影し、位置情報のパッチや属性情報のパッチを生成する。パッチ分解部１１１は、生成した各パッチに関する情報をパッキング部１１２に供給する。また、パッチ分解部１１１は、その分解に関する情報である補助パッチ情報を、補助パッチ情報圧縮部１１３に供給する。

パッキング部１１２は、データのパッキングに関する処理を行う。例えば、パッキング部１１２は、パッチ分解部１１１からポイントの位置を示す位置情報（Geometry）のパッチに関する情報や、その位置情報に付加される色情報等の属性情報（Texture）のパッチに関する情報を取得する。

また、パッキング部１１２は、取得した各パッチを２次元画像に配置してビデオフレームとしてパッキングする。例えば、パッキング部１１２は、位置情報のパッチを２次元画像に配置して、位置情報のビデオフレーム（ジオメトリビデオフレームとも称する）としてパッキングする。また、例えば、パッキング部１１２は、属性情報のパッチを２次元画像に配置して、属性情報のビデオフレーム（カラービデオフレームとも称する）としてパッキングする。

なお、パッキング部１１２は、２Ｄデータ生成部１１７に制御され、＜１．２Ｄデータの付加＞において上述したような方法で、２Ｄデータ生成部１１７から供給される２Ｄデータ（例えば、符号化装置１００に入力されたポイントクラウドが表現する３次元形状のオブジェクトのレンダリング画像）を、カラービデオフレームの所定の位置に付加する。

また、パッキング部１１２は、これらのビデオフレームに対応するオキュパンシーマップを生成する。さらに、パッキング部１１２は、カラービデオフレームに対してDilation処理を行う。

パッキング部１１２は、このように生成したジオメトリビデオフレームをビデオ符号化部１１４に供給する。また、パッキング部１１２は、このように生成したカラービデオフレオームをビデオ符号化部１１５に供給する。さらに、パッキング部１１２は、このように生成したオキュパンシーマップをOMap符号化部１１６に供給する。また、パッキング部１１２は、このようなパッキングに関する制御情報をマルチプレクサ１１８に供給する。

補助パッチ情報圧縮部１１３は、補助パッチ情報の圧縮に関する処理を行う。例えば、補助パッチ情報圧縮部１１３は、パッチ分解部１１１から供給されるデータを取得する。補助パッチ情報圧縮部１１３は、取得したデータに含まれる補助パッチ情報を符号化（圧縮）する。補助パッチ情報圧縮部１１３は、得られた補助パッチ情報の符号化データをマルチプレクサ１１８に供給する。

ビデオ符号化部１１４は、位置情報（Geometry）のビデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部１１４は、パッキング部１１２から供給されるジオメトリビデオフレームを取得する。また、ビデオ符号化部１１４は、その取得したジオメトリビデオフレームを、例えばAVCやHEVC等の任意の２次元画像用の符号化方法により符号化する。ビデオ符号化部１１４は、その符号化により得られた符号化データ（ジオメトリビデオフレームの符号化データ）をマルチプレクサ１１８に供給する。

ビデオ符号化部１１５は、属性情報（Texture）のビデオフレームの符号化に関する処理を行う。例えば、ビデオ符号化部１１５は、パッキング部１１２から供給されるカラービデオフレームを取得する。また、ビデオ符号化部１１５は、その取得したカラービデオフレーム（例えば２Ｄデータが付加されたカラービデオフレーム）を、例えばAVCやHEVC等の任意の２次元画像用の符号化方法により符号化する。

その際、ビデオ符号化部１１５は、＜１．２Ｄデータの付加＞において上述したような方法で、２Ｄデータ生成部１１７の制御にしたがって、カラービデオフレームの符号化を行う。また、ビデオ符号化部１１５は、＜１．２Ｄデータの付加＞において上述したような、２Ｄデータ生成部１１７から供給されるシンタックス等のメタデータを、カラービデオフレームの符号化データ（ビットストリーム）に付加する。ビデオ符号化部１１５は、その符号化により得られた符号化データ（カラービデオフレームの符号化データ）をマルチプレクサ１１８に供給する。

OMap符号化部１１６は、オキュパンシーマップの符号化に関する処理を行う。例えば、OMap符号化部１１６は、パッキング部１１２から供給されるオキュパンシーマップを取得する。また、OMap符号化部１１６は、その取得したオキュパンシーマップを、例えば算術符号化等の任意の符号化方法により符号化する。OMap符号化部１１６は、その符号化により得られた符号化データ（オキュパンシーマップの符号化データ）をマルチプレクサ１１８に供給する。

２Ｄデータ生成部１１７は、＜１．２Ｄデータの付加＞において上述したような、２Ｄデータの生成に関する処理を行う。例えば、２Ｄデータ生成部１１７は、符号化装置１００に入力されるポイントクラウド（３Ｄデータ）を取得する。２Ｄデータ生成部１１７は、そのポイントクラウドが表現する３次元形状のオブジェクトをレンダリングし、レンダリング画像（２Ｄデータ）を生成する。また、２Ｄデータ生成部１１７は、その２Ｄデータに関する情報も生成する。

２Ｄデータ生成部１１７は、生成した２Ｄデータをパッキング部１１２に供給し、その２Ｄデータの配置を制御する。また、２Ｄデータ生成部１１７は、生成した２Ｄデータに関する情報（シンタックス等）をビデオ符号化部１１５に供給し、カラービデオフレームの符号化を制御する。さらに、２Ｄデータ生成部１１７は、生成した２Ｄデータに関する情報をメタデータとして、マルチプレクサ１１８に供給する。

マルチプレクサ１１８は、ビットストリームの生成（情報の多重化）に関する処理を行う。例えば、マルチプレクサ１１８は、補助パッチ情報圧縮部１１３から供給される補助パッチ情報の符号化データを取得する。また、マルチプレクサ１１８は、パッキング部１１２から供給されるパッキングに関する制御情報を取得する。さらに、マルチプレクサ１１８は、ビデオ符号化部１１４から供給されるジオメトリビデオフレームの符号化データを取得する。また、マルチプレクサ１１８は、ビデオ符号化部１１５から供給されるカラービデオフレームの符号化データを取得する。さらに、マルチプレクサ１１８は、OMap符号化部１１６から供給されるオキュパンシーマップの符号化データを取得する。また、マルチプレクサ１１８は、２Ｄデータ生成部１１７から供給されるメタデータを取得する。

マルチプレクサ１１８は、取得したそれらの情報を多重化して、ビットストリーム（Bitstream）を生成する。つまり、マルチプレクサ１１８は、３Ｄデータおよび２Ｄデータの符号化データと、その２Ｄデータに関する情報とを含むビットストリームを生成する。マルチプレクサ１１８は、そのビットストリームを符号化装置１００の外部に出力する（復号側に伝送する）。

以上のように符号化装置１００は、３Ｄデータのビデオベースドアプローチにおいて、ビットストリームに、３Ｄデータとは別の２Ｄデータを付加するので、＜１．２Ｄデータの付加＞において上述したように、復号側において、３次元形状のオブジェクトのレンダリングを行わずに、２次元画像を表示する（ビットストリームに含まれる２Ｄデータを再生する）ことができる。つまり、より容易に２次元画像を再生することができる。

＜２Ｄデータ生成部＞
図９は、図８の２Ｄデータ生成部１１７の主な構成例を示すブロック図である。図９に示される世に、２Ｄデータ生成部１１７は、制御部１３１、レンダリング部１３２、配置制御部１３３、シンタックス生成部１３４、符号化制御部１３５、およびメタデータ生成部１３６を有する。

制御部１３１は、レンダリングの制御に関する処理を行う。例えば、制御部１３１は、ユーザ等の外部から入力されるレンダリングの制御に関する情報（例えば、制御命令等）を受け付け、その情報に従ってレンダリング部１３２を制御する。

レンダリング部１３２は、レンダリングに関する処理を行う。例えば、レンダリング部１３２は、符号化装置１００に入力されるポイントクラウド（３Ｄデータ）を取得する。また、レンダリング部１３２は、制御部１３１の制御に従って、そのポイントクラウドが表現する３次元形状のオブジェクトをレンダリングし、レンダリング画像（２Ｄデータ）を生成する。レンダリング部１３２は、生成したレンダリング画像を配置制御部１３３に供給する。

配置制御部１３３は、レンダリング画像の配置の制御に関する処理を行う。例えば、配置制御部１３３は、レンダリング部１３２より供給されるレンダリング画像を取得する。また、配置制御部１３３は、そのレンダリング画像をパッキング部１１２に供給する。さらに、配置制御部１３３は、パッキング部１１２を制御し、そのレンダリング画像をカラービデオフレームの所定の位置に配置させる。配置制御部１３３は、そのレンダリング画像（２Ｄデータ）の空間的・時間的な配置位置を示す配置情報をシンタックス生成部１３４およびメタデータ生成部１３６に供給する。

シンタックス生成部１３４は、シンタックスの生成に関する処理を行う。例えば、シンタックス生成部１３４は、配置制御部１３３から供給される配置情報に基づいてシンタックスを生成する。例えば、シンタックス生成部１３４は、２次元画像空間位置管理情報や２次元画像時間位置管理情報等を含むシンタックスを生成する。シンタックス生成部１３４は、生成したシンタックスを符号化制御部１３５に供給する。

符号化制御部１３５は、カラービデオフレームの符号化の制御に関する処理を行う。例えば、符号化制御部１３５は、シンタックス生成部１３４から供給されるシンタックスを取得する。また、符号化制御部１３５は、ビデオ符号化部１１５を制御し、カラービデオフレームを所望の仕様で符号化させる。例えば、符号化制御部１３５は、ビデオ符号化部１１５を制御し、カラービデオフレームに付加した２Ｄデータを、独立して復号可能な符号化単位（例えばタイル、スライス、ピクチャ等）として符号化させる。また、符号化制御部１３５は、取得したシンタックス（２次元画像空間位置管理情報や２次元画像時間位置管理情報等）をビデオ符号化部１１５に供給し、それをカラービデオフレームのビットストリームに付加させる。

メタデータ生成部１３６は、メタデータの生成に関する処理を行う。例えばメタデータ生成部１３６は、配置制御部１３３から供給される配置情報に基づいてメタデータを生成する。例えば、メタデータ生成部１３６は、２次元画像有無識別情報や２次元画像再生補助情報等を含むメタデータを生成する。メタデータ生成部１３６は、その生成したメタデータをマルチプレクサ１１８に供給する。

＜符号化処理の流れ＞
次に、符号化装置１００により実行される符号化処理の流れの例を、図１０のフローチャートを参照して説明する。

符号化処理が開始されると、符号化装置１００の２Ｄデータ生成部１１７は、ステップＳ１０１において、２Ｄデータ生成処理を実行し、２Ｄデータを生成する。

ステップＳ１０２において、パッチ分解部１１１は、入力されたポイントクラウドを２次元平面に投影し、パッチに分解する。また、パッチ分解部１１１は、その分解についての補助パッチ情報を生成する。

ステップＳ１０３において、補助パッチ情報圧縮部１１３は、ステップＳ１０２において生成された補助パッチ情報を圧縮（符号化）する。

ステップＳ１０４において、パッキング部１１２は、ステップＳ１０２において生成された位置情報や属性情報の各パッチを２次元画像に配置してビデオフレームとしてパッキングする。また、パッキング部１１２は、オキュパンシーマップを生成する。さらに、パッキング部１１２は、カラービデオフレームに対してDilation処理を行う。また、パッキング部１１２は、このようなパッキングに関する制御情報を生成する。

ステップＳ１０５において、パッキング部１１２は、２Ｄデータ生成部１１７により制御されて、ステップＳ１０１において生成された２Ｄデータを、ステップＳ１０４において生成されたカラービデオフレームに埋め込む（付加する）。

ステップＳ１０６において、ビデオ符号化部１１４は、ステップＳ１０４において生成されたジオメトリビデオフレームを、２次元画像用の符号化方法により符号化する。

ステップＳ１０７において、ビデオ符号化部１１５は、ステップＳ１０４において生成されたカラービデオフレーム（ステップＳ１０５において２Ｄデータが付加されたカラービデオフレームを含む）を、２次元画像用の符号化方法により符号化する。

ステップＳ１０８において、OMap符号化部１１６は、ステップＳ１０４において生成されたオキュパンシーマップ（やオジリアリインフォメーション）を、所定の符号化方法により符号化する。

ステップＳ１０９において、マルチプレクサ１１８は、ステップＳ１０６乃至ステップＳ１０８のそれぞれにおいて生成された符号化データを多重化し、それらを含むビットストリーム（２Ｄデータが付加された３Ｄデータのビットストリーム）を生成する。

ステップＳ１１０において、マルチプレクサ１１８は、ステップＳ１０９において生成されたビットストリームに、ステップＳ１０１において生成された、２Ｄデータに関する情報を含むメタデータを付加する。

ステップＳ１１１において、マルチプレクサ１１８は、ステップＳ１１０において生成したビットストリームを符号化装置１００の外部に出力する。

ステップＳ１１１の処理が終了すると、ポイントクラウド符号化処理が終了する。

＜２Ｄデータ生成処理の流れ＞
次に、図１０のステップＳ１０１において実行される２Ｄデータ生成処理の流れの例を、図１１のフローチャートを参照して説明する。

２Ｄデータ生成処理が開始されると、２Ｄデータ生成部１１７の制御部１３１は、ステップＳ１３１において、レンダリングの制御に関する情報であるレンダリング制御情報を受け付ける。

ステップＳ１３２において、レンダリング部１３２は、ステップＳ１３１において受け付けたレンダリング制御情報に基づいて、符号化装置１００に入力されるポイントクラウドが表現する３次元形状のオブジェクトをレンダリングし、レンダリング画像を生成する。

ステップＳ１３３において、配置制御部１３３は、ステップＳ１３２において生成されたレンダリング画像をパッキング部１１２に供給し、パッキング部１１２を制御して、そのレンダリング画像をカラービデオフレームの所望の位置に配置させる。この処理は、図１０のステップＳ１０４の処理に対応して実行される。

ステップＳ１３４において、シンタックス生成部１３４は、ステップＳ１３３において行われたレンダリング画像の配置位置を示す配置情報に基づいて、所望のシンタックスを生成する。

ステップＳ１３５において、符号化制御部１３５は、その配置情報に基づいて、ビデオ符号化部１１５を制御し、カラービデオフレームの符号化を制御する。つまり、符号化制御部１３５は、カラービデオフレームを所望の仕様で符号化させ、ビットストリームを生成させる。

ステップＳ１３６において、符号化制御部１３５は、ビデオ符号化部１１５を制御し、ステップＳ１３４において生成されたシンタックスを、ステップＳ１３５において生成させたカラービデオフレームのビットストリームに付加させる。

なお、ステップＳ１３５およびステップＳ１３６の各処理は、図１０のステップＳ１０７の処理に対応して実行される。

ステップＳ１３７において、メタデータ生成部１３６は、ステップＳ１３３において行われたレンダリング画像の配置位置を示す配置情報に基づいて、所望のメタデータを生成する。

ステップＳ１３８において、メタデータ生成部１３６は、ステップＳ１３７において生成されたメタデータをマルチプレクサ１１８に供給し、それをステップＳ１０９において生成されたビットストリームに付加させる。なお、この処理は、図１０のステップＳ１１０の処理に対応して実行される。

ステップＳ１３８の処理が終了すると２Ｄデータ生成処理が終了し、処理は図１０に戻る。

以上のように各処理を実行することにより、符号化装置１００は、２Ｄデータが付加された３Ｄデータのビットストリームを生成することができる。したがって、符号化装置１００は、＜１．２Ｄデータの付加＞において上述したように、復号側において、３次元形状のオブジェクトのレンダリングを行わずに、２次元画像を表示する（ビットストリームに含まれる２Ｄデータを再生する）ことができる。つまり、より容易に２次元画像を再生することができる。

＜３．第２の実施の形態＞
＜復号装置＞
図１２は、本技術を適用した画像処理装置の一態様である復号装置の構成の一例を示すブロック図である。図１２に示される復号装置２００は、ポイントクラウドのような３Ｄデータが２次元平面に投影されて符号化された符号化データを２次元画像用の復号方法により復号し、３Ｄデータを再構築する装置（ビデオベースドアプローチを適用した復号装置）である。例えば、復号装置２００は、符号化装置１００（図８）が３Ｄデータを符号化して生成したビットストリーム（２Ｄデータが付加された３Ｄデータのビットストリーム）を復号し、その３Ｄデータを再構築する。また、復号装置２００は、そのビットストリームに含まれる２Ｄデータの符号化データを復号し、レンダリングを行わずに、２Ｄデータを生成する。

なお、図１２においては、処理部やデータの流れ等の主なものを示しており、図１２に示されるものが全てとは限らない。つまり、復号装置２００において、図１２においてブロックとして示されていない処理部が存在したり、図１２において矢印等として示されていない処理やデータの流れが存在したりしてもよい。

図１２に示されるように、復号装置２００は、デマルチプレクサ２１１、補助パッチ情報復号部２１２、ビデオ復号部２１３、ビデオ復号部２１４、OMap復号部２１５、アンパッキング部２１６、３Ｄ再構築部２１７、およびビデオ復号部２１８を有する。

デマルチプレクサ２１１は、データの逆多重化に関する処理を行う。例えば、デマルチプレクサ２１１は、復号装置２００に入力されるビットストリームを取得する。このビットストリームは、例えば、符号化装置１００より供給される。デマルチプレクサ２１１は、このビットストリームを逆多重化し、補助パッチ情報の符号化データを抽出し、それを補助パッチ情報復号部２１２に供給する。また、デマルチプレクサ２１１は、逆多重化により、ビットストリームから、ジオメトリビデオフレームの符号化データ（例えばGOFジオメトリビデオストリーム５２）を抽出し、それをビデオ復号部２１３に供給する。

さらに、デマルチプレクサ２１１は、逆多重化により、ビットストリームから、カラービデオフレームの符号化データ（例えばGOFテクスチャビデオストリーム５４）を抽出し、それをビデオ復号部２１４に供給する。また、デマルチプレクサ２１１は、逆多重化により、ビットストリームから、オキュパンシーマップ等の符号化データ（例えばGOFオグジリアリインフォメーションアンドオキュパンシーマップス５３）を抽出し、それをOMap復号部２１５に供給する。

さらに、デマルチプレクサ２１１は、逆多重化により、ビットストリームから、パッキングに関する制御情報を抽出し、それをアンパッキング部２１６に供給する（図示せず）。

また、デマルチプレクサ２１１は、ビットストリームに含まれるメタデータ（例えば２Ｄ制御シンタックス７１）に基づいて、ビットストリームから、２Ｄデータを含むカラービデオフレームのビットストリーム（例えばGOFテクスチャビデオストリーム５４）を抽出し、それをビデオ復号部２１８に供給する。

補助パッチ情報復号部２１２は、補助パッチ情報の符号化データの復号に関する処理を行う。例えば、補助パッチ情報復号部２１２は、デマルチプレクサ２１１から供給される補助パッチ情報の符号化データを取得する。また、補助パッチ情報復号部２１２は、その取得したデータに含まれる補助パッチ情報の符号化データを復号（伸長）する。補助パッチ情報復号部２１２は、復号して得られた補助パッチ情報を３Ｄ再構築部２１７に供給する。

ビデオ復号部２１３は、ジオメトリビデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部２１３は、デマルチプレクサ２１１から供給されるジオメトリビデオフレームの符号化データを取得する。ビデオ復号部２１３は、そのジオメトリビデオフレームの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号する。ビデオ復号部２１３は、その復号して得られたジオメトリビデオフレームを、アンパッキング部２１６に供給する。

ビデオ復号部２１４は、カラービデオフレームの符号化データの復号に関する処理を行う。例えば、ビデオ復号部２１４は、デマルチプレクサ２１１から供給されるカラービデオフレームの符号化データを取得する。ビデオ復号部２１４は、そのカラービデオフレームの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号する。ビデオ復号部２１４は、その復号して得られたカラービデオフレームを、アンパッキング部２１６に供給する。

OMap復号部２１５は、オキュパンシーマップ等の符号化データの復号に関する処理を行う。例えば、OMap復号部２１５は、デマルチプレクサ２１１から供給されるオキュパンシーマップ等の符号化データを取得する。OMap復号部２１５は、そのオキュパンシーマップ等の符号化データを、その符号化方式に対応する任意の復号方法により復号する。OMap復号部２１５は、その復号して得られたオキュパンシーマップ等の情報を、アンパッキング部２１６に供給する。

アンパッキング部２１６は、アンパッキングに関する処理を行う。例えば、アンパッキング部２１６は、ビデオ復号部２１３からジオメトリビデオフレームを取得し、ビデオ復号部２１４からカラービデオフレームを取得し、OMap復号部２１５からオキュパンシーマップ等の情報を取得する。また、アンパッキング部２１６は、パッキングに関する制御情報やオキュパンシーマップ等の情報に基づいて、ジオメトリビデオフレームやカラービデオフレームをアンパッキングし、ビデオフレームから位置情報（Geometry）のパッチ（ジオメトリパッチ）や属性情報（Texture）のパッチ（テクスチャパッチ）等を抽出する。

ここで、オキュパンシーマップには２Ｄデータについての情報が含まれないので、アンパッキング部２１６は、カラービデオフレームに含まれる２Ｄデータを無視し、テクスチャパッチのみをカラービデオフレームから抽出することができる。つまり、アンパッキング部２１６は、２Ｄデータが付加されていないビットストリームの場合と同様に、容易に、アンパッキングを行うことができる。

アンパッキング部２１６は、以上のようにアンパッキングして得られたジオメトリパッチ、テクスチャパッチ、およびオキュパンシーマップ等を、３Ｄ再構築部２１７に供給する。

３Ｄ再構築部２１７は、ポイントクラウドの再構築に関する処理を行う。例えば、３Ｄ再構築部２１７は、補助パッチ情報復号部２１２から供給される補助パッチ情報、並びに、アンパッキング部２１６から供給されるジオメトリパッチ、テクスチャパッチ、オキュパンシーマップ等の情報に基づいて、ポイントクラウドを再構築する。３Ｄ再構築部２１７は、再構築したポイントクラウドを復号装置２００の外部（例えば３Ｄディスプレイ３５等）に出力する。

ビデオ復号部２１８は、カラービデオフレームの符号化データに含まれる２Ｄデータの符号化データの復号に関する処理を行う。例えば、ビデオ復号部２１８は、デマルチプレクサ２１１から供給されるカラービデオフレームの符号化データを取得する。ビデオ復号部２１８は、そのカラービデオフレームの符号化データ（例えばGOFテクスチャビデオストリーム５４）に含まれる２Ｄデータの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号する。ビデオ復号部２１８は、その復号して得られた２Ｄデータ（例えばレンダリング画像）を、復号装置２００の外部（例えば２Ｄディスプレイ３６等）に出力する。

このような構成とすることにより、復号装置２００は、＜１．２Ｄデータの付加＞において上述したように、３次元形状のオブジェクトのレンダリングを行わずに、２次元画像を表示する（ビットストリームに含まれる２Ｄデータを再生する）ことができる。つまり、より容易に２次元画像を再生することができる。

＜ポイントクラウド復号処理の流れ＞
次に、復号装置２００により実行される復号処理の流れの例を、図１３のフローチャートを参照して説明する。

復号処理が開始されると、デマルチプレクサ２１１は、ステップＳ２０１において、復号装置２００に入力されたビットストリームを逆多重化する。

ステップＳ２０２において、デマルチプレクサ２１１は、２Ｄ制御シンタックスに基づいて、そのビットストリーム内に２Ｄデータが存在するか否かを判定する。例えば、２Ｄ制御シンタックスのthumbnail_available_flagが真であり、２Ｄデータが付加されていると判定された場合、処理はステップＳ２０３に進む。

ステップＳ２０３において、デマルチプレクサ２１１は、カラービデオフレームの符号化データ（GOFテクスチャビデオストリーム）を復号装置２００に入力されたビットストリームから抽出する。

ステップＳ２０４において、ビデオ復号部２１８は、ステップＳ２０３において抽出されたカラービデオフレームの符号化データ（GOFテクスチャビデオストリーム）に含まれる２Ｄデータの符号化データ（２Ｄ符号化データ）を復号する。なお、カラービデオフレームの符号化データを部分復号することができる場合、ビデオ復号部２１８は、２Ｄデータを含む部分のみを復号する。例えば、２Ｄデータが例えばタイル、スライス、またはピクチャ等のように独立して復号可能な符号化単位で符号化されている場合、ビデオ復号部２１８は、その符号化単位の部分のみを復号する。

ステップＳ２０５において、ビデオ復号部２１８は、以上のような復号により生成した２Ｄデータを復号装置２００の外部に出力する。

ステップＳ２０５の処理が終了すると、処理はステップＳ２０６に進む。また、ステップＳ２０２において、２Ｄデータが付加されていないと判定された場合、処理はステップＳ２０６に進む。

ステップＳ２０６において、補助パッチ情報復号部２１２は、ステップＳ２０１においてビットストリームから抽出された補助パッチ情報を復号する。

ステップＳ２０７において、ビデオ復号部２１３は、ステップＳ２０１においてビットストリームから抽出されたジオメトリビデオフレーム（位置情報のビデオフレーム）の符号化データを復号する。

ステップＳ２０８において、ビデオ復号部２１４は、ステップＳ２０１においてビットストリームから抽出されたカラービデオフレーム（属性情報のビデオフレーム）の符号化データを復号する。

ステップＳ２０９において、OMap復号部２１５は、ステップＳ２０１においてビットストリームから抽出されたオキュパンシーマップ等の符号化データを復号する。

ステップＳ２１０において、アンパッキング部２１６は、アンパッキングする。例えば、アンパッキング部２１６は、ステップＳ２０７において符号化データが復号されて得られたジオメトリビデオフレームを、ステップＳ２０９において符号化データが復号されて得られたオキュパンシーマップ等の情報に基づいてアンパッキングし、ジオメトリパッチを生成する。また、アンパッキング部２１６は、ステップＳ２０８において符号化データが復号されて得られたカラービデオフレームを、ステップＳ２０９において符号化データが復号されて得られたオキュパンシーマップ等の情報に基づいてアンパッキングし、テクスチャパッチを生成する。

ステップＳ２１１において、３Ｄ再構築部２１７は、ステップＳ２０６において得られた補助パッチ情報、並びに、ステップＳ２１０において得られたジオメトリパッチ、テクスチャパッチ、およびオキュパンシーマップ等に基づいて、ポイントクラウド（３次元形状のオブジェクト）を再構築する。

ステップＳ２１２において、３Ｄ再構築部２１７は、再構築したポイントクラウドを、復号装置２００の外部に出力する。

ステップＳ２１２の処理が終了すると復号処理が終了する。

以上のように各処理を実行することにより、復号装置２００は、＜１．２Ｄデータの付加＞において上述したように、３次元形状のオブジェクトのレンダリングを行わずに、２次元画像を表示する（ビットストリームに含まれる２Ｄデータを再生する）ことができる。つまり、より容易に２次元画像を再生することができる。

＜４．第３の実施の形態＞
＜復号装置＞
図１２においては、復号装置２００が、ビデオ復号部２１４とは別にビデオ復号部２１８を有するように説明したが、ビデオ復号部２１４およびビデオ復号部２１８は、ともにカラービデオフレームの符号化データを復号する処理部である。つまり、これらは互いに同様の機能を有する復号部である。したがって、ビデオ復号部２１４が行う処理と、ビデオ復号部２１８が行う処理とを１つのビデオ復号部において行うようにしてもよい。

図１４は、その場合の復号装置２００の主な構成例を示すブロック図である。図１４の例の場合、復号装置２００は、基本的に図１２の場合と同様の構成を有するが、図１２の場合と異なり、ビデオ復号部２１４およびビデオ復号部２１８の代わりに、ビデオ復号部２２１を有する。

ビデオ復号部２２１は、ビデオ復号部２１４が行う処理とビデオ復号部２１８が行う処理の両方を行う。例えば、ビデオ復号部２２１は、デマルチプレクサ２１１から供給されるカラービデオフレームの符号化データを取得し、そのカラービデオフレームの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号し、その復号して得られたカラービデオフレームを、アンパッキング部２１６に供給する。

また、例えば、ビデオ復号部２２１は、取得したカラービデオフレームの符号化データに含まれる２Ｄデータの符号化データを、例えばAVCやHEVC等の任意の２次元画像用の復号方法により復号し、その復号して得られた２Ｄデータ（例えばレンダリング画像）を、復号装置２００の外部（例えば２Ｄディスプレイ３６等）に出力する。

このようにすることにより、復号装置２００の構成を、図１２の場合よりも簡略化することができる。つまり、復号装置２００の回路規模の増大を抑制することができる。

なお、復号処理の流れは、図１３のフローチャートを参照して説明した場合と同様であるので、その説明は省略する。

＜５．付記＞
＜コンピュータ＞
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

図１５に示されるコンピュータ９００において、CPU（Central Processing Unit）９０１、ROM（Read Only Memory）９０２、RAM（Random Access Memory）９０３は、バス９０４を介して相互に接続されている。

バス９０４にはまた、入出力インタフェース９１０も接続されている。入出力インタフェース９１０には、入力部９１１、出力部９１２、記憶部９１３、通信部９１４、およびドライブ９１５が接続されている。

入力部９１１は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部９１２は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部９１３は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部９１４は、例えば、ネットワークインタフェースよりなる。ドライブ９１５は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア９２１を駆動する。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記憶部９１３に記憶されているプログラムを、入出力インタフェース９１０およびバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。RAM９０３にはまた、CPU９０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９２１に記録して適用することができる。その場合、プログラムは、リムーバブルメディア９２１をドライブ９１５に装着することにより、入出力インタフェース９１０を介して、記憶部９１３にインストールすることができる。

また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部９１４で受信し、記憶部９１３にインストールすることができる。

その他、このプログラムは、ROM９０２や記憶部９１３に、あらかじめインストールしておくこともできる。

＜本技術の適用対象＞
以上においては、ポイントクラウドデータの符号化・復号に本技術を適用する場合について説明したが、本技術は、これらの例に限らず、任意の規格の３Ｄデータの符号化・復号に対して適用することができる。つまり、上述した本技術と矛盾しない限り、符号化・復号方式等の各種処理、並びに、３Ｄデータやメタデータ等の各種データの仕様は任意である。また、本技術と矛盾しない限り、上述した一部の処理や仕様を省略してもよい。

本技術は、任意の構成に適用することができる。例えば、本技術は、衛星放送、ケーブルＴＶなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機（例えばテレビジョン受像機や携帯電話機）、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置（例えばハードディスクレコーダやカメラ）などの、様々な電子機器に適用され得る。

また、例えば、本技術は、システムLSI（Large Scale Integration）等としてのプロセッサ（例えばビデオプロセッサ）、複数のプロセッサ等を用いるモジュール（例えばビデオモジュール）、複数のモジュール等を用いるユニット（例えばビデオユニット）、または、ユニットにさらにその他の機能を付加したセット（例えばビデオセット）等、装置の一部の構成として実施することもできる。

また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV（Audio Visual）機器、携帯型情報処理端末、IoT（Internet of Things）デバイス等の任意の端末に対して、画像（動画像）に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。

なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

＜本技術を適用可能な分野・用途＞
本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。

＜その他＞
なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の２状態を識別する際に用いる情報だけでなく、３以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の２値であってもよいし、３値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、１bitでも複数bitでもよい。また、識別情報（フラグも含む）は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。

また、符号化データ（ビットストリーム）に関する各種情報（メタデータ等）は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る（リンクさせ得る）ようにすることを意味する。つまり、互いに関連付けられたデータは、１つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ（画像）に関連付けられた情報は、その符号化データ（画像）とは別の記録媒体（または同一の記録媒体の別の記録エリア）に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、１フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。

なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを１つのデータにまとめるといった、複数の物を１つにまとめることを意味し、上述の「関連付ける」の１つの方法を意味する。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

また、例えば、１つのフローチャートの各ステップを、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、１つのステップに複数の処理が含まれる場合、その複数の処理を、１つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

２１３Ｄデータエンコーダ，２２レンダラ，３１デマルチプレクサ，３２３Ｄデータデコーダ，３３２Ｄビデオデコーダ，３４レンダラ，３５３Ｄディスプレイ，３６２Ｄディスプレイ，４０ビットストリーム，４１ストリームヘッダ，４２ GOFストリーム，１００符号化装置，１１１パッチ分解部，１１２パッキング部，１１３補助パッチ情報圧縮部，１１４ビデオ符号化部，１１５ビデオ符号化部，１１６ OMap符号化部，１１７２Ｄデータ生成部，１１８マルチプレクサ，１３１制御部，１３２レンダリング部，１３３配置制御部，１３４シンタックス生成部，１３５符号化制御部，１３６メタデータ生成部，２００復号装置，２１１デマルチプレクサ，２１２補助パッチ情報復号部，２１３ビデオ復号部，２１４ビデオ復号部，２１５ OMap復号部，２１６アンパッキング部，２１７３Ｄ再構築部，２１８ビデオ復号部，２２１ビデオ復号部

Claims

３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームを生成する生成部と、
前記生成部により生成された前記ビデオフレームを符号化して、ビットストリームを生成する符号化部と
を備える画像処理装置。
前記２次元画像は、前記オブジェクトをレンダリングしたレンダリング画像である
請求項１に記載の画像処理装置。
前記レンダリング画像は、推奨するカメラ位置および方向より前記オブジェクトを撮像したようにレンダリングした画像である
請求項２に記載の画像処理装置。
前記生成部は、前記レンダリング画像の動画像を複数含む、前記ビデオフレームからなる動画像を生成し、
前記符号化部は、前記生成部により生成された前記動画像を符号化して前記ビットストリームを生成する
請求項３に記載の画像処理装置。
複数の前記レンダリング画像の動画像は、互いに同一のカメラワークで前記オブジェクトをレンダリングしたレンダリング画像である
請求項４に記載の画像処理装置。
前記オブジェクトをレンダリングしてレンダリング画像を生成するレンダリング部をさらに備え、
前記生成部は、前記パッチと前記レンダリング部により生成された前記レンダリング画像とを含む前記ビデオフレームを生成する
請求項２に記載の画像処理装置。
前記生成部は、前記ポイントクラウドの属性情報を２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むカラービデオフレームを生成する
請求項１に記載の画像処理装置。
前記符号化部は、複数階層構造で前記ビデオフレームを符号化し、
前記生成部は、前記複数階層構造の一部の階層の前記ビデオフレームに前記２次元画像を含む動画像を生成する
請求項１に記載の画像処理装置。
前記符号化部は、複数階層構造で前記ビデオフレームを符号化し、
前記生成部は、前記複数階層構造の全ての階層の前記ビデオフレームに前記２次元画像を含む動画像を生成する
請求項１に記載の画像処理装置。
前記符号化部は、前記２次元画像に関する情報をさらに含む前記ビットストリームを生成する
請求項１に記載の画像処理装置。
前記２次元画像に関する情報は、前記ビットストリームに前記２次元画像のデータが含まれているか否かを示す２次元画像有無識別情報を含む
請求項１０に記載の画像処理装置。
前記２次元画像に関する情報は、前記２次元画像の空間方向の位置を管理する２次元画像空間位置管理情報を含む
請求項１０に記載の画像処理装置。
前記２次元画像に関する情報は、前記２次元画像の時間方向の位置を管理する２次元画像時間位置管理情報を含む
請求項１０に記載の画像処理装置。
前記２次元画像に関する情報は、前記２次元画像の再生を補助する２次元画像再生補助情報を含む
請求項１０に記載の画像処理装置。
前記符号化部は、前記２次元画像を、前記パッチとは独立に符号化する
請求項１に記載の画像処理装置。
前記符号化部は、前記２次元画像を、前記２次元画像用の符号化パラメータを用いて符号化する
請求項１５に記載の画像処理装置。
３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームを生成し、
生成された前記ビデオフレームを符号化して、ビットストリームを生成する
画像処理方法。
３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームの符号化データを含むビットストリームより、前記符号化データを抽出する抽出部と、
前記抽出部により前記ビットストリームから抽出された前記符号化データを復号して、前記２次元画像を復元する２次元復号部と
を備える画像処理装置。
前記ビットストリームを復号して、前記ポイントクラウドを再構築する３次元復号部をさらに備える
請求項１８に記載の画像処理装置。
３次元形状のオブジェクトを点群として表現するポイントクラウドを２次元平面上に投影したパッチと、前記パッチと異なる２次元画像とを含むビデオフレームの符号化データを含むビットストリームより、前記符号化データを抽出し、
前記ビットストリームから抽出された前記符号化データを復号して、前記２次元画像を復元する
画像処理方法。