WO2020179473A1

WO2020179473A1 - 画像処理装置、画像生成方法、および、画像処理方法

Info

Publication number: WO2020179473A1
Application number: PCT/JP2020/006790
Authority: WO
Inventors: 祐一荒木
Original assignee: ソニー株式会社
Priority date: 2019-03-05
Filing date: 2020-02-20
Publication date: 2020-09-10
Also published as: US20220084282A1; JPWO2020179473A1; KR20210133958A; EP3937499A4; EP3937499A1; CN113475080A

Abstract

本技術は、データ量を削減しつつ、リアルタイム処理にも適応できるようにする画像処理装置、画像生成方法、および、画像処理方法に関する。画像処理装置は、異なる方向からオブジェクトが撮影された複数の画像のうち、オブジェクトが第１方向を向いている第１オブジェクト画像を、オブジェクトが第２方向を向いている第２オブジェクト画像より解像度を高くして、第１オブジェクト画像と第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成し、さらに、オブジェクトが第３方向を向いている第３オブジェクト画像を、オブジェクトが第４方向を向いている第４オブジェクト画像より解像度を高くして、第３オブジェクト画像と第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する。本技術は、例えば、複数枚のテクスチャ画像を用いたボリューメトリック再生処理を行う画像処理装置等に適用できる。

Description

画像処理装置、画像生成方法、および、画像処理方法

　本技術は、画像処理装置、画像生成方法、および、画像処理方法に関し、特に、データ量を削減しつつ、リアルタイム処理にも適応できるようにした画像処理装置、画像生成方法、および、画像処理方法に関する。

　多視点で撮影された動画像から被写体の３Dモデルを生成し、任意の視聴位置に応じた３Dモデルの仮想視点画像を生成することで自由な視点の画像を提供する技術がある。この技術は、ボリューメトリックキャプチャ技術などとも呼ばれている。

　撮影された全ての視点からの撮影画像を再生側に伝送すると、データの伝送量が膨大となるため、再生時の視聴位置に応じて一部の視点の動画像のみを選択してパッキングし、再生側へ送信するようにしたものがある（例えば、特許文献１参照）。

国際公開第２０１８／１５０９３３号

　しかしながら、例えば、特許文献１の技術では、再生時の視聴位置に応じて、その都度、再生側に伝送する視点の動画像の選択、パッキング、および、伝送の処理を行う必要があり、リアルタイム処理への対応が困難な場合がある。

　本技術は、このような状況に鑑みてなされたものであり、データ量を削減しつつ、リアルタイム処理にも適応できるようにするものである。

　本技術の第１の側面の画像処理装置は、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する生成部を備え、前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する。

　本技術の第１の側面の画像生成方法は、画像処理装置が、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する第１生成ステップと、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する第２生成ステップとにより複数のパッキング画像を生成する。

　本技術の第１の側面においては、異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像が生成され、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像が生成される。

　本技術の第２の側面の画像処理装置は、第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である。

　本技術の第２の側面の画像処理方法は、画像処理装置が、第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である。

　本技術の第２の側面においては、第１パッキング画像、または、第２パッキング画像が取得され、視聴者の視点からオブジェクトを見た仮想視点画像が表示画像として生成される。前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である。

　なお、本技術の第１および第２の側面の画像処理装置は、コンピュータにプログラムを実行させることにより実現することができる。コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

　画像処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

本技術を適用した画像処理システムの概要を説明する図である。本技術を適用した画像処理システムの構成例を示すブロック図である。複数の撮像装置と被写体との位置関係を模式的に示した図である。テクスチャ画像とデプス画像の例を示す図である。想定仮想視点を説明する図である。９枚のオブジェクト画像の例を示す図である。オブジェクト画像のマッピング例を示す図である。各レイアウト位置にマッピングされるオブジェクト画像を説明する図である。４方向の想定仮想視点について生成した４枚のパッキング画像の例を示す図である。４枚のパッキング画像のビットストリームの切り替えを説明する図である。パッキング画像のその他のレイアウト例を示す図である。撮像装置の配置例とパッキング画像の生成例を説明する図である。画像選択装置によるパッキング画像の選択処理を説明する図である。ボリューメトリック再生処理を説明するフローチャートである。図１４のステップＳ１２におけるパッキング画像生成処理の詳細を説明するフローチャートである。 GOP単位のストリームの切り替えを説明する図である。図１５のステップＳ４４における解像度計算処理の詳細を説明するフローチャートである。図１５のステップＳ４５におけるマッピング処理の詳細を説明するフローチャートである。撮像装置のメタ情報とビットストリームのメタ情報の例を示す図である。第１の変形例における複数種類のパッキング画像の例を示す図である。第１の変形例におけるパッキング画像生成処理を説明するフローチャートである。第１の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。第２の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。第３の変形例を説明する図である。第３の変形例におけるパッキング画像の選択に関する処理を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を実施するための形態（以下、実施形態という）について説明する。なお、説明は以下の順序で行う。
１．画像処理システムの概要
２．画像処理システムの構成例
３．ボリューメトリック再生処理
４．パッキング画像の生成処理
５．解像度計算処理
６．マッピング処理
７．第１の変形例
８．第２の変形例
９．第３の変形例
１０．コンピュータ構成例

＜１．画像処理システムの概要＞
　初めに、図１を参照して、本技術を適用した画像処理システムの概要について説明する。

　図１は、本技術を適用した画像処理システムにおける、撮影画像の生成から視聴までの一連の流れを示している。

　本技術を適用した画像処理システムは、複数の撮像装置で撮像して得られた撮影画像からオブジェクトの3Dモデルを生成して配信する配信側と、配信側から伝送されてくる3Dモデルを受け取り、再生表示する再生側とからなる。

　配信側においては、所定の撮影空間を、その外周から複数の撮像装置で撮像を行うことにより複数の撮影画像が得られる。撮影画像は、例えば、動画像で構成される。図１の例では、被写体＃Ob1を取り囲むように３台の撮像装置CAM１乃至CAM３が配置されているが、撮像装置CAMの台数は３台に限らず、任意である。被写体＃Ob1は、所定の動作をとっている人物とされている。

　異なる方向の複数の撮像装置CAMから得られた撮影画像を用いて、撮影空間において表示対象となる被写体＃Ob1の3Dモデルである３DオブジェクトMO1が生成される（３Dモデリング）。例えば、異なる方向の撮影画像を用いて被写体の３次元形状の削り出しを行うVisual Hull等の手法を用いて、３DオブジェクトMO1が生成される。

　そして、撮影空間に存在する１以上の３Dオブジェクトのうち、１以上の３Dオブジェクトのデータ（以下、３Dモデルデータとも称する。）が、再生側の装置に伝送され、再生される。すなわち、再生側の装置において、取得した３Dオブジェクトのデータに基づいて、３Dオブジェクトのレンダリングを行うことにより、視聴者の視聴デバイスに3D形状映像が表示される。図１においては、視聴デバイスが、ディスプレイD1や、ヘッドマウントディスプレイ（HMD）D2である例を示している。

　再生側は、撮影空間に存在する１以上の３Dオブジェクトのうち、視聴対象の３Dオブジェクトだけを要求して、視聴デバイスに表示させることが可能である。例えば、再生側は、視聴者の視聴範囲が撮影範囲となるような仮想カメラを想定し、撮影空間に存在する多数の３Dオブジェクトのうち、仮想カメラで捉えられる３Dオブジェクトのみを要求して、視聴デバイスに表示させる。実世界において視聴者が任意の視点から被写体を見ることができるように、仮想カメラの視点（仮想視点）は任意の位置に設定することができる。３Dオブジェクトには、適宜、所定の空間を表す背景の映像が合成される。

＜２．画像処理システムの構成例＞
　図２は、本技術を適用した画像処理システムの構成例を示すブロック図である。

　図２の画像処理システム１０は、図１で説明した配信側として、３Dデータ生成装置２１、画像生成装置２２、符号化装置２３、画像選択装置２４、および、送信装置２５を備える。

　配信側の３Dデータ生成装置２１、画像生成装置２２、符号化装置２３、画像選択装置２４、および、送信装置２５は、それぞれ、個別に構成されてもよいし、２つ以上の装置が一体化された構成でもよい。例えば、図１において破線で示されるように、３Dデータ生成装置２１、画像生成装置２２、符号化装置２３、画像選択装置２４、および、送信装置２５が１つの配信装置４１を構成してもよい。この場合、３Dデータ生成装置２１、画像生成装置２２、符号化装置２３、画像選択装置２４、および、送信装置２５は、それぞれ、配信装置４１の３Dデータ生成部、画像生成部、符号化部、画像選択部、および、送信部を構成する。

　また、画像処理システム１０は、図１で説明した再生側として、受信装置３１、復号装置３２、レンダリング装置３３、表示装置３４、および、視聴条件取得装置３５を備える。

　再生側の、受信装置３１、復号装置３２、および、レンダリング装置３３は、それぞれ、個別に構成されてもよいし、２つ以上の装置が一体化された構成でもよい。例えば、図１において破線で示されるように、受信装置３１、復号装置３２、および、レンダリング装置３３が１つの再生装置４２を構成してもよい。この場合、受信装置３１、復号装置３２、および、レンダリング装置３３は、それぞれ、再生装置４２の受信部、復号部、および、レンダリング部を構成する。

　配信側の送信装置２５と再生側の受信装置３１は、所定のネットワークを介して接続される。ネットワークは、例えば、インターネット、電話回線網、衛星通信網、Ethernet（登録商標）を含む各種のLAN（Local Area Network）、WAN（Wide Area Network）、IP-VPN（Internet Protocol-Virtual Private Network）などの専用回線網などで構成される。

　画像処理システム１０の３Dデータ生成装置２１には、被写体を撮影した複数の撮像装置それぞれから、撮影画像が供給される。撮影画像は、被写体の色を特定する情報であり、以下では、テクスチャ画像と称する。テクスチャ画像は、動画像で構成される。

　図３は、複数の撮像装置と被写体との位置関係を模式的に示した図である。

　図３の例では、部屋のような撮影空間５１の中央部に、人及び２つのボールを含む被写体５２が存在している。そして、被写体５２を囲むように、９台の撮像装置５３－１乃至５３－９が配置されている。なお、撮像装置５３－１乃至５３－９は、斜線のパターンが付されたマルにより簡略化して図示されている。

　撮像装置５３－１、撮像装置５３－３、撮像装置５３－５、及び、撮像装置５３－７は、それぞれ撮影空間５１の各壁のほぼ中央から、被写体５２を向くように配置されている。撮像装置５３－１と撮像装置５３－５、及び、撮像装置５３－３と撮像装置５３－７は、それぞれ対向している。撮像装置５３－２、撮像装置５３－４、撮像装置５３－６、及び、撮像装置５３－８は、それぞれ撮影空間５１の各コーナ付近から、被写体５２を向くように配置されている。撮像装置５３－２と撮像装置５３－６、及び、撮像装置５３－４と撮像装置５３－８は、それぞれ対向している。撮像装置５３－９は、撮影空間５１の天井のほぼ中央から、被写体５２を見下ろすように配置されている。

　このように、撮像装置５３－１乃至撮像装置５３－９それぞれは、異なる位置に配置され、被写体５２を異なる視点（現実の視点）から撮影し、その結果得られるテクスチャ画像を、３Dデータ生成装置２１に供給する。各撮像装置５３のワールド座標系上の位置は既知であり、各撮像装置５３のカメラパラメータ（外部パラメータおよび内部パラメータ）も、３Dデータ生成装置２１に供給される。

　なお、撮像装置５３は、３Dモデルデータを生成するための事前の準備として、被写体５２が存在しない状態で撮影空間５１を撮像した背景画像を生成する。背景画像は動画像である必要はなく、静止画像でよい。背景画像は、再生側に送信してもよく、再生側では、送信されてきた３Dモデルデータの３Dオブジェクトを背景画像に合成して表示させることができる。

　図２に戻り、３Dデータ生成装置２１は、複数の撮像装置５３それぞれから供給される被写体のテクスチャ画像とカメラパラメータとを用いて、撮影空間５１内に存在する１以上の被写体を１つのオブジェクトとして、オブジェクトごとに3Dモデルを生成し、生成された各オブジェクトの3Dモデルデータを画像生成装置２２に供給する。

　例えば、３Dデータ生成装置２１は、撮像装置５３から供給される被写体を含むテクスチャ画像と背景画像との差分を抽出することにより、被写体領域を抽出したシルエット画像を生成する。そして、３Dデータ生成装置２１は、異なる方向の複数枚のシルエット画像とカメラパラメータを用いて、Visual Hull等の手法により、オブジェクトの3Dモデルを生成し、生成した３Dモデルを表す３Dモデルデータを生成する。

　３Dモデルデータの形式は、視聴時の視点（仮想視点）に応じて、再生端末側で色を付けるViewDependentレンダリングに対応した形式であるとする。換言すれば、３Dモデルデータの形式は、複数の撮像装置５３で撮像されたテクスチャ画像を、色情報として再生端末側に送信する形式である。

　各撮像装置５３で撮像されたテクスチャ画像を色情報として送信するViewDependentレンダリングに対応した形式において、オブジェクトの形状を規定するジオメトリ情報のデータ形式は問わない。例えば、オブジェクトのジオメトリ情報は、複数の撮像装置５３で撮像されたテクスチャ画像に対応するデプス画像でもよいし、オブジェクトの３次元位置を点の集合で表したポイントクラウドや、頂点（Vertex）と頂点間のつながりで表したポリゴンメッシュでもよい。

　図４は、オブジェクトのジオメトリ情報として、撮像装置５３－１乃至撮像装置５３－９で得られたテクスチャ画像に対応するデプス画像の例を示している。

　テクスチャ画像TI1乃至テクスチャ画像TI9は、撮像装置５３－１乃至撮像装置５３－９により撮影されたテクスチャ画像の例を示している。

　デプス画像DI1乃至デプス画像DI9は、テクスチャ画像TI1乃至テクスチャ画像TI9に対応するデプス画像の例を示している。

　本実施の形態においては、オブジェクトの色情報については、各撮像装置５３で撮像されたテクスチャ画像（の少なくとも一部）を送信することとするが、オブジェクトのジオメトリ情報については、デプス画像、ポイントクラウド、ポリゴンメッシュのいずれを採用してもよい。以下では、オブジェクトのジオメトリ情報として所定の形式で表されたオブジェクトのデータを、オブジェクトの３次元データとも称する。

　図２に戻り、３Dデータ生成装置２１は、生成した３Dモデルデータを、画像生成装置２２に供給する。

　画像生成装置２２は、３Dデータ生成装置２１から供給される３Dモデルデータに含まれる、各撮像装置５３で撮像されたオブジェクトのテクスチャ画像を所定の順番に配列し、１つの画像にパッキング（結合）することにより、オブジェクトのパッキング画像を生成する。以下、簡単のため、テクスチャ画像からオブジェクトの領域だけをクロップした画像を、オブジェクト画像と称し、複数のオブジェクト画像を１枚の画像にパッキングした画像がパッキング画像となる。

　画像生成装置２２は、再生側において想定される複数の仮想視点（想定仮想視点）を設定し、想定仮想視点ごとにパッキング画像を生成する。

　例えば、画像生成装置２２は、図５に示されるように、被写体５２の正面方向、右サイド方向、背面方向、および、左サイド方向の４方向を想定仮想視点として決定し、４種類のパッキング画像を生成する。尚、被写体５２の正面方向、右サイド方向、背面方向、および、左サイド方向など、本明細書で使用している「方向」はある程度の角度を持った概念として用いられる。

　画像生成装置２２は、想定仮想視点ごとのパッキング画像を生成する際、複数のオブジェクト画像を同一条件でパッキングするのではなく、オブジェクト画像の縮小率を複数種類設定し、異なる縮小率で縮小した複数のオブジェクト画像をパッキングして、パッキング画像を生成する。より具体的には、画像生成装置２２は、想定仮想視点に近い方向のオブジェクト画像を、その他の方向のオブジェクト画像より解像度を高くして、複数のオブジェクト画像を１フレームにパッキングしたパッキング画像を生成する。

　図６乃至図１０を参照して、画像生成装置２２が、撮像装置５３－１乃至撮像装置５３－９でそれぞれ撮影された９枚のテクスチャ画像TI1乃至テクスチャ画像TI9を用いて、図５に示した４方向の想定仮想視点に対応する、４種類のパッキング画像を生成する例について説明する。

　画像生成装置２２には、撮像装置５３－１乃至撮像装置５３－９でそれぞれ撮影された９枚のテクスチャ画像TI1乃至テクスチャ画像TI9が供給される。画像生成装置２２は、９枚のテクスチャ画像TI1乃至テクスチャ画像TI9それぞれから前景領域を切り出すことにより、オブジェクト画像BI1乃至BI9を生成する。

　図６は、９枚のテクスチャ画像TI1乃至テクスチャ画像TI9から生成された９枚のオブジェクト画像BI1乃至BI9の例を示している。

　画像生成装置２２は、この９枚のオブジェクト画像BI1乃至BI9を必要に応じて所定の縮小率で縮小し、１つの画像にパッキング（結合）することにより、パッキング画像を生成する。

　図７は、９枚のオブジェクト画像を所定の順番に配列し、１つのパッキング画像を生成する場合のオブジェクト画像のマッピング例を示している。

　ｐ（ｐ＝０，２，３，・・・，８）は、１つのパッキング画像のレイアウト位置（マッピング場所）を識別するパラメータである。

　レイアウト位置ｐ＝０乃至２には、縮小率を元のオブジェクト画像の等倍としたオブジェクト画像がマッピングされる。レイアウト位置ｐ＝３乃至５には、縮小率を元のオブジェクト画像の１／２としたオブジェクト画像がマッピングされる。レイアウト位置ｐ＝６乃至８には、縮小率を元のオブジェクト画像の１／４としたオブジェクト画像がマッピングされる。

　９枚のオブジェクト画像BI1乃至BI9のうち、どのオブジェクト画像をレイアウト位置ｐ＝０乃至８にマッピングするかは、想定仮想視点を基準に決定される。

　図８は、想定仮想視点が右サイド方向である場合のレイアウト位置ｐ＝０乃至８にマッピングされるオブジェクト画像BI1乃至BI9を説明する図である。

　図８には、撮影空間５１に対する撮像装置５３－１乃至撮像装置５３－９の方向が矢印で示されており、想定仮想視点が目のイラストで示されている。想定仮想視点を右サイド方向とした場合、想定仮想視点に最も近い撮影方向は、撮像装置５３－３の撮影方向である。

　縮小率が等倍のレイアウト位置ｐ＝０乃至２には、想定仮想視点に近い撮像装置５３－２乃至５３－４で撮影されたテクスチャ画像TI2乃至テクスチャ画像TI4から生成されたオブジェクト画像BI2乃至BI4がマッピングされる。

　縮小率が１／２のパッキング画像のレイアウト位置ｐ＝３乃至５には、想定仮想視点に次に近い撮像装置５３－１、５３－５、および５３－９で撮影されたテクスチャ画像TI1、TI5、およびTI9から生成されたオブジェクト画像BI1、BI5、およびBI9がマッピングされる。

　縮小率が１／４のパッキング画像のレイアウト位置ｐ＝６乃至８には、想定仮想視点から遠い撮像装置５３－６乃至５３－８で撮影されたテクスチャ画像TI6乃至TI8から生成されたオブジェクト画像BI6乃至BI8がマッピングされる。

　以上のように、画像生成装置２２は、９枚のオブジェクト画像BI1乃至BI9を１つの画像にパッキング（結合）する際、想定仮想視点に遠い撮影方向（視点）の画像ほど、縮小率を小さく、すなわち画像サイズを小さく設定したオブジェクト画像をパッキングする。

　換言すれば、画像生成装置２２は、９枚のオブジェクト画像BI1乃至BI9を１つの画像にパッキングする際、想定仮想視点に近い撮影方向（視点）の画像ほど、元のテクスチャ画像の解像度（画像サイズ）に近いオブジェクト画像をパッキングする。

　図９は、９枚のオブジェクト画像BI1乃至BI9を用いて、図５に示した４方向の想定仮想視点について生成した４枚（４種類）のパッキング画像の例を示している。

　第１パッキング画像７１Aは、想定仮想視点を、撮像装置５３－１の撮影方向と同一である正面方向とした場合のパッキング画像を示している。

　想定仮想視点を正面方向とする第１パッキング画像７１Aのレイアウト位置ｐ＝０乃至２には、撮像装置５３－１、５３－２、および５３－８で撮影されたテクスチャ画像TI1、TI2、および、TI8から生成したオブジェクト画像BI1、BI2、および、BI8がマッピングされている。

　第２パッキング画像７１Bは、想定仮想視点を、撮像装置５３－３の撮影方向と同一である右サイド方向とした場合のパッキング画像を示している。

　想定仮想視点を右サイド方向とする第２パッキング画像７１Bのレイアウト位置ｐ＝０乃至２には、撮像装置５３－２、５３－３、および５３－４で撮影されたテクスチャ画像TI2、TI3、および、TI4から生成したオブジェクト画像BI2、BI3、および、BI4がマッピングされている。

　第３パッキング画像７１Cは、想定仮想視点を、撮像装置５３－７の撮影方向と同一である左サイド方向とした場合のパッキング画像を示している。

　想定仮想視点を左サイド方向とする第３パッキング画像７１Cのレイアウト位置ｐ＝０乃至２には、撮像装置５３－６、５３－７、および５３－８で撮影されたテクスチャ画像TI6、TI7、および、TI8から生成したオブジェクト画像BI6、BI7、および、BI8がマッピングされている。

　第４パッキング画像７１Dは、想定仮想視点を、撮像装置５３－５の撮影方向と同一である背面方向とした場合のパッキング画像を示している。

　想定仮想視点を背面方向とする第４パッキング画像７１Dのレイアウト位置ｐ＝０乃至２には、撮像装置５３－４、５３－５、および５３－６で撮影されたテクスチャ画像TI4、TI5、および、TI6から生成したオブジェクト画像BI4、BI5、および、BI6がマッピングされている。

　第１パッキング画像７１A乃至第４パッキング画像７１Dの他のレイアウト位置ｐ＝３乃至８についての説明は省略するが、想定仮想視点を基準とする図８で説明した規則でマッピングされている。

　このように、想定視点に応じてパッキング画像を生成することで、想定仮想視点に近い撮影方向のオブジェクト画像ほど、元の解像度に近い縮小率で再生側に提供されるので、高精細な画像を用いてレンダリングすることができる。

　また、想定仮想視点の裏側など、想定仮想視点から遠い撮影方向のオブジェクト画像についても、縮小率は小さいながらも再生側に提供することができる。このため、例えば、ヘッドマウントディスプレイを装着したユーザの視聴方向が急激に変更するなどして仮想視点が急激に変化しても、画像が途切れることなく、レンダリングが可能である。

　以上より、画像生成装置２２により生成された複数のパッキング画像のうち１つを配信側から再生側に伝送するだけで、想定視点は高品質のオブジェクト画像を視聴できると共に、想定視点以外の視点に急激に切替わっても画面が途切れることなくレンダリングが可能である。すなわち、配信側から再生側に伝送する伝送量を抑えつつ、想定視点では高品質、想定視点以外の一部又は全領域で少なくとも最低限のレンダリングを保証することができる。

　再生側では、４方向の想定仮想視点に対応する４種類のパッキング画像のビットストリームのうち、１つのパッキング画像のビットストリームのみが受信される。言い換えれば、４種類のパッキング画像のビットストリームが、視聴者の視点（仮想視点）に応じて切替えられる。

　ビットストリームの伝送においては、GOP(group of picture)単位でしかビットストリームを切り替えることができない。例えば、図１０に示されるように、再生側のレンダリング装置３３が、時刻ｔ１１において右サイド方向の第２パッキング画像７１Bのビットストリームに基づいて再生表示しており、時刻ｔ１２において視聴者の視点が正面方向に急激に変化した場合であっても、正面方向の第１パッキング画像７１Aのビットストリームに切り替えられるのは、時刻ｔ２１となる。図１０において、時刻ｔ１１、ｔ２１、ｔ３１、ｔ４１の丸印は、ビットストリームのGOPの先頭を表す。そのため、時刻ｔ１２から時刻ｔ２１までの間は、右サイド方向の第２パッキング画像７１Bのビットストリームが用いられる。１つのパッキング画像７１のビットストリームに、全ての撮影方向のオブジェクト画像BI1乃至BI9をパッキングしておくことにより、ストリームが切り替わるまでは、切替え前のストリームにパッキングされたオブジェクト画像BIを用いて再生表示することができるので、画像が途切れることなく、レンダリングが可能である。

　なお、図７乃至図９で示したパッキング画像７１のレイアウトは、あくまで一例であり、パッキング画像７１のレイアウトは、撮像装置５３の台数および配置（撮影位置）によって、任意に決定することができる。勿論、撮像装置５３の台数が９台である場合に、図７に示したレイアウトとは異なるレイアウトを採用してもよい。

　図１１は、撮像装置５３の台数が１４台である場合のパッキング画像のレイアウトの一例を示している。

　このパッキング画像では、レイアウト位置ｐ＝０乃至３にマッピングされるオブジェクト画像が、縮小率が等倍のオブジェクト画像とされる。

　画像処理システム１０では、撮像装置５３の台数を任意の台数に決定することができる他、撮像装置５３の配置も任意に決定することができる。

　例えば、図１２に示されるように、撮像装置５３を、被写体５２を下から見上げるように撮影する配置、水平方向から撮影する配置、上から見下ろすように撮影する配置のように設定して、撮像装置５３が被写体５２を撮影する高さを複数種類変える構成も可能である。

　図１２の例では、被写体５２が、上段に８台、中段に１６台、下段に８台の計３２台の撮像装置５３で撮像される構成となっており、３２台の撮像装置５３により得られる３２枚のテクスチャ画像から、３２個のオブジェクト画像が生成され、１つのパッキング画像（のビットストリーム）が生成される。また、図１２の例では、８個の想定仮想視点が設定され、８種類のパッキング画像のビットストリームが生成される。このように撮像装置５３の台数が多い場合においても、配信側から再生側に送信されるビットストリームは１つであるので、伝送するデータ量を削減しつつ、高解像度で再生表示ができ、リアルタイム処理にも適応可能である。

　なお、画像処理システム１０においては、被写体５２を撮影した複数の撮像装置５３全てのオブジェクト画像をパッキングして１つのパッキング画像を生成し、伝送することを前提とするが、例えば、図１２に示されるように、撮像装置５３の台数が多い場合などでは、撮影した複数の撮像装置５３の一部に対応するオブジェクト画像をパッキングして１つのパッキング画像を生成してもよい。

　画像処理システム１０では、撮像装置５３の配置に応じて柔軟に、パッキング画像を生成することができる。

　図２に戻り、画像生成装置２２は、想定仮想視点単位で生成した複数種類のパッキング画像を、符号化装置２３に供給する。

　符号化装置２３は、画像生成装置２２から供給される、想定仮想視点ごとのパッキング画像を、例えば、AVC方式、HEVC方式等の所定の符号化方式で符号化する。符号化して得られたパッキング画像の符号化ストリームは、画像選択装置２４へ供給される。

　また、符号化装置２３は、オブジェクトのジオメトリ情報（３次元データ）も、所定の符号化方式で符号化し、画像選択装置２４へ供給する。

　なお、本技術は、オブジェクトの色情報としてのテクスチャ画像を伝送する技術に関し、オブジェクトのジオメトリ情報については、任意の手法で伝送すればよいので、以下では、ジオメトリ情報の伝送に関しては適宜省略する。

　画像選択装置２４には、符号化装置２３から、想定仮想視点ごとのパッキング画像の符号化ストリームが供給される。また、画像選択装置２４には、視聴条件取得装置３５から、仮想視点に関する情報である仮想視点情報が供給される。仮想視点情報は、再生側における視聴者の視聴範囲を特定する情報であり、例えば、視聴者の視聴範囲が撮影範囲となるような仮想カメラのカメラパラメータ（外部パラメータおよび内部パラメータ）で構成される。

　画像選択装置２４は、視聴条件取得装置３５からの仮想視点情報に基づいて、符号化装置２３から供給された、複数のパッキング画像の符号化ストリームのうちの一つを選択し、送信装置２５に供給する。

　図９の例で言えば、正面方向、右サイド方向、右サイド方向、および、背面方向の４種類のパッキング画像７１の符号化ストリームのなかから、所定の一つが選択され、送信装置２５に供給される。

　図１３は、複数のパッキング画像の符号化ストリームのなかから、所定の１つを選択する画像選択装置２４の選択処理を説明する図である。

　パッキング画像の想定仮想視点の３次元位置をC_i(i＝1乃至4)、視聴条件取得装置３５からの仮想視点情報に基づく視聴者の仮想視点の３次元位置をC_vとすると、画像選択装置２４は、次式（１）で得られる想定仮想視点と視聴者の仮想視点との成す角A(i)を算出する。そして、画像選択装置２４は、成す角A(i)が最も小さい想定仮想視点のパッキング画像の符号化ストリームを、再生側に伝送する符号化ストリームとして選択し、送信装置２５に供給する。
　A(i)＝arccos(C_i・C_v)　　・・・・・（１）

　図２に戻り、送信装置２５は、画像選択装置２４から供給されたパッキング画像の符号化ストリームを、ネットワークを介して受信装置３１へ送信する。

　受信装置３１は、送信装置２５から送信されてくるパッキング画像の符号化ストリームを受信（取得）し、復号装置３２に供給する。

　復号装置３２は、受信装置３１から供給されるパッキング画像の符号化ストリームを、符号化装置２３における符号化方式に対応する方式で復号する。復号装置３２は、復号して得られる、所定の想定仮想視点のパッキング画像をレンダリング装置３３に供給する。

　また、復号装置３２は、パッキング画像の符号化ストリームとともに配信側から伝送されてくる、オブジェクトのジオメトリ情報の符号化ストリームも、符号化装置２３における符号化方式に対応する方式で復号し、レンダリング装置３３に供給する。

　レンダリング装置３３は、復号装置３２から供給されるパッキング画像を用いて、視聴者の視点である仮想視点からオブジェクトを見た仮想視点画像を表示画像として生成し、表示装置３４に供給する。仮想視点は、視聴条件取得装置３５から供給される仮想視点情報によって特定される。

　具体的には、レンダリング装置３３は、デプス画像、ポイントクラウド、ポリゴンメッシュなどの所定の形式で伝送されてきたオブジェクトのジオメトリ情報に基づいてオブジェクトの３D形状を再構成する。また、レンダリング装置３３は、パッキング画像に含まれる複数の視点（撮影方向）のオブジェクト画像のうち、視聴者の視点（仮想視点）を基準に、複数のオブジェクト画像を選択する。そして、レンダリング装置３３は、選択された複数のオブジェクト画像の頂点に対応する画素の色をブレンドすることにより、再構成されたオブジェクトの３D形状の各頂点に対応する画素の色を決定し、仮想視点画像を生成する。

　表示装置３４は、例えば、２次元ヘッドマウントディスプレイ（ＨＭＤ）や２次元モニタなどにより構成される。表示装置３４は、レンダリング装置３３から供給される表示画像を２次元表示する。

　なお、表示装置３４は、３次元ヘッドマウントディスプレイや３次元モニタなどにより構成されてもよい。この場合、レンダリング装置３３は、例えば、右眼用のR画像と、左眼用のL画像を表示装置３４に供給し、表示装置３４は、レンダリング装置３３から供給されるR画像とL画像に基づいて表示画像を３次元表示する。

　視聴条件取得装置３５は、視聴者の視聴している条件（視聴状況）を検出して、仮想視点に関する仮想視点情報を生成して、画像選択装置２４およびレンダリング装置３３に供給する。仮想視点情報は、例えば、視聴者の視聴範囲が撮影範囲となるような仮想カメラのカメラパラメータ（外部パラメータおよび内部パラメータ）で構成される。

　例えば、表示装置３４が、図１のヘッドマウントディスプレイD２である場合には、視聴条件取得装置３５は、ヘッドマウントディスプレイD２に付されたマーカ等を撮像することでヘッドマウントディスプレイD２の位置および姿勢を検出する検出装置で構成することができる。あるいはまた、視聴条件取得装置３５は、ヘッドマウントディスプレイD２に内蔵されたジャイロセンサ等の各種のセンサ群で構成されてもよい。

　例えば、表示装置３４が、図１のディスプレイD1である場合には、視聴条件取得装置３５は、仮想視点を指示するジョイスティック等のコントローラ、マウス等の入力装置で構成することができる。

　画像処理システム１０は、以上のように構成される。

　なお、本明細書では、配信側から再生側に伝送される伝送データとして映像情報についてのみ説明し、音声情報についての説明は省略するが、動画像に対応する音声情報も合わせて伝送することができる。

　画像処理システム１０の配信側において配信装置４１が構成され、再生側において再生装置４２が構成されているとすると、配信装置４１は、複数の撮像装置５３それぞれから供給される被写体のテクスチャ画像（動画像）、および、カメラパラメータを用いて、予め決定した複数の想定仮想視点それぞれのパッキング画像の符号化ストリームを生成する。そして、配信装置４１は、視聴条件取得装置３５からの仮想視点情報に基づいて、複数のパッキング画像の符号化ストリームのなかから、所定の１つのパッキング画像の符号化ストリームを選択し、再生装置４２へ送信する。

　再生装置４２は、配信装置４１からネットワークを介して伝送されてきたパッキング画像の符号化ストリームを受信し、視聴条件取得装置３５からの仮想視点情報に基づいて、仮想視点画像を生成し、表示装置３４に表示させる。

　予め生成された、想定仮想視点が異なる複数のパッキング画像の符号化ストリームのなかから、視聴者の視点（仮想視点）に応じて、式（１）により最も適したパッキング画像の符号化ストリームが適宜選択され、再生装置４２に送信される。

　画像処理システム１０において、オブジェクト（被写体５２）を撮影する撮像装置５３の台数が多い場合であっても、再生側に送信するパッキング画像（の符号化ストリーム）は１つのみであるので、伝送するデータ量を削減することができる。

　さらに、再生側に送信するパッキング画像は、視聴者の視点（仮想視点）に近い視点のオブジェクト画像を高い解像度で再生側に供給するので、再生側において高画質でレンダリングが可能である。また、再生側に送信するパッキング画像には、想定仮想視点の裏側など、想定仮想視点から遠い撮影方向のオブジェクト画像も含まれているので、仮想視点の急激な変化があっても、画像が途切れることなく、レンダリングが可能である。すなわち、伝送するデータ量を削減しつつ、高画質なレンダリングが実現可能である。

　画像処理システム１０によれば、再生時の視聴位置に応じて、その都度、再生側に伝送する視点の動画像の選択、パッキング、および、伝送の処理を行う必要がなく、１つのパッキング画像の符号化ストリームを取得して、復号および表示するのみであるので、リアルタイム処理への対応が容易である。

　したがって、画像処理システム１０によれば、データ量を削減しつつ、リアルタイム処理にも適応することができる。

　なお、配信側の配信装置４１と再生側の再生装置４２とが、ネットワークを介さずに、１つの装置で構成されてもよい。この場合、視聴条件取得装置３５は、レンダリング装置３３、または、表示装置３４の一部として構成される場合がある。

＜３．ボリューメトリック再生処理＞
　以下では、フローチャートを参照しながら、画像処理システム１０の処理の詳細についてさらに説明する。

　図１４は、画像処理システム１０全体のボリューメトリック再生処理のフローチャートである。この処理は、例えば、複数の撮像装置５３それぞれから、被写体のテクスチャ画像（動画像）が供給されたとき開始される。なお、複数の撮像装置５３それぞれのカメラパラメータは、予め供給されていることとする。

　初めに、ステップＳ１１において、３Dデータ生成装置２１は、各オブジェクトの3Dモデルデータを生成し、画像生成装置２２に供給する。より具体的には、３Dデータ生成装置２１は、複数の撮像装置５３それぞれから供給された被写体のテクスチャ画像、および、カメラパラメータを用いて、撮影空間内に存在する１以上の被写体を１つのオブジェクトとして、オブジェクトごとに3Dモデルを生成する。そして、３Dデータ生成装置２１は、生成された各オブジェクトの3Dモデルデータを画像生成装置２２に供給する。

　ステップＳ１２において、画像生成装置２２は、再生側において想定される、複数の仮想視点（想定仮想視点）を設定し、想定仮想視点ごとにパッキング画像を生成する。生成された複数のパッキング画像は、符号化装置２３に供給される。なお、ここで生成される想定仮想視点ごとのパッキング画像は、動画像である。

　ステップＳ１３において、符号化装置２３は、画像生成装置２２から供給された、想定仮想視点ごとのパッキング画像を、所定の符号化方式で符号化する。ここで、符号化する際のビットレートは、例えば、予め設定された所定のビットレート（例えば、２０Mbps）であるとする。符号化の結果得られた、想定仮想視点ごとのパッキング画像の符号化ストリームは、符号化装置２３から画像選択装置２４に供給される。

　ステップＳ１４において、画像選択装置２４は、符号化装置２３から供給された、想定仮想視点ごとのパッキング画像の符号化ストリームを内部メモリに記憶する。

　ステップＳ１５において、視聴条件取得装置３５が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成し、画像選択装置２４およびレンダリング装置３３に供給する。

　ステップＳ１６において、画像選択装置２４は、視聴条件取得装置３５から供給された仮想視点情報を取得する。

　ステップＳ１７において、画像選択装置２４は、内部メモリに記憶してある、複数のパッキング画像の符号化ストリーム、すなわち、想定仮想視点ごとのパッキング画像の符号化ストリームのなかから、所定の１つの符号化ストリームを選択する。より具体的には、画像選択装置２４は、視聴条件取得装置３５からの仮想視点情報に基づく視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点のパッキング画像の符号化ストリームを選択する。選択された符号化ストリームは、送信装置２５に供給される。

　ステップＳ１８において、送信装置２５は、画像選択装置２４から供給されたパッキング画像の符号化ストリームを、ネットワークを介して受信装置３１へ送信する。

　ステップＳ１９において、受信装置３１は、送信装置２５から送信されてきたパッキング画像の符号化ストリームを受信（取得）し、復号装置３２に供給する。

　ステップＳ２０において、復号装置３２は、受信装置３１から供給されたパッキング画像の符号化ストリームを、符号化装置２３における符号化方式に対応する方式で復号する。復号装置３２は、復号して得られる、所定の想定仮想視点のパッキング画像をレンダリング装置３３に供給する。

　ステップＳ２１において、レンダリング装置３３は、復号装置３２から供給されたパッキング画像を用いて、仮想視点からオブジェクトを見た仮想視点画像を表示画像として生成し、表示装置３４に供給して表示させる。仮想視点は、ステップＳ１５において視聴条件取得装置３５から供給された仮想視点情報によって特定される。

　以上で、ボリューメトリック再生処理が終了する。

　図１４のボリューメトリック再生処理は、被写体５２のテクスチャ画像が撮像装置５３から供給されてから、再生側の表示装置３４でオブジェクト画像が表示されるまでの一連の処理の流れである。

　ステップＳ１６で取得される仮想視点情報は、仮想視点（視聴位置）が変更するごとに、随時更新される。ステップＳ１６で取得される仮想視点情報が更新された場合、ステップＳ１７において、パッキング画像の符号化ストリームが、仮想視点情報に応じて新たに選択され、選択されたパッキング画像の符号化ストリームに対して、ステップＳ１８乃至Ｓ２１が実行される。すなわち、ステップＳ１６乃至Ｓ２１の処理は、視点（視聴位置）の変更に応じて順次更新される。

＜４．パッキング画像の生成処理＞
　次に、図１４で説明したボリューメトリック再生処理のうち、ステップＳ１２の処理、すなわち、画像生成装置２２が行うパッキング画像生成処理について説明する。

　図１５は、図１４のステップＳ１２におけるパッキング画像生成処理の詳細なフローチャートを示している。

　この処理では、はじめに、ステップＳ４１において、画像生成装置２２は、パッキング画像を生成するＮ個の想定仮想視点を決定する。図５の例では、Ｎ＝４とされ、想定仮想視点が、正面方向、右サイド方向、背面方向、および、左サイド方向の４方向に決定された。

　ステップＳ４２において、画像生成装置２２は、パッキング画像のレイアウトと、各レイアウト位置にマッピングする撮像装置５３を決定する。

　パッキング画像のレイアウトとは、例えば、図７のレイアウトや、図１１のレイアウトであり、撮像装置５３の台数および配置に応じて決定することができる。レイアウトには、パッキング画像内の位置と縮小率とを含む。

　各レイアウト位置にマッピングする撮像装置５３を決定するとは、図８を参照して説明したように、画像生成装置２２が、想定仮想視点に基づいて、どの撮像装置５３で撮影されたオブジェクト画像を、どのレイアウト位置にマッピングするかを決定することである。なお、図８の例では、撮像装置５３が実際に被写体５２を撮影して得られるオブジェクト画像をマッピングしてパッキングしたが、実際の撮像装置５３で撮影したオブジェクト画像ではなく、撮像装置５３が仮想の位置に設置されたと仮定して、仮想の撮像装置５３で撮影したオブジェクト画像を生成してマッピングしてもよい。

　ステップＳ４３において、画像生成装置２２は、パッキング画像を符号化する際のGOP長を決定する。より具体的には、画像生成装置２２は、オブジェクトの移動量に基づいて、GOP長を決定する。

　図１６に示されるように、オブジェクトの移動量が大きい動画像では、GOP単位とした場合のオブジェクト画像の解像度（画素サイズ）が大きくなり、結果として、各オブジェクト画像をパッキングしたパッキング画像の解像度（画素サイズ）が大きくなる。

　そこで、画像生成装置２２は、オブジェクトの移動量が所定の閾値以上である場合に、GOP長を所定の値に決定する。これにより、GOP単位のオブジェクト画像の解像度（画素サイズ）を所定の範囲内に抑えることができ、各オブジェクト画像をパッキングしたパッキング画像の解像度（画素サイズ）も抑えることができる。

　なお、画像生成装置２２は、オブジェクトの移動量を複数の範囲に分類し、オブジェクトの移動量に応じて段階的にGOP長を決定してもよい。

　また、オブジェクトの移動量が所定値以下である場合には、オブジェクトの移動量の観点でGOP長を決定せず、その他の観点、例えば、ビットストリーム圧縮率、デコード負荷、画質等の観点で、GOP長を決定してもよい。GOP単位で、オブジェクト画像の解像度を可変に設定することにより、ビットストリームの符号化効率を向上させることができる。

　図１５のステップＳ４４において、画像生成装置２２は、パッキング画像の各レイアウト位置ｐにマッピングされるオブジェクト画像の解像度を計算する解像度計算処理を実行する。この解像度計算処理は、ステップＳ４１で決定されたN個の想定仮想視点全てについて実行される。ステップＳ４４の解像度計算処理の詳細については、図１７を参照して後述する。

　ステップＳ４５において、画像生成装置２２は、パッキング画像の各レイアウト位置ｐにオブジェクト画像をマッピングするマッピング処理を実行する。このマッピング処理は、ステップＳ４１で決定されたN個の想定仮想視点全てについて実行される。ステップＳ４５のマッピング処理の詳細については、図１８を参照して後述する。

　ステップＳ４５の処理により、N個の想定仮想視点全てについてマッピング処理が終了すると、想定仮想視点ごとのN個のパッキング画像が完成し、符号化装置２３に供給されて、パッキング画像生成処理が終了する。

＜５．解像度計算処理＞
　次に、図１７のフローチャートを参照して、図１５のステップＳ４４における解像度計算処理の詳細について説明する。

　初めに、ステップＳ６１において、画像生成装置２２は、Ｎ個の想定仮想視点を識別する変数ｉに０を代入する。変数ｉは、０から（Ｎ－１）までの整数値（i＝０乃至（Ｎ－１））を取り、例えば、ｉ＝０が正面方向、ｉ＝１が右サイド方向、などのように、変数ｉの値に応じて想定仮想視点が予め決定されている。

　ステップＳ６２において、画像生成装置２２は、パッキング画像のレイアウト位置を識別する変数ｐに０を代入する。変数ｐは、０から（Ｐ－１）までの整数値（ｐ＝０乃至（Ｐ－１））を取り、図１５のステップＳ４２においてパッキング画像が決定されたことにより、マッピングされるオブジェクト画像の枚数Ｐが確定されている。

　ステップＳ６３において、画像生成装置２２は、所定の想定仮想視点（変数ｉ）のパッキング画像の符号化ストリームを構成する複数のGOPのうちの所定のGOPを識別する変数ｇに０を代入する。変数ｇは、０から（Ｇ－１）までの整数値（ｇ＝０乃至（Ｇ－１））を取り、図１５のステップＳ４３においてGOP長が決定されたことにより、GOP数Ｇが確定されている。

　ステップＳ６４において、画像生成装置２２は、所定の想定仮想視点（ｉ）のパッキング画像の符号化ストリームの所定のGOP（変数ｇ）内のフレームを識別する変数ｆに０を代入する。変数ｆは、０から（Ｆ－１）までの整数値（ｆ＝０乃至（Ｆ－１））を取り、図１５のステップＳ４３においてGOP長が決定されたことにより、１GOPのフレーム数Ｆが確定されている。

　ステップＳ６５において、画像生成装置２２は、i番目の想定仮想視点のレイアウト位置ｐに対してパッキングする撮像装置５３のｇ番目のGOPのｆ番目のフレームのテクスチャ画像（テクスチャデータ）と３次元データとを取得する。

　ステップＳ６６において、画像生成装置２２は、i番目の想定仮想視点のレイアウト位置ｐに対してパッキングする撮像装置５３のｇ番目のGOPのｆ番目のフレームのテクスチャ画像から前景領域としてオブジェクトを抽出する。そして、画像生成装置２２は、抽出したオブジェクトのオブジェクト画像をレイアウト位置ｐの縮小率でスケール処理した後のオブジェクト画像の解像度R(i,p,g,f)を計算する。解像度R(i,p,g,f)は、垂直方向と水平方向それぞれの画素数で構成される。また、図７のレイアウト位置ｐ＝０乃至２のように、縮小率が等倍（１）である場合には、スケール処理は不要である。

　ステップＳ６７において、画像生成装置２２は、１GOP長のフレーム数を処理したかを判定する。

　ステップＳ６７で、まだ１GOP長のフレーム数を処理していないと判定された場合、処理はステップＳ６８に進み、画像生成装置２２は、フレームを識別する変数ｆを１だけインクリメントさせた後、処理をステップＳ６５に戻す。これにより、１GOP内の次のフレームについて、上述したステップＳ６５乃至Ｓ６７の処理が繰り返される。

　一方、ステップＳ６７で、１GOP長のフレーム数を処理したと判定された場合、処理はステップＳ６９に進み、画像生成装置２２は、１GOPを構成する全フレームのなかで、オブジェクト画像の解像度R(i,p,g,f)が最大となるGOP内最大解像度MaxR(i,p,g)を決定する。

　そして、ステップＳ７０において、画像生成装置２２は、i番目の想定仮想視点のテクスチャ画像の全てのGOPでGOP内最大解像度MaxR(i,p,g)を決定したかを判定する。

　ステップＳ７０で、まだ全てのGOPでGOP内最大解像度MaxR(i,p,g)を決定していないと判定された場合、処理はステップＳ７１に進み、画像生成装置２２は、GOPを識別する変数ｇを１だけインクリメントさせた後、処理をステップＳ６４に戻す。これにより、次のGOPについて、上述したステップＳ６４乃至Ｓ７０の処理が繰り返される。

　一方、ステップＳ７０で、全てのGOPで最大解像度MaxR(i,p,g)を決定したと判定された場合、処理はステップＳ７２に進み、画像生成装置２２は、レイアウト位置ｐに関し、全てのGOPのなかでGOP内最大解像度MaxR(i,p,g)が最大となるレイアウト位置最大解像度MaxR(i,p)を決定する。

　そして、ステップＳ７３において、画像生成装置２２は、全てのレイアウト位置ｐ＝０乃至（Ｐ－１）でレイアウト位置最大解像度MaxR(i,p)を決定したかを判定する。

　ステップＳ７３で、まだ全てのレイアウト位置ｐ＝０乃至（Ｐ－１）でレイアウト位置最大解像度MaxR(i,p)を決定していないと判定された場合、処理はステップＳ７４に進み、画像生成装置２２は、レイアウト位置を識別する変数ｐを１だけインクリメントさせた後、処理をステップＳ６３に戻す。これにより、次のレイアウト位置ｐについて、上述したステップＳ６３乃至Ｓ７３の処理が繰り返される。

　一方、ステップＳ７３で、全てのレイアウト位置ｐ＝０乃至（Ｐ－１）でレイアウト位置最大解像度MaxR(i,p)を決定したと判定された場合、処理はステップＳ７５に進み、画像生成装置２２は、ｉ番目の想定仮想視点のワールド座標系上の３次元位置（ｘ，ｙ，ｚ）を計算する。ｉ番目の想定仮想視点のワールド座標系上の３次元位置（ｘ，ｙ，ｚ）は、次式（２）で計算することができる。

　ステップＳ７５の処理後、ステップＳ７６において、画像生成装置２２は、全て（Ｎ個）の想定仮想視点で各レイアウト位置ｐのレイアウト位置最大解像度MaxR(i,p)を決定したかを判定する。

　ステップＳ７６で、まだ全ての想定仮想視点で各レイアウト位置ｐのレイアウト位置最大解像度MaxR(i,p)を決定していないと判定された場合、処理はステップＳ７７に進み、画像生成装置２２は、想定仮想視点を識別する変数ｉを１だけインクリメントさせた後、処理をステップＳ６２に戻す。これにより、次の想定仮想視点について、上述したステップＳ６２乃至Ｓ７６の処理が繰り返される。

　一方、ステップＳ７６で、全ての想定仮想視点で各レイアウト位置ｐのレイアウト位置最大解像度MaxR(i,p)を決定したと判定された場合、解像度計算処理が終了する。

＜６．マッピング処理＞
　次に、図１８のフローチャートを参照して、図１５のステップＳ４５におけるマッピング処理の詳細について説明する。

　初めに、ステップＳ８１において、画像生成装置２２は、Ｎ個の想定仮想視点を識別する変数ｉに０を代入する。変数ｉは、０から（Ｎ－１）までの整数値（i＝０乃至（Ｎ－１））を取る。

　ステップＳ８２において、画像生成装置２２は、パッキング画像のレイアウト位置を識別する変数ｐに０を代入する。変数ｐは、０から（Ｐ－１）までの整数値を取る。

　ステップＳ８３において、画像生成装置２２は、i番目の想定仮想視点の各レイアウト位置ｐのレイアウト位置最大解像度MaxR(i,p)を取得し、パッキング画像の生成に必要となるメモリを確保する。

　ステップＳ８４において、画像生成装置２２は、i番目の想定仮想視点のパッキング画像を構成するフレームを識別する変数ｆｓに０を代入する。図１７のフレームを識別する変数ｆが、GOP単位内のフレームを識別する変数であるのに対して、この変数ｆｓは、１つのパッキング画像のビットストリームのフレームに対して、０から順に割り振られる値に相当する。

　ステップＳ８５において、画像生成装置２２は、i番目の想定仮想視点のレイアウト位置ｐに対してパッキングする撮像装置５３のｆｓ番目のフレームのテクスチャ画像（テクスチャデータ）と３次元データとを取得する。

　ステップＳ８６において、画像生成装置２２は、i番目の想定仮想視点のレイアウト位置ｐに対してパッキングする撮像装置５３のｆｓ番目のフレームのテクスチャ画像を、レイアウト位置ｐの縮小率でスケール処理する。

　ステップＳ８７において、画像生成装置２２は、スケール処理後のテクスチャ画像の前景領域を切り出すことにより、オブジェクトを抽出したオブジェクト画像を生成し、ｆｓ番目のフレームのパッキング画像のレイアウト位置ｐにパッキングする。

　ステップＳ８８において、画像生成装置２２は、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについて処理したかを判定する。

　ステップＳ８８で、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについてまだ処理していないと判定された場合、処理はステップＳ８９に進み、画像生成装置２２は、フレームを識別する変数ｆｓを１だけインクリメントさせた後、処理をステップＳ８５に戻す。これにより、次のフレームについて、上述したステップＳ８５乃至Ｓ８８の処理が繰り返される。

　一方、ステップＳ８８で、i番目の想定仮想視点のパッキング画像のビットストリームを構成する全てのフレームについて処理したと判定された場合、処理はステップＳ９０に進み、画像生成装置２２は、i番目の想定仮想視点のパッキング画像の全てのレイアウト位置ｐ＝０乃至（Ｐ－１）についてオブジェクト画像をパッキングしたかを判定する。

　ステップＳ９０で、まだ全てのレイアウト位置ｐ＝０乃至（Ｐ－１）についてオブジェクト画像をパッキングしていないと判定された場合、処理はステップＳ９１に進み、画像生成装置２２は、レイアウト位置を識別する変数ｐを１だけインクリメントさせた後、処理をステップＳ８３に戻す。これにより、次のレイアウト位置ｐについて、上述したステップＳ８３乃至Ｓ９０の処理が繰り返される。

　一方、ステップＳ９０で、全てのレイアウト位置ｐ＝０乃至（Ｐ－１）についてオブジェクト画像をパッキングしたと判定された場合、処理はステップＳ９２に進み、画像生成装置２２は、パッキングしたオブジェクト画像を撮影した撮像装置５３のメタ情報を生成する。

　ステップＳ９２の後、ステップＳ９３において、画像生成装置２２は、全ての想定仮想視点でパッキング画像を生成したかを判定する。

　ステップＳ９３で、まだ全ての想定仮想視点でパッキング画像を生成していないと判定された場合、処理はステップＳ９４に進み、画像生成装置２２は、Ｎ個の想定仮想視点を識別する変数ｉを１だけインクリメントさせた後、処理をステップＳ８２に戻す。これにより、次の想定仮想視点について、上述したステップＳ８２乃至Ｓ９３の処理が繰り返される。

　一方、全ての想定仮想視点でパッキング画像を生成したと判定された場合、処理はステップＳ９５に進み、画像生成装置２２は、生成した各想定仮想視点のパッキング画像のビットストリームのメタ情報を生成し、マッピング処理を終了する。

　図１９のAは、図１８のステップＳ９２で生成される撮像装置５３のメタ情報の例を示している。

　撮像装置５３のメタ情報には、パッキングID、カメラID、offset_x、offset_y、および、scaleの各項目が含まれ、これらの項目が、想定仮想視点単位で生成される。

　パッキングIDは、パッキング画像のビットストリームを識別する情報である。したがって、パッキングIDは、想定仮想視点を識別する情報であるとも言える。パッキングIDは、想定仮想視点が４個（N＝４）である場合、パッキングID＝０乃至３のメタ情報が存在する。

　カメラIDは、パッキング画像内にパッキングしたオブジェクト画像を撮影した撮像装置５３を識別する情報である。図７のパッキング画像の例では、カメラID＝０乃至８のメタ情報が存在する。

　offset_xは、offset_x＝(dst_x - src_x)で表され、パッキング画像内にパッキングしたオブジェクト画像のｘ座標(dst_x)と、オブジェクト画像を切り出した元のテクスチャ画像のｘ座標(src_x)とのずれ量を表す。

　offset_yは、offset_y＝(dst_y - src_y)で表され、パッキング画像内にパッキングしたオブジェクト画像のy座標(dst_y)と、オブジェクト画像を切り出した元のテクスチャ画像のy座標(src_y)とのずれ量を表す。

　なお、パッキング画像内にパッキングしたオブジェクト画像のｘ座標およびｙ座標の位置（dst_x,dst_y）と、オブジェクト画像を切り出した元のテクスチャ画像のｘ座標およびｙ座標の位置（src_x, src_y）は、いずれも、矩形の左上の座標とする。

　scaleは、オブジェクト画像を切り出した元のテクスチャ画像の画素サイズと、パッキング画像内にパッキングしたオブジェクト画像の画素サイズの比（圧縮比）を表す。例えば、元のテクスチャ画像におけるオブジェクト画像の矩形の横幅（ｘ方向の画素数）をsrc_width、パッキング画像内にパッキングしたオブジェクト画像の矩形の横幅（ｘ方向の画素数）をdst_widthとすると、scaleは、scale＝dst_width/src_widthで表される。

　図１９のBは、図１８のステップＳ９５で生成される各想定仮想視点のパッキング画像のビットストリームのメタ情報の例を示している。

　解像度は、パッキング画像の解像度、すなわち、水平方向（横）と垂直方向（縦）の画素数を表す。

　想定仮想視点の３次元位置は、パッキング画像の生成において想定した仮想視点のワールド座標系上の位置を表す。

　想定視聴距離の範囲は、パッキング画像の利用条件として想定したオブジェクトまでの視聴距離の範囲を表す。

　ビットレートは、パッキング画像のビットストリームの符号化時のビットレートを表す。

　元画像の最大解像度は、パッキング画像にパッキングしたオブジェクト画像を切り出す前の元のテクスチャ画像、すなわち、撮像装置５３が出力するテクスチャ画像の解像度の最大値を表す。

　撮像装置５３のメタ情報、および、パッキング画像のビットストリームのメタ情報は、例えば、パッキング画像のビットストリーム内に格納されて送信される。

＜７．第１の変形例＞
　次に、画像処理システム１０の変形例について説明する。なお、上述した画像処理システム１０の形態を、以下では、基本の実施形態と称する。

　初めに、画像処理システム１０の第１の変形例について説明する。

　画像処理システム１０の第１の変形例は、配信側が生成する複数種類のパッキング画像にミップマップ方式を適用した例である。

　上述した基本の実施形態では、配信側（配信装置４１）は、被写体５２に対して視聴する方向が異なる複数種類（４種類）のパッキング画像を生成したが、生成された複数種類のパッキング画像が想定する被写体５２までの距離（視聴距離）は同一であった。

　第１の変形例では、配信側は、視聴方向が異なる複数種類のパッキング画像に加えて、被写体５２までの視聴距離が異なる複数種類のパッキング画像も生成する。

　図２０は、画像処理システム１０の第１の変形例において生成される複数種類のパッキング画像の例を示している。

　図２０の例において、想定仮想視点の方向は、上述した基本の実施形態と同様に、正面方向、右サイド方向、背面方向、および、左サイド方向の４方向である。しかしながら、基本の実施形態との違いとして、オブジェクト（被写体５２）までの視聴距離として、第１の視聴距離１０１と、第１の視聴距離１０１よりも視聴距離が遠い第２の視聴距離１０２の２つが設定されている。

　第１の変形例では、第１の視聴距離１０１に関し、正面方向の第１パッキング画像７１A－１、右サイド方向の第２パッキング画像７１B－１、左サイド方向の第３パッキング画像７１C－１、および、背面方向の第４パッキング画像７１D－１が生成される。また、第２の視聴距離１０２に関し、正面方向の第１パッキング画像７１A－２、右サイド方向の第２パッキング画像７１B－２、左サイド方向の第３パッキング画像７１C－２、および、背面方向の第４パッキング画像７１D－２が生成される。

　再生側は、図１９のBに示したパッキング画像のビットストリームのメタ情報の想定視聴距離の範囲を参照して、視聴距離の違いに応じてビットストリームを切り替えることができる。

　第１の視聴距離１０１の第１パッキング画像７１A－１乃至第４パッキング画像７１D－１と、第２の視聴距離１０２の第１パッキング画像７１A－２乃至第４パッキング画像７１D－２とは、パッキング画像の解像度を異ならせることができる。より具体的には、近距離用（第１の視聴距離１０１）の第１パッキング画像７１A－１乃至第４パッキング画像７１D－１を高解像度とし、遠距離用（第２の視聴距離１０２）の第１パッキング画像７１A－２乃至第４パッキング画像７１D－２を、近距離用よりも低解像度とすることができる。例えば、遠距離用のパッキング画像の解像度は、近距離用のパッキング画像の解像度に対する縮小率で設定することができ、例えば、遠距離用のパッキング画像の解像度が、近距離用の１／２などに設定される。

　なお、図２０の例は、２種類の視聴距離を想定して、複数種類のパッキング画像を生成する例であるが、勿論、３種類以上の視聴距離を想定し、パッキング画像を生成してもよい。

　図２１のフローチャートを参照して、第１の変形例における画像生成装置２２のパッキング画像生成処理について説明する。

　図２１のパッキング画像生成処理は、図１５に示した基本の実施形態のパッキング画像生成処理に対応する。図２１のステップＳ１０１乃至Ｓ１０５の処理は、図１５のステップＳ４１乃至Ｓ４５の処理とそれぞれ同一であるので、それらの説明は省略する。

　ステップＳ１０５の後、ステップＳ１０６において、画像生成装置２２は、想定するM種類（M＞１）の視聴距離それぞれに対して縮小率を決定し、視聴距離ごとに、Ｎ個のパッキング画像を生成する。生成された視聴距離ごとのＮ個のパッキング画像が、符号化装置２３に供給されて、パッキング画像生成処理が終了する。

　次に、図２２のフローチャートを参照して、第１の変形例におけるパッキング画像の選択に関する処理について説明する。

　図２２のフローチャートは、図１４に示した基本の実施形態のボリューメトリック再生処理におけるステップＳ１５乃至Ｓ１７と対応する。換言すれば、第１の変形例では、図１４のフローチャートのステップＳ１５乃至Ｓ１７が、図２２のフローチャートのステップＳ１２１乃至Ｓ１２５に置き換えられる。

　図２２の処理では、ステップＳ１２１において、視聴条件取得装置３５が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成し、画像選択装置２４およびレンダリング装置３３に供給する。ここで、仮想視点情報には、基本の実施形態の仮想カメラのカメラパラメータに加えて、仮想カメラからオブジェクトまでの距離（視聴距離）が含まれる。

　ステップＳ１２２において、画像選択装置２４は、視聴条件取得装置３５から供給された仮想視点情報を取得する。

　ステップＳ１２３において、画像選択装置２４は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。

　ステップＳ１２４において、画像選択装置２４は、決定された想定仮想視点のM種類の視聴距離のパッキング画像のなかから、視聴距離に応じたパッキング画像を決定する。これにより、視聴者の仮想視点および視聴距離に最適なパッキング画像が選択される。

　ステップＳ１２５において、画像選択装置２４は、決定したパッキング画像の符号化ストリームを、送信装置２５に供給する。

　以上のように、第１の変形例によれば、複数の想定視点に対応する符号化ストリームを、仮想視点の位置に応じて選択するだけではなく、視聴距離にも応じて適切に選択して、再生側に伝送することができる。これにより、視聴距離が遠い場合には、解像度を小さくした符号化ストリームを伝送することができるので、伝送に必要なネットワーク帯域を削減することができる。

　なお、上述した例では、パッキング画像内にパッキングするオブジェクト画像のレイアウトが、遠距離用と近距離用とで同一である例であるが、レイアウトが遠距離用と近距離用とで異なる構成としてもよい。例えば、近距離用のパッキング画像に含まれている一部のオブジェクト画像が、遠距離用のパッキング画像には含まれていなくてもよい。具体的には、低解像度の遠距離用のパッキング画像では、想定仮想視点の裏側の視点のオブジェクト画像を省略してもよい。

　また、上述した例では、近距離用の第１パッキング画像７１A－１乃至第４パッキング画像７１D－１の想定仮想視点と、遠距離用の第１パッキング画像７１A－２乃至第４パッキング画像７１D－２の想定仮想視点が同一であるが、遠距離用と近距離用とで想定仮想視点が異なってもよい。

＜８．第２の変形例＞
　次に、画像処理システム１０の第２の変形例について説明する。

　第２の変形例では、配信側において、符号化時のビットレート（符号化ビットレート）が異なる複数種類のパッキング画像のビットストリームが生成される。再生側は、ネットワーク帯域に応じた符号化ビットレートのビットストリームを取得して、再生表示する。

　より具体的には、図１４に示した基本の実施形態のパッキング画像生成処理のフローチャートのステップＳ１３の処理が、基本の実施形態から変更される。

　ステップＳ１３の処理は、上述したように、符号化装置２３が、画像生成装置２２から供給された、想定仮想視点ごとのパッキング画像を、所定の符号化方式で符号化する処理である。基本の実施形態では、符号化する際のビットレートが、例えば、２０Mbps等の予め設定された所定のビットレートであった。

　第２の変形例では、ステップＳ１３において、符号化装置２３は、想定仮想視点が異なるＮ個のパッキング画像に対して、複数種類の符号化ビットレートで符号化を行う。例えば、符号化装置２３は、２０Mbpsと５Mbpsの２種類の符号化ビットレートで、符号化を行う。符号化の結果得られた、パッキング画像の符号化ストリームは、符号化装置２３から画像選択装置２４に供給される。

　次に、図２３のフローチャートを参照して、第２の変形例におけるパッキング画像の選択に関する処理について説明する。

　図２３のフローチャートは、図１４に示した基本の実施形態のボリューメトリック再生処理におけるステップＳ１５乃至Ｓ１７と対応する。換言すれば、図１４のフローチャートのステップＳ１５乃至Ｓ１７が、図２３のフローチャートのステップＳ１４１乃至Ｓ１４５に置き換えられる。

　図２３の処理では、ステップＳ１４１において、視聴条件取得装置３５が、仮想視点情報を生成するとともに、ネットワーク帯域を検出する。すなわち、視聴条件取得装置３５が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成する。また、視聴条件取得装置３５が、パッキング画像の符号化ストリームが伝送されてくるネットワークのネットワーク帯域を検出する。視聴条件取得装置３５は、仮想視点情報とネットワーク帯域を画像選択装置２４に供給するとともに、仮想視点情報をレンダリング装置３３に供給する。

　ステップＳ１４２において、画像選択装置２４は、視聴条件取得装置３５から供給された仮想視点情報とネットワーク帯域を取得する。

　ステップＳ１４３において、画像選択装置２４は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。

　ステップＳ１４４において、画像選択装置２４は、決定された想定仮想視点の複数のパッキング画像、すなわち、符号化ビットレートが異なる複数種類のパッキング画像のなかから、ネットワーク帯域に応じたパッキング画像を決定する。これにより、視聴者の仮想視点およびネットワーク帯域に最適なパッキング画像が選択される。例えば、符号化ビットレートが２０Mbpsと５Mbpsの２種類用意されている場合には、視聴条件取得装置３５から供給されたネットワーク帯域が所定の値以上である場合には、符号化ビットレートが２０Mbpsのパッキング画像が選択され、所定の値より小さい場合には、符号化ビットレートが５Mbpsのパッキング画像が選択される。符号化ビットレートが３種類以上用意されている場合には、現在のネットワーク帯域で伝送可能な最大ビットレートのパッキング画像が選択される。

　ステップＳ１４５において、画像選択装置２４は、決定したパッキング画像の符号化ストリームを、送信装置２５に供給する。

　以上のように、第２の変形例によれば、複数の想定仮想視点に対応する符号化ストリームを、視聴者の視点（仮想視点）に応じて選択するだけではなく、ネットワーク帯域にも応じて適切に選択して、再生側に伝送することができる。これにより、ネットワーク帯域に応じた符号化ストリームを伝送することができるので、許容されるネットワーク帯域の範囲内でオブジェクト画像を高画質に再生表示することができる。

　なお、第１の変形例と第２の変形例の組合せも可能である。すなわち、配信側において、視聴距離に応じて複数種類のビットストリームを用意しつつ、各視聴距離に対して、ネットワーク帯域ごとに複数種類のビットストリームを用意してもよい。

＜９．第３の変形例＞
　次に、画像処理システム１０の第３の変形例について説明する。

　第３の変形例では、解像度が異なる複数種類の撮像装置５３を用いて、被写体５２が撮影される。例えば、図２４に示されるように、HD（High Definition）と呼ばれる、１９２０ｘ１０８０の解像度で撮像を行う撮像装置５３Hと、HDの４倍の解像度を有する４K解像度の撮像装置５３Kとを用いて、被写体５２が撮像される。図２４は、９台の撮像装置５３Hが、被写体５２を撮影し、８台の撮像装置５３Kが、被写体５２を撮影する例を示している。

　第３の変形例の３Dデータ生成装置２１の処理は、基本の実施形態と比較して、複数の撮像装置５３から供給されるテクスチャ画像の解像度が、同一の解像度であるか、異なる解像度が含まれるかのみが異なる。

　第３の変形例の３Dデータ生成装置２１は、撮影時の解像度ごとに、オブジェクトの3Dモデルを生成する。具体的には、３Dデータ生成装置２１は、HD解像度の撮像装置５３Hから供給されたテクスチャ画像、および、それらに対応するカメラパラメータを用いて、オブジェクトの3Dモデルを生成する。また、３Dデータ生成装置２１は、４K解像度の撮像装置５３Kから供給されたテクスチャ画像、および、それらに対応するカメラパラメータを用いて、オブジェクトの3Dモデルを生成する。そして、３Dデータ生成装置２１は、生成した３Dモデルを表す３Dモデルデータを、画像生成装置２２に供給する。

　画像生成装置２２は、撮影時の解像度ごとに、パッキング画像を生成する。換言すれば、第３の変形例では、図１５に示した基本の実施形態のパッキング画像生成処理が、HD解像度のテクスチャ画像を用いてパッキング画像を生成する処理と、４K解像度のテクスチャ画像を用いてパッキング画像を生成する処理との２種類行われる。

　なお、図１５のステップＳ４１乃至Ｓ４５の処理のうち、HD解像度および４K解像度の両方に適用できる処理については、１回の処理で済ませることができる。

　例えば、ステップＳ４１のＮ個の想定仮想視点を決定する処理は、想定仮想視点の個数NをHD解像度と４K解像度とで同じとする場合には、１回の処理とすることができる。以下では、簡単のため、HD解像度と４K解像度とで想定仮想視点の個数Nが同一であるとする。

　例えば、ステップＳ４２のパッキング画像のレイアウトと、各レイアウト位置にマッピングする撮像装置５３を決定する処理は、パッキング画像のレイアウトと撮像装置５３の配置が共通する場合には、１回の処理とすることができる。

　例えば、ステップＳ４３の符号化時のGOP長を決定する処理は、HD解像度と４K解像度とで同じGOP長とする場合には、１回の処理とすることができる。

　ステップＳ４４の解像度計算処理と、ステップＳ４５のマッピング処理については、HD解像度と４K解像度とで、それぞれ行う必要がある。

　以上により、第３の変形例の画像生成装置２２は、HD解像度のテクスチャ画像を用いて、想定仮想視点が異なるN個のパッキング画像を生成し、４K解像度のテクスチャ画像を用いて、想定仮想視点が異なるN個のパッキング画像を生成して、符号化装置２３に供給する。

　図２５は、第３の変形例におけるパッキング画像の選択に関する処理のフローチャートである。

　図２５のフローチャートは、図１４に示した基本の実施形態のボリューメトリック再生処理におけるステップＳ１５乃至Ｓ１７と対応する。換言すれば、図１４のフローチャートのステップＳ１５乃至Ｓ１７が、図２５のフローチャートのステップＳ１６１乃至Ｓ１６５に置き換えられる。

　図２５の処理では、ステップＳ１６１において、視聴条件取得装置３５が、仮想視点情報を生成するとともに、ネットワーク帯域を検出する。すなわち、視聴条件取得装置３５が、視聴者の視聴状況を検出して、仮想視点に関する仮想視点情報を生成する。また、視聴条件取得装置３５が、パッキング画像の符号化ストリームが伝送されてくるネットワークのネットワーク帯域を検出する。視聴条件取得装置３５は、仮想視点情報とネットワーク帯域を画像選択装置２４に供給するとともに、仮想視点情報をレンダリング装置３３に供給する。

　ステップＳ１６２において、画像選択装置２４は、視聴条件取得装置３５から供給された仮想視点情報とネットワーク帯域を取得する。

　ステップＳ１６３において、画像選択装置２４は、N個の想定仮想視点のなかから、視聴者の仮想視点と成す角A(i)が最も小さい想定仮想視点を決定する。

　ステップＳ１６４において、画像選択装置２４は、決定された想定仮想視点の複数のパッキング画像、すなわち、撮影時の解像度が異なる複数種類のパッキング画像のなかから、ネットワーク帯域に応じたパッキング画像を決定する。これにより、視聴者の仮想視点およびネットワーク帯域に最適なパッキング画像が選択される。例えば、視聴条件取得装置３５から供給されたネットワーク帯域が所定の値以上である場合には、４K解像度のテクスチャ画像を用いて生成されたパッキング画像が選択され、所定の値より小さい場合には、HD解像度のテクスチャ画像を用いて生成されたパッキング画像が選択される。解像度が３種類以上用意されている場合には、現在のネットワーク帯域で伝送可能な最大解像度のパッキング画像が選択される。

　ステップＳ１６５において、画像選択装置２４は、決定したパッキング画像の符号化ストリームを、送信装置２５に供給する。

　以上のように、第３の変形例によれば、複数の想定仮想視点に対応する符号化ストリームを、視聴者の視点（仮想視点）に応じて選択するだけではなく、ネットワーク帯域にも応じてパッキング画像の解像度を適切に選択して、再生側に伝送することができる。これにより、ネットワーク帯域に応じた符号化ストリームを伝送することができるので、許容されるネットワーク帯域の範囲内でオブジェクト画像を高画質に再生表示することができる。

　第1乃至第３の変形例においても、データ量を削減しつつ、リアルタイム処理にも適応できることは言うまでもない。

＜１０．コンピュータ構成例＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているマイクロコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）３０１，ROM（Read Only Memory）３０２，RAM（Random Access Memory）３０３は、バス３０４により相互に接続されている。

　バス３０４には、さらに、入出力インタフェース３０５が接続されている。入出力インタフェース３０５には、入力部３０６、出力部３０７、記憶部３０８、通信部３０９、及びドライブ３１０が接続されている。

　入力部３０６は、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部３０７は、ディスプレイ、スピーカ、出力端子などよりなる。記憶部３０８は、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部３０９は、ネットワークインタフェースなどよりなる。ドライブ３１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体３１１を駆動する。

　以上のように構成されるコンピュータでは、CPU３０１が、例えば、記憶部３０８に記憶されているプログラムを、入出力インタフェース３０５及びバス３０４を介して、RAM３０３にロードして実行することにより、上述した一連の処理が行われる。RAM３０３にはまた、CPU３０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　コンピュータ（CPU３０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体３１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体３１１をドライブ３１０に装着することにより、入出力インタフェース３０５を介して、記憶部３０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部３０９で受信し、記憶部３０８にインストールすることができる。その他、プログラムは、ROM３０２や記憶部３０８に、あらかじめインストールしておくことができる。

　なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる場合はもちろん、必ずしも時系列的に処理されなくとも、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで実行されてもよい。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、上述した実施の形態では、オブジェクトのジオメトリ情報の伝送に関しては、デプス画像、ポイントクラウド、ポリゴンメッシュなど、任意の形式で送信することができるので、説明を省略した。ジオメトリ情報をデプス画像で送信する場合、上述したテクスチャ画像と同様に、複数の撮像装置５３から供給された複数のデプス画像から１つのパッキング画像を生成し、再生側に送信してもよい。すなわち、上述した複数の撮像装置５３それぞれで撮像されたテクスチャ画像からオブジェクト画像を生成し、それらをパッキングしてパッキング画像を生成および伝送する技術は、デプス画像にも適用することができる。

　画像生成装置２２（生成部）は、異なる方向から撮影された複数のオブジェクト画像を１枚にパッキングした複数種類のパッキング画像を生成する。ここで、１枚のパッキング画像は、複数のオブジェクト画像の解像度が、少なくとも一部で異なる構成とされている。画像選択装置２４（選択部）は、複数種類のパッキング画像の１つを選択して再生側に出力する。ここでのオブジェクト画像は、テクスチャ画像からオブジェクトの領域だけをクロップした画像、または、デプス画像からオブジェクトの領域だけをクロップした画像である。

　例えば、上述した実施の形態の全てまたは任意の一部を組み合わせた形態を採用することができる。例えば、第１の変形例と第２の変形例を組合せた形態、第２の変形例と第３の変形例を組合せた形態、第１の変形例と第３の変形例を組合せた形態を採用することができる。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、本明細書に記載されたもの以外の効果があってもよい。

　なお、本技術は、以下の構成を取ることができる。
（１）
　異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する生成部を備え、
　前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する
　画像処理装置。
（２）
　前記第１方向は、前記第２方向よりも、再生側において想定される仮想視点である想定仮想視点に近い方向であり、
　前記第３方向は、前記第４方向よりも、前記想定仮想視点に近い方向である
　前記（１）に記載の画像処理装置。
（３）
　前記生成部は、再生側において想定される仮想視点から前記オブジェクトまでの距離が異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　前記（１）または（２）に記載の画像処理装置。
（４）
　前記距離として第１の距離と、前記第１の距離よりも遠い第２の距離とがあり、
　前記第１の距離の前記第１パッキング画像と、前記第２の距離の前記第１パッキング画像とで、タイル画像の解像度が異なる
　前記（３）に記載の画像処理装置。
（５）
　前記距離として第１の距離と、前記第１の距離よりも遠い第２の距離とがあり、
　前記第１の距離の前記第１パッキング画像と、前記第２の距離の前記第１パッキング画像とで、パッキング画像のレイアウトが異なる
　前記（３）または（４）に記載の画像処理装置。
（６）
　前記第２の距離の前記パッキング画像のオブジェクト画像の枚数は、前記第１の距離の前記パッキング画像のオブジェクト画像の枚数よりも少ない
　前記（５）に記載の画像処理装置。
（７）
　前記生成部は、符号化時のビットレートが異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　前記（１）乃至（６）のいずれかに記載の画像処理装置。
（８）
　前記生成部は、撮像装置が撮影したときの解像度が異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　前記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
　視聴条件に応じて、前記第１パッキング画像または前記第２パッキング画像を選択する選択部をさらに備える
　前記（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）
　前記視聴条件は、前記第１パッキング画像または前記第２パッキング画像それぞれが想定する仮想視点である想定仮想視点と、視聴者の実際の仮想視点との角度である
　前記（９）に記載の画像処理装置。
（１１）
　前記視聴条件は、視聴者の前記オブジェクトまでの距離である視聴距離である
　前記（９）または（１０）記載の画像処理装置。
（１２）
　前記第１パッキング画像の前記第１オブジェクト画像と、前記第２パッキング画像の前記第３オブジェクト画像の解像度が同じである
　前記（１）乃至（１１）のいずれかに記載の画像処理装置。
（１３）
　前記第１パッキング画像を構成する前記第１オブジェクト画像および前記第２オブジェクト画像の解像度は、GOP単位で変化する
　前記（１）乃至（１２）のいずれかに記載の画像処理装置。
（１４）
　前記第１パッキング画像は、複数の前記第１オブジェクト画像と複数の前記第２オブジェクト画像から構成され、
　前記第２パッキング画像は、複数の前記第３オブジェクト画像と複数の前記第４オブジェクト画像から構成される
　前記（１）乃至（１３）のいずれかに記載の画像処理装置。
（１５）
　前記第１パッキング画像と前記第２パッキング画像は、ユーザの視聴方向に対応付けて生成されている
　前記（１）乃至（１４）のいずれかに記載の画像処理装置。
（１６）
　前記選択部で選択された前記第１パッキング画像または前記第２パッキング画像を、ネットワークを介して再生側に送信する送信部をさらに備える
　前記（９）乃至（１５）のいずれかに記載の画像処理装置。
（１７）
　画像処理装置が、
　異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する第１生成ステップと、
　前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する第２生成ステップと
　により複数のパッキング画像を生成する画像生成方法。
（１８）
　第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、
　前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、
　前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である
　画像処理装置。
（１９）
　画像処理装置が、
　第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、
　前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、
　前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である
　画像処理方法。

　１０　画像処理システム，　２２　画像生成装置，　２４　画像選択装置，　２５　送信装置，　３１　受信装置，　３３　レンダリング装置，　３４　表示装置，　３５　視聴条件取得装置，　４１　配信装置，　４２　再生装置，　５１　撮影空間，　５２　被写体，　５３　撮像装置，　７１A乃至７１D　第１乃至第４パッキング画像，　１０１　第１の視聴距離，　１０２　第２の視聴距離，　３０１　CPU，　３０２　ROM，　３０３　RAM，　３０６　入力部，　３０７　出力部，　３０８　記憶部，　３０９　通信部，　３１０　ドライブ

Claims

　異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する生成部を備え、
　前記生成部は、さらに、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する
　画像処理装置。
　前記第１方向は、前記第２方向よりも、再生側において想定される仮想視点である想定仮想視点に近い方向であり、
　前記第３方向は、前記第４方向よりも、前記想定仮想視点に近い方向である
　請求項１に記載の画像処理装置。
　前記生成部は、再生側において想定される仮想視点から前記オブジェクトまでの距離が異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　請求項１に記載の画像処理装置。
　前記距離として第１の距離と、前記第１の距離よりも遠い第２の距離とがあり、
　前記第１の距離の前記第１パッキング画像と、前記第２の距離の前記第１パッキング画像とで、タイル画像の解像度が異なる
　請求項３に記載の画像処理装置。
　前記距離として第１の距離と、前記第１の距離よりも遠い第２の距離とがあり、
　前記第１の距離の前記第１パッキング画像と、前記第２の距離の前記第１パッキング画像とで、パッキング画像のレイアウトが異なる
　請求項３に記載の画像処理装置。
　前記第２の距離の前記パッキング画像のオブジェクト画像の枚数は、前記第１の距離の前記パッキング画像のオブジェクト画像の枚数よりも少ない
　請求項５に記載の画像処理装置。
　前記生成部は、符号化時のビットレートが異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　請求項１に記載の画像処理装置。
　前記生成部は、撮像装置が撮影したときの解像度が異なる複数種類の前記第１パッキング画像および前記第２パッキング画像を生成する
　請求項１に記載の画像処理装置。
　視聴条件に応じて、前記第１パッキング画像または前記第２パッキング画像を選択する選択部をさらに備える
　請求項１に記載の画像処理装置。
　前記視聴条件は、前記第１パッキング画像または前記第２パッキング画像それぞれが想定する仮想視点である想定仮想視点と、視聴者の実際の仮想視点との角度である
　請求項９に記載の画像処理装置。
　前記視聴条件は、視聴者の前記オブジェクトまでの距離である視聴距離である
　請求項９に記載の画像処理装置。
　前記第１パッキング画像の前記第１オブジェクト画像と、前記第２パッキング画像の前記第３オブジェクト画像の解像度が同じである
　請求項１に記載の画像処理装置。
　前記第１パッキング画像を構成する前記第１オブジェクト画像および前記第２オブジェクト画像の解像度は、GOP単位で変化する
　請求項１に記載の画像処理装置。
　前記第１パッキング画像は、複数の前記第１オブジェクト画像と複数の前記第２オブジェクト画像から構成され、
　前記第２パッキング画像は、複数の前記第３オブジェクト画像と複数の前記第４オブジェクト画像から構成される
　請求項１に記載の画像処理装置。
　前記第１パッキング画像と前記第２パッキング画像は、ユーザの視聴方向に対応付けて生成されている
　請求項１に記載の画像処理装置。
　前記選択部で選択された前記第１パッキング画像または前記第２パッキング画像を、ネットワークを介して再生側に送信する送信部をさらに備える
　請求項９に記載の画像処理装置。
　画像処理装置が、
　異なる方向からオブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングした第１パッキング画像を生成する第１生成ステップと、
　前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングした第２パッキング画像を生成する第２生成ステップと
　により複数のパッキング画像を生成する画像生成方法。
　第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成するレンダリング部を備え、
　前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、
　前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である
　画像処理装置。
　画像処理装置が、
　第１パッキング画像、または、第２パッキング画像を取得し、視聴者の視点からオブジェクトを見た仮想視点画像を表示画像として生成し、
　前記第１パッキング画像は、異なる方向から前記オブジェクトが撮影された複数の画像のうち、前記オブジェクトが第１方向を向いている第１オブジェクト画像を、前記オブジェクトが前記第１方向とは異なる第２方向を向いている第２オブジェクト画像より解像度を高くして、前記第１オブジェクト画像と前記第２オブジェクト画像を１フレームにパッキングしたパッキング画像であり、
　前記第２パッキング画像は、前記オブジェクトが異なる方向から撮影された複数の画像のうち、前記オブジェクトが前記第１方向とは異なる第３方向を向いている第３オブジェクト画像を、前記オブジェクトが前記第３方向とは異なる第４方向を向いている第４オブジェクト画像より解像度を高くして、前記第３オブジェクト画像と前記第４オブジェクト画像を１フレームにパッキングしたパッキング画像である
　画像処理方法。