WO2020261689A1

WO2020261689A1 - 情報処理装置、情報処理方法、再生処理装置及び再生処理方法

Info

Publication number: WO2020261689A1
Application number: PCT/JP2020/014884
Authority: WO
Inventors: 充勝股; 遼平高橋; 平林　光浩
Original assignee: ソニー株式会社
Priority date: 2019-06-25
Filing date: 2020-03-31
Publication date: 2020-12-30
Also published as: JPWO2020261689A1; EP3982638A1; JP7544048B2; US20220239994A1; EP3982638A4; CN114026875A

Abstract

クライアント装置がコンテンツ構成を効率良く選択することができる情報処理装置、再生処理装置、情報処理方法及び再生処理方法を提供する。前処理部は、１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する。ファイル生成部は、前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する。

Description

情報処理装置、情報処理方法、再生処理装置及び再生処理方法

　本発明は、情報処理装置、情報処理方法、再生処理装置及び再生処理方法に関する。

　現在の映像配信においては、映画などの配信で利用される２次元映像の配信が主流である。２次元映像は、以下では、２Ｄ（Dimension）コンテンツと呼ぶ場合がある。さらに、全方位が見回し可能である３６０度映像配信もウェブ上の動画配信サイトで行われている。全方位が見回し可能とは、視線方向を自由に選択できることを示す。３６０度映像は、３ＤｏＦ（Degree　of　Freedom）映像と呼ばれたり、３ＤｏＦコンテンツと呼ばれたりする。２Ｄコンテンツ及び３ＤｏＦコンテンツのいずれも、基本は２次元にエンコードされた映像が配信サーバから配信され、クライアントで表示される。

　また、３ＤｏＦ＋コンテンツと呼ばれるコンテンツもある。３ＤｏＦ＋コンテンツは、３ＤｏＦコンテンツと同様に全方位の見回しが可能であり、さらに、視点位置を少し動かすことが可能であるコンテンツである。３ＤｏＦ＋コンテンツにおいて視点位置の動かせる範囲は、利用者が坐った状態で頭を動かせる程度の範囲が想定されている。３ＤｏＦ＋コンテンツは、２次元にエンコードされた映像を１つもしくは複数使用することにより、視点位置の移動を実現する。

　さらに、更なる自由度のあるビデオとして、６ＤｏＦコンテンツと呼ばれる６ＤｏＦ映像の配信が提案されている。６ＤｏＦ映像は、３次元空間内で全方位見回し可能であり、且つ、表示された３次元空間内を歩いて回れる映像である。３次元空間内を歩いて回れるとは、視点位置を自由に選択できることを表す。以下では、３次元空間を、３Ｄ空間と呼ぶ場合もある。

　６ＤｏＦコンテンツは、３次元空間を１つ又は複数の３次元モデルデータで表現した３次元コンテンツである。３次元モデルデータは３Ｄモデルデータとも呼ばれ、また、３次元コンテンツは３Ｄコンテンツと呼ばれる場合もある。

　６ＤｏＦコンテンツの配信方法として、例えば、３次元空間を複数の３次元モデルデータで構成し、複数のオブジェクトストリームとして伝送する方法がある。その際、シーンディスクリプション（Scene　Description）という３次元空間の構成情報が用いられる場合がある。例えば、ＭＰＥＧ（Moving　Picture　Experts　Group）－４シーンディスクリプションがある。このシーンディスクリプションは表現方法として、シーンをシーングラフと呼ばれるツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式で表現する方法である。

　６ＤｏＦコンテンツは、時刻毎に３次元モデルデータで３次元空間を表現する映像素材である。この６ＤｏＦコンテンツの表現手法の例として以下の３つの手法が挙げられる。

　１つの手法は、本発明では対象物ベースと呼ぶ表現手法である。対象物ベースの表現手法は、６ＤｏＦコンテンツは、映像における個々の表示対象物である人や物といった３次元オブジェクト毎の３次元モデルデータを３次元空間内にそれぞれ配置して、３次元空間全体を表現するコンテンツ構成を有する。対象物ベースの表現手法には、６ＤｏＦコンテンツの再生を行うクライアントが３つの手法のうちで最も多くの３次元モデルデータを同時に処理するという特徴がある。一方で、対象物ベースの表現手法では、個々の人や物といった３次元オブジェクト毎に、精細度を変化させて表示することができる。そのため、３つの手法のうち、クライアントの再生処理に対する自由度が高い構成方法と言える。

　他の１つは、本発明では空間ベースと呼ぶ表現手法である。空間ベースの表現手法では、６ＤｏＦコンテンツは、人や物と言った３次元オブジェクト毎に３次元モデルデータとして分けず、対象となる３次元空間全体を１つの３次元モデルデータとして表現するコンテンツ構成を有する。空間ベースの表現手法には、クライアントは再生時に１つの３元モデルデータを処理することになり、３つの手法のうち最も低い処理能力で済むという特徴がある。一方で、６ＤｏＦコンテンツ全体の精細度が決まっており、クライアントの再生処理に対する自由度は極めて低いといえる。

　残りの１つは、空間ベースと対象物ベースとを組み合わせた表現手法である。以下では、この表現手法を混合型の表現手法と呼ぶ。混合型の表現手法では、６ＤｏＦコンテンツは、特定の３次元オブジェクトを個別の３次元モデルデータとし、その３次元オブジェクトを含まない３次元空間を１つの３次元モデルデータとして表現するコンテンツ構成を有する。混合型の表現手法では、クライアントの再生処理において複数の３次元モデルデータを用いられるが、その３次元モデルデータの数は対象物ベースの表現手法で用いられる数よりも少ない。つまり、混合型の表現手法では、クライアントは、空間ベースの表現手法よりも高い処理能力が要求されるが、対象物ベースの表現手法よりも低い処理能力でよい。また、クライアントの再生処理に対する自由度も同様に、空間ベースの表現方法よりも高く、対象物ベースの表現方法よりも低いといえる。

　このように、各表現手法において、６ＤｏＦコンテンツのコンテンツ構成がそれぞれ異なる。そこで、表現方法の異なる６ＤｏＦコンテンツがいくつか含まれるようにシーンディスクリプションが記述された場合、クライアントは、なるべく自由度の高い表現手法のコンテンツ構成を選択することが、利用者の視聴体験をより拡大することができ好ましい。

"ISO/IEC　14496-11:2015",　Information　technology.　Coding　of　audio-visual　objects.　Part11:Sene　description　and　application　engine,　2015-11

　しかしながら、シーンディスクリプションの中から適切なコンテンツ構成を選択する場合、クライアントは、様々な解析を実行した上でコンテンツ構成の選択を行うことになる。この解析には、例えば、シーンディスクリプションの全体の解析及びＭＰＤ（Media　Presentation　Description）におけるAdaptationSetの解析などが含まれる。このような解析には、実際に利用しない部分の解析も含まれるためクライアント装置によるコンテンツ構成の選択の効率が悪いといえる。

　そこで、本開示では、クライアント装置がコンテンツ構成を効率良く選択することができる情報処理装置、情報処理方法、再生処理装置及び再生処理方法を提供する。

　本開示によれば、前処理部は、１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する。ファイル生成部は、前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する。

６ＤｏＦコンテンツの構成を表す図である。配信システムの一例のシステム構成図である。ファイル生成装置のブロック図である。第１の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。第１の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。クライアント装置のブロック図である。第１の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。第１の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。第１の実施形態の変形例（１）におけるシーンディスクリプションのＩＳＯＢＭＦＦファイルを表す図である。第１の実施形態の変形例（１）におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。コンテンツ構成選択情報のグループの一例を表す図である。 Matroska　Media　Containerのフォーマットを表す図である。第１の実施形態の変形例（４）に係るコンテンツ構成選択情報の格納方法を説明するための図である。 RequiedPerformanceノードのシンタックスの一例を表す図である。 6DoFContentStruct　Descriptorの記述例を表す図である。第１の実施形態の変形例（５）におけるCSCのsemanticsを表す図である。第２の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。第２の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。第３の実施形態の変形例（１）におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。第３の実施形態の変形例（２）におけるCSCのsemanticsを表す図である。３次元モデルデータのAdaptationSetに格納された構成情報の利用方法を説明するための図である。コンピュータのハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。また、本技術で開示される範囲は、実施形態の内容に限定されるものではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。

　非特許文献１：（上述）
　非特許文献２："ISO/IEC　14496-12:2015",　Information　technology.　Coding　of　audio-visual　objects.　Part12:ISO　base　media　file　format,　2015-12
　非特許文献３："ISO/IEC　23009-1:2014",　Information　technology.　Dynamic　adaptive　streaming　over　HTTP(DASH),　Part1:Media　presentation　description　and　segment　formats,　2014-5

　つまり、上述の非特許文献に記載されている内容も、参照により本明細書に組み込まれる。つまり、上述の非特許文献に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献１に記載されているScene　Descriptionで用いられている構造／用語、非特許文献２に記載されているFile　Structure、非特許文献３に記載されているMPEG-DASH規格で用いられている用語が発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。また、例えば、パース（Parsing）、シンタックス（Syntax）、セマンティクス（Semantics）等の技術用語についても同様に、発明の詳細な説明において直接的な記載がない場合でも、本技術の開示範囲内であり、請求の範囲のサポート要件を満たすものとする。
　また、以下に示す項目順序に従って本開示を説明する。

　　１．第１の実施形態
　　　１．１　第１の実施形態の変形例（１）
　　　１．２　第１の実施形態の変形例（２）
　　　１．３　第１の実施形態の変形例（３）
　　　１．４　第１の実施形態の変形例（４）
　　　１．５　第１の実施形態の変形例（５）
　　２．第２の実施形態
　　　２．１　第２の実施形態の変形例（１）
　　３．第３の実施形態
　　　３．１　第３の実施形態の変形例（１）
　　　３．２　第３の実施形態の変形例（２）
　　４．第４の実施形態

［１．第１の実施形態］
　対象物ベース、空間ベース及び混合型の表現手法の各コンテンツ構成を有する６ＤｏＦコンテンツの配信においては、例えば、シーンディスクリプションファイル、ＭＰＤファイル及び３Ｄモデルデータファイルが図１のように構成されて配信される。図１は、６ＤｏＦコンテンツの構成を表す図である。現状のこれらのコンテンツ構成においては、クライアントは下記の３つの指標でクライアント装置自身の再生能力が十分発揮できるか否かを判定する場合がある。

　第１の指標は、シーンディスクリプションファイル及び３次元モデルデータファイルを、それぞれ単体でデコード可能であるか否かを判定するための指標である。第２の指標は、シーンディスクリプションファイル及び３次元モデルデータファイルを全てデコード可能か否かを判定するための指標である。第３の指標は、デコード処理後のデータのレンダリングが可能か否かを判定するための指標である。レンダリングとは、３次元空間への配置し表示することを示している。クライアント装置がこれらの指標に基づいて各コンテンツ構成の再生処理が可能か否かを判定する場合、以下の情報の利用が考えられる。

　第１の情報は、ＭＰＤファイルが有するAdaptationSetのうちシーンディスクリプションを表すAdaptationSetに格納される@mimeType　attribute及び@codecs　attributeである。これらの情報で、クライアント装置はシーンディスクリプションのデコードが可能であるか否かの判定を行う。より詳しくは、クライアント装置がそのシーンディスクリプションのファイルフォーマットに対応しているか否かが@mimeType　attributeで判定できる。また、クライアント装置がそのシーンディスクリプションをエンコードしたコーデックに対応しているか否かが@codecs　attributeで判定できる。これにより、シーンディスクリプションが、MPEG-4　Scene　DescriptionやｇｌＴＦ（GL　Transmission　Format）２．０といったフォーマットのうちどのフォーマットででたシーンディスクリプションであるかが分かり、クライアント装置がそのシーンディスクリプションを再生できるか否かが分かる。

　第２の情報は、シーンディスクリプションをＩＳＯＢＭＦＦ（ISO　Base　Media　File　Format）で表した場合に格納されるsceneProfileLevelIndication　filedである。この情報で、クライアント装置はシーンディスクリプションのデコード処理後のデータのレンダリングが可能であるか否かの判定を行う。この情報は、シーンディスクリプション（シーングラフをデータ化したもの）で表されるシーングラフ（階層の構造）から３次元空間を再構成するため用いるクライアント装置の再生処理能力を判定するための情報を含んでいる。例えば、sceneProfileLevelIndication　filedは、ポイントクラウドの場合であればシーン毎の最大ポイント数を含み、メッシュの場合であればシーン毎の面の最大頂点数、最大面数及び最大頂点数を含む。すなわち、この情報により、シーン全体でどのくらいの再生処理能力が必要か否か分かる。

　第３の情報は、シーンディスクリプションファイルで表されるシーングラフから得られるシーンを構成する外部３次元モデルデータファイル数である。この情報で、クライアント装置はシーンディスクリプションファイル及び３次元モデルデータファイルをデコード可能であるか否かの判定を行う。例えば、クライアント装置は、自己の有する３次元モデルデータのデコーダの数が、シーンを構成する外部３次元モデルデータファイルの数よりも多ければ再生可能と判断する。この場合、使用するデコーダの数が多いほど、クライアント装置に求められる再生処理能力が高くなる。

　第４の情報は、ＭＰＤファイルが有するAdaptationSetのうち各３次元モデルデータを表すAdaptationSetに格納される@mimeType　attribute及び@codecs　attributeである。@mimeType　attributeは、例えば、３Ｄモデルデータが格納されているファイルフォーマットの情報を含む。また、@codecs　attributeは、３Ｄモデルデータがどういったコーデックでエンコードされているかの情報及びコーデックのプロファイル情報やレベル情報を含む。これらの情報で、クライアント装置は各３次元モデルデータのデコードが可能であるか否かの判定を行う。より詳しくは、クライアント装置が各３次元モデルデータのファイルフォーマットに対応しているか否かが@mimeType　attributeで判定できる。また、クライアント装置が各３次元モデルデータをエンコードしたコーデックに対応しているか否かが@codecs　attributeで判定できる。

　さらに、３次元モデルデータの再生互換情報が、@codecs　attributeに含まれる場合であれば、クライアント装置は各３次元モデルデータのレンダリングが可能であるか否かの判定ができる。この場合、例えば、@codecs　attributeには、ポイントクラウドの場合であれば３次元モデルデータの最大ポイント数が含まれ、メッシュの場合であれば３次元モデルデータの面の最大頂点数、最大面数及び最大頂点数が含まれる。

　第５の情報は、ＭＰＤファイルが有する各３次元モデルデータのRepresentationに格納される@bandwidth　attributeである。この情報で、クライアント装置は各３次元モデルデータをデコード可能であるか否かの判定を行う。例えば、クライアント装置は、この情報を用いることで、３次元モデルデータ単体が再生可能であるビットレートであるか又はシーン全体で再生可能であるビットレートであるかを判定できる。

　以上の各情報のうち、第１、第４及び第５の情報が第１の指標として用いられ、第３、第４及び第５の情報が第２の指標として用いられ、第２及び第４の情報が第３の指標として用いられる。

　ここで、コンテンツ作成者としては、なるべく自由度の高い再生を利用者に提供してコンテンツの価値を高めたい希望がある。一方で、再生可能なクライアント装置の数は多い方が好ましい。そこで、コンテンツ作成者が、６ＤｏＦコンテンツとして複数のコンテンツ構成を準備して配信することが考えられる。以下では、対象物ベース、空間ベース及び混合型の各表現方法のそれぞれのコンテンツ構成を、対象物ベースのコンテンツ構成、空間ベースのコンテンツ構成及び混合型のコンテンツ構成と呼ぶ。

　例えば、コンテンツ作成者が混合型のコンテンツ構成と空間ベースのコンテンツ構成とを準備した場合、クライアント装置は、再生処理能力が高ければ混合型のコンテンツ構成を選択して再生するが、再生処理能力が低ければ空間ベースのコンテンツ構成を選択して再生する。この場合のシーンディスクリプションには、２つのコンテンツ構成が含まれるように記述される。この場合、従来であればクライアント装置は、第１～第５の情報を用いてコンテンツ構成を選択するために、シーンディスクリプションの全ての解析及びシーンを構成する３次元モデルデータのＭＰＤのAdaptationSetに記述される情報の解析を行う。この処理は、各シーンにおいて実際に利用しないコンテンツ構成の部分も解析するため効率が悪い。

　しかし、今までの6DoFコンテンツの配信システムでは、クライアント装置は、異なるコンテンツ構成を有する各コンテンツのいずれが再生処理可能であるかを判定するための情報の提供は受けていない。そのため、クライアント装置は、実際にデコード及びレンダリングしてみないと再生処理可能であるか否かを判定することが困難である。そこで、クライアント装置がコンテンツ構成を効率良く選択することができるシステムについて説明する。

[第１の実施形態に係るシステムの構成]
　図２は、配信システムの一例のシステム構成図である。配信システム１００は、情報処理装置であるファイル生成装置１、再生処理装置であるクライアント装置２及びＷｅｂサーバ３を含む。ファイル生成装置１、クライアント装置２及びＷｅｂサーバ３は、ネットワーク４に接続される。そして、ファイル生成装置１、クライアント装置２及びＷｅｂサーバ３は、ネットワーク４を介して相互に通信可能である。ここで、図１においては、各装置を１台ずつ示しているが、配信システム１００は、ファイル生成装置１及びクライアント装置２をそれぞれ複数台含んでもよい。

　ファイル生成装置１は、６ＤｏＦコンテンツを生成する。ファイル生成装置１は、生成した６ＤｏＦコンテンツをＷｅｂサーバ３にアップロードする。ここで、本実施形態では、Ｗｅｂサーバ３が６ＤｏＦコンテンツをクライアント装置２に提供する構成について説明するが、配信システム１００は他の構成を採ることも可能である。例えば、ファイル生成装置１が、Ｗｅｂサーバ３の機能を含み、生成した６ＤｏＦコンテンツを自装置内に格納し、クライアント装置２に提供する構成であってもよい。

　Ｗｅｂサーバ３は、ファイル生成装置１からアップロードされた６ＤｏＦコンテンツを保持する。そして、Ｗｅｂサーバ３は、クライアント装置２からの要求にしたがい指定された６ＤｏＦコンテンツを提供する。

　クライアント装置２は、６ＤｏＦコンテンツの送信要求をＷｅｂサーバ３へ送信する。そして、クライアント装置２は、送信要求で指定した６ＤｏＦコンテンツをＷｅｂサーバ３から取得する。そして、クライアント装置２は、６ＤｏＦコンテンツをデコードして映像を生成して、その映像をモニタなどの表示装置に表示させる。

　ここで、６ＤｏＦコンテンツについて説明する。６ＤｏＦコンテンツは、３次元空間を１つもしくは複数の３次元オブジェクトで表現する。３次元オブジェクトは、６ＤｏＦコンテンツのローカル座標系で正規化されたバウンディングボックス（Bounding　Box）内の座標系を用いて表現され、圧縮エンコードされてビットストリーム（bitstream）となる。このビットストリームを３次元空間へ配置するために、シーンディスクリプション（Scene　Description）が用いられる。

　このシーンディスクリプションの規格は、複数存在する。基本的には、各時刻における各３次元オブジェクトを表示するシーンをシーングラフと称するツリー階層構造のグラフで表現し、そのシーングラフをバイナリ形式またはテキスト形式で表現する。ここで、シーングラフは、空間表示制御情報であり、３次元オブジェクトの表示に関する情報を、ノードを構成単位として定義し、複数のノードを階層的に組合せることで構成される。ノードは、ある座標系から別の座標系へと変換する座標変換情報のノード、３次元オブジェクトの位置情報や大きさ情報のノード、３次元オブジェクトやオーディオデータへのアクセス情報のノードがある。

　なお、以下においては、６ＤｏＦコンテンツは、空間表示制御情報であるシーンディスクリプションデータと、複数の３次元オブジェクトのメディアデータ（例えば、３次元オブジェクトのメッシュデータとテクスチャデータを合わせて表現したもの）とで構成されるものとする。また、６ＤｏＦコンテンツには、オーディオデータが含まれてもよい。３次元オブジェクトのメディアデータはポイントクラウドなどの別の形式も適用可能である。また、本実施例ではシーンディスクリプションファイルは、MPEG-4　Scene　Description（ISO/IEC　14496-11）に準拠するものとする。

　MPEG-4　Scene　Descriptionデータは、シーングラフをＢＩＦＳ（Binary　Format　for　Scenes）という形式でバイナリ化してものである。このシーングラフのＢＩＦＳへの変換は、所定のアルゴリズムを用いることで可能となる。また、シーンディスクリプションをＩＳＯＢＭＦＦに格納することで時刻毎にシーンを規定することができ、位置や大きさの変化する３次元オブジェクトを表現することが可能である。

［第１の実施形態に係るファイル生成装置の構成］
　次に、ファイル生成装置１の詳細について説明する。図３は、ファイル生成装置のブロック図である。情報処理装置であるファイル生成装置１は、図３に示すように、生成処理部１０及び制御部１１を有する。制御部１１は、生成処理部１０の制御に関する処理を実行する。例えば、制御部１１は、生成処理部１０の各部の動作タイミングなどの統括制御を行う。生成処理部１０は、データ入力部１０１、前処理部１０２、符号化部１０３、ファイル生成部１０４及び送信部１０５を有する。

　データ入力部１０１は、３次元オブジェクト及びメタ情報などを生成するための元情報の入力を受け付ける。データ入力部１０１は、取得した元情報を前処理部１０２へ出力する。データ入力部１０１は、データの入力を受け付ける。データ入力部１０１が受け付けるデータには、３Ｄオブジェクト及び３Ｄオブジェクトの配置情報等のメタデータが含まれる。データ入力部１０１は、取得したデータを前処理部１０２へ出力する。

　前処理部１０２は、３Ｄオブジェクト及び３Ｄオブジェクトの配置情報等のメタデータを含むデータの入力をデータ入力部１０１から受ける。そして、前処理部１０２は、取得したデータを基にビットストリーム構成を決定し、各３Ｄオブジェクトのメタデータ、並びに、ビットストリームへのアクセス情報を用いてシーングラフを生成する。メタデータには、どのようなコーデックで圧縮するかなどの制御情報が含まれる。

　また、前処理部１０２は、コンテンツ構成毎に、上述した第１～第５の情報のうちのいずれか１つ又は複数のコンテンツ構成の情報を含む各コンテンツ構成選択情報を生成する。このコンテンツ構成選択情報により、各コンテンツ構成のシーンを再生するために必要とされる再生処理能力の指標が与えられる。

　そして、前処理部１０２は、シーンディスクリプション内でコンテンツ構成毎にコンテンツ構成選択情報を格納する。これにより、クライアント装置２はコンテンツ構成選択情報を用いて再生処理可能なコンテンツ構成を選択することが可能となる。以下に本実施例に係るコンテンツ構成選択情報の格納について詳細に説明する。

　図４は、第１の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。前処理部１０２は、図４に示すように、シーンディスクリプションの中のSwitchノードの配下にコンテンツ構成毎に子ノードを並べて配置する。図４では、例えば、コンテンツ構成３０１が混合型の表現手法のコンテンツ構成であり、コンテンツ構成３０２が、空間ベースの表現方法のコンテンツ構成である。そして、前処理部１０２は、各コンテンツ構成のシーン全体のデコード及びレンダリング可否判断に用いる情報をコンテンツ構成選択情報として格納するようにSwitchノードを拡張する。

　図５は、第１の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。例えば、前処理部１０２は、SwitchノードにおけるChoice　fieldで複数のコンテンツ構成を示す。さらに、前処理部１０２は、それぞれのコンテンツ構成のコンテンツ構成選択情報を示すPoints　field、VertivesParFace　Field、Faces　field、Indices　field、Num3DmodeData　Field、3DmodeIDataMimeType　Field、3DmodeDataCodec　field及びBitrate　fieldを新規に追加する。そして、前処理部１０２は、Choice　fieldで示されるコンテンツ構成順で、新規追加のfieldに値を格納することで、コンテンツ構成毎の値を格納する。

　Pointsは、ポイントクラウドのPoint数である。VertivesParFaceは、メッシュの面の頂点数である。Facesは、メッシュの面数である。Indicesは、メッシュの頂点数である。これら、Points、VertivesParFace、Faces及びIndicesは、第２の情報にあたる。Num3DmodelDataは、外部参照する３次元モデルデータの数である。このNum3DmodelDataは、第３の情報にあたる。3DmodelDataMimeTypeは、外部参照する３次元モデルデータのMimeTypeである。3DmodelDataCodecは、外部参照する３次元モデルデータのコーデックである。これら、Num3DmodelData及び3DmodelDataCodecは、第４の情報にあたる。Bitrateは、外部参照する３次元モデルデータを含めたビットレートである。このBitrateは、第５の情報にあたる。

　前処理部１０２は、３次元オブジェクト及び生成したシーングラフを符号化部１０３へ出力する。また、前処理部１０２は、メタデータをファイル生成部１０４へ出力する。

　符号化部１０３は、３次元オブジェクト及びシーングラフの入力を前処理部１０２から受ける。そして、符号化部１０３は、３次元オブジェクトを符号化しビットストリームを生成する。また、符号化部１０３は、取得したシーングラフを符号化しシーンディスクリプションを生成する。その後、符号化部１０３は、生成したビットストリーム及びシーンディスクリプションをファイル生成部１０４へ出力する。

　ファイル生成部１０４は、ビットストリーム及びシーンディスクリプションの入力を符号化部１０３から受ける。また、ファイル生成部１０４は、メタデータの入力を前処理部１０２から受ける。そして、ファイル生成部１０４は、取得したビットストリームをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部１０４は、シーンディスクリプションのデータをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。

　また、ファイル生成部１０４は、前処理部１０２から取得したデータを基に、ＭＰＤ（Media　Presentation　Description）ファイルを生成する。ＭＰＤファイルには、メディア種別、動画や音声のセグメントファイルの情報などの６ＤｏＦコンテンツのメタ情報が格納される。

　送信部１０５は、ビットストリーム、シーンディスクリプションのＩＳＯＢＭＦＦファイル及びＭＰＤファイルをファイル生成部１０４から取得し、それらをＷｅｂサーバ３に送信してアップロードする。

［第１の実施形態に係るクライアント装置の構成］
　図６は、クライアント装置のブロック図である。図６に示すように、クライアント装置２は、再生処理部２０及び制御部２１を有する。制御部２１は、再生処理部２０の各部の動作を制御する。例えば、制御部２１は、再生処理部２０の各部の動作のタイミングを統括制御する。再生処理部２０は、ファイル取得部２０１、計測部２０２、ファイル処理部２０３、復号処理部２０４、表示制御部２０５、表示情報生成部２０６及び表示部２０７を有する。

　ファイル取得部２０１は、再生する６ＤｏＦコンテンツに対応するＭＰＤファイルをＷｅｂサーバ３から取得する。そして、ファイル取得部２０１は、ＭＰＤファイルを基に、再生する６ＤｏＦコンテンツのシーンディスクリプションの情報を取得する。

　ファイル取得部２０１は、Ｗｅｂサーバ３にアクセスして表示する６ＤｏＦコンテンツのシーンディスクリプションが格納されたＩＳＯＢＭＦＦのファイルを取得する。そして、ファイル取得部２０１は、シーンディスクリプションが格納されたＩＳＯＢＭＦＦのファイルをファイル処理部２０３へ出力する。

　さらに、ファイル取得部２０１は、ファイル処理部２０３により選択されたビットストリームの情報をファイル処理部２０３から取得する。そして、ファイル取得部２０１は、Ｗｅｂサーバ３にアクセスして、選択されたビットストリームのセグメントファイルを取得する。その後、ファイル取得部２０１は、取得したビットストリームのセグメントファイルをファイル処理部２０３へ出力する。

　計測部２０２は、クライアント装置２とＷＥＢサーバとの間の伝送路の伝送帯域を計測する。そして、計測部２０２は、伝送帯域の計測結果をファイル処理部２０３へ出力する。

　ファイル処理部２０３は、再生する６ＤｏＦコンテンツに対応するＭＰＤファイルの入力をファイル取得部２０１から受ける。そして、ファイル処理部２０３は、取得したＭＰＤファイルをパースして再生する６ＤｏＦコンテンツのシーンディスクリプションの情報を取得する。また、ファイル処理部２０３は、適応配信に用いる複数のデータの認識も行う。例えば、ビットレートを切替える適応配信であれば、各ビットレートに対応するビットストリームのセグメントファイルの情報を取得する。この場合、ファイル処理部２０３は、再生する６ＤｏＦコンテンツのシーンディスクリプションの情報をファイル取得部２０１へ出力する。

　ファイル処理部２０３は、シーンディスクリプションが格納されたＩＳＯＢＭＦＦのファイルの入力をファイル取得部２０１から受ける。ファイル処理部２０３は、取得したＩＳＯＢＭＦＦのファイルをパースする。そして、ファイル処理部２０３は、シーンディスクリプションのSwitchノードを取得する。その後、ファイル処理部２０３は、Switchノードからコンテンツ構成選択情報を取得する。次に、ファイル処理部２０３は、取得したコンテンツ構成選択情報から、クライアント装置２の再生処理能力に応じて用いるコンテンツ構成を選択する。その後、ファイル処理部２０３は、選択したコンテンツ構成に対応するシーングラフの中の子ノードを取得する。そして、ファイル処理部２０３は、選択したコンテンツ構成のシーンにおける、座標変換情報、３次元オブジェクトの配置情報及びアクセス情報を取得する。

　また、ファイル処理部２０３は、伝送帯域の計測結果の入力を計測部２０２から受ける。そして、ファイル処理部２０３は、シーンディスクリプションのパース結果、並びに、計測部２０２から取得した伝送帯域を示す情報等に基づいて、再生するビットストリームのセグメントファイルを選択する。そして、ファイル処理部２０３は、選択したビットストリームのセグメントファイルの情報をファイル取得部２０１へ出力する。この時、伝送帯域に応じて選択するビットストリームのセグメントファイルを変えることで、ビットレートに応じた適応配信が実現される。

　その後、ファイル処理部２０３は、選択したビットストリームのセグメントファイルの入力をファイル取得部２０１から受ける。そして、ファイル処理部２０３は、取得したビットストリームのセグメントファイルから、ビットストリームのデータを抽出し復号処理部２０４へ出力する。

　復号処理部２０４は、ビットストリームデータの入力をファイル処理部２０３から受ける。そして、復号処理部２０４は、取得したビットストリームのデータに対して復号処理を施す。その後、復号処理部２０４は、復号化したビットストリームのデータを表示情報生成部２０６へ出力する。

　表示制御部２０５は、操作者の視点位置及び視線方向の情報の入力を図示しない入力装置から受ける。そして、表示制御部２０５は、取得した視点位置及び視点方向の情報を表示情報生成部２０６へ出力する。

　また、表示制御部２０５は、どのような３次元オブジェクトが存在するかの情報の入力をファイル処理部２０３から受ける。操作者は、視点位置及び視線情報の代わりに入力装置を用いて注目する３次元オブジェクトを示す指定情報の入力を行うこともできる。表示制御部２０５は、操作者により指定された注目する３次元オブジェクトを示す指定情報を取得する。そして、例えば３次元オブジェクトの追尾した視聴の場合、表示制御部２０５は、時間経過にしたがい指定情報で指定された３次元オブジェクトを追尾するように視点位置及び視点方向の情報を表示情報生成部２０６へ出力する。これにより、例えば、操作者により指定された３次元オブジェクトを追尾する画像を表示することができる。また、例えば３次元オブジェクトの位置を表示する場合、表示制御部２０５は、指定された３次元オブジェクトを６ＤｏＦコンテンツの中から特定する情報を生成する。

　表示情報生成部２０６は、シーンディスクリプション及び復号されたビットストリームのデータおよび、取得した視点位置及び視点方向の情報を受信し、表示情報を生成する。以下に表示情報生成部２０６の詳細について説明する。

　ビットストリームのデータの入力を復号処理部２０４から受ける。そして、表示情報生成部２０６は、シーンディスクリプションを基に、取得したビットストリームのデータである３次元オブジェクトを３次元空間に配置する。さらに、表示情報生成部２０６は、操作者の視点位置及び視線方向の情報の入力を表示制御部２０５から受ける。そして、表示情報生成部２０６は、視点位置及び視線方向に合わせて３次元空間に配置した３次元オブジェクトのレンダリングを行い表示用の画像を生成する。その後、表示情報生成部２０６は、生成した表示用の画像を表示部２０７に供給する。

　表示部２０７は、モニタなどの表示装置を有する。表示部２０７は、表示情報生成部２０６により生成された表示用の画像の入力を受ける。そして、表示部２０７は、取得した表示用の画像を表示装置に表示させる。

［第１の実施形態に係るファイル生成手順］
　次に、図７を参照して、第１の実施形態に係るファイル生成装置１によるファイル生成処理の流れについて詳細に説明する。図７は、第１の実施形態に係るファイル生成装置によるファイル生成処理のフローチャートである。

　前処理部１０２は、コンテンツ構成選択情報を生成する（ステップＳ１）。本実施形態では、前処理部１０２は、シーンディスグラフにおけるSwitchノードに格納するためのコンテンツ構成選択情報を生成する。

　そして、前処理部１０２は、コンテンツ構成選択情報がSwitchノードに格納されたシーングラフのデータを生成する（ステップＳ２）。前処理部１０２は、コンテンツ構成選択情報がSwitchノードに格納されたシーングラフのデータを符号化部１０３へ出力する。

　次に、符号化部１０３は、３次元オブジェクトのデータをエンコードして３次元オブジェクトのビットストリームを生成する。また、符号化部１０３は、取得したシーングラフを符号化しシーンディスクリプションを生成する（ステップＳ３）。

　次に、ファイル生成部１０４は、取得したビットストリームをセグメント毎にＩＳＯＢＭＦＦファイルに格納してビットストリームのセグメントファイルを生成する。また、ファイル生成部１０４は、シーンディスクリプションのデータをセグメント毎にＩＳＯＢＭＦＦファイルに格納してシーンディスクリプションのセグメントファイルを生成する（ステップＳ４）。

　送信部１０５は、ファイル生成部１０４により生成されたセグメントファイルをＷｅｂサーバ３へ出力する（ステップＳ５）。

［第１の実施形態に係る再生処理手順］
　次に、図８を参照して、本実施形態に係るクライアント装置２により実行される再生処理の流れを説明する。図８は、第１の実施形態に係るクライアント装置により実行される再生処理のフローチャートである。

　ファイル取得部２０１は、再生する６ＤｏＦコンテンツに対応するＭＰＤファイルをＷｅｂサーバ３から取得する（ステップＳ１１）。ファイル取得部２０１は、取得したＭＰＤファイルをファイル処理部２０３へ出力する。

　ファイル処理部２０３は、ファイル取得部２０１から入力されたＭＰＤファイルをパースして解析処理を実行する（ステップＳ１２）。ファイル処理部２０３は、解析結果を基に、再生する６ＤｏＦコンテンツのシーンディスクリプションを特定する。

　そして、ファイル取得部２０１は、ファイル処理部２０３により特定されたシーンディスクリプションを取得する。次に、ファイル処理部２０３は、ファイル取得部２０１が取得したシーンディスクリプションをパースしてSwitchノードを取得する。次に、ファイル処理部２０３は、Switchノードからコンテンツ構成選択情報を取得する（ステップＳ１３）。

　そして、ファイル処理部２０３は、取得したコンテンツ構成選択情報を用いてクライアント装置２の再生処理能力に応じたコンテンツ構成を選択する（ステップＳ１４）。

　次に、ファイル処理部２０３は、選択したコンテンツ構成に対応する子ノードをパースする。その後、ファイル処理部２０３は、パース結果を基に、再生する６ＤｏＦコンテンツに対応するビットストリームのセグメントファイルを取得する（ステップＳ１５）。復号処理部２０４は、ビットストリームのセグメントファイルに対して復号処理を施す。その後、復号処理部２０４は、ビットストリームのデータを表示情報生成部２０６へ出力する。

　表示制御部２０５は、入力された視点位置及び視線方向の情報を表示情報生成部２０６へ出力する。表示情報生成部２０６は、表示制御部２０５から取得した視点位置及び視線方向の情報を用いて３次元オブジェクトのレンダリングや位置情報の付加を行い表示用の画像を生成して表示部２０７に表示させる視聴処理を実行する（ステップＳ１６）。

　以上に説明したように、本実施例に係るファイル生成装置は、シーンディスクリプションのルートノードであるSwitchノードにコンテンツ構成選択情報を格納してクライアント装置へ提供する。クライアント装置は、シーンディスクリプションのルートノードであるSwitchノードを取得しコンテンツ構成選択情報を取得して、取得したコンテンツ構成選択情報を用いてコンテンツ構成の選択を行う。

　コンテンツ構成選択情報が格納されていない構成では、シーンディスクリプション全ての解析を行いコンテンツ構成選択するための情報を収集した。これに対して、本実施形態に係る配信システムでは、クライアント装置は、Switchノードを取得すればコンテンツ構成選択情報を取得でき、シーンディスクリプションの他のノードの解析を行わなくてもコンテンツ構成を選択するための情報を取得できる。したがって、効率の良いコンテンツ構成の選択が可能となる。

　コンテンツ作成者は、コンテンツ構成を複数準備して再生能力の異なるクライアント装置に対応可能な６ＤｏＦコンテンツの配信が可能となる。そして、クライアント装置は、自装置の再生処理能力に応じたコンテンツ構成の選択を効率よく行うことができる。

［１．１　第１の実施形態の変形例（１）］
　本変形例に係るファイル生成装置１は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryにコンテンツ構成選択情報を格納することが第１の実施形態と異なる。

　本変形例に係るファイル生成装置１の前処理部１０２は、コンテンツ構成選択情報をメタとして生成する。そして、前処理部１０２は、コンテンツ構成選択情報を含むメタデータをファイル生成部１０４へ送信する。

　ファイル生成部１０４は、ビットストリーム及びシーンディスクリプションの入力を符号化部１０３から受ける。また、ファイル生成部１０４は、コンテンツ構成選択情報を含むメタデータの入力を前処理部１０２から受ける。

　ファイル生成部１０４は、ビットストリームについては第１の実施形態と同様に、取得したビットストリームをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。

　一方、シーンディスクリプションのデータをＩＳＯＢＭＦＦファイルに格納する場合、ファイル生成部１０４は、メタデータの中からコンテンツ構成選択情報を取得する。そして、ファイル生成部１０４は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryにコンテンツ構成選択情報を格納する。

　例えば、ファイル生成部１０４は、図９に示すように、シーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryに、ＢＯＸ３０３で示される6DoFContentStructBoxを新しく追加する。図９は、第１の実施形態の変形例（１）におけるシーンディスクリプションのＩＳＯＢＭＦＦファイルを表す図である。そして、ファイル生成部１０４は、その6DoFContentStructBoxの中に、コンテンツ構成毎のコンテンツ構成選択情報を格納する。

　例えば、ファイル生成部１０４は、図１０に示すシンタックスで表されるコンテンツ構成選択情報を6DoFContentStructBoxに格納する。図１０は、第１の実施形態の変形例（１）におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。この場合のファイル構成選択情報は、図５で示した第１の実施形態で新しく追加したfieldと同様の情報である。

　このように、ファイル生成部１０４は、シーンディスクリプションのデータをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。そして、ファイル生成部１０４は、ファイル構成情報を含むシーンディスクリプションのＩＳＯＢＭＦＦファイルを送信部１０５へ出力する。

　本変形例に係るクライアント装置２のファイル処理部２０３は、シーンディスクリプションのＩＳＯＢＭＦＦファイルの入力をファイル取得部２０１から受ける。そして、シーンディスクリプションのＩＳＯＢＭＦＦファイルのInitialization　Segmentを取得する。次に、ファイル処理部２０３は、取得したInitialization　Segmentにおける6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、この取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。

　以上に説明したように、本変形例に係るクライアント装置は、シーンディスクリプション自体の解析前にコンテンツ構成選択情報を取得することができ、シーンディスクリプション自体の解析を行わずにコンテンツ構成の選択を行うことができる。このように、本実施例に係るクライアント装置は、コンテンツ構成の選択のためにシーンディスクリプション自体の解析を行わなくても良い。変形例（１）の構成は、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効である。この場合、シーンディスクリプション自体の拡張を行わなくてもよい。

［１．２　第１の実施形態の変形例（２）］
　本変形例に係るファイル生成装置１は、各コンテンツ構成選択情報の値を決めてグループ化し、そのグループにより各コンテンツ構成の属するグループを示すことで各コンテンツ構成のコンテンツ構成選択情報を表すことが第１の実施形態と異なる。

　図１１は、コンテンツ構成選択情報のグループの一例を表す図である。図１１の表では、識別番号であるRequiedPerformanceIDとして０１～０３が与えられたグループが設定される。そして、グループ毎に、各コンテンツ構成選択情報についてどのような値が設定されているかが表される。

　本実施例に係るファイル生成装置１の前処理部１０２は、図１１に示したコンテンツ構成選択情報のグループの情報を有する。そして、前処理部１０２は、コンテンツ構成毎にいずれのグループにあたるかをRequiedPerformanceIDにより表した情報を、Switchノードに格納する。

　本実施例に係るクライアント装置２のファイル処理部２０３は、シーンディスクリプションのSwitchノードを解析して、各コンテンツ構成が属するグループのRequiedPerformanceIDを取得する。そして、ファイル処理部２０３は、各コンテンツ構成が属するグループに割り当てられたコンテンツ構成選択情報から、各コンテンツ構成の再生で要求される再生処理能力を判定してコンテンツ構成の選択を行う。

　以上に説明したように、本実施例に係るファイル生成装置は、コンテンツ構成選択情報のグループを用いてコンテンツ構成毎のコンテンツ構成選択情報を通知する。これにより、コンテンツ構成毎の細かいコンテンツ構成選択情報の生成を行わなくても良くなり、コンテンツ構成選択情報の生成処理を軽くすることが可能となる。本手法は第１の実施形態の変形例（１）にも適用可能である。

［１．３　第１の実施形態の変形例（３）］
　本変形例に係るファイル生成装置１は、３次元モデルデータを伝送する際のファイルフォーマットとしてＩＳＯＢＭＦＦではなく、Matroska　Media　Container（http://www.matroska.org/）を用いることが第１の実施形態と異なる。

　図１２は、Matroska　Media　Containerのフォーマットを表す図である。本変形例に係るファイル生成装置１のファイル生成部１０４は、Track　Entry　elementに、コンテンツ構成選択情報を有する6DoFContentStruct　elementを格納する。この際、ファイル生成部１０４は、Element　Typeをバイナリとし、且つ、ＥＢＭＬ（Extensible　Binary　Meta　Language）データとして図１０に示したSelectContentStructMetadata()をバイナリデータとして格納する。

　本変形例に係るクライアント装置２のファイル処理部２０３は、シーンディスクリプションが含まれるMatroska　Media　ContainerファイルのInitialization　Segmentを取得する。そして、ファイル処理部２０３は、Initialization　Segmentに含まれる6DoFContentStruct　elementからコンテンツ構成選択情報を取得してコンテンツ構成の選択を行う。

　このように、変形例（１）とは異なるコンテナフォーマットを用いた場合でもコンテンツ構成選択情報を提供してクライアント装置にコンテナ構成の選択を行わせることが可能である。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、変形例（２）のようにRequiedPerformanceIDを表すようにElement　TypeをIntegerとして格納することも可能である。

［１．４　第１の実施形態の変形例（４）］
　本実施例に係るファイル生成装置１は、シーンディスクリプションにおいて、コンテンツ構成毎にコンテンツ構成選択情報を格納することが第１の実施形態と異なる。図１３は、第１の実施形態の変形例（４）に係るコンテンツ構成選択情報の格納方法を説明するための図である。

　本変形例に係るファイル生成装置１のファイル生成部１０４は、例えば、図４に示すように、コンテンツ構成３０１のGroupノードの配下にRequiedPerformanceノード３１１を新しく定義し、コンテンツ構成３０２のGroupノードの配下にRequiedPerformanceノード３１２を新しく定義する。そして、ファイル生成部１０４は、各RequiedPerformanceノード３１１にコンテンツ構成３０１のコンテンツ構成選択情報を格納する。また、ファイル生成部１０４は、各RequiedPerformanceノード３１２にコンテンツ構成３０２のコンテンツ構成選択情報を格納する。

　図１４は、RequiedPerformanceノードのシンタックスの一例を表す図である。具体的には、ファイル生成部１０４は、図１４に示すようなシンタックスを用いて１つのコンテンツ構成のコンテンツ構成選択情報を有するノードとしてRequiedPerformanceノードを定義する。図１４に示すように、RequiedPerformanceノードは、コンテンツ構成の再生可否判定の指標となる情報が登録される。この場合も、Pointsは、ポイントクラウドのPoint数を表す。VertivesParFaceは、メッシュの面の頂点数を表す。Facesは、メッシュの面数を表す。Indicesは、メッシュの頂点数を表す。Num3DmodelDataは、外部参照する３次元モデルデータの数を表す。3DmodelDataMimeTypeは、外部参照する３次元モデルデータのMimeTypeを表す。3DmodelDataCodecは、外部参照する３次元モデルデータのコーデックを表す。Bitrateは、外部参照する３次元モデルデータを含めたビットレートを表す。

　本変形例に係るクライアント装置２のファイル処理部２０３は、コンテンツ構成毎のRequiedPerformanceノードを取得する。この段階では、ファイル処理部２０３は、このGroupノード配下の他の子ノードは取得しない。次に、ファイル処理部２０３は、各RequiedPerformanceノードから各コンテンツ構成のコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、コンテンツ構成の選択を行う。その後、ファイル処理部２０３は、選択したコンテンツ構成のGroupノード以下を取得してパースする。

　以上に説明したように、本変形例に係るクライアント装置は、各コンテンツ構成のGroupノード直下のRequiedPerformanceノードまでを取得して解析することで、コンテンツ構成の選択を行うことができる。したがって、シーンディスクリプション全体を解析する場合に比べて、処理を削減することができる。また、既存のノードに変更を加えることなく、コンテンツ構成選択情報をクライアント装置へ提供することができる。

　ここで、本変形例では、Groupノードの子ノードとして、コンテンツ構成選択情報を格納するノードを生成したが、コンテンツ構成のルートノードであれば、他のノードの子ノードとしてもよい。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、RequiedPerformanceノードを、変形例（２）におけるRequiedPerformanceIDを保持するように構成してもよい。

［１．５　第１の実施形態の変形例（５）］
　本変形例に係るファイル生成装置１は、シーンディスクリプションへのアクセス情報を示すＭＰＤファイルにおけるAdaptationSetにコンテンツ構成選択情報を格納することが第１の実施形態と異なる。

　本変形例に係るファイル生成装置１の前処理部１０２は、コンテンツ構成選択情報を生成する。そして、前処理部１０２は、コンテンツ構成選択情報を含むメタデータをファイル生成部１０４へ送信する。

　そして、ファイル生成部１０４は、取得したビットストリームをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化し、ビットストリームのセグメントファイルを生成する。また、ファイル生成部１０４は、シーンディスクリプションのデータをセグメント毎にＩＳＯＢＭＦＦファイルに格納することでファイル化して、シーンディスクリプションのセグメントファイルを生成する。

　さらに、ファイル生成部１０４は、前処理部１０２から取得したデータを基に、ＭＰＤファイルを生成する。この時、ファイル生成部１０４は、メタデータに含まれるコンテンツ構成選択情報を取得する。そして、ファイル生成部１０４は、図４で示したＭＰＤファイルにおけるシーンディスクリプションのAdaptationSet３２０に図１５に示した6DoFContentStruct　descriptorを定義する。図１５は、6DoFContentStruct　Descriptorの記述例を表す図である。さらに、ファイル生成部１０４は、取得したコンテンツ構成選択情報にしたがって、コンテンツ構成毎のCSC　elementを6DoFContentStruct　Descriptorに格納することで、CSC　elementのattributeでコンテンツ構成選択情報を登録する。

　図１６は、第１の実施形態の変形例（５）におけるCSCのsemanticsを表す図である。図１６に示すように、CSCは、コンテンツ構成のcapabilityを示す情報エレメントについて定義を記載したものである。CSCは１つ以上のエレメントから最大２５５までのエレメントで構成される。ここで、@Useは使用される各エレメントがOptionalかMandatoryかの属性情報を示すものである。

　CSC　elementが複数出現する場合は、シーンディスクリプションのSwitchノードのchoice　fieldに記載されたコンテンツ構成順で登録される。この場合、CSC@pointsは、ポイントクラウドのPoint数を表す。CSC@VertivesParFaceは、メッシュの面の頂点数を表す。CSC@Facesは、メッシュの面数を表す。CSC@Indicesは、メッシュの頂点数を表す。CSC@Num3DmodelDataは、外部参照する３次元モデルデータの数を表す。CSC@3DmodelDataMimeTypeは、外部参照する３次元モデルデータのMimeTypeを表す。CSC@3DmodelDataCodecは、外部参照する３次元モデルデータのコーデックを表す。CSC@Bitrateは、外部参照する３次元モデルデータを含めたビットレートを表す。

　本実施例に係るクライアント装置２のファイル処理部２０３は、ＭＰＤファイルをパースすることでコンテンツ構成選択情報を取得する。すなわち、ファイル処理部２０３は、ＭＰＤファイルを取得した時点でコンテンツ構成選択情報を取得することができ、シーンディスクリプションに再生可能であるコンテンツが存在するか否かを判定することができる。

　以上に説明したように、本実施例に係るクライアント装置は、シーンディスクリプションを取得せずとも再生可能なコンテンツ構成の選択ができる。このことから、効率のよいコンテンツ構成選択が可能となる。ただし、この場合、ＭＰＤファイルにコンテンツ構成選択情報が格納されるため、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効と言える。また、本変形例ではコンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えば、CSC　elementのattributeが変形例（２）のようにRequiedPerformanceIDを表す情報を格納するように構成することも可能である。

［２．第２の実施形態］
　本実施形態に係るファイル生成装置１は、コンテンツ構成毎にシーンディスクリプションを別ファイルとするファイル構成として、各シーンディスクリプションのAdaptationSetにコンテンツ構成選択情報を格納することが第１の実施形態と異なる。本実施形態に係るファイル生成装置１も図３のブロック図で表される。また、本実施形態に係るクライアント装置２も図６のブロック図で表される。以下の説明では、第１の実施形態と同様の各部の動作については説明を省略する場合がある。

　図１７は、第２の実施形態に係るコンテンツ構成選択情報の格納方法を説明するための図である。本変形例に係るファイル生成装置１の前処理部１０２は、図１７に示すようにコンテンツ構成毎にシーンディスクリプション３３１及び３３２を生成する。シーンディスクリプション３３１は、コンテンツ構成＃１のシーンディスクリプションである。また、シーンディスクリプション３３２は、コンテンツ構成＃２のシーンディスクリプションである。そして、前処理部１０２は、コンテンツ構成＃１及び＃２のそれぞれのコンテンツ構成選択情報を生成し、ファイル生成部１０４へ出力する。

　ファイル生成部１０４は、シーンディスクリプション３３１及び３３２を符号化部１０３から取得する。また、ファイル生成部１０４は、コンテンツ構成＃１及び＃２のそれぞれのコンテンツ構成選択情報を前処理部１０２から取得する。

　そして、ファイル生成部１０４は、シーンディスクリプション３３１及び３３２をＩＳＯＢＭＦＦファイルに格納する。また、ファイル生成部１０４は、ＭＰＤファイルにおけるシーンディスクリプション３３１及び３３２のそれぞれのAdaptationSetに図１５に示した6DoFContentStruct　Descriptorを用いてそれぞれのコンテンツ構成情報を格納する。

　本実施形態に係るクライアント装置２のファイル処理部２０３は、ＭＰＤファイルをファイル取得部２０１から取得する。そして、ファイル処理部２０３は、ＭＰＤファイルの各シーンディスクリプション３３１及び３３２のそれぞれのAdaptationSetに含まれるコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成を選択する。その後、ファイル処理部２０３は、選択したコンテンツ構成のシーンディスクリプションをファイル取得部２０１を介してＷｅｂサーバ３から取得する。

　以上に説明したように、本実施形態に係るクライアント装置は、ＭＰＤファイルを取得した時点でコンテンツ構成の選択が行える。一方、第１の実施形態及びその変形例に係る手法では、利用しないコンテンツ構成を含むシーンディスクリプションを取得するため、使用しないデータを取得することになる。このように、本実施例に係るクライアント装置は、余分なコンテンツ構成のシーンディスクリプションのデータを取得しなくても良いため、第１の実施形態及びその変形例と比較して、効率の良いコンテンツ構成選択が可能となる。ただし、この場合、ＭＰＤファイルにコンテンツ構成選択情報が格納されるため、時間毎にコンテンツ構成の再生に要求される再生処理能力が変化しない場合に有効と言える。

［２．１　第２の実施形態の変形例（１）］
　本変形例に係るファイル生成装置１は、コンテンツ構成選択情報をシーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryに格納することが第２の実施形態と異なる。

　ファイル生成部１０４は、ビットストリーム及びシーンディスクリプションの入力を符号化部１０３から受ける。また、ファイル生成部１０４は、ンテンツ構成選択情報を含むメタデータの入力を前処理部１０２から受ける。

　このシーンディスクリプションのＩＳＯＢＭＦＦファイルへの格納時に、ファイル生成部１０４は、メタデータに含まれるコンテンツ構成選択情報をシーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryに格納する。この場合、ファイル生成部１０４は、図９及び図１０で示した格納方法によりコンテンツ構成選択情報を格納することができる。

　本実施形態に係るクライアント装置２のファイル処理部２０３は、シーンディスクリプションのＩＳＯＢＭＦＦファイルをファイル取得部２０１から取得する。次に、ファイル処理部２０３は、取得したシーンディスクリプションのＩＳＯＢＭＦＦファイルのInitialization　Segmentを取得する。そして、ファイル処理部２０３は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのInitialization　Segmentに含まれる6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成を選択する。その後、ファイル処理部２０３は、選択したコンテンツ構成のシーンディスクリプションをファイル取得部２０１を介してＷｅｂサーバ３から取得する。

　以上に説明したように、本実施例に係るクライアント装置は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのInitialization　Segmentに含まれる6DoFContentStructBoxからコンテンツ構成選択情報を取得する。その後、クライアント装置は、利用するコンテンツ構成のシーンディスクリプションのデータを取得すればよく、他の使用しないコンテンツ構成のシーンディスクリプションのデータを取得しなくてもよい。したがって、効率の良いコンテンツ構成選択が可能となる。

　ここで、３次元モデルデータを伝送する際のファイルフォーマットとしてＩＳＯＢＭＦＦではなく、Matroska　Media　Containerを用いることも可能である。Matroska　Media　Containerを用いる場合、ファイル生成部１０４は、第１の実施形態の変形例（３）と同様の方法でコンテンツ構成選択情報を格納してクライアント装置へ提供することができる。

［３．第３の実施形態］
　６ＤｏＦコンテンツの配信において、最大の処理能力、ビットレート、精細度をなどのアダプテーションの変更が可能である。そして、１つのコンテンツ構成内で３次元モデルデータ毎のビットレートアダプテーションなどにより、クライアントに要求される再生処理能力は変化する。例えば、あるコンテンツ構成で３次元モデルデータのメッシュの面数のバリエーションが最大のストリームを選択すれば、クライアントには高い再生処理能力が要求されるが、最小の面数を選択すればクライアントに要求される再生処理能力を低く抑えることができる。

　つまり、コンテンツ作成者は、コンテンツ構成内でアダプテーションされたコンテンツを提供すれば再生できるクライアントを増やすことができる。しかし、コンテンツ構成内でアダプテーションされたコンテンツが、クライアントにとって再生処理可能であるかをクライアントが判定するための情報は提供されていない。そこで、コンテンツ構成内でアダプテーションなされる場合において、クライアントがコンテンツ構成を効率良く選択することができるシステムについて説明する。

　本実施形態に係るファイル生成装置１は、再生に要求される最大の再生処理能力を示す情報とともに、必要最低限の再生処理能力を示す情報を生成して格納しクライアント装置２へ提供することが第１の実施形態と異なる。本実施形態に係るファイル生成装置１も図３のブロック図で表される。また、本実施形態に係るクライアント装置２も図６のブロック図で表される。以下の説明では、第１の実施形態と同様の各部の動作については説明を省略する場合がある。

　本実施形態に係るファイル生成装置１の前処理部１０２は、コンテンツ構成毎にコンテンツ構成選択情報を生成する。次に、前処理部１０２は、シーンディスクリプションのSwitchノードを図１８に示すように拡張してコンテンツ構成毎のコンテンツ構成選択情報を格納する。

　図１８は、第２の実施形態における拡張したSwitchノードのシンタックスの一例を表す図である。MaxPointsは、ポイントクラウドの最大Point数である。MinPointsは、ポイントクラウドの最小Point数である。MaxVertivesParFaceは、メッシュの面の最大頂点数である。MinVertivesParFaceは、メッシュの面の最小頂点数である。MaxFacesは、メッシュの最大面数である。MinFacesは、メッシュの最小面数である。MaxIndicesは、メッシュの最大頂点数である。MinIndicesは、メッシュの最小頂点数である。MaxNum3DmodelDataは、外部参照する３次元モデルデータの最大数である。MinNum3DmodelDataは、外部参照する３次元モデルデータの最小数である。Max3DmodelDataCodecは、外部参照する３次元モデルデータのコーデックの最大値である。Min3DmodelDataCodecは、外部参照する３次元モデルデータのコーデックの最小値である。MaxBitrateは、外部参照する３次元モデルデータを含めた最大ビットレートである。MinBitrateは、外部参照する３次元モデルデータを含めた最小ビットレートである。

　ここで、最大値を示すコンテンツ構成情報は、そのコンテンツを確実に再生することが可能な再生処理能力を示す情報である。また、最小値を示すコンテンツ構成情報は、アダプテーションが実行された場合に、そのコンテンツを再生することが可能な再生処理能力を示す情報であり、そのコンテンツの一部分を再生することが可能な再生処理能力を示す情報と言える。

　前処理部１０２は、図１８で示すシンタックスで表されるSwitchノードを含むシーングラフを符号化部１０３へ出力する。

　本実施例に係るクライアント装置２のファイル処理部２０３は、取得したシーンディスクリプションからSwitchノードを取得する。そして、ファイル処理部２０３は、Switchノードから各システム構成のシステム構成選択情報を取得する。そして、ファイル処理部２０３は、取得したシステム構成選択情報を用いて使用するシステム構成の選択を行う。この場合、ファイル処理部２０３は、クライアント装置２があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。

　その後、ファイル処理部２０３は、シーンディスクリプションにおける選択したシステム構成のGroupノード以下をパースする。

　第１の実施形態ではアダプテーションに関わらずにコンテンツ構成について最大の再生処理能力が要求されたため、アダプテーションが行われれば再生可能なコンテンツ構成も選択されない。これに対して、本実施形態に係るクライアント装置は、最も再生処理能力が要求された場合再生困難なコンテンツ構成であっても、アダプテーションを行った場合に再生可能となるコンテンツ構成であれば、選択して再生することができる。

　これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した６ＤｏＦコンテンツの配信が可能となる。すなわち、コンテンツ作成者は、１つのコンテンツ構成で再生可能なクライアント装置を増やすことが可能となる。また、クライアント装置は、コンテンツ構成内のアダプテーションを考慮して、自装置の再生処理能力に応じた再生可能なコンテンツ構成の選択が可能となる。

［３．１　第３の実施形態の変形例（１）］
　本変形例に係るファイル生成装置１は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryにコンテンツ構成選択情報を格納することが第３の実施形態と異なる。

　ファイル生成部１０４は、コンテンツ構成選択情報の入力を前処理部１０２から受ける。ファイル生成部１０４は、シーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryに6DoFContentStructBoxを新しく追加する。そして、ファイル生成部１０４は、図１９に示すシンタックスで表されるコンテンツ構成選択情報を6DoFContentStructBoxに格納する。図１９は、第３の実施形態の変形例（１）におけるSampleEntryに格納されるコンテンツ構成選択情報のシンタックスの一例を示す図である。

　その後、ファイル生成部１０４は、ファイル構成情報を含むシーンディスクリプションのＩＳＯＢＭＦＦファイルを送信部１０５へ出力する。

　本変形例に係るクライアント装置２のファイル処理部２０３は、シーンディスクリプションのＩＳＯＢＭＦＦファイルの入力をファイル取得部２０１から受ける。そして、シーンディスクリプションのＩＳＯＢＭＦＦファイルのInitialization　Segmentを取得する。次に、ファイル処理部２０３は、取得したInitialization　Segmentにおける6DoFContentStructBoxからコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、この取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。この場合、ファイル処理部２０３は、クライアント装置２があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。

　以上に説明したように、コンテンツ構成選択情報をシーンディスクリプションのＩＳＯＢＭＦＦファイルのSampleEntryに格納する手法でも、アダプテーションを行った場合に再生可能となるコンテンツ構成をクライアント装置に選択させて再生させることができる。これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した６ＤｏＦコンテンツの配信が可能となる。

［３．２　第３の実施形態の変形例（２）］
　本変形例に係るファイル生成装置１は、シーンディスクリプションへのアクセス情報を示すＭＰＤファイルにおけるAdaptationSetにコンテンツ構成選択情報を格納することが第２の実施形態と異なる。

　さらに、ファイル生成部１０４は、前処理部１０２から取得したデータを基に、ＭＰＤファイルを生成する。この時、ファイル生成部１０４は、ＭＰＤファイルにおけるシーンディスクリプションのAdaptationSetに図２０に示すように6DoFContentStruct　descriptorを定義する。そして、ファイル生成部１０４は、コンテンツ構成選択情報にしたがい、コンテンツ構成毎のCSC　elementを6DoFContentStruct　Descriptorに格納して、CSC　elementのattributeでコンテンツ構成選択情報を登録する。図２０は、第３の実施形態の変形例（２）におけるCSCのsemanticsを表す図である。図２０に示すように、CSCは、コンテンツ構成のcapabilityを示す情報エレメントについて定義を記載したものである。

　本実施例に係るクライアント装置２のファイル処理部２０３は、ＭＰＤファイルをパースすることでコンテンツ構成選択情報を取得する。そして、ファイル処理部２０３は、取得したコンテンツ構成選択情報を用いて使用するコンテンツ構成をシーンディスクリプションの中から選択する。この場合、ファイル処理部２０３は、クライアント装置２があるシステム構成において最大値を表すコンテンツ構成選択情報で要求される再生処理能力を満たさなくても、最小値を表すコンテンツ構成選択情報で要求される再生処理能力を満たせば、そのコンテンツ構成を選択することができる。

　以上に説明したように、コンテンツ構成選択情報をＭＰＤファイルにおけるシーンディスクリプションのAdaptationSetに格納する手法でも、アダプテーションを行った場合に再生可能となるコンテンツ構成をクライアント装置に選択させて再生させることができる。これにより、コンテンツ作成者は、コンテンツ構成内のアダプテーションも考慮した、再生能力の異なるクライアント装置の再生に対応した６ＤｏＦコンテンツの配信が可能となる。

　なお、第２の実施形態及びその変形例（１）～（２）では、コンテナ構成毎にコンテナ構成選択情報を生成したが、これに限らず、例えばRequiedPerformanceIDを用いて最大値及び最小値を表すことも可能である。

［４．第４の実施形態］
　本実施形態に係るファイル生成装置１は、ＭＰＤにおける３次元モデルデータのAdaptationSetに含まれるRepresentationに、各３次元モデルデータの構成情報を格納することが第１～第３の実施形態と異なる。本実施形態に係るファイル生成装置１も図３のブロック図で表される。また、本実施形態に係るクライアント装置２も図６のブロック図で表される。以下の説明では、第１の実施形態と同様の各部の動作については説明を省略する場合がある。

　本実施形態に係るファイル生成装置１のファイル生成部１０４は、各コンテンツ構成のコンテンツ構成選択情報を前処理部１０２から取得する。そして、ファイル生成部１０４は、ＭＰＤファイルを生成する際に、３次元モデルデータのAdaptationSetのRepresentation毎にその３次元モデルデータの構成情報を格納する。

　ファイル生成部１０４は、３次元モデルデータの構成情報として、例えば、ポイントクラウドの場合のPoint数をRepresentation@numPointのattributeに格納する。また、ファイル生成部１０４は、メッシュの場合の面の頂点数をRepresentation@vpf、面数をRepresentation@numFase、頂点数をRepresentation@numIndicesのattributeに格納する。

　第１～第３の実施形態及びそれらの各実施例において、この構成情報の格納を行うことで、クライアント装置２のファイル処理部２０３は、コンテンツ構成選択情報とは別に独自の再生処理可能なコンテンツ構成選択を行うことが可能となる。ここでは、各３次元モデルデータの構成情報をRepresentationに格納する例を説明したが、ファイル生成部１０４は、AdaptationSetやPreselectionなど他のelementに格納してもよい。

　さらに、ファイル生成部１０４は、この構成情報の格納に加えて、ＭＰＤにおける３次元モデルデータのAdaptationSetで最小値及び最大値を格納してもよい。例えば、ファイル生成部１０４は、ポイントクラウドの場合のPoint数の最大値及び最小値をAdaptationSet@MaxNumPoint、AdaptationSet@MinNumPointのattributeで格納する。また、ファイル生成部１０４は、メッシュの場合の面の頂点数の最大値及び最小値をAdaptationSet@MaxVpf及びAdaptationSet@MinVpfのattributeで格納し、面数の最大値及び最小値をAdaptationSet@MaxNumFace及びAdaptationSet@MinFaceのattributeで格納し、頂点数の最大値及び最小値をAdaptationSet@MaxNumIndices及びAdaptationSet@MinIndicesのattributeで格納する。

　本実施形態に係る構成は、シーンディスクリプションを用いずに、ＭＰＤファイルを用いて３次元モデルデータを伝送する場合の再生に要求される再生処理能力の判断に利用することが可能である。例えば、図２１のように、ＭＰＤファイルにポイントクラウドの３次元モデルデータのAdaptationSet３４０が存在する場合で説明する。図２１は、３次元モデルデータのAdaptationSetに格納された構成情報の利用方法を説明するための図である。

　例えば、図２１に示すように、ファイル生成部１０４は、３次元モデルデータのAdaptationSet３４０にPoint数の最大値及び最小値の情報を格納する。また、ファイル生成部１０４は、AdaptationSet３４０に含まれるRepresentation３４１～３４３にPoint数を格納する。

　クライアント装置２のファイル処理部２０３は、ＭＰＤファイルをパースする際に、AdaptationSet３４０のレベルで再生処理可能であるRepresentationが存在するか否かを判定することができる。再生処理可能であるRepresentationが存在する場合には、ファイル処理部２０３は、Representation３４１～３４３の中から再生処理可能なRepresentationを選択して再生することが可能となる。

　また、ファイル生成部１０４は、３次元モデルデータの構成情報を他の場所に格納してもよい。例えば、ファイル生成部１０４は、３次元モデルデータのＩＳＯＢＭＦＦファイルのSampleEntryに新たに3DmModelDataMetadataBoxとして定義する。そして、ファイル生成部１０４は、３次元モデルデータのポイントクラウドの場合のPoint数、並びに、メッシュの場合の面の頂点数、面数及び頂点数を新たに定義した3DmModelDataMetadataBox格納してもよい。

　また、ファイル生成部１０４は、ＩＳＯＢＭＦＦではなくMatroska　Media　Containerをファイルフォーマットとして用いることも可能である。その場合、ファイル生成部１０４は、構成情報をTrack　Entry　elementに新しく3DmodelDataMetadata　elementを格納する。この際、ファイル生成部１０４は、Element　Typeをバイナリとし、ＥＢＭＬデータとしては、ＤモデルデータのPointCloudの場合のPoint数、並びに、メッシュの場合の面の頂点数、面数及び頂点数をバイナリデータとして格納する。

　以上の各実施形態及びそれぞれの各変形例では、複数のコンテンツ構成が存在する場合で説明したが、１つのコンテンツ構成が再生処理可能なコンテンツ構成であるか否かを判定する場合にも利用可能である。さらに、クライアント装置が特定の３次元モデルデータの６ＤｏＦコンテンツの再生処理能力を有さない場合にも、コンテンツ構成選択情報は利用可能である。例えば、１つの３次元モデルデータと全天球映像を用いたコンテンツ構成でコンテンツ作成者が配信を行う場合がある。この場合、コンテンツ構成選択情報として３次元モデルデータではない全天球映像であることを示す情報を追加することで、クライアント装置は、コンテンツ構成選択情報を用いてそのコンテンツが再生可能なコンテンツ構成か否かを判定することが可能となる。

［ハードウェア構成］
　図２２は、コンピュータのハードウェア構成図である。ファイル生成装置１及びクライアント装置２は、図２２に示すコンピュータ９０によって実現可能である。コンピュータ９０において、プロセッサ９１、メモリ９２、ネットワークインタフェース９３、不揮発性ストレージ９４、入出力インタフェース９５及びディスプレイインタフェース８６は、バスを介して相互に接続される。

　入出力インタフェース９５には、例えば、入力装置、出力装置、記憶装置及びドライブといった外部デバイスが接続される。入力装置は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などである。出力装置は、例えば、スピーカ、出力端子などである。記憶装置は、例えば、ハードディスク、ＲＡＭ（Random　Access　Memory）ディスクなどである。ドライブは、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディアを駆動する。また、ディスプレインタフェース９６には、表示装置であるディスプレイ９８が接続される。

　ネットワークインタフェース９３は、外部のネットワークに接続される。ファイル生成装置１及びクライアント装置２は、ネットワークインタフェース９３を介して相互に接続される。また、ファイル生成装置１及びクライアント装置２は、ネットワークインタフェース９３を介してＷｅｂサーバ３に接続する。不揮発性ストレージ９４は、ハードディスクやＳＳＤ（Solid　State　Drive）などの内蔵の補助記憶装置である。

　以上のように構成されるコンピュータ９０では、プロセッサ９１が、例えば、不揮発性ストレージ９４に記憶されているプログラムを、バスを介して、メモリ９２にロードして実行することにより、上述した一連の処理が行われる。メモリ９２にはまた、プロセッサ９１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　プロセッサ９１が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディアに記録して適用することができる。その場合、プログラムは、リムーバブルメディアを外部デバイス９７であるドライブに装着することにより、入出力インタフェース９５を介して、不揮発性ストレージ９４にインストールすることができる。

　また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、ネットワークインタフェース９３で受信し、不揮発性ストレージ９４にインストールすることができる。

　その他、このプログラムは、不揮発性ストレージ９４に、予めインストールしておくこともできる。

　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。

　なお、本技術は以下のような構成を取ることもできる。

（１）１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する前処理部と、
　前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成するファイル生成部と
　を備えた情報処理装置。
（２）前記前処理部は、前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報を前記コンテンツ構成選択情報に含める付記（１）に記載の情報処理装置。
（３）前記前処理部は、前記コンテンツ構成選択情報をシーンディスクリプションに格納する付記（１）又は（２）に記載の情報処理装置。
（４）前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションのSwitchノードに格納する付記（３）に記載の情報処理装置。
（５）前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションにおけるコンテンツ構成毎に格納する付記（３）に記載の情報処理装置。
（６）前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
　前記ファイル生成部は、前記コンテンツ構成選択情報を格納したコンテンツファイルを生成する
　付記（２）に記載の情報処理装置。
（７）前記ファイル生成部は、前記コンテンツファイルをＩＳＯＢＭＦＦファイルとして生成し、且つ、前記コンテンツファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する付記（６）に記載の情報処理装置。
（８）前記前処理部は、予め前記コンテンツ構成が決められたグループ毎の前記コンテンツ構成選択情報を有し、各前記コンテンツが属する前記グループの前記コンテンツ構成選択情報をそれぞれの前記コンテンツの前記コンテンツ構成選択情報とする付記（２）に記載の情報処理装置。
（９）前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
　前記ファイル生成部は、前記コンテンツ構成選択情報を格納したメタデータを生成する
　付記（２）に記載の情報処理装置。
（１０）前記ファイル生成部は、前記コンテンツファイルをＭＰＤファイルとして生成し、且つ、前記コンテンツ構成選択情報を前記ＭＰＤファイルのAdaptationSetに格納する付記（９）に記載の情報処理装置。
（１１）前記前処理部は、異なるコンテンツ構成を有する複数の前記コンテンツについて、前記コンテンツ構成毎に異なるシーンディスクリプションを生成し、
　前記ファイル生成部は、各前記シーンディスクリプションに対するＭＰＤファイルのAdaptationSet又はＩＳＯＢＭＦＦファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する
　付記（２）に記載の情報処理装置。
（１２）前記前処理部は、前記コンテンツを再生可能な再生処理能力を示す情報を前記コンテンツ構成情報とすることを特徴とする付記（１）～（１１）のいずれか１項に記載の情報処理装置。
（１３）前記前処理部は、前記コンテンツの一部分を再生可能な再生処理能力を示す情報を前記コンテンツ構成選択情報に含ませる付記（１２）に記載の情報処理装置。
（１４）１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成し、
　前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する
　処理をコンピュータに実行させる情報処理方法。
（１５）１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報及び前記コンテンツのデータを含むファイルを取得するファイル取得部と、
　前記ファイル取得部により取得された前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択するファイル処理部と、
　前記ファイル処理部により選択された前記コンテンツを再生する再生部と
　を備えた再生処理装置。
（１６）１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を含むファイルを取得し、
　取得した前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択し、
　選択された前記コンテンツのデータを取得し、
　取得した前記データを用いて選択した前記コンテンツを再生する
　処理をコンピュータに実行させる再生処理方法。

　１　ファイル生成装置
　２　クライアント装置
　３　Ｗｅｂサーバ
　４　ネットワーク
　１０　生成処理部
　１１　制御部
　２０　再生処理部
　２１　制御部
　１０１　データ入力部
　１０２　前処理部
　１０３　符号化部
　１０４　ファイル生成部
　１０５　送信部
　２０１　ファイル取得部
　２０２　計測部
　２０３　ファイル処理部
　２０４　復号処理部
　２０５　表示制御部
　２０６　表示情報生成部
　２０７　表示部

Claims

　１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成する前処理部と、
　前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成するファイル生成部と
　を備えた情報処理装置。
　前記前処理部は、前記コンテンツを再生する再生処理装置において、前記仮想空間の全体のデコード及びレンダリングが実行可能か否かを判定するための可否識別情報を前記コンテンツ構成選択情報に含める請求項１に記載の情報処理装置。
　前記前処理部は、前記コンテンツ構成選択情報をシーンディスクリプションに格納する請求項２に記載の情報処理装置。
　前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションのSwitchノードに格納する請求項３に記載の情報処理装置。
　前記前処理部は、前記コンテンツ構成選択情報を前記シーンディスクリプションにおけるコンテンツ構成毎に格納する請求項３に記載の情報処理装置。
　前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
　前記ファイル生成部は、前記コンテンツ構成選択情報を格納したコンテンツファイルを生成する
　請求項２に記載の情報処理装置。
　前記ファイル生成部は、前記コンテンツファイルをＩＳＯＢＭＦＦ（ISO　Base　Media　File　Format）ファイルとして生成し、且つ、前記コンテンツファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する請求項６に記載の情報処理装置。
　前記前処理部は、予め前記コンテンツ構成が決められたグループ毎の前記コンテンツ構成選択情報を有し、各前記コンテンツが属する前記グループの前記コンテンツ構成選択情報をそれぞれの前記コンテンツの前記コンテンツ構成選択情報とする請求項２に記載の情報処理装置。
　前記前処理部は、前記コンテンツ構成選択情報をメタデータとして生成し、
　前記ファイル生成部は、前記コンテンツ構成選択情報を格納したメタデータファイルを生成する
　請求項２に記載の情報処理装置。
　前記ファイル生成部は、前記メタデータファイルをＭＰＤ（Media　Presentation　Description）ファイルとして生成し、且つ、前記コンテンツ構成選択情報を前記ＭＰＤファイルのAdaptationSetに格納する請求項９に記載の情報処理装置。
　前記前処理部は、異なるコンテンツ構成を有する複数の前記コンテンツについて、前記コンテンツ構成毎に異なるシーンディスクリプションを生成し、
　前記ファイル生成部は、各前記シーンディスクリプションに対するＭＰＤファイルのAdaptationSet又はＩＳＯＢＭＦＦファイルのSampleEntryにおける6DoFContentStructBoxに前記コンテンツ構成選択情報を格納する
　請求項２に記載の情報処理装置。
　前記前処理部は、前記コンテンツを再生可能な再生処理能力を示す情報を前記コンテンツ構成選択情報とすることを特徴とする請求項１に記載の情報処理装置。
　前記前処理部は、前記コンテンツの一部分を再生可能な再生処理能力を示す情報を前記コンテンツ構成選択情報に含ませる請求項１２に記載の情報処理装置。
　１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を生成し、
　前記仮想空間のデータ及び前記コンテンツ構成選択情報を含むファイルを生成する
　処理をコンピュータに実行させる情報処理方法。
　１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報及び前記コンテンツのデータを含むファイルを取得するファイル取得部と、
　前記ファイル取得部により取得された前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択するファイル処理部と、
　前記ファイル処理部により選択された前記コンテンツを再生する再生部と
　を備えた再生処理装置。
　１以上の３次元オブジェクトとそれらの空間配置情報から構成される仮想空間を表現するコンテンツ構成を有する１つ又は複数のコンテンツについて、各前記コンテンツの再生処理が可能であるか否かを判定するためのコンテンツ構成選択情報を含むファイルを取得し、
　取得した前記ファイルから前記コンテンツ構成選択情報を取得し、取得した前記コンテンツ構成選択情報を基に、各前記コンテンツの再生処理が可能であるか否かを判定し、再生する前記コンテンツを選択し、
　選択された前記コンテンツのデータを取得し、
　取得した前記データを用いて選択した前記コンテンツを再生する
　処理をコンピュータに実行させる再生処理方法。