WO2016002738A1

WO2016002738A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2016002738A1
Application number: PCT/JP2015/068751
Authority: WO
Inventors: 平林　光浩; 優樹山本; 徹知念; 潤宇史
Original assignee: ソニー株式会社
Priority date: 2014-06-30
Filing date: 2015-06-30
Publication date: 2016-01-07
Also published as: CA3212162A1; AU2020289874A1; JP7424420B2; MX2019010556A; KR20240065194A; CN113851139A; US20180165358A1; JP2021061628A; RU2016150994A3; CA2953242C; RU2016150994A; JP2022133422A; CN106471574B; EP3163570A1; EP3163570A4; JP7080007B2; AU2015285344A1; CA2953242A1; KR102422493B1; CN113851138A

Abstract

　本開示は、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにする情報処理装置および情報処理方法に関する。ファイル生成装置は、複数のグループのオーディオストリームが１以上のグループごとにトラックに分割されて配置されるとともに、複数のグループに関する情報が配置された音声ファイルを生成する。本開示は、例えば、ファイルを生成するファイル生成装置、ファイル生成装置により生成されたファイルを記録するWebサーバ、および、ファイルを再生する動画再生端末により構成される情報処理システム等に適用することができる。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関し、特に、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにした情報処理装置および情報処理方法に関する。

　近年、インターネット上のストリーミングサービスの主流がOTT－V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG－DASH（Moving Picture Experts Group phase － Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

　MPEG－DASHでは、配信サーバが１本の動画コンテンツ用に画面サイズと符号化速度が異なる動画データ群を用意し、再生端末が伝送路の状況に応じて最適な画面サイズと符号化速度の動画データ群を要求することにより、適応型のストリーミング配信が実現される。

MPEG－DASH(Dynamic Adaptive Streaming over HTTP)（URL:http://mpeg.chiariglione.org/standards/mpeg－dash/media－presentation－description－and－segment－formats/text－isoiec－23009－12012－dam－1）

　しかしながら、複数のグループの音声データのうちの所定のグループの音声データを容易に再生することは考えられていない。

　本開示は、このような状況に鑑みてなされたものであり、複数のグループの音声データのうちの所望のグループの音声データを容易に再生することができるようにするものである。

　本開示の第１の側面の情報処理装置は、複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部を備える情報処理装置である。

　本開示の第１の側面の情報処理方法は、本開示の第１の側面の情報処理装置に対応する。

　本開示の第１の側面においては、複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルが生成される。

　本開示の第２の側面の情報処理装置は、複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部を備える情報処理装置である。

　本開示の第２の側面の情報処理方法は、本開示の第２の側面の情報処理装置に対応する。

　本開示の第２の側面においては、複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データが再生される。

　なお、第１および第２の側面の情報処理装置は、コンピュータにプログラムを実行させることにより実現することができる。

　また、第１および第２の側面の情報処理装置を実現するために、コンピュータに実行させるプログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

　本開示の第１の側面によれば、ファイルを生成することができる。また、本開示の第１の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができるようにしたファイルを生成することができる。

　本開示の第２の側面によれば、音声データを再生することができる。また、本開示の第２の側面によれば、複数の種類の音声データのうちの所定の種類の音声データを容易に再生することができる。

MPDファイルの構造を示す図である。「Period」、「Representation」、および「Segment」の関係を示す図である。 MPDファイルの階層構造を示す図である。 MPDファイルの構造と時間軸との関係を示す図である。ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する図である。 moovボックスの構造を示す図である。３Ｄオーディオの階層構造を示す図である。本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。本開示を適用した第１実施の形態におけるトラックの第１の例の概要を説明する図である。ベーストラックのサンプルエントリのシンタクスの例を示す図である。 switch Groupを形成するグループのトラックのサンプルエントリのシンタクスの例を示す図である。セグメント構造の第１の例を示す図である。セグメント構造の第２の例を示す図である。 level assignmentボックスの記述例を示す図である。本開示を適用した第１実施の形態におけるMPDファイルの第１の記述例を示す図である。図８のファイル生成装置の構成例を示すブロック図である。図１６のファイル生成装置のファイル生成処理を説明するフローチャートである。図８の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図１８のストリーミング再生部の再生処理を説明するフローチャートである。本開示を適用した第１実施の形態におけるトラックの第２の例の概要を説明する図である。 switch Groupを形成するグループのトラックのサンプルグループエントリのシンタクスの例を示す図である。各グループのトラックのサンプルエントリのシンタクスの例を示す図である。音声ファイルのトラックの第３の例の概要を説明する図である。 MPDファイルの第２の記述例を示す図である。 MPDファイルの第２の記述例の他の例を示す図である。音声ファイルのトラックの第４の例の概要を説明する図である。 MPDファイルの第３の記述例を示す図である。音声ファイルのトラックの第５の例の概要を説明する図である。 4ccが「mha3」であるサンプルエントリのシンタクスの例を示す図である。 4ccが「mha3」であるサンプルエントリのシンタクスの他の例を示す図である。 MPDファイルの第４の記述例を示す図である。音声ファイルのトラックの第３の例の他の例の概要を説明する図である。音声ファイルのトラックの第４の例の他の例の概要を説明する図である。音声ファイルのトラックの第５の例の他の例の概要を説明する図である。音声ファイルのトラックの第６の例の概要を説明する図である。図３５のベーストラックおよびグループトラックのサンプルエントリのシンタクスの例を示す図である。 4ccが「mha3」であるサンプルエントリのシンタクスのさらに他の例を示す図である。本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。本開示を適用した第２実施の形態におけるMPDファイルの第１の記述例を示す図である。本開示を適用した第２実施の形態における情報処理システムの概要を説明する図である。図４０のファイル生成装置の構成例を示すブロック図である。図４１のファイル生成装置のファイル生成処理を説明するフローチャートである。図４０の動画再生端末により実現されるストリーミング再生部の構成例を示すブロック図である。図４３のストリーミング再生部の再生処理の例を説明するフローチャートである。本開示を適用した第２実施の形態におけるMPDファイルの第２の記述例を示す図である。本開示を適用した第２実施の形態におけるMPDファイルの第３の記述例を示す図である。本開示を適用した第２実施の形態におけるMPDファイルの第４の記述例を示す図である。本開示を適用した第２実施の形態におけるMPDファイルの第５の記述例を示す図である。本開示を適用した第２実施の形態におけるMPDファイルの第６の記述例を示す図である。本開示を適用した第２実施の形態におけるMPDファイルの第７の記述例を示す図である。複数のベーストラックを有する音声ファイルのトラック構造の例を示す図である。複数のベーストラックを有する音声ファイルのトラック構造の他の例を示す図である。コンピュータのハードウエアの構成例を示すブロック図である。

　以下、本開示の前提および本開示を実施するための形態（以下、実施の形態という）について説明する。なお、説明は以下の順序で行う。
　０．本開示の前提（図１乃至図７）
　１．第１実施の形態（図８乃至図３７）
　２．第２実施の形態（図３８乃至図５０）
　３．ベーストラックの他の例（図５１および図５２）
　４．第３実施の形態（図５３）

　＜本開示の前提＞
　(MPDファイルの構造の説明）
　図１は、MPEG-DASHのMPDファイル（Media Presentation Description）の構造を示す図である。

　MPDファイルの解析（パース）においては、MPDファイル（図１のMedia Presentation）の「Period」に含まれる「Representation」の属性から最適なものが選択される。

　そして、選択された「Representation」の先頭の「Initialization Segment」のURL（Uniform Resource Locator）等を参照してファイルが取得され、処理される。続いて、後続の「Media Segment」のURL等を参照してファイルが取得され、再生される。

　なお、MPDファイルにおける、「Period」、「Representation」、および「Segment」の関係は、図２のようになる。つまり、１つの動画コンテンツは、「Period」により、セグメントより長い時間単位で管理することができ、各「Period」において、「Segment」によりセグメント単位で管理することができる。また、各「Period」において、「Representation」により、動画コンテンツをストリームの属性単位で管理することができる。

　したがって、MPDファイルは、「Period」以下において、図３に示す階層構造を有する。また、このMPDファイルの構造を時間軸上に並べると図４の例のようになる。図４から明らかなように、同一のセグメントに対して複数の「Representation」が存在している。これらのうちのいずれかを適応的に選択することにより、ユーザの所望の属性のストリームを取得し、再生することができる。

　（３Ｄオーディオファイルフォーマットの概要）
　図５は、ＭＰ４の３Ｄオーディオファイルフォーマットのトラックの概要を説明する図である。

　ＭＰ４ファイルでは、トラックごとに、動画コンテンツのコーデック情報やファイル内の位置を示す位置情報を管理することができる。ＭＰ４の３Ｄオーディオファイルフォーマットでは、３Ｄオーディオ（Channel audio/Object audio/SAOC Object audio/HOA audio/metadata）のオーディオストリーム（ES（Elementary Stream））の全てが、１つのトラックとしてサンプル（フレーム）単位で記録される。また、３Ｄオーディオのコーデック情報（Profile/level/audio configuration）が、サンプルエントリ（sample entry）として格納される。

　３Ｄオーディオを構成するChannel audioは、チャンネル単位の音声データであり、Object audioは、オブジェクト単位の音声データである。なお、オブジェクトとは、音源であり、オブジェクト単位の音声データは、そのオブジェクトに取り付けられたマイクロフォンなどにより取得される。オブジェクトは、固定されたマイクスタンドなどの物体であってもよいし、人物などの動体であってもよい。

　また、SAOC Object audioは、SAOC（Spatial Audio Object Coding）の音声データであり、HOA audioは、HOA（Higher Order Ambisonics）の音声データであり、metadataは、Channel audio,Object audio,SAOC Object audio、およびHOA audioのメタデータである。

　（moovボックスの構造）
　図６は、ＭＰ４ファイルのmoovボックスの構造を示す図である。

　図６に示すように、ＭＰ４ファイルでは、画像データと音声データが異なるトラックとして記録される。図６では、音声データのトラックの詳細は記述していないが、画像データのトラックと同様である。sample entryは、moovボックス内のstsdボックスに配置されるsample descriptionに含まれる。

　ところで、ＭＰ４ファイルの放送やローカルストレージ再生では、一般的に、サーバ側が、全ての３Ｄオーディオのオーディオストリームを送出する。そして、クライアント側が、全ての３Ｄオーディオのオーディオストリームをパースしながら、必要な３Ｄオーディオのオーディオストリームのみを復号し、出力する。しかしながら、ビットレートが高い場合や、ローカルストレージの読み込みレートに制約がある場合、必要な３Ｄオーディオのオーディオストリームのみを取得することにより、デコード処理の負荷を軽減することが望ましい。

　また、MPEG-DASHに準拠したＭＰ４ファイルのストリーム再生では、サーバ側は、複数の符号化速度のオーディオストリームを用意している。従って、クライアント側が、必要な３Ｄオーディオのオーディオストリームだけを取得することにより、再生環境に最適な符号化速度のオーディオストリームを選択し、取得することができる。

　以上により、本開示では、３Ｄオーディオのオーディオストリームを種類に応じてトラックに分割し、音声ファイルに配置することにより、所定の種類の３Ｄオーディオのオーディオストリームのみを効率良く取得可能にする。これにより、放送やローカルストレージ再生では、デコード処理の負荷を軽減することができる。また、ストリーム再生では、帯域に応じて、必要な３Ｄオーディオのオーディオストリームのうちの最も品質の高いものを再生することができる。

　（３Ｄオーディオの階層構造の説明）
　図７は、３Ｄオーディオの階層構造を示す図である。

　図７に示すように、３Ｄオーディオの音声データは、音声データごとに異なるオーディオエレメント（Element）とされる。オーディオエレメントのタイプとしては、SCE(Single Channel Element)とCPE(Channel Pair Element)がある。１チャンネル分の音声データのオーディオエレメントのタイプはSCEであり、２チャンネル分の音声データに対応するオーディオエレメントのタイプはCPEである。

　オーディオエレメントは、同一の音声の種類（Channel/Object/SAOC Object/HOA）どうしでグループを形成する。従って、グループタイプ（GroupType）としては、Channels,Objects,SAOC Objects、およびHOAである。２以上のグループは、必要に応じて、switch Groupやgroup Presetを形成することができる。

　switch Groupは、そこに含まれるグループのオーディオストリームが排他的に再生されるグループ（排他的再生グループ）である。即ち、図７に示すように、英語（ＥＮ）用のObject audioのグループと、フランス語（ＦＲ）用のObject audioのグループが存在する場合、いずれか一方のグループのみが再生されるべきである。従って、グループＩＤが２である英語用のObject audioのグループと、グループＩＤが３であるフランス語用のObject audioのグループとから、switch Groupが形成される。これにより、英語用のObject audioとフランス語用のObject audioが排他的に再生される。

　一方、group Presetは、コンテンツ製作者が意図するグループの組み合わせを定義するものである。

　また、３Ｄオーディオのメタデータは、メタデータごとに異なるExtエレメント（Ext Element）とされる。Extエレメントのタイプとしては、Object Metadata,SAOC 3D Metadata,HOA Metadata,DRC Metadata,SpatialFrame,SaocFrameなどがある。Object MetadataのExtエレメントは、全てのObject audioのメタデータであり、SAOC 3D MetadataのExtエレメントは、全てのSAOC audioのメタデータである。また、HOA MetadataのExtエレメントは、全てのHOA audioのメタデータであり、DRC(Dynamic Range Control) MetadataのExtエレメントは、Object audio, SAOC audio、およびHOA audioの全てのメタデータである。

　以上のように、３Ｄオーディオのうちの音声データの分割単位としては、オーディオエレメント、グループタイプ、グループ、switch Group、およびgroup Presetがある。従って、３Ｄオーディオのうちの音声データのオーディオストリームは、オーディオエレメント、グループタイプ、グループ、switch Group、またはgroup Presetを種類として、種類ごとに異なるトラックに分割することができる。

　また、３Ｄオーディオのうちのメタデータの分割単位としては、Extエレメントのタイプ、または、そのメタデータに対応するオーディオエレメントがある。従って、３Ｄオーディオのメタデータのオーディオストリームは、Extエレメントや、そのメタデータに対応するオーディオエレメントを種類として、種類ごとに異なるトラックに分割することができる。

　以下の実施の形態では、音声データのオーディオストリームが１以上のグループごとにトラックに分割され、メタデータのオーディオストリームがExtエレメントのタイプごとにトラックに分割される。

　＜第１実施の形態＞
　（情報処理システムの概要）
　図８は、本開示を適用した第１実施の形態における情報処理システムの概要を説明する図である。

　図８の情報処理システム１４０は、ファイル生成装置１４１と接続されるWebサーバ１４２と動画再生端末１４４が、インターネット１３を介して接続されることにより構成される。

　情報処理システム１４０では、MPEG－DASHに準ずる方式で、Webサーバ１４２が、再生対象のグループのトラックのオーディオストリームを、動画再生端末１４４に配信する。

　具体的には、ファイル生成装置１４１は、動画コンテンツの３Ｄオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。ファイル生成装置１４１は、符号化速度、および、セグメントと呼ばれる数秒から10秒程度の時間単位ごとに、全てのオーディオストリームをファイル化し、音声ファイルを生成する。このとき、ファイル生成装置１４１は、オーディオストリームをグループおよびExtエレメントのタイプごとに分割し、異なるトラックのオーディオストリームとして音声ファイルに配置する。ファイル生成装置１４１は、生成された音声ファイルをWebサーバ１４２にアップロードする。

　また、ファイル生成装置１４１は、音声ファイル等を管理するMPDファイル（管理ファイル）を生成する。ファイル生成装置１４１は、MPDファイルをWebサーバ１４２にアップロードする。

　Webサーバ１４２は、ファイル生成装置１４１からアップロードされた符号化速度およびセグメントごとの音声ファイルとMPDファイルを格納する。Webサーバ１４２は、動画再生端末１４４からの要求に応じて、格納している音声ファイル、MPDファイル等を動画再生端末１４４に送信する。

　動画再生端末１４４は、ストリーミングデータの制御用ソフトウエア（以下、制御用ソフトウエアという）１６１、動画再生ソフトウエア１６２、HTTP（HyperText Transfer Protocol）アクセス用のクライアント・ソフトウエア(以下、アクセス用ソフトウエアという)１６３などを実行する。

　制御用ソフトウエア１６１は、Webサーバ１４２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア１６１は、動画再生端末１４４にWebサーバ１４２からMPDファイルを取得させる。

　また、制御用ソフトウエア１６１は、MPDファイルに基づいて、動画再生ソフトウエア１６２により指定される再生対象のグループ、および、そのグループに対応するExtエレメントのタイプのトラックのオーディオストリームの送信要求を、アクセス用ソフトウエア１６３に指令する。

　動画再生ソフトウエア１６２は、Webサーバ１４２から取得されたオーディオストリームを再生するソフトウエアである。具体的には、動画再生ソフトウエア１６２は、制御用ソフトウエア１６１は、再生対象のグループ、および、そのグループに対応するExtエレメントのタイプを制御用ソフトウエア１６１に指定する。また、動画再生ソフトウエア１６２は、アクセス用ソフトウエア１６３から受信開始の通知を受信したとき、動画再生端末１４４により受信されたオーディオストリームを復号する。動画再生ソフトウエア１６２は、復号の結果得られる音声データを必要に応じて合成し、出力する。

　アクセス用ソフトウエア１６３は、HTTPを用いたインターネット１３を介したWebサーバ１４２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア１６３は、制御用ソフトウエア１６１の指令に応じて、音声ファイルに含まれる再生対象のトラックのオーディオストリームの送信要求を、動画再生端末１４４に送信させる。また、アクセス用ソフトウエア１６３は、その送信要求に応じて、Webサーバ１４２から送信されてくるオーディオストリームの受信を動画再生端末１４４に開始させ、受信開始の通知を動画再生ソフトウエア１６２に供給する。

　なお、本明細書では、動画コンテンツの音声ファイルについてのみ説明するが、実際には、音声ファイルとともに、対応する画像ファイルが生成され、再生される。

　（音声ファイルのトラックの第１の例の概要）
　図９は、音声ファイルのトラックの第１の例の概要を説明する図である。

　なお、図９では、説明の便宜上、３Ｄオーディオのうちの音声データのトラックのみ図示している。このことは、後述する図２０、図２３、図２６、図２８、図３０、図３２乃至図３５、および図３８においても同様である。

　図９に示すように、全ての３Ｄオーディオのオーディオストリームは、１つの音声ファイル（3dauio.mp4）に格納される。音声ファイル（3dauio.mp4）には、３Ｄオーディオの各グループのオーディオストリームが、それぞれ、異なるトラックに分割されて配置される。また、３Ｄオーディオ全体に関する情報が、ベーストラック（Base Track）として配置される。

　各トラックのtrackボックスには、Track Referenceが配置される。Track Referenceは、対応するトラックの他のトラックとの参照関係を表す。具体的には、Track Referenceは、参照関係にある他のトラックのトラックに固有のＩＤ（以下、トラックＩＤという）を表す。

　図９の例では、ベーストラック、グループＩＤが１であるグループ＃１、グループＩＤが２であるグループ＃２、グループＩＤが３であるグループ＃３、グループＩＤが４であるグループ＃４のトラックのトラックＩＤが、1,2,3,4,5となっている。また、ベーストラックのTrack Referenceは2,3,4,5であり、グループ＃１乃至＃４のトラックのTrack Referenceは、ベーストラックのトラックＩＤである１である。従って、ベーストラックとグループ＃１乃至＃４のトラックとは、参照関係にある。即ち、ベーストラックは、グループ＃１乃至＃４のトラックの再生時に参照される。

　また、ベーストラックのサンプルエントリの4cc（character code）は「mha2」であり、ベーストラックのサンプルエントリには、３Ｄオーディオの全てのグループのconfig情報またはベーストラックだけの復号に必要なconfig情報を含むmhaCボックスと、３Ｄオーディオの全てのグループおよびswitch Groupに関する情報を含むmhasボックスが配置される。グループに関する情報は、グループのＩＤ、グループに分類されるエレメントのデータの内容を表す情報等により構成される。switch Groupに関する情報は、switch GroupのＩＤ、switch Groupを形成するグループのＩＤ等により構成される。

　各グループのトラックのサンプルエントリの4ccは「mhg1」であり、各グループのトラックのサンプルエントリには、そのグループに関する情報を含むmhgCボックスが配置されてもよい。グループがswitch Groupを形成する場合、そのグループのトラックのサンプルエントリには、そのswitch Groupに関する情報を含むmhsCボックスが配置される。

　ベーストラックのサンプルには、各グループのトラックのサンプルへの参照情報、または、その参照情報の復号に必要なconfig情報が配置される。参照情報により参照される各グループのサンプルを参照情報の配置順に配置することにより、トラックに分割される前の３Ｄオーディオのオーディオストリームを生成することができる。参照情報は、各グループのトラックのサンプルの位置およびサイズ、グループタイプ等により構成される。

　（ベーストラックのサンプルエントリのシンタクスの例）
　図１０は、ベーストラックのサンプルエントリのシンタクスの例を示す図である。

　図１０に示すように、ベーストラックのサンプルエントリには、mhaCボックス（MHAConfigration Box）、mhasボックス(MHAAudioSceneInfo Box)等が配置される。mhaCボックスには、３Ｄオーディオの全てのグループのconfig情報またはベーストラックだけの復号に必要なconfig情報が記述される。また、mhasボックスには、３Ｄオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述される。このAudioScene情報は、図７の階層構造を記述するものである。

　（各グループのトラックのサンプルエントリのシンタクスの例）
　図１１は、各グループのトラックのサンプルエントリのシンタクスの例を示す図である。

　図１１に示すように、各グループのトラックのサンプルエントリには、mhaCボックス（MHAConfigration Box）、mhgCボックス(MHAGroupDefinitionBox)、mhsCボックス(MHASwitchGropuDefinition Box)等が配置される。

　mhaCボックスには、対応するトラックの復号に必要なConfig情報が記述される。また、mhgCボックスには、対応するグループに関するAudioScene情報がGroupDefinitionとして記述される。mhsCボックスには、対応するグループがswitch Group を形成する場合、そのswitch Groupに関するAudioScene情報がSwitchGroupDefinitionとして記述される。

　（音声ファイルのセグメント構造の第１の例）
　図１２は、音声ファイルのセグメント構造の第１の例を示す図である。

　図１２のセグメント構造では、Initial segmentが、ftypボックスとmoovボックスにより構成される。moovボックスには、音声ファイルに含まれるトラックごとにtrak boxが配置される。また、moovボックスには、各トラックのトラックＩＤと、media segment内のssixボックスで用いられるlevelとの対応関係を表す情報などを含むmvexボックスが配置される。

　また、media segmentは、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、各subsegmentの音声ファイル内の位置を示す位置情報が配置される。ssixボックスには、mdatボックスに配置される各レベルのオーディオストリームの位置情報が含まれる。なお、レベルは、トラックに対応するものである。また、最初のトラックの位置情報は、moofボックスと最初のトラックのオーディオストリームからなるデータの位置情報である。

　subsegmentは、任意の時間長ごとに設けられ、subsegmentには、全てのトラックに共通の１組のmoofボックスとmdatボックスのペアが設けられる。mdatボックスには、全てのtrackのオーディオストリームが、任意の時間長分だけまとめて配置され、moofボックスには、そのオーディオストリームの管理情報が配置される。mdatボックスに配置される各trackのオーディオストリームは、track毎に連続している。

　図１２の例では、トラックＩＤが1であるTrack1はベーストラックであり、トラックＩＤが2乃至NであるTrack2乃至TrackNは、グループＩＤが１乃至Ｎ－１であるグループのトラックである。このことは、後述する図１３においても同様である。

　（音声ファイルのセグメント構造の第２の例）
　図１３は、音声ファイルのセグメント構造の第２の例を示す図である。

　図１３のセグメント構造は、トラックごとにmoofボックスとmdatボックスが設けられる点が、図１２のセグメント構造と異なっている。

　即ち、図１３のInitial segmentは、図１２のInitial segmentと同様である。また、図１３のmedia segmentは、図１２のmedia segmentと同様に、sidxボックス、ssixボックス、および、１以上のsubsegmentにより構成される。sidxボックスには、図１２のsidxボックスと同様に、各subsegmentの位置情報が配置される。ssixボックスには、moofボックスとmdatボックスからなる各レベルのデータの位置情報が含まれる。

　subsegmentは、任意の時間長ごとに設けられ、subsegmentには、トラックごとにmoofボックスとmdatボックスのペアが設けられる。即ち、各トラックのmdatボックスには、そのトラックのオーディオストリームが、任意の時間長分だけまとめて配置（インターリーブ格納）され、moofボックスには、そのオーディオストリームの管理情報が配置される。

　図１２および図１３に示すように、各トラックのオーディオストリームは、任意の時間長分まとめて配置されるため、サンプル単位でまとめて配置される場合に比べて、HTTP等を介したオーディオストリームの取得効率が改善する。

　（mvexボックスの記述例）
　図１４は、図１２および図１３のmvexボックスに配置されるlevel assignmentボックスの記述例を示す図である。

　level assignmentボックスは、各トラックのトラックＩＤとssixボックスで用いられるレベル（level）を対応付けるボックスである。図１４の例では、トラックＩＤが１であるベーストラックがレベル０に対応付けられ、トラックＩＤが２であるチャネルオーディオトラックがレベル１に対応付けられている。また、トラックＩＤが３であるHOAオーディオトラックがレベル２に対応付けられ、トラックＩＤが４であるオブジェクトメタデータトラックがレベル３に対応付けられている。さらに、トラックＩＤが５であるオブジェクトオーディオトラックがレベル４に対応付けられている。

　（MPDファイルの第１の記述例）
　図１５は、MPDファイルの第１の記述例を示す図である。

　図１５に示すように、MPDファイルには、３Ｄオーディオの音声ファイル(3daudio.mp4)のセグメントを管理する「Representation」、そのセグメントに含まれるトラックを管理する「SubRepresentation」等が記述される。

　「Representation」と「SubRepresentation」には、対応するセグメント全体またはトラックのcodecの種類（profile,level）を、3D audio file formatで定義されるコードで表す「codecs」が含まれる。

　「SubRepresentation」には、対応するトラックのレベルを表す値としてlevel assignmentボックスで設定されている値である「level」が含まれる。「SubRepresentation」には、参照関係を有する（依存する）他のトラック（以下、参照トラックという）に対応するレベルを表す値である「dependencyLevel」が含まれる。

　さらに、「SubRepresentation」には、<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が含まれる。

　「dataType」は、対応するトラックのサンプルエントリに記述されるAudio Scene情報の内容（definition）の種類を表す番号であり、definitionは、その内容である。例えば、トラックのサンプルエントリにGroupDefinitionが含まれる場合、そのトラックの「dataType」として１が記述され、「definition」としてGroupDefinitionが記述される。また、トラックのサンプルエントリにSwitchGroupDefinitionが含まれる場合、そのトラックの「dataType」として２が記述され、「definition」としてSwitchGroupDefinitionが記述される。即ち、「dataType」および「definition」は、対応するトラックのサンプルエントリにSwitchGroupDefinitionが存在するかを示す情報である。「definition」は、バイナリデータであり、base64方式で符号化される。

　なお、図１５の例では、全てのグループがswitch Groupを形成するものとしたが、switch Groupを形成しないグループが存在する場合、そのグループに対応する「SubRepresentation」には、<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“2,SwitchGroupDefinition”>は記述されない。このことは、後述する図２４、図２５、図３１、図３９、図４５、図４７、図４８、および図５０においても同様である。

　（ファイル生成装置の構成例）
　図１６は、図８のファイル生成装置１４１の構成例を示すブロック図である。

　図１６のファイル生成装置１４１は、音声符号化処理部１７１、音声ファイル生成部１７２、MPD生成部１７３、およびサーバアップロード処理部１７４により構成される。

　ファイル生成装置１４１の音声符号化処理部１７１は、動画コンテンツの３Ｄオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、符号化速度ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

　音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。音声ファイル生成部１７２は、符号化速度およびセグメントごとに、各トラックのオーディオストリームがサブセグメント単位で配置される図１２または図１３のセグメント構造の音声ファイルを生成する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

　MPD生成部１７３は、音声ファイル生成部１７２から供給される音声ファイルを格納するWebサーバ１４２のURL等を決定する。そして、MPD生成部１７３は、音声ファイルのURL等が、その音声ファイル用の「Representation」の「Segment」に配置されたMPDファイルを生成する。MPD生成部１７３は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部１７４に供給する。

　サーバアップロード処理部１７４は、MPD生成部１７３から供給される音声ファイルとMPDファイルを、Webサーバ１４２にアップロードする。

　（ファイル生成装置の処理の説明）
　図１７は、図１６のファイル生成装置１４１のファイル生成処理を説明するフローチャートである。

　図１７のステップＳ１９１において、音声符号化処理部１７１は、動画コンテンツの３Ｄオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。音声符号化処理部１７１は、符号化速度ごとのオーディオストリームを音声ファイル生成部１７２に供給する。

　ステップＳ１９２において、音声ファイル生成部１７２は、音声符号化処理部１７１から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。

　ステップＳ１９３において、音声ファイル生成部１７２は、符号化速度およびセグメントごとに、各トラックのオーディオストリームがサブセグメント単位で配置される図１２または図１３のセグメント構造の音声ファイルを生成する。音声ファイル生成部１７２は、生成された音声ファイルをMPD生成部１７３に供給する。

　ステップＳ１９４において、MPD生成部１７３は、音声ファイルのURL等を含むMPDファイルを生成する。MPD生成部１７３は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部１７４に供給する。

　ステップＳ１９５において、サーバアップロード処理部１７４は、MPD生成部１７３から供給される音声ファイルとMPDファイルを、Webサーバ１４２にアップロードする。そして、処理は終了する。

　（動画再生端末の機能的構成例）
　図１８は、図８の動画再生端末１４４が制御用ソフトウエア１６１、動画再生ソフトウエア１６２、およびアクセス用ソフトウエア１６３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

　図１８のストリーミング再生部１９０は、MPD取得部９１、MPD処理部１９１、音声ファイル取得部１９２、音声復号処理部１９４、および音声合成処理部１９５により構成される。

　ストリーミング再生部１９０のMPD取得部９１は、Webサーバ１４２からMPDファイルを取得し、MPD処理部１９１に供給する。

　MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

　音声ファイル取得部１９２は、MPD処理部１９１から供給されるURLで特定される音声ファイル内の再生対象のトラックのオーディオストリームを、Webサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたオーディオストリームを音声復号処理部１９４に供給する。

　音声復号処理部１９４は、音声ファイル取得部１９２から供給されるオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られる音声データを音声合成処理部１９５に供給する。音声合成処理部１９５は、音声復号処理部１９４から供給される音声データを必要に応じて合成し、出力する。

　以上のように、音声ファイル取得部１９２、音声復号処理部１９４、および音声合成処理部１９５は、再生部として機能し、Webサーバ１４２に格納されている音声ファイルから、再生対象のトラックのオーディオストリームを取得し、再生する。

　（動画再生端末の処理の説明）
　図１９は、図１８のストリーミング再生部１９０の再生処理を説明するフローチャートである。

　図１９のステップＳ２１１において、ストリーミング再生部１９０のMPD取得部９１は、Webサーバ１４２からMPDファイルを取得し、MPD処理部１９１に供給する。

　ステップＳ２１２において、MPD処理部１９１は、MPD取得部９１から供給されるMPDファイルから音声ファイル用の「Segment」に記述される再生対象のセグメントの音声ファイルのURL等の情報を抽出し、音声ファイル取得部１９２に供給する。

　ステップＳ２１３において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURLに基づいて、そのURLで特定される音声ファイル内の再生対象のトラックのオーディオストリームを、Webサーバ１４２に要求し、取得する。音声ファイル取得部１９２は、取得されたオーディオストリームを音声復号処理部１９４に供給する。

　ステップＳ２１４において、音声復号処理部１９４は、音声ファイル取得部１９２から供給されるオーディオストリームを復号する。音声復号処理部１９４は、復号の結果得られる音声データを音声合成処理部１９５に供給する。ステップＳ２１５において、音声合成処理部１９５は、音声復号処理部１９４から供給される音声データを必要に応じて合成し、出力する。

　（音声ファイルのトラックの第２の例の概要）
　なお、上述した説明では、GroupDefinitionやSwitchGroupDefinitionが、サンプルエントリに配置されたが、図２０に示すように、トラック内のサブサンプルのグループごとのサンプルエントリであるサンプルグループエントリに配置されるようにしてもよい。

　この場合、switch Groupを形成するグループのトラックのサンプルグループエントリは、図２１に示すように、GroupDefinitionとSwitchGroupDefinitionを含む。図示は省略するが、switch Groupを形成しないグループのトラックのサンプルグループエントリは、GroupDefinitionのみを含む。

　また、各グループのトラックのサンプルエントリは、図２２に示すようになる。即ち、図２２に示すように、各グループのトラックのサンプルエントリには、対応するトラックのオーディオストリームのプロファイル（MPEGHAudioProfile）、レベル（MPEGHAudioLevel）などのConfig情報が記述されるMHAGroupAudioConfigrationBoxが配置される。

　（音声ファイルのトラックの第３の例の概要）
　図２３は、音声ファイルのトラックの第３の例の概要を説明する図である。

　図２３の音声データのトラックの構成は、ベーストラックに３Ｄオーディオの１以上のグループのオーディオストリームが含まれる点、および、３Ｄオーディオ全体に関する情報を含まない各トラック（以下、グループトラックという）に分割されるオーディオストリームに対応するグループの数が１以上である点が、図９の構成と異なる。

　即ち、図２３のベーストラックのサンプルエントリは、図９と同様に、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのベーストラック用のシンタクスを有する、4ccが「mha2」であるサンプルエントリ（図１０）である。

　また、グループトラックのサンプルエントリは、図９と同様に、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのグループトラック用のシンタクスを有する、4ccが「mhg1」であるサンプルエントリ（図１１）である。従って、サンプルエントリの4ccにより、ベーストラックとグループトラックを識別し、トラック間の依存関係を認識することができる。

　また、図９と同様に、各トラックのtrackボックスには、Track Referenceが配置される。従って、「mha2」と「mhg1」のいずれが、ベーストラックまたはグループトラックのサンプルエントリの4ccであるかがわからない場合であっても、Track Referenceにより、トラック間の依存関係を認識することができる。

　なお、グループトラックのサンプルエントリには、mhgCボックス、およびmhsCボックスが記述されなくてもよい。また、ベーストラックのサンプルエントリに３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリに、そのグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより前者の状態と後者の状態を識別可能にする場合、ベーストラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha2」にされ、後者の状態である場合「mha4」にされる。

　（MPDファイルの第２の記述例）
　図２４は、音声ファイルのトラックの構成が図２３の構成である場合のMPDファイルの記述例を示す図である。

　図２４のMPDファイルは、ベーストラックの「SubRepresentation」が記述される点が、図１５のMPDファイルと異なる。

　ベーストラックの「SubRepresentation」には、グループトラックの「SubRepresentation」と同様に、ベーストラックの「codecs」、「level」、「dependencyLevel」、および<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が記述される。

　図２４の例では、ベーストラックの「codecs」は「mha2.2.1」であり、「level」は、ベーストラックのレベルを表す値としての「０」である。「dependencyLevel」は、グループトラックのレベルを表す値としての「１」および「２」である。また、「dataType」は、ベーストラックのサンプルエントリのmhasボックスに記述されるAudioScene情報を種類として表す番号としての「３」であり、「definition」は、base64方式で符号化されたAudioScene情報のバイナリデータである。

　なお、図２５に示すように、ベーストラックの「SubRepresentation」には、AudioScene情報が分割して記述されるようにしてもよい。

　図２５の例では、ベーストラックのサンプルエントリのmhasボックスに記述されるAudioScene情報（図７）のうちのグループＩＤ「１」のグループの内容を表す「Atmo」を種類として表す番号として「１」が設定されている。

　また、グループＩＤ「２」のグループの内容を表す「Dialog EN」、グループＩＤ「３」のグループの内容を表す「Dialog FR」、グループＩＤ「４」のグループの内容を表す「VoiceOver GE」、グループＩＤ「５」のグループの内容を表す「Effects」、グループＩＤ「６」のグループの内容を表す「Effect」、グループＩＤ「７」のグループの内容を表す「Effect」のそれぞれを種類として表す番号として「２」乃至「７」が設定されている。

　従って、図２５のベーストラックの「SubRepresentation」には、「dataType」が「１」であり、「definition」が「Atmo」である<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が記述される。同様に、「dataType」がそれぞれ「２」、「３」、「４」、「５」、「６」、「７」であり、「definition」がそれぞれ「Dialog EN」、「Dialog FR」、「VoiceOver GE」、「Effects」、「Effect」、「Effect」である“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が記述される。図２５の例では、ベーストラックのAudioScene情報が分割して記述される場合について説明したが、グループトラックのGroupDefinitionおよびSwitchGroupDefinitionも、AudioScene情報と同様に分割して記述されてもよい。

　（音声ファイルのトラックの第４の例の概要）
　図２６は、音声ファイルのトラックの第４の例の概要を説明する図である。

　図２６の音声データのトラックの構成は、グループトラックのサンプルエントリが、4ccが「mha2」であるサンプルエントリである点が、図２３の構成と異なる。

　図２６の場合、ベーストラックとグループトラックのサンプルエントリの4ccが両方とも「mha2」になる。従って、サンプルエントリの4ccにより、ベーストラックとグループトラックを識別し、トラック間の依存関係を認識することはできない。よって、各トラックのtrackボックスに配置されるTrack Referenceによって、トラック間の依存関係が認識される。

　また、サンプルエントリの4ccが「mha2」であることにより、対応するトラックが、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのトラックであることは識別できる。

　なお、ベーストラックのサンプルエントリのmhaCボックスには、図９や図２３の場合と同様に、３Ｄオーディオの全てのグループのconfig情報またはベーストラックを独立して再生可能なconfig情報が記述される。また、mhasボックスには、３Ｄオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述される。

　一方、グループトラックのサンプルエントリには、mhasボックスが配置されない。また、ベーストラックのサンプルエントリに３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、前者の状態と後者の状態を識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha2」にされ、後者の状態である場合「mha4」にされる。

　（MPDファイルの第３の記述例）
　図２７は、音声ファイルのトラックの構成が図２６の構成である場合のMPDファイルの記述例を示す図である。

　図２７のMPDファイルは、グループトラックの「SubRepresentation」の「codecs」が「mha2.2.1」である点、および、グループトラックの「SubRepresentation」に<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が記述されない点が、図２４のMPDファイルと異なる。

　なお、図示は省略するが、図２５の場合と同様に、ベーストラックの「SubRepresentation」には、AudioScene情報が分割して記述されるようにしてもよい。

　（音声ファイルのトラックの第５の例の概要）
　図２８は、音声ファイルのトラックの第５の例の概要を説明する図である。

　図２８の音声データのトラックの構成は、ベーストラックとグループトラックのサンプルエントリが、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されているときのベーストラックとグループトラックの両方に適したシンタクスを有するサンプルエントリである点が、図２３の構成と異なる。

　図２８の場合、ベーストラックとグループトラックのサンプルエントリの4ccが両方とも、ベーストラックとグループトラックの両方に適したシンタクスを有するサンプルエントリの4ccである「mha3」になる。

　従って、図２６の場合と同様に、各トラックのtrackボックスに配置されるTrack Referenceによって、トラック間の依存関係が認識される。また、サンプルエントリの4ccが「mha3」であることにより、対応するトラックが、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されて配置されるときのトラックであることは識別できる。

　（4ccが「mha3」であるサンプルエントリのシンタクスの例）
　図２９は、4ccが「mha3」であるサンプルエントリのシンタクスの例を示す図である。

　図２９に示すように、4cc「mha3」のサンプルエントリのシンタクスは、図１０のシンタクスと図１１のシンタクスを合成したものである。

　即ち、4ccが「mha3」であるサンプルエントリには、mhaCボックス（MHAConfigration Box）、mhasボックス(MHAAudioSceneInfo Box)、mhgCボックス(MHAGroupDefinitionBox)、mhsCボックス(MHASwitchGropuDefinition Box)等が配置される。

　ベーストラックのサンプルエントリのmhaCボックスには、３Ｄオーディオの全てのグループのconfig情報またはベーストラックを独立して再生可能なconfig情報が記述される。また、mhasボックスには、３Ｄオーディオの全てのグループおよびswitch Groupに関する情報を含むAudioScene情報が記述され、mhgCボックスとmhsCボックスは配置されない。

　ベーストラックのサンプルエントリに３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにmhaCボックスが記述されなくてもよい。しかしながら、ベーストラックのサンプルエントリにベーストラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される場合には、グループトラックのサンプルエントリにグループトラックを独立して再生可能なconfig情報を含むmhaCボックスが記述される。前者の状態であるか、後者の状態であるかは、サンプルエントリ内のconfig情報の有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、前者の状態と後者の状態を識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、前者の状態である場合「mha3」にされ、後者の状態である場合「mha5」にされる。また、グループトラックのサンプルエントリには、mhasボックスは配置されない。mhgCボックスおよびmhsCボックスは配置されてもよいし、配置されなくてもよい。

　なお、図３０に示すように、ベーストラックのサンプルエントリには、mhasボックス、mhgCボックス、およびmhsCボックスが配置されるとともに、ベーストラックだけを独立して再生可能にするconfig情報が記述されるmhaCボックスと３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが両方配置されるようにしてもよい。この場合、３Ｄオーディオの全てのグループのconfig情報が記述されるmhaCボックスと、ベーストラックだけを独立して再生可能にするconfig情報が記述されるmhaCボックスとは、これらのmhaCボックスに含まれるフラグによって識別される。また、この場合、グループトラックのサンプルエントリには、mhaCボックスが記述されなくてもよい。グループトラックのサンプルエントリにmhaCボックスが記述されるかどうかは、グループトラックのサンプルエントリ内のmhaCボックスの有無で識別可能であるが、サンプルエントリにフラグを記述したり、サンプルエントリのタイプを変化させることにより、識別可能にすることもできる。なお、図示は省略するが、サンプルエントリのタイプを変化させることにより、グループトラックのサンプルエントリにmhaCボックスが記述されるかどうかを識別可能にする場合、ベーストラックおよびグループトラックのサンプルエントリの4ccは、例えば、グループトラックのサンプルエントリにmhaCボックスが記述される場合「mha3」にされ、グループトラックのサンプルエントリにmhaCボックスが記述されない場合「mha5」にされる。なお、図３０において、ベーストラックのサンプルエントリには、mhgCボックスとmhsCボックスが記述されなくてもよい。

　（MPDファイルの第４の記述例）
　図３１は、音声ファイルのトラックの構成が図２８または図３０の構成である場合のMPDファイルの記述例を示す図である。

　図３１のMPDファイルは、「Representation」の「codecs」が「mha3.3.1」である点、および、「SubRepresentation」の「codecs」が「mha3.2.1」である点が、図２４のMPDファイルと異なる。

　また、上述した説明では、各トラックのtrackボックスにTrack Referenceが配置されるようにしたが、Track Referenceは配置されなくてもよい。例えば、図３２乃至図３４は、それぞれ、図２３、図２６、図２８の音声ファイルのトラックのtrackボックスにTrack Referenceが配置されない場合を示す図である。図３２の場合、Track Referenceは配置されないが、ベーストラックとグループトラックのサンプルエントリの4ccが異なるため、トラック間の依存関係を認識することができる。図３３および図３４の場合、mhasボックスが配置されていることで、ベーストラックか否かを識別することができる。

　音声ファイルのトラックの構成が、図３２乃至図３４の構成である場合のMPDファイルは、それぞれ、図２４、図２７、図３１のMPDファイルと同一である。なお、この場合も、ベーストラックの「SubRepresentation」には、図２５の場合と同様に、AudioScene情報が分割して記述されるようにしてもよい。

　（音声ファイルのトラックの第６の例の概要）
　図３５は、音声ファイルのトラックの第６の例の概要を説明する図である。

　図３５の音声データのトラックの構成は、ベーストラックのサンプルに、各グループのトラックのサンプルへの参照情報や、その参照情報の復号に必要なconfig情報が配置されず、０以上のグループのオーディオストリームが含まれる点、および、ベーストラックのサンプルエントリに、各グループのトラックのサンプルへの参照情報が記述される点が、図３３の構成と異なっている。

　具体的には、３Ｄオーディオのうちの音声データのオーディオストリームが複数のトラックに分割されているときのベーストラック用のシンタクスを有する、4ccが「mha2」であるサンプルエントリに、AudioScene情報に記述されている各グループがどのトラックに分割されているかを記述するmhmtボックスが新たに配置される。

　（4ccが「mha2」であるサンプルエントリのシンタクスの他の例）
　図３６は、4ccが「mha2」である図３５のベーストラックおよびグループトラックのサンプルエントリのシンタクスの例を示す図である。

　図３６の4ccが「mha2」であるサンプルエントリの構成は、MHAMultiTrackDescriptionボックス（mhmtボックス）が配置される点が、図１０の構成と異なっている。

　mhmtボックスには、参照情報として、グループＩＤ（group_ID）とトラックＩＤ(track_ID)の対応関係が記述される。なお、mhmtボックスでは、オーディオエレメントとトラックＩＤが対応付けて記述されるようにしてもよい。

　参照情報がサンプルごとに変化しない場合、mhmtボックスをサンプルエントリに配置することにより、効率良く参照情報を記述することができる。

　なお、図示は省略するが、図９、図２０、図２３、図２６、図２８、図３０、図３２、および図３４の場合においても、同様に、ベーストラックのサンプルに各グループのトラックのサンプルへの参照情報を記述する代わりに、ベーストラックのサンプルエントリにmhmtボックスを配置させるようにすることができる。

　この場合、4ccが「mha3」であるサンプルエントリのシンタクスは、図３７に示すようになる。即ち、図３７の4ccが「mha3」であるサンプルエントリの構成は、MHAMultiTrackDescriptionボックス（mhmtボックス）が配置される点が、図２９の構成と異なっている。

　また、図２３、図２６、図２８、図３０、図３２乃至図３４、および図３５において、図９と同様に、ベーストラックに３Ｄオーディオの１以上のグループのオーディオストリームが含まれないようにしてもよい。また、各グループトラックに分割されるオーディオストリームに対応するグループの数が１つであってもよい。

　さらに、図２３、図２６、図２８、図３０、図３２乃至図３４、および図３５において、図２０の場合と同様に、GroupDefinitionやSwitchGroupDefinitionが、サンプルグループエントリに配置されるようにしてもよい。

　＜第２実施の形態＞
　（トラックの概要）
　図３８は、本開示を適用した第２実施の形態におけるトラックの概要を説明する図である。

　図３８に示すように、第２実施の形態では、各トラックが異なるファイル（3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4）として記録される点が、第１実施の形態と異なっている。この場合、所望のトラックのファイルを、HTTPを介して取得することにより、所望のトラックのデータのみを取得することができる。従って、HTTPを介した所望のトラックのデータの取得を効率的に行うことができる。

　（MPDファイルの記述例）
　図３９は、本開示を適用した第２実施の形態におけるMPDファイルの記述例を示す図である。

　図３９に示すように、MPDファイルには、３Ｄオーディオの各音声ファイル（3da_base.mp4/3da_group1.mp4/3da_group2.mp4/3da_group3.mp4/3da_group4.mp4）のセグメントを管理する「Representation」等が記述される。

　「Representation」には、「codecs」、「id」、「associationId」、および「assciationType」が含まれる。「id」は、それを含む「Representation」のＩＤである。「associationId」は、対応するトラックと他のトラックとの参照関係を表す情報であり、参照トラックの「id」である。「assciationType」は、参照トラックとの参照関係（依存関係）の意味を表すコードであり、例えばMP4のtrack referenceの値と同じものが用いられる。

　また、各グループのトラックの「Representation」には、<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>も含まれる。図３９の例では、１つの「AdaptationSet」の下に、各音声ファイルのセグメントを管理する「Representation」が設けられているが、各音声ファイルのセグメントごとに「AdaptationSet」が設けられ、その下に、そのセグメントを管理する「Representation」が設けられるようにしてもよい。この場合、各「AdaptationSet」には、「associationId」と、「assciationType」と同様に参照トラックとの参照関係の意味を表す<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudioAssociationData:2014” value＝“dataType,id”>が、記述されるようにしてもよい。また、ベーストラックとグループトラックの「Representation」に記述されているAudioScene情報、GroupDefinition、SwitchGroupDefinitionは、図２５の場合と同様に、分割して記述されるようにしてもよい。さらに、各「AdaptationSet」には、「Representation」に分割して記述されたAudioScene情報、GroupDefinition、SwitchGroupDefinitionが記述されてもよい。

　（情報処理システムの概要）
　図４０は、本開示を適用した第２実施の形態における情報処理システムの概要を説明する図である。

　図４０に示す構成のうち、図８の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図４０の情報処理システム２１０は、ファイル生成装置２１１と接続されるWebサーバ２１２と動画再生端末２１４が、インターネット１３を介して接続されることにより構成される。

　情報処理システム２１０では、MPEG－DASHに準ずる方式で、Webサーバ１４２が、再生対象のグループの音声ファイルのオーディオストリームを、動画再生端末１４４に配信する。

　具体的には、ファイル生成装置２１１は、動画コンテンツの３Ｄオーディオの各音声データとメタデータを、それぞれ、複数の符号化速度で符号化し、オーディオストリームを生成する。ファイル生成装置２１１は、オーディオストリームをグループおよびExtエレメントのタイプごとに分割し、異なるトラックのオーディオストリームとする。ファイル生成装置２１１は、符号化速度、セグメント、およびトラックごとに、オーディオストリームをファイル化し、音声ファイルを生成する。ファイル生成装置２１１は、その結果得られる音声ファイルをWebサーバ２１２にアップロードする。また、ファイル生成装置２１１は、MPDファイルを生成し、Webサーバ２１２にアップロードする。

　Webサーバ２１２は、ファイル生成装置２１１からアップロードされた符号化速度、セグメント、およびトラックごとの音声ファイルとMPDファイルを格納する。Webサーバ２１２は、動画再生端末２１４からの要求に応じて、格納している音声ファイル、MPDファイル等を動画再生端末２１４に送信する。

　動画再生端末２１４は、制御用ソフトウエア２２１、動画再生ソフトウエア１６２、アクセス用ソフトウエア２２３などを実行する。

　制御用ソフトウエア２２１は、Webサーバ２１２からストリーミングするデータを制御するソフトウエアである。具体的には、制御用ソフトウエア２２１は、動画再生端末２１４にWebサーバ２１２からMPDファイルを取得させる。

　また、制御用ソフトウエア２２１は、MPDファイルに基づいて、動画再生ソフトウエア１６２により指定される再生対象のグループ、および、そのグループに対応するExtエレメントのタイプの音声ファイルのオーディオストリームの送信要求を、アクセス用ソフトウエア２２３に指令する。

　アクセス用ソフトウエア２２３は、HTTPを用いたインターネット１３を介したWebサーバ２１２との通信を制御するソフトウエアである。具体的には、アクセス用ソフトウエア２２３は、制御用ソフトウエア２２１の指令に応じて、再生対象の音声ファイルのオーディオストリームの送信要求を、動画再生端末１４４に送信させる。また、アクセス用ソフトウエア２２３は、その送信要求に応じて、Webサーバ２１２から送信されてくるオーディオストリームの受信を動画再生端末１４４に開始させ、受信開始の通知を動画再生ソフトウエア１６２に供給する。

　（ファイル生成装置の構成例）
　図４１は、図４０のファイル生成装置２１１の構成例を示すブロック図である。

　図４１に示す構成のうち、図１６の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図４１のファイル生成装置２１１の構成は、音声ファイル生成部１７２、MPD生成部１７３の代わりに、音声ファイル生成部２４１、MPD生成部２４２が設けられる点が、図１６のファイル生成装置１４１の構成と異なる。

　具体的には、ファイル生成装置２１１の音声ファイル生成部２４１は、音声符号化処理部１７１から供給されるオーディオストリームに対して、グループおよびExtエレメントのタイプごとにトラックを割り当てる。音声ファイル生成部２４１は、符号化速度、セグメント、およびトラックごとに、オーディオストリームを配置した音声ファイルを生成する。音声ファイル生成部２４１は、生成された音声ファイルをMPD生成部２４２に供給する。

　MPD生成部２４２は、音声ファイル生成部１７２から供給される音声ファイルを格納するWebサーバ１４２のURL等を決定する。MPD生成部２４２は、音声ファイルのURL等が、その音声ファイル用の「Representation」の「Segment」に配置されたMPDファイルを生成する。MPD生成部１７３は、生成されたMPDファイルと音声ファイルをサーバアップロード処理部１７４に供給する。

　（ファイル生成装置の処理の説明）
　図４２は、図４１のファイル生成装置２１１のファイル生成処理を説明するフローチャートである。

　図４２のステップＳ３０１およびＳ３０２の処理は、図１７のステップＳ１９１およびＳ１９２の処理と同様であるので、説明は省略する。

　ステップＳ３０３において、音声ファイル生成部２４１は、符号化速度、セグメント、およびトラックごとに、オーディオストリームが配置された音声ファイルを生成する。音声ファイル生成部２４１は、生成された音声ファイルをMPD生成部２４２に供給する。

　ステップＳ３０４およびＳ３０５の処理は、図１７のステップＳ１９４およびＳ１９５の処理と同様であるので、説明は省略する。

　（動画再生端末の機能的構成例）
　図４３は、図４０の動画再生端末２１４が制御用ソフトウエア２２１、動画再生ソフトウエア１６２、およびアクセス用ソフトウエア２２３を実行することにより実現されるストリーミング再生部の構成例を示すブロック図である。

　図４３に示す構成のうち、図１８の構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。

　図４３のストリーミング再生部２６０の構成は、音声ファイル取得部１９２の代わりに、音声ファイル取得部２６４が設けられる点が、図１８のストリーミング再生部１９０の構成と異なる。

　音声ファイル取得部２６４は、MPD処理部１９１から供給されるURLのうちの、再生対象のトラックの音声ファイルのURLに基づいて、その音声ファイルのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部２６４は、取得されたオーディオストリームを音声復号処理部１９４に供給する。

　即ち、音声ファイル取得部２６４、音声復号処理部１９４、および音声合成処理部１９５は、再生部として機能し、Webサーバ２１２に格納されている音声ファイルから、再生対象のトラックの音声ファイルのオーディオストリームを取得し、再生する。

　（動画再生端末の処理の説明）
　図４４は、図４３のストリーミング再生部２６０の再生処理を説明するフローチャートである。

　図４４のステップＳ３２１およびＳ３２２の処理は、図１９のステップＳ２１１およびＳ２１２の処理と同様であるので、説明は省略する。

　ステップＳ３２３において、音声ファイル取得部１９２は、MPD処理部１９１から供給されるURLのうちの、再生対象のトラックの音声ファイルのURLに基づいて、その音声ファイルのオーディオストリームをWebサーバ１４２に要求し、取得する。音声ファイル取得部２６４は、取得されたオーディオストリームを音声復号処理部１９４に供給する。

　ステップＳ３２４およびＳ３２５の処理は、図１９のステップＳ２１４およびＳ２１５の処理と同様であるので、説明は省略する。

　なお、第２実施の形態においても、第１実施の形態と同様に、GroupDefinitionやSwitchGroupDefinitionが、サンプルグループエントリに配置されるようにしてもよい。

　また、第２実施の形態においても、第１実施の形態と同様に、音声データのトラックの構成を、図２３、図２６、図２８、図３０、図３２乃至図３４、および図３５に示した構成にすることができる。

　図４５乃至図４７は、それぞれ、第２実施の形態において、音声データのトラックの構成が、図２３、図２６、図２８に示した構成である場合のMPDを示す図である。第２実施の形態において、音声データのトラックの構成が図３２、図３３または図３５、図３４に示した構成である場合のMPDは、それぞれ、図２３、図２６、図２８に示した構成である場合のMPDと同一である。

　図４５のMPDは、ベーストラックの「codecs」および「associationId」、並びに、ベーストラックの「Representation」に<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が含まれる点が、図３９のMPDと異なっている。具体的には、図４５のMPDのベーストラックの「Representation」の「codecs」は、「mha2.2.1」であり、「associationId」は、グループトラックの「id」である「g1」と「g2」である。

　また、図４６のMPDは、グループトラックの「codecs」、および、グループトラックの「Representation」に<EssentialProperty schemeIdUri＝“urn:mpeg:DASH:3daudio:2014” value＝“dataType,definition”>が含まれない点が、図４５のMPDと異なっている。具体的には、図４６のMPDのグループトラックの「codecs」は、「mha2.2.1」である。

　また、図４７のMPDは、ベーストラックとグループトラックとの「codecs」が、図４５のMPDと異なっている。具体的には、図４７のMPDのグループトラックの「codecs」は、「mha3.2.1」である。

　なお、図４５乃至図４７のMPDにおいて、図４８乃至図５０に示すように、「Representation」ごとに「AdaptationSet」を分けることもできる。

　＜ベーストラックの他の例＞
　上述した説明では、ベーストラックは１つだけ設けられたが、複数設けられるようにしてもよい。この場合、ベーストラックは、例えば、３Ｄオーディオの視点（詳細は後述する）ごとに設けられ、ベーストラックには、各視点の３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが配置される。なお、各ベーストラックには、各視点のAudioScene情報を含むmhasボックスが配置されるようにしてもよい。

　３Ｄオーディオの視点とは、その３Ｄオーディオが聴こえる位置であり、３Ｄオーディオと同時に再生される画像の視点や予め設定された所定の位置などである。

　以上のように、視点ごとにベーストラックが設けられる場合、各視点のconfig情報に含まれるオブジェクトの画面上の位置等に基づいて、同一の３Ｄオーディオのオーディオストリームから、視点ごとに異なる音声を再生することができる。その結果、３Ｄオーディオのオーディオストリームのデータ量を削減することができる。

　即ち、３Ｄオーディオの視点が、その３Ｄオーディオと同時に再生可能な野球のスタジアムの画像の複数の視点である場合、基本の視点の画像であるメイン画像として、例えば、センターバックスクリーンを視点とする画像が用意される。また、バックネット裏、一塁内野席、三塁内野席、レフト応援席、ライト応援席などを視点とする画像が、基本の視点以外の視点の画像であるマルチ画像として用意される。

　この場合、全ての視点の３Ｄオーディオを用意すると、３Ｄオーディオのデータ量が多くなる。従って、ベーストラックに各視点におけるオブジェクトの画面上の位置等を記述することにより、オブジェクトの画面上の位置に応じて変化するObject audioやSAOC Object audio等のオーディオストリームを視点間で共有可能にする。その結果、３Ｄオーディオのオーディオストリームのデータ量を削減することができる。

　３Ｄオーディオの再生時には、例えば基本の視点のObject audioやSAOC Object audio等のオーディオストリームと、同時に再生されるメイン画像またはマルチ画像の視点に対応するベーストラックとを用いて、その視点に応じて異なる音声が再生される。

　同様に、例えば、３Ｄオーディオの視点が、予め設定されたスタジアムの複数の座席の位置である場合、全ての視点の３Ｄオーディオを用意すると、３Ｄオーディオのデータ量が多くなる。従って、ベーストラックに各視点におけるオブジェクトの画面上の位置等を記述することにより、Object audioやSAOC Object audio等のオーディオストリームを視点間で共有可能にする。その結果、１つの視点のObject audioやSAOC Object audioを用いて、ユーザにより座席表などを用いて選択された座席に応じて異なる音声を再生することが可能になり、３Ｄオーディオのオーディオストリームのデータ量を削減することができる。

　図２８のトラック構造において、ベーストラックが３Ｄオーディオの視点ごとに設けられる場合、トラック構造は、図５１に示すようになる。図５１の例では、３Ｄオーディオの視点の数が３つある。また、図５１の例では、Channel audioは、３Ｄオーディオの視点ごとに生成され、その他の音声データは、３Ｄオーディオの視点間で共有される。これらのことは、後述する図５２の例においても同様である。

　この場合、ベーストラックは、図５１に示すように、３Ｄオーディオの視点ごとに３つ設けられる。各ベーストラックのtrackボックスには、Track Referenceが配置される。また、各ベーストラックのサンプルエントリのシンタクスは、4ccが「mha3」であるサンプルエントリのシンタクスと同一であるが、4ccは、３Ｄオーディオの視点ごとにベーストラックが設けられていることを表す「mhcf」である。

　各ベーストラックのサンプルエントリには、各視点の３Ｄオーディオの全てのグループのconfig情報を含むmhaCボックスが配置される。各視点の３Ｄオーディオの全てのグループのconfig情報としては、その視点におけるオブジェクトの画面上の位置などがある。また、各ベーストラックには、各視点のAudioScene情報を含むmhasボックスが配置される。

　各ベーストラックのサンプルには、各視点のChannel audioのグループのオーディオストリームが配置される。

　なお、各視点におけるオブジェクトの画面上の位置をサンプル単位で記述するObject Metadataが存在する場合には、そのObject Metadataも、各ベーストラックのサンプルに配置される。

　即ち、オブジェクトが動体（例えば、スポーツ選手）である場合、各視点におけるオブジェクトの画面上の位置は時間変化するため、その位置は、サンプル単位でObject Metadataとして記述される。この場合、このサンプル単位のObject Metadataは、視点ごとに、その視点に対応するベーストラックのサンプルに配置される。

　図５１のグループトラックの構成は、Channel audioのグループのオーディオストリームが配置されない点を除いて、図２８の構成と同一であるので、説明は省略する。

　なお、図５１のトラック構造において、各視点のChannel audioのグループのオーディオストリームは、ベーストラックに配置されず、それぞれ、異なるグループトラックに配置されるようにしてもよい。この場合、トラック構造は、図５２に示すようになる。

　図５２の例では、トラックＩＤが「１」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックＩＤが「４」であるグループトラックに配置されている。また、トラックＩＤが「２」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックＩＤが「５」であるグループトラックに配置されている。

　さらに、トラックＩＤが「３」であるベーストラックに対応する視点のChannel audioのグループのオーディオストリームが、トラックＩＤが「６」であるグループトラックに配置されている。

　なお、図５１および図５２の例では、ベーストラックのサンプルエントリの4ccを「mhcf」にしたが、図２８の場合と同一の「mha3」であってもよい。

　また、図示は省略するが、図２８のトラック構造以外の、上述した全てのトラック構造において、ベーストラックが３Ｄオーディオの視点ごとに設けられる場合も、図５１および図５２の場合と同様である。

　＜第３実施の形態＞
　（本開示を適用したコンピュータの説明）
　上述したWebサーバ１４２（２１２）の一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図５３は、上述したWebサーバ１４２（２１２）の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）６０１，ROM（Read Only Memory）６０２，RAM（Random Access Memory）６０３は、バス６０４により相互に接続されている。

　バス６０４には、さらに、入出力インタフェース６０５が接続されている。入出力インタフェース６０５には、入力部６０６、出力部６０７、記憶部６０８、通信部６０９、及びドライブ６１０が接続されている。

　入力部６０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部６０７は、ディスプレイ、スピーカなどよりなる。記憶部６０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部６０９は、ネットワークインタフェースなどよりなる。ドライブ６１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア６１１を駆動する。

　以上のように構成されるコンピュータでは、CPU６０１が、例えば、記憶部６０８に記憶されているプログラムを、入出力インタフェース６０５及びバス６０４を介して、RAM６０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU６０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア６１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア６１１をドライブ６１０に装着することにより、入出力インタフェース６０５を介して、記憶部６０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６０９で受信し、記憶部６０８にインストールすることができる。その他、プログラムは、ROM６０２や記憶部６０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、動画再生端末１４４（２１４）のハードウエア構成は、図５３のコンピュータと同様の構成にすることができる。この場合、例えば、CPU６０１が、制御用ソフトウエア１６１（２２１）、動画再生ソフトウエア１６２、およびアクセス用ソフトウエア１６３（２２３）を実行する。動画再生端末１４４（２１４）の処理は、ハードウエアにより実行することもできる。

　本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　また、本開示は、ストリーミング再生ではなく、放送やローカルストレージ再生を行う情報処理システムにも適用することができる。

　上述したMPDの実施例では、そのスキーマで記述された内容が理解できない場合は無視してもよいdescriptor定義であるEssentialPropertyにより情報が記述されたが、そのスキーマで記述された内容が理解できない場合であっても再生できるdescriptor定義であるSupplementalPropertyにより情報が記述されてもよい。この記述方法の選択は、コンテンツを作成する側の意図で行われる。

　さらに、本開示は、以下のような構成もとることができる。

　（１）
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部
　を備える情報処理装置。
　（２）
　前記複数の種類に関する情報は、所定のトラックのサンプルエントリに配置される
　ように構成された
　前記（１）に記載の情報処理装置。
　（３）
　前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックのうちの１つである
　ように構成された
　前記（２）に記載の情報処理装置。
　（４）
　前記ファイルには、前記トラックごとに、そのトラックに対応する前記種類に関する情報が配置される
　ように構成された
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
　（５）
　前記ファイルには、前記トラックごとに、そのトラックに対応する種類と、その種類の音声データと排他的に再生される音声データに対応する種類とからなる排他的再生種類に関する情報が配置される
　ように構成された
　前記（４）に記載の情報処理装置。
　（６）
　前記トラックに対応する種類に関する情報および前記排他的再生種類に関する情報は、対応するトラックのサンプルエントリに配置される
　ように構成された
　前記（５）に記載の情報処理装置。
　（７）
　前記ファイル生成部は、前記トラックごとに前記排他的再生種類に関する情報が存在するかを示す情報を含む、前記ファイルを管理する管理ファイルを生成する
　ように構成された
　前記（５）または（６）に記載の情報処理装置。
　（８）
　前記ファイルには、前記複数の種類に対応するトラックへの参照情報が配置される
　ように構成された
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
　（９）
　前記参照情報は、所定のトラックのサンプルに配置される
　ように構成された
　前記（８）に記載の情報処理装置。
　（１０）
　前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックの１つである
　ように構成された
　前記（９）に記載の情報処理装置。
　（１１）
　前記ファイルには、前記トラック間の参照関係を表す情報が配置される
　ように構成された
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
　（１２）
　前記ファイル生成部は、前記トラック間の参照関係を表す情報を含む、前記ファイルを管理する管理ファイルを生成する
　ように構成された
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
　（１３）
　前記ファイルは、１つのファイルである
　ように構成された
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
　（１４）
　前記ファイルは、前記トラックごとのファイルである
　ように構成された
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
　（１５）
　情報処理装置が、
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成ステップ
　を含む情報処理方法。
　（１６）
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部
　を備える情報処理装置。
　（１７）
　情報処理装置が、
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生ステップ
　を含む情報処理方法。

　１１　ファイル生成装置，　１９２　音声ファイル取得部，　１９４　音声復号処理部，　１９５　音声合成処理部，　２１１　ファイル生成装置，　２６４　音声ファイル取得部

Claims

　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成部
　を備える情報処理装置。
　前記複数の種類に関する情報は、所定のトラックのサンプルエントリに配置される
　ように構成された
　請求項１に記載の情報処理装置。
　前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックのうちの１つである
　ように構成された
　請求項２に記載の情報処理装置。
　前記ファイルには、前記トラックごとに、そのトラックに対応する前記種類に関する情報が配置される
　ように構成された
　請求項１に記載の情報処理装置。
　前記ファイルには、前記トラックごとに、そのトラックに対応する種類と、その種類の音声データと排他的に再生される音声データに対応する種類とからなる排他的再生種類に関する情報が配置される
　ように構成された
　請求項４に記載の情報処理装置。
　前記トラックに対応する種類に関する情報および前記排他的再生種類に関する情報は、対応するトラックのサンプルエントリに配置される
　ように構成された
　請求項５に記載の情報処理装置。
　前記ファイル生成部は、前記トラックごとに前記排他的再生種類に関する情報が存在するかを示す情報を含む、前記ファイルを管理する管理ファイルを生成する
　ように構成された
　請求項５に記載の情報処理装置。
　前記ファイルには、前記複数の種類に対応するトラックへの参照情報が配置される
　ように構成された
　請求項１に記載の情報処理装置。
　前記参照情報は、所定のトラックのサンプルに配置される
　ように構成された
　請求項８に記載の情報処理装置。
　前記所定のトラックは、前記複数の種類の音声データが分割されて配置される前記トラックの１つである
　ように構成された
　請求項９に記載の情報処理装置。
　前記ファイルには、前記トラック間の参照関係を表す情報が配置される
　ように構成された
　請求項１に記載の情報処理装置。
　前記ファイル生成部は、前記トラック間の参照関係を表す情報を含む、前記ファイルを管理する管理ファイルを生成する
　ように構成された
　請求項１に記載の情報処理装置。
　前記ファイルは、１つのファイルである
　ように構成された
　請求項１に記載の情報処理装置。
　前記ファイルは、前記トラックごとのファイルである
　ように構成された
　請求項１に記載の情報処理装置。
　情報処理装置が、
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルを生成するファイル生成ステップ
　を含む情報処理方法。
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生部
　を備える情報処理装置。
　情報処理装置が、
　複数の種類の音声データが１以上の前記種類ごとにトラックに分割されて配置されるとともに、前記複数の種類に関する情報が配置されたファイルから、所定のトラックの前記音声データを再生する再生ステップ
　を含む情報処理方法。