WO2019216001A1

WO2019216001A1 - 受信装置、送信装置、受信方法、送信方法、およびプログラム

Info

Publication number: WO2019216001A1
Application number: PCT/JP2019/007451
Authority: WO
Inventors: 義行小林; 充勝股; 俊也浜田
Original assignee: ソニー株式会社
Priority date: 2018-05-08
Filing date: 2019-02-27
Publication date: 2019-11-14
Also published as: JP2021129127A; US20210243485A1

Abstract

【課題】複数のストリームデータの切り替えをより柔軟に実現することを可能にする。【解決手段】ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信する受信部を備える、受信装置が提供される。

Description

受信装置、送信装置、受信方法、送信方法、およびプログラム

　本開示は、受信装置、送信装置、受信方法、送信方法、およびプログラムに関する。

　近年、インターネット上のストリーミングサービスの主流がOTT-V（Over The Top Video）となっている。この基盤技術として普及し始めているのがMPEG-DASH（Moving Picture Experts Group phase
－ Dynamic Adaptive Streaming over HTTP）である（例えば、非特許文献１参照）。

　MPEG-DASHなどを用いて行われるコンテンツの配信においては、サーバ装置がセグメントという単位で映像ストリームデータおよび音声ストリームデータを配信し、クライアント装置が所望のセグメントを選択することで映像コンテンツおよび音声コンテンツを再生する。MPEG-DASHなどによってストリームデータの配信が行われることによって、クライアント装置は、映像表現として連続性の無い映像ストリームデータ（例えば、解像度やビットレートの異なる映像ストリームデータなど）を互いに切り替えることができる。また、クライアント装置は、音声として相関の無い音声ストリームデータ（例えば、言語（日本語や英語など）やビットレートの異なる音声ストリームデータなど）を互いに切り替えることもできる。

MPEG-DASH(Dynamic Adaptive Streaming over HTTP)（URL: http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html） INTERNATIONAL STANDARD ISO/IEC 23008-3First edition 2015-10-15 Information technology High efficiency coding andmedia delivery in heterogeneous environments Part 3: 3D audio Virtual Sound Source Positioning UsingVector Base Amplitude Panning, AES Volume 45 Issue 6 pp.456-466, June 1997

　しかしながら、映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングを合せることは困難であった。より具体的には、映像ストリームデータと音声ストリームデータは互いにアラインしておらず（換言すると、映像ストリームデータと音声ストリームデータとは別々に存在するストリームデータであり）、基本的にセグメント長も互いに異なるため、映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングを合せることは困難であった。映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングがずれることによって、視聴者が受ける興趣感や臨場感が損なわれてしまうため問題である。

　そこで、本開示は上記に鑑みてなされたものであり、本開示は、複数のストリームデータの切り替えをより柔軟に実現することが可能な、新規かつ改良された受信装置、送信装置、受信方法、送信方法、およびプログラムを提供する。

　本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信する受信部を備える、受信装置が提供される。

　また、本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信することを有する、コンピュータにより実行される受信方法が提供される。

　また、本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信すること、をコンピュータに実現させるためのプログラムが提供される。

　また、本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信する送信部を備える、送信装置が提供される。

　また、本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信することを有する、コンピュータにより実行される送信方法が提供される。

　また、本開示によれば、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信することをコンピュータに実現させるためのプログラムが提供される。

　以上説明したように本開示によれば、複数のストリームデータの切り替えをより柔軟に実現することが可能になる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の課題について説明するための図である。本開示の課題について説明するための図である。本開示の課題について説明するための図である。本開示の課題について説明するための図である。オブジェクトベースオーディオのビットストリームの構成例を示す図である。オブジェクトベースオーディオのビットストリームの構成例を示す図である。 object_metadatum()ブロックの構成例を示す図である。 object_metadatum()ブロックの構成例を示す図である。 object_metadatum()ブロックにて示される位置情報について説明するための図である。 object_metadatum()ブロックにて示される位置情報（差分値と直接値）について説明するための図である。 audio_frame()ブロックの構成例を示す図である。オブジェクトベースオーディオを用いたMPEG-DASHの配信の例について説明するための図である。 Initialization SegmentとMedia Segmentが同一のMP4コンテナに格納される場合のMP4コンテナの構成例を示す図である。 Initialization SegmentとMedia Segmentが互いに異なるMP4コンテナに格納される場合の各MP4コンテナの構成例を示す図である。 Movie box（moov）の構成を示す図である。 object_based_audio_SampleEntryの構成例、およびobject_based_audio_SampleEntryがSample Description box（stsd）に格納される旨を示す図である。 Movie Fragment box（moof）の構成、およびMedia Data box(mdat)を示す図である。 Media Data box(mdat)の構成を示す図である。クライアント装置２００が、TrackFragment Run box（trun）に格納されたランダムアクセス情報に基づいてobject_based_audio_sampleの再生処理を行う旨を示す図である。音声レプリゼンテーションの伝送パターン（ケース１）におけるobject_based_audio_SampleEntryの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース１）におけるobject_based_audio_sampleの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース１）におけるMPDファイルの具体例を示す図である。音声レプリゼンテーションの伝送パターン（ケース１）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース１）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるMPDファイルの具体例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるMPDファイルの具体例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース２）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成概要を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるMPDファイルの具体例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_SampleEntryの構成例を示す図である。音声レプリゼンテーションの伝送パターン（ケース３）におけるobject_based_audio_sampleの構成例を示す図である。メタデータの切り替えについて説明するための図である。 Representation要素がSegmentList形式で記述される場合のMPDファイルの具体例を示す図である。 Representation要素がSegmentTemplate形式で記述される場合のMPDファイルの具体例を示す図である。 Representation要素がSegmentBase形式で記述される場合のMPDファイルの具体例を示す図である。 Segment Index boxの具体例を示す図である。メタデータを圧縮する際の制約について説明するための図である。本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。サーバ装置１００の機能構成例を示すブロック図である。クライアント装置２００の機能構成例を示すブロック図である。切り替わりが発生しない場合における音声ストリームデータの再生処理フローの具体例を示すフローチャートである。切り替わりが発生しない場合における、音声セグメントを取得する処理フローの具体例を示すフローチャートである。切り替わりが発生しない場合における、音声セグメントを再生する処理フローの具体例を示すフローチャートである。切り替わりが発生する場合における、音声セグメントを取得する処理フローの具体例を示すフローチャートである。切り替わりが発生する場合における、音声セグメントを取得する処理フローの具体例を示すフローチャートである。切り替わりが発生する場合における、音声セグメントを再生する処理フローの具体例を示すフローチャートである。切り替わりが発生する場合における、音声セグメントを再生する処理フローの具体例を示すフローチャートである。切り替わりが発生する場合における、メタデータの選択処理フローの具体例を示すフローチャートである。サーバ装置１００、またはクライアント装置２００を具現する情報処理装置９００のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の概要
　２．本開示の詳細
　３．本開示の実施形態
　４．まとめ

　　＜１．本開示の概要＞
　まず、本開示の概要について説明する。

　上記のとおり、MPEG-DASHなどによってストリームデータの配信が行われることによって、クライアント装置は、映像表現として連続性の無い映像ストリームデータ（例えば、解像度やビットレートの異なる映像ストリームデータなど）を互いに切り替えることができる。また、クライアント装置は、音声として相関の無い音声ストリームデータ（例えば、言語（日本語や英語など）やビットレートの異なる音声ストリームデータなど）を互いに切り替えることもできる。

　しかしながら、映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングを合せることは困難であった。より具体的には、映像ストリームデータと音声ストリームデータは互いにアラインしておらず、基本的にセグメント長も互いに異なるため、映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングを合せることは困難であった。映像ストリームデータと音声ストリームデータそれぞれの切り替わりのタイミングがずれることによって、視聴者が受ける興趣感や臨場感が損なわれてしまうため問題である。

　この課題を解決する方法として「セグメントの重複取得」や「プリロールデータ伝送」などの方法が提案されている。

　「セグメントの重複取得」について説明すると、例えば、図１に示すように、映像セグメントの切り替わりタイミングよりも音声セグメントの切り替わりタイミングの方が先になる場合（図１では、映像Representation１から映像Representation２への切り替わりタイミングよりも、音声Representation１から音声Representation２への切り替わりタイミングの方が先になっている）、切り替わりのずれが生じている。

　このとき、図２に示すように、クライアント装置が、映像セグメントの切り替わりが行われる際に、切り替わり後の音声レプリゼンテーション（音声Representation２）の音声セグメントだけでなく切り替わり前の音声レプリゼンテーション（音声Representation１）の音声セグメントも重複して取得する。これによって、クライアント装置は、映像セグメントの切り替わりタイミングまでは切り替わり前の音声セグメントを用いて再生処理を行い、映像セグメントの切り替わりタイミング以降は切り替わり後の音声セグメントを用いて再生処理を行うことができるため、切り替わりのずれを解消（または、切り替わりのずれをより小さく）することができる。なお、切り替わりの際に、映像についてはディゾルブなど、音声についてはクロスフェードなどの技法が併せて用いられることで、ユーザが受ける違和感が軽減されていた。

　「プリロールデータ伝送」について説明すると、例えば、図３に示すように、音声セグメントの切り替わりタイミングよりも映像セグメントの切り替わりタイミングの方が先になる場合（図３では、音声Representation１から音声Representation２への切り替わりタイミングよりも、映像Representation１から映像Representation２への切り替わりタイミングの方が先になっている）、切り替わりのずれが生じている。

　このとき、MPEG-H 3D Audio（ISO/IEC 23008-3）には、図４に示すように、各音声セグメントにプリロールデータを付す方法が規定されている。これによって、クライアント装置は、映像セグメントの切り替わりタイミング以降は、切り替わり後の音声セグメントを用いて再生処理を行うことができるため、切り替わりのずれを解消（または、切り替わりのずれをより小さく）することができる。映像についてのディゾルブ、音声についてのクロスフェードなどの技法が併せて用いられることに関しては上記と同様である。

　しかし、「セグメントの重複取得」については、重複データの取得（ダウンロードなど）に余分な時間を要するため、例えば、切り替えが実行されるタイミングが所望のタイミングよりも遅れる場合がある（例えば、切り替えが実行されるタイミングより前に重複データの取得が完了しなかった場合など）。また、「セグメントの重複取得」と「プリロールデータ伝送」の両方について、再生に使用されないデータが取得（ダウンロードなど）されることになるため、取得に使用される帯域に無駄が生じる。特に、「プリロールデータ伝送」については、基本的に全セグメントにプリロールデータが付されることになるため無駄がより多いと言える。

　本件の開示者は上記事情に鑑みて本開示を創作するに至った。本開示に係るサーバ装置１００（送信装置）は、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを生成し、第２のストリームデータをクライアント装置２００（受信装置）へ送信する。さらに、サーバ装置１００は、第１のストリームデータの切り替わりのタイミングに関する情報（以降、「タイミング情報」と呼称する）を第２のストリームデータの再生に用いられるMPD（Media Presentation Description）ファイルなどに含める。

　これによって、クライアント装置２００は、第２のストリームデータを受信し、当該データに対応するメタデータに基づいて第２のストリームデータの再生処理を行うところ、MPDファイルなどに含まれるタイミング情報に基づいて、第１のストリームデータが切り替わるタイミングに、第２のストリームデータ（厳密には、第２のストリームデータの再生に用いられるメタデータ）を切り替えることができる。

　ここで、上記の第１のストリームデータおよび第２のストリームデータは、それぞれ映像ストリームデータでもよいし音声ストリームデータでもよい。より具体的には、第１のストリームデータが映像ストリームデータであり、第２のストリームデータが音声ストリームデータでもよいし、第１のストリームデータが音声ストリームデータであり、第２のストリームデータが映像ストリームデータでもよい。また、第１のストリームデータが映像ストリームデータであり、第２のストリームデータが第１のストリームデータとは異なる映像ストリームデータであってもよい。また、第１のストリームデータが音声ストリームデータであり、第２のストリームデータが第１のストリームデータとは異なる音声ストリームデータであってもよい。以降では、一例として、第１のストリームデータが映像ストリームデータであり、第２のストリームデータが音声ストリームデータである場合について説明する（換言すると、音声ストリームデータはオブジェクトベースオーディオデータである）。

　　＜２．本開示の詳細＞
　上記では、本開示の概要について説明した。続いて、本開示の詳細について説明していくところ、まず、MPEG-DASHやオブジェクトベースオーディオについて説明する。

　MPEG-DASH（上記の非特許文献１参照）について概説すると、MPEG-DASHは、映像データや音声データを、インターネットを介してストリーミング配信するために開発された技術である。MPEG-DASHによる配信では、クライアント装置２００が、伝送帯域の変動などに応じてビットレートの異なるコンテンツを選択し取得することでコンテンツの再生を行う。したがって、例えば、サーバ装置１００が、用いられる言語のみが互いに異なる同一内容の音声ストリームデータを複数用意しておき、クライアント装置２００がユーザによる操作入力などに応じてダウンロードの対象となる音声ストリームデータを切り替えることによってコンテンツにおける言語を変更することが可変となる。

　オブジェクトベースオーディオについて概説すると、例えば、上記の非特許文献２に記載のMPEG-H 3D Audio（ISO/IEC 23008-3）が用いられることによって、従来の２チャンネルステレオ方式や、５．１チャンネルなどのマルチチャンネルステレオ方式による再生が可能になるだけでなく、移動する音源などを独立した音声オブジェクトとして扱い、音声オブジェクトの音声データとともに音声オブジェクトの位置情報をメタデータとして符号化することも可能になる。これによって、再生時に様々な加工を行うこと（例えば、音量を調節することや、エフェクトを追加することなど）が容易に実現可能になった。

　また、上記の非特許文献３には、音声オブジェクトのレンダリング方式が記載されており、例えば、VBAP（Vector Base Amplitude Panning）というレンダリング方式によって、再生環境に存在するスピーカの出力設定が行われ得る。VBAPは、個々の音声オブジェクトの空間位置に最も近い３台以上のスピーカの出力を調節することで、音声オブジェクトの空間位置に音を定位させる技術であり、音声オブジェクトの空間位置を変更すること（換言すると、音声オブジェクトを移動させること）もできる。

　加えて、オブジェクトベースオーディオは、オーディオフレームを複数に時分割したり、伝送効率を向上させるためにデータの圧縮処理（差分伝送など）をしたりすることができるという特長を有する。

　ここで、本書で使用する用語の定義を以下に記載する。ISO/IEC 23008-3(MPEG-H 3D Audio)で用いられる用語は、ISO/IEC
14496-3(MPEG-4 Audio)に準ずるため、MPEG-4 Audioとの対比も併せて示す。

　まず、「音声オブジェクト」とは、音場を生成するための構成要素となる素材音を指す。例えば、再生されるコンテンツが音楽に関するものである場合、音声オブジェクトは、楽器（例えば、ギターやドラムなど）音や歌手の歌声などを指す。なお、音声オブジェクトとして用いられる素材音の内容は特に限定されず、コンテンツ製作者によって決定されることとなる。音声オブジェクトは、MPEG-4 Audioでは「object」や「the component objects」などと呼称される。

　「オブジェクトベースオーディオ」とは、音声オブジェクトと共に、音声オブジェクトの位置情報をメタデータとして符号化することで生成されたデジタルオーディオデータを指す。オブジェクトベースオーディオを再生する再生機器は、個々の音声オブジェクトの復号結果をそのままスピーカに出力するのではなく、スピーカの台数や位置に応じて動的にスピーカそれぞれの出力を算出する。MPEG-4 Audioで規定されたオーディオ符号化方式は、当該規格の中で「MPEG-4
Audio is an object-based coding standard with multiple tools.」と説明されている。

　「マルチチャンネルオーディオ（チャンネルベースオーディオ）」とは、２チャンネルステレオ方式や、５．１チャンネルなどのマルチチャンネルステレオ方式の総称である。各チャンネルには、固定の音声信号が割り当てられる。再生機器は、チャンネルごとに割り当てられた音声信号を予め決められたスピーカに出力する（例えば、チャンネル１に割り当てられた音声信号は左スピーカへ出力し、チャンネル２に割り当てられた音声信号は右スピーカへ出力するなど）。また、これらの音声信号は、上述の音声オブジェクトをコンテンツ製作者が配信前にミックスダウンすることで得られるデジタル音声であるとも言える。なお、MPEG-4 Audioは、マルチチャンネルオーディオのデータと、音声オブジェクトのデータの双方を一つのビットストリーム中に格納することが可能である。

　（２．１．オブジェクトベースオーディオのビットストリーム）
　続いて、図５を参照して、オブジェクトベースオーディオのビットストリームの構成例について説明する。図５に示すように、オブジェクトベースオーディオのビットストリームは、header()ブロックと、object_metadata()ブロックと、audio_frames()ブロックと、を有し、header()ブロックが伝送された後に、object_metadata()ブロックとaudio_frames()ブロックが交互にビットストリームの最後に至るまで伝送される。また、図５に示すように、object_metadata()ブロックにはメタデータ（object_metadatum()ブロック）が含まれ、audio_frames()ブロックには音声オブジェクト（audio_frame()ブロック）が含まれている。

　ビットストリームの構成例の詳細を、図６を参照して説明する。図６の行番号２～８にheader()ブロックが示されており、行番号１０～１４にobject_metadata()ブロックが示されており、行番号１５～１９にaudio_frames()ブロックが示されている。

　header()ブロックにおいて、行番号３に記載されたnum_metadataは、ビットストリームに含まれるメタデータの数（object_metadatum()ブロックの数）を示す。また、行番号４に記載されたnum_objectsは、ビットストリームに含まれる音声オブジェクトの数（audio_frame()ブロックの数）を示す。また、行番号６に記載されたrepresentation_indexは、映像ストリームデータ（第１のストリームデータ）における映像レプリゼンテーションのインデックスを示す。映像ストリームデータと音声ストリームデータの再生に用いられるMPDファイルのRepresentation要素のid属性は任意の文字列で指定され得るため、representation_indexには、MPDファイル内での記載順に０から始まる整数値が割り当てられることとする。なお、representation_indexの値はこれに限定されない。

　続いて、object_metadata()ブロックにおいて、行番号１２に記載のobject_metadatum()ブロックの構成例を、図７および図８を参照して説明する。

　図７の行番号２に記載のmetadata_indexは、object_metadata()ブロックのインデックスを示しており、metadata_indexがmetadata_index=iという関係を満たす場合、当該object_metadatum()ブロックには、representation_index[i]の映像レプリゼンテーションに対応する音場を生成するためのメタデータが格納されている。

　また、当該object_metadatum()ブロックに格納されたメタデータが適用されるaudio_frames()ブロックは時分割され得るところ、行番号６などに記載のnum_pointsは、その分割数を示す。audio_frames()ブロックの再生時間において、num_points個のメタデータの分割点が均等に生成される（換言すると、audio_frames()ブロックの再生時間が「num_points+1」に分割されることになる）。

　また、行番号９に記載のazimuth、行番号１６に記載のelevation、行番号２３に記載のradiusそれぞれは各音声オブジェクトの位置情報を示しており、図９に示すように、azimuthは球面座標系における方位角を示し、elevationは球面座標系における仰角を示し、radiusは球面座標系における半径を示す。また、行番号３０に記載のgainは各音声オブジェクトのゲインを示す。

　行番号３に記載のis_rawは、azimuth、elevation、radius、およびgainの値が差分値であるか否かを示す情報である。例えば、is_rawがis_raw=0という関係を満たす場合、これらの値は差分値であり、is_rawがis_raw=1という関係を満たす場合、これらの値は差分値ではない（真の値（直接値）である）。

　差分値は音声オブジェクトごとに導出される。また、差分値の導出にあたり、起点となる値は、is_rawがis_raw=1という関係を満たす直前のobject_metadatum()ブロックの最後のメタデータの値である。ここで、図１０を用いてより具体的に説明する。図１０の、m[i](i=1,2,…,9)は、各メタデータ（azimuth、elevation、radius、およびgain）を総称しており、m[1]からm[4]の値は直接値（換言すると、is_rawがis_raw=1という関係を満たす）であり、m[5]からm[9]の値は差分値（換言すると、is_rawがis_raw=0という関係を満たす）であるとする。

　このとき、m[5]からm[9]の差分値の導出の起点となる値は、is_rawがis_raw=1という関係を満たす直前のobject_metadatum()ブロックの最後のメタデータであるm[4]の値である。したがって、m[5]はm[4]からの差分値であり、同様に、m[6]はm[5]からの差分値であり、m[9]はm[8]からの差分値である。

　クライアント装置２００は、object_metadatum()ブロックを処理する度に最後に導出したメタデータの値を記憶しておくことで、上記のように、差分値で示される各メタデータの値を導出することができる。

　続いて、audio_frames()ブロックにおいて、図６の行番号１７に記載のaudio_frame()ブロックの構成例を、図１１を参照して説明する。

　行番号２に記載のlengthは、以降に続く音声オブジェクトのデータ長を示す。また、行番号４に記載のdata_bytesは音声オブジェクトのデータを格納するものである。例えば、MPEG4-AAC方式によって符号化されたオーディオフレーム（１０２４個のオーディオサンプル）がdata_bytesに格納され得る。リニアPCM方式のように特定のオーディオフレームが規定されていない場合には、ある再生時間を単位として、その再生時間に必要となるデータがdata_bytesに格納される。

　（２．２．オブジェクトベースオーディオを用いたMPEG-DASHの配信の例）
　続いて、図１２を参照して、上記で説明してきたオブジェクトベースオーディオのビットストリームを用いてMPEG-DASHの配信が行われる場合の例について説明する。

　例えば、ある対象物に対して左アングル、正面アングル、および右アングルの３種類の映像音声が提供されるコンテンツについて考える。映像中に複数の音源が存在する場合、各アングルによってユーザから各音源までの距離などが異なるため、アングルに応じてユーザに提供される音声も異なることが好ましい。

　映像レプリゼンテーションには、例えばH.265 (ISO/IEC 23008-2 HEVC)で符号化された３つのビットストリームが用意される。対する音声レプリゼンテーションには、１つのオブジェクトベースオーディオのビットストリームが用意される。また、オブジェクトベースオーディオのビットストリームは、３つのメタデータ（すなわち、num_metadataがnum_metadata=3という関係を満たす）、および４つの音声オブジェクト（すなわち、num_objectsがnum_objects=4という関係を満たす）を含んでいるとする。また、図１２の例では、各メタデータが適用されるオーディオフレームは８つに時分割されている（すなわち、num_pointsがnum_points=7という関係を満たす）。

　このとき、クライアント装置２００は、共通の音声オブジェクトに対して異なるメタデータを適用することで異なる音場を生成することができるため、映像アングルの切り替えに追随した音場を表現することができる。より具体的に説明すると、クライアント装置２００はメタデータの切り替えを任意のタイミングで行うことができるため、例えばユーザの操作入力によって映像アングルが切り替えられた場合、クライアント装置２００は、映像アングルが切り替えられたタイミングに、メタデータを切り替えることができる。これによって、クライアント装置２００は、映像アングルの切り替えに追随した音場を表現することができる

　（２．３．セグメント化方式）
　続いて、オブジェクトベースオーディオのビットストリームのセグメント化方式について説明する。以降では、MP4（ISO/IEC 14496 Part 12 ISO Base Media
File Format）コンテナを使用してセグメント化を実現する場合を一例として説明するが、セグメント化方式はこれに限定されない。

　図１３には、Initialization SegmentとMedia Segmentが同一のMP4コンテナに格納される場合のMP4コンテナの構成例が示されている。

　図１４には、Initialization SegmentとMedia Segmentが互いに異なるMP4コンテナに格納される場合の各MP4コンテナの構成例が示されている。

　図１５には、Movie box（moov）の構成が示されている。図１３および図１４のいずれの場合においても、Movie box（moov）配下のSample
Description box（stsd）にオブジェクトベースオーディオのビットストリームのheader()ブロックが格納されるとする。より具体的には、図１６に示すように、header()ブロック全体のデータ長を示すlengthフィールドがheader()ブロックに追加されることによって生成されたobject_based_audio_SampleEntryがSample
Description box（stsd）に格納される（なお、１つのSample Description box（stsd）には、１つのobject_based_audio_SampleEntryが格納されることを想定している）。

　図１７には、Movie Fragment box（moof）の構成、およびMedia Data box(mdat)が示されている。Media SegmentにおけるMedia Data box(mdat)にはオブジェクトベースオーディオのビットストリームのheader()ブロック以外の部分が格納され、Movie Fragment box（moof）にはMedia Data box(mdat)へのランダムアクセスのための情報（以降、「ランダムアクセス情報」と呼称する）が格納される。

　図１８には、Media Data box(mdat)の構成が示されている。Media Data
box(mdat)にはobject_metadata()ブロックおよびaudio_frame()ブロックに対して全体のデータ長を示すsizeフィールドが追加されて生成されたobject_based_audio_sampleが格納される。

　図１７に示したMovie Fragment box（moof）におけるTrack Fragment Run box（trun）には、ランダムアクセス情報として、Media Data box(mdat)に格納されている各object_based_audio_sampleのデータ開始位置およびデータ長が格納されている。また、音声オブジェクトが出力される時刻をCTS（Composition Time Stamp）と呼称するところ、Track Fragment Run box（trun）には、ランダムアクセス情報として、CTSも格納される。

　上記のランダムアクセス情報がMovie Fragment box（moof）に格納されることによって、クライアント装置２００は、再生処理時に、これらのランダムアクセス情報を参照し、効率的にオブジェクトベースオーディオデータにアクセスすることができる。例えば、図１９に示すように、クライアント装置２００は、Movie Fragment box（moof）におけるTrack Fragment Run box（trun）に格納されたランダムアクセス情報を確認した上で、Track Fragment Run box（trun）に対応するobject_based_audio_sampleの再生処理を行う。なお、例えば、48000HzのMPEG4-AAC方式で符号化された音声データでは１つのaudio_frame()の再生時間は約21ミリ秒になる。

　（２．４．音声レプリゼンテーションの伝送パターン）
　続いて、音声レプリゼンテーションの伝送パターンについて説明する。本開示に係るサーバ装置１００は、様々なパターンで音声レプリゼンテーションを伝送することができるところ、以下ではケース１～ケース３の伝送パターンについて説明する。

　（ケース１）
　まず、ケース１として、１つの音声レプリゼンテーション中に切り替え可能な、映像レプリゼンテーションに対応する全てのメタデータが記録されて伝送される場合について説明する。

　図２０、および図２１には、音声レプリゼンテーションについてのobject_based_audio_SampleEntry、およびobject_based_audio_sampleの構成概要が示されている。

　また、クライアント装置２００は、再生処理に先立って制御情報であるMPDファイルを取得し、当該MPDファイルに基づいてオブジェクトベースオーディオのビットストリームの再生処理を行う。図２２には、１つの音声レプリゼンテーション中に切り替え可能な、映像レプリゼンテーションに対応する全てのメタデータが記録されて伝送される場合におけるMPDファイルの具体例が示されている。図２２の例では、行番号２～行番号５に音声レプリゼンテーションが定義されている（Representation id=“a1”、num_objects=4、num_metadata=3（metadata_index=0,1,2））。図２３および図２４には、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　（ケース２）
　続いて、ケース２として、１つの音声レプリゼンテーション中に音声オブジェクトと、再生開始時に必要となるデフォルトのメタデータが伝送され、それ以外のメタデータは他の音声レプリゼンテーションにて伝送される場合について説明する（なお、ケース１とケース２によって、音声ストリームデータ（第２のストリームデータ）の再生処理に用いられる少なくとも１つのメタデータと、音声オブジェクト（オブジェクトデータ）と、が同一セグメントに格納され得ると言える点に留意されたい）。

　図２５、および図２６には、音声オブジェクトとデフォルトのメタデータが記録された音声レプリゼンテーションについてのobject_based_audio_SampleEntry、およびobject_based_audio_sampleの構成概要が示されている。

　図２７および図２８には、メタデータだけが記録された音声レプリゼンテーションについてのobject_based_audio_SampleEntry、およびobject_based_audio_sampleの構成概要がそれぞれ示されている。なお、複数のobject_metadatum()ブロックが１つのMP4コンテナに格納されてもよいし、１つのobject_metadatum()ブロックが１つのMP4コンテナに格納されてもよい。

　図２９には、この場合に用いられるMPDファイルの具体例が示されている。図２９の例では、行番号２～行番号５に、音声オブジェクトとデフォルトのメタデータが記録された音声レプリゼンテーションが定義されている（Representation id=“a2”、num_objects=4、num_metadata=1（metadata_index=0））。また、行番号８～行番号１２に、メタデータだけが記録された音声レプリゼンテーションが定義されている（Representation id=“ameta”、num_objects=0、num_metadata=2（metadata_index=1,2））。

　ここで、ケース２と、後段で説明するケース３については、音声オブジェクトと少なくとも一部のメタデータとが互いに異なる音声レプリゼンテーションによって伝送されるため、音声オブジェクトとメタデータとを対応付ける仕組みが必要である。そこで、サーバ装置１００は、MPDファイルにおけるassociationId属性、およびassociationType属性を用いて音声オブジェクトとメタデータとを対応付ける。より具体的には、サーバ装置１００は、図２９の行番号９に記載のassociationType属性に“a3aM”を記述することによって、当該音声レプリゼンテーションが音声オブジェクトとメタデータとの対応付けに関するものであることを示す。さらに、サーバ装置１００は、行番号９のassociationId属性に“a2”を記述することによって、当該音声レプリゼンテーションが、Representation id属性“a2”を有する音声レプリゼンテーションにおける音声オブジェクトと対応付けられていることを示す。これによって、クライアント装置２００は、ケース２およびケース３においても、音声オブジェクトとメタデータとの対応関係を適切に認識することができる。なお、上記はあくまで一例であり、サーバ装置１００は、associationId属性、またはassociationType属性以外の属性を用いて音声オブジェクトとメタデータとを対応付けてもよい。

　図３０および図３１には、音声オブジェクトとデフォルトのメタデータが記録された音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図３２および図３３には、メタデータだけが記録された音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図２９～図３３では、２種類の音声レプリゼンテーションが伝送される場合について説明したところ、伝送される音声レプリゼンテーションの種類の数は特に限定されない。例えば、伝送される音声レプリゼンテーションは３種類であってもよい。

　図３４には、３種類の音声レプリゼンテーションが伝送される場合に用いられるMPDファイルの具体例が示されている。図３４の例では、行番号２～行番号５に、音声オブジェクトとデフォルトのメタデータが記録された音声レプリゼンテーションが定義されている（Representation id=“a2”、num_objects=4、num_metadata=1（metadata_index=0））。また、行番号８～行番号１２に、メタデータだけが記録された１種類目の音声レプリゼンテーションが定義されている（Representation id=“ameta1”、num_objects=0、num_metadata=1（metadata_index=1））。さらに、行番号１３～行番号１７に、メタデータだけが記録された２種類目の音声レプリゼンテーションが定義されている（Representation id=“ameta2”、num_objects=0、num_metadata=1（metadata_index=2））。

　図３５および図３６には、音声オブジェクトとデフォルトのメタデータが記録された音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図３７および図３８には、メタデータだけが記録された１種類目の音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図３９および図４０には、メタデータだけが記録された２種類目の音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　（ケース３）
　続いて、ケース３として、音声オブジェクトだけが記録された音声レプリゼンテーションと、メタデータだけが記録された音声レプリゼンテーションが別々に伝送される場合について説明する（なお、ケース３によって、音声ストリームデータ（第２のストリームデータ）の再生処理に用いられるメタデータと、音声オブジェクト（オブジェクトデータ）と、が互いに異なるセグメントに格納され得ると言える点に留意されたい）。

　図４１、および図４２には、音声オブジェクトだけが記録された音声レプリゼンテーションについてのobject_based_audio_SampleEntry、およびobject_based_audio_sampleの構成概要が示されている。

　図４３、および図４４には、メタデータだけが記録された音声レプリゼンテーションについてのobject_based_audio_SampleEntry、およびobject_based_audio_sampleの構成概要が示されている。

　図４５には、この場合に用いられるMPDファイルの具体例が示されている。図４５の例では、行番号２～行番号４に、音声オブジェクトだけが記録された音声レプリゼンテーションが定義されている（Representation id=“a3”、num_objects=4、num_metadata=0）。また、行番号７～行番号１１に、メタデータだけが記録された１種類目の音声レプリゼンテーションが定義されている（Representation id=“ameta0”、num_objects=0、num_metadata=1（metadata_index=0））。また、行番号１２～行番号１６に、メタデータだけが記録された２種類目の音声レプリゼンテーションが定義されている（Representation id=“ameta1”、num_objects=0、num_metadata=1（metadata_index=1））。さらに、行番号１７～行番号２１に、メタデータだけが記録された３種類目の音声レプリゼンテーションが定義されている（Representation id=“ameta2”、num_objects=0、num_metadata=1（metadata_index=2））。

　図４６および図４７には、音声オブジェクトだけが記録された音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図４８および図４９には、メタデータだけが記録された１種類目の音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図５０および図５１には、メタデータだけが記録された２種類目の音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　図５２および図５３には、メタデータだけが記録された３種類目の音声レプリゼンテーションについての、object_based_audio_SampleEntry、およびobject_based_audio_sampleの構成が示されている。

　以上で、ケース１～ケース３についてそれぞれ説明してきた。伝送効率の観点から評価すると、音声オブジェクトだけが記録される音声レプリゼンテーションと、メタデータだけが記録される音声レプリゼンテーションとが別々に伝送されるケース３が最も好ましく、１つの音声レプリゼンテーション中に全てのメタデータが記録されるケース１が最も好ましくない。一方で、クライアント装置２００がメタデータの取得に失敗する可能性という観点から評価すると、逆に、ケース１が最も好ましく、ケース３が最も好ましくない。また、ケース２については、同一のMedia Segment内に全ての音声オブジェクト、およびデフォルトのメタデータが記録されているため、クライアント装置２００は、伝送効率を高く維持しつつレンダリングに失敗することがない（クライアント装置２００は、他のメタデータの取得に失敗した場合であっても、デフォルトのメタデータを用いてレンダリングを行うことが可能）という特長がある。

　（２．５．メタデータの切り替えタイミングのシグナリング方式）
　続いて、メタデータの切り替えタイミングのシグナリング方式について説明する。上記のとおり、音声レプリゼンテーションごとに映像セグメントが切り替わる可能性があるタイミングのことをConnectionPoint と呼称する。なお、ConnectionPoint は、個々の映像セグメントの最初のフレームが表示される時刻であるところ、「映像セグメントの最初のフレーム」とは、プレゼンテーションオーダーでの映像セグメントの最初のフレームである点に留意されたい。

　ここで、以降では、図５４に示すように、音声セグメント長が映像セグメント長よりも短く設定された場合を一例として説明する。この場合、１つの音声セグメント中でのメタデータの切り替え回数は、最大で１回となる。なお、音声セグメント長が映像セグメント長よりも長く設定された場合であっても本開示の適用は可能である（１つの音声セグメント中でのメタデータの切り替え回数が複数回になるだけである）。

　本書では、映像ストリームデータ（第１のストリームデータ）の切り替わりのタイミングのことをConnectionPointと呼称するところ、サーバ装置１００は、ConnectionPointに関するタイミング情報を、音声ストリームデータ（第２のストリームデータ）の再生に用いられるメタデータに含める。より具体的には、サーバ装置１００は、タイミング情報として、connectionPointTimescale、connectionPointOffset、およびconnectionPointCTSを、音声ストリームデータの再生に用いられるMPDファイルに含める。connectionPointTimescaleとは、タイムスケール値（例えば、単位時間を示す値など）である。connectionPointOffsetとは、elst boxに設定されたmedia offsetの値、またはMPDファイルに記述されたpresentationTimeOffsetの値である。connectionPointCTSは、切り替わりタイミングのCTS（映像セグメントの最初のフレームが表示される時刻）を示す値である。

　そして、MPDファイルを受信したクライアント装置２００は、connectionPointTimescale、connectionPointOffset、およびconnectionPointCTSを以下の式１へ入力することによってConnectionPointを導出する。これによって、クライアント装置２００は、映像ストリームデータの切り替わりタイミング（ConnectionPoint）を高精度（例えば、ミリ秒単位）で導出することができる。

　ここで、サーバ装置１００は、様々な方法でタイミング情報をMPDファイルに記述することができる。例えば、Representation要素がSegmentList形式で記述される場合、サーバ装置１００は、図５５に示すようなMPDファイルを生成することができる。より具体的には、サーバ装置１００は、行番号７にconnectionPointTimescaleを記述し、行番号８にconnectionPointOffsetを記述し、行番号９～行番号１２に各音声オブジェクトそれぞれのsegment URLの属性としてconnectionPointCTSを記述することができる。

　また、Representation要素がSegmentTemplate形式で記述される場合、サーバ装置１００は、図５６に示すようなMPDファイルを生成することができる。より具体的には、サーバ装置１００は、行番号６～行番号１０にSegmentTimelineを設け、その中にconnectionPointTimescale、connectionPointOffset、およびconnectionPointCTSを記述することができる。

　また、Representation要素がSegmentBase形式で記述される場合、サーバ装置１００は、図５７に示すようなMPDファイルを生成することができる。より具体的には、サーバ装置１００は、行番号５に、Segment
Index box（sidx）のデータ位置に関する情報としてindexRangeを記述する。MP4コンテナの先頭を起点としてindexRangeによって示されるデータ位置にSegment Index boxが記録されており、サーバ装置１００は、Segment
Index box中にconnectionPointTimescale、connectionPointOffset、およびconnectionPointCTSを記述する。

　図５８は、Segment Index boxの具体例である。サーバ装置１００は、行番号４にconnectionPointTimescaleを記述し、行番号５にconnectionPointOffsetを記述し、行番号９にconnectionPointCTSを記述することができる。該当の音声セグメントにConnectionPointが存在しない場合、サーバ装置１００は、connectionPointCTSとして所定のデータ列（例えば、“0xFFFFFFFFFFFFFFFF”など）を設定することでその旨を示すことができる。

　なお、サーバ装置１００は、図５９に示すように、音声セグメントの先頭に該当するobject_metadatum()ブロック、およびConnectionPointが示すCTSを含む時刻に該当するobject_metadatum()ブロックでは、metadata_indexが切り替わる可能性があるため、メタデータを直接値とする（is_raw=1）。

　　＜３．本開示の実施形態＞
　上記では、本開示の詳細について説明した。続いて、本開示の一実施形態について説明する。

　（３．１．システム構成例）
　まず、図６０を参照して、本開示の一実施形態に係る情報処理システムの構成例について説明する。

　図６０に示すように、本実施形態に係る情報処理システムは、サーバ装置１００と、クライアント装置２００と、を備える。そして、サーバ装置１００とクライアント装置２００は、インターネット３００によって互いに接続されている。

　サーバ装置１００は、MPEG-DASHに基づいて各種コンテンツをクライアント装置２００に配信する情報処理装置（送信装置）である。より具体的には、サーバ装置１００は、クライアント装置２００からの要求に応じて、MPDファイル、映像ストリームデータ（第１のストリームデータ）および音声ストリームデータ（第２のストリームデータ）などをクライアント装置２００へ送信する。

　クライアント装置２００は、MPEG-DASHに基づいて各種コンテンツを再生する情報処理装置（受信装置）である。より具体的には、クライアント装置２００は、サーバ装置１００からMPDファイルを取得し、当該MPDファイルに基づいてサーバ装置１００から映像ストリームデータおよび音声ストリームデータなどを取得し、復号処理を行うことで映像コンテンツおよび音声コンテンツを再生する。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図６０を参照して説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、サーバ装置１００の機能の全部または一部は、クライアント装置２００またはその他の外部装置に備えられてもよい。例えば、サーバ装置１００の機能の全部または一部を提供するソフトウェア（例えば、所定のＡＰＩ（Application Programming Interface）が使用されたＷＥＢアプリケーション等）がクライアント装置２００上で実行されてもよい。また、逆に、クライアント装置２００の機能の全部または一部は、サーバ装置１００またはその他の外部装置に備えられてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　ここで、本実施形態のポイントは、特に第２のストリームデータである音声ストリームデータに関する処理にあるため、以降では、音声ストリームデータに関する処理について重点的に説明していく。

　（３．２．サーバ装置１００の機能構成例）
　上記では、本実施形態に係る情報処理システムのシステム構成例について説明した。続いて、図６１を参照して、サーバ装置１００の機能構成例について説明する。

　図６１に示すように、サーバ装置１００は、生成部１１０と、制御部１２０と、通信部１３０と、記憶部１４０と、を備える。

　生成部１１０は、音声ストリームデータ（第２のストリームデータ）を生成する機能構成である。図６１に示すように、生成部１１０は、データ取得部１１１と、符号化処理部１１２と、セグメントファイル生成部１１３と、MPDファイル生成部１１４と、を備え、これらの機能構成を制御することによって音声ストリームデータの生成を実現する。

　データ取得部１１１は、第２のストリームデータの生成に用いられる音声オブジェクト（素材音）を取得する機能構成である。データ取得部１１１は、サーバ装置１００内から音声オブジェクトを取得してもよいし、サーバ装置１００に接続している外部装置から音声オブジェクトを取得してもよい。データ取得部１１１は、取得した音声オブジェクトを符号化処理部１１２に供給する。

　符号化処理部１１２は、データ取得部１１１から供給された音声オブジェクト、および外部から入力された各音声オブジェクトの位置情報などを含むメタデータを符号化することで音声ストリームデータを生成する機能構成である。符号化処理部１１２は、音声ストリームデータをセグメントファイル生成部１１３に供給する。

　セグメントファイル生成部１１３は、音声コンテンツとして配信可能な単位のデータである音声セグメント（Initialization SegmentやMedia Segmentなど）を生成する機能構成である。より具体的には、セグメントファイル生成部１１３は、符号化処理部１１２から供給される音声ストリームデータをセグメント単位でファイル化することで音声セグメントを生成する。また、セグメントファイル生成部１１３は、映像ストリームデータ（第１のストリームデータ）の切り替わりのタイミングに関するタイミング情報などを、音声ストリームデータ（第２のストリームデータ）のSegment Index box（sidx）に含める。

　MPDファイル生成部１１４は、MPDファイルを生成する機能構成である。本実施形態において、MPDファイル生成部１１４は、映像ストリームデータ（第１のストリームデータ）の切り替わりのタイミングに関するタイミング情報などを、音声ストリームデータ（第２のストリームデータ）の再生に用いられるMPDファイル（メタデータの一種である）に含める。

　制御部１２０は、サーバ装置１００が行う処理全般を統括的に制御する機能構成である。例えば、制御部１２０は、通信部１３０を介して受信されるクライアント装置２００からの要求情報等に基づいて各構成の起動や停止を制御することができる。なお、制御部１２０の制御内容は特に限定されない。例えば、制御部１２０は、汎用コンピュータ、ＰＣ、タブレットＰＣなどにおいて一般的に行われる処理を制御してもよい。

　通信部１３０は、クライアント装置２００との各種通信を行う機能構成である（送信部としても機能する）。例えば、通信部１３０は、クライアント装置２００からの要求情報を受信したり、当該要求情報への応答としてMPDファイル、音声ストリームデータ、または映像ストリームデータなどをクライアント装置２００へ送信したりする。なお、通信部１３０の通信内容はこれらに限定されない。

　記憶部１４０は、各種情報を記憶する機能構成である。例えば、記憶部１４０は、MPDファイル、音声オブジェクト、メタデータ、音声ストリームデータ、または映像ストリームデータなどを記憶したり、サーバ装置１００の各機能構成によって使用されるプログラムやパラメータなどを記憶したりする。なお、記憶部１４０が記憶する情報はこれらに限定されない。

　以上、サーバ装置１００の機能構成例について説明した。なお、図６１を用いて説明した上記の機能構成はあくまで一例であり、サーバ装置１００の機能構成は係る例に限定されない。例えば、サーバ装置１００は、図６１に示す機能構成の全てを必ずしも備えなくてもよい。また、サーバ装置１００の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　（３．３．クライアント装置２００の機能構成例）
　上記では、サーバ装置１００の機能構成例について説明した。続いて、図６２を参照して、クライアント装置２００の機能構成例について説明する。

　図６２に示すように、クライアント装置２００は、再生処理部２１０と、制御部２２０と、通信部２３０と、記憶部２４０と、を備える。

　再生処理部２１０は、音声ストリームデータ（第２のストリームデータ）に対応するメタデータに基づいて音声ストリームデータの再生処理を行う機能構成である。図６２に示すように、再生処理部２１０は、音声セグメント解析部２１１と、音声オブジェクト復号部２１２と、メタデータ復号部２１３と、メタデータ選択部２１４と、出力ゲイン計算部２１５と、音声データ生成部２１６と、を備え、これらの機能構成を制御することによって音声ストリームデータの再生処理を実現する。

　音声セグメント解析部２１１は、音声セグメントを解析する機能構成である。音声セグメントには、上記のとおり、Initialization SegmentおよびMedia Segmentが存在するのでそれぞれについて説明する。

　Initialization
Segmentの解析処理について説明すると、音声セグメント解析部２１１は、Movie box（moov）配下のSample Description box（stsd）からheader()ブロックを解析することで、num_objects、num_metadata、およびrepresentation_indexのリストを読み出す。また、音声セグメント解析部２１１は、representation_indexとmetadata_indexのペアリングを行う。さらに、MPDファイルにてRepresentation要素がSegmentBase形式で記述されている場合、音声セグメント解析部２１１は、Segment Index box（sidx）からConnectionPointに関する値（タイミング情報）を読み出す。

　Media
Segmentの解析処理について説明すると、音声セグメント解析部２１１は、audio_frames()ブロックの中の１つのaudio_frame()ブロックを読み出して音声オブジェクト復号部２１２へ供給する処理を、音声オブジェクトの数（すなわち、num_objectsの値）だけ繰り返す。

　また、音声セグメント解析部２１１は、object_metadata()ブロックの中のobject_metadatum()ブロックを読み出してメタデータ復号部２１３に供給する処理を、メタデータの数（すなわち、num_metadataの値）だけ繰り返す。このとき、音声セグメント解析部２１１は、例えば、クライアント装置２００のユーザによって選択されている映像レプリゼンテーションのインデックスに基づいてheader()ブロックにてrepresentation_indexを検索することで、これに対応するmetadata_indexを求め、そのmetadata_indexを有するobject_metadata()ブロックを選択的に読み出す。

　音声オブジェクト復号部２１２は、音声オブジェクトを復号する機能構成である。例えば、音声オブジェクト復号部２１２は、MPEG4-AAC方式で符号化された音声信号を復号してＰＣＭデータを出力し、音声データ生成部２１６へ供給する処理を、音声オブジェクトの数（すなわち、num_objectsの値）だけ繰り返す。なお、音声オブジェクト復号部２１２の復号方式は、サーバ装置１００の符号化方式に対応し、特に限定されるものではない。

　メタデータ復号部２１３は、メタデータを復号する機能構成である。より具体的には、
メタデータ復号部２１３は、object_metadatum()ブロックを解析して、位置情報（例えば、azimuth、elevation、radius、およびgain）を読み出す。

　このとき、is_rawがis_raw=1という関係を満たす場合、これらの値は差分値ではない（真の値（直接値）である）ため、メタデータ復号部２１３は、読み出したazimuth、elevation、radius、およびgainをそのまま出力ゲイン計算部２１５へ供給する。一方、is_rawがis_raw=0という関係を満たす場合、これらの値は差分値であるため、メタデータ復号部２１３は、読み出したazimuth、elevation、radius、およびgainを、前回読み出した値に合算することで得られた値を出力ゲイン計算部２１５へ供給する。

　メタデータ選択部２１４は、映像ストリームデータ（第１のストリームデータ）が切り替わるタイミングに、音声ストリームデータ（第２のストリームデータ）の再生に用いられるメタデータを、切り替わった後の映像ストリームデータに対応するメタデータに切り替える機能構成である。より具体的には、メタデータ選択部２１４は、再生が行われる時刻（再生時刻）がConnectionPoint以前であるか否かを確認し、再生時刻がConnectionPoint以前である場合には、再生に用いられるメタデータとして、切り替え前のメタデータを選択する。一方、再生時刻がConnectionPointよりも後である場合には、再生に用いられるメタデータとして、切り替え後のメタデータを選択する。メタデータ選択部２１４は、選択したメタデータ（位置情報など）を出力ゲイン計算部２１５に供給する。

　出力ゲイン計算部２１５は、メタデータ復号部２１３から供給されたメタデータ（位置情報など）に基づいて音声オブジェクトごとにスピーカ出力ゲインを算出する機能構成である。出力ゲイン計算部２１５は、算出したスピーカ出力ゲインに関する情報を音声データ生成部２１６へ供給する。

　音声データ生成部２１６は、各スピーカから出力される音声データを生成する機能構成である。より具体的には、音声データ生成部２１６は、音声オブジェクト復号部２１２から供給された音声オブジェクトごとのＰＣＭデータに対して、出力ゲイン計算部２１５によって算出されたスピーカ出力ゲインを適用することで、各スピーカから出力される音声データを生成する。

　制御部２２０は、クライアント装置２００が行う処理全般を統括的に制御する機能構成である。例えば、制御部２２０は、通信部２３０を介してサーバ装置１００からMPDファイルを取得する。そして、制御部２２０は、MPDファイルを解析し、解析結果を再生処理部２１０に供給する。特に、MPDファイルのRepresentation要素がSegmentTemplate形式、またはSegmentList形式で記述される場合、制御部２２０は、ConnectionPointに関する値（タイミング情報）を取得し、再生処理部２１０に供給する。また、制御部２２０は、通信部２３０を介してサーバ装置１００から音声ストリームデータ（第２のストリームデータ）、および映像ストリームデータ（第１のストリームデータ）を取得し、representation_indexなどを再生処理部２１０に供給する。

　さらに、制御部２２０は、ユーザによってマウスやキーボードなどの入力部（図示なし）を用いて行われる入力に基づいて音声ストリームデータおよび映像ストリームデータの切り替え指示を取得する。特に、映像ストリームデータが切り替えられるときに、制御部２２０はrepresentation_indexを取得し、再生処理部２１０に供給する。

　なお、制御部２２０の制御内容は特に限定されない。例えば、制御部２２０は、汎用コンピュータ、ＰＣ、タブレットＰＣなどにおいて一般的に行われる処理を制御してもよい。

　通信部２３０は、サーバ装置１００との各種通信を行う機能構成である（受信部としても機能する）。例えば、通信部２３０は、ユーザ入力などに基づいてサーバ装置１００へ要求情報を送信したり、当該要求情報への応答としてMPDファイル、音声ストリームデータ、および映像ストリームデータなどをサーバ装置１００から受信したりする。なお、通信部２３０の通信内容はこれらに限定されない。

　記憶部２４０は、各種情報を記憶する機能構成である。例えば、記憶部２４０は、サーバ装置１００から提供されたMPDファイル、音声ストリームデータ、および映像ストリームデータなどを記憶したり、クライアント装置２００の各機能構成によって使用されるプログラムやパラメータなどを記憶したりする。なお、記憶部２４０が記憶する情報はこれらに限定されない。

　以上、クライアント装置２００の機能構成例について説明した。なお、図６２を用いて説明した上記の機能構成はあくまで一例であり、クライアント装置２００の機能構成は係る例に限定されない。例えば、クライアント装置２００は、図６２に示す機能構成の全てを必ずしも備えなくてもよい。また、クライアント装置２００の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　（３．４．クライアント装置２００の処理フロー例）
　上記では、クライアント装置２００の機能構成例について説明した。続いて、クライアント装置２００の処理フロー例について説明する。

　（切り替わりが発生しない場合の処理フロー例）
　まず、図６３を参照して、映像ストリームデータ、および音声ストリームデータの切り替わりが発生しない場合のクライアント装置２００による音声ストリームデータの再生処理フローの具体例について説明する。

　ステップＳ１０００では、クライアント装置２００の制御部２２０が通信部２３０を介してサーバ装置１００からMPDファイルを取得する。ステップＳ１００４では、制御部２２０が、取得したMPDファイルを解析する。

　そして、クライアント装置２００の各機能構成は、ステップＳ１００８～ステップＳ１０１２の処理を音声セグメントごとに繰り返し行うことで一連の処理が終了する。より具体的には、クライアント装置２００の各機能構成は、ステップＳ１００８では、音声セグメントを取得する処理を行い、ステップＳ１０１２では、取得した音声セグメントを再生する処理を行うことで一連の処理が終了する。

　続いて、図６３のステップＳ１００８にて行われる、音声セグメントを取得する処理フローの具体例を、図６４を参照して説明する。

　ステップＳ１１００では、クライアント装置２００の制御部２２０が映像レプリゼンテーションに対応するrepresentation_indexを取得する。ステップＳ１１０４では、制御部２２０が、取得したrepresentation_indexに基づいてobject_metadatum()ブロックに含まれるmetadata_indexを検索する。ステップＳ１１０８では、制御部２２０が、検索によって取得したmetadata_indexを再生処理部２１０に供給する。

　ステップＳ１１１２では、制御部２２０が、audio_frames()ブロックを伝送する音声セグメントを取得し再生処理部２１０に供給する。そして、metadata_indexがMPDファイルのSupplementalPropertyにリストされている場合（ステップＳ１１１６／Ｙｅｓ）、ステップＳ１１２０にて、metadata_indexが示すobject_metadata()ブロックを伝送する音声セグメントを制御部２２０が取得し、再生処理部２１０に供給することで、音声セグメントの取得処理が終了する。metadata_indexがMPDファイルのSupplementalPropertyにリストされていない場合（ステップＳ１１１６／Ｎｏ）には、ステップＳ１１２０に記載の音声セグメントの取得処理が行われることなく一連の処理が終了する。

　続いて、図６３のステップＳ１０１２にて行われる、音声セグメントを再生する処理フローの具体例を、図６５を参照して説明する。

　ステップＳ１２００では、クライアント装置２００の音声セグメント解析部２１１が制御部２２０によって取得された音声セグメントの種別を確認する。制御部２２０によって取得された音声セグメントの種別がInitialization Segmentである場合、ステップＳ１２０４にて、音声セグメント解析部２１１は、Movie box（moov）配下のSample
Description box（stsd）からheader()ブロックを読出し、解析することで、num_objects、num_metadata、およびrepresentation_indexのリストを読み出す。また、音声セグメント解析部２１１は、representation_indexとmetadata_indexのペアリングを行う。

　制御部２２０によって取得された音声セグメントの種別がMedia Segmentである場合、ステップＳ１２０８にて、音声セグメント解析部２１１は、Media SegmentにおけるMedia Data box(mdat)からデータの分離を行う。ステップＳ１２１２では、音声セグメント解析部２１１が分離されたデータの種別を確認する。分離されたデータの種別がaudio_frames()ブロックである場合、ステップＳ１２１６にて、音声セグメント解析部２１１がaudio_frames()ブロックの中のaudio_frame()ブロックを読み出して音声オブジェクト復号部２１２に供給することで、音声オブジェクト復号部２１２が音声オブジェクトを復号する。

　ステップＳ１２１２にて、分離されたデータの種別がobject_metadata()ブロックである場合、ステップＳ１２２０にて、音声セグメント解析部２１１がobject_metadata()ブロックの中のobject_metadatum()ブロックを読み出してメタデータ復号部２１３に供給することで、メタデータ復号部２１３がメタデータを復号する。ステップＳ１２２４では、出力ゲイン計算部２１５がメタデータ復号部２１３から供給された位置情報に基づいて音声オブジェクトごとにスピーカ出力ゲインを算出する。

　そして、ステップＳ１２２８では、音声データ生成部２１６が、音声オブジェクト復号部２１２から供給された音声オブジェクトごとのＰＣＭデータに対して、出力ゲイン計算部２１５によって算出されたスピーカ出力ゲインを適用することで、各スピーカから出力される音声データを生成することで、音声セグメントの再生処理が終了する。

　（切り替わりが発生する場合の処理フロー例）
　続いて、映像ストリームデータ、および音声ストリームデータの切り替わりが発生する場合の処理フローについて説明する。映像ストリームデータ、および音声ストリームデータの切り替わりが発生する場合であっても、クライアント装置２００による音声ストリームデータの再生処理フローは、図６３に示した具体例と同様であり得るため説明を省略する。

　図６３のステップＳ１００８にて行われる、音声セグメントを取得する処理フローの具体例を、図６６を参照して説明する。

　ステップＳ１３００では、クライアント装置２００の制御部２２０が映像レプリゼンテーションに対応するrepresentation_indexを取得する。ステップＳ１３０４では、制御部２２０が、取得したrepresentation_indexに基づいてmetadata_indexおよびConnectionPointを導出する。ステップＳ１３０８では、制御部２２０が、導出したmetadata_indexおよびConnectionPointを再生処理部２１０に供給する。

　ステップＳ１３１２では、制御部２２０が、audio_frames()ブロックを伝送する音声セグメントを取得し再生処理部２１０に供給する。そして、切り替え前のmetadata_indexがMPDファイルのSupplementalPropertyにリストされている場合（ステップＳ１３１６／Ｙｅｓ）、ステップＳ１３２０にて、切り替え前のmetadata_indexが示すobject_metadata()ブロックを伝送する音声セグメントを制御部２２０が取得し、再生処理部２１０に供給する。切り替え前のmetadata_indexがMPDファイルのSupplementalPropertyにリストされていない場合（ステップＳ１３１６／Ｎｏ）には、ステップＳ１３２０の処理は省略される。

　そして、切り替え後のmetadata_indexがMPDファイルのSupplementalPropertyにリストされている場合（ステップＳ１３２４／Ｙｅｓ）、ステップＳ１３２８にて、切り替え後のmetadata_indexが示すobject_metadata()ブロックを伝送する音声セグメントを制御部２２０が取得し、再生処理部２１０に供給することで、音声セグメントの取得処理が終了する。切り替え後のmetadata_indexがMPDファイルのSupplementalPropertyにリストされていない場合（ステップＳ１３２４／Ｎｏ）には、ステップＳ１３２８の処理は省略されて一連の処理が終了する。

　続いて、図６３のステップＳ１０１２にて行われる、音声セグメントを再生する処理フローの具体例を、図６８を参照して説明する。

　ステップＳ１４００では、クライアント装置２００の音声セグメント解析部２１１が制御部２２０によって取得された音声セグメントの種別を確認する。制御部２２０によって取得された音声セグメントの種別がInitialization Segmentである場合、ステップＳ１４０４にて、Movie
box（moov）配下のSample Description
box（stsd）からheader()ブロックを読出し、解析することで、num_objects、num_metadata、およびrepresentation_indexのリストを読み出す。また、音声セグメント解析部２１１は、representation_indexとmetadata_indexのペアリングを行う。

　制御部２２０によって取得された音声セグメントの種別がMedia Segmentである場合、ステップＳ１４０８にて、音声セグメント解析部２１１は、Media SegmentにおけるMedia Data box(mdat)からデータの分離を行う。ステップＳ１４１２では、音声セグメント解析部２１１が分離されたデータの種別を確認する。分離されたデータの種別がaudio_frames()ブロックである場合、ステップＳ１４１６にて、音声セグメント解析部２１１がaudio_frames()ブロックの中のaudio_frame()ブロックを読み出して音声オブジェクト復号部２１２に供給することで、音声オブジェクト復号部２１２が音声オブジェクトを復号する。

　ステップＳ１４１２にて、分離されたデータの種別がobject_metadata()ブロックである場合、ステップＳ１４２０にて、音声セグメント解析部２１１が切り替え前のobject_metadatum()ブロックを読み出してメタデータ復号部２１３に供給することで、メタデータ復号部２１３がメタデータを復号する。

　切り替え後のメタデータが同一の音声セグメント内に存在しない場合（ステップＳ１４２４／Ｎｏ）、ステップＳ１４２８にて、音声セグメント解析部２１１は、制御部２２０によって取得された、切り替え後のメタデータを含む音声セグメントの読み出しを行う。

　ステップＳ１４３２にて、音声セグメント解析部２１１は、Media SegmentにおけるMedia Data box(mdat)からデータの分離を行う。ステップＳ１４３６では、音声セグメント解析部２１１がobject_metadata()ブロックの中のobject_metadatum()ブロックを読み出してメタデータ復号部２１３に供給することで、メタデータ復号部２１３が切り替え後のメタデータを復号する。

　ステップＳ１４４０では、メタデータ選択部２１４が所定の方法でメタデータの選択を行う（当該方法の具体例については後述する）。ステップＳ１４４４では、出力ゲイン計算部２１５がメタデータ復号部２１３から供給された位置情報に基づいて音声オブジェクトごとにスピーカ出力ゲインを算出する。

　そして、ステップＳ１４４８では、音声データ生成部２１６が、音声オブジェクト復号部２１２から供給された音声オブジェクトごとのＰＣＭデータに対して、出力ゲイン計算部２１５によって算出されたスピーカ出力ゲインを適用することで、各スピーカから出力される音声データを生成することで、音声セグメントの再生処理が終了する。

　続いて、図６９のステップＳ１４４０にて行われる、メタデータの選択処理フローの具体例を、図７０を参照して説明する。

　ステップＳ１５００では、クライアント装置２００のメタデータ選択部２１４が、再生が行われる時刻（再生時刻）がConnectionPoint以前であるか否かを確認する。再生時刻がConnectionPoint以前である場合（ステップＳ１５００／Ｙｅｓ）、ステップＳ１５０４にて、メタデータ選択部２１４は、再生処理に用いられるメタデータとして、切り替え前のメタデータを選択することでメタデータの選択処理フローが終了する。再生時刻がConnectionPointよりも後である場合（ステップＳ１５００／Ｎｏ）、ステップＳ１５０８にて、メタデータ選択部２１４は、再生処理に用いられるメタデータとして、切り替え後のメタデータを選択することでメタデータの選択処理フローが終了する。

　なお、上記で説明した図６３～図７０のフローチャートにおける各ステップは、必ずしも記載された順序に沿って時系列に処理される必要はない。すなわち、フローチャートにおける各ステップは、記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　（３．５．各装置のハードウェア構成例）
　上記では、クライアント装置２００の処理フロー例について説明した。続いて、図７１を参照して、サーバ装置１００、またはクライアント装置２００のハードウェア構成例について説明する。

　図７１は、サーバ装置１００、またはクライアント装置２００を具現する情報処理装置９００のハードウェア構成例を示すブロック図である。情報処理装置９００は、ＣＰＵ（Central Processing Unit）９０１と、ＲＯＭ（Read Only
Memory）９０２と、ＲＡＭ（Random Access Memory）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置（ＨＤＤ）９１０と、ドライブ９１１と、通信装置９１２とを備える。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス９０４により相互に接続されている。当該ＣＰＵ９０１、ＲＯＭ９０２およびＲＡＭ９０３の協働により、サーバ装置１００の生成部１１０もしく制御部１２０、またはクライアント装置２００の再生処理部２１０もしくは制御部２２０の各機能が実現される。

　ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

　入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などから構成されている。情報処理装置９００を使用するユーザは、該入力装置９０８を操作することにより、各装置に対して各種のデータを入力したり処理動作を指示したりすることができる。

　出力装置９０９は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（Organic Light Emitting Diode）装置およびランプなどの表示装置を含む。さらに、出力装置９０９は、スピーカおよびヘッドホンなどの音声出力装置を含む。出力装置９０９は、例えば、再生されたコンテンツを出力する。具体的には、表示装置は再生された映像データ等の各種情報をテキストまたはイメージで表示する。一方、音声出力装置は、再生された音声データ等を音声に変換して出力する。

　ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（Hard Disk Drive）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。当該ストレージ装置９１０によって、サーバ装置１００の記憶部１４０、またはクライアント装置２００の記憶部２４０の機能が実現される。

　ドライブ９１１は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９１１は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体９１３に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９１１は、リムーバブル記憶媒体９１３に情報を書き込むこともできる。

　通信装置９１２は、例えば、通信網９１４に接続するための通信デバイス等で構成された通信インタフェースである。通信装置９１２によって、サーバ装置１００の通信部１３０、またはクライアント装置２００の通信部２３０の機能が実現される。

　　＜４．まとめ＞
　以上で説明してきたように、本開示に係るサーバ装置１００（送信装置）は、ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを生成し、第２のストリームデータをクライアント装置２００（受信装置）へ送信する。さらに、サーバ装置１００は、第１のストリームデータの切り替わりのタイミング情報を第２のストリームデータの再生に用いられるMPDファイルなどに含める。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信する受信部を備える、
　受信装置。
（２）
　前記第２のストリームデータに対応するメタデータに基づいて前記第２のストリームデータの再生処理を行う再生処理部をさらに備える、
　前記（１）に記載の受信装置。
（３）
　前記再生処理部は、前記第１のストリームデータの切り替わりに応じて、前記第２のストリームデータの再生に用いられる前記メタデータを切り替える、
　前記（２）に記載の受信装置。
（４）
　前記再生処理部は、前記第１のストリームデータが切り替わるタイミングに、前記第２のストリームデータの再生に用いられる前記メタデータを切り替える、
　前記（３）に記載の受信装置。
（５）
　前記再生処理部は、前記第２のストリームデータの再生に用いられる前記メタデータを、切り替わった後の前記第１のストリームデータに対応する前記メタデータに切り替える、
　前記（３）または（４）に記載の受信装置。
（６）
　前記第１のストリームデータは映像ストリームデータであり、前記第２のストリームデータは音声ストリームデータである、
　前記（１）から（５）のいずれか１項に記載の受信装置。
（７）
　前記第２のストリームデータは、MPEG-DASH（Dynamic
Adaptive Streaming over Http）によって規定されたデータである、
　前記（１）から（６）のいずれか１項に記載の受信装置。
（８）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信することを有する、
　コンピュータにより実行される受信方法。
（９）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信すること、
　をコンピュータに実現させるためのプログラム。
（１０）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信する送信部を備える、
　送信装置。
（１１）
　前記第２のストリームデータを生成する生成部をさらに備え、
　前記生成部は、前記第１のストリームデータの切り替わりのタイミングに関する情報を、前記第２のストリームデータの再生に用いられるメタデータに含める、
　前記（１０）に記載の送信装置。
（１２）
　前記生成部は、前記第２のストリームデータの再生処理に用いられる少なくとも１つのメタデータと、オブジェクトデータと、を同一セグメントに格納する、
　前記（１１）に記載の送信装置。
（１３）
　前記生成部は、前記第２のストリームデータの再生処理に用いられるメタデータと、オブジェクトデータと、を互いに異なるセグメントに格納する、
　前記（１１）に記載の送信装置。
（１４）
　前記第１のストリームデータは映像ストリームデータであり、前記第２のストリームデータは音声ストリームデータである、
　前記（１０）から（１３）のいずれか１項に記載の送信装置。
（１５）
　前記第２のストリームデータは、MPEG-DASH（Dynamic
Adaptive Streaming over Http）によって規定されたデータである、
　前記（１０）から（１４）のいずれか１項に記載の送信装置。
（１６）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信することを有する、
　コンピュータにより実行される送信方法。
（１７）
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信すること
　をコンピュータに実現させるためのプログラム。

　１００　　サーバ装置
　１１０　　生成部
　１１１　　データ取得部
　１１２　　符号化処理部
　１１３　　セグメントファイル生成部
　１１４　　MPDファイル生成部
　１２０　　制御部
　１３０　　通信部
　１４０　　記憶部
　２００　　クライアント装置
　２１０　　再生処理部
　２１１　　音声セグメント解析部
　２１２　　音声オブジェクト復号部
　２１３　　メタデータ復号部
　２１４　　メタデータ選択部
　２１５　　出力ゲイン計算部
　２１６　　音声データ生成部
　２２０　　制御部
　２３０　　通信部
　２４０　　記憶部
　３００　　インターネット

Claims

　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信する受信部を備える、
　受信装置。
　前記第２のストリームデータに対応するメタデータに基づいて前記第２のストリームデータの再生処理を行う再生処理部をさらに備える、
　請求項１に記載の受信装置。
　前記再生処理部は、前記第１のストリームデータの切り替わりに応じて、前記第２のストリームデータの再生に用いられる前記メタデータを切り替える、
　請求項２に記載の受信装置。
　前記再生処理部は、前記第１のストリームデータが切り替わるタイミングに、前記第２のストリームデータの再生に用いられる前記メタデータを切り替える、
　請求項３に記載の受信装置。
　前記再生処理部は、前記第２のストリームデータの再生に用いられる前記メタデータを、切り替わった後の前記第１のストリームデータに対応する前記メタデータに切り替える、
　請求項３に記載の受信装置。
　前記第１のストリームデータは映像ストリームデータであり、前記第２のストリームデータは音声ストリームデータである、
　請求項１に記載の受信装置。
　前記第２のストリームデータは、MPEG-DASH（Dynamic
Adaptive Streaming over Http）によって規定されたデータである、
　請求項１に記載の受信装置。
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信することを有する、
　コンピュータにより実行される受信方法。
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを受信すること、
　をコンピュータに実現させるためのプログラム。
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信する送信部を備える、
　送信装置。
　前記第２のストリームデータを生成する生成部をさらに備え、
　前記生成部は、前記第１のストリームデータの切り替わりのタイミングに関する情報を、前記第２のストリームデータの再生に用いられるメタデータに含める、
　請求項１０に記載の送信装置。
　前記生成部は、前記第２のストリームデータの再生処理に用いられる少なくとも１つのメタデータと、オブジェクトデータと、を同一セグメントに格納する、
　請求項１１に記載の送信装置。
　前記生成部は、前記第２のストリームデータの再生処理に用いられるメタデータと、オブジェクトデータと、を互いに異なるセグメントに格納する、
　請求項１１に記載の送信装置。
　前記第１のストリームデータは映像ストリームデータであり、前記第２のストリームデータは音声ストリームデータである、
　請求項１０に記載の送信装置。
　前記第２のストリームデータは、MPEG-DASH（Dynamic
Adaptive Streaming over Http）によって規定されたデータである、
　請求項１０に記載の送信装置。
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信することを有する、
　コンピュータにより実行される送信方法。
　ビットストリームデータである第１のストリームデータに対応し、オブジェクトデータである第２のストリームデータを外部装置に対して送信すること
　をコンピュータに実現させるためのプログラム。