WO2017138470A1

WO2017138470A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2017138470A1
Application number: PCT/JP2017/004146
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2016-02-09
Filing date: 2017-02-06
Publication date: 2017-08-17
Also published as: US20190037250A1; KR20240017138A; JPWO2017138470A1; CN108605152A; EP3416393B1; MX2018009410A; US11792452B2; KR20180109889A; US10764615B2; JP6947039B2; CA3009777A1; CA3009777C; EP3416393A4; US20220094993A1; US20230412859A1; US11223859B2; CN108605152B; EP3416393A1; US20200351529A1

Abstract

受信側においてデコード能力に応じた処理を行う上での便宜を図る。　ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る。第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含むコンテナを送信する。コンテナに、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、詳しくは、ハイフレームレートで超高解像度の画像データを送信する送信装置等に関する。

　固定受信機とモバイル受信機とが同一の伝送帯域を共有する受信環境において、解像度が高いとされる固定受信機向けの画像サービス（映像サービス）と中程度の解像度とされるモバイル受信機向けの画像サービスとがストリームを共有することで、固定受信機向けサービスとモバイル受信機向けサービスとを別に行う、いわゆるサイマルキャストサービスに比べて、全体のビットレートを低減できると考えられている。例えば、特許文献１には、メディア符号化をスケーラブルに行って、低解像度の画像サービスのための基本レイヤのストリームと、高解像度の画像サービスのための拡張レイヤのストリームを生成し、これらを含む放送信号を送信することが記載されている。

特表２００８－５４３１４２号公報

　本技術の目的は、受信側においてデコード能力に応じた処理を行う上での便宜を図ることにある。

　本技術の概念は、
　ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る画像処理部と、
　上記第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含むコンテナを送信する送信部と、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する情報挿入部を備える
　送信装置にある。

　本技術において、画像処理部により、ハイフレームレートで超高解像度の画像データが処理されて、第１から第４の画像データが得られる。第１の画像データは、基本フレームレートで高解像度の画像を得るための画像データである。第２の画像データは、第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための画像データである。第３の画像データは、第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための画像データである。第４の画像データは、第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための画像データである。

　送信部により、第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含むコンテナが送信される。このコンテナには、情報送信部により、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入される。

　例えば、送信部が送信するコンテナには、第１の画像データの符号化画像データと第２の画像データの符号化画像データを持つ第１のビデオストリームと、第３の画像データの符号化画像データと第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、情報挿入部は、第１および第２のビデオストリームをそれぞれ１トラックで管理する状態で情報をコンテナに挿入する、ようにされてもよい。コンテナがＭＰ４（ＩＳＯＢＭＦＦ）である場合、トラックに対応して存在する“ｍｏｏｆ”ブロックに、ビデオストリームが持つ２つの画像データの符号化画像データに関する情報が配置される。

　この場合、ビデオストリーム（ファイル）の数が２つでシンプルとなる。基本フレームレートの受信機、例えば６０Ｐの受信機のコンテナ解析部（デマルチプレクサ）は、１２０Ｐのストリームを読み、不要なピクチャを読み飛ばす必要がある。一方、ハイフレームレートの受信機、例えば１２０Ｐの受信機は、何も余分なことをせずに、１２０Ｐのストリームのピクチャをそのままデコードすればよい。

　この場合、例えば、情報挿入部は、情報をコンテナに挿入する際に、第１のビデオストリームに関しては第１の画像データの符号化画像データに関する情報と第２の画像データの符号化画像データに関する情報をグループ分けして挿入し、第２のビデオストリームに関しては第３の画像データの符号化画像データに関する情報と第４の画像データの符号化画像データに関する情報をグループ分けして挿入する、ようにされてもよい。このようにグループ分けされていることで、受信側では、各情報がどの符号化画像データに関するものであるかを容易に判別可能となる。

　また、この場合、例えば、第１のビデオストリームにおいて第１の画像データのピクチャと第２の画像データのピクチャが交互に、つまり時間順に交互に符号化されており、第２のビデオストリームにおいて第３の画像データのピクチャと第４の画像データのピクチャが交互に、つまり時間順に交互に符号化されている、ようにされてもよい。このように符号化されていることで、受信側では、各ピクチャのデコード処理をスムーズに行うことが可能となる。また、このように交互に符号化することで、第１の画像データのみ、あるいは第１の画像データと第３の画像データのみ、をデコードする受信機においてデコード能力の範囲内で復号処理ができることを保証することになる。

　また、例えば、送信部が送信するコンテナには、第１の画像データの符号化画像データと第２の画像データの符号化画像データを持つ第１のビデオストリームと、第３の画像データの符号化画像データと第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、情報挿入部は、第１および第２のビデオストリームをそれぞれ２トラックで管理する状態で情報をコンテナに挿入する、ようにされてもよい。コンテナがＭＰ４（ＩＳＯＢＭＦＦ）である場合、トラック毎に“ｍｏｏｆ”ブロックが存在し、ビデオストリームが持つ２つの画像データの符号化画像データのうち一方に関する情報が配置される。

　この場合、例えば、第１のビデオストリームにおいて第１の画像データのピクチャと第２の画像データのピクチャが交互に、つまり時間順に交互に符号化されており、第２のビデオストリームにおいて第３の画像データのピクチャと第４の画像データのピクチャが交互に、つまり時間順に交互に符号化されている、ようにされてもよい。このように符号化されていることで、受信側では、各ピクチャのデコード処理をスムーズに行うことが可能となる。また、このように交互に符号化することで、第１の画像データのみ、あるいは第１の画像データと第３の画像データのみ、をデコードする受信機においてデコード能力の範囲内で復号処理ができることを保証することになる。

　また、例えば、送信部が送信するコンテナには、第１の画像データの符号化画像データを持つ第１のビデオストリームと、第２の画像データの符号化画像データを持つ第２のビデオストリームと、第３の画像データの符号化画像データを持つ第３のビデオストリームと、第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれており、情報挿入部は、第１から第４のビデオストリームをそれぞれ１トラックで管理する状態で上記情報を挿入する、ようにされてもよい。コンテナがＭＰ４（ＩＳＯＢＭＦＦ）である場合、トラックに対応して存在する“ｍｏｏｆ”ブロックに、ビデオストリームが持つ１つの画像データの符号化画像データに関する情報が配置される。

　この場合、ビデオストリーム（ファイル）の数が４つとなる。基本フレームレートの受信機、例えば６０Ｐの受信機は、６０Ｐのストリームを読み、何も余計な意識をせずにデコーダへ渡す、いわゆる下方互換性を保証するものである。一方、ハイフレームレートの受信機、例えば１２０Ｐの受信機は、２つのストリームを結合しデコード順に一つのストリームにしてデコーダに転送する必要がある。

　このように本技術においては、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報をコンテナに挿入するものである。そのため、受信側では、デコード能力に応じて、この情報に基づき、所定数のストリームに含まれる第１から第４の画像データから所定の符号化画像データを取り出してデコード処理を行うことが容易に可能となる。

　なお、本技術において、例えば、ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、情報挿入部は、ハイダイナミックレンジ光電変換特性またはこの特性に対応した電光変換特性を示す変換特性情報を、第１の画像データの符号化画像データを持つビデオストリームにさらに挿入する、ようにされてもよい。例えば、ハイダイナミックレンジ光電変換特性はハイブリッドログガンマの特性である、ようにされてもよい。また、例えば、ハイダイナミックレンジ光電変換特性はＰＱカーブの特性である、ようにされてもよい。このように変換特性情報が挿入されていることで、受信側では、この変換特性情報に基づいて適切な電光変換を行うことが容易に可能となる。

　この場合、例えば、ハイダイナミックレンジ光電変換特性がＰＱカーブの特性であるとき、情報挿入部は、第１の画像データの符号化画像データを持つビデオストリームに、ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報をさらに挿入する、ようにされてもよい。このように変換情報が挿入されていることで、受信側では、通常ダイナミックレンジ表示を行う場合に、表示用画像データを良好に得ることが可能となる。

　また、本技術の他の概念は、
　所定数のビデオストリームを含むコンテナを受信する受信部を備え、
　上記所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを持ち、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている情報に基づき、上記第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理部をさらに備える
　受信装置にある。

　本技術において、受信部により、所定数のビデオストリームを含むコンテナが受信される。所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた第１から第４の画像データの符号化画像データを持っている。第１の画像データは、基本フレームレートで高解像度の画像を得るための画像データである。第２の画像データは、第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための画像データである。第３の画像データは、第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための画像データである。第４の画像データは、第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための画像データである。

　コンテナに、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されている。処理部により、デコード能力に応じて、コンテナに挿入されている情報に基づき、第１から第４の画像データの符号化画像データから所定の符号化画像データが選択的に取り出されてデコード処理が行われて画像データが得られる。

　このように本技術においては、コンテナに所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、デコード能力に応じて、コンテナに挿入されている情報に基づき、第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行うものである。そのため、デコード能力に応じたデコード処理を行うことが容易に可能となる。

　なお、本技術において、例えば、ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、第１の画像データの符号化画像データを持つビデオストリームに、ハイダイナミックレンジ光電変換特性またはこの特性に対応した電光変換特性を示す変換特性情報が挿入されており、処理部は、デコード処理で得られた画像データに変換特性情報に基づいて電光変換を行って表示用画像データを得る、ようにされてもよい。このように変換特性情報に基づいて電光変換が行われることで、適切な電光変換を行うことが容易に可能となる。

　また、本技術において、例えば、ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、ハイダイナミックレンジ光電変換特性はＰＱカーブの特性であり、第１の画像データの符号化画像データを持つビデオストリームに、ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報が挿入されており、処理部は、通常ダイナミックレンジ表示をするとき、デコード処理で得られた画像データに、変換情報に基づいてダイナミックレンジ変換を行って通常ダイナミックレンジ伝送画像データを得、この通常ダイナミックレンジ伝送画像データに通常ダイナミックレンジ電光変換特性による電光変換を行って表示用画像データを得る、ようにされてもよい。これにより、通常ダイナミックレンジ表示を行う場合に、表示用画像データを良好に得ることが可能となる。

　また、本技術の他の概念は、
　ハイフレームレートの画像データを処理して、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを得る画像処理部と、
　上記第１および第２の画像データの符号化画像データを持つ１つ以上のビデオストリームを含むコンテナを送信する送信部と、
　上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値を挿入し、上記第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値を挿入する情報挿入部を備える
　送信装置にある。

　本技術において、画像処理部により、ハイフレームレートの画像データが処理されて、基本フレームレート画像を得るための第１の画像データとこの第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データが得られる。送信部により、第１および第２の画像データの符号化画像データを持つ１つ以上のビデオストリームを含むコンテナが送信される。

　そして、情報挿入部により、コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値が挿入され、第２の画像データの符号化画像データに対応して、第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値が挿入される。

　このように本技術においては、コンテナにビデオストリームのレベル指定値が挿入されることで、受信側では、このビデオストリームのレベル指定値の情報に基づいて、第１および第２の画像データの符号化画像データからデコード能力に応じたものを選択的にデコーダに送って処理させることが可能となる。

　また、本技術の他の概念は、
　１つ以上のビデオストリームを含むコンテナを受信する受信部を備え、
　上記１つ以上のビデオストリームは、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを持ち、
　上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値が挿入されており、上記第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている上記ビデオストリームのレベル指定値に基づき、上記第１および第２の画像データの符号化画像データから一つ以上の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理部をさらに備える
　受信装置にある。

　本技術において、受信部により、１つ以上のビデオストリームを含むコンテナが受信される。ここで、１つ以上のビデオストリームは、基本フレームレート画像を得るための第１の画像データとこの第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを持っている。

　また、コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値が挿入されており、第２の画像データの符号化画像データに対応して、第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値が挿入されている。

　処理部により、デコード能力に応じて、コンテナに挿入されているビデオストリームのレベル指定値に基づき、第１および第２の画像データの符号化画像データから一つ以上の符号化画像データが選択的に取り出されてデコード処理が行われて画像データが得られる。

　このように本技術においては、コンテナに挿入されているビデオストリームのレベル指定値の情報に基づいて、第１および第２の画像データの符号化画像データからデコード能力に応じたものを選択的にデコーダに送って処理させるものであり、デコーダにおける処理を効率よく行うことが可能となる。

　本技術によれば、受信側においてデコード能力に応じた処理を行う上での便宜を図ることができる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システムの構成例を示すブロック図である。ＭＰＤファイルに階層的に配置されている各構造体の関係の一例を示す図である。実施の形態としての送受信システムの構成例を示すブロック図である。通信ネットワーク伝送路またはＲＦ伝送路を通じて送信されるＭＰ４のストリームの一例を示す図である。サービス送信システムおよびサービス受信機におけるエンコード/デコードの処理の概要を示す図である。２つまたは４つのビデオストリーム（ビデオファイル）が持つ第１から第４の画像データを説明するための図である。ケース１（Case 1）の伝送におけるＭＰ４ストリーム（ファイル）の構成例を示す図である。ＳＰＳ（ＶＰＳ）の要素の一例を示す図である。ケース１（Case 1）の伝送における “ｍｏｏｆ（moof 0）”ボックス内の制御情報の一例を概略的に示す図である。ケース１（Case 1）の伝送における“ｍｏｏｆ（moof 1）”ボックス内の制御情報の一例を概略的に示す図である。ケース２（Case 2）の伝送におけるＭＰ４ストリーム（ファイル）の構成例を示す図である。ケース２（Case 2）の伝送におけ “ｍｏｏｆ（moof 0）”および“ｍｏｏｆ（moof 1）”のボックス内の制御情報の一例を概略的に示す図である。ケース２（Case 2）の伝送における “ｍｏｏｆ（moof 2）”および“ｍｏｏｆ（moof 3）”のボックス内の制御情報の一例を概略的に示す図である。ケース３（Case 3）の伝送におけるＭＰ４ストリーム（ファイル）の構成例を示す図である。２ストリーム構成の伝送の場合（ケース１、ケース２の場合）におけるＭＰＤファイルの記述例を示す図である。 “SupplementaryDescriptor”の「Value」セマンティスクスを示す図である。４ストリーム構成の伝送の場合（ケース１、ケース２の場合）におけるＭＰＤファイルの記述例を示す図である。サービス送信システムの構成例を示すブロック図である。ＨＤＲ光電変換特性を説明するための図である。ダイナミックレンジ変換の変換情報を説明するための図である。符号化方式がＨＥＶＣである場合におけるＧＯＰの先頭のアクセスユニットを示す図である。トランスファー・ファンクション・ＳＥＩメッセージの構造例と、その構造例における主要な情報の内容を示す図である。ダイナミックレンジ・コンバージョンＳＥＩメッセージの構造例を示す図である。ダイナミックレンジ・コンバージョンＳＥＩメッセージの構造例における主要な情報の内容を示す図である。サービス受信機の構成例を示すブロック部である。ダイナミックレンジ変換の詳細を説明するための図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システムの概要］
　最初に、本技術を適用し得るＭＰＥＧ－ＤＡＳＨベースのストリーム配信システムの概要を説明する。

　図１（ａ）は、ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システム３０Ａの構成例を示している。この構成例では、メディアストリームとＭＰＤファイルが、通信ネットワーク伝送路（通信伝送路）を通じて送信される。このストリーム配信システム３０Ａは、ＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２に、Ｎ個のサービス受信機３３-1，３３-2，・・・，３３-Nが、ＣＤＮ（Content Delivery Network）３４を介して、接続された構成となっている。

　ＤＡＳＨストリームファイルサーバ３１は、所定のコンテンツのメディアデータ（ビデオデータ、オーディオデータ、字幕データなど）に基づいて、ＤＡＳＨ仕様のストリームセグメント（以下、適宜、「ＤＡＳＨセグメント」という）を生成し、サービス受信機からのＨＴＴＰ要求に応じてセグメントを送出する。このＤＡＳＨストリームファイルサーバ３１は、ストリーミング専用のサーバであってもよいし、また、ウェブ（Web）サーバで兼用されることもある。

　また、ＤＡＳＨストリームファイルサーバ３１は、サービス受信機３３（３３-1，３３-2，・・・，３３-N）からＣＤＮ３４を介して送られてくる所定ストリームのセグメントの要求に対応して、そのストリームのセグメントを、ＣＤＮ３４を介して、要求元の受信機に送信する。この場合、サービス受信機３３は、ＭＰＤ（Media Presentation Description）ファイルに記載されているレートの値を参照して、クライアントの置かれているネットワーク環境の状態に応じて、最適なレートのストリームを選択して要求を行う。

　ＤＡＳＨＭＰＤサーバ３２は、ＤＡＳＨストリームファイルサーバ３１において生成されるＤＡＳＨセグメントを取得するためのＭＰＤファイルを生成するサーバである。コンテンツマネジメントサーバ（図示せず）からのコンテンツメタデータと、ＤＡＳＨストリームファイルサーバ３１において生成されたセグメントのアドレス（url）をもとに、ＭＰＤファイルを生成する。なお、ＤＡＳＨストリームファイルサーバ３１とＤＡＳＨＭＰＤサーバ３２は、物理的に同じものであってもよい。

　ＭＰＤのフォーマットでは、ビデオやオーディオなどのそれぞれのストリーム毎にリプレゼンテーション（Representation）という要素を利用して、それぞれの属性が記述される。例えば、ＭＰＤファイルには、レートの異なる複数のビデオデータストリーム毎に、リプレゼンテーションを分けてそれぞれのレートが記述される。サービス受信機３３では、そのレートの値を参考にして、上述したように、サービス受信機３３の置かれているネットワーク環境の状態に応じて、最適なストリームを選択できる。

　図１（ｂ）は、ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システム３０Ｂの構成例を示している。この構成例では、メディアストリームとＭＰＤファイルが、ＲＦ伝送路（放送伝送路）を通じて送信される。このストリーム配信システム３０Ｂは、ＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２が接続された放送送出システム３６と、Ｍ個のサービス受信機３５-1，３５-2，・・・，３５-Mとで構成されている。

　このストリーム配信システム３０Ｂの場合、放送送出システム３６は、ＤＡＳＨストリームファイルサーバ３１で生成されるＤＡＳＨ仕様のストリームセグメント（ＤＡＳＨセグメント）およびＤＡＳＨＭＰＤサーバ３２で生成されるＭＰＤファイルを、放送波に載せて送信する。

　図２は、ＭＰＤファイルに階層的に配置されている各構造体の関係の一例を示している。図２（ａ）に示すように、ＭＰＤファイル全体としてのメディア・プレゼンテーション（Media Presentation）には、時間間隔で区切られた複数のピリオド（Period）が存在する。例えば、最初のピリオドはスタートが０秒から、次のピリオドはスタートが１００秒から、などとなっている。

　図２（ｂ）に示すように、ピリオドには、複数のアダプテーションセット(AdaptationSet)が存在する。各アダプテーションセットはビデオやオーディオ等のメディアタイプの違いや、同じメディアタイプでも言語の違い、視点の違い等に依存する。図２（ｃ）に示すように、アダプテーションセットには複数のリプレゼンテーション(Representation)が存在する。各リプレゼンテーションはストリーム属性、例えばレートの違い等に依存する。

　図２（ｄ）に示すように、リプレゼンテーションには、セグメントインフォ（SegmentInfo）が含まれている。このセグメントインフォには、図２（e）に示すように、イニシャライゼーション・セグメント（Initialization Segment）と、ピリオドをさらに細かく区切ったセグメント（Segment）毎の情報が記述される複数のメディア・セグメント（Media Segment）が存在する。メディアセグメントには、ビデオやオーディオなどのセグメントデータを実際に取得するためのアドレス(url)の情報等が存在する。

　なお、アダプテーションセットに含まれる複数のリプレゼンテーションの間では、ストリームのスイッチングを自由に行うことができる。これにより、受信側のネットワーク環境の状態に応じて、最適なレートのストリームを選択でき、途切れのないビデオ配信が可能となる。

　［送受信システムの構成例］
　図３は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、サービス送信システム１００とサービス受信機２００により構成されている。この送受信システム１０において、サービス送信システム１００は、上述の図１（ａ）に示すストリーム配信システム３０ＡのＤＡＳＨストリームファイルサーバ３１およびＤＡＳＨＭＰＤサーバ３２に対応する。また、この送受信システム１０において、サービス送信システム１００は、上述の図１（ｂ）に示すストリーム配信システム３０ＢのＤＡＳＨストリームファイルサーバ３１、ＤＡＳＨＭＰＤサーバ３２および放送送出システム３６に対応する。

　また、この送受信システム１０において、サービス受信機２００は、上述の図１（ａ）に示すストリーム配信システム３０Ａのサービス受信機３３（３３-1，３３-2，・・・，３３-N）に対応する。また、この送受信システム１０において、サービス受信機２００は、上述の図１（ｂ）に示すストリーム配信システム３０Ｂのサービス受信機３５（３５-1，３５-2，・・・，３５-M）に対応する。

　サービス送信システム１００は、ＤＡＳＨ/ＭＰ４、つまりメタファイルとしてのＭＰＤファイルと、ビデオやオーディオなどのメディアストリーム（メディアセグメント）が含まれる、コンテナとしてのＭＰ４を、通信ネットワーク伝送路（図１（ａ）参照）またはＲＦ伝送路（図１（ｂ）参照）を通じて、送信する。

　図４は、通信ネットワーク伝送路またはＲＦ伝送路を通じて送信されるＭＰ４のストリームの一例を示している。一般の放送など、送信の途中から画音が出るように、サービスストリーム全体がフラグメント化されて送信される。この場合、図示のように、イニシャライゼーション・セグメント（ＩＳ：initialization segment）から始まり、それに、“ｓｔｙｐ”、“ｓｉｄｘ（Segment index box）”、“ｓｓｉｘ（Sub-segment index box）”、“ｍｏｏｆ（Movie frgment box）”、“ｍｄａｔ（Media data box）”のボックスが続く。

　イニシャライゼーション・セグメント（ＩＳ）は、ＩＳＯＢＭＦＦ（ISO Base Media File Format）に基づくボックス（Box）構造を持つ。先頭に、ファイルタイプ（File type）を示す“ｆｔｙｐ”ボックスが配置され、それに続いて制御用の“ｍｏｏｖ”ボックスが配置されている。詳細説明は省略するが、“ｍｏｏｖ”ボックス内には、図示の“ｍｖｅｘ”ボックスを含む種々のボックスが含まれている。そして、この“ｍｖｅｘ”ボックス内に“ｌｅｖａ”ボックスが配置されている。この“ｌｅｖａ”ボックスにおいて“temporal_layerID”で定義されるレベル（Level）のアサインメント（assignment）が定義され、レベル（Level）ごとにピクチャのグループ分けが行われたり、あるいはレベル（Level）に対して個別のトラックが割り当てられたりする。

　“ｓｔｙｐ”ボックスにはセグメントタイプ情報が入る。 “ｓｉｄｘ”ボックスには、各トラック（track）のレンジ情報が入り、“ｍｏｏｆ”/“ｍｄａｔ”の位置が示され、“ｍｄａｔ”内の各サンプル（ピクチャ）の位置も示される。“ｓｓｉｘ”ボックスには、トラック（track）の区分け情報が入り、Ｉ/Ｐ/Ｂタイプの区分けがされる。

　“ｍｏｏｆ”ボックスには制御情報が入る。“ｍｄａｔ”ボックスにはビデオ、オーディオなどの信号（伝送メディア）の実体そのものが入る。“ｍｄａｔ”ボックスと“ｍｄａｔ”ボックスによりムービーフラグメント（Movie Fragment）が構成されている。１つのムービーフラグメントの“ｍｄａｔ”ボックスには、伝送メディアがフラグメント化（断片化）されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。断片の大きさとしては、例えば、ＭＰＥＧＶｉｄｅｏのＧＯＰ（Group Of Picture）などが想定される。

　この実施の形態において、メディアストリームは、ハイフレームレート（ＨＦＲ：High Frame Rate）で超高解像度（ＵＨＤ：Ultra High Definition）の画像データ（動画像データ）が処理されて得られた、所定数のビデオストリームである。ハイフレームレートで超高解像度の画像データは、この実施の形態において、例えば、１２０Ｐで４Ｋ/８Ｋの画像データである。

　所定数のビデオストリームは、第１から第４の画像データの符号化画像データを持っている。第１の画像データは、基本フレームレート（ノーマルフレームレート）で高解像度の画像を得るためのベースレイヤの画像データである。第２の画像データは、第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るためのベースレイヤの画像データである。第３の画像データは、第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るためのスケーラブルレイヤの画像データである。第４の画像データは、第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るためのスケーラブルレイヤの画像データである。

　例えば、第１から第４の画像データは、以下のようにして得られたものである。すなわち、第１の画像データは、ハイフレームレートで超高解像度の画像データにおける連続する２個のピクチャ単位からダウンサンプリングにより各１番目のピクチャが取り出されて得られた第５の画像データにダウンスケール処理を施すことで得られたものである。なお、ここで取り出される各１番目のピクチャは、２番目のピクチャと所定の比率で混合されたものであってもよい。また、第２の画像データは、ハイフレームレートで超高解像度の画像データにおける連続する２個のピクチャからダウンサンプリングにより各２番目のピクチャが取り出されて得られた第６の画像データにダウンスケール処理を施すことで得られたものである。なお、ここで取り出される各２番目のピクチャは、１番目のピクチャと所定の比率で混合されたものであってもよい。

　また、第３の画像データは、第１の画像データにアップスケール処理を施して得られた第７の画像データと上記第５の画像データとの間の差分をとることで得られたものである。また、第４の画像データは、第２の画像データにアップスケール処理を施して得られた第８の画像データと上記第６の画像データとの間の差分をとることで得られたものである。

　コンテナとしてのＭＰ４に、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入される。例えば、ビデオストリームが持つ画像データに関する情報は、ＳＰＳ（sequence Parameter Set）に含まれる「general_level_idc」、「general_profile_idc」、「sublayer_level_idc」、「sublayer_profile_idc」などの情報であり、これらの情報に対応した情報が“ｍｏｏｆ”ブロックに配置される。

　ここで、ビデオストリーム（ビデオファイル）の数と各ビデオストリームを管理するトラックの数を異にする、ケース１（Case 1）、ケース２（Case 2）、ケース３（Case 3）の３つのケースが考えられる。

　「ケース１」
　ＭＰ４に、ベースレイヤの画像データである第１、第２の画像データの符号化画像データを持つ第１のビデオストリームと、スケーラブルレイヤの画像データである第３、第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれ、第１および第２のビデオストリームはそれぞれ１トラックで管理される。

　この場合、第１のビデオストリームにおいて第１の画像データのピクチャと第２の画像データのピクチャが交互に符号化され、第２のビデオストリームにおいて第３の画像データのピクチャと第４の画像データのピクチャが交互に符号化される。すなわち、基本６０Ｐに含まれるピクチャ（サンプル）と拡張６０Ｐに含まれるピクチャ（サンプル）とが交互にエンコードされる。よって、それらのデコードタイムスタンプ、表示タイムスタンプはいずれも基本６０Ｐと拡張６０Ｐとが交互になるように値が割り当てられる。

　また、この場合、トラックに対応して存在する“ｍｏｏｆ”ブロックに、ビデオストリームが持つ２つの画像データの符号化画像データに関する情報に対応した情報が配置される。つまり、第１および第２のビデオストリームをそれぞれ１トラックで管理する状態で情報の配置が行われる。そして、この場合、第１のビデオストリームに関しては第１の画像データの符号化画像データに関する情報と第２の画像データの符号化画像データに関する情報がグループ分けされて挿入され、第２のビデオストリームに関しては第３の画像データの符号化画像データに関する情報と第４の画像データの符号化画像データに関する情報がグループ分けされて挿入される。

　「ケース２」
　ＭＰ４に、ベースレイヤの画像データである第１、第２の画像データの符号化画像データを持つ第１のビデオストリームと、スケーラブルレイヤの画像データである第３、第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれ、第１および第２のビデオストリームがそれぞれ２トラックで管理される。

　また、この場合、トラック毎に“ｍｏｏｆ”ブロックが存在し、ビデオストリームが持つ２つの画像データの符号化画像データのうち一方に関する情報が配置される。つまり、第１および第２のビデオストリームをそれぞれ２トラックで管理する状態で情報の配置が行われる。

　「ケース３」
　ＭＰ４に、ベースレイヤの画像データである第１の符号化画像データを持つ第１のビデオストリームと、ベースレイヤの画像データである第２の符号化画像データを持つ第２のビデオストリームと、スケーラブルレイヤの画像データである第３の画像データの符号化画像データを持つ第３のビデオストリームと、スケーラブルレイヤの画像データである第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれ、第１から第４のビデオストリームが各々別のトラックで管理される。

　この場合、各トラックに対応して存在する“ｍｏｏｆ”ブロックに、ビデオストリームが持つ１つの画像データの符号化画像データに関する情報に対応した情報が配置される。つまり、第１から第４のビデオストリームをそれぞれ１トラックで管理する状態で情報の配置が行われる。

　第１から第４の画像データのもととなるハイフレームレートで超高解像度の画像データは、例えば、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データである。第１の画像データの符号化画像データを持つビデオストリームに、ハイダイナミックレンジ光電変換特性またはこの特性に対応した電光変換特性を示す変換特性情報が挿入される。ハイダイナミックレンジ光電変換特性としては、ハイブリッドログガンマの特性、ＰＱカーブの特性などがある。

　ハイダイナミックレンジ光電変換特性がＰＱカーブの特性であるとき、第１の画像データの符号化画像データを持つビデオストリームに、ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報が挿入される。

　サービス受信機２００は、サービス送信システム１００から通信ネットワーク伝送路（図１（ａ）参照）またはＲＦ伝送路（図１（ｂ）参照）を通じて送られてくる上述のコンテナとしてのＭＰ４を受信する。このＭＰ４には、上述したように、第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームが含まれている。また、このＭＰ４には、上述したように、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されている。

　サービス受信機２００は、デコード能力に応じて、ＭＰ４に挿入されている情報に基づき、第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る。

　例えば、基本フレームレートで高解像度の画像データを処理可能なデコード能力がある受信機の場合、第１の画像データの符号化画像データに選択的にデコード処理を施して、基本フレームレートで高解像度の画像を表示するための画像データを得る。また、例えば、ハイフレームレートで高解像度の画像データを処理可能なデコード能力がある受信機の場合、第１および第２の画像データの符号化画像データに選択的にデコード処理を施して、ハイフレームレートで高解像度の画像を表示するための画像データを得る。

　また、例えば、基本フレームレートで超高解像度の画像データを処理可能なデコード能力がある受信機の場合、第１および第３の画像データの符号化画像データに選択的にデコード処理を施して、基本フレームレートで超高解像度の画像を表示するための画像データを得る。また、例えば、ハイフレームレートで超高解像度の画像データを処理可能なデコード能力がある受信機の場合、第１から第４の全ての画像データの符号化画像データにデコード処理を施して、ハイフレームレートで超高解像度の画像を表示するための画像データを得る。

　また、サービス受信機２００は、ハイダイナミックレンジ表示をするとき、第１の画像データを持つビデオストリームあるいはＭＰ４に挿入されている変換特性情報に基づいて、デコード処理で得られた画像データにハイダイナミックレンジ電光変換を行ってハイダイナミックレンジの表示用画像データを得る。

　また、サービス受信機２００は、通常ダイナミックレンジ表示をするとき、変換特性情報が示すハイダイナミック光電変換特性がハイブリッドログガンマのカーブの特性である場合、デコード処理で得られた画像データにそのまま通常ダイナミックレンジ電光変換特性による電光変換を行って通常ダイナミックレンジの表示用画像データを得る。

　また、サービス受信機２００は、通常ダイナミックレンジ表示をするとき、変換特性情報が示すハイダイナミック光電変換特性がＰＱカーブの特性である場合、デコード処理で得られた画像データに第１の画像データを持つビデオストリームに挿入されている変換情報に基づいてダイナミックレンジ変換を行って通常ダイナミックレンジ伝送画像データを得、この通常ダイナミックレンジ伝送画像データに通常ダイナミックレンジ電光変換特性による電光変換を行って通常ダイナミックレンジの表示用画像データを得る。

　図５は、サービス送信システム１００とサービス受信機２００におけるエンコード/デコードの処理の概要を示している。サービス送信システム１００のビデオエンコーダ１０４には、ハイフレームレート（ＨＦＲ）で超高解像度（ＵＨＤ）の画像データ「HFR/UHD video」が入力される。ビデオエンコーダ１０４では、画像データ「HFR/UHD video」が処理されて、第１から第４の画像データの符号化画像データを持つ２つビデオストリーム（ケース１、ケース２の場合）、あるいは４つのビデオストリーム（ケース３の場合）が得られ、送信される。

　ハイフレームレートで超高解像度の画像データを処理可能なデコード能力があるサービス受信機２００Ａでは、ビデオデコーダ２０４Ａにおいて、第１から第４の全ての画像データの符号化画像データにデコード処理が施されて、ハイフレームレートで超高解像度の画像を表示するための画像データ「HFR/UHD video」が得られる。

　また、基本フレームレートで超高解像度の画像データを処理可能なデコード能力があるサービス受信機２００Ｂでは、ビデオデコーダ２０４Ｂにおいて、第１および第３の画像データの符号化画像データに選択的にデコード処理が施されて、基本フレームレートで超高解像度の画像を表示するための画像データ「LFR/UHD video」が得られる。

　また、ハイフレームレートで高解像度の画像データを処理可能なデコード能力があるサービス受信機２００Ｃでは、ビデオデコーダ２０４Ｃにおいて、第１および第２の画像データの符号化画像データに選択的にデコード処理が施されて、ハイフレームレートで高解像度の画像を表示するための画像データ「HFR/HD video」が得られる。

　また、基本フレームレートで高解像度の画像データを処理可能なデコード能力があるサービス受信機２００Ｄでは、ビデオデコーダ２０４Ｄにおいて、第１の画像データの符号化画像データに選択的にデコード処理が施されて、基本フレームレートで高解像度の画像を表示するための画像データ「LFR/HD video」が得られる。

　図６は、上述した第１から第４の画像データを階層的に示している。図示の例では、ハイフレームレートが１２０Ｐである場合を示している。横軸は表示順（ＰＯＣ：picture order of composition）を示し、左側は表示時刻が前で、右側は表示時刻が後になる。矩形枠のそれぞれがピクチャを示している。

　最下段に、ベースレイヤの画像データである第１の画像データ「HD 60P」が存在し、そのグループＩＤ（group_id）は“０”とされる。この第１の画像データは基本６０Ｐを構成する画像データであり、テンポラルレイヤＩＤ（TemporalLayerId）は“０”とされる。

　また、第１の画像データの上段に、ベースレイヤの画像データである第２の画像データ「HD +60P HFR」が存在し、そのグループＩＤ（group_id）は“１”とされる。この第２の画像データは１２０Ｐの画像データとするための拡張６０Ｐを構成する画像データであり、テンポラルレイヤＩＤ（TemporalLayerId）は“１”とされる。この第２の画像データは、第１の画像データ「HD 60P」に対して時間方向のスケーラビリティである。

　上述したように、ケース１、ケース２では、第１および第２の画像データが同一のビデオストリーム（ビデオファイル）として伝送される。グループＩＤによりグループ分けしておくことで、基本６０Ｐだけデコードする場合には、このグループＩＤをどのパケットをビデオデコーダに送ればよいかという判断の目安とすることができる。基本６０Ｐおよび拡張６０の双方をデコードする場合には、基本６０Ｐと拡張６０Ｐのパケットを交互にビデオデコーダに送ればよい。

　また、第２の画像データの上段に、スケーラブルレイヤの画像データである第３の画像データ「Sc-UHD 60P」が存在し、そのグループＩＤ（group_id）は“２”とされる。この第３の画像データは基本６０Ｐを構成する画像データであり、テンポラルレイヤＩＤ（TemporalLayerId）は“０”とされる。この第３の画像データは、第１の画像データ「HD 60P」に対して空間方向のスケーラビリティである。

　また、第３の画像データの上段に、スケーラブルレイヤの画像データである第４の画像データ「Sc-UHD +60P HFR」が存在し、そのグループＩＤ（group_id）は“３”とされる。この第４の画像データは１２０Ｐの画像データとするための拡張６０Ｐを構成する画像データであり、テンポラルレイヤＩＤ（TemporalLayerId）は“１”とされる。この第４の画像データは、第３の画像データ「Sc-UHD 60P」に対して時間方向のスケーラビリティであると共に、第２の「HD +60P HFR」に対して空間方向のスケーラビリティである。

　上述したように、ケース１、ケース２では、第３および第４の画像データが同一のビデオストリーム（ビデオファイル）として伝送される。グループＩＤによりグループ分けしておくことで、基本６０Ｐだけデコードする場合には、このグループＩＤどのパケットをデコーダに送ればよいかという判断の目安とすることができる。基本６０Ｐおよび拡張６０の双方をデコードする場合には、基本６０Ｐと拡張６０Ｐのパケットを交互にビデオデコーダに送ればよい。

　第１の画像データ「HD 60P」に基づいて、基本フレームレートで高解像度（ＨＤ）の画像（６０Ｐ　ＨＤ画像）の再生が可能である。また、第１の画像データ「HD 60P」および第２の「HD +60P HFR」に基づいて、ハイフレームレートで高解像度（ＨＤ）の画像（１２０Ｐ　ＨＤ画像）の再生が可能である。

　また、第１の画像データ「HD 60P」および第３の画像データ「Sc-UHD 60P」に基づいて、基本フレームレートで超高解像度（ＵＨＤ）の画像（６０Ｐ　ＵＨＤ画像）の再生が可能である。また、第１の画像データ「HD 60P」、第２の画像データ「HD +60P HFR」、第３の画像データ「Sc-UHD 60P」および第４の画像データ「Sc-UHD +60P HFR」に基づいて、ハイフレームレートで超高解像度（ＵＨＤ）の画像（１２０Ｐ　ＵＨＤ画像）の再生が可能である。

　なお、ピクチャを示す矩形枠に付されている数字は、符号化順、従ってデコード順を示している。第１の画像データの符号化画像データのみにデコード処理を行う場合には、０→４→８→・・・の順にデコードされていく。また、第１および第２の画像データにデコード処理を行う場合には、０→２→４→６→・・・の順にデコードされていく。また、第１および第３の画像データにデコード処理を行う場合には、０→１→４→５→・・・の順にデコードされていく。また、第１から第４の画像データにデコード処理を行う場合には、０→１→２→３→４→５→・・・の順にデコードされていく。第１から第４の画像データのストリームへの配置方法によらず、放送配信の場合は画像の符号化順は、０→１→２→３→４→５→・・・の順になるようにする。このようにすることで、受信後から表示までの遅延を最小にすることができる。

　ストリーム内の符号化順に関しては、第１の画像データと第２の画像データが同一のビデオストリームに含まれる場合、第１の画像データのピクチャと第２の画像データのピクチャは交互に符号化されたものとなる。同様に、第３の画像データと第４の画像データが同一のビデオストリームに含まれる場合、第３の画像データのピクチャと第４の画像データのピクチャは交互に符号化されたものとなる。

　図７は、ケース１（Case 1）におけるＭＰ４ストリーム（ファイル）の構成例を示している。図示の例においては、図４において破線枠で囲って示している、イニシャライゼーション・セグメント（ＩＳ）と、“ｓｔｙｐ”、“ｓｉｄｘ”、“ｓｓｉｘ”のボックスの図示は省略している。図示の例は、フラグメンテッドＭＰ４（Fragmented MP4）の例である。ＭＰ４ストリームには、制御情報が入る“ｍｏｏｆ”ボックスとメディアデータ本体が入る“ｍｄａｔ”ボックスから構成されるムービーフラグメント（Movie Fragment）が所定個数配置される。“ｍｄａｔ”ボックスには、トラックデータが断片化されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。

　ベースレイヤ（Base Layer）の第１および第２の画像データの符号化画像データを持つ第１のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第１および第２の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。この場合、第１の画像データのアクセスユニット（ＡＵ：Access Unit）と第２の画像データのアクセスユニットが交互に配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。なお、「ＶＰＳ」、「ＳＰＳ」は、例えば、ＧＯＰの先頭のアクセスユニットに挿入される。

　図８は、ＳＰＳ（ＶＰＳ）の要素の一例を示している。この例は、第１から第４の画像データが、図６に示すように構成されている場合の例である。「general_level_idc」の値は“１５６”とされ、第１から第４の画像データの符号化画像データの全体のレベル（スケーラブルの符号化の画素レートの複雑差）が“ｌｅｖｅｌ５．２”であることが示される。また、「general_profile_idc」の値は“７”とされ、この第１から第４の画像データの符号化画像データの全体のプロファイル（スケーラブルの符号化のタイプ）が“Scalable Main 10 Profile”であることが示される。

　また、「sublayer_level_present_flag[j-1]」は“１”とされ、「sublayer_level_idc[j-1]」の値は“１５３”とされ、「sublayer_profile_idc[j-1]」は“７”とされる。これにより、第３および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．１”であることが示され、そのプロファイルが“Scalable Main 10 Profile”であることが示される。

　また、「sublayer_level_present_flag[j-2]」は“１”とされ、「sublayer_level_idc[j-2]」の値は“１５０”とされ、「sublayer_profile_idc[j-2]」は“２”とされる。これにより、第２および第１の画像データの符号化画像データの全体のレベルが “ｌｅｖｅｌ５”であることが示され、そのプロファイルが“Main 10 Profile”であることが示される。

　また、「sublayer_level_present_flag[j-3]」は“１”とされ、「sublayer_level_idc[j-3]」の値は“１２３”とされ、「sublayer_profile_idc[j-3]」は“２”とされる。これにより、第１の画像データの符号化画像データのレベルが“ｌｅｖｅｌ４．１”であることが示され、そのプロファイルが“Main 10 Profile”であることが示される。

　図７に戻って、ベースレイヤ（Base Layer）の第１および第２の画像データの符号化画像データを持つ第１のビデオストリームを含むＭＰ４ストリームでは、この第１のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 0）が存在する。この“ｍｏｏｆ（moof 0）”ボックス内に、“ｍｄａｔ”ブロック内の第１の画像データの符号化画像データを管理する制御情報と、“ｍｄａｔ”ブロック内の第２の画像データの符号化画像データを管理する制御情報が存在する。これらの２つの制御情報は、“ｍｄａｔ”ブロック内において、グループＩＤ（group_id）によりグループ分けされて管理されている。

　“ｍｏｏｆ（moof 0）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 0）”ボックス内に、“ｍｄａｔ”ブロック内の第１の画像データの符号化画像データに対応した“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第１の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 123」の記載があり、第１の画像データの符号化画像データのレベルが“ｌｅｖｅｌ４．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第１の画像データの符号化画像データのプロファイルが“Main 10 Profile”であることが示される。

　また、“ｍｏｏｆ（moof 0）”ボックス内に、“ｍｄａｔ”ブロック内の第２の画像データの符号化画像データに対応した“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第２の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 150」の記載があり、第２および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第２および第１の画像データの符号化画像データの全体のプロファイルが“Main 10 Profile”であることが示される。

　一方、スケーラブルレイヤ（Scalable Layer）の第３および第４の画像データの符号化画像データを持つ第２のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第３および第４の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。この場合、第３の画像データのアクセスユニット（ＡＵ：Access Unit）と第４の画像データのアクセスユニットが交互に配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。

　なお、スケーラブルレイヤからベースレイヤへの参照のため、全てのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。図示の例において、各アクセスユニットを示す矩形枠内に示す数値はデコード順を示している。このことは、以下の同様の図においても同じである。例えば、「１」のアクセスユニットのデコードをする場合、「０」のアクセスユニットを参照することが必要となるが、この場合、「１」のアクセスユニットの直前に配置されたエクストラクタに「０」のアクセスユニットのデコード結果がコピーされて用いられる。

　レイヤ内では、ベースレイヤの中の１２０Ｐのデコード順が０→２→４→６→・・・となるよう、デコードタイムスタンプが付される。このデコードタイムスタンプで６０Ｐのデコード順は０→４→・・・となる。すなわち、基本６０Ｐと、拡張６０Ｐとが表示順、デコード順の双方においてタイムスタンプの値が交互になるように設定される。

　また、スケーラブルレイヤ（Scalable Layer）の第３および第４の画像データの符号化画像データを持つ第２のビデオストリームを含むＭＰ４ストリームでは、この第２のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 1）が存在する。この“ｍｏｏｆ（moof 1）”ボックス内に、“ｍｄａｔ”ブロック内の第３の画像データの符号化画像データを管理する制御情報と、“ｍｄａｔ”ブロック内の第４の画像データの符号化画像データを管理する制御情報が存在する。これらの２つの制御情報は、“ｍｄａｔ”ブロック内において、グループＩＤ（group_id）によりグループ分けされて管理されている。

　“ｍｏｏｆ（moof 1）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 1）”ボックス内に、“ｍｄａｔ”ブロック内の第３の画像データの符号化画像データに対応した“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第３の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 153」の記載があり、第３および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第３および第１の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　また、“ｍｏｏｆ（moof 1）”ボックス内に、“ｍｄａｔ”ブロック内の第４の画像データの符号化画像データに対応した“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第４の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 156」の記載があり、第１から第４の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５.２”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第１から第４の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　なお、図７の例において、各サンプル（ピクチャ）の伝送順は、０→１→２→３→４→５→・・・の順とされる。このようにすることで、受信後から表示までの遅延を最小にすることができる。

　図９は、“ｍｏｏｆ（moof 0）”ボックス内の制御情報の一例を概略的に示している。なお、ＭＰ４ストリームにおいて、この“ｍｏｏｆ（moof 0）”ボックスに対応して存在するイニシャライゼーション・セグメント（ＩＳ）の“ｌｅｖａ（level assignement）”ボックスによって、スケーラビリティを持つレイヤがどのようにマッピングされるかを示す。ここで、レベル（level）の数だけループがまわり、その各々で「Track_id」、「assignment_type」、「grouping_type」を指定する。“ｌｅｖａ”ボックス内に、「level_count = 2」の記載があり、１つのトラック「TR0」に２つのレベル「level0,level1」が存在することが示される。

　グループＩＤの定義の方法には、以下の方法がある。トラック（track）内にグループを定義するには、以下の第１、第２の方法ある。第１の方法は、各々のレベル（level）に、「grouping_type」を“temporal_layer_group”と定義し、グループの識別を“ｍｏｏｆ”ブロックの内部で行う方法である。「assignment_type=0」でこのモードにすることができる。第２の方法は、各々のレベル（level）に対してトラック（track）内に「sub_track_id」を定義し、その値を“ｍｏｏｆ”ブロック内の「group_id」と一致させる方法である。「assignment_type=4」でこのモードにすることができる。

　また、トラック間でグループを定義するには、以下の第３の方法がある。グループの識別を別のトラック識別（track_id）で行い、「grouping_type」を「temporal_layer_group」と定義することで、トラック（track）間の関係を識別する方法である。「assignment_type=2」でこのモードにすることができる。

　図示の例において、“ｌｅｖａ”ボックス内に、「level_count = 2」の記載があり、１つのトラック「TR0」に２つのレベル「level0,level1」が存在することが示される。第１の方法では、この“ｌｅｖａ”ボックス内に、「assignment_type=0」が記載されて第１の方法であることが示され、さらに、２つのレベルのそれぞれ対応して「grouping_type = 1」が記載され、それぞれのレベル（level）のグルーピングタイプがテンポラルレイヤグループであることが示される。

　一方、第２の方法では、この“ｌｅｖａ”ボックス内に、「assignment_type=4」が記載されて第２の方法であることが示され、さらに、２つのレベルのそれぞれ対応して「sub_track_id = 0」、「sub_track_id = 1」が記載され、それぞれのレベル（level）の「sub_track_id」が定義される。なお、「sub_track_id 」の値を「group_id」に割り当てることもできる。

　“ｍｏｏｆ（moof 0）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｈｄ”ボックスが存在する。この“ｔｆｈｄ”ボックスにトラックＩＤ“track_id”の記載があり、トラック「TR0」であることが示される。また、“ｍｏｏｆ（moof 0）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ（moof 0）”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。

　また、“ｍｏｏｆ（moof 0）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｒｕｎ”ボックスが存在する。この“ｔｒｕｎ”ボックスに、「sample_count」、「sample_composition_time_offset」のパラメータの記載がある。これらのパラメータにより、基本６０Ｐ．拡張６０Ｐのデコード順、表示順を示すタイムスタンプの値が設定される。

　また、“ｍｏｏｆ（moof 0）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に２つの“ｓｇｐｄ”ボックスが存在する。最初の“ｓｇｐｄ”ボックスには、第１の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックス配下には、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 0」とされ、グループＩＤが“０”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。これは、以下の「group_id」の各記載部分においても同様である。これは、「group_id 」の値と「primary_groupID」の値が一致するグループは基本６０Ｐのグループであることを識別させるためのものである。ここでは、「group_id = 0」であり、「primary_groupID」の値と一致しているので、このグループは基本６０Ｐのグループであると識別される。

　また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　「temporalLayerId」は、“０”とされることで、第１の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第１の画像データの符号化画像データのレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_level_idc[j-3]」と一致させる。ここでは、「tllevel_idc」は“１２３”とされる。「Tlprofile」は、第１の画像データの符号化画像データのプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_profile_idc[j-3]」と一致させる。ここでは、「Tlprofile」は“２”とされる。

　二番目の“ｓｇｐｄ”ボックスには、第２の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックスには、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 1」とされ、グループＩＤが“１”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。ここでは、「group_id = 1」であり、「primary_groupID」の値と一致しないので、このグループは基本６０Ｐのグループでないと識別される。また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　「temporalLayerId」は、“１”とされることで、第２の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第２および第１の画像データの符号化画像データの全体のレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_level_idc[j-2]」と一致させる。ここでは、「tllevel_idc」は“１５０”とされる。「Tlprofile」は、第２および第１の画像データの符号化画像データのプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_profile_idc[j-2]」と一致させる。ここでは、「Tlprofile」は“２”とされる。

　図１０は、“ｍｏｏｆ（moof 1）”ボックス内の制御情報の一例を概略的に示している。“ｌｅｖａ”ボックス内に、「level_count = 2」の記載があり、１つのトラック「TR0」に２つのレベル「level0,level1」が存在することが示される。第１の方法では、この“ｌｅｖａ”ボックス内に、「assignment_type=0」が記載されて第１の方法であることが示され、さらに、２つのレベルのそれぞれ対応して「grouping_type = 1」が記載され、それぞれのレベル（level）のグルーピングタイプがテンポラルレイヤグループであることが示される。

　一方、第２の方法では、この“ｌｅｖａ”ボックス内に、「assignment_type=4」が記載されて第２の方法であることが示され、さらに、２つのレベルのそれぞれ対応して「sub_track_id = 2」、「sub_track_id = 3」が記載され、それぞれのレベル（level）の「sub_track_id」が定義される。なお、「sub_track_id 」の値を「group_id」に割り当てることもできる。

　“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｈｄ”ボックスが存在する。この“ｔｆｈｄ”ボックスにトラックＩＤ“track_id”の記載があり、トラック「TR1」であることが示される。また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ（moof 1）”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。このデコードタイム“baseMediaDecodeTime”は、エクストラクタが指すトラックＴＲ０のデコードタイム“baseMediaDecodeTime”と同じ値とされる。

　また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｒｕｎ”ボックスが存在する。この“ｔｒｕｎ”ボックスに、「sample_count」、「sample_composition_time_offset」のパラメータの記載がある。これらのパラメータにより、基本６０Ｐ．拡張６０Ｐの表示順、デコード順を示すタイムスタンプの値が設定される。

　また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に連続して２つの“ｓｇｐｄ”ボックスが存在する。最初の“ｓｇｐｄ”ボックスには、第１の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックスには、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 2」とされ、グループＩＤが“２”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。ここでは、「group_id = 2であり、「primary_groupID」の値と一致しないので、このグループは基本６０Ｐのグループでないと識別される。また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　「temporalLayerId」は、“０”とされることで、第３の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第３および第１の画像データの符号化画像データの全体のレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_level_idc[j-1]」と一致させる。ここでは、「tllevel_idc」は“１５３”とされる。「Tlprofile」は、第３および第１の画像データの符号化画像データの全体のプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_profile_idc[j-1]」と一致させる。ここでは、「Tlprofile」は“７”とされる。

　次の“ｓｇｐｄ”ボックスには、第４の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックスには、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 3」とされ、グループＩＤが“３”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。ここでは、「group_id = 3」であり、「primary_groupID」の値と一致しないので、このグループは基本６０Ｐのグループでないと識別される。また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　「temporalLayerId」は、“１”とされることで、第４の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第４から第１の画像データの符号化画像データの全体のレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「general_level_idc]」と一致させる。ここでは、「tllevel_idc」は“１５６”とされる。「Tlprofile」は、第４から第１の画像データの符号化画像データの全体の符号化画像データのプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「general_profile_idc]」と一致させる。ここでは、「Tlprofile」は“７”とされる。

　図１１は、ケース２（Case 2）におけるＭＰ４ストリーム（ファイル）の構成例を示している。図示の例においては、図４において破線枠で囲って示している、イニシャライゼーション・セグメント（ＩＳ）と、“ｓｔｙｐ”、“ｓｉｄｘ”、“ｓｓｉｘ”のボックスの図示は省略している。図示の例は、フラグメンテッドＭＰ４（Fragmented MP4）の例である。ＭＰ４ストリームには、制御情報が入る“ｍｏｏｆ”ボックスとメディアデータ本体が入る“ｍｄａｔ”ボックスから構成されるムービーフラグメント（Movie Fragment）が所定個数配置される。“ｍｄａｔ”ボックスには、トラックデータが断片化されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。

　なお、第２の画像データのアクセスユニットから別トラックの第１の画像データのアクセスユニットへの参照のため、第２の画像データのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。例えば、「２」のアクセスユニットをデコードする場合、「０」のアクセスユニットを参照することが必要となるが、この場合、「２」のアクセスユニットの直前に配置されたエクストラクタに「０」のアクセスユニットのデコード結果がコピーされて用いられる。

　ベースレイヤ（Base Layer）の第１および第２の画像データの符号化画像データを持つ第１のビデオストリームを含むＭＰ４ストリームでは、この第１のビデオストリームが２トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して２つの“ｍｏｏｆ”ボックス（moof 0, moof 1）が存在する。“ｍｏｏｆ（moof 0）”ボックス内に、“ｍｄａｔ”ブロック内の第１の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 0）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 0）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第１の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 123」の記載があり、第１の画像データの符号化画像データのレベルが“ｌｅｖｅｌ４．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第１の画像データの符号化画像データのプロファイルが“Main 10 Profile”であることが示される。

　また、“ｍｏｏｆ（moof 1）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 1）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第２の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 150」の記載があり、第２および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第２および第１の画像データの符号化画像データの全体のプロファイルが“Main 10 Profile”であることが示される。

　なお、スケーラブルレイヤからベースレイヤへの参照のため、さらにはそれに加えて第４の画像データのアクセスユニットから別トラックの第３の画像データのアクセスユニットへの参照のため、全てのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。例えば、「１」のアクセスユニットをデコードする場合、「０」のアクセスユニットを参照することが必要となるが、この場合、「１」のアクセスユニットの直前に配置されたエクストラクタに「０」のアクセスユニットのデコード結果がコピーされて用いられる。

　また、スケーラブルレイヤ（Scalable Layer）の第３および第４の画像データの符号化画像データを持つ第２のビデオストリームを含むＭＰ４ストリームでは、この第２のビデオストリームが２トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して２つの“ｍｏｏｆ”ボックス（moof 2, moof 3）が存在する。“ｍｏｏｆ（moof 2）”ボックス内に、“ｍｄａｔ”ブロック内の第３の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 2）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 2）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第３の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 153」の記載があり、第３および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第３および第１の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　また、“ｍｏｏｆ（moof 3）”ボックス内の詳細は後述するが、この“ｍｏｏｆ（moof 3）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第４の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 156」の記載があり、第４から第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．２”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第４から第１の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　なお、図１１の例において、各サンプル（ピクチャ）の伝送順は、０→１→２→３→４→５→・・・の順とされる。このようにすることで、受信後から表示までの遅延を最小にすることができる。

　図１２は、“ｍｏｏｆ（moof 0）”ボックス内および“ｍｏｏｆ（moof 1）”ボックス内の制御情報の一例を概略的に示している。なお、ＭＰ４ストリームにおいて、これらの“ｍｏｏｆ”ボックスに対応して存在するイニシャライゼーション・セグメント（ＩＳ）の“ｌｅｖａ（level assignement）”ボックスによって、スケーラビリティを持つレイヤがどのようにマッピングされるかを示す。ここで、レベル（level）の数だけループがまわり、その各々で「Track_id」、「grouping_type」、「assignment_type」を指定する。

　図示の例において、“ｌｅｖａ”ボックス内に、「level_count = 2」の記載があり、２つのトラック「TR0」,「TR1」にレベルが１つずつ存在することが示される。また、この“ｌｅｖａ”ボックス内に、２つのトラックのレベルに対応して、「assignment_type=2」が記載されて第３の方法であることが示され、さらに、２つのトラックのレベルに対応して「grouping_type = 1」が記載され、それぞれのレベル（level）のグルーピングタイプがテンポラルレイヤグループであることが示される。

　また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｒｕｎ”ボックスが存在する。この“ｔｒｕｎ”ボックスに、「sample_count」、「sample_composition_time_offset」のパラメータの記載がある。これらのパラメータにより、基本６０Ｐの表示順、デコード順を示すタイムスタンプの値が設定される。

　また、“ｍｏｏｆ（moof 0）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に“ｓｇｐｄ”ボックスが存在する。この“ｓｇｐｄ”ボックスには、第１の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックスには、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 0」とされ、グループＩＤが“０”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。ここでは、「group_id = 0」であり、「primary_groupID」の値と一致しているので、このグループは基本６０Ｐのグループであると識別される。また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　一方、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｈｄ”ボックスが存在する。この“ｔｆｈｄ”ボックスにトラックＩＤ“track_id”の記載があり、トラック「TR1」であることが示される。また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ（moof 1）”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。このデコードタイム“baseMediaDecodeTime”は、エクストラクタが指すトラックＴＲ０のデコードタイム“baseMediaDecodeTime”と同じ値とされる。

　また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｒｕｎ”ボックスが存在する。この“ｔｒｕｎ”ボックスに、「sample_count」、「sample_composition_time_offset」のパラメータの記載がある。これらのパラメータにより、拡張６０Ｐの表示順、デコード順を示すタイムスタンプの値が設定される。

　また、“ｍｏｏｆ（moof 1）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に“ｓｇｐｄ”ボックスが存在する。この“ｓｇｐｄ”ボックスには、第２の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　「temporalLayerId」は、“１”とされることで、第２の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第２および第１の画像データの符号化画像データの全体のレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_level_idc[j-2]」と一致させる。ここでは、「tllevel_idc」は“１５０”とされる。「Tlprofile」は、第２および第１の画像データの符号化画像データの全体のプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「sublayer_profile_idc[j-2]」と一致させる。ここでは、「Tlprofile」は“２”とされる。

　図１３は、“ｍｏｏｆ（moof 2）”ボックス内および“ｍｏｏｆ（moof 3）”ボックス内の制御情報の一例を概略的に示している。図示の例において、“ｌｅｖａ”ボックス内に、「level_count = 2」の記載があり、２つのトラック「TR2」,「TR3」にレベルが１つずつ存在することが示される。また、この“ｌｅｖａ”ボックス内に、２つのトラックのレベルに対応して、「assignment_type=2」が記載されて第３の方法であることが示され、さらに、２つのトラックのレベルに対応して「grouping_type = 1」が記載され、それぞれのレベル（level）のグルーピングタイプがテンポラルレイヤグループであることが示される。

　“ｍｏｏｆ（moof 2）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｈｄ”ボックスが存在する。この“ｔｆｈｄ”ボックスにトラックＩＤ“track_id”の記載があり、トラック「TR2」であることが示される。また、“ｍｏｏｆ（moof 2）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ（moof 2）”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。このデコードタイム“baseMediaDecodeTime”は、エクストラクタが指すトラックＴＲ０のデコードタイム“baseMediaDecodeTime”と同じ値とされる。

　また、“ｍｏｏｆ（moof 2）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｒｕｎ”ボックスが存在する。この“ｔｒｕｎ”ボックスに、「sample_count」、「sample_composition_time_offset」のパラメータの記載がある。これらのパラメータにより、基本６０Ｐの表示順、デコード順を示すタイムスタンプの値が設定される。

　また、“ｍｏｏｆ（moof 2）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に“ｓｇｐｄ”ボックスが存在する。この“ｓｇｐｄ”ボックスには、第３の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　また、この“ｓｇｐｄ”ボックスには、“scif”ボックスが存在し、この“scif”ボックスに「group_id」のパラメータの記載がある。ここでは、「group_id = 2」とされ、グループＩＤが“２”であることが示される。また、「group_id」と共に「primary_groupID」が記載される。ここでは、「group_id = 2」であり、「primary_groupID」の値と一致しないので、このグループは基本６０Ｐのグループでないと識別される。また、この“ｓｇｐｄ”ボックスには、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「temporalLayerId」、「tllevel_idc」、「Tlprofile」、「tlConstantFrameRate」の４つのパラメータの記載がある。

　一方、“ｍｏｏｆ（moof 3）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｈｄ”ボックスが存在する。この“ｔｆｈｄ”ボックスにトラックＩＤ“track_id”の記載があり、トラック「TR3」であることが示される。また、“ｍｏｏｆ（moof 3）”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ（moof 3）”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。このデコードタイム“baseMediaDecodeTime”は、エクストラクタが指すトラックＴＲ２のデコードタイム“baseMediaDecodeTime”、従ってトラックＴＲ０のデコードタイム“baseMediaDecodeTime”と同じ値とされる。

　また、“ｍｏｏｆ（moof 3）”ボックス内に“ｔｆｄｔ”ボックスが存在し、そのボックス内に“ｓｇｐｄ”ボックスが存在する。この“ｓｇｐｄ”ボックスには、第４の画像データに関する情報が配置される。この“ｓｇｐｄ”ボックスには、「grouping_type」のパラメータの記載がある。ここでは、「grouping_type = 1」とされ、グルーピングタイプがテンポラルレイヤグループであることが示される。

　「temporalLayerId」は、“１”とされることで、第４の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。「tlConstantFrameRate」は“１”とされることで、フレームレートがコンスタントであることを示す。「tllevel_idc」は、第４から第１の画像データの符号化画像データの全体のレベルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「general_level_idc」と一致させる。ここでは、「tllevel_idc」は“１５６”とされる。「Tlprofile」は、第４から第１の画像データの符号化画像データの全体のプロファイルを示し、上述のＳＰＳ（あるいはＶＰＳ）の要素の「general_profile_idc]」と一致させる。ここでは、「Tlprofile」は“７”とされる。

　図１４は、ケース３（Case 3）におけるＭＰ４ストリーム（ファイル）の構成例を示している。図示の例においては、図４において破線枠で囲って示している、イニシャライゼーション・セグメント（ＩＳ）と、“ｓｔｙｐ”、“ｓｉｄｘ”、“ｓｓｉｘ”のボックスの図示は省略している。図示の例は、フラグメンテッドＭＰ４（Fragmented MP4）の例である。ＭＰ４ストリームには、制御情報が入る“ｍｏｏｆ”ボックスとメディアデータ本体が入る“ｍｄａｔ”ボックスから構成されるムービーフラグメント（Movie Fragment）が所定個数配置される。“ｍｄａｔ”ボックスには、トラックデータが断片化されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。

　ベースレイヤ（Base Layer）の第１の画像データの符号化画像データを持つ第１のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第１の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。なお、「ＶＰＳ」、「ＳＰＳ」は、例えば、ＧＯＰの先頭のアクセスユニットに挿入される。

　この第１のビデオストリームを含むＭＰ４ストリームでは、この第１のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 0）が存在する。“ｍｏｏｆ（moof 0）”ボックス内に、“ｍｄａｔ”ブロック内の第１の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 0）”ボックス内の詳細は、上述のケース２の場合と同様であるので省略するが、この“ｍｏｏｆ（moof 0）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第１の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 123」の記載があり、第１の画像データの符号化画像データのレベルが“ｌｅｖｅｌ４．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第１の画像データの符号化画像データのプロファイルが“Main 10 Profile”であることが示される。

　また、ベースレイヤ（Base Layer）の第２の画像データの符号化画像データを持つ第２のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第２の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。

　なお、第２の画像データのアクセスユニットから別トラックの第１の画像データのアクセスユニットへの参照のため、全てのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。例えば、「２」のアクセスユニットをデコードする場合、「０」のアクセスユニットを参照することが必要となるが、この場合、「２」のアクセスユニットの直前に配置されたエクストラクタに「０」のアクセスユニットのデコード結果がコピーされて用いられる。

　この第２のビデオストリームを含むＭＰ４ストリームでは、この第２のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 1）が存在する。“ｍｏｏｆ（moof 1）”ボックス内に、“ｍｄａｔ”ブロック内の第２の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 1）”ボックス内の詳細は、上述のケース２の場合と同様であるので省略するが、この“ｍｏｏｆ（moof 1）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第１の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 150」の記載があり、第２および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 2」の記載があり、第２および第１の画像データの符号化画像データの全体のプロファイルが“Main 10 Profile”であることが示される。

　また、スケーラブルレイヤ（Scalable Layer）の第３の画像データの符号化画像データを持つ第３のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第３の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。

　なお、スケーラブルレイヤからベースレイヤへの参照のため、全てのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。例えば、「１」のアクセスユニットをデコードする場合、「０」のアクセスユニットを参照することが必要となるが、この場合、「１」のアクセスユニットの直前に配置されたエクストラクタに「０」のアクセスユニットのデコード結果がコピーされて用いられる。

　この第３のビデオストリームを含むＭＰ４ストリームでは、この第３のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 2）が存在する。“ｍｏｏｆ（moof 2）”ボックス内に、“ｍｄａｔ”ブロック内の第３の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 2）”ボックス内の詳細は、上述のケース２の場合と同様であるので省略するが、この“ｍｏｏｆ（moof 2）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 0」の記載があり、第３の画像データが基本６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 153」の記載があり、第３および第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．１”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第３および第１の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　また、スケーラブルレイヤ（Scalable Layer）の第４の画像データの符号化画像データを持つ第４のビデオストリームを含むＭＰ４ストリームにおいて、“ｍｄａｔ”ボックスには、第４の画像データの符号化画像データ（アクセスユニット）が所定ピクチャ数分、例えば１ＧＯＰ分だけ配置される。なお、各アクセスユニットの位置は、“ＳＩＤＸ”ボックスや“ＳＳＩＸ”ボックスの情報で示される。各アクセスユニットは、「ＰＰＳ」、「ＳＥＩ」、「ＳＬＣ」などのＮＡＬユニットにより構成される。

　なお、スケーラブルレイヤからベースレイヤへの参照のため、さらにはそれに加えて第４の画像データのアクセスユニットから別トラックの第３の画像データのアクセスユニットへの参照のため、全てのアクセスユニットの直前にエクストラクタのＮＡＬユニットが配置されている。例えば、「３」のアクセスユニットをデコードする場合、「２」や「１」のアクセスユニットを参照することが必要となるが、この場合、「２」や「１」のアクセスユニットの直前に配置された２つのエクストラクタに「２」や「１」のアクセスユニットのデコード結果がコピーされて用いられる。

　この第４のビデオストリームを含むＭＰ４ストリームでは、この第４のビデオストリームが１トラックで管理されるものであり、“ｍｄａｔ”ブロックに対応して１つの“ｍｏｏｆ”ボックス（moof 3）が存在する。“ｍｏｏｆ（moof 3）”ボックス内に、“ｍｄａｔ”ブロック内の第４の画像データの符号化画像データを管理する制御情報が存在する。

　“ｍｏｏｆ（moof 3）”ボックス内の詳細は、上述のケース２の場合と同様であるので省略するが、この“ｍｏｏｆ（moof 3）”ボックス内に、“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、例えば「temporalLayerId = 1」の記載があり、第４の画像データが拡張６０Ｐに含まれるピクチャ（サンプル）に対応していることが示される。また、この“ｔｓｃｌ”ボックスに、「tllevel_idc = 156」の記載があり、第４から第１の画像データの符号化画像データの全体のレベルが“ｌｅｖｅｌ５．２”であることが示される。また、この“ｔｓｃｌ”ボックスに、「Tlprofile_idc = 7」の記載があり、第４から第１の画像データの符号化画像データの全体のプロファイルが“Scalable Main 10 Profile”であることが示される。

　なお、図１４の例において、各サンプル（ピクチャ）の伝送順は、０→１→２→３→４→５→・・・の順とされる。このようにすることで、受信後から表示までの遅延を最小にすることができる。

　ここで、基本６０Ｐ．拡張６０Ｐの表示順、デコード順を示すタイムスタンプの値を設定するための「sample_count」、「sample_composition_time_offset」のパラメータについてさらに説明する。“ｔｆｄｔ”ボックスの「baseMediaDecodeTime」は、フラグメント（fragment）の最初のサンプル（ピクチャ）のデコードタイムスタンプを表す。後続する個々のサンプルのデコードタイムは、“ｔｒｕｎ”ボックスの中の「sample_count」で記述される。また、各サンプルの表示タイムスタンプは、「sample_count」からのオフセット（offset）示す、「sample_composition_time_offset」で表される。

　図７のベースレイヤ（base layer）において、「０」の「sample_count」は「baseMediaDecodeTime」と一致し、そこから「２」、「４」の「sample_count」は、順に、１２０Ｈｚ単位で１つずつ増加した値となる。このことは、基本６０Ｐのサンプルである「０」と「４」の２つのサンプルのデコードタイムの間に、拡張６０Ｐのサンプルである「２」のサンプルのデコードタイムが挟まれることを示す。

　また、スケーラブルレイヤ（scalable layer）において、レイヤ間予測を示す「１」のエクストラクタのデコードタイム(＝「sample_count」) は、「０」のサンプルのデコードタイムと同じ値となる。「１」の「sample_count」は直前のエクストラクタと同値で時間オフセットがないことを示す。「３」のエクストラクタは「２」を参照する場合に配置され、その「sample_count」は「２」と同じ値を取る。「３」のサンプルの参照先が「１」の場合は、「１」の「sample_count」に１だけ増加した値を、「３」の「sample_count」の値にする。

　このようにして、１２０Ｈｚの精度でデコードタイムに相当する「sample_count」が付される。ベースレイヤ（Base layer）の基本６０Ｐのデコードを行う受信機は、基本６０Ｐのグループに属するサンプルだけ、１つとびにデコーダへ転送する。

　図１１、図１４の双方で、ベースレイヤ（base layer）内の「２」のエクストラクタの「sample_count」は「０」の「sample_count」と同じ値となる。「２」の「sample_count」は、直前のエクストラクタの「sample_count」に１だけ増加した値となる。「４」の「sample_count」の値は、「２」の「sample_count」に更に１だけ増加した値となる。以下、同様にこれを行う。このようにして、１２０Ｈｚの精度でデコードタイムに相当する「sample_count」が付される。

　スケーラブルレイヤ（scalable layer）では、「１」のエクストラクタは、レイヤ間参照を表し、その「sample_count」は、「０」と同じ値で、「１」の「sample_count」は直前のエクストラクタと同じ値になる。「３」のエクストラクタは、スケーラブルレイヤ（scalable layer）内の別トラック（track）を参照する場合、その「sample_count」は「１」と同じになり、あるいはベースレイヤ（base layer）の「２」の値を参照する場合、その「sample_count」は「２」と同じになる。いずれの場合でも、「３」の「sample_count」の値は、「２」と同じ値になる。

　「５」のエクストラクタはレイヤ間参照を表し、その「sample_count」は「４」の「sample_count」と同値になる。「５」の「sample_count」は、「４」と同値となる。このように、スケーラブルレイヤ（scalable layer）においても、基本６０Ｐのサンプルである「１」と「５」の２つのサンプルのデコードタイムの間に、拡張６０Ｐのサンプルである「３」のサンプルのデコードタイムが挟まれることになる。スケーラブルレイヤ（scalable layer）の６０Ｐのデコードを行う受信機は、基本６０Ｐのグループに属するサンプルだけ、レイヤ内のサンプルの「sample_count」を１つとびにデコーダへ転送する。

　図１５は、２ストリーム構成の伝送の場合（ケース１、ケース２の場合）におけるＭＰＤファイルの記述例を示している。ここでは、説明の簡単化のためにビデオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームの他のメディアストリームに関する情報も記述されている。図１６は、“SupplementaryDescriptor”の「Value」セマンティスクスを示している。

　「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.L150,xx, hev1.yy.yy.L156,yy”」の記述により、ビデオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのビデオストリームはＭＰ４ファイル構造で供給され、１５０のレベルと、１５６のレベルのＨＥＶＣの符号化画像データが存在することが示されている。

　「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:highdynamicrange” value=“HDR”/>」の記述により、対象ストリームがＨＤＲストリームであることが示される。なお、“HDR”の代わりに“１”が記述されて、ＨＤＲストリームであることが示されてもよい。なお、ＳＤＲストリームであることを示す場合には、“SDR”あるいは“０”が記述される。

　「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:transferfunction” value=“TFtype”/>」の記述により、電光・光電変換特性（TF特性）が示される。例えば、「BT.709-5 Transfer Function」である場合には、“TFtype”の部分に、“bt709”または“１”が記述される。また、例えば、「10bit BT.2020 Transfer Function」である場合には、“TFtype”の部分に、“bt2020-10”または“１４”が記述される。また、例えば、「SMPTE 2084 Transfer Function」である場合には、“TFtype”の部分に、“st2084”または“１６”が記述される。また、例えば、「ARIB STD B-67 Transfer Function」である場合には、“TFtype”の部分に、“arib-b67”または“１８”が記述される。

　「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:xycolourprimaries” value=“ColorGamut”/>」の記述により、色空間が示される。例えば、「BT.709-5」である場合には、“ColorGamut”の部分に、“bt709”または“１”が記述される。また、例えば、「BT.2020」である場合には、“ColorGamut”の部分に、“bt2020”または“９”が記述される。また、例えば、「SMPTE 428 or XYZ」である場合には、“ColorGamut”の部分に、“st428”または“１０”が記述される。

　このＭＰＤファイルには、第１および第２の画像データの符号化画像データを持つ第１のビデオストリームに対応した第１のリプレゼンテーション（Representation）が存在すると共に、第３および第４の画像データを持つ第２のビデオストリームに対応した第２のリプレゼンテーションが存在する。また、第１のビデオストリームのリプレゼンテーションの中に、第１、第２の画像データの符号化画像データにそれぞれ対応したサブリプレゼンテーション（SubRepresentation）が存在する。また、第２のビデオストリームのリプレゼンテーションの中に、第３、第４の画像データの符号化画像データにそれぞれ対応したサブリプレゼンテーションが存在する。

　「<BaseURL>videostreamBase.mp4</BaseURL>」の記述により、第１のビデオストリームのロケーション先が、「videostreamBase.mp4」として示されている。第１のビデオストリームのリプレゼンテーションの中の第１の画像データの符号化画像データに対応したサブリプレゼンテーションにおいて、「width=“1920" height=“1080" frameRate=“60"」、「codecs="hev1.xx.xx.L123,xx"」、「level= “0”」の記述が存在する。これにより、２Ｋ６０Ｐのストリームを実現することを示し、タグ情報としてレベル“０”が付与されることを示し、第１の画像データの符号化画像データのレベルが“１２３”であることを示す。

　第１のビデオストリームのリプレゼンテーションの中の第２の画像データの符号化画像データに対応したサブリプレゼンテーションにおいて、「width=“1920" height=“1080" frameRate=“120"」、「codecs="hev1.xx.xx.L150,xx"」、「level= “1”」、「dependencyLevel=“0”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により２Ｋ１２０Ｐのストリームを実現し、タグ情報としてレベル“１”が付与されることを示し、第２および第１の画像データの符号化画像データの全体のレベルが“１５０”であることを示す。

　また、「<BaseURL>video-bitstreamScalable.mp4</BaseURL>」の記述により、第２のビデオストリームのロケーション先が、「video-bitstreamScalable.mp4」として示されている。第２のビデオストリームのリプレゼンテーションの中の第３の画像データの符号化画像データに対応したサブリプレゼンテーションにおいて、「width=“3840" height=“2160" frameRate=“60"」、「codecs="hev1.yy.yy.L153,yy"」、「level= “2”」、「dependencyLevel=“0”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により４Ｋ６０Ｐのストリームを実現することを示し、タグ情報としてレベル“２”が付与されることを示し、第３および第１の画像データの符号化画像データの全体のレベルが“１５３”であることを示す。

　第２のビデオストリームのリプレゼンテーションの中の第４の画像データの符号化画像データに対応したサブリプレゼンテーションにおいて、「width=“3840" height=“2160" frameRate=“120"」、「codecs="hev1.yy.yy.L156,yy"」、「level= “3”」、「dependencyLevel=“0”,“1”,“2”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により２Ｋ１２０Ｐのストリームを実現し、さらにその上に拡張成分を加えて４Ｋ１２０Ｐのストリームを実現することを示し、タグ情報としてレベル“３”が付与されることを示し、第４から第１の画像データの符号化画像データの全体のレベルが“１５６”であることを示す。

　図１７は、４ストリーム構成の伝送の場合（ケース２の場合）におけるＭＰＤファイルの記述例を示している。ここでは、説明の簡単化のためにビデオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームの他のメディアストリームに関する情報も記述されている。

　「<AdaptationSet mimeType=“video/mp4” codecs=“hev1.xx.xx.L123,xx, hev1.xx.xx.L150,xx , hev1.yy.yy.L153,yy , hev1.yy.yy.L156,yy”」の記述により、ビデオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのビデオストリームはＭＰ４ファイル構造で供給され、１２３のレベルと、１５０のレベルと、１５３のレベルと、１５６のレベルのＨＥＶＣの符号化画像データが存在することが示されている。

　「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:highdynamicrange” value=“HDR”/>」、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:transferfunction” value=“EOTFtype”/>」、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:video:xycolourprimaries” value=“ColorGamut”/>」の記述に関しては、図１５の例と同様であるのでその説明は省略する。

　このＭＰＤファイルには、第１、第２、第３、第４の画像データの符号化画像データをそれぞれ持つ第１、第２、第３、第４のビデオストリームに対応した第１、第２、第３、第４のリプレゼンテーション（Representation）が存在する。

　第１のビデオストリームのリプレゼンテーションにおいて、「width=“1920" height=“1080" frameRate=“60"」、「codecs="hev1.xx.xx.L123,xx"」、「level= “0”」の記述が存在する。これにより、２Ｋ６０Ｐのストリームを実現することを示し、タグ情報としてレベル“０”が付与されることを示し、第１の画像データの符号化画像データのレベルが“１２３”であることを示す。「<BaseURL>video-base1subbitstream.mp4</BaseURL>」の記述により、第１のビデオストリームのロケーション先が、「video-base1subbitstream.mp4」として示されている。

　第２のビデオストリームのリプレゼンテーションにおいて、「width=“1920" height=“1080" frameRate=“120"」、「codecs="hev1.xx.xx.L150,xx"」、「level= “1”」、「dependencyLevel=“0”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により２Ｋ１２０Ｐのストリームを実現し、タグ情報としてレベル“１”が付与されることを示し、第２および第１の画像データの符号化画像データの全体のレベルが“１５０”であることを示す。「<BaseURL>video-base2subbitstream.mp4</BaseURL>」の記述により、第２のビデオストリームのロケーション先が、「video-base2subbitstream.mp4」として示されている。

　第３のビデオストリームのリプレゼンテーションにおいて、「width=“3840" height=“2160" frameRate=“60"」、「codecs="hev1.yy.yy.L153,yy"」、「level= “2”」、「dependencyLevel=“0”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により４Ｋ６０Ｐのストリームを実現することを示し、タグ情報としてレベル“２”が付与されることを示し、第３および第１の画像データの符号化画像データの全体のレベルが“１５３”であることを示す。「<BaseURL>video-e1subbitstream.mp4</BaseURL>」の記述により、第３のビデオストリームのロケーション先が、「video-e1subbitstream.mp4」として示されている。

　第４のビデオストリームのリプレゼンテーションにおいて、「width=“3840" height=“2160" frameRate=“120"」、「codecs="hev1.yy.yy.L156,yy"」、「level= “3”」、「dependencyLevel=“0”,“1”,“2”」の記述が存在する。これにより、第１の画像データの符号化画像データの上に拡張により２Ｋ１２０Ｐのストリームを実現し、さらにその上に拡張成分を加えて４Ｋ１２０Ｐのストリームを実現することを示し、タグ情報としてレベル“３”が付与されることを示し、第４から第１の画像データの符号化画像データの全体のレベルが“１５６”であることを示す。「<BaseURL>video-e2subset.mp4</BaseURL>」の記述により、第４のビデオストリームのロケーション先が、「video-e2subset.mp4」として示されている。

　「サービス送信システムの構成例」
　図１８は、サービス送信システム１００の構成例を示している。このサービス送信システム１００は、制御部１０１と、ＨＤＲ（High Dynamic Range：ハイダイナミックレンジ）光電変換部１０２と、ＲＧＢ/ＹＣｂＣｒ変換部１０３と、ビデオエンコーダ１０４と、コンテナエンコーダ１０５と、送信部１０６を有している。

　制御部１０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、サービス送信システム１００の各部の動作を制御する。ＨＤＲ光電変換部１０２は、ハイフレームレートで超高解像度（例えば、４Ｋ　１２０Ｐ）、かつハイダイナミックレンジ（ＨＤＲ）の画像データ（ビデオデータ）Ｖｈに対して、ＨＤＲ光電変換特性を適用して光電変換し、ＨＤＲ伝送画像データＶ１を得る。このＨＤＲ伝送ビデオデータＶ１は、ＨＤＲＯＥＴＦで映像制作された映像素材となる。例えば、ＨＤＲ光電変換特性として、ＳＴＤ－Ｂ６７（ＨＬＧ: Hybrid Log-Gamma）の特性、あるいはＳＴ２０８４（ＰＱ： Perceptual Quantizerカーブ）の特性などが適用される。

　図１９は、ＳＤＲ（通常ダイナミックレンジ）およびＨＤＲ（ハイダイナミックレンジ）の光電変換特性の一例を示している。この図において、横軸は入力輝度レベルを示し、縦軸は伝送符号値を示す。破線ａは、ＳＤＲ光電変換特性（ＢＴ．７０９：ガンマ特性）を示している。このＳＤＲ光電変換特性において、入力輝度レベルがＳＤＲ特性表現限界輝度ＳＬであるとき、伝送符号値はピークレベルＭＰとなる。ここで、ＳＬは１００ｃｄ/ｍ^２である。

　実線ｂは、ＨＤＲ光電変換特性としてのＳＴＤ－Ｂ６７（ＨＬＧ）の特性を示している。一点鎖線ｃは、ＨＤＲ光電変換特性としてのＳＴ２０８４（ＰＱカーブ）の特性を示している。このＨＤＲ光電変換特性において、入力輝度レベルがピーク輝度ＰＬであるとき、伝送符号値はピークレベルＭＰとなる。

　ＳＴＤ－Ｂ６７（ＨＬＧ）の特性は、ＳＤＲ光電変換特性（ＢＴ．７０９：ガンマ特性）との互換領域を含んでいる。すなわち、入力輝度レベルがゼロから両特性の互換限界値までは、両特性のカーブは一致している。入力輝度レベルが互換限界値であるとき、伝送符号値は互換レベルＳＰとなる。ＳＴ２０８４（ＰＱカーブ）の特性は、高輝度に対応し、人間の視覚特性に適合するといわれる量子化ステップのカーブである。

　図１８に戻って、ＲＧＢ/ＹＣｂＣｒ変換部１０３は、ＨＤＲ光電変換部１０２で得られたＨＤＲ伝送ビデオデータＶ１をＲＧＢドメインからＹＣｂＣｒ（輝度・色差）ドメインに変換する。なお、これらの色空間のドメインは、ＲＧＢドメインに限定されるものではなく、また、輝度・色差ドメインはＹＣｂＣｒに限定されるわけではない。

　ビデオエンコーダ１０４は、ＹＣｂＣｒドメインに変換されたＨＤＲ伝送ビデオデータＶ１に対して、例えば、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化を施して符号化画像データを得、この符号化画像データを含む所定数のビデオストリームを生成する。

　すなわち、ケース１、ケース２の伝送を行う場合には、第１および第２の画像データの符号化画像データを持つ第１のビデオストリームと、第３および第４の画像データの符号化画像データを持つ第２のビデオストリームが生成される（図６、図７、図１１参照）。一方、ケース３の伝送を行う場合には、第１の画像データの符号化画像データを持つ第１のビデオストリームと、第２の画像データの符号化画像データを持つ第２のビデオストリームと、第３の画像データの符号化画像データを持つ第３のビデオストリームと、第４の画像データの符号化画像データを持つ第４のビデオストリームが生成される（図６、図１４参照）。

　このとき、ビデオエンコーダ１０４は、アクセスユニット（ＡＵ）のＳＰＳＮＡＬユニットのＶＵＩ（video usability information）の領域に、ＨＤＲ伝送画像データＶ１が持つ光電変換特性またはその特性に対応した電光変換特性を示す変換特性情報（transferfunction）を挿入する。なお、ＨＤＲ伝送画像データＶ１が持つ光電変換特性がＳＴＤ－Ｂ６７（ＨＬＧ）である場合には、このＶＵＩの領域には、ＢＴ．７０９（ガンマ特性）を示す変換特性情報を挿入する。この場合、ＳＴＤ－Ｂ６７（ＨＬＧ）を示す変換特性情報は、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に挿入される、後述する新規定義のトランスファー・ファンクション・ＳＥＩメッセージ（transfer_function SEI message）内に配置される。

　また、ビデオエンコーダ１０４は、上述のＨＤＲ光電変換部１０２でＨＤＲ光電変換特性としてＳＴ２０８４（ＰＱカーブ）の特性が適用された場合には、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、ダイナミックレンジ変換の変換情報を持つ、後述する新規定義するダイナミックレンジ・コンバージョンＳＥＩメッセージ（Dynamic_range_conv SEI message）を挿入する。この変換情報は、ＳＴ２０８４（ＰＱカーブ）の特性による変換データの値をＳＤＲ光電変換特性による変換データの値に変換するための変換情報である。

　図２０を参照して、ダイナミックレンジ変換の変換情報について、さらに説明する。実線ａは、ＳＤＲ光電変換特性を示すＳＤＲＯＥＴＦカーブの一例を示している。実線ｂは、ＨＤＲＯＥＴＦカーブとしてのＳＴ２０８４（ＰＱカーブ）の特性の一例を示している。横軸は入力輝度レベルを示し、Ｐ１はＳＤＲピークレベルに対応する入力輝度レベルを示し、Ｐ２はＨＤＲ最大レベルに対応する入力輝度レベルを示している。

　また、縦軸は伝送符号値または正規化された符号化レベルの相対値を示す。相対最大レベルＭはＨＤＲ最大レベルおよびＳＤＲ最大レベルを示す。基準レベルＧは、ＳＤＲ最大レベルに対応する入力輝度レベルＰ１におけるＨＤＲ　ＯＥＴＦの伝送レベルを示すもので、いわゆるリファレンスの白レベルを意味し、このレベルよりも高い範囲をＨＤＲ特有のきらめき表現に利用することを示す。分岐レベルＢは、ＳＤＲＯＥＴＦカーブとＨＤＲＯＥＴＦカーブとが同一軌道から分岐して別れるレベルを示す。Ｐｆは、分岐レベルに対応する入力輝度レベルを示す。なお、この分岐レベルＢは、０以上の任意の値とすることができる。なお、分岐レベルが明示されない場合は、それに相当する配信運用方法あるいは受信側での全体からの比率で求めることで近似する。

　ダイナミックレンジ変換の変換情報は、ＨＤＲ伝送画像データのうち、分岐レベルＢから相対最大レベルＭまでを、ＳＤＲ光電変換特性による変換データの値となるように変換する情報であり、変換係数、あるいは変換テーブルである。変換テーブルで与えられる場合、ダイナミックレンジ変換は、この変換テーブルを参照して変換を行うことになる。一方、変換係数で与えられる場合、ダイナミックレンジ変換は、この変換係数を用いた演算により変換を行うことになる。例えば、変換係数をＣとするとき、分岐レベルＢから相対最大レベルＧまでの入力データに関して、以下の（１）式により、変換を行うことができる。
　出力データ＝分岐レベルＢ＋（入力データ－分岐レベルＢ）＊Ｃ　　　・・・（１）

　図２１は、符号化方式がＨＥＶＣである場合におけるＧＯＰ（Group Of Pictures）の先頭のアクセスユニットを示している。ＨＥＶＣの符号化方式の場合、画素データが符号化されているスライス（slices）の前にデコード用のＳＥＩメッセージ群「Prefix_SEIs」が配置され、このスライス（slices）の後に表示用のＳＥＩメッセージ群「Suffix_SEIs」が配置される。トランスファー・ファンクション・ＳＥＩメッセージ、ダイナミックレンジ・コンバージョンＳＥＩメッセージは、図示のように、例えば、ＳＥＩメッセージ群「Suffix_SEIs」として配置される。

　図２２（ａ）は、トランスファー・ファンクション・ＳＥＩメッセージの構造例(Syntax)を示している。図２２（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。「transferfunction」の８ビットフィールドは、伝送ビデオデータＶ１が持つ光電変換特性またはその特性に対応した電光変換特性を示す。本エレメントの値とＶＵＩの「transferfunction」の値が異なる場合には、本エレメントの値で置き換える。

　例えば、“１”は「BT.709-5 Transfer Function(SDR)」を示し、“１４”は「10bit BT.2020 Transfer Function(SDR)」を示し、“１６”は「SMPTE 2084 Transfer Function(HDR1)」を示し、“１８”は「ARIB STD B-67 Transfer Function (HDR2)」を示す。

　「peak_luminance」の１６ビットフィールドは、最大輝度レベルを示す。この最大輝度レベルは、コンテンツの、例えば番組内あるいはシーン内の最大輝度レベルを示す。受信側では、この値を、表示能力に適した表示画を作りこむ際の参照値として用いることができる。「color_space」の８ビットフィールドは、色空間情報を示す。

　図２３は、ダイナミックレンジ・コンバージョンＳＥＩメッセージの構造例(Syntax)を示している。図２４は、その構造例における主要な情報の内容（Semantics）を示している。「Dynamic_range_conv_cancel_flag」の１ビットのフラグ情報は、“Dynamic_range_conv”のメッセージをリフレッシュするかを示す。“０”は、“Dynamic_range_conv”のメッセージをリフレッシュすることを示す。“１”は、“Dynamic_range_conv”のメッセージをリフレッシュしないこと、つまり前のメッセージをそのまま維持することを示す。

　「Dynamic_range_conv_cancel_flag」が“０”であるとき、以下のフィールドが存在する。「coded_data_bit_depth」の８ビットフィールドは、符号化画素ビット数（伝送符号値のビット数）を示す。「reference_level」の１４ビットフィールドは、基準輝度レベル値、つまり基準レベルＧ（図２０参照）を示す。「ratio_conversion_flag」の１ビットのフラグ情報は、シンプル変換によること、つまり変換係数が存在することを示す。「conversion_table_flag」の１ビットのフラグ情報は、変換テーブルによること、つまり変換テーブル情報が存在することを示す。「branch_level」の１６ビットフィールドは、分岐レベルＢ（図２０参照）を示す。

　「ratio_conversion_flag」が“１”であるとき、「level_conversion_ratio」の８ビットフィールドが存在する。このフィールドは、変換係数（レベル変換の比）を示す。「conversion_table_flag」が“１”であるとき、「table_size」の８ビットフィールドが存在する。このフィールドは、変換テーブルの入力数を示す。そして、その入力数だけ、「level_R[i]」、「level_G[i]」、「level_B[i]」の各１６ビットフィールドが存在する。「level_R[i]」のフィールドは、赤コンポーネント（Red component）の変換後の値を示す。「level_G[i]」のフィールドは、緑コンポーネント（Red component）の変換後の値を示す。「level_B[i]」のフィールドは、青コンポーネント（Red component）の変換後の値を示す。

　なお、符号化画素ビット数が８ビットであるときは入力データの各値に対応した値が存在することになる。しかし、符号化画素ビット数が１０ビット、１２ビットなどであるときは、入力データの上位８ビットの各値に対応した値のみが存在することになる。この場合、受信側で変換テーブルを使用する際には、残りの下位ビットの値に関しては補間値が用いられることになる。

　図１８に戻って、コンテナエンコーダ１０５は、ビデオエンコーダ１０４で生成された所定数のビデオストリームＶＳを含むコンテナ、ここではＭＰ４ストリームを、配信ストリームＳＴＭとして生成する。

　すなわち、ケース１、ケース２の伝送を行う場合には、第１および第２の画像データの符号化画像データを持つ第１のビデオストリームが含まれるＭＰ４ストリームと、第３および第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれるＭＰ４ストリームを生成する（図６、図７、図１１参照）。

　一方、ケース３の伝送を行う場合には、第１の画像データの符号化画像データを持つ第１のビデオストリームが含まれるＭＰ４ストリームと、第２の画像データの符号化画像データを持つ第２のビデオストリームが含まれるＭＰ４ストリームと、第３の画像データの符号化画像データを持つ第３のビデオストリームが含まれるＭＰ４ストリームと、第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれるＭＰ４ストリームを生成する（図６、図１４参照）。

　送信部１０６は、コンテナエンコーダ１０５で得られたＭＰ４の配信ストリームＳＴＭを、放送波あるいはネットのパケットに載せて、サービス受信機２００に送信する。

　図１８に示すサービス送信システム１００の動作を簡単に説明する。ハイフレームレートで超高解像度（例えば、４Ｋ　１２０Ｐ）、かつハイダイナミックレンジ（ＨＤＲ）の画像データ（ビデオデータ）Ｖｈは、ＨＤＲ光電変換部１０２に供給される。このＨＤＲ光電変換部１０２では、ＨＤＲビデオデータＶｈにＨＤＲ光電変換特性で光電変換が施され、ＨＤＲＯＥＴＦで映像制作された映像素材としてのＨＤＲ伝送ビデオデータが得られる。例えば、ＨＤＲ光電変換特性として、ＳＴＤ－Ｂ６７（ＨＬＧ）の特性、あるいはＳＴ２０８４（ＰＱカーブ）の特性などが適用される。

　ＨＤＲ光電変換部１０２で得られたＨＤＲ伝送ビデオデータＶ１は、ＲＧＢ/ＹＣｂＣｒ変換部１０３でＲＧＢドメインからＹＣｂＣｒドメインに変換された後、ビデオエンコーダ１０４に供給される。ビデオエンコーダ１０４では、ＹＣｂＣｒドメインに変換されたＨＤＲ伝送ビデオデータＶ１に対して、例えば、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化が施されて符号化画像データが得られ、この符号化画像データを含む所定数のビデオストリームが生成される。

　このとき、ビデオエンコーダ１０４では、アクセスユニット（ＡＵ）のＳＰＳＮＡＬユニットのＶＵＩの領域に、ＨＤＲ伝送ビデオデータＶ１が持つ光電変換特性またはその特性に対応した電光変換特性を示す変換特性情報（transferfunction）が挿入される。なお、ＨＤＲ伝送ビデオデータＶ１が持つ光電変換特性がＳＴＤ－Ｂ６７（ＨＬＧ）である場合には、このＶＵＩの領域には、ＢＴ．７０９（ガンマ特性）を示す変換特性情報が挿入される。この場合、ＳＴＤ－Ｂ６７（ＨＬＧ）を示す変換特性情報は、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に挿入されるトランスファー・ファンクション・ＳＥＩメッセージ（図２２参照）内に配置される。

　また、このとき、ビデオエンコーダ１０４では、ＨＤＲ光電変換部１０２でＨＤＲ光電変換特性としてＳＴ２０８４（ＰＱカーブ）の特性が適用された場合、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、ダイナミックレンジ変換の変換情報を持つダイナミックレンジ・コンバージョンＳＥＩメッセージ（図２３参照）が挿入される。この変換情報は、ＳＴ２０８４（ＰＱカーブ）の特性による変換データの値をＳＤＲ光電変換特性による変換データの値に変換するための変換情報である。

　ビデオエンコーダ１０４で生成された所定数のビデオストリームＶＳは、コンテナエンコーダ１０５に供給される。コンテナエンコーダ１０５では、所定数のビデオストリームＶＳを含むコンテナ、ここではＭＰ４ストリームが、配信ストリームＳＴＭとして生成される。

　すなわち、ケース１、ケース２の伝送を行う場合には、第１および第２の画像データの符号化画像データを持つ第１のビデオストリームが含まれるＭＰ４ストリームと、第３および第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれるＭＰ４ストリームが生成される（図６、図７、図１１参照）。

　一方、ケース３の伝送を行う場合には、第１の画像データの符号化画像データを持つ第１のビデオストリームが含まれるＭＰ４ストリームと、第２の画像データの符号化画像データを持つ第２のビデオストリームが含まれるＭＰ４ストリームと、第３の画像データの符号化画像データを持つ第３のビデオストリームが含まれるＭＰ４ストリームと、第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれるＭＰ４ストリームが生成される（図６、図１４参照）。

　コンテナエンコーダ１０５で配信ストリームＳＴＭとして生成されたＭＰ４ストリームは、送信部１０６に供給される。送信部１０６では、コンテナエンコーダ１０５で得られたＭＰ４の配信ストリームＳＴＭが、放送波あるいはネットのパケットに載せて、サービス受信機２００に送信される。

　「サービス受信機の構成例」
　図２５は、サービス受信機２００の構成例を示している。このサービス受信機２００は、制御部２０１と、受信部２０２と、コンテナデコーダ２０３と、ビデオデコーダ２０４と、ＹＣｂＣｒ/ＲＧＢ変換部２０５と、ＨＤＲ電光変換部２０６と、ＳＤＲ電光変換部２０７を有している。

　制御部２０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、サービス受信機２００の各部の動作を制御する。受信部２０２は、サービス送信システム１００から放送波あるいはネットのパケットに載せて送られてくるＭＰ４の配信ストリームＳＴＭを受信する。

　コンテナデコーダ（マルチプレクサ）１０３は、制御部２０１の制御のもと、受信機２００のデコード能力に応じて、受信部２０２で受信されたＭＰ４の配信ストリームＳＴＭから、“ｍｏｏｆ”ブロックの情報などに基づいて、必要とする画像データの符号化画像データを選択的に取り出し、ビデオデコーダ２０４に送る。

　例えば、受信機２００がハイフレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、コンテナデコーダ２０３は、第１から第４の全ての画像データの符号化画像データを取り出し、ビデオデコーダ２０４に送る。また、例えば、受信機２００が基本フレームレートで超高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３は、第１および第３の画像データの符号化画像データを取り出し、ビデオデコーダ２０４に送る。

　また、例えば、受信機２００がハイフレームレートで高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３は、第１および第２の画像データの符号化画像データを取り出し、ビデオデコーダ２０４に送る。また、例えば、受信機２００が基本フレームレートで高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３は、第１の画像データの符号化画像データを取り出し、ビデオデコーダ２０４に送る。

　例えば、コンテナデコーダ２０３は、コンテナに挿入されているレベル値(tlevel_idc)をチェックし、ビデオデコーダ２０４のデコード能力と比較し、受信可能かどうかの判断を行う。その際、“ｍｏｏｆ”ブロック内の「tlevel_idc」から、受信したビデオストリーム中のストリーム全体の複雑度（general_level_idc）に相当する値を検知する。

　そして、コンテナデコーダ２０３は、その検知された値が受信機のデコード能力よりも高い場合、ビデオストリーム内の別の要素(sublayer_level_idc）の値に相当する“ｍｏｏｆ”ブロック内の「tlevel_idc」をチェックし、該当する範囲でデコード可能かどうかを判断し、それに該当する画像データの符号化画像データをビデオデコーダ２０４に転送する。

　一方、コンテナデコーダ２０３は、“ｍｏｏｆ”ブロック内の「tlevel_idc」から、受信したビデオストリーム中のストリーム全体の複雑度（general_level_idc）に相当する値を検知し、それが受信機のデコード能力に見合う場合、受信したビデオストリームに含まれる全ての画像データの符号化画像データをデコードタイムスタンプ順にしてビデオデコーダ２０４に転送する。

　ビデオデコーダ２０４は、コンテナデコーダ２０３で選択的に取り出された符号化画像データにデコード処理を施して、ＨＤＲ伝送ビデオデータＶ１´を得る。例えば、受信機２００がハイフレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、ハイフレームレートで超高解像度の画像を表示するための画像データとなる。また、例えば、受信機２００が基本フレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、基本フレームレートで超高解像度の画像を表示するための画像データとなる。

　また、例えば、受信機２００がハイフレームレートで高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、ハイフレームレートで高解像度の画像を表示するための画像データとなる。また、例えば、受信機２００が基本フレームレートで高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、基本フレームレートで高解像度の画像を表示するための画像データとなる。

　また、ビデオデコーダ２０４は、コンテナデコーダ２０３で選択的に取り出された符号化画像データに挿入されているパラメータセットやＳＥＩメッセージを抽出し、制御部２０１に送る。

　抽出情報には、上述したアクセスユニットのＳＰＳＮＡＬユニットのＶＵＩの領域に挿入されている伝送ビデオデータＶ１が持つ光電変換特性またはその特性に対応した電光変換特性を示す変換特性情報（transferfunction）やトランスファー・ファンクション・ＳＥＩメッセージ（図２２参照）も含まれる。これにより、制御部２０１は、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性を認識する。

　また、抽出情報には、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性がＳＴ２０８４（ＰＱカーブ）の特性であるとき、ダイナミックレンジ・コンバージョンＳＥＩメッセージ（図２３参照）も含まれる。これにより、制御部２０１は、ダイナミックレンジの変換情報（変換テーブル、変換係数）を認識する。

　ＹＣｂＣｒ/ＲＧＢ変換部２０５は、ビデオデコーダ２０４で得られたＨＤＲ伝送ビデオデータＶ１´を、ＹＣｂＣｒ（輝度・色差）ドメインからＲＧＢドメインに変換する。ＨＤＲ光電変換部２０６は、ＲＧＢドメインに変換されたＨＤＲ伝送ビデオデータＶ１´に、ＨＤＲ電光変換特性を適用して、ＨＤＲ画像を表示するための表示用ビデオデータＶｈｄを得る。この場合、制御部２０１は、ＨＤＲ光電変換部２０６に、ＶＵＩあるいはトランスファー・ファンクション・ＳＥＩメッセージから認識したＨＤＲ電光変換特性、つまり送信側で適用されたＨＤＲ光電変換特性に対応したＨＤＲ電光変換特性を設定する。

　ＳＤＲ光電変換部２０７は、ＲＧＢドメインに変換されたＨＤＲ伝送ビデオデータＶ１´に、ＳＤＲ電光変換特性を適用して、ＳＤＲ画像を表示するための表示用ビデオデータＶｓｄを得る。ここで、ＳＤＲ光電変換部２０７は、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性がＳＴＤ－Ｂ６７（ＨＬＧ）の特性であるときには、このＨＤＲ伝送ビデオデータＶ１´にそのままＳＤＲ電光変換特性を適用して、ＳＤＲ画像を表示するための表示用ビデオデータＶｓｄを得る。

　一方、ＳＤＲ光電変換部２０７は、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性がＳＴ２０８４（ＰＱカーブ）の特性であるときには、ＨＤＲ伝送ビデオデータＶ１´に、ダイナミックレンジの変換情報（変換テーブル、変換係数）に基づいてダイナミックレンジ変換を行ってＳＤＲ伝送画像データを得、このＳＤＲ伝送画像データにＳＤＲ電光変換特性を適用して、ＳＤＲ画像を表示するための表示用ビデオデータＶｓｄを得る。

　図２６を参照して、ダイナミックレンジの変換情報に基づくダイナミックレンジ変換の一例を説明する。縦軸は出力輝度レベルを示し、図２０の横軸に対応する。また、横軸は伝送符号値を示し、図２０の縦軸に対応する。実線ａは、ＳＤＲ電光変換特性を示すＳＤＲＥＯＴＦカーブである。このＳＤＲＥＯＴＦカーブは、図２０に実線ａで示すＳＤＲＯＥＴＦカーブに対応している。実線ｂは、ＨＤＲ電光変換特性を示すＨＤＲＥＯＴＦカーブである。このＨＤＲＥＯＴＦカーブは、図２０に実線ｂで示すＨＤＲＯＥＴＦカーブとしてのＳＴ２０８４（ＰＱカーブ）の特性に対応している。なお、Ｐ１´は、基準レベルＧより低い所定のレベルＨに対応した出力輝度レベルを示している。

　ダイナミックレンジ変換では、ＨＤＲ伝送ビデオデータＶ１´のうち、基準レベルＧより低い所定のレベルＨまでの入力データに関しては、ＳＤＲ光電変換特性による変換データの値と一致するように変換される。分岐レベルＢ未満の入力データは、そのまま出力データとされる。

　また、レベルＨからレベルＭまでの入力データに関しては、一点鎖線で示すトーンマッピング特性ＴＭに基づいてダイナミックレンジレベル変換が行われる。この場合、例えば、レベルＨはレベルＨ´に変換され、基準レベルＧはレベルＧ´に変換され、レベルＭはそのままレベルＭとされる。このようにレベルＨからレベルＭまでの入力データに関してトーンマッピング特性ＴＭに基づいたレベル変換がなされることで、基準レベルＧから相対最大レベルＭまでのレベル飽和による画質劣化の低減が可能となる。

　図２５に示すサービス受信機２００の動作を簡単に説明する。受信部２０２では、サービス送信システム１００から放送波あるいはネットのパケットに載せて送られてくるＭＰ４の配信ストリームＳＴＭが受信される。この配信ストリームＳＴＭは、コンテナデコーダ２０３に供給される。

　コンテナデコーダ２０３では、制御部２０１の制御のもと、受信機２００のデコード能力に応じて、受信部２０２で受信されたＭＰ４の配信ストリームＳＴＭから、“ｍｏｏｆ”ブロック情報などに基づいて、必要とする画像データの符号化画像データが選択的に取り出されて、ビデオデコーダ２０４に供給される。

　例えば、受信機２００がハイフレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、コンテナデコーダ２０３では、第１から第４の全ての画像データの符号化画像データが取り出されて、ビデオデコーダ２０４に供給される。また、例えば、受信機２００が基本フレームレートで超高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３では、第１および第３の画像データの符号化画像データが取り出されて、ビデオデコーダ２０４に供給される。

　また、例えば、受信機２００がハイフレームレートで高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３では、第１および第２の画像データの符号化画像データが取り出されて、ビデオデコーダ２０４に供給される。また、例えば、受信機２００が基本フレームレートで高解像度の画像データを処理可能なデコード能力があるときは、コンテナデコーダ２０３では、第１の画像データの符号化画像データが取り出されて、ビデオデコーダ２０４に供給される。

　ビデオデコーダ２０４では、コンテナデコーダ２０３で選択的に取り出された符号化画像データにデコード処理が施されて、ＨＤＲ伝送ビデオデータＶ１´が得られる。例えば、受信機２００がハイフレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、ハイフレームレートで超高解像度の画像を表示するための画像データである。また、例えば、受信機２００が基本フレームレートで超高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、基本フレームレートで超高解像度の画像を表示するための画像データである。

　また、例えば、受信機２００がハイフレームレートで高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、ハイフレームレートで高解像度の画像を表示するための画像データである。また、例えば、受信機２００が基本フレームレートで高解像度の画像データを処理可能なデコード能力があるとき、このＨＤＲ伝送ビデオデータＶ１´は、基本フレームレートで高解像度の画像を表示するための画像データである。

　また、ビデオデコーダ２０４では、コンテナデコーダ２０３で選択的に取り出された符号化画像データに挿入されているパラメータセットやＳＥＩメッセージが抽出され、制御部２０１に送られる。

　制御部２０１では、ＳＰＳＮＡＬユニットのＶＵＩの領域に挿入されている伝送ビデオデータＶ１が持つ光電変換特性またはその特性に対応した電光変換特性を示す変換特性情報（transferfunction）やトランスファー・ファンクション・ＳＥＩメッセージ（図２２参照）に基づいて、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性が認識される。また、制御部２０１では、ダイナミックレンジ・コンバージョンＳＥＩメッセージ（図２３参照）に基づいて、ダイナミックレンジの変換情報（変換テーブル、変換係数）が認識される。

　ビデオデコーダ２０４で得られたＨＤＲ伝送ビデオデータＶ１´は、ＹＣｂＣｒ/ＲＧＢ変換部２０５でＹＣｂＣｒドメインからＲＧＢドメインに変換された後、ＨＤＲ電光変換部２０６、あるいはＳＤＲ電光変換部２０７に供給される。

　ＨＤＲ光電変換部２０６では、ＲＧＢドメインに変換されたＨＤＲ伝送ビデオデータＶ１´に、ＨＤＲ電光変換特性が適用されて、ＨＤＲ画像を表示するための表示用ビデオデータＶｈｄが得られる。この場合、ＨＤＲ光電変換部２０６には、制御部２０１の制御により、ＶＵＩあるいはトランスファー・ファンクション・ＳＥＩメッセージから認識したＨＤＲ電光変換特性、つまり送信側で適用されたＨＤＲ光電変換特性に対応したＨＤＲ電光変換特性が設定される。

　ＳＤＲ電光変換部２０７では、ＲＧＢドメインに変換されたＨＤＲ伝送ビデオデータＶ１´に、ＳＤＲ電光変換特性が適用されて、ＳＤＲ画像を表示するための表示用ビデオデータＶｓｄが得られる。この場合、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性がＳＴＤ－Ｂ６７（ＨＬＧ）の特性であるときには、このＨＤＲ伝送ビデオデータＶ１´にそのままＳＤＲ電光変換特性が適用される。

　また、この場合、ＨＤＲ伝送ビデオデータＶ１´に適用されているＨＤＲ光電変換特性がＳＴ２０８４（ＰＱカーブ）の特性であるときには、ＨＤＲ伝送ビデオデータＶ１´に、ダイナミックレンジの変換情報（変換テーブル、変換係数）に基づいてダイナミックレンジ変換が行われてＳＤＲ伝送画像データが得られ（図２６参照）、このＳＤＲ伝送画像データにＳＤＲ電光変換特性が適用される。

　上述したように、図３に示す送受信システム１０においては、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報（ＳＰＳの情報）に対応した情報をコンテナ（ＭＰ４ストリームの“ｍｏｏｆ”ブロック）に挿入するものである。そのため、受信側では、デコード能力に応じて、この情報に基づき、所定数のストリームに含まれる第１から第４の画像データから所定の符号化画像データを取り出してデコード処理を行うことが容易に可能となる。

　また、図３に示す送受信システム１０においては、ＨＤＲ光電変換特性またはこの特性に対応した電光変換特性を示す変換特性情報を、第１の画像データの符号化画像データを持つビデオストリームに挿入するものである。そのため、受信側では、この変換特性情報に基づいて適切な電光変換を行うことが容易に可能となる。

　また、図３に示す送受信システム１０においては、ハイダイナミックレンジ光電変換特性がＰＱカーブの特性であるとき、第１の画像データの符号化画像データを持つビデオストリームに、ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報を挿入するものである。そのため、受信側では、ハイダイナミックレンジ光電変換特性がＰＱカーブの特性であるとき、通常ダイナミックレンジ表示を行う場合に、表示用画像データを良好に得ることが可能となる。

　＜２．変形例＞
　なお、上述実施の形態においては、基本ストリームと拡張ストリームとが別のトラックで伝送される場合に、拡張ストリームはエクストラクタ（extractor）に依存した構成を前提とする記載としている。しかし、これは単なる例で、実際はエクストラクタが存在せずとも拡張ストリームのデコードタイミングを管理することは可能である。

　つまり、基本ストリームと拡張ストリームとが別のトラックで伝送される場合に、拡張ストリームを含むトラックに関して、そのトラックの少なくとも最初のオフセット情報を“ｍｏｏｆ”のトラックフラグメント(tfdt)のデコードタイム(tfdt) 内のボックス、「baseMediaDecodeTime」に１２０Ｈｚ単位の遅延情報として記すことで、基本ストリームのデコードタイミングに対して拡張ストリームのデコードタイミングを(１/１２０)秒だけずらすことで同様のことが実現できる。"

　また、上述実施の形態においては、コンテナがＭＰ４（ＩＳＯＢＭＦＦ）である例を示した。しかし、本技術は、コンテナがＭＰ４に限定されるものではなく、ＭＰＥＧ－２　ＴＳやＭＭＴなどの他のフォーマットのコンテナであっても同様に適用し得る。

　また、本技術は、以下のような構成を取ることもできる。
　（１）ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る画像処理部と、
　上記第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する情報挿入部を備える
　送信装置。
　（２）上記送信部が送信する上記所定フォーマットのコンテナには、上記第１の画像データの符号化画像データと上記第２の画像データの符号化画像データを持つ第１のビデオストリームと、上記第３の画像データの符号化画像データと上記第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１および第２のビデオストリームをそれぞれ１トラックで管理する状態で上記情報を上記コンテナに挿入する
　前記（１）に記載の送信装置。
　（３）上記情報挿入部は、
　上記情報を上記コンテナに挿入する際に、
　上記第１のビデオストリームに関しては上記第１の画像データの符号化画像データに関する情報と上記第２の画像データの符号化画像データに関する情報をグループ分けして挿入し、
　上記第２のビデオストリームに関しては上記第３の画像データの符号化画像データに関する情報と上記第４の画像データの符号化画像データに関する情報をグループ分けして挿入する
　前記（２）に記載の送信装置。
　（４）上記第１のビデオストリームにおいて上記第１の画像データのピクチャと上記第２の画像データのピクチャが交互に符号化されており、
　上記第２のビデオストリームにおいて上記第３の画像データのピクチャと上記第４の画像データのピクチャが交互に符号化されている
　前記（２）または（３）に記載の送信装置。
　（５）上記送信部が送信する上記所定フォーマットのコンテナには、上記第１の画像データの符号化画像データと上記第２の画像データの符号化画像データを持つ第１のビデオストリームと、上記第３の画像データの符号化画像データと上記第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１および第２のビデオストリームをそれぞれ２トラックで管理する状態で上記情報を上記コンテナに挿入する
　前記（１）に記載の送信装置。
　（６）上記第１のビデオストリームにおいて上記第１の画像データのピクチャと上記第２の画像データのピクチャが交互に符号化されており、
　上記第２のビデオストリームにおいて上記第３の画像データのピクチャと上記第４の画像データのピクチャが交互に符号化されている
　前記（５）に記載の送信装置。
　（７）上記送信部が送信する上記所定フォーマットのコンテナには、上記第１の画像データの符号化画像データを持つ第１のビデオストリームと、上記第２の画像データの符号化画像データを持つ第２のビデオストリームと、上記第３の画像データの符号化画像データを持つ第３のビデオストリームと、上記第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１から第４のビデオストリームをそれぞれ１トラックで管理する状態で上記情報を挿入する
　前記（１）に記載の送信装置。
　（８）上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記情報挿入部は、
　上記ハイダイナミックレンジ光電変換特性または該特性に対応した電光変換特性を示す変換特性情報を、上記第１の画像データの符号化画像データを持つビデオストリームにさらに挿入する
　前記（１）から（７）のいずれかに記載の送信装置。
　（９）上記ハイダイナミックレンジ光電変換特性はハイブリッドログガンマの特性である
　前記（８）に記載の送信装置。
　（１０）上記ハイダイナミックレンジ光電変換特性はＰＱカーブの特性である
　前記（８）に記載の送信装置。
　（１１）上記情報挿入部は、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報をさらに挿入する
　前記（１０）に記載の送信装置。
　（１２）ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る画像処理ステップと、
　送信部により、上記第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含む所定フォーマットのコンテナを送信する送信ステップと、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する情報挿入ステップを有する
　送信方法。
　（１３）所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを持ち、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている情報に基づき、上記第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理部をさらに備える
　受信装置。
　（１４）上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ハイダイナミックレンジ光電変換特性または該特性に対応した電光変換特性を示す変換特性情報が挿入されており、
　上記処理部は、
　上記デコード処理で得られた画像データに上記変換特性情報に基づいて電光変換を行って表示用画像データを得る
　前記１３に記載の受信装置。
　（１５）上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記ハイダイナミックレンジ光電変換特性はＰＱカーブの特性であり、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報が挿入されており、
　上記処理部は、
　通常ダイナミックレンジ表示をするとき、
　上記デコード処理で得られた画像データに、上記変換情報に基づいてダイナミックレンジ変換を行って通常ダイナミックレンジ伝送画像データを得、該通常ダイナミックレンジ伝送画像データに通常ダイナミックレンジ電光変換特性による電光変換を行って表示用画像データを得る
　前記（１３）に記載の受信装置。
　（１６）受信部により、所定数のビデオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
　上記所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを持っており、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている情報に基づき、上記第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理ステップをさらに有する
　受信方法。

　本技術の主な特徴は、時空間スケーラビリティに係る所定数のビデオストリームを含むコンテナを送信する際に、所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報（ＳＰＳの情報）に対応した情報をコンテナ（ＭＰ４ストリームの“ｍｏｏｆ”ブロック）に挿入することで、受信側では、デコード能力に応じて、この情報に基づき、所定数のストリームに含まれる第１から第４の画像データから所定の符号化画像データを取り出してデコード処理を行うことを容易としたことである（図７、図１１、図１４参照）。

　１０・・・送受信システム
　３０Ａ，３０Ｂ・・・ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システム
　３１・・・ＤＡＳＨストリームファイルサーバ
　３２・・・ＤＡＳＨＭＰＤサーバ
　３３，３３-1～３３-N・・・サービス受信機
　３４・・・ＣＤＮ
　３５，３５-1～３５-M・・・サービス受信機
　３６・・・放送送出システム
　１００・・・サービス送信システム
　１０１・・・制御部
　１０２・・・ＨＤＲ光電変換部
　１０３・・・ＲＧＢ/ＹＣｂＣｒ変換部
　１０４・・・ビデオエンコーダ
　１０５・・・コンテナエンコーダ
　１０６・・・送信部
　２００，２００Ａ，２００Ｂ，２００Ｃ，２００Ｄ・・・サービス受信機
　２０１・・・制御部
　２０２・・・受信部
　２０３・・・コンテナデコーダ
　２０４，２０４Ａ，２０４Ｂ，２０４Ｃ，２０４Ｄ・・・ビデオデコーダ
　２０５・・・ＹＣｂＣｒ/ＲＧＢ変換部
　２０６・・・ＨＤＲ電光変換部
　２０７・・・ＳＤＲ電光変換部

Claims

　ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る画像処理部と、
　上記第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含むコンテナを送信する送信部と、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する情報挿入部を備える
　送信装置。
　上記送信部が送信する上記コンテナには、上記第１の画像データの符号化画像データと上記第２の画像データの符号化画像データを持つ第１のビデオストリームと、上記第３の画像データの符号化画像データと上記第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１および第２のビデオストリームをそれぞれ１トラックで管理する状態で上記情報を上記コンテナに挿入する
　請求項１に記載の送信装置。
　上記情報挿入部は、
　上記情報を上記コンテナに挿入する際に、
　上記第１のビデオストリームに関しては上記第１の画像データの符号化画像データに関する情報と上記第２の画像データの符号化画像データに関する情報をグループ分けして挿入し、
　上記第２のビデオストリームに関しては上記第３の画像データの符号化画像データに関する情報と上記第４の画像データの符号化画像データに関する情報をグループ分けして挿入する
　請求項２に記載の送信装置。
　上記第１のビデオストリームにおいて上記第１の画像データのピクチャと上記第２の画像データのピクチャが交互に符号化されており、
　上記第２のビデオストリームにおいて上記第３の画像データのピクチャと上記第４の画像データのピクチャが交互に符号化されている
　請求項２に記載の送信装置。
　上記送信部が送信する上記コンテナには、上記第１の画像データの符号化画像データと上記第２の画像データの符号化画像データを持つ第１のビデオストリームと、上記第３の画像データの符号化画像データと上記第４の画像データの符号化画像データを持つ第２のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１および第２のビデオストリームをそれぞれ２トラックで管理する状態で上記情報を上記コンテナに挿入する
　請求項１に記載の送信装置。
　上記第１のビデオストリームにおいて上記第１の画像データのピクチャと上記第２の画像データのピクチャが交互に符号化されており、
　上記第２のビデオストリームにおいて上記第３の画像データのピクチャと上記第４の画像データのピクチャが交互に符号化されている
　請求項５に記載の送信装置。
　上記送信部が送信する上記コンテナには、上記第１の画像データの符号化画像データを持つ第１のビデオストリームと、上記第２の画像データの符号化画像データを持つ第２のビデオストリームと、上記第３の画像データの符号化画像データを持つ第３のビデオストリームと、上記第４の画像データの符号化画像データを持つ第４のビデオストリームが含まれており、
　上記情報挿入部は、
　上記第１から第４のビデオストリームをそれぞれ１トラックで管理する状態で上記情報を挿入する
　請求項１に記載の送信装置。
　上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記情報挿入部は、
　上記ハイダイナミックレンジ光電変換特性または該特性に対応した電光変換特性を示す変換特性情報を、上記第１の画像データの符号化画像データを持つビデオストリームにさらに挿入する
　請求項１に記載の送信装置。
　上記ハイダイナミックレンジ光電変換特性はハイブリッドログガンマの特性である
　請求項８に記載の送信装置。
　上記ハイダイナミックレンジ光電変換特性はＰＱカーブの特性である
　請求項８に記載の送信装置。
　上記情報挿入部は、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報をさらに挿入する
　請求項１０に記載の送信装置。
　画像処理部が、ハイフレームレートで超高解像度の画像データを処理して、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを得る画像処理ステップと、
　送信部が、上記第１から第４の画像データの符号化画像データを持つ所定数のビデオストリームを含むコンテナを送信する送信ステップと、
　情報挿入部が、上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報を挿入する情報挿入ステップを有する
　送信方法。
　所定数のビデオストリームを含むコンテナを受信する受信部を備え、
　上記所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを持ち、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている情報に基づき、上記第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理部をさらに備える
　受信装置。
　上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ハイダイナミックレンジ光電変換特性または該特性に対応した電光変換特性を示す変換特性情報が挿入されており、
　上記処理部は、
　上記デコード処理で得られた画像データに上記変換特性情報に基づいて電光変換を行って表示用画像データを得る
　請求項１３に記載の受信装置。
　上記ハイフレームレートで超高解像度の画像データは、ハイダイナミックレンジ画像データにハイダイナミックレンジ光電変換特性による光電変換を行ってハイダイナミックレンジ光電変換特性を持たせた伝送画像データであり、
　上記ハイダイナミックレンジ光電変換特性はＰＱカーブの特性であり、
　上記第１の画像データの符号化画像データを持つビデオストリームに、上記ＰＱカーブの特性による変換データの値を通常ダイナミックレンジ光電変換特性による変換データの値に変換するための変換情報が挿入されており、
　上記処理部は、
　通常ダイナミックレンジ表示をするとき、
　上記デコード処理で得られた画像データに、上記変換情報に基づいてダイナミックレンジ変換を行って通常ダイナミックレンジ伝送画像データを得、該通常ダイナミックレンジ伝送画像データに通常ダイナミックレンジ電光変換特性による電光変換を行って表示用画像データを得る
　請求項１３に記載の受信装置。
　受信部が、所定数のビデオストリームを含むコンテナを受信する受信ステップを有し、
　上記所定数のビデオストリームは、ハイフレームレートで超高解像度の画像データを処理して得られた、基本フレームレートで高解像度の画像を得るための第１の画像データと、上記第１の画像データと共に用いてハイフレームレートで高解像度の画像を得るための第２の画像データと、上記第１の画像データと共に用いて基本フレームレートで超高解像度の画像を得るための第３の画像データと、上記第１から第３の画像データと共に用いてハイフレームレートで超高解像度の画像を得るための第４の画像データを持っており、
　上記コンテナに上記所定数のビデオストリームのそれぞれに挿入された当該ビデオストリームが持つ画像データに関する情報に対応した情報が挿入されており、
　処理部が、デコード能力に応じて、上記コンテナに挿入されている情報に基づき、上記第１から第４の画像データの符号化画像データから所定の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理ステップをさらに有する
　受信方法。
　ハイフレームレートの画像データを処理して、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを得る画像処理部と、
　上記第１および第２の画像データの符号化画像データを持つ１つ以上のビデオストリームを含むコンテナを送信する送信部と、
　上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値を挿入し、上記第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値を挿入する情報挿入部を備える
　送信装置。
　画像処理部が、ハイフレームレートの画像データを処理して、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを得る画像処理ステップと、
　送信部が、上記第１および第２の画像データの符号化画像データを持つ１つ以上のビデオストリームを含むコンテナを送信する送信ステップと、
　情報挿入部が、上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値を挿入し、第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値を挿入する情報挿入ステップを有する
　送信方法。
　１つ以上のビデオストリームを含むコンテナを受信する受信部を備え、
　上記１つ以上のビデオストリームは、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを持ち、
　上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値が挿入されており、上記第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値が挿入されており、
　デコード能力に応じて、上記コンテナに挿入されている上記ビデオストリームのレベル指定値に基づき、上記第１および第２の画像データの符号化画像データから一つ以上の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理部をさらに備える
　受信装置。
　受信部が、１つ以上のビデオストリームを含むコンテナを受信する受信ステップを有し、
　上記１つ以上のビデオストリームは、基本フレームレート画像を得るための第１の画像データと該第１の画像データと共に用いてハイフレームレートの画像データを得るための第２の画像データを持ち、
　上記コンテナに、上記第１の画像データの符号化画像データに対応して、上記第１の画像データの符号化画像データに対応したビデオストリームのレベル指定値が挿入されており、上記第２の画像データの符号化画像データに対応して、上記第１および第２の画像データの符号化画像データを合わせたビデオストリームのレベル指定値が挿入されており、
　処理部が、デコード能力に応じて、上記コンテナに挿入されている上記ビデオストリームのレベル指定値に基づき、上記第１および第２の画像データの符号化画像データから一つ以上の符号化画像データを選択的に取り出してデコード処理を行って画像データを得る処理ステップをさらに有する
　受信方法。