WO2015019798A1

WO2015019798A1 - 送信装置、送信方法、受信装置、受信方法、符号化装置および符号化方法

Info

Publication number: WO2015019798A1
Application number: PCT/JP2014/068643
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2013-08-09
Filing date: 2014-07-11
Publication date: 2015-02-12
Also published as: JP5789004B2; BR112015030897B1; RU2015153006A; EP4354889A3; US20160142762A1; EP3032834B1; US20190222887A1; EP3585060A2; JP2015057875A; RU2674890C2; US11368744B2; BR112015030897A2; CN105340283A; EP4354889A2; EP3585060A3; CN105340283B; RU2015153006A3; EP3032834A4; EP3032834A1; US10306296B2

Abstract

　受信側においてデコード能力に応じた良好なデコード処理を可能とする。　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、この分類された各階層の画像データを符号化し、この符号化された各階層のピクチャの画像データを持つビデオストリームを生成する。このビデオストリームを含む所定フォーマットのコンテナを送信する。高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を各階層のピクチャの符号化画像データに付加する。

Description

送信装置、送信方法、受信装置、受信方法、符号化装置および符号化方法

　本技術は、送信装置、送信方法、受信装置、受信方法、符号化装置および符号化方法に関する。詳しくは、本技術は、動画像データを構成する各ピクチャの画像データを階層符号化して送信する送信装置等に関する。

　圧縮動画を、放送、ネット等でサービスする際、受信機のデコード能力によって再生可能なフレーム周波数の上限が制限される。従って、サービス側は普及している受信機の再生能力を考慮して、低フレーム周波数のサービスのみに制限したり、高低複数のフレーム周波数のサービスを同時提供したりする必要がある。

　受信機は、高フレーム周波数のサービスに対応するには、高コストとなり、普及の阻害要因となる。初期に低フレーム周波数のサービス専用の安価な受信機のみ普及していて、将来サービス側が高フレーム周波数のサービスを開始する場合、新たな受信機が無いと全く視聴不可能であり、サービスの普及の阻害要因となる。

　例えば、ＨＥＶＣ（High Efficiency Video Coding）において、動画像データを構成する各ピクチャの画像データを階層符号化することによる時間方向スケーラビリティが提案されている（非特許文献１参照）。受信側では、ＮＡＬ（Network Abstraction Layer）ユニットのヘッダに挿入されているテンポラルＩＤ（temporal_id）に基づき、各ピクチャの階層を識別でき、デコード能力に対応した階層までの選択的なデコードが可能となる。

Gary J. Sullivan, Jens-Rainer Ohm, Woo-Jin Han, Thomas Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard" IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECNOROGY, VOL. 22, NO. 12,pp. 1649-1668, DECEMBER 2012

　本技術の目的は、受信側においてデコード能力に応じた良好なデコード処理を可能とすることにある。

　本技術の概念は、
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層の画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え
　上記画像符号化部は、
　高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を上記各階層のピクチャの符号化画像データに付加する
　送信装置にある。

　本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが符号化されてビデオストリーム（符号化ストリーム）が生成される。この場合、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの画像データを持つビデオストリームが生成される。この場合、各階層のピクチャの符号化画像データに、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報、例えばデコードタイムスタンプが付加される。

　送信部により、上述のビデオストリームを含む所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２ＴＳ）であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるＭＰ４、あるいはそれ以外のフォーマットのコンテナであってもよい。

　例えば、画像符号化部は、各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成し、複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する、ようにされてもよい。この場合、例えば、識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる、ようにされてもよい。

　また、例えば、画像符号化部は、複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームを生成する、ようにされてもよい。この場合、例えば、画像符号化部は、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する、ようにされてもよい。そして、この場合、例えば、識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる、ようにされてもよい。

　このように本技術においては、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が各階層のピクチャの符号化画像データに付加されるものである。そのため、受信側においてデコード性能に応じた良好なデコード処理が可能となる。例えば、デコード能力が低い場合であっても、バッファ破たんを招くことなく、低階層のピクチャの符号化画像データを選択的にデコードすることが可能となる。

　なお、本技術において、例えば、画像符号化部は、各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームを生成し、コンテナのレイヤに、このコンテナに含まれるビデオストリームの構成情報を挿入する情報挿入部をさらに備える、ようにされてもよい。この場合、例えば、受信側では、コンテナに含まれるビデオストリームの構成情報に基づいて、ビデオストリームの構成を容易に把握でき、適切なデコード処理を行うことが可能となる。

　また、本技術において、例えば、送信部は、複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定する、ようにされてもよい。この場合、例えば、受信側では、このパケットの優先度に基づいて、自身のデコード能力に応じた階層組のピクチャの符号化画像データのみをバッファに取り込むことが可能となる。

　また、本技術の他の概念は、
　動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が付加されており、
　上記受信されたコンテナに含まれる上記ビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データを、上記デコードタイミング情報が示すデコードタイミングでデコードして、上記所定階層以下の階層のピクチャの画像データを得る処理部をさらに備える
　受信装置にある。

　本技術において、受信部により、所定フォーマットのコンテナが受信される。このコンテナには、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの画像データを持つビデオストリームが含まれている。各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報、例えばデコードタイムスタンプが付加されている。

　処理部により、受信コンテナに含まれるビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データがデコードされて各ピクチャの画像データが得られる。この場合、各ピクチャの符号化画像データのデコードは,
遅くとも、それぞれ、付加されているデコードタイミング情報が示すデコードタイミングで行われる。

　例えば、受信されたコンテナには、各階層のピクチャの符号化画像データを持つ単一のビデオストリームが含まれており、複数の階層は２以上の所定数の階層組に分割され、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定されており、処理部は、デコード能力に応じて選択された優先度のパケットでコンテナされた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。

　また、例えば、受信されたコンテナには、複数の階層が分割されて得られた２以上の所定数の階層組のピクチャの画像データをそれぞれ持つ所定数のビデオストリームが含まれており、処理部は、デコード能力に応じて選択されたビデオストリームが持つ所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする、ようにされてもよい。

　このように本技術においては、各階層のピクチャの符号化画像データには高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイムスタンプが付加されており、選択された所定階層以下の階層のピクチャの符号化画像データがそれに付加されているデコードタイミング情報が示すデコードタイミングで行われるものである。そのため、デコード性能に応じた良好なデコード処理が可能となる。例えば、デコード能力が低い場合であっても、バッファ破たんを招くことなく、低階層のピクチャの符号化画像データを選択的にデコードすることが可能となる。

　なお、本技術において、例えば、処理部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える、ようにされてもよい。この場合、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。

　また、本技術の他の概念は、
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる
　符号化装置にある。

　本技術において、画像符号化部により、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、この分類された各階層のピクチャの画像データが符号化され、この符号化された各階層のピクチャの画像データを持つビデオストリームが生成される。

　この場合、複数の階層は２以上の所定数の階層組に分割され、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値が挿入される。そして、この場合、各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。

　例えば、画像符号化部は、各階層組に対応したサブストリームのそれぞれを含む所定数のビデオストリームを生成する、ようにされてもよい。また、例えば、画像符号化部は、各階層組に対応したサブストリームの全てを含む単一のビデオストリームを生成する、ようにされてもよい。

　このように本技術においては、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値が挿入され、その値は自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされるものである。そのため、ビデオストリームの受信側では、各サブストリームのデコードが可能か否かの判断を、挿入されているビットストリームのレベル指定値に基づいて容易に判断することが可能となる。

　また、本技術の他の概念は、
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされ、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤに、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることを示すフラグ情報を挿入する情報挿入部をさらに備える
　送信装置にある。

　この場合、複数の階層は２以上の所定数の階層組に分割され、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値が挿入される。そして、この場合、各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。

　送信部により、生成されたビデオストリームを含む所定フォーマットのコンテナが送信される。情報挿入部により、コンテナのレイヤに、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることを示すフラグ情報が挿入される。

　このように本技術においては、受信側では、コンテナのレイヤに挿入されるフラグ情報により、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることがわかる。そのため、受信側では、所定の階層組以下の各サブストリームに含まれる全ての階層のピクチャを含むレベル値を階層毎のレベル指定値を用いるなどして確認する処理が不要となり、デコード処理の効率化を図ることが可能となる。

　本技術によれば、デコード能力に応じた良好なデコード処理が可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。送信装置の構成例を示すブロック図である。エンコーダで行われる階層符号化の一例を示す図である。ＮＡＬユニットヘッダの構造例（Syntax）およびその構造例における主要なパラメータの内容（Semantics）を示す図である。ＨＥＶＣによる各ピクチャの符号化画像データの構成を説明するための図である。階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示す図である。階層符号化の符号化ストリームと、指定階層における表示期待（表示順）を示す図である。エンコーダ入力順と、指定階層におけるデコーダ出力の表示順を示す図である。階層符号化の際のピクチャのエンコードタイミング（デコード時にはデコードタイミングとなる）の一例を示す図である。エンコーダの単一のビデオストリーム（符号化ストリーム）の出力例を示す図である。エンコーダのベースストリーム（B-stream）と拡張ストリーム（E-stream）の２つのビデオストリーム（符号化ストリーム）の出力例を示す図である。エンコーダの構成例を示すブロック図である。エンコーダの処理フローの一例を示す図である。ＨＥＶＣデスクリプタ（HEVC_descriptor）の構造例（Syntax）を示す図である。ＨＥＶＣデスクリプタの構造例における主要な情報の内容（Semantics）を示す図である。スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）の構造例（Syntax）を示す図である。スケーラビリティ・エクステンション・デスクリプタの構造例における主要な情報の内容（Semantics）を示す図である。ＴＳパケットの構造例（Syntax）を示す図である。ＶＰＳに含まれるビットレートのレベル指定値（general_level_idc）と、ＴＳパケットヘッダの「transport_priority」の設定値との関係を示す図である。マルチプレクサの構成例を示すブロック図である。マルチプレクサの処理フローの一例を示す図である。単一ストリームによる配信を行う場合のトランスポートストリームＴＳの構成例を示す図である。単一ストリームによる配信を行う場合のトランスポートストリームＴＳの具体的な構成例を示す図である。複数ストリーム（２ストリーム）による配信を行う場合のトランスポートストリームＴＳの構成例を示す図である。２ストリームによる配信を行う場合のトランスポートストリームＴＳの具体的な構成例を示す図である。２ストリームによる配信を行う場合のトランスポートストリームＴＳの他の具体的な構成例を示す図である。受信装置の構成例を示すブロック図である。デマルチプレクサの構成例を示すブロック図である。トランスポートストリームＴＳに単一のビデオストリーム（符号化ストリーム）が含まれている場合を示す図である。トランスポートストリームＴＳにベースストリームと拡張ストリームの２つのビデオストリーム（符号化ストリーム）が含まれている場合を示す図である。デマルチプレクサの処理フロー（１フレーム）の一例を示す図である。デマルチプレクサの処理フロー（２フレーム）の一例を示す図である。デコーダの構成例を示すブロック図である。受信装置におけるデコーダ処理能力を考慮したビデオストリーム毎のデコード処理手順の一例を示すフローチャートである。ポスト処理部の構成例を示す図である。デコーダ、ポスト処理部の処理フローの一例を示す図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システム］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、送信装置１００と、受信装置２００とを有する構成となっている。

　送信装置１００は、コンテナとしてのトランスポートストリームＴＳを放送波に載せて送信する。このトランスポートストリームＴＳには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、各階層のピクチャの画像データの符号化データを持つビデオストリームが含まれる。この場合、例えば、Ｈ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化が施され、被参照ピクチャが自己階層および／または自己階層よりも低い階層に所属するように符号化される。

　各階層のピクチャの符号化画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのＮＡＬユニット（nal_unit）のヘッダ部分に、階層識別情報（temporal_idを意味する“nuh_temporal_id_plus1”）が配置される。このように階層識別情報が付加されることで、受信側では、所定階層以下の階層の符号化画像データを選択的に取り出してデコード処理を行うことができる。

　トランスポートストリームＴＳには、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム、あるいは複数の階層が２以上の所定数の階層組に分割され、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。また、このトランスポートストリームＴＳには、階層符号化の階層情報と、ビデオストリームの構成情報が挿入される。この情報は、トランスポートレイヤに挿入される。この情報により、受信側では、階層構成やストリーム構成を容易に把握でき、適切なデコード処理を行うことが可能となる。

　また、上述したように複数の階層が所定数の階層組に分割され、低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケット（トランスポートストリームパケット）の優先度が高く設定される。この優先度により、受信側では、自身のデコード能力に応じた階層組のピクチャの符号化画像データのみをバッファに取り込んで処理することが可能となる。

　また、上述したように複数の階層が所定数の階層組に分割され、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報が付加される。この識別情報として、例えば、ビットストリームのレベル指定値（level_idc）が利用され、高階層側の階層組ほど高い値とされる。

　受信装置２００は、送信装置１００から放送波に載せて送られてくる上述のトランスポートストリームＴＳを受信する。受信装置２００は、このトランスポートストリームＴＳに含まれるビデオストリームから自身のデコード能力に応じて選択的に所定階層以下の階層の符号化画像データを取り出してデコードし、各ピクチャの画像データを取得して、画像再生を行う。

　例えば、上述したように、トランスポートストリームＴＳに、複数の階層のピクチャの符号化画像データを持つ単一のビデオストリームが含まれている場合がある。その場合、デコード能力に応じて選択された優先度のＴＳパケットでコンテナされた所定階層組のピクチャの符号化画像データがバッファに取り込まれてデコードされる。

　また、例えば、上述したように、トランスポートストリームＴＳに、複数の階層が分割されて得られた２以上の所定数の階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれている場合がある。その場合、デコード能力に応じて選択されたビデオストリームが持つ所定階層組のピクチャの符号化画像データがバッファに取り込まれてデコードされる。

　また、受信装置２００は、上述のようにデコードして得られた各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理を行う。このポスト処理により、例えば、デコード能力が低い場合であっても、高表示能力にあったフレームレートの画像データを得ることが可能となる。

　「送信装置の構成」
　図２は、送信装置１００の構成例を示している。この送信装置１００は、ＣＰＵ（Central Processing Unit）１０１と、エンコーダ１０２と、圧縮データバッファ（ｃｐｂ：coded picture buffer）１０３と、マルチプレクサ１０４と、送信部１０５を有している。ＣＰＵ１０１は、制御部であり、送信装置１００の各部の動作を制御する。

　エンコーダ１０２は、非圧縮の動画像データを入力して、階層符号化を行う。エンコーダ１０２は、この動画像データを構成する各ピクチャの画像データを複数の階層に分類する。そして、エンコーダ１０２は、この分類された各階層のピクチャの画像データを符号化し、各階層のピクチャの符号化画像データを持つビデオストリームを生成する。エンコーダ１０２は、例えば、Ｈ．２６４／ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどの符号化を行う。この際、エンコーダ１０２は、参照するピクチャ（被参照ピクチャ）が、自己階層および／または自己階層よりも下位の階層に所属するように、符号化する。

　図３は、エンコーダ１０２で行われる階層符号化の一例を示している。この例は、０から４までの５階層に分類され、各階層のピクチャの画像データに対して符号化が施された例である。

　縦軸は階層を示している。階層０から４のピクチャの符号化画像データを構成するＮＡＬユニット（nal_unit）のヘッダ部分に配置されるtemporal_id（階層識別情報）として、それぞれ、０から４が設定される。一方、横軸は表示順（ＰＯＣ：picture order of composition）を示し、左側は表示時刻が前で、右側は表示時刻が後になる。

　図４（ａ）は、ＮＡＬユニットヘッダの構造例（Syntax）を示し、図４（ｂ）は、その構造例における主要なパラメータの内容（Semantics）を示している。「Forbidden_zero_bit」の１ビットフィールドは、０が必須である。「Nal_unit_type」の６ビットフィールドは、ＮＡＬユニットタイプを示す。「Nuh_layer_id」の６ビットフィールドは、０を前提とする。「Nuh_temporal_id_plus1」の３ビットフィールドは、temporal_idを示し、１を加えた値（１～７）をとる。

　図３に戻って、矩形枠のそれぞれがピクチャを示し、数字は、符号化されているピクチャの順、つまりエンコード順（受信側ではデコード順）を示している。例えば、「２」から「１７」の１６個のピクチャによりサブ・ピクチャグループ（Sub group of pictures）が構成されており、「２」はそのサブ・ピクチャグループの先頭のピクチャとなる。「１」は前のサブ・ピクチャグループのピクチャである。このサブ・ピクチャグループがいくつか集まってＧＯＰ（Group Of Pictures）となる。

　ＧＯＰの先頭ピクチャの符号化画像データは、図５に示すように、ＡＵＤ、ＶＰＳ、ＳＰＳ、ＰＰＳ、ＰＳＥＩ、ＳＬＩＣＥ、ＳＳＥＩ、ＥＯＳのＮＡＬユニットにより構成される。一方、ＧＯＰの先頭ピクチャ以外のピクチャは、ＡＵＤ、ＰＰＳ、ＰＳＥＩ、ＳＬＩＣＥ、ＳＳＥＩ、ＥＯＳのＮＡＬユニットにより構成される。ＶＰＳはＳＰＳと共に、シーケンス（ＧＯＰ）に一度、ＰＰＳは毎ピクチャで伝送可能とされている。

　図３に戻って、実線矢印は、符号化におけるピクチャの参照関係を示している。例えば、「２」のピクチャは、Ｐピクチャであり、「１」のピクチャを参照して符号化される。また、「３」のピクチャは、Ｂピクチャであり、「１」、「２」のピクチャを参照して符号化される。同様に、その他のピクチャは、表示順で近くのピクチャを参照して符号化される。なお、階層４のピクチャは、他のピクチャからの参照がない。

　エンコーダ１０２は、各階層のピクチャの符号化画像データを持つビデオストリームを生成する。例えば、エンコーダ１０２は、複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれを含む所定数のビデオストリームを生成するか、または、各階層組に対応したサブストリームの全てを含む単一のビデオストリームを生成する。

　例えば、図３の階層符号化の例において、階層０から３が低階層の階層組とされ、階層４が高階層の階層組とされて２つの階層組に分割されるとき、２つのサブストリームが存在する。すなわち、階層０から３のピクチャの符号化画像データを持つサブストリームと、階層４のピクチャの符号化画像データを持つサブストリームである。この場合、エンコーダ１０２は、２つのサブストリームを含む単一のビデオストリーム、または２つのサブビデオストリームをそれぞれ含む２つのビデオストリームを生成する。

　エンコーダ１０２は、生成するビデオストリームの数によらず、上述したように、複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する。この場合、例えば、識別情報として、ＳＰＳ（Sequence　Parameter Set）と、ＥＳＰＳ（Enhanced Sequence　Parameter Set）に含まれるビットストリームのレベル指定値である「general_level_idc」が利用される。

　ＳＰＳは、従来周知のＮＡＬユニットであり、最下位の階層組のサブストリーム、つまりベースサブストリームに、シーケンス（ＧＯＰ）毎に含まれる。一方、ＥＳＰＳは、新規定義するＮＡＬユニットであり、最下位より上位の階層組のサブストリーム、つまりエンハンスサブストリームに、シーケンス（ＧＯＰ）毎に含まれる。ＳＰＳ，ＥＳＰＳに含まれる「general_level_idc」の値は、高階層側の階層組ほど高い値とされる。

　なお、サブレイヤ（sublayer）毎に「sub_layer_level_idc」をＳＰＳ，ＥＳＰＳで送ることができるので、階層組を識別する識別情報として、この「sub_layer_level_idc」を用いることも可能である。以上はＳＰＳだけでなくＶＰＳにおいても供給される。

　この場合、各階層組のサブストリームのＳＰＳ，ＥＳＰＳに挿入される「general_level_idc」の値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。例えば、図３の階層符号化の例において、階層０から３の階層組のサブストリームのＳＰＳに挿入される「general_level_idc」の値は、階層０から３のピクチャのみを含むレベル値とされる。例えば、そのフレームレートが６０Ｐであるときは、“ｌｅｖｅｌ５．１”とされる。また、例えば、図３の階層符号化の例において、階層４の階層組のサブストリームのＥＳＰＳに挿入される「general_level_idc」の値は、階層０から４の全てのピクチャを含むレベル値とされる。例えば、そのフレームレートが１２０Ｐであるときは、“ｌｅｖｅｌ５．２”とされる。

　図６は、階層符号化の際のエンコード、デコード、表示順序と遅延の一例を示している。この例は、上述の図３の階層符号化例に対応している。この例は、全階層（全レイヤ）を、フル時間解像度で階層符号化する場合を示している。図６（ａ）はエンコーダ入力を示す。図６（ｂ）に示すように、１６ピクチャ分の遅延をもって、各ピクチャがエンコード順にエンコードされて、符号化ストリームが得られる。また、図６（ｂ）はデコーダ入力も示し、各ピクチャがデコード順にデコードされる。そして、図６（ｃ）に示すように、４ピクチャの遅延をもって、各ピクチャがデコードの画像データが表示順に得られる。

　図７（ａ）は、上述の図６（ｂ）に示す符号化ストリームと同様の符号化ストリームを、階層０から２、階層３、階層４の３段階に分けて示している。ここで、「Ｔｉｄ」は、temporal_idを示している。図７（ｂ）は、階層０から２、つまりＴｉｄ＝０～２の部分階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。また、図７（ｃ）は、階層０から３、つまりＴｉｄ＝０～３の部分階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。さらに、図７（ｄ）は、階層０から４、つまりＴｉｄ＝０～４の全階層の各ピクチャを選択的にデコードする場合の表示期待（表示順）を示している。

　図７（ａ）の符号化ストリームをデコード能力別にデコード処理するには、時間解像度がフルレートのデコード能力が必要となる。しかし、Ｔｉｄ＝０～２のデコードを行う場合、符号化されたフルの時間解像度に対して、１/４のデコード能力をもつデコーダが処理可能とすべきである。また、Ｔｉｄ＝０～３のデコードを行う場合、符号化されたフルの時間解像度に対して、１/２のデコード能力をもつデコーダが処理可能とすべきである。

　しかし、階層符号化において参照される低階層に属するピクチャが連続し、それらが時間解像度でフルなタイミングで符号化されると、部分デコードするデコーダの能力が追い付かないことになる。図７（ａ）のＡの期間がそれに該当する。Ｔｉｄ＝０～２、あるいはＴｉｄ＝０～３の部分的な階層をデコードするデコーダは、表示の例で示すような、時間軸が１/４あるいは１/２の能力でデコード・表示を行うため、Ａの期間符号化された時間解像度がフルで連続するピクチャのデコードはできない。その間、ｃｐｂにエンコーダの想定外のバッファ占有量になる。

　ＴａはＴｉｄ＝０～２をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。ＴｂはＴｉｄ＝０～３をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。ＴｃはＴｉｄ＝０～４（全階層）をデコードするデコーダにおけるピクチャ毎のデコード処理に要する時間を示す。これらの各時間の関係は、Ｔａ＞Ｔｂ＞Ｔｃとなる。

　そこで、この実施の形態においては、階層符号化の低階層に属するピクチャは、ピクチャ毎のデコード間隔を大きく取り、高階層に行くにつれ、デコード間隔が小さくなるようにバッファ制御を行う。その際、階層数に対してのミニマムデコード能力（Target minimum decoder capability）を定義する。例えば、図３の階層符号化の例において、ミニマムデコード能力が階層２までデコードできる能力とすると、５階層のうちの１/４の時間解像度で階層０から２のピクチャをデコードできるように、エンコード時の間隔をとり、後述のマルチプレクサ１０４で多重化する際に、そのデコード時刻の差をデコードタイムスタンプ（ＤＴＳ：decoding Time stamp）の値に反映させる。

　図３の階層符号化例ように、階層数が０～４の５つである場合、階層０から２に属するピクチャの間隔はフル解像度の４倍の時間間隔とし、階層３に属するピクチャの間隔は、フル解像度の２倍の時間間隔とし、階層４に属するピクチャの間隔は、フル解像度の時間間隔とする。

　一方で、エンコーダ１０２は、階層間でピクチャのエンコード（＝デコード）のタイミングが重ならないようにする。すなわち、エンコーダ１０２は、上述の方法で各ピクチャのエンコードを行う際、低階層のピクチャと高階層のピクチャとでエンコードタイミングが重なる場合には、より多くのピクチャから参照される低階層のピクチャのエンコードを優先し、高階層のピクチャは、それに準じたタイミングとする。ただし、最高階層に属するピクチャは非参照のＢピクチャなので、デコードしてそのまま表示（つまりｄｐｂ（decoded picture buffer）に貯めない）とするタイミングとなるよう制御することが可能となる。

　図８（ａ）はエンコーダ入力順を示している（図６（ａ）と同じ）。また、図８（ｂ）～（ｄ）は、表示順（システムレイヤとしてはＰＴＳに相当）を示している（図７（ｂ）～（ｄ）と同じ）。

　図９は、階層符号化の際のピクチャのエンコードタイミング（デコード時にはデコードタイミングとなる）の一例を示している。この例は、上述の図３の階層符号化例に対応している。そして、この例は、ミニマムデコード能力を、階層２までデコードできる能力としたものである。実線による下線が付された部分は、１つのＳＧＰ（Sub Group of Picture）に属するピクチャ（「２」～「１７」の１６個のピクチャ）を示している。また、実線矩形枠で示すピクチャは現在のＳＧＰに属しているが、破線矩形枠で示すピクチャは現在のＳＧＰには属してはおらず、現在のＳＧＰに属するピクチャによる予測には影響を与えない。

　この場合、階層０から２に属するピクチャ、つまりピクチャ「２」、「３」、「４」、「１１」・・・の間隔は、フル解像度の４倍の時間間隔であるＴａとされる。また、階層３に属するピクチャ、つまり「５」、「８」、「１２」・・・の間隔は、基本的には、フル解像度の２倍の時間間隔であるＴｂとされる。

　しかし、「８」のピクチャのタイミングは、「１１」のピクチャのタイミングとの重なりを避けるために、エンコードのタイミングが、次の時間間隔位置とされる。以下、同様に、「１２」、「１５」のピクチャのタイミングも、階層０から２に属するピクチャとの重なりを避けるように調整される。この結果、階層３に属するピクチャのタイミングは、階層０から２に属するピクチャのタイミングの中間とされる。

　また、階層４に属するピクチャ、つまり「６」、「７」、「９」・・の間隔は、基本的には、フル解像度の時間間隔であるＴｃとされる。しかし、階層０から３に属する各ピクチャのタイミングとの重なりを避けるように調整される結果、階層４に属するピクチャのタイミングは、階層０から３に属するピクチャのタイミングの中間とされる。

　図示のように、１ＳＧＰ期間で、１ＳＧＰ分のピクチャ（「２」～「１７」の１６個のピクチャ）のエンコード処理が行われる。これは、上述したように低階層に属するピクチャのエンコード間隔を大きく取る場合であっても実時間処理が可能であることを示している。

　図１０は、エンコーダ１０２の出力例を示している。この例は、エンコーダ１０２が単一のビデオストリーム（符号化ストリーム）を出力する例である。この例は、図３の階層符号化例に対応し、図９に示すタイミングで各ピクチャがエンコードされた場合の例である。

　ビデオストリームは、階層０から４に属する各ピクチャの符号化画像データがエンコード順（符号化順）に配列されたものなっている。なお、このビデオストリームを受信側でデコードするに当たっては、現在のＳＧＰ（太線枠のピクチャ）に属する被参照ピクチャ（階層０から３のピクチャ）はデコード後に非圧縮データバッファ（dpb：decoded picture buffer）に滞留し、他のピクチャからの参照に備える。

　図１１は、エンコーダ１０２の出力例を示している。この例は、エンコーダ１０２がベースストリム（B_str）と拡張ストリーム（E_str）の２つのビデオストリーム（符号化ストリーム）を出力する例である。この例は、図３の階層符号化例に対応し、図９に示すタイミングで各ピクチャがエンコードされた場合の例である。

　ベースストリム（B-stream）は、階層０から３に属する各ピクチャの符号化画像データがエンコード順（符号化順）に配列されたものなっている。また、拡張ストリーム（E-stream）は、階層４に属する各ピクチャの符号化画像データがエンコード順（符号化順）に配列されたものなっている。なお、このビデオストリームを受信側でデコードするに当たっては、現在のＳＧＰ（太線枠のピクチャ）に属する被参照ピクチャ（階層０から３のピクチャ）はデコード後に非圧縮画像データバッファ（dpb：decoded picture buffer）に滞留し、他のピクチャからの参照に備える。

　図１２は、エンコーダ１０２の構成例を示している。このエンコーダ１０２は、テンポラルＩＤ発生部１２１と、バッファ遅延制御部１２２と、ＨＲＤ（Hypothetical Reference Decoder）設定部１２３と、パラメータセット/ＳＥＩエンコード部１２４と、スライスエンコード部１２５と、ＮＡＬパケット化部１２６を有している。

　テンポラルＩＤ発生部１２１には、ＣＰＵ１０１から、階層数（Number of layers）の情報が供給される。テンポラルＩＤ発生部１２１は、この階層数の情報に基づいて、階層数に応じたtemporal_idを発生する。例えば、図３の階層符号例においては、temporal_id＝０～４が発生される。

　バッファ遅延制御部１２２には、ＣＰＵ１０１から、ミニマムデコード能力（minimum_target_decoder_level_idc）の情報が供給されると共に、テンポラルＩＤ発生部１２１で発生されるtemporal_idが供給される。バッファ遅延制御部１２２は、階層毎に、各ピクチャの「cpb_removal_delay」、「dpb_output_delay」を計算する。

　この場合、階層数に対しての、それをデコードするターゲットデコーダのミニマムデコード能力が指定されることで、被参照の低階層ピクチャのエンコードタイミング、そしてデコード即表示の高階層ピクチャのエンコードタイミングが決定される（図９参照）。このエンコードタイミングは、受信側で圧縮データバッファ（ｃｐｂ：coded picture buffer）から読み出されるデコードタイミングと同じ意味を示す。

　「cpb_removal_delay」は、ピクチャが属する階層を反映して決められる。例えば、階層数をＮとし、temporal_id（Ｔｉｄ）が０～Ｎ－１の範囲の値をとるものとする。また、ミニマムデコード能力は、temporal_id＝Ｋの階層のピクチャをデコードできる能力とする。バッファ遅延制御部１２２は、各階層におけるピクチャのエンコード間隔Ｄを、以下の数式（１）で求め、「cpb_removal_delay」、「dpb_output_delay」に反映させる。

　　　D = 2 ** (N-1 - K )　　　　　　　(Tid <= K )
　　　D = 2 ** (N-1 - Tid )　　　　　　(K < Tid <　N - 1 )
　　　D = 入力シーケンス間隔　　　　　(Tid = N ? 1 )
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　・・・（１）

　なお、階層間で、時間的にエンコードタイミングが重なってしまう場合は、低階層側が優先的にエンコードされ、高階層側は上記の式で割り当てられる、次のタイムスロット（timeslot）でエンコードされる。

　ＨＲＤ（Hypothetical Reference Decoder）設定部１２３には、バッファ遅延制御部１２２で計算された各階層のピクチャの「cpb_removal_delay」、「dpb_output_delay」が供給されると共に、ＣＰＵ１０１からストリーム数（Number of streams）の情報が供給される。ＨＲＤ設定部１２３は、これらの情報に基づいてＨＲＤ設定を行う。

　パラメータセット/ＳＥＩエンコード部１２４には、ＨＲＤ設定情報と共に、temporal_idが供給される。パラメータセット/ＳＥＩエンコード部１２４は、符号化するストリーム数に応じて、各階層のピクチャのＶＰＳ、ＳＰＳ（ＥＳＰＳ）、ＰＰＳなどのパラメータセットとＳＥＩを生成する。

　例えば、「cpb_removal_delay」と「dpb_output_delay」を含むピクチャ・タイミング・ＳＥＩ（Picture timing SEI）が生成される。また、例えば、「initial_cpb_removal_time」を含むバッファリング・ピリオド・ＳＥＩ（Buffereing Perifod SEI）が生成される。バッファリング・ピリオド・ＳＥＩは、ＧＯＰの先頭のピクチャ（アクセスユニット）に対応して生成される。

　「initial cpb removal time」は、圧縮データバッファ（ｃｐｂ）からＧＯＰ（Group Of Picture）の先頭のピクチャの符号化画像データをデコードする際に取り出す時刻（初期時刻）を示す。「cpb_removal_delay」は、各ピクチャの符号化画像データを圧縮データバッファ（ｃｐｂ）から取り出す時間であり、「initial_cpb_removal_time」と合わせて時刻が決まる。また、「dpb_output_delay」は、デコードして非圧縮データバッファ（ｄｐｂ）に入ってから取り出す時間を示す。

　スライスエンコード部１２５は、各階層のピクチャの画像データをエンコードしてスライスデータ（slice segment header, slice segment data）を得る。スライスデコード部１２５は、フレームバッファにより、時間方向の予測の状態を表す情報として、「Prediction Unit」の予測先ピクチャのインデックスを示す「ref_idx_l0_active(ref_idx_l1_active)を、「slice segment header」に挿入する。これにより、デコード時には、temporal_idで示される階層レベルと共に、被参照ピクチャが決定される。また、スライスデコード部１２５は、現在のスライス（slice）のインデックスを、「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」として、「slice segment header」に挿入する。

　ＮＡＬパケット化部１２６は、パラメータセット/ＳＥＩエンコード部１２４で生成されたパラメータセットおよびＳＥＩと、スライスエンコード部１２５で生成されるスライスデータに基づき、各階層のピクチャの符号化画像データを生成し、ストリーム数に応じた数のビデオストリーム（符号化ストリーム）を出力する。

　その際、ピクチャごとに、その階層を示すtemporal_idがＮＡＬユニットヘッダに付される（図４参照）。また、temporal_idで示される階層に属するピクチャは、サブレイヤ（sub_layer）として括られ、サブレイヤごとのビットレートのレベル指定値「Level_idc」が「sublayer_level_idc」とされて、ＶＰＳやＳＰＳ（ＥＳＰＳ）に挿入される。

　図１３は、エンコーダ１０２の処理フローを示す。エンコーダ１０２は、ステップＳＴ１において、処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、エンコーダ１０２は、階層符号化における階層数Ｎを設定する。次に、エンコーダ１０２は、ステップＳＴ３において、各階層のピクチャのtemporal_idを０～（Ｎ－１）とする。

　次に、エンコーダ１０２は、ステップＳＴ４において、対象デコーダのうち、最小能力のデコーダがデコードできる階層レベルＫを、０～Ｎ－１の範囲内に設定する。そして、エンコーダ１０２は、ステップＳＴ５において、バッファ遅延制御部１２２で、各階層におけるピクチャエンコード間隔Ｄを、上述の数式（１）で求める。

　次に、エンコーダ１０２は、ステップＳＴ６において、階層間でピクチャのエンコードタイミングが時間的に重なるか否かを判断する。エンコードタイミングが重なるとき、エンコーダ１０２は、ステップＳＴ７において、低階層のピクチャを優先して符号化し、高階層のピクチャは、次のエンコード間隔Ｄのタイミングでエンコードする。その後、エンコーダ１０２は、ステップＳＴ８の処理に移る。

　ステップＳＴ６でエンコードタイミングが重ならないとき、エンコーダ１０２は、直ちに、ステップＳＴ８の処理に移る。このステップＳＴ８において、エンコーダ１０２は、ステップＳＴ５で求めた各階層のピクチャのエンコード間隔Ｄを「cpb_removal_delay」、「dpb_output_delay」に反映し、ＨＲＤ設定、パラメータセット/ＳＥＩのエンコード、スライスエンコードを行い、ＮＡＬユニットとして多重化ブロックへ転送する。その後、エンコーダ１０２は、ステップＳＴ９において、処理を終了する。

　図２に戻って、圧縮データバッファ(ｃｐｂ)１０３は、エンコーダ１０２で生成された、各階層のピクチャの符号化データを含むビデオストリームを、一時的に蓄積する。マルチプレクサ１０４は、圧縮データバッファ１０３に蓄積されているビデオストリームを読み出し、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

　このトランスポートストリームＴＳには、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム、あるいは複数の階層が２以上の所定数の階層組に分割され、各階層組のピクチャの符号化画像データをそれぞれ持つ所定数のビデオストリームが含まれる。マルチプレクサ１０４は、トランスポートストリームＴＳに、階層情報、ストリーム構成情報を挿入する。

　トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＭＴには、各ビデオストリームに関連した情報を持つビデオエレメンタリ・ループ（video ES1 loop）が存在する。このビデオエレメンタリ・ループには、各ビデオストリームに対応して、ストリームタイプ、パケット識別子（ＰＩＤ）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。

　マルチプレクサ１０４は、このデスクリプタの一つとして、ＨＥＶＣデスクリプタ（HEVC_descriptor）を挿入し、さらに、新たに定義するスケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）を挿入する。

　図１４は、ＨＥＶＣデスクリプタ（HEVC_descriptor）の構造例（Syntax）を示している。また、図１５は、その構造例における主要な情報の内容（Semantics）を示している。

　「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、ＨＥＶＣデスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

　「level_idc」の８ビットフィールドは、ビットレートのレベル指定値を示す。また、「temporal_layer_subset_flag = 1」であるとき、「temporal_id_min」の５ビットフィールドと、「temporal_id_max」の５ビットフィールドが存在する。「temporal_id_min」は、対応するビデオストリームに含まれる階層符号化データの最も低い階層のtemporal_idの値を示す。「temporal_id_max」は、対応するビデオストリームが持つ階層符号化データの最も高い階層のtemporal_idの値を示す。

　「level_constrained_flag」の１ビットフィールドは、新たに定義するものであり、該当サブストリーム（substream）にＳＰＳあるいはＥＳＰＳが存在し、その要素の“general_level_idc”は、そのサブストリームが含むtemporal_id（階層識別情報）以下のピクチャ（Picture）を含むレベル（Level）値をもつことを示す。“１”は、該当サブストリームにＳＰＳあるいはＥＳＰＳが存在し、その要素の“general_level_idc”は、そのサブストリームが含むtemporal_id 以下のピクチャを含むレベル値をもつ、ことを示す。“０”は、対象となるサービスを構成するサブストリーム群の中にはＳＰＳが１つ存在し、その“general_level_idc”は、当該サブストリームのみならず、同一サービスの下の他のサブストリームも含むレベル値を示す。

　「scalability_id」の３ビットフィールドは、新たに定義するものであり、複数のビデオストリームがスケーラブルなサービスを供給する際、個々のストリームに付されるスケーラビリティを示すＩＤである。“０”はベースストリームを示し、“１”～“７”はベースストリームからのスケーラビリティの度合いによって増加するＩＤである。

　図１６は、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）の構造例（Syntax）を示している。また、図１７は、その構造例における主要な情報の内容（Semantics）を示している。

　「scalability_extension_descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、スケーラビリティ・エクステンション・デスクリプタであることを示す。「scalability_extension_descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。「extension_stream_existing_flag」の１ビットフィールドは、別ストリームによる拡張サービスがあることを示すフラグである。“１”は拡張ストリームがあることを示し、“０”は拡張ストリームがないことを示す。

　「extension_type」の３ビットフィールドは、拡張のタイプを示す。“００１”は、拡張が、時間方向スケーラブルであることを示す。“０１０”は、拡張が、空間方向スケーラブルであることを示す。“０１１”は、拡張が、ビットレートスケーラブルであることを示す。

　「number_of_streams」の４ビットフィールドは、配信サービスに関与するストリームの総数を示す。「scalability_id」の３ビットフィールドは、複数のビデオストリームがスケーラブルなサービスを供給する際、個々のストリームに付されるスケーラビリティを示すＩＤである。“０”はベースストリームを示し、“１”～“７”はベースストリームからのスケーラビリティの度合いによって増加するＩＤである。「minimum_target_decoder_level_idc」の８ビットフィールドは、該当ストリームが対象とするデコーダの能力を示す。この情報は、受信機において、デコーダがストリームをデコードする前に符号化ピクチャの想定デコードタイミングがデコーダのpictureデコード処理能力の範囲を超えていないかどうかの判断に利用する。

　上述したように、この実施の形態において、ＳＰＳ，ＥＳＰＳに含まれるビットレートのレベル指定値（general_level_idc）などは、複数の階層を２以上の所定数の階層組に分割した際の所属階層組の識別情報として利用される。各階層組のレベル指定値の値は、この階層組のピクチャと、この階層組より低階層側の全ての階層組のピクチャとからなるフレームレートに対応した値とされる。

　マルチプレクサ１０４は、低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの優先度ほど高く設定する。マルチプレクサ１０４は、例えば、複数の階層を低階層組と高階層組に二分する場合、ＴＳパケットヘッダの「transport_priority」の１ビットフィールドを利用する。

　図１８は、ＴＳパケットの構造例（Syntax）を示している。「transport_priority」の１ビットフィールドは、ベースレイヤ、つまり低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合は“１”に設定され、ノンベースレイヤ、つまり高階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合は“０”に設定される。

　図１９は、ＳＰＳ，ＥＳＰＳのＮＡＬユニットに含まれるビットレートのレベル指定値（general_level_idc）と、ＴＳパケットヘッダの「transport_priority」の設定値との関係を示している。受信側では、これらの情報の一方あるいは双方を用いて、低階層側の階層組のピクチャの符号化画像データと、高階層側の階層組のピクチャの符号化画像データとを、分別することが可能となる。

　図２０は、マルチプレクサ１０４の構成例を示している。ＴＳプライオリティ発生部１４１と、セクションコーディング部１４２と、ＰＥＳパケット化部１４３-1～１４３-Nと、スイッチ部１４４と、トランスポートパケット化部１４５を有している。

　ＰＥＳパケット化部１４３-1～１４３-Nは、それぞれ、圧縮データバッファ１０３に蓄積されているビデオストリーム１～Ｎを読み込み、ＰＥＳパケットを生成する。この際、ＰＥＳパケット化部１４３-1～１４３-Nは、ビデオストリーム１～ＮのＨＲＤ情報を元にＤＴＳ（Decoding Time Stamp）、ＰＴＳ（Presentation Time Stamp）のタイムスタンプをＰＥＳヘッダに付与する、この場合、各ピクチャの「cpu_removal_delay」、「dpb_output_delay」が参照され、ＳＴＣ（System Time Clock）時刻に同期した精度で、各々ＤＴＳ、ＰＴＳに変換され、ＰＥＳヘッダの所定位置に配置される。

　スイッチ部１４４は、ＰＥＳパケット化部１４３-1～１４３-Nで生成されたＰＥＳパケットを、パケット識別子（ＰＩＤ）に基づいて選択的に取り出し、トランスポートパケット化部１４５に送る。トランスポートパケット化部１４５は、ＰＥＳパケットをペイロードに含むＴＳパケットを生成し、トランスポートストリームを得る。

　ＴＳプライオリティ発生部１４１には、ＣＰＵ１０１から、階層数（Number of layers）とストリーム数（Number of streams）の情報が供給される。ＴＳプライオリティ発生部１４１は、階層数で示される複数の階層を２以上の所定数の階層組に分割した場合における、各階層組の優先度を発生する。例えば、２分割される場合には、ＴＳパケットヘッダの「transport_priority」の１ビットフィールドに挿入すべき値が発生される（図１９参照）。

　ＴＳプライオリティ発生部１４１は、各階層組の優先度の情報を、トランスポートパケット化部１４５に送る。トランスポートパケット化部１４５は、この情報に基づいて、各ＴＳパケットの優先度を設定する。この場合、上述したように、低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの優先度ほど高く設定する。

　セクションコーディング部１４２には、ＣＰＵ１０１から、階層数（Number of layers）と、ストリーム数（Number of streams）と、最小ターゲットデコーダ・レベル(Minimum_target_decoder_level_idc)の情報が供給される。セクションコーディング部１４２は、この情報に基づいて、トランスポートストリームＴＳに挿入すべき各種のセクションデータ、例えば、上述したＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）などを生成する。

　セクションコーディング部１４２は、各種セクションデータを、トランスポートパケット化部１４５に送る。トランスポートパケット化部１４５は、このセクションデータを含むＴＳパケットを生成し、トランスポートストリームＴＳに挿入する。

　図２１は、マルチプレクサ１０４の処理フローを示す。この例は、複数の階層を低階層組と高階層組の２つに分割する例である。マルチプレクサ１０４は、ステップＳＴ１１において、処理を開始し、その後に、ステップＳＴ１２の処理に移る。このステップＳＴ１２において、マルチプレクサ１０４は、ビデオストリーム（ビデオエレメンタリストリーム）の各ピクチャのtemporal_id_、構成する符号化ストリーム数を設定する。

　次に、マルチプレクサ１０４は、ステップＳＴ１３において、低階層組のピクチャ、あるいは低階層組のピクチャを含むビデオストリームを多重化する際の「transport_priority」を“１”に設定する。また、マルチプレクサ１０４は、ステップＳＴ１４において、ＨＲＤ情報（cpu_removal_delay、dpb_output_delay）を参照して、ＤＴＳ、ＰＴＳを決め、ＰＥＳヘッダに挿入する。

　次に、マルチプレクサ１０４は、ステップＳＴ１５において、シングルストリーム（単一ビデオストリーム）か否かを判断する。シングルストリームであるとき、マルチプレクサ１０４は、ステップＳＴ１６において、１つのＰＩＤ（パケット識別子）で多重化処理を進めることとし、その後に、ステップＳＴ１７の処理に移る。一方、シングルストリームでないとき、マルチプレクサ１０４は、ステップＳＴ１８において、複数のパケットＰＩＤ（パケット識別子）で多重化処理を進めることとし、その後に、ステップＳＴ１７の処理に移る。

　このステップＳＴ１７において、マルチプレクサ１０４は、ＨＥＶＣデスクリプタ、スケーラビリティ・エクステンション・デスクリプタなどをコーディングする。そして、マルチプレクサ１０４は、ステップＳＴ１９において、ビデオストリームをＰＥＳペイロードに挿入してＰＥＳパケット化し、その後、ステップＳＴ２０において、トランスポートパケット化し、トランスストリームＴＳを得る。その後、マルチプレクサ１０４は、ステップＳＴ２１において、処理を終了する。

　図２２は、単一ビデオストリームによる配信を行う場合のトランスポートストリームＴＳの構成例を示している。このトランスポートストリームＴＳには、単一ビデオストリームが含まれている。すなわち、この構成例では、複数の階層のピクチャの例えばＨＥＶＣによる符号化画像データを持つビデオストリームのＰＥＳパケット「video PES1」が存在すると共に、オーディオストリームのＰＥＳパケット「audio PES1」が存在する

　この単一のビデオストリームには、階層符号化の複数の階層が２以上の所定数の階層組に分割されて得られた所定数のサブストリームが含まれる。ここで、最下位の階層組のサブストリーム（ベースサブストリーム）にはＳＰＳが含まれ、最下位より上位の階層組のサブストリーム（エンハンスサブストリーム）にはＥＳＰＳが含まれる。そして、ＳＰＳ，ＥＳＰＳの要素の“general_level_idc”の値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。

　各ピクチャの符号化画像データには、ＶＰＳ、ＳＰＳ、ＥＳＰＳ、ＳＥＩなどのＮＡＬユニットが存在する。上述したように、各ピクチャのＮＡＬユニットのヘッダには、そのピクチャの階層を示すtemporal_idが挿入されている。また、例えば、ＳＰＳ，ＥＳＰＳにはビットレートのレベル指定値（general_level_idc）が含まれている。また、例えば、ピクチャ・タイミング・ＳＥＩ（Picture timing SEI）には、「cpb_removal_delay」と「dpb_output_delay」が含まれている。

　なお、各ピクチャの符号化画像データをコンテナするＴＳパケットのヘッダに「transport_priority」の１ビットの優先度を示すフィールドが存在する。この「transport_priority」により、コンテナする符号化画像データが、低階層組のピクチャのものか、あるいは高階層組のピクチャのものかが識別可能である。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。

　ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ（video ES1 loop）が存在すると共に、オーディオエレメンタリ・ループ（audio ES1 loop）が存在する。

　ビデオエレメンタリ・ループには、ビデオストリーム（video PES1）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）が挿入される。

　図２３は、図３の階層符号化の例において、階層０～３のピクチャでベースサブストリーム（B stream）が生成され、階層４のピクチャでエンハンスサブストリーム（E stream）が生成される場合を示している。この場合、ベースサブストリームに含まれる各ピクチャは６０Ｐを構成し、エンハンスサブストリーム（E stream）に含まれる各ピクチャは、ベースサブストリームに含まれる各ピクチャに追加されてＰＥＳ全体で１２０Ｐを構成する。

　ベースサブストリームのピクチャは、「ＡＵＤ」、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＰＳＥＩ」、「ＳＬＩＣＥ」、「ＳＳＥＩ」、「ＥＯＳ」などのＮＡＬユニットにより構成される。「ＶＰＳ」、「ＳＰＳ」は、例えば、ＧＯＰの先頭ピクチャに挿入される。ＳＰＳの要素の“general_level_idc”の値は、“level5.1”とされる。なお、「ＥＯＳ」はなくてもよい。

　一方、エンハンスサブストリームのピクチャは、「ＡＵＤ」、「ＥＳＰＳ」、「ＰＰＳ」、「ＰＳＥＩ」、「ＳＬＩＣＥ」、「ＳＳＥＩ」、「ＥＯＳ」などのＮＡＬユニットにより構成される。なお、「ＥＳＰＳ」は、例えば、ＧＯＰの先頭ピクチャに挿入される。ＥＳＰＳの要素の“general_level_idc”の値は、“level5.2”とされる。なお、「ＰＳＥＩ」、「ＳＳＥＩ」、「ＥＯＳ」はなくてもよい。

　「video ES1 loop」には、ビデオストリーム（video PES1）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、ベースストリームを示す“０ｘ２４”とされる。また、デスクリプタの一つとして、上述したＨＥＶＣデスクリプタが挿入される。

　「level_constrained_flag」の１ビットフィールドは、“１”とされる。これにより、「該当サブストリームにＳＰＳあるいはＥＳＰＳが存在し、その要素の“general_level_idc”は、そのサブストリームが含むtemporal_id 以下のピクチャを含むレベル値をもつ」ことが示される。また、「level_idc」の値は、ビデオストリーム（video PES1）の全体のレベル値を示す“level5.2”とされる。また、「temporal_id_min」は０とされ、「temporal_id_max」は４とされ、ビデオストリーム（video PES1）に階層０～４のピクチャが含まれていることが示される。

　このような単一ビデオストリームによる配信が行われる場合、受信側では、「level_constrained_flag」、ＳＰＳ、ＥＳＰＳの要素の“general_level_idc”などに基づいて、各サブストリームが自身のデコーダ処理能力の範囲内にあるか否かが判断され、範囲内にあるサブストリームのデコードが行われる。

　図２４は、複数ストリーム、ここでは２ストリームによる配信を行う場合のトランスポートストリームＴＳの構成例を示している。このトランスポートストリームＴＳには、２つのビデオストリームが含まれている。すなわち、この構成例では、複数の階層が低階層組と高階層組の２つの階層組に分割され、２つの階層組のピクチャの例えばＨＥＶＣによる符号化画像データを持つビデオストリームのＰＥＳパケット「video PES1」、「video PES2」が存在すると共に、オーディオストリームのＰＥＳパケット「audio PES1」が存在する。

　この２つのビデオストリームには、階層符号化の複数の階層が２つの階層組に分割されて得られた２つのサブストリームのそれぞれが含まれる。ここで、下位側の階層組のサブストリーム（ベースサブストリーム）にはＳＰＳが含まれ、上位側の階層組のサブストリーム（エンハンスサブストリーム）にはＥＳＰＳが含まれる。そして、ＳＰＳ，ＥＳＰＳの要素の“general_level_idc”の値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。

　各ピクチャの符号化画像データには、ＳＰＳ、ＥＳＰＳなどのＮＡＬユニットが存在する。上述したように、各ピクチャのＮＡＬユニットのヘッダには、そのピクチャの階層を示すtemporal_idが挿入されている。また、例えば、ＳＰＳ、ＥＳＰＳにはビットレートのレベル指定値（general_level_idc）が含まれている。また、例えば、ピクチャ・タイミング・ＳＥＩ（Picture timing SEI）には、「cpb_removal_delay」と「dpb_output_delay」が含まれている。

　また、各ピクチャの符号化画像データをコンテナするＴＳパケットのヘッダに「transport_priority」の１ビットの優先度を示すフィールドが存在する。この「transport_priority」により、コンテナする符号化画像データが、低階層組のピクチャのものか、あるいは高階層組のピクチャのものかが識別可能である。

　ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、２つのビデオエレメンタリ・ループ（video ES1 loop, video ES2 loop ）が存在すると共に、オーディオエレメンタリ・ループ（audio ES1 loop）が存在する。

　各ビデオエレメンタリ・ループには、ビデオストリーム（video PES1, video PES2）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）が挿入される。

　図２５は、図３の階層符号化の例において、階層０～３のピクチャでベースサブストリーム（B stream）が生成され、階層４のピクチャでエンハンスサブストリーム（E stream）が生成される場合を示している。この場合、ベースサブストリームに含まれる各ピクチャは６０Ｐを構成し、エンハンスサブストリーム（E stream）に含まれる各ピクチャは、ベースサブストリームに含まれる各ピクチャに追加されてＰＥＳ全体で１２０Ｐを構成する。

　ベースサブストリームのピクチャは、「ＡＵＤ」、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＰＳＥＩ」、「ＳＬＩＣＥ」、「ＳＳＥＩ」、「ＥＯＳ」などのＮＡＬユニットにより構成される。なお、「ＶＰＳ」、「ＳＰＳ」は、例えば、ＧＯＰの先頭ピクチャに挿入される。ＳＰＳの要素の“general_level_idc”の値は、“level5.1”とされる。なお、「ＥＯＳ」はなくてもよい。

　「level_constrained_flag」の１ビットフィールドは、“１”とされる。これにより、「該当サブストリームにＳＰＳあるいはＥＳＰＳが存在し、その要素の“general_level_idc”は、そのサブストリームが含むtemporal_id 以下のピクチャを含むレベル値をもつ」ことが示される。また、「level_idc」の値は、ベースサブストリーム（B stream）のレベル値を示す“level5.1”とされる。また、「temporal_id_min」は０とされ、「temporal_id_max」は３とされ、ベースサブストリーム（B stream）に階層０～３のピクチャが含まれていることが示される。

　「video ES2 loop」には、ビデオストリーム（video PES2）に対応して、ストリームタイプ、パケット識別子（PID）等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このストリームタイプは、エンハンススストリームを示す“０ｘ２５”とされる。また、デスクリプタの一つとして、上述したＨＥＶＣデスクリプタが挿入される。

　「level_constrained_flag」の１ビットフィールドは、“１”とされる。これにより、「該当サブストリームにＳＰＳあるいはＥＳＰＳが存在し、その要素の“general_level_idc”は、そのサブストリームが含むtemporal_id 以下のピクチャを含むレベル値をもつ」ことが示される。また、「level_idc」の値は、ベースサブストリーム（B stream）およびエンハンスストリーム（E stream）のレベル値を示す“level5.2”とされる。また、「temporal_id_min」は４とされ、「temporal_id_max」は４とされ、エンハンスストリーム（E stream））に階層４のピクチャが含まれていることが示される。

　このような複数ビデオストリームによる配信が行われる場合、受信側では、「level_constrained_flag」、ＳＰＳ、ＥＳＰＳの要素の“general_level_idc”などに基づいて、各サブストリームが自身のデコーダ処理能力の範囲内にあるか否かが判断され、範囲内にあるサブストリームのデコードが行われる。

　図２６は、図３の階層符号化の例において、階層０～３のピクチャでベースサブストリーム（B stream）が生成され、階層４のピクチャでエンハンスサブストリーム（E stream）が生成される場合におけるトランスポートストリームＴＳの他の構成例を示している。この場合、ベースサブストリームに含まれる各ピクチャは６０Ｐを構成し、エンハンスサブストリーム（E stream）に含まれる各ピクチャは、ベースサブストリームに含まれる各ピクチャに追加されてＰＥＳ全体で１２０Ｐを構成する。

　ベースサブストリームのピクチャは、「ＡＵＤ」、「ＶＰＳ」、「ＳＰＳ」、「ＰＰＳ」、「ＰＳＥＩ」、「ＳＬＩＣＥ」、「ＳＳＥＩ」、「ＥＯＳ」などのＮＡＬユニットにより構成される。なお、「ＶＰＳ」、「ＳＰＳ」は、例えば、ＧＯＰの先頭ピクチャに挿入される。ＳＰＳの要素の“general_level_idc”の値は、“level5.2”とされる。この場合、ＳＰＳの要素の“sub_layer_level_present_flag”は“１”とされ、“sublayer_level_idc[3]”で、ベースサブストリームのレベル値“level5.1”が示される。なお、「ＥＯＳ」はなくてもよい。

　エンハンスサブストリームのピクチャは、「ＡＵＤ」、「ＰＰＳ」、「ＳＬＩＣＥ」などのＮＡＬユニットにより構成される。しかし、図２５におけるような「ＥＳＰＳ」のＮＡＬユニットは存在しない。

　図２５におけるような「level_constrained_flag」は存在しない。「level_idc」の値は、ベースサブストリーム（B stream）のレベル値を示す“level5.1”とされる。また、「temporal_id_min」は０とされ、「temporal_id_max」は３とされ、ベースサブストリーム（B stream）に階層０～３のピクチャが含まれていることが示される。

　図２５におけるような「level_constrained_flag」は存在しない。「level_idc」の値は、ベースサブストリーム（B stream）およびエンハンスストリーム（E stream）のレベル値を示す“level5.2”とされる。また、「temporal_id_min」は４とされ、「temporal_id_max」は４とされ、エンハンスストリーム（E stream））に階層４のピクチャが含まれていることが示される。

　このような複数ビデオストリームによる配信が行われる場合、受信側では、ＳＰＳの要素の“general_level_idc”、“sublayer_level_idc”などに基づいて、各サブストリームが自身のデコーダ処理能力の範囲内にあるか否かが判断され、範囲内にあるサブストリームのデコードが行われる。

　図２に戻って、送信部１０５は、トランスポートストリームＴＳを、例えば、ＱＰＳＫ／ＯＦＤＭ等の放送に適した変調方式で変調し、ＲＦ変調信号を送信アンテナから送信する。

　図２に示す送信装置１００の動作を簡単に説明する。エンコーダ１０２には、非圧縮の動画像データが入力される。エンコーダ１０２では、この動画像データに対して、階層符号化が行われる。すなわち、エンコーダ１０２では、この動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化され、各階層のピクチャの符号化画像データを持つビデオストリームが生成される。この際、参照するピクチャが、自己階層および／または自己階層よりも下位の階層に所属するように、符号化される。

　エンコーダ１０２では、各階層のピクチャの符号化画像データを持つビデオストリームが生成される。例えば、エンコーダ１０２では、複数の階層が２以上の所定数の階層組に分割され、各階層組に対応したサブストリームのそれぞれを含む所定数のビデオストリームが生成されるか、または、各階層組に対応したサブストリームの全てを含む単一のビデオストリームが生成される。

　エンコーダ１０２では、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報が付加される。この場合、例えば、識別情報として、ＳＰＳ，ＥＳＰＳの要素である「general_level_idc」が利用される。ＳＰＳは、最下位の階層組のサブストリーム（ベースサブストリーム）に、シーケンス（ＧＯＰ）毎に含まれる。一方、ＥＳＰＳは、最下位より上位の階層組のサブストリーム（エンハンスサブストリーム）に、シーケンス（ＧＯＰ）毎に含まれる。ＳＰＳ，ＥＳＰＳに含まれる「general_level_idc」の値は、高階層側の階層組ほど高い値とされる。例えば、各階層組のサブストリームのＳＰＳ，ＥＳＰＳに挿入される「general_level_idc」の値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる。

　エンコーダ１０２で生成された、各階層のピクチャの符号化データを含むビデオストリームは、圧縮データバッファ（ｃｐｂ）１０３に供給され、一時的に蓄積される。マルチプレクサ１０４では、圧縮データバッファ１０３に蓄積されているビデオストリームが読み出され、ＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

　このトランスポートストリームＴＳには、各階層のピクチャの符号化画像データを持つ単一のビデオストリーム、あるいは２以上の所定数のビデオストリームが含まれる。マルチプレクサ１０４では、トランスポートストリームＴＳに、階層情報、ストリーム構成情報が挿入される。すなわち、マルチプレクサ１０４では、各ビデオストリームに対応したビデオエレメンタリ・ループに、ＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）が挿入される。

　また、マルチプレクサ１０４では、低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの優先度ほど高く設定される。マルチプレクサ１０４では、例えば、複数の階層を低階層組と高階層組に二分される場合、ＴＳパケットヘッダの「transport_priority」の１ビットフィールドが利用されて優先度が設定される。

　マルチプレクサ１０４で生成されるトランスポートストリームＴＳは、送信部１０５に送られる。送信部１０５では、このトランスポートストリームＴＳが、例えば、ＱＰＳＫ／ＯＦＤＭ等の放送に適した変調方式で変調され、ＲＦ変調信号が送信アンテナから送信される。

　「受信装置の構成」
　図２７は、受信装置２００の構成例を示している。この受信装置２００は、ＣＰＵ（Central Processing Unit）２０１と、受信部２０２と、デマルチプレクサ２０３と、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４を有している。また、この受信装置２００は、デコーダ２０５と、非圧縮データバッファ（ｄｐｂ：decoded picture buffer）２０６と、ポスト処理部２０７を有している。ＣＰＵ２０１は、制御部を構成し、受信装置２００の各部の動作を制御する。

　受信部２０２は、受信アンテナで受信されたＲＦ変調信号を復調し、トランスポートストリームＴＳを取得する。デマルチプレクサ２０３は、トランスポートストリームＴＳから、デコード能力（Decoder temporal layer capability）に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４に送る。

　図２８は、デマルチプレクサ２０３の構成例を示している。このデマルチプレクサ２０３は、ＰＣＲ抽出部２３１と、タイムスタンプ抽出部２３２と、セクション抽出部２３３と、ＴＳプライオリティ抽出部２３４と、ＰＥＳペイロード抽出部２３５と、ピクチャ選択部２３６を有している。

　ＰＣＲ抽出部２３１は、ＰＣＲ（Program Clock Reference）が含まれるＴＳパケットからＰＣＲを抽出し、ＣＰＵ２０１に送る。タイムスタンプ抽出部２３２は、ピクチャ毎にＰＥＳヘッダに挿入されているタイムスタンプ（ＤＴＳ、ＰＴＳ）を抽出し、ＣＰＵ２０１に送る。セクション抽出部２３３は、トランスポートストリームＴＳからセクションデータを抽出し、ＣＰＵ２０１に送る。このセクションデータには、上述したＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）などが含まれている。

　ＴＳプライオリティ抽出部２３４は、各ＴＳパケットに設定されている優先度情報を抽出する。この優先度は、上述したように、複数の階層を２以上の所定数の階層組に分割した場合における各階層組の優先度であり、低階層側の階層組ほど高く設定されている。例えば、低階層組と高階層組に２分されている場合、ＴＳパケットヘッダの「transport_priority」の１ビットフィールドの値が抽出される。この値は、低階層組では“１”とされ、高階層組では“０”に設定されている。

　ＰＥＳペイロード抽出部２３５は、トランスポートストリームＴＳからＰＥＳペイロード、つまり、各階層のピクチャの符号化画像データを抽出する。ピクチャ選択部２３６は、ＰＥＳペイロード抽出部２３５で取り出される各階層のピクチャの符号化画像データから、デコード能力（Decoder temporal layer capability）に応じた階層組のピクチャの符号化画像データを選択的に取り出し、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０４に送る。この場合、ピクチャ選択部２３６は、セクション抽出部２３３で得られる階層情報、ストリーム構成情報、ＴＳプライオリティ抽出部２３４で抽出される優先度情報を参照する。

　例えば、トランスポートストリームＴＳに含まれるビデオストリーム（符号化ストリーム）のフレームレートが１２０ｆｐｓである場合を考える。例えば、複数の階層が低階層側の階層組と高階層側の階層組とに２分割され、各階層組のピクチャのフレームレートがそれぞれ６０ｆｐｓであるとする。例えば、上述の図３に示す階層符号化例では、階層０から３は低階層側の階層組とされ、階層４は高階層側の階層組とされる。

　ＴＳパケットのヘッダに含まれる「transport_priority」の１ビットフィールドは、ベースレイヤ、つまり低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合には“１”に設定され、ノンベースレイヤ、つまり高階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合には“０”に設定されている。

　この場合、トランスポートストリームＴＳに、各階層のピクチャの符号化データを持つ単一のビデオストリーム（符号化ストリーム）（図１０参照）が含まれている場合がある。また、この場合、トランスポートストリームＴＳに、低階層側の階層組のピクチャの符号化画像データ持つベースストリーム（B-stream）と、高階層側の階層組のピクチャの符号化画像データを持つエンハンスストリーム（E-stream）の２つのビデオストリーム（符号化ストリーム）が含まれている場合（図１１参照）がある。

　ピクチャ選択部２３６は、例えば、デコード能力が、１２０Ｐ（１２０ｆｐｓ）に対応している場合、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。一方、ピクチャ選択部２３６は、例えば、デコード能力が、１２０Ｐに対応していないが６０Ｐ（６０ｆｐｓ）に対応している場合、低階層側の階層組のピクチャの符号化画像データのみを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。

　図２９は、トランスポートストリームＴＳに単一のビデオストリーム（符号化ストリーム）が含まれている場合を示している。ここで、「High」は高階層側の階層組のピクチャを示し、「Low」は低階層側の階層組のピクチャを示す。また、「Ｐ」は「transport_priority」を示している。

　デコード能力が、１２０Ｐに対応している場合、ピクチャ選択部２３６は、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送り、領域１（cpb_1）に蓄積する。一方、デコード能力が、１２０Ｐに対応していないが６０Ｐに対応している場合、「transport_priority」に基づくフィルタリングを行って、Ｐ＝１である低階層側の階層組のピクチャだけを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送り、領域１（cpb_1）に蓄積する。

　図３０は、トランスポートストリームＴＳにベースストリームと拡張ストリームの２つのビデオストリーム（符号化ストリーム）が含まれている場合を示している。ここで、「High」は高階層側の階層組のピクチャを示し、「Low」は低階層側の階層組のピクチャを示す。また、「Ｐ」は「transport_priority」を示している。また、ベースストリームのパケット識別子（ＰＩＤ）はＰＩＤ１であり、拡張ストリームのパケット識別子（ＰＩＤ）はＰＩＤ２であるとする。

　デコード能力が、１２０Ｐに対応している場合、ピクチャ選択部２３６は、全階層のピクチャの符号化画像データを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送る。そして、低階層側の階層組のピクチャの符号化画像データは領域１（cpb_1）に蓄積し、低階層側の階層組のピクチャの符号化画像データは領域２（cpb_2）に蓄積する。

　一方、デコード能力が、１２０Ｐに対応していないが１２０Ｐに対応している場合、パケット識別子（ＰＩＤ）に基づくフィルタリングを行って、ＰＩＤ１である低階層側の階層組のピクチャだけを取り出し、圧縮データバッファ（ｃｐｂ）２０４に送り、領域１（cpb_1）に蓄積する。なお、この場合も、「transport_priority」に基づくフィルタリングを行ってもよい。

　図３１は、デマルチプレクサ２０３の処理フローの一例を示している。この処理フローは、トランスポートストリームＴＳに単一のビデオストリーム（符号化ストリーム）が含まれている場合を示している。

　デマルチプレクサ２０３は、ステップＳＴ３１において、処理を開始し、その後に、ステップＳＴ３２の処理に移る。このステップＳＴ３２おいて、ＣＰＵ２０１から、デコード能力（Decoder temporal layer capability）が設定される。次に、デマルチプレクサ２０３は、ステップＳＴ３３おいて、全階層をデコードする能力があるか否かを判断する。

　全階層をデコードする能力があるとき、デマルチプレクサ２０３は、ステップＳＴ３４において、該当ＰＩＤフィルタを通過する全ＴＳパケットをデマルチプレクスし、セクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ３５の処理に移る。

　ステップＳＴ３３で全階層をデコードする能力がないとき、デマルチプレクサ２０３は、ステップＳＴ３６において、「transport_priority」が“１”のＴＳパケットをデマルチプレクスし、セクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ３５の処理に移る。

　ステップＳＴ３５において、デマルチプレクサ２０３は、対象となるＰＩＤのセクションの中で、ＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）を読み、拡張ストリームの有無、スケーラブルタイプ、ストリームの数とＩＤ、temporal_idの最大、最小値、最小ターゲットデコーダ・レベルを得る。

　次に、デマルチプレクサ２０３は、ステップＳＴ３７で、ＰＩＤの対象となる符号化ストリームを圧縮データバッファ（ｃｐｂ）２０４へ転送すると共に、ＤＴＳ、ＰＴＳを、ＣＰＵ２０１に通知する。デマルチプレクサ２０３は、ステップＳＴ３７の処理の後、ステップＳＴ３８において、処理を終了する。

　図３２は、デマルチプレクサ２０３の処理フローの一例を示している。この処理フローは、トランスポートストリームＴＳにベースストリームと拡張ストリームの２つのビデオストリーム（符号化ストリーム）が含まれている場合を示している。

　デマルチプレクサ２０３は、ステップＳＴ４１において、処理を開始し、その後に、ステップＳＴ４２の処理に移る。このステップＳＴ４２おいて、ＣＰＵ２０１から、デコード能力（Decoder temporal layer capability）が設定される。次に、デマルチプレクサ２０３は、ステップＳＴ４３おいて、全階層をデコードする能力があるか否かを判断する。

　全階層をデコードする能力があるとき、デマルチプレクサ２０３は、ステップＳＴ４４において、該当ＰＩＤフィルタを通過する全ＴＳパケットをデマルチプレクスし、セクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ４５の処理に移る。

　ステップＳＴ４３で全階層をデコードする能力がないとき、デマルチプレクサ２０３は、ステップＳＴ４６において、ＰＩＤ＝ＰＩＤ１のＴＳパケットをデマルチプレクスし、セクションパーシング（Section parsing）を行う。その後、デマルチプレクサ２０３は、ステップＳＴ４５の処理に移る。

　ステップＳＴ４５において、デマルチプレクサ２０３は、対象となるＰＩＤのセクションの中で、ＨＥＶＣデスクリプタ（HEVC_descriptor）、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）を読み、拡張ストリームの有無、スケーラブルタイプ、ストリームの数とＩＤ、temporal_idの最大、最小値、最小ターゲットデコーダ・レベルを得る。

　次に、デマルチプレクサ２０３は、ステップＳＴ４７で、ＰＩＤの対象となる符号化ストリームを圧縮データバッファ（ｃｐｂ）２０４へ転送すると共に、ＤＴＳ、ＰＴＳを、ＣＰＵ２０１に通知する。デマルチプレクサ２０３は、ステップＳＴ４７の処理の後、ステップＳＴ４８において、処理を終了する。

　図２７に戻って、圧縮データバッファ(ｃｐｂ)２０４は、デマルチプレクサ２０３で取り出されるビデオストリーム（符号化ストリーム）を、一時的に蓄積する。デコーダ２０５は、圧縮データバッファ２０４に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。そして、デコーダ２０５は、取り出された各ピクチャの符号化画像データを、それぞれ、そのピクチャのデコードタイミングでデコードし、非圧縮データバッファ（ｄｐｂ）２０６に送る。

　ここで、デコーダ２０５には、ＣＰＵ２０１からデコードすべき階層がtemporal_idで指定される。この指定階層は、デマルチプレクサ２０３で取り出されるビデオストリーム（符号化ストリーム）に含まれる全階層、あるいは低階層側の一部の階層とされ、ＣＰＵ２０１により自動的に、あるいはユーザ操作に応じて設定される。また、デコーダ２０５には、ＣＰＵ２０１から、ＤＴＳ（Decoding Time stamp）に基づいて、デコードタイミングが与えられる。なお、デコーダ２０５は、各ピクチャの符号化画像データをデコードする際に、必要に応じて、非圧縮データバッファ２０６から被参照ピクチャの画像データを読み出して利用する。

　図３３は、デコーダ２０５の構成例を示している。このデコーダ２０５は、テンポラルＩＤ解析部２５１と、対象階層選択部２５２と、ストリーム統合部２５３と、デコード部２５４を有している。テンポラルＩＤ解析部２５１は、圧縮データバッファ２０４に蓄積されているビデオストリーム（符号化ストリーム）を読み出し、各ピクチャの符号化画像データのＮＡＬユニットヘッダに挿入されているtemporal_idを解析する。

　対象階層選択部２５２は、圧縮データバッファ２０４から読み出されたビデオストリームから、テンポラルＩＤ解析部２５１の解析結果に基づいて、デコードすべき階層として指定された階層のピクチャの符号化画像データを取り出す。この場合、対象階層選択部２５２からは、圧縮データバッファ２０４から読み出されたビデオストリームの数および指定階層に応じて、単一または複数のビデオストリーム（符号化ストリーム）が出力される。

　ストリーム統合部２５３は、対象階層選択部２５２から出力される所定数のビデオストリーム（符号化ストリーム）を一つに統合する。デコード部２５４は、ストリーム統合部２５３で統合されたビデオストリーム（符号化ストリーム）が持つ各ピクチャの符号化画像データを、順次デコードタイミングでデコードし、非圧縮データバッファ（ｄｐｂ）２０６に送る。

　この場合、デコード部２５４はデマルチプレクサ２０３から得られるLevel_constrained_flagにより、ＳＰＳ，ＥＳＰＳの解析を行って、「general_level_idc」、「sublayer_level_idc」などを把握し、ストリームあるいはサブストリームが自身のデコーダ処理能力範囲内でデコードし得るものかどうかを確認する。また、この場合、デコード部２５４は、ＳＥＩの解析を行って、例えば、「initial_cpb_removal_time」、「cpb_removal_delay」を把握し、ＣＰＵ２０１からのデコードタイミングが適切か確認する。

　また、デコード部２５４は、スライス（Slice）のデコードを行う際に、スライスヘッダ（Slice header）から、時間方向の予測先を表す情報として、「ref_idx_l0_active(ref_idx_l1_active)を取得し、時間方向の予測を行う。なお、デコード後のピクチャは、スライスヘッダ（slice header）から得られる「short_term_ref_pic_set_idx」、あるいは「it_idx_sps」が指標とされて、他のピクチャによる被参照として処理される。

　図３４のフローチャートは、受信装置２００におけるデコーダ処理能力を考慮したビデオストリーム毎のデコード処理手順の一例を示している。受信装置２００は、ステップＳＴ６１で処理を開始し、ステップＳＴ６２において、ＨＥＶＣデスクリプタ（HEVC_descriptor）を読む。

　次に、受信装置２００は、ステップＳＴ６３において、ＨＥＶＣデスクリプタに“level_constrained_flag”が存在するか判断する。存在するとき、受信装置２００は、ステップＳＴ６４において、“level_constrained_flag”が“１”であるか判断する。“１”であるとき、受信装置２００は、ステップＳＴ６５の処理に進む。

　このステップＳＴ６５において、受信装置２００は、該当するＰＩＤのＰＥＳパケット（PES packet）のタイムスタンプを参照し、ペイロード（payload）部分のビデオストリームのＳＰＳあるいはＥＳＰＳを読む。そして、受信装置２００は、ステップＳＴ６６において、ＳＰＳあるいはＥＳＰＳの要素である「general_level_idc」を読む。

　次に、受信装置２００は、ステップＳＴ６７において、「general_level_idc」がデコーダ処理能力範囲内か判断する。デコーダ処理能力範囲内であるとき、受信装置２００は、ステップＳＴ６８において、該当するストリームあるいはサブストリームをデコードする。その後に、受信装置２００は、ステップＳＴ６９において、処理を終了する。一方、ステップＳＴ６７でデコーダ処理能力範囲内でないとき、受信装置２００は、直ちにステップＳＴ６９に進み、処理を終了する。

　また、ステップＳＴ６３で“level_constrained_flag”が存在しないとき、あるいはステップＳＴ６４で“level_constrained_flag”が“０”であるとき、受信装置２００は、ステップＳＴ７０の処理に移る。このステップＳＴ７０において、受信装置２００は、該当するＰＩＤのＰＥＳパケット（PES packet）のタイムスタンプを参照し、ペイロード（payload）部分のビデオストリームのＳＰＳを読む。一方、該当するビデオストリームにＳＰＳが存在しない場合は、temporal_layer が下位のピクチャ（Picture）を含むサブストリームのＳＰＳを参照する。

　次に、受信装置２００は、ステップＳＴ７１において、ＳＰＳの要素である「general_level_idc」を読む。そして、受信装置２００は、ステップＳＴ７２において、「general_level_idc」がデコーダ処理能力範囲内か判断する。デコーダ処理能力範囲内であるとき、受信装置２００は、ステップＳＴ７３の処理に移る。

　一方、デコーダ処理能力範囲内でないとき、受信装置２００は、ステップＳＴ７４において、ＳＰＳの要素の「Sublayer_level_idc」をチェックする。そして、受信装置２００は、ステップＳＴ７５において、「Sublayer_level_idc」がデコーダ処理能力範囲内である「Sublayer」が存在するか判断する。存在しないとき、受信装置２００は、直ちにステップＳＴ６９に進み、処理を終了する。一方、存在するとき、受信装置２００は、ステップＳＴ７３の処理に移る。

　このステップＳＴ７３において、受信装置２００は、ストリームの全体、あるいは該当するサブレイヤ（Sublayer）部分を、temporal_id値を参照してデコードする。その後、受信装置２００は、ステップＳＴ６９において、処理を終了する。

　図２７に戻って、非圧縮データバッファ（ｄｐｂ）２０６は、デコーダ２０５でデコードされた各ピクチャの画像データを、一時的に蓄積する。ポスト処理部２０７は、非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせる処理を行う。この場合、ＣＰＵ２０１から、ＰＴＳ（Presentation Time stamp）に基づいて、表示タイミングが与えられる。

　例えば、デコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓであって、表示能力が１２０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓであって、表示能力が６０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データに対して時間方向解像度が１/２倍となるようにサブサンプル処理を施し、６０ｆｐｓの画像データとしてディスプレイに送る。

　また、例えば、デコード後の各ピクチャの画像データのフレームレートが６０ｆｐｓであって、表示能力が１２０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データに対して時間方向解像度が２倍となるように補間処理を施し、１２０ｆｐｓの画像データとしてディスプレイに送る。また、例えば、デコード後の各ピクチャの画像データのフレームレートが６０ｆｐｓであって、表示能力が６０ｆｐｓであるとき、ポスト処理部２０７は、デコード後の各ピクチャの画像データをそのままディスプレイに送る。

　図３５は、ポスト処理部２０７の構成例を示している。この例は、上述したようにデコード後の各ピクチャの画像データのフレームレートが１２０ｆｐｓあるいは６０ｆｐｓであって、表示能力が１２０ｆｐｓあるいは６０ｆｐｓである場合に対処可能とした例である。

　ポスト処理部２０７は、補間部２７１と、サブサンプル部２７２と、スイッチ部２７３を有している。非圧縮データバッファ２０６からのデコード後の各ピクチャの画像データは、直接スイッチ部２７３に入力され、あるいは補間部２７１で２倍のフレームレートとされた後にスイッチ部２７３に入力され、あるいはサブサンプル部２７２で１/２倍のフレームレートとされた後にスイッチ部２７３に入力される。

　スイッチ部２７３には、ＣＰＵ２０１から、選択情報が供給される。この選択情報は、ＣＰＵ２０１が、表示能力を参照して自動的に、あるいは、ユーザ操作に応じて発生する。スイッチ部２７３は、選択情報に基づいて、入力のいずれかを選択的に出力とする。これにより、非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データのフレームレートは、表示能力に合ったものとされる。

　図３６は、デコーダ２０５、ポスト処理部２０７の処理フローの一例を示している。デコーダ２０５、ポスト処理部２０７は、ステップＳＴ５１において、処理を開始し、その後に、ステップＳＴ５２の処理に移る。このステップＳＴ５２において、デコーダ２０５は、圧縮データバッファ（ｃｐｂ）２０４に蓄積されているデコード対象のビデオストリームを読み出し、temporal_idに基づいて、ＣＰＵ２０１からデコード対象として指定される階層のピクチャを選択する。

　次に、デコーダ２０５は、ステップＳＴ５３において、選択された各ピクチャの符号化画像データをデコードタイミングで順次デコードし、デコード後の各ピクチャの画像データを非圧縮データバッファ（ｄｐｂ）２０６に転送して、一時的に蓄積する。次に、ポスト処理部２０７は、ステップＳＴ５４において、非圧縮データバッファ（ｄｐｂ）２０６から、表示タイミングで各ピクチャの画像データを読み出す。

　次に、ポスト処理部２０７は、読み出された各ピクチャの画像データのフレームレートが表示能力にあっているか否かを判断する。フレームレートが表示能力に合っていないとき、ポスト処理部２０７は、ステップＳＴ５６において、フレームレートを表示能力に合わせて、ディスプレイに送り、その後、ステップＳＴ５７において、処理を終了する。一方、フレームレートが表示能力に合っているとき、ポスト処理部２０７は、ステップＳＴ５８において、フレームレートそのままでディスプレイに送り、その後、ステップＳＴ５７において、処理を終了する。

　図２７に示す受信装置２００の動作を簡単に説明する。受信部２０２では、受信アンテナで受信されたＲＦ変調信号が復調され、トランスポートストリームＴＳが取得される。このトランスポートストリームＴＳは、デマルチプレクサ２０３に送られる。デマルチプレクサ２０３では、トランスポートストリームＴＳから、デコード能力（Decoder temporal layer capability）に応じた階層組のピクチャの符号化画像データが選択的に取り出され、圧縮データバッファ（ｃｐｂ）２０４に送られ、一時的に蓄積される。

　デコーダ２０５では、圧縮データバッファ２０４に蓄積されているビデオストリームから、デコードすべき階層として指定された階層のピクチャの符号化画像データが取り出される。そして、デコーダ２０５では、取り出された各ピクチャの符号化画像データが、それぞれ、そのピクチャのデコードタイミングでデコードされ、非圧縮データバッファ（ｄｐｂ）２０６に送られ、一時的に蓄積される。この場合、各ピクチャの符号化画像データがデコードされる際に、必要に応じて、非圧縮データバッファ２０６から被参照ピクチャの画像データが読み出されて利用される。

　非圧縮データバッファ（ｄｐｂ）２０６から表示タイミングで順次読み出された各ピクチャの画像データは、ポスト処理部２０７に送られる。ポスト処理部２０７では、各ピクチャの画像データに対して、そのフレームレートを、表示能力に合わせるための補間あるいはサブサンプルが行われる。このポスト処理部２０７で処理された各ピクチャの画像データは、ディスプレイに供給され、その各ピクチャの画像データによる動画像の表示が行われる。

　以上説明したように、図１に示す送受信システム１０においては、送信側において、階層毎にエンコード間隔が算出され、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイムスタンプが各階層のピクチャの符号化画像データに付加されるものである。そのため、例えば、受信側においてデコード能力に応じた良好なデコード処理が可能となる。例えば、デコード能力が低い場合であっても、圧縮データバッファ２０４のバッファ破たんを招くことなく、低階層のピクチャの符号化画像データを選択的にデコードすることが可能となる。

　また、図１に示す送受信システム１０においては、送信側において、トランスポートストリームＴＳのレイヤに、スケーラビリティ・エクステンション・デスクリプタ（scalability_extension_descriptor）等が挿入されるものである。そのため、例えば、受信側では、階層符号化における階層情報、トランスポートストリームＴＳに含まれるビデオストリームの構成情報などを容易に把握でき、適切なデコード処理を行うことが可能となる。

　また、図１に示す送受信システム１０においては、送信部において、複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの優先度ほど高く設定されるものである。例えば、２分割の場合、「transport_priority」の１ビットフィールドは、ベースレイヤ、つまり低階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合は“１”に設定され、ノンベースレイヤ、つまり高階層側の階層組のピクチャの符号化画像データをコンテナするＴＳパケットの場合は“０”に設定される。そのため、例えば、受信側では、このＴＳパケットの優先度に基づいて、自身のデコード能力に応じた階層組のピクチャの符号化画像データのみを圧縮データバッファ（ｃｐｂ）２０４に取り込むことが可能となり、バッファ破たんを回避することが容易となる。

　また、図１に示す送受信システム１０においては、送信側において、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値が挿入され、その値は自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされるものである。そのため、ビデオストリームの受信側では、各サブストリームのデコードが可能か否かの判断を、挿入されているビットストリームのレベル指定値に基づいて容易に判断することが可能となる。

　また、図１に示す送受信システム１０においては、送信側において、トランスポートストリームＴＳのレイヤ（コンテナのレイヤ）に、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることを示すフラグ情報（level_constrained_flag）が挿入されるものである。そのため、受信側では、このフラグ情報により、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることがわかり、sublayer_level_idcを用いた確認処理が不要となり、デコード処理の効率化を図ることが可能となる

　＜２．変形例＞
　なお、上述実施の形態においては、送信装置１００と受信装置２００からなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置２００の部分が、例えば、（ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。

　また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、ＭＰ４やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）、インターネット配信で使用されているＭＰ４などの種々のフォーマットのコンテナが該当する。

　また、本技術は、以下のような構成を取ることもできる。
　（１）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記画像符号化部は、
　高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を上記各階層のピクチャの符号化画像データに付加する
　送信装置。
　（２）上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成し、
　上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する
　前記（１）に記載の送信装置。
　（３）上記識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる
　前記（２）に記載の送信装置。
　（４）上記画像符号化部は、
　上記複数の階層を２以上の所定数の階層組に分割し、
　上記各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する
　前記（１）に記載の送信装置。
　（５）上記画像符号化部は、
　上記各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する
　前記（４）に記載の送信装置。
　（６）上記識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる
　前記（５）に記載の送信装置。
　（７）上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
　上記コンテナのレイヤに、該コンテナに含まれるビデオストリームの構成情報を挿入する情報挿入部をさらに備える
　前記（１）から（６）のいずれかに記載の送信装置。
　（８）上記送信部は、
　上記複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定する
　前記（１）から（８）のいずれかに記載の送信装置。
　（９）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化ステップと、
　送信部により上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信ステップとを有し、
　上記画像符号化ステップでは、
　高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を上記各階層のピクチャの符号化画像データに付加する
　送信方法。
　（１０）動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が付加されており、
　上記受信されたコンテナに含まれる上記ビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データを、上記デコードタイミング情報が示すデコードタイミングでデコードして、上記所定階層以下の階層のピクチャの画像データを得る処理部をさらに備える
　受信装置。
　（１１）上記受信されたコンテナには、上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームが含まれており、
　上記複数の階層は２以上の所定数の階層組に分割され、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定されており、
　上記処理部は、デコード能力に応じて選択された優先度のパケットでコンテナされた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする
　前記（１０）に記載の受信装置。
　（１２）上記受信されたコンテナには、上記複数の階層が分割されて得られた２以上の所定数の階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームが含まれており、
　上記処理部は、デコード能力に応じて選択されたビデオストリームが持つ所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする
　前記（１０）に記載の受信装置。
　（１３）上記処理部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える
　前記（１０）から（１２）のいずれかに記載の受信装置。
　（１４）受信部により動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
　上記各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が付加されており、
　上記受信されたコンテナに含まれる上記ビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データを、上記デコードタイミング情報が示すデコードタイミングでデコードして、上記所定階層以下の階層のピクチャの画像データを得る処理ステップをさらに有する
　受信方法。
　（１５）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
　上記コンテナのレイヤに、該コンテナに含まれるビデオストリームの構成情報を挿入する情報挿入部をさらに備える
　送信装置。
　（１６）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記送信部は、
　上記複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定する
　送信装置。
　（１７）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる
　符号化装置。
　（１８）上記画像符号化部は、
　上記各階層組に対応したサブストリームのそれぞれを含む上記所定数のビデオストリームを生成する、または上記各階層組に対応したサブストリームの全てを含む単一のビデオストリームを生成する
　前記（１７）に記載の符号化装置。
　（１９）画像符号化部により、動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化ステップを有し、
　上記画像符号化ステップでは、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる
　符号化方法。
　（２０）動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされ、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤに、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることを示すフラグ情報を挿入する情報挿入部をさらに備える
　送信装置。

　本技術の主な特徴は、階層毎にエンコード間隔を算出し、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイムスタンプが各階層のピクチャの符号化画像データに付加することで、受信側においてデコード性能に応じた良好なデコード処理を可能としたことである（図９参照）。また、本技術の主な特徴は、複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定することで、受信側において優先度をもとに自身のデコード能力に応じた階層組のピクチャの符号化画像データのみをバッファに取り込み、バッファ破綻を回避可能にしたことである（図１９参照）。

　１０・・・送受信システム
　１００・・・送信装置
　１０１・・・ＣＰＵ
　１０２・・・エンコーダ
　１０３・・・圧縮データバッファ（ｃｐｂ）
　１０４・・・マルチプレクサ
　１０５・・・送信部
　１２１・・・テンポラルＩＤ発生部
　１２２・・・バッファ遅延制御部
　１２３・・・ＨＲＤ設定部
　１２４・・・パラメータセット/ＳＥＩエンコード部
　１２５・・・スライスエンコード部
　１２６・・・ＮＡＬパケット化部
　１４１・・・ＴＳプライオリティ発生部
　１４２・・・セクションコーディング部
　１４３-1～１４３-N・・・ＰＥＳパケット化部
　１４４・・・トランスポートパケット化部
　２００・・・受信装置
　２０１・・・ＣＰＵ
　２０２・・・受信部
　２０３・・・デマルチプレクサ
　２０４・・・圧縮データバッファ（ｃｐｂ）
　２０５・・・デコーダ
　２０６・・・非圧縮データバッファ（ｄｐｂ）
　２０７・・・ポスト処理部
　２３１・・・ＰＣＲ抽出部
　２３２・・・タイムスタンプ抽出部
　２３３・・・セクション抽出部
　２３４・・・ＴＳプライオリティ抽出部
　２３５・・・ＰＥＳペイロード抽出部
　２３６・・・ピクチャ選択部
　２５１・・・テンポラルＩＤ解析部
　２５２・・・対象階層選択部
　２５３・・・ストリーム統合部
　２５４・・・デコード部
　２７１・・・補間部
　２７２・・・サブサンプル部
　２７３・・・スイッチ部

Claims

　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記画像符号化部は、
　高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を上記各階層のピクチャの符号化画像データに付加する
　送信装置。
　上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成し、
　上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する
　請求項１に記載の送信装置。
　上記識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる
　請求項２に記載の送信装置。
　上記画像符号化部は、
　上記複数の階層を２以上の所定数の階層組に分割し、
　上記各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成する
　請求項１に記載の送信装置。
　上記画像符号化部は、
　上記各階層組のピクチャの符号化画像データに、所属階層組を識別するための識別情報を付加する
　請求項４に記載の送信装置。
　上記識別情報は、ビットストリームのレベル指定値であり、高階層側の階層組ほど高い値とされる
　請求項５に記載の送信装置。
　上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
　上記コンテナのレイヤに、該コンテナに含まれるビデオストリームの構成情報を挿入する情報挿入部をさらに備える
　請求項１に記載の送信装置。
　上記送信部は、
　上記複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定する
　請求項１に記載の送信装置。
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化ステップと、
　送信部により上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信ステップとを有し、
　上記画像符号化ステップでは、
　高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報を上記各階層のピクチャの符号化画像データに付加する
　送信方法。
　動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が付加されており、
　上記受信されたコンテナに含まれる上記ビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データを、上記デコードタイミング情報が示すデコードタイミングでデコードして、上記所定階層以下の階層のピクチャの画像データを得る処理部をさらに備える
　受信装置。
　上記受信されたコンテナには、上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームが含まれており、
　上記複数の階層は２以上の所定数の階層組に分割され、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定されており、
　上記処理部は、デコード能力に応じて選択された優先度のパケットでコンテナされた所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする
　請求項１０に記載の受信装置。
　上記受信されたコンテナには、上記複数の階層が分割されて得られた２以上の所定数の階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームが含まれており、
　上記処理部は、デコード能力に応じて選択されたビデオストリームが持つ所定階層組のピクチャの符号化画像データをバッファに取り込んでデコードする
　請求項１０に記載の受信装置。
　上記処理部で得られる各ピクチャの画像データのフレームレートを表示能力に合わせるポスト処理部をさらに備える
　請求項１０に記載の受信装置。
　受信部により動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化されることで得られた各階層のピクチャの符号化画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
　上記各階層のピクチャの符号化画像データには、高階層ほどピクチャ毎の符号化画像データのデコード時間間隔が小さくなるように設定されたデコードタイミング情報が付加されており、
　上記受信されたコンテナに含まれる上記ビデオストリームから選択された所定階層以下の階層のピクチャの符号化画像データを、上記デコードタイミング情報が示すデコードタイミングでデコードして、上記所定階層以下の階層のピクチャの画像データを得る処理ステップをさらに有する
　受信方法。
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記画像符号化部は、
　上記各階層のピクチャの符号化画像データを持つ単一のビデオストリームを生成するか、あるいは上記複数の階層を２以上の所定数の階層組に分割し、各階層組のピクチャの符号化画像データをそれぞれ持つ上記所定数のビデオストリームを生成し、
　上記コンテナのレイヤに、該コンテナに含まれるビデオストリームの構成情報を挿入する情報挿入部をさらに備える
　送信装置。
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部と、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
　上記送信部は、
　上記複数の階層を２以上の所定数の階層組に分割し、低階層側の階層組のピクチャの符号化画像データをコンテナするパケットの優先度ほど高く設定する
　送信装置。
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる
　符号化装置。
　上記画像符号化部は、
　上記各階層組に対応したサブストリームのそれぞれを含む上記所定数のビデオストリームを生成する、または上記各階層組に対応したサブストリームの全てを含む単一のビデオストリームを生成する
　請求項１７に記載の符号化装置。
　画像符号化部により、動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化ステップを有し、
　上記画像符号化ステップでは、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、自己の階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされる
　符号化方法。
　動画像データを構成する各ピクチャの画像データを複数の階層に分類し、該分類された各階層のピクチャの画像データを符号化し、該符号化された各階層のピクチャの画像データを持つビデオストリームを生成する画像符号化部を備え、
　上記画像符号化部は、上記複数の階層を２以上の所定数の階層組に分割し、各階層組に対応したサブストリームのそれぞれにビットストリームのレベル指定値を挿入し、
　上記各階層組に対応したサブストリームのそれぞれに挿入されるビットストリームのレベル指定値は、当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値とされ、
　上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部と、
　上記コンテナのレイヤに、各階層組のサブストリームに挿入されるビットストリームのレベル指定値が当該階層組以下の階層組に含まれる全ての階層のピクチャを含むレベル値であることを示すフラグ情報を挿入する情報挿入部をさらに備える
　送信装置。