WO2017154646A1

WO2017154646A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2017154646A1
Application number: PCT/JP2017/007572
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2016-03-09
Filing date: 2017-02-27
Publication date: 2017-09-14
Also published as: CN108702533A; MX2018010460A; CA3015063A1; JP6984586B2; KR20180120169A; US10812838B2; CN108702533B; JPWO2017154646A1; US20190037255A1

Abstract

メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得るようにする。　メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する。この場合、所定情報のビットレートが所定ビットレートに収まるように、所定情報を分割する。所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオ、オーディオなどのメディア符号化ストリームに所定情報を挿入して送信する送信装置等に関する。

　例えば、特許文献１には、放送局、配信サーバ等から所定情報をオーディオ圧縮データストリームに挿入して送信し、受信側のセットトップボックスがこのオーディオ圧縮データストリームをそのままＨＤＭＩのデジタルインタフェースを介してテレビ受信機に送信し、テレビ受信機が当該所定情報を利用した情報処理を行うことが提案されている。

特開２０１２－０１０３１１号公報

　本技術の目的は、メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得るようにすることにある。

　本技術の概念は、
　メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
　上記情報挿入部は、
　上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
　送信装置にある。

　本技術において、情報挿入部により、メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が順次挿入される。各分割部分には、再構成のための順番情報が付加される。この場合、この所定情報のビットレートが所定ビットレートに収まるように分割される。そして、送信部により、所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナが送信される。

　例えば、情報挿入部は、所定の情報を、各分割部分のデータサイズが固定サイズとなるように分割する、ようにされてもよい。この場合、例えば、情報挿入部は、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する単位部分の数で割ることにより固定サイズを算出する、ようにされてもよい。

　また、例えば、情報挿入部は、所定情報を、分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する、ようにされてもよい。この場合、例えば、情報挿入部は、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する単位部分の数で割って得られた第１のサイズと、メディア符号化ストリームのビットレートを１秒間で発生する単位部分の数で割って得られた第２のサイズとを加算することで固定サイズを算出する、ようにされてもよい。また、ターゲットビットレート、そして、挿入するデータのメディア符号化に対するビットレート比を受信機側が認識できるよう、識別情報として伝送するようにしてもよい。

　このように本技術においては、メディア符号化ストリームの所定数の単位部分にビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信するものである。そのため、メディア符号化ストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得る。

　なお、本技術において、例えば、情報挿入部は、１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、１つ以上のメディア符号化ストリームの所定数の単位部分に挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別するための識別情報を付加する、ようにされてもよい。所定情報を分割して得た各分割部分を多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。

　この場合、例えば、コンテナに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。そして、この場合、識別情報挿入部は、コンテナに、１つ以上の上記メディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報をさらに挿入する、ようにされてもよい。

　また、本技術の他の概念は、
　１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報の分割部分が挿入された上記１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置にある。

　本技術において、１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が順次挿入される。各分割部分には、再構成のための順番情報が付加される。送信部により、所定情報の分割部分が挿入された１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナが送信される。

　このように本技術においては、１つ以上のメディア符号化ストリームの所定数の単位部分に所定情報を分割して得た各分割部分を挿入して送信するものである。そのため、多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。

　なお、本技術において、例えば、情報挿入部は、１つ以上のメディア符号化ストリームにそれぞれ挿入される各分割部分に、他の上記メディアストリームへの分割部分の挿入があるか識別する識別情報を付加する、ようにされてもよい。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。

　また、本技術において、例えば、コンテナに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える、ようにされてもよい。これにより、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。そして、この場合、識別情報挿入部は、コンテナに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報をさらに挿入する、ようにされてもよい。

　また、本技術の他の概念は、
　１つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
　上記１つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
　受信装置にある。

　本技術において、受信部により、１つ以上のメディア符号化ストリームが受信される。例えば、ストリーム受信部は、１つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する、ようにされてもよい。

　１つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分が取り出され、順番情報に基づいて、所定情報が再構成される。そして、再構成された所定情報を利用した情報処理が行われる。

　例えば、１つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別するための識別情報が付加されており、所定情報を再構成する処理では、識別情報に基づいて、１つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分を取り出す、ようにされてもよい。

　このように本技術においては、１つ以上のメディア符号化ストリームの所定数の単位部分から所定情報の各分割部分を取り出して順番情報に基づいて再構成し、この再構成された所定情報を利用した情報処理を行うものである。そのため、所定情報の再構成を適切に行うことができ、情報処理を良好に行い得る。

　また、本技術の他の概念は、
　１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
　上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記１つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
　受信装置にある。

　本技術において、受信部により、１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナが受信される。１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されている。また、コンテナに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報が挿入されている。送信部により、識別情報に基づいて、所定情報の分割部分の挿入がある１つ以上のメディア符号化ストリームが、外部機器に、デジタルインタフェースを介して送信される。

　このように本技術においては、コンテナに挿入されている識別情報に基づいて、所定情報の分割部分の挿入がある１つ以上のメディア符号化ストリームを外部機器にデジタルインタフェースを介して送信するものである。そのため、外部機器では、１つ以上のメディア符号化ストリームから所定情報の各分割部分の全てを取り出し、所定情報を再構成して利用することが可能となる。

　本技術によれば、メディア符号化ストリームに所定情報を挿入して送信することを良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。放送送出装置が備えるストリーム生成部の構成例を示すブロック図である。所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示すフローチャートである。挿入データＤＴの分割の一例と、各分割部分ｆ(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示すフローチャートである。挿入データＤＴの分割の一例と、各分割部分ｆ(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示す図である。パケットタイプとその値の対応関係を示す図である。ジェネリックデータ（generic_data）をＭＥＴＡＤＡＴＡパケットに配置するために用いるエントリの構造例を示す図である。ジェネリックデータ（generic_data）の構造例を示す図である。ジェネリックデータ（generic_data）の構造例における主要な情報の内容を示す図である。タイムインフォメーション（time_information）の構造例を示す図である。タイムインフォメーション（time_information）の構造例における主要な情報の内容を示す図である。データコンテナ・デスクリプタ（data_container descriptor）の構造例を示す図である。データコンテナ・デスクリプタ（data_container descriptor）の構造例における主要な情報の内容を示す図である。放送送出装置が備えるストリーム生成部の他の構成例を示すブロック図である。挿入データＤＴの分割の一例と、各分割部分ｆ(i)を２つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。挿入データＤＴの分割の一例と、各分割部分ｆ(i)を２つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示す図である。コンテナ対象データが、複数のジェネリックデータ（generic_data）で伝送される場合の例を示す図である。コンテナ対象データが、１つのジェネリックデータ（generic_data）で伝送される場合の例を示す図である。複数のコンテナ対象データが、複数のジェネリックデータ（generic_data）で伝送される場合の例を示す図である。複数のコンテナ対象データの実行が、それに付加されている時刻情報に基づいて、オーディオＰＴＳとは独立して、管理される例を示す図である。受信側におけるコンテナ対象データ（所定情報）の実行が、オーディオタイムスタンプ非依存で行い得ることを示す図である。複数のコンテナ対象データが、それに付加されている時刻情報に基づいて同期管理される具体例を示す図である。トランスポートストリームＴＳの構造例を示す図である。セットトップボックスの構成例を示すブロック図である。テレビ受信機の構成例を示すブロック図である。オーディオデコーダの構成例を示すブロック図である。１つのオーディオストリームＡＳ１に対するエクストラクタの処理例を概略的に示す図である。２つのオーディオストリームＡＳ１，ＡＳ２に対するエクストラクタの処理例を概略的に示す図である。セットトップボックスのＨＤＭＩ送信部とテレビ受信機のＨＤＭ受信部の構成例を示すブロック図である。ＴＭＤＳチャネルにおいて、横×縦が１９２０ピクセル×１０８０ラインの画像データが伝送される場合の、各種の伝送データの区間を示す図である。セットトップボックスおよびテレビ受信機におけるネゴシエーションを伴った動作の一例を示す図である。放送送出装置が備えるストリーム生成部の他の構成例を示すブロック図である。トランスポートストリームＴＳの他の構造例を示す図である。ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示す図である。ＴＯＣ（ac4_toc()）およびサブストリーム（ac4_substream_data()）の概略構成を示す図である。ＭＭＴのトランスポートストリームの構造例を示す図である。ＭＭＴのトランスポートストリームの他の構造例を示す図である。オーディオ圧縮フォーマットがＭＰＥＧ－Ｈ　３Ｄ　ＡｕｄｉｏあるいはＡＣ４である場合におけるオーディオトラック（トラックＡ）のデータを含むＭＰ４ストリーム（ファイル）の構成例を示す図である。データ挿入ストリームが２つのオーディオストリームである場合におけるＭＰＤファイル記述例を示す図である。データ挿入ストリームがオーディオストリームとビデオストリームである場合におけるＭＰＤファイル記述例を示す図である。ＭＰＤファイル記述例における主要な情報の内容を示す図である。送受信システムの他の構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、放送送出装置１００と、セットトップボックス（ＳＴＢ）２００と、テレビ受信機（ＴＶ）３００を有している。セットトップボックス２００とテレビ受信機３００は、ＨＤＭＩケーブル４００を介して接続されている。この場合、セットトップボックス２００がソースで、テレビ受信機３００はディスティネーションである。なお、「ＨＤＭＩ」は登録商標である。

　放送送出装置１００は、コンテナ（多重化ストリーム）としてのＭＰＥＧ－２　トランスポートストリーム（以下、単に、「トランスポートストリームＴＳ」と称する）を、放送波に載せて送信する。このトランスポートストリームＴＳには、メディア符号化ストリームとしてのビデオストリームおよびオーディオストリームが含まれる。

　また、放送送出装置１００は、１つ以上のメディア符号化ストリーム、この実施の形態においては１つ以上のオーディオストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して、順次挿入する。なお、所定数は１を含むものとする。所定数が１であるとき、所定情報は、実際には分割されず、その全体が１つの単位部分に挿入される。所定情報は、ネットワークアクセス情報、コマンド情報、メディアファイルなどである。所定情報を分割して得た各分割部分を多くのメディア符号化ストリームを用いて送信することで、所定情報の全体の送信に必要な時間の短縮が可能となる。

　ここで、単位部分は、例えば、アクセスユニットである。このアクセスユニットは、メディア符号化ストリームがオーディオストリームである場合は所定数のオーディオサンプルデータを束ねたオーディオフレームを意味し、メディア符号化ストリームがビデオストリームである場合はピクチャを意味する。

　また、放送送出装置１００は、所定情報のビットレートが所定ビットレートに収まるように、所定情報を分割する。このように分割することで、メディア符号化ストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得る。

　例えば、所定情報は、各分割部分のデータサイズが固定サイズとなるように分割される。この場合、例えば、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する単位部分の数で割ることにより、固定サイズが算出される。

　また、例えば、所定情報は、分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割される。このとき、各分割部分のデータサイズは変動したものとなる。この場合、例えば、ターゲットビットレートからメディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する単位部分の数で割って得られた第１のサイズと、メディア符号化ストリームのビットレートを１秒間で発生する単位部分の数で割って得られた第２のサイズとを加算することで、固定サイズが算出される。

　また、放送送出装置１００は、１つ以上のメディア符号化ストリームの所定数の単位部分に挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別する識別情報を付加する。この場合、受信側では、各分割部分に付加されている識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があることを容易に認識でき、所定情報の全ての分割部分の取り出しを効率的に行い得る。

　また、放送送出装置１００は、コンテナとしてのトランスポートストリームＴＳに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報を挿入する。このように識別情報を挿入することで、受信側では、所定情報の分割部分の挿入があるメディア符号化ストリームを容易に識別可能となる。

　また、放送送出装置１００は、コンテナとしてのトランスポートストリームＴＳに、１つ以上のメディア符号化ストリームのそれぞれに対応して、所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、他のメディア符号化ストリームが存在するとき、この他のメディア符号化ストリームを示す識別情報を挿入する。

　セットトップボックス２００は、放送送出装置１００から放送波に載せて送信されてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、上述したように、メディア符号化ストリーム（ビデオストリーム、オーディオストリーム）が含まれている。そして、この実施の形態においては、１つ以上のオーディオストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて、順次挿入されている。

　セットトップボックス２００は、受信されたビデオストリームにデコード処理を施して得られた非圧縮のビデオデータと共に、受信された１つ以上のオーディオストリームそのものを、ＨＤＭＩケーブル４００を介して、テレビ受信機３００に送信する。上述したように、トランスポートストリームＴＳには、１つ以上のオーディオストリームのそれぞれに対応して、所定情報の分割部分の挿入があることを示す識別情報が挿入されている。

　セットトップボックス２００は、この識別情報に基づいて、所定情報の分割部分の挿入がある１つ以上のオーディオストリームの全てをテレビ受信機３００に送信する。セットトップボックス２００は、テレビ受信機３００が１つ以上のオーディオストリームのうちの一部のデコード能力しか持たない場合であっても、その一部のオーディオストリームだけではなく所定情報の分割部分の挿入がある１つ以上のオーディオストリームの全てをテレビ受信機３００に送信する。これにより、テレビ受信機３００では、１つ以上のメディア符号化ストリームから所定情報の各分割部分の全てを取り出し、所定情報を再構成して利用することが可能となる。

　テレビ受信機３００は、セットトップボックス２００から、ＨＤＭＩケーブル４００を介して、非圧縮のビデオデータと共に、所定情報の分割部分の挿入がある１つ以上のオーディオストリームを受信する。テレビ受信機３００は、非圧縮のビデオデータによる画像を表示する。また、テレビ受信機３００は、デコード能力に応じて、１つ以上のオーディオストリームの全部または一部にデコード処理を行って非圧縮のオーディオデータを得て、それによる音声を出力する。

　また、テレビ受信機３００は、１つ以上のオーディオストリームから所定情報の分割部分を取り出し、順番情報に基づいて所定情報を再構成する。そして、テレビ受信機３００は、再構成された所定情報を利用した情報処理、例えば、メディアアクセス情報によってメディアデータを取得し、そのメディアデータによる画像表示、音声出力をする処理などを行う。

　［放送送出装置のストリーム生成部］
　図２は、放送送出装置１００が備えるストリーム生成部１１０Ａの構成例を示している。このストリーム生成部１１０Ａでは、１つのオーディオストリームが生成され、その所定数のオーディオフレームに、所定情報（挿入データ）を分割して得た各分割部分が挿入される。このストリーム生成部１１０Ａは、ＣＰＵ１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、スプリッタ１１４と、インサータ１１５と、マルチプレクサ１１６を有している。なお、スプリッタ１１４やインサータ１１５は、オーディオエンコーダ１１３あるいはＣＰＵ１１１の一部として含まれる構成であってもよい。

　ＣＰＵ１１１は、ストリーム生成部１１０Ａの各部を制御する。ビデオエンコーダ１１２は、ビデオデータ（画像データ）ＳＶに対して、ＭＰＥＧ２、Ｈ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。ビデオデータＳＶは、例えば、ＨＤＤ（hard disk drive）などの記録媒体から再生されたビデオデータ、あるいはビデオカメラで得られたライブビデオデータなどである。

　オーディオエンコーダ１１３は、オーディオデータ（音声データ）ＳＡに対して、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの圧縮フォーマットによる符号化を施し、オーディオストリーム（オーディオエレメンタリストリーム）を生成する。オーディオデータＳＡは、上述のビデオデータＳＶに対応しており、ＨＤＤなどの記録媒体から再生されたオーディオデータ、あるいはマイクロホンで得られたライブオーディオデータなどである。

　スプリッタ１１４は、所定情報を構成する挿入データＤＴを分割して、所定数の分割部分ｆ（ｉ）を得る。インサータ１１５は、オーディオストリームの所定数のオーディオフレームに、スプリッタ１１４で分割されて得られた所定数の分割部分を、再構成のための順番情報を付加して、順次挿入する。この順番情報には、例えば、最初の分割部分であるか、最後の分割部分であるか、何番目の分割部分であるかなどの情報が含まれる。

　スプリッタ１１４は、この挿入データＤＴのビットレートが所定ビットレート、ここでは許容ビットレートに収まるように、分割する。

　この場合、スプリッタ１１４は、例えば、以下の（１）または（２）の方法で、挿入データＤＴを分割する。
　（１）挿入データＤＴを各分割部分のデータサイズが固定サイズとなるように分割する。
　（２）挿入データＤＴを各分割部分が挿入されたオーディオフレームのデータサイズが固定サイズとなるように分割する。

　（１）の方法で分割する場合について説明する。この場合、スプリッタ１１４は、ＣＰＵ１１１が指定するターゲットビットレートＴＲからオーディオエンコーダ１１３で生成されるオーディオストリームＲ＿ＥＭ１から認識されるオーディオストリームのビットレートＣＲを差し引いて許容ビットレートＡＶＲ（＝ＴＲ－ＣＲ）を算出する。なお、許容ビットレートＡＶＲはオーディオ符号化ストリームのビットレートとの割合が指定されて算出されてもよいし、あるいは、許容ビットレートＡＶＲ自体が指定されてもよい。

　そして、スプリッタ１１４は、以下の数式（１）により、許容ビットレートＡＶＲを１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、固定サイズＡＩＳを算出する。なお、数式（１）で求められる固定サイズの単位はバイトである。
　　ＡＩＳ＝ＡＶＲ/８/ＡＵ_frec　　　・・・（１）

　図３のフローチャートは、（１）の方法で分割する場合における、所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示している。スプリッタ１１４は、ステップＳＴ１において、処理を開始する。そして、スプリッタ１１４は、ステップＳＴ２において、ｉ＝０とし、さらに、ステップＳＴ３において、ＩＳＳ(i)＝ＡＩＳとし、その後にステップＳＴ４の処理に移る。

　このステップＳＴ４において、スプリッタ１１４は、挿入データＤＴの残りサイズＮがＩＳＳ(i)以下であるか否かを判断する。この残りサイズＮの最初は、挿入データＤＴのサイズＮ_Originに一致する。ＮがＩＳＳ(i)以下でないとき、スプリッタ１１４は、ステップＳＴ５において、ｉ番目のオーディオフレームに挿入すべき分割部分ｆ(i)のサイズをＩＳＳ(i)とする。

　次に、スプリッタ１１４は、ステップＳＴ６において、Ｎ＝Ｎ－ＩＳＳ(i)とし、さらに、ステップＳＴ７において、ｉ＝ｉ＋１として、ステップＳＴ３の処理に戻り、次のオーディオストリームに挿入すべき分割部分ｆ(i)のサイズを決定する処理に移る。

　ステップＳＴ４において、ＮがＩＳＳ(i)以下であるとき、スプリッタ１１４は、ステップＳＴ８において、ｉ番目のオーディオフレームに挿入すべき分割部分ｆ(i)のサイズをＮとする。このステップＳＴ８の処理の後、スプリッタ１１４は、ステップＳＴ９において、処理を終了する。

　図４は、（１）の方法で分割した場合における挿入データＤＴの分割の一例と、各分割部分ｆ(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データＤＴがｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割され、それぞれが、オーディオストリームのＡ０，Ａ１，Ａ２，Ａ３，Ａ４，Ａ５のオーディオフレームに挿入されている。

　この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。なお、“ＡＣＳ”は、後述するが、オーディオストリームのビットレートＣＲを１秒間で発生するオーディオフレームの数ＡＵ_frecで割って得られたデータサイズ、つまりオーディオストリームの各オーディオフレームの平均データサイズを示している。

　次に、（２）の方法で分割する場合について説明する。この場合、スプリッタ１１４は、ＣＰＵ１１１が指定するターゲットビットレートＴＲからオーディオエンコーダ１１３で生成されるオーディオストリームＲ＿ＥＭ１から認識されるオーディオストリームのビットレートＣＲを差し引いて許容ビットレートＡＶＲ（＝ＴＲ－ＣＲ）を算出する。そして、スプリッタ１１４は、上述の数式（１）により、許容ビットレートＡＶＲを１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、第１のサイズＡＩＳを算出する。

　また、スプリッタ１１４は、以下の数式（２）により、オーディオストリームのビットレートＣＲを１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、第２のサイズＡＣＳを算出する。この第２のサイズは、オーディオストリームの各オーディオフレームの平均データサイズを示す。そして、スプリッタ１１４は、第１のサイズＡＩＳと第２のサイズＡＣＳを加算して、固定サイズを算出する。
　　ＡＣＳ＝ＣＲ/８/ＡＵ_frec　　　・・・（２）

　図５は、（２）の方法で分割する場合における、所定数のオーディオフレームに挿入すべき各分割部分のサイズを決定するための処理手順の一例を示している。スプリッタ１１４は、ステップＳＴ１１において、処理を開始する。そして、スプリッタ１１４は、ステップＳＴ１２において、ｉ＝０とし、さらに、ステップＳＴ１３において、ＩＳＳ(i)＝（ＡＣＳ＋ＡＩＳ）－ＡＵ(i)とし、その後にステップＳＴ１４の処理に移る。ここで、ＡＵ(i)は、挿入データＤＴの分割部分を挿入するｉ番目のオーディオフレームのデータサイズである。

　ステップＳＴ１４において、スプリッタ１１４は、ＩＳＳ(i)が、図１０に示すsyntaxのheader に相当するバイト数(ＨＤＢ)より大きいか否かを判断する。ＩＳＳ(i)がＨＤＢ以下であるとき、スプリッタ１１４は、ステップＳＴ１５において、ｉ番目のオーディオフレームに挿入すべき分割部分ｆ(i)のサイズを０とする。スプリッタ１１４は、ステップＳＴ１５の処理の後、ステップＳＴ１６でｉ＝ｉ＋１として、ステップＳＴ１３の処理に戻り、次のオーディオストリームに挿入すべき分割部分ｆ(i)のサイズを決定する処理に移る。

　ステップＳＴ１４でＩＳＳ(i)がＨＤＢより大きいとき、スプリッタ１１４は、ステップＳＴ１７において、挿入データＤＴの残りサイズＮがＩＳＳ(i)以下であるか否かを判断する。この残りサイズＮの最初は、挿入データＤＴのサイズＮ_Originに一致する。ＮがＩＳＳ(i)以下でないとき、スプリッタ１１４は、ステップＳＴ１８において、ｉ番目のオーディオフレームに挿入すべき分割部分ｆ(i)のサイズをＩＳＳ(i)とする。

　次に、スプリッタ１１４は、ステップＳＴ１９において、Ｎ＝Ｎ－ＩＳＳ(i)とし、さらに、ステップＳＴ１６において、ｉ＝ｉ＋１として、ステップＳＴ１３の処理に戻り、次のオーディオストリームに挿入すべき分割部分ｆ(i)のサイズを決定する処理に移る。

　ステップＳＴ１７において、ＮがＩＳＳ(i)以下であるとき、スプリッタ１１４は、ステップＳＴ２０において、ｉ番目のオーディオフレームに挿入すべき分割部分ｆ(i)のサイズをＮとする。このステップＳＴ２０の処理の後、スプリッタ１１４は、ステップＳＴ２１において、処理を終了する。

　図６は、（２）の方法で分割した場合における挿入データＤＴの分割の一例と、各分割部分ｆ(i)をオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データＤＴがｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割され、それぞれが、オーディオストリームのＡ０，Ａ１，Ａ２，Ａ３，Ａ４，Ａ５のオーディオフレームに挿入されている。

　この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データＤＴの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。なお、図示の例においては、挿入データＤＴの最後の分割部分が挿入されるオーディオフレームについても、（ＡＣＳ＋ＡＩＳ）の一定のデータサイズとなっている。

　図７は、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のＭＰＥＧオーディオストリームパケット（mpeg Audio Stream Packet）からなっている。各ＭＰＥＧオーディオストリームパケットは、ヘッダ（Header）とペイロード（Payload）により構成されている。

　ヘッダは、パケットタイプ（Packet Type）、パケットラベル（Packet Label）、パケットレングス（Packet Length）などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“ＳＹＮＣ”と、３Ｄオーディオの伝送データの実際のデータである“Ｆｒａｍｅ”と、この“Ｆｒａｍｅ”の構成を示す“Ｃｏｎｆｉｇ”が存在する。

　“Ｆｒａｍｅ”には、３Ｄオーディオの伝送データを構成するチャネル符号化データやオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、ＳＣＥ（Single Channel Element）、ＣＰＥ（Channel Pair Element）、ＬＦＥ（Low Frequency Element）などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、ＳＣＥ（Single Channel Element）の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント（Ext_element）として含まれる。

　この実施の形態では、“ＳＹＮＣ”、“Ｃｏｎｆｉｇ”、“Ｆｒａｍｅ”などと同様に、パケットタイプ（Packet Type）により“Ｍｅｔａｄａｔａ”が指定されるものとし、そのパケットにおいて、所定情報の分割部分を持つジェネリックデータ（generic_data）を新たに定義する。

　図８は、パケットタイプ（Packet Type）の値で識別するパケットの種別を示している。「０」として“ＦＩＬＬＤＡＴＡ”、「１」として“ＭＰＥＧＨ３ＤＡＣＦＧ”、「２」として“ＭＰＥＧＨ３ＤＡＦＲＡＭＥ”、「６」として“ＳＹＮＣ”などが定義されている。これに例えば「１２８」として“ＭＥＴＡＤＡＴＡ”を定義することが可能である。

　メタデータのパケットのフォーマットは、例えば、図９に構造例を示すエントリを用いて配置される。具体的には、ジェネリックデータ（generic_data）は、「itu_t_t135_payload_byte」のフィールドに、配置される。

　図１０はジェネリックデータ（generic_data）の構造例（syntax）を示し、図１１はその構造例における主要な情報の内容（semantics）を示している。「start_flag」の１ビットフィールドは、コンテナ対象データ（所定情報＝挿入データＤＴ）の開始か否か、つまり挿入分割部分にコンテナ対象データの最初のバイトを含むか否かを示す。「end_flag」の１ビットフィールドは、コンテナ対象データの終了か否か、つまり挿入分割部分にコンテナ対象データの最後のバイトを含むか否かを示す。

　「joint_delivery_flag」の１ビットフィールドは、分割されたコンテナ対象データ（分割部分）が複数のメディア符号化ストリームに挿入されるか否か、つまり他のメディア符号化ストリームにも分割部分の挿入があるか否かを示す。「fcounter」の１３ビットフィールドは、分割されたコンテナ対象データ（挿入分割部分）の分割位置を昇順のカウント数で示す。この「fcounter」は、上述した「start_flag」、「end_flag」と共に、分割部分の順番情報を構成している。「data_id」の８ビットフィールドは、コンテナ対象データのＩＤを示す。「payload_length」の８ビットフィールドは、ペイロードのサイズをバイト数で示す。

　「start_flag」が“１”であって、コンテナ対象データの開始であるとき、「data_type」の８ビットフィールド、「payload_identifier」の８ビットフィールド、「target_data_size」の１６ビットフィールドが存在する。「data_type」は、データの種別を示す。例えば、“０ｘ０１”はネットワークアクセスの用途向けであることを示す。「payload_identifier」は、コンテナ対象データの種類を示す。例えば、“０ｘ０１”はＵＲＬデータであることを示し、“０ｘ０２”はタイムスタンプであることを示す。「target_data_size」は、コンテナ対象データのサイズを示す。「data_payload_byte」のフィールドは、コンテナ対象データの配置領域を示す。この配置領域に、コンテナ対象データの分割部分が配置される。

　図１２は、「payload_identifier」が“０ｘ０２”である場合におけるコンテナ対象データである、タイムインフォメーション（time_information）の構造例（syntax）を示し、図１３はその構造例における主要な情報の内容（semantics）を示している。

　「absolute_time_flag」の１ビットフィールドは、実行時刻がＵＴＣ絶対時刻であるか基準時刻からの差分値であるかを示す。“１”は、ＵＴＣ絶対時刻であることを示す。“０”は、基準時刻からの差分値であることを示す。

　「absolute_time_flag」が“１”であるとき、「exec_time_msw」の３２ビットフィールドと、「exec_time_1sw」の３２ビットフィールドが存在する。「exec_time_msw」のフィールドは、データの実行時刻であるＵＴＣ絶対時刻の上位３２ビットを示し、「exec_time_1sw」のフィールドは、その下位３２ビットを示す。

　「absolute_time_flag」が“０”であるとき、「reference_UTC_msw」の３２ビットフィールドと、「reference_UTC_lsw」の３２ビットフィールドと、「offset_exec_time_msw」の３２ビットフィールドと、「offset_exec_time_1sw」の３２ビットフィールドが存在する。「reference_UTC_msw」のフィールドは、基準時刻の上位３２ビットを示し、「reference_UTC_lsw」のフィールドは、基準時刻の下位３２ビットを示す。「offset_exec_time_msw」のフィールドは、データの実行時刻である基準時刻からの差分値の上位３２ビットを示し、「offset_exec_time_1sw」のフィールドは、その下位３２ビットを示す。

　図２に戻って、マルチプレクサ１１６は、ビデオエンコーダ１１２から出力されるビデオストリームと、インサータ１１５から出力される、所定情報（挿入データＤＴ）の各分割部分が挿入されたオーディオストリームとを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

　また、マルチプレクサ１１４は、トランスポートストリームＴＳに、オーディオストリームに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル（ＰＭＴ）の配下のオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ（data_container descriptor）を挿入する。

　図１４は、データコンテナ・デスクリプタの構造例（Syntax）を示している。また、図１５は、その構造例における主要な情報の内容（Semantics）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示す。ここでは、データコンテナ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして、以降のバイト数を示す。

　「data_insertion_flag」の１ビットフィールドは、当該ストリーム内に所定情報の挿入があるか示す。“１”は挿入があることを示し、“０”は挿入がないことを示す。「joint_stream_delivery_flag」の１ビットフィールドは、コンテンツ対象データ（所定情報）の挿入が、当該ストリームに加え、他のストリームにもあるか示す。“１”は他のストリームにもデータ挿入があることを示し、“０”は他のストリームにはデータ挿入がないことを示す。

　「media_stream_id」の６ビットフィールドは、当該ストリームの識別番号を示す。「joint_stream_delivery_flag」が“１”であるとき、「number_of_joint_streams」の８ビットフィールドが存在する。このフィールドは、コンテンツ対象データ（所定情報）が挿入されている他のストリームの数（１以上）を示す。この数だけ、「media_stream_id」の８ビットフィールド、「data_bitrate」の８ビットフィールド、「data_insertion_ratio」の８ビットフィールドが存在する。「media_stream_id」のフィールドは、ストリームの識別番号を示す。「data_bitrate」のフィールドは、データ挿入後のビットレート（ターゲットビットレート）を１０００ｂｐｓ単位の値で示す。「data_insertion_ratio」のフィールドは、メディア符号化ストリームのビットレート（ＣＲ：compressed media_data_bitrate）を基準とした、挿入データのビットレート(ＡＶＲ：inserted_data_bitrate)の割合（Ratio）を示す。その場合、割合の算出は次式のようなものになる。
　　　　Ratio = inserted_data_bitrate / compressed media_data_bitrate

　図２に示すストリーム生成部１１０Ａの動作を簡単に説明する。ビデオデータＳＶはビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対してＨ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。

　また、オーディオデータＳＡは、オーディオエンコーダ１１３に供給される。このオーディオエンコーダ１１３では、そのオーディオデータＳＡに対して、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの圧縮フォーマットによる符号化が施され、オーディオストリームＲ＿ＥＭ１が生成される。

　また、所定情報としての挿入データＤＴは、スプリッタ１１４に供給される。このスプリッタ１１４では、挿入データＤＴが分割されて、所定数の分割部分ｆ（ｉ）が得られる。この場合、挿入データＤＴのビットレートが許容ビットレートＡＶＲに収まるように分割される。この許容ビットレートＡＶＲは、ＣＰＵ１１１から指定されるターゲットビットレートＴＲからオーディオストリームＲ＿ＥＭ１のビットレートＣＲを差し引くことで算出される。

　オーディオエンコーダ１１３で得られたオーディオストリームＲ＿ＥＭ１はインサータ１１５に供給され、さらにこのインサータ１１５にスプリッタ１１４で得られた挿入データＤＴの所定数の分割部分ｆ（ｉ）が供給される。このインサータ１１５では、オーディオストリームの所定数のオーディオフレームに、挿入データＤＴの所定数の分割部分ｆ（ｉ）が、再構成のための順番情報が付加されて、順次挿入される。

　ビデオエンコーダ１１２で生成されたビデオストリームは、マルチプレクサ１１６に供給される。また、このマルチプレクサ１１６に、インサータ１１５で挿入データＤＴが挿入されたオーディオストリームが供給される。このマルチプレクサ１１６では、各ストリームがパケット化されて多重され、伝送データとしてトランスポートストリームＴＳが得られる。

　また、デスクリプタ１１６では、プログラムマップテーブル（ＰＭＴ）の配下のオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ（図１４参照）が挿入される。このデスクリプタには、対応するオーディオストリームに所定情報（挿入データＤＴ）の挿入があることを示す識別情報などが含まれている。

　図１６は、放送送出装置１００が備えるストリーム生成部１１０Ｂの構成例を示している。このストリーム生成部１１０Ｂでは、２つのオーディオストリームが生成され、その所定数のオーディオフレームに、所定情報（挿入データ）を分割して得た各分割部分が挿入される。この図１６において、図２と対応する部分には、同一符号を付して示している。

　このストリーム生成部１１０Ｂは、ＣＰＵ１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３-1，１１３-2と、スプリッタ１１４と、インサータ１１５-1，１１５-2と、マルチプレクサ１１６を有している。なお、スプリッタ１１４やインサータ１１５-1，１１５-2は、オーディオエンコーダ１１３-1，１１３-2あるいはＣＰＵ１１１の一部として含まれる構成であってもよい。

　ＣＰＵ１１１は、ストリーム生成部１１０Ｂの各部を制御する。ビデオエンコーダ１１２は、ビデオデータＳＶに対して、ＭＰＥＧ２、Ｈ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。ビデオデータＳＶは、例えば、ＨＤＤ（hard disk drive）などの記録媒体から再生されたビデオデータ、あるいはビデオカメラで得られたライブビデオデータなどである。

　オーディオエンコーダ１１３-1，１１３-2は、それぞれ、オーディオデータＳＡ１，ＳＡ２に対して、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの圧縮フォーマットによる符号化を施し、オーディオストリーム（オーディオエレメンタリストリーム）を生成する。オーディオデータＳＡ１，ＳＡ２の組み合わせとしては種々が考えられる。

　例えば、オーディオデータＳＡ１はチャネルデータであり、オーディオデータＳＡ２はオブジェクトデータである。また、例えば、オーディオデータＳＡ１はステレオデータであり、オーディオデータＳＡ２はその他のチャネルのデータである。オーディオデータＳＡ１，ＳＡ２は、上述のビデオデータＳＶに対応しており、ＨＤＤなどの記録媒体から再生されたオーディオデータ、あるいはマイクロホンで得られたライブオーディオデータなどである。

　スプリッタ１１４は、詳細説明は省略するが、図２のストリーム生成部１００Ａのスプリッタ１１４と同様にして、所定情報を構成する挿入データＤＴを分割して、所定数の分割部分ｆ（ｉ）を得る。この場合、それぞれのオーディオストリームに挿入される挿入データＤＴのビットレートが許容ビットレートに収まるように、上述の（１）または（２）の方法で分割される。

　インサータ１１５-1，１１５-2は、それぞれ、詳細説明は省略するが、図２のストリーム生成部１００Ａにおけるインサータ１１５と同様にして、オーディオエンコーダ１１３-1，１１３-2で生成されたオーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２の所定数のオーディオフレームに、スプリッタ１１４で分割されて得られた所定数の分割部分ｆ(i)を、再構成のための順番情報を付加して、順次挿入する。

　図１７は、（１）の方法で分割した場合における挿入データＤＴの分割の一例と、各分割部分ｆ(i)を２つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データＤＴがｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割されている。

　そして、ｆ０、ｆ２、ｆ４の３つの分割部分が、それぞれオーディオエンコーダ１１３-1で生成されたオーディオストリームＲ＿ＥＭ１のＡ０，Ａ１，Ａ２のオーディオフレームに挿入されている。また、ｆ１、ｆ３、ｆ５の３つの分割部分が、それぞれオーディオエンコーダ１１３-2で生成されたオーディオストリームＲ＿ＥＭ２のＢ０，Ｂ１，Ｂ２のオーディオフレームに挿入されている。

　ここで、スプリッタ１１４は、ＣＰＵ１１１から指定されるターゲットビットレートＴＲ１からオーディオストリームＲ＿ＥＭ１のビットレートＣＲ１を差し引いて許容ビットレートＡＶＲ１を算出する。そして、スプリッタ１１４は、この許容ビットレートＡＶＲ１を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、固定サイズＡＩＳ１、つまりｆ０、ｆ２、ｆ４のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。

　また、スプリッタ１１４は、ＣＰＵ１１１から指定されるターゲットビットレートＴＲ２からオーディオストリームＲ＿ＥＭ２のビットレートＣＲ２を差し引いて許容ビットレートＡＶＲ２を算出する。そして、スプリッタ１１４は、この許容ビットレートＡＶＲ２を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、固定サイズＡＩＳ２、つまりｆ０、ｆ２、ｆ４のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動がそのまま反映されたものとなる。

　図１８は、（２）の方法で分割した場合における挿入データＤＴの分割の一例と、各分割部分ｆ(i)を２つのオーディオストリームの対応するオーディオフレームに挿入した場合における各オーディオフレームのサイズの推移の一例を示している。図示の例では、挿入データＤＴがｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割されている。

　ここで、スプリッタ１１４は、ＣＰＵ１１１から指定されるターゲットビットレートＴＲ１からオーディオストリームＲ＿ＥＭ１のビットレートＣＲ１を差し引いて許容ビットレートＡＶＲ１を算出する。そして、スプリッタ１１４は、この許容ビットレートＡＶＲ１を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って第１のサイズＡＩＳ１を算出する。また、スプリッタ１１４は、オーディオストリームＲ＿ＥＭ１のビットレートＣＲ１を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、第２のサイズＡＣＳ１を算出する。

　スプリッタ１１４は、第１のサイズＡＩＳ１と第２のサイズＡＣＳ１を加算して固定サイズ（ＡＩＳ１＋ＡＣＳ１）を求め、この固定サイズから挿入先のオーディオフレームのデータサイズを差し引いて、ｆ０、ｆ２、ｆ４のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データＤＴの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。

　また、スプリッタ１１４は、ＣＰＵ１１１から指定されるターゲットビットレートＴＲ２からオーディオストリームＲ＿ＥＭ２のビットレートＣＲ２を差し引いて許容ビットレートＡＶＲ２を算出する。そして、スプリッタ１１４は、この許容ビットレートＡＶＲ２を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、第１のサイズＡＩＳ２を算出する。また、スプリッタ１１４は、オーディオストリームＲ＿ＥＭ２のビットレートＣＲ２を１秒間で発生するオーディオフレームの数ＡＵ_frecで割って、第２のサイズＡＣＳ２を算出する。

　スプリッタ１１４は、第１のサイズＡＩＳ２と第２のサイズＡＣＳ２を加算して固定サイズ（ＡＩＳ２＋ＡＣＳ２）を求め、この固定サイズから挿入先のオーディオフレームのデータサイズを差し引いて、ｆ１、ｆ３、ｆ５のサイズを決定する。この場合、挿入後の各オーディオフレームのデータサイズは、挿入前の各オーディオフレームのデータサイズの変動によらず、挿入データＤＴの最後の分割部分が挿入されるオーディオフレームを除き、一定のデータサイズとなる。

　なお、ＡＩＳ１，ＡＣＳ１，ＡＩＳ２，ＡＣＳ２は、それぞれ、以下の数式（４）、（５）、（６）、（７）で算出される。

　　ＡＩＳ１＝ＡＶＲ１/８/ＡＵ_frec　　　・・・（４）
　　ＡＣＳ１＝ＣＲ１/８/ＡＵ_frec　　　・・・（５）
　　ＡＩＳ２＝ＡＶＲ２/８/ＡＵ_frec　　　・・・（６）
　　ＡＣＳ２＝ＣＲ１/８/ＡＵ_frec　　　・・・（７）

　図１６に戻って、マルチプレクサ１１６は、ビデオエンコーダ１１２から出力されるビデオストリームと、インサータ１１５-1，１１５-2から出力される、所定情報（挿入データＤＴ）の各分割部分が挿入された２つのオーディオストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

　また、マルチプレクサ１１６は、トランスポートストリームＴＳに、２つのオーディオストリームに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル（ＰＭＴ）の配下の２つのオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ（図１４参照）を挿入する。

　図１６に示すストリーム生成部１１０Ｂの動作を簡単に説明する。ビデオデータＳＶはビデオエンコーダ１１２に供給される。このビデオエンコーダ１１２では、ビデオデータＳＶに対してＨ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。

　また、オーディオデータＳＡ１，ＳＡ２は、それぞれ、オーディオエンコーダ１１３-1，１１３-2に供給される。このオーディオエンコーダ１１３-1，１１３-2では、それぞれ、オーディオデータＳＡ１，ＳＡ２に対して、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの圧縮フォーマットによる符号化が施され、オーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２が生成される。

　また、所定情報としての挿入データＤＴは、スプリッタ１１４に供給される。このスプリッタ１１４では、挿入データＤＴが分割されて、所定数の分割部分ｆ（ｉ）が得られる。この場合、挿入データＤＴのビットレートが、２つのオーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２に関する許容ビットレートＡＶＲ１，ＡＶＲ２に収まるように分割される。許容ビットレートＡＶＲ１，ＡＶＲ２は、それぞれ、ＣＰＵ１１１から指定されるターゲットビットレートＴＲ１，ＴＲ２からオーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２のビットレートＣＲ１，ＣＲ２を差し引くことで算出される。

　オーディオエンコーダ１１３-1，１１３-2で得られたオーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２はインサータ１１５-1，１１５-2に供給され、さらにこのインサータ１１５-1，１１５-2にスプリッタ１１４で得られた挿入データＤＴの所定数の分割部分ｆ（ｉ）が供給される。このインサータ１１５-1，１１５-2では、オーディオストリームＲ＿ＥＭ１，Ｒ＿ＥＭ２の所定数のオーディオフレームに、挿入データＤＴの所定数の分割部分ｆ（ｉ）が、再構成のための順番情報が付加されて、順次挿入される。

　ビデオエンコーダ１１２で生成されたビデオストリームは、マルチプレクサ１１６に供給される。また、このマルチプレクサ１１６に、インサータ１１５-1，１１５-2で挿入データＤＴが挿入されたオーディオストリームが供給される。このマルチプレクサ１１６では、各ストリームがパケット化されて多重され、伝送データとしてトランスポートストリームＴＳが得られる。

　また、デスクリプタ１１６では、プログラムマップテーブル（ＰＭＴ）の配下の２つのオーディオストリームにそれぞれ対応した２つのオーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ（図１４参照）が挿入される。このデスクリプタには、対応するオーディオストリームに所定情報（挿入データＤＴ）の挿入があることを示す識別情報、所定情報（挿入データＤＴ）の挿入が当該ストリームに加えて他のストリームにもあるかを示す識別情報などが含まれている。

　［コンテナ対象データ（所定の情報）の挿入］
　オーディオストリームへのコンテナ対象データ（所定情報＝挿入データＤＴ）の挿入についてさらに説明する。図１９は、コンテナ対象データが、複数のジェネリックデータ（generic_data）（図１０参照）で伝送される場合の例を示している。

　この場合、コンテナ対象データは複数に分割され、複数の分割部分のそれぞれが複数のジェネリックデータに振り分けられ、「data_payload_byte」のフィールドに挿入される。ここで、最初の分割部分に対応した「start_flag」は“１”とされ、最初の分割部分であることが示される。また、最初の分割部分に対応した「fcounter」は“０” とされる。さらに、この最初の分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。

　２番目以降の分割部分に対応した「start_flag」は“０”とされ、最初の分割部分でないことが示される。２番目以降の分割部分に対応した「fcounter」は順次インクリメントされたカウント数とされる。分割個数がｎであるとき、最後の分割部分に対応した「fcounter」は“ｎ－１”となる。最後の分割部分に対応した「end_flag」は“１”とされ、最後の分割部分であることが示される。

　図２０は、コンテナ対象データが、１つのジェネリックデータ（generic_data）で伝送される場合の例を示している。この場合、コンテナ対象データは分割されずに、１つのジェネリックデータの「data_payload_byte」のフィールドに挿入される。ここで、「start_flag」は“１”とされ、最初の分割部分であることが示される。また、「end_flag」は“１”とされ、最後の分割部分であることが示される。従って、これらの情報から、分割されていないことが示される。また、この分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。

　図２１は、複数のコンテナ対象データが、複数のジェネリックデータ（generic_data）で伝送される場合の例を示している。図示の例は、「data_id」が“０”で示されるコンテナ対象データＡと、「data_id」が“１”であるコンテナ対象データＢの２つのコンテナ対象データが伝送される場合の例である。

　この場合、コンテナ対象データＡは３分割され、３つの分割部分のそれぞれが３つのジェネリックデータに振り分けられ、「data_payload_byte」のフィールドに挿入される。ここで、最初の分割部分に対応した「start_flag」は“１”とされ、最初の分割部分であることが示される。また、最初の分割部分に対応した「fcounter」は“０” とされる。また、この最初の分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。

　２番目の分割部分に対応した「start_flag」は“０”とされ、最初の分割部分でないことが示される。また、２番目の分割部分に対応した「end_flag」は“０”とされ、最後の分割部分でないことが示される。また、２番目の分割部分に対応した「fcounter」は“１”とされる。また、３番目の分割部分に対応した「end_flag」は“１”とされ、最後の分割部分であることが示される。そして、最後の分割部分に対応した「fcounter」は“２”とされる。

　また、コンテナ対象データＢは分割されずに、１つのジェネリックデータ（generic_data）の「data_payload_byte」のフィールドに挿入される。ここで、「start_flag」は“１”とされ、最初の分割部分であることが示される。また、「end_flag」は“１”とされ、最後の分割部分であることが示される。従って、これらの情報から、分割されていないことが示される。また、この分割部分に対応して、「target_data_size」のフィールドが存在し、コンテナ対象データの全体サイズが示される。

　［コンテナ対象データ（所定の情報）の同期管理］
　コンテナ対象データ（所定情報）の同期管理について説明する。図２２は、複数のコンテナ対象データの実行が、それに付加されている時刻情報に基づいて、オーディオＰＴＳとは独立して、管理される例を示している。

　この例では、「data_id」が“１”であるコンテナ対象データはそれに対応した実行時刻（exec_time）のタイミングで実行が開始され、「data_id」が“２”であるコンテナ対象データはそれに対応した実行時刻のタイミングで実行が開始され、さらに、「data_id」が“３”であるコンテナ対象データはそれに対応した実行時刻のタイミングで実行が開始される。

　図２３は、受信側におけるコンテナ対象データ（所定情報）の実行が、オーディオタイムスタンプ非依存で行い得ることを示している。この例では、コンテナ対象データが３つ（Data_0-0,Data_0-1,Data_0-2）に分割されて、３つのオーディオフレームに振り分けられて挿入されている。

　また、この例では、コンテナ対象データの実行時刻が基準時刻からの差分値ＯＦＳで与えられている場合を示し、この基準時刻が“Audio timestamp(n)”に一致する場合を示している。この“Audio timestamp(n)”は、オーディオフレーム０（Frame 0）がデコードされて得られたオーディオデータ（オーディオサンプル）の出力が開始されるタイミングを示している。この“Audio timestamp(n)”は「ＵＴＣ値」に対応している。

　３つのオーディオフレームに分割挿入されて伝送されるコンテナ対象データは、基準時刻に差分値ＯＦＳが加算された時刻を実行時刻（exec time）として、その実行が開始される。つまり、コンテナ対象データの実行がオーディオタイムスタンプ非依存で行われる。

　ここで、コンテナ対象データが、その中に相対的なタイプスタンプを持つ場合には、実行時刻を基点とした相対時刻による同期管理が行われる。例えば、コンテナ対象データが時間の概念のないＭＰ３のようなメディアファイルである場合には、実行時刻から直ちに再生が開始される。また、例えば、コンテナ対象が相対的なタイムスタンプを持っているＭＰ４のようなメディアファイルである場合には、実行時刻を基点とした再生同期管理が行われる。

　なお、図２３の例は、コンテナ対象データの実行時刻が基準時刻からの差分値ＯＦＳで与えられる場合を示したが、このコンテナ対象データの実行時刻が、実行時刻（exec time）を示すＵＴＣ絶対時刻「ＵＴＣ´値」で与えられても同様である。つまり、コンテナ対象データに付加する実行時刻を示す時刻情報としては、上述したように、ＵＴＣ絶対時刻あるいは基準時刻からの差分値が考えられる。

　図２４は、複数のコンテナ対象データが、それに付加されている時刻情報に基づいて同期管理される具体例を示している。この例では、「data_id」が“１”であるコンテナ対象データとして、リンクサーバに接続するためのＵＲＬの情報と、“Activate”または“Inactivate”などのリンクサーバに対する制御を行うコントロールコード群が伝送される。

　この場合、「exec time1」の実行時刻で、ＵＲＬによりリンクサーバへの接続が実行さされ、その後、「exec time3」の実行時刻からコントロールコード群により当該リンクサーバに対して“Activate”または“Inactivate”などの制御が実行され、当該リンクサーバからのメディア再生の開始、その終了など行われる。

　また、この例では、「data_id」が“２”であるコンテナ対象データとして、リンクサーバに接続するためのＵＲＬの情報と、“Activate”または“Inactivate”などのリンクサーバに対する制御を行うコントロールコード群が伝送される。

　この場合、「exec time2」の実行時刻で、ＵＲＬによりリンクサーバへの接続が実行さされ、その後、「exec time4」の実行時刻からコントロールコード群により当該リンクサーバに対して“Activate”または“Inactivate”などの制御が実行され、当該リンクサーバからのメディア再生の開始、その終了など行われる。

　また、この例では、「data_id」が“３”であるコンテナ対象データとして、メディアファイルが伝送される。「exec time5」の実行時刻から、メディアファイルの再生が開始される。

　[トランスポートストリームＴＳの構造例]
　図２５は、トランスポートストリームＴＳの構造例を示している。この構造例は、２つのオーディオストリームが存在し、その２つのオーディオストリームで所定情報をコンテナする場合の例である（図１６参照）。この構造例では、ビデオストリームに係る部分は省略されている。

　この構造例では、ＰＩＤ１で識別されるオーディオストリームのＰＥＳパケット「Audio PES」が存在すると共に、ＰＩＤ２で識別されるオーディオストリームのＰＥＳパケット「Audio PES」が存在する。これらのＰＥＳパケットにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームの所定数（１を含む）のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。ＰＳＩは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・ループ（Program loop）が存在する。

　また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構造例では、２つのオーディオストリームにそれぞれ対応してオーディオエレメンタリストリーム・ループ（Audio ES loop）が存在する。

　各オーディオエレメンタリストリーム・ループ（Audio ES loop）には、それぞれのストリームに対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタの１つとして、上述したデータコンテナ・デスクリプタ（data_container descriptor）（図１４参照）が配置される。

　また、このオーディオエレメンタリストリーム・ループには、デスクリプタの１つとして、「Component_tag」の情報を持つストリームアイデンチファイア・デスクリプタ（Stream_identifier descriptor）が配置される。また、ＥＩＴ（Event Information Table）の配下に、コンポーネント・デスクリプタ（Component_descriptor）が配置される。ＥＩＴには上述したデータコンテナ・デスクリプタ（data_container descriptor）が配置されてもよい。その場合、受信機ＥＰＧ表示にメタデータの挿入を記す際の識別情報の提供になる。

　このコンポーネント・デスクリプタは、「Component_tag」により上述のＰＭＴ配下のオーディオエレメンタリストリーム・ループと関連付けられる。これにより、ある番組のオーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、ＥＰＧなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをＴＶ視聴者に知らせることが可能となる。

　［セットトップボックスの構成例］
　図２６は、セットトップボックス２００の構成例を示している。このセットトップボックス２００は、ＣＰＵ２０１と、フラッシュＲＯＭ２０２と、ＤＲＡＭ２０３と、内部バス２０４と、リモコン受信部２０５と、リモコン送信機２０６を有している。また、セットトップボックス２００は、アンテナ端子２１１と、デジタルチューナ２１２と、デマルチプレクサ２１３と、ビデオデコーダ２１４と、オーディオフレーミング部２１５と、ＨＤＭＩ送信部２１６と、ＨＤＭＩ端子２１７を有している。

　ＣＰＵ２０１は、セットトップボックス２００の各部の動作を制御する。フラッシュＲＯＭ２０２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２０３は、ＣＰＵ２０１のワークエリアを構成する。ＣＰＵ２０１は、フラッシュＲＯＭ２０２から読み出したソフトウェアやデータをＤＲＡＭ２０３上に展開してソフトウェアを起動させ、セットトップボックス２００の各部を制御する。

　リモコン受信部２０５は、リモコン送信機２０６から送信されたリモーコントロール信号（リモコンコード）を受信し、ＣＰＵ２０１に供給する。ＣＰＵ２０１は、このリモコンコードに基づいて、セットトップボックス２００の各部を制御する。ＣＰＵ２０１、フラッシュＲＯＭ２０２およびＤＲＡＭ２０３は、内部バス２０４に接続されている。

　アンテナ端子２１１は、受信アンテナ（図示せず）で受信されたテレビ放送信号を入力する端子である。デジタルチューナ２１２は、アンテナ端子２１１に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応したトランスポートストリームＴＳを出力する。

　デマルチプレクサ２１３は、トランスポートストリームＴＳからビデオストリームのパケットを抽出し、ビデオデコーダ２１４に送る。ビデオデコーダ２１４は、デマルチプレクサ２１３で抽出されたビデオのパケットからビデオストリームを再構成し、デコード処理を行って非圧縮のビデオデータ（画像データ）を得る。

　また、デマルチプレクサ２１３は、トランスポートストリームＴＳから１つまたは２つのオーディオストリームのパケットを抽出してオーディオストリームを再構成する。オーディオフレーミング部２１５は、再構成されたオーディオストリームに対してフレーミングを行う。このオーディオストリームには、上述のストリーム生成部１１０Ａ，１１０Ｂ（図２、図１６参照）で説明したように、所定情報（コンテナ対象データ＝挿入データＤＴ）が挿入されている。

　また、デマルチプレクサ２１３は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ２０１に送る。この各種情報には、上述したデータコンテナ・デスクリプタ（data_cotainer descriptor）の情報も含まれる（図１４参照）。

　ＣＰＵ２０１は、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることを認識する。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかを認識する。例えば、オーディオストリームが１つであってそれに所定情報の挿入されている場合には、データコンテナ・デスクリプタから他のストリームへは所定情報の挿入がないことを認識する。また、例えば、オーディオストリームが２つであって双方に所定情報の挿入されている場合には、データコンテナ・デスクリプタから他のストリームにも所定情報の挿入があることを認識する。

　ＨＤＭＩ送信部２１６は、ＨＤＭＩに準拠した通信により、ビデオデコーダ２１４で得られた非圧縮のビデオデータと、オーディオフレーミング部２１５でフレーミングされた後のオーディオストリームを、ＨＤＭＩ端子２１７から送出する。ＨＤＭＩ送信部２１６は、ＨＤＭＩのＴＭＤＳチャネルで送信するため、ビデオデータおよびオーディオストリームをパッキングして、ＨＤＭＩ端子２１７に出力する。このＨＤＭＩ送信部２１６の詳細は後述する。

　セットトップボックス２００の動作を簡単に説明する。アンテナ端子２１１に入力されたテレビ放送信号はデジタルチューナ２１２に供給される。このデジタルチューナ２１２では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応したトランスポートストリームＴＳが出力される。

　デジタルチューナ２１２から出力されるトランスポートストリームＴＳは、デマルチプレクサ２１３に供給される。このデマルチプレクサ２１３では、トランスポートストリームＴＳからビデオのエレメンタリストリームのパケットが抽出され、ビデオデコーダ２１４に送られる。

　ビデオデコーダ２１４では、デマルチプレクサ２１３で抽出されたビデオのパケットからビデオストリームが再構成された後、そのビデオストリームに対してデコード処理が行われて、非圧縮のビデオデータが得られる。この非圧縮のビデオデータは、ＨＤＭＩ送信部２１６に供給される。

　また、デマルチプレクサ２１３では、トランスポートストリームＴＳから１つまたは２つのオーディオストリームのパケットが抽出され、所定情報が挿入されているオーディオストリームが再構成される。このオーディオストリームはオーディオフレーミング部２１５でフレーミングされた後に、ＨＤＭＩ送信部２１６に供給される。そして、ＨＤＭＩ送信部２１６では、非圧縮のビデオデータおよびオーディオストリームがパッキングされ、ＨＤＭＩ端子２１７からＨＤＭＩケーブル６１０を介してオーディオアンプ３００に送信される。

　また、デマルチプレクサ２１３では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ２０１に送られる。この各種情報には、上述したデータコンテナ・デスクリプタ（data_cotainer descriptor）の情報も含まれる（図１４参照）。これにより、ＣＰＵ２０１では、オーディオストリームに所定情報の挿入があることなどが認識される。

　［テレビ受信機の構成例］
　図２７は、テレビ受信機３００の構成例を示している。このテレビ受信機３００は、ＣＰＵ３０１と、フラッシュＲＯＭ３０２と、ＤＲＡＭ３０３と、内部バス３０４と、リモコン受信部３０５と、リモコン送信機３０６と、通信インタフェース３０７を有している。

　また、テレビ受信機３００は、アンテナ端子３１１と、デジタルチューナ３１２と、デマルチプレクサ３１３と、ビデオデコーダ３１４と、ＨＤＭＩ端子３１５と、ＨＤＭＩ受信部３１６を有している。また、テレビ受信機３００は、映像処理回路３１７と、パネル駆動回路３１８と、表示パネル３１９と、オーディオデコーダ３２０と、音声処理回路３２１と、音声増幅回路３２２と、スピーカ３２３を有している。

　ＣＰＵ３０１は、テレビ受信機３００の各部の動作を制御する。フラッシュＲＯＭ３０２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ３０３は、ＣＰＵ３０１のワークエリアを構成する。ＣＰＵ３０１は、フラッシュＲＯＭ３０２から読み出したソフトウェアやデータをＤＲＡＭ３０３上に展開してソフトウェアを起動させ、テレビ受信機３００の各部を制御する。

　リモコン受信部３０５は、リモコン送信機３０６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ３０１に供給する。ＣＰＵ３０１は、このリモコンコードに基づいて、テレビ受信機３００の各部を制御する。ＣＰＵ３０１、フラッシュＲＯＭ３０２およびＤＲＡＭ３０３は、内部バス３０４に接続されている。

　通信インタフェース３０７は、ＣＰＵ３０１の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース３０７は、内部バス３０４に接続されている。

　アンテナ端子３１１は、受信アンテナ（図示せず）で受信されたテレビ放送信号を入力する端子である。デジタルチューナ３１２は、アンテナ端子３１１に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応したトランスポートストリームＴＳを出力する。

　デマルチプレクサ３１３は、トランスポートストリームＴＳからビデオストリームを抽出してビデオデコーダ３１４に送る。ビデオデコーダ３１４は、ビデオストリームにデコード処理を行って非圧縮のビデオデータ（画像データ）を得る。

　また、デマルチプレクサ３１３は、トランスポートストリームＴＳから１つまたは２つのオーディオストリームを抽出してオーディオデコーダ３２０に送る。このオーディオストリームには、上述のストリーム生成部１１０Ａ，１１０Ｂ（図２、図１６参照）で説明したように、所定情報が挿入されている。

　また、デマルチプレクサ２１３は、トランスポートストリームＴＳからデスクリプタ情報などの各種情報を抽出し、ＣＰＵ３０１に送る。この各種情報には、上述したデータコンテナ・デスクリプタ（data_cotainer descriptor）の情報も含まれる（図１４参照）。ＣＰＵ３０１は、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることを認識する。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかを認識する。

　ＨＤＭＩ受信部３１６は、ＨＤＭＩに準拠した通信により、ＨＤＭＩケーブル４００を介してＨＤＭＩ端子３１５に供給される非圧縮のビデオデータとオーディオストリームを受信する。オーディオストリームには、上述のセットトップボックス２００（図２６参照）で説明したように、所定情報が挿入されている。このＨＤＭＩ受信部３１６の詳細は後述する。

　映像処理回路３１７は、ビデオデコーダ３１４で得られた、あるいはＨＤＭＩ受信部３１６で得られたビデオデータ、さらには、通信インタフェース３０７でネット上のサーバから受信されたビデオデータなどに対してスケーリング処理、合成処理などを行って、表示用のビデオデータを得る。

　パネル駆動回路３１８は、映像処理回路３１７で得られる表示用の画像データに基づいて、表示パネル３１９を駆動する。表示パネル３１９は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

　オーディオデコーダ３２０は、デマルチプレクサ３１３で得られた、あるいはＨＤＭＩ受信部３１６で得られたオーディオストリームに対してデコード処理を施して非圧縮のオーディオデータ（音声データ）を得る。また、オーディオデコーダ３２０は、オーディオストリームの所定数のオーディオフレームに順次挿入されている所定情報の各分割部分を取り出し、それに付加されている順番情報に基づいて所定情報を再構成し、再構成された所定情報をＣＰＵ３０１に送る。ＣＰＵ３０１は、適宜、この所定情報を利用した処理が行われるように、テレビ受信機３００の各部を制御する。

　この場合、各オーディオストリームの所定数のオーディオフレームに挿入される各分割部分に、他のメディア符号化ストリームへの分割部分の挿入があるか識別する識別情報が付加されている。そのため、オーディオデコーダ３２０は、当該識別情報に基づいて、他のメディア符号化ストリームへの分割部分の挿入があるかを容易に認識でき、所定情報の分割部分が挿入されている全てのオーディオストリームから、この所定情報の全ての分割部分の取り出しを効率的かつ的確に行い得る。

　図２８は、オーディオデコーダ３２０の構成例を示している。このオーディオデコーダ３２０は、エクストラクタ３５１-1，３５１-2と、デコーダ３５２-1，３５２-2と、データリアセンブラ３５３を有している。

　エクストラクタ３５１-1は、オーディオストリームＡＳ１（Ｒ＿ＥＭ１＋ＩＳ１）の所定数のオーディオフレームから、それに挿入されている所定情報の分割部分ＩＳ１を取り出すと共に、オーディオストリームＲ＿ＥＭ１を出力する。デコーダ３５２-1は、オーディオストリームＲ＿ＥＭ１にデコード処理を施してオーディオデータＳＡ１を出力する。

　エクストラクタ３５１-2は、オーディオストリームＡＳ２（Ｒ＿ＥＭ２＋ＩＳ２）の所定数のオーディオフレームから、それに挿入されている所定情報の分割部分ＩＳ２を取り出すと共に、オーディオストリームＲ＿ＥＭ２を出力する。デコーダ３５２-2は、オーディオストリームＲ＿ＥＭ２にデコード処理を施してオーディオデータＳＡ２を出力する。

　データリアセンブラ３５３は、エクストラクタ３５１-1，３５１-2で取り出された分割部分ＩＳ１，ＩＳ２から、それに付加されている順番情報に基づいて所定情報を再構成し、再構成された所定情報を出力する。

　なお、図示の例は、デマルチプレクサ３１３から２つのオーディオストリームＡＳ１，ＡＳ２が得られる場合に対処可能としたものである。デマルチプレクサ３１３から１つのオーディオストリームＡＳ１のみが得られる場合には、エクストラクタ３５１-2およびデコーダ３５２-2の部分は用いられない。

　図２９は、デマルチプレクサ３１３から１つのオーディオストリームＡＳ１のみが得られる場合における、エクストラクタ３５１-1の処理例を概略的に示している。この例は、所定情報（挿入データＤＴ）が（２）の方法でｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割されている場合を示している（図６参照）が、（１）の方法で分割されている場合も同様である。エクストラクタ３５１-1では、オーディオストリームＡＳ１の６つのオーディオフレームに含まれているｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分が抽出されて、データリアセンブラ３５３に送られる。

　図３０は、デマルチプレクサ３１３から２つのオーディオストリームＡＳ１，ＡＳ２が得られる場合における、エクストラクタ３５１-1，３５１-2の処理例を概略的に示している。この例も、所定情報（挿入データＤＴ）が（２）の方法でｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の６つの分割部分に分割されている場合を示している（図１７参照）が、（１）の方法で分割されている場合も同様である。

　エクストラクタ３５１-1では、オーディオストリームＡＳ１の３つのオーディオフレームに含まれているｆ０、ｆ２、ｆ４の３つの分割部分が抽出されて、データリアセンブラ３５３に送られる。また、エクストラクタ３５１-2では、オーディオストリームＡＳ２の３つのオーディオフレームに含まれているｆ１、ｆ３、ｆ５の３つの分割部分が抽出されて、データリアセンブラ３５３に送られる。

　図２７に戻って、音声処理回路５２１は、オーディオデコーダ３２０で得られたオーディオデータに対して、Ｄ／Ａ変換等の処理を行う。この処理には、必要に応じて、オブジェクトデータに対するレンダリング処理、チャネルデータの合成処理、チャネル数変換処理なども含まれる。音声増幅回路３２２は、音声処理回路３２１から出力される各チャネルの音声信号を増幅してそれぞれのチャネルのスピーカ３２３に供給する。

　図２７に示すテレビ受信機３００の動作を簡単に説明する。アンテナ端子３１１に入力されたテレビ放送信号はデジタルチューナ３１２に供給される。このデジタルチューナ３１２では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応したトランスポートストリームＴＳが得られる。

　デジタルチューナ３１２で得られるトランスポートストリームＴＳは、デマルチプレクサ３１３に供給される。デマルチプレクサ３１３では、トランスポートストリームＴＳからビデオストリームが抽出され、ビデオデコーダ３１４に供給される。ビデオデコーダ３１４では、ビデオストリームに対してデコード処理が施されて、非圧縮のビデオデータが得られる。この非圧縮のビデオデータは、映像処理回路３１７に供給される。また、デマルチプレクサ３１３では、トランスポートストリームＴＳから１つまたは２つのオーディオストリームが抽出され、オーディオデコーダ３２０に供給される。

　また、デマルチプレクサ３１３では、トランスポートストリームＴＳからデスクリプタ情報などの各種情報が抽出され、ＣＰＵ３０１に送られる。この各種情報には、上述したデータコンテナ・デスクリプタ（data_cotainer descriptor）の情報も含まれる（図１４参照）。ＣＰＵ３０１では、このデータコンテナ・デスクリプタから、対応するオーディオストリームに所定情報の挿入があることが認識される。また、このデータコンテナ・デスクリプタから、所定情報の挿入が対応するオーディオストリームに加え、他のストリームにもあるかが認識される。

　ＨＤＭＩ受信部３１６では、ＨＤＭＩに準拠した通信により、ＨＤＭＩケーブル４００を介してＨＤＭＩ端子３１５に供給される非圧縮のビデオデータと、１つまたは２つのオーディオストリームが受信される。非圧縮のビデオデータは、映像処理回路３１７に供給される。また、オーディオストリームはオーディオデコーダ３２０に供給される。

　映像処理回路３１７では、ビデオデコーダ３１４で得られた、あるいはＨＤＭＩ受信部３１６で得られたビデオデータ、さらには、通信インタフェース３０７でネット上のサーバから受信されたビデオデータなどに対してスケーリング処理、合成処理などが施され、表示用のビデオデータが得られる。

　映像処理回路３１７で得られた表示用のビデオデータはパネル駆動回路３１８に供給される。パネル駆動回路３１８では、表示用のビデオデータに基づいて、表示パネル３１９を駆動することが行われる。これにより、表示パネル３１９には、表示用のビデオデータに対応した画像が表示される。

　オーディオデコーダ３２０では、デマルチプレクサ３１３で得られた、あるいはＨＤＭＩ受信部３１６で得られたオーディオストリームに対してデコード処理が施されて非圧縮のオーディオデータ（音声データ）が得られる。また、オーディオデコーダ３２０では、オーディオストリームの所定数のオーディオフレームに順次挿入されている所定情報の各分割部分が取り出され、それに付加されている順番情報に基づいて所定情報が再構成される。このように再構成された所定情報はＣＰＵ３０１に送られる。ＣＰＵ３０１では、適宜、この所定情報を利用した処理が行われるように、テレビ受信機３００の各部を制することが行われる。

　オーディオデコーダ３２０で得られたオーディオデータは、音声処理回路３２１に供給される。音声処理回路３２１では、オーディオデータに対してＤ／Ａ変換等の必要な処理が施される。このオーディオデータは、音声増幅回路３２２で増幅された後に、スピーカ３２３に供給される。そのため、スピーカ３２３から、表示パネル３１９の表示画像に対応した音声が出力される。

　［ＨＤＭＩ送信部、ＨＤＭＩ受信部の構成例］
　図３１は、セットトップボックス２００のＨＤＭＩ送信部２１６（図２６参照）とテレビ受信機３００のＨＤＭ受信部３１６（図２７参照）の構成例を示している。

　ＨＤＭＩ送信部２１６は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間２２および垂直帰線区間２３を除いた区間である有効画像区間２１（以下、適宜、「アクティブビデオ区間」ともいう）（図３２参照）において、非圧縮の１画面分の画像の画素データに対応する差動信号を、複数のチャネルで、ＨＤＭＩ受信部３１６に一方向に送信する。また、ＨＤＭＩ送信部２１６は、水平帰線区間２２または垂直帰線区間２３において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、ＨＤＭＩ受信部３１６に一方向に送信する。

　すなわち、ＨＤＭＩ送信部２１６は、ＨＤＭＩトランスミッタ３１を有する。トランスミッタ３１は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである３つのＴＭＤＳ（Transition Minimized Differential Signaling）チャネル＃０，＃１，＃２で、ＨＤＭＩ受信部３１６に、一方向にシリアル伝送する。

　また、トランスミッタ３１は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、３つのＴＭＤＳチャネル＃０，＃１，＃２で、ＨＤＭＩ受信部３１６に一方向にシリアル伝送する。

　ＨＤＭＩ受信部３１６は、アクティブビデオ区間２１（図３２参照）において、複数のチャネルで、ＨＤＭＩ送信部２１６から一方向に送信されてくる、画素データに対応する差動信号を受信する。また、ＨＤＭＩ受信部３１６は、水平帰線区間２２（図３２参照）または垂直帰線区間２３（図２１参照）において、複数のチャネルで、ＨＤＭＩ送信部２１６から一方向に送信されてくる、音声データや制御データに対応する差動信号を受信する。

　ＨＤＭＩ送信部２１６とＨＤＭＩ受信部３１６とからなるＨＤＭＩシステムの伝送チャネルには、画素データおよび音声データを伝送するための伝送チャネルとしての３つのＴＭＤＳチャネル＃０乃至＃２と、ピクセルクロックを伝送する伝送チャネルとしてのＴＭＤＳクロックチャネルの他に、ＤＤＣ（Display Data Channel）３３やＣＥＣ（Consumer Electronics Control）ライン３４と呼ばれる伝送チャネルがある。

　ＤＤＣ３３は、ＨＤＭＩケーブル４００に含まれる２本の信号線からなり、ＨＤＭＩ送信部２１６が、ＨＤＭＩケーブル４００を介して接続されたＨＤＭＩ受信部３１６から、ＥＤＩＤ（Extended Display Identification Data）を読み出すために使用される。すなわち、ＨＤＭＩ受信部３１６は、ＨＤＭＩレシーバ３２の他に、自身の性能（Configuration・Capability）に関する性能情報であるＥＤＩＤを記憶している、ＥＤＩＤＲＯＭを有している。ＨＤＭＩ送信部２１６がＥＤＩＤを読み出すことで、受信側の復号化能力情報が送信側に送られることになる。

　ＨＤＭＩ送信部２１６は、ＨＤＭＩケーブル４００を介して接続されているＨＤＭＩ受信部３１６から、ＥＤＩＤを、ＤＤＣ３３を介して読み出す。そして、セットトップボックス２００のＣＰＵ２０１は、そのＥＤＩＤに基づき、ＨＤＭＩ受信部３１６を有するテレビ受信機３００の性能を認識する。

　ＣＥＣライン３４は、ＨＤＭＩケーブル４００に含まれる１本の信号線からなり、ＨＤＭＩ送信部２１６とＨＤＭＩ受信部３１６との間で、制御用のデータの双方向通信を行うために用いられる。また、ＨＤＭＩケーブル４００には、ＨＰＤ（Hot Plug Detect）と呼ばれるピンに接続されるＨＰＤライン３５が含まれている。

　ソース機器は、このＨＰＤライン３５を利用して、直流バイアス電位により、シンク機器（ディスティネーション機器）の接続を検出することができる。この場合、ＨＰＤライン３５は、ソース機器側から見ると、直流バイアス電位によってシンク機器から接続状態の通知を受ける機能を有するものとなる。一方、このＨＰＤラインは、シンク機器側から見ると、直流バイアス電位によってソース機器に接続状態を通知する機能を有するものとなる。また、ＨＤＭＩケーブル４００には、ソース機器からシンク機器に電源を供給するために用いられる電源ライン３６が含まれている。

　さらに、ＨＤＭＩケーブル４００には、リザーブライン３７が含まれている。ＨＰＤライン３５とリザーブライン３７を用いた、イーサネットの信号を伝送するＨＤＭＩイーサネットチャネル（HDMI Ethernet Channel : HEC）が存在する。また、ＨＰＤライン３５とリザーブライン３７の双方またはＨＰＤライン３５のみを用いた、オーディオデータをディスティネーション機器（シンク機器）からソース機器に伝送するオーディオリターンチャネル（Audio Return Channel : ARC）が存在する。なお、「イーサネット」、「Ｅｔｈｅｒｎｅｔ」は、登録商標である。

　図３２は、ＴＭＤＳチャネルにおいて、横×縦が１９２０ピクセル×１０８０ラインの画像データが伝送される場合の、各種の伝送データの区間を示している。ＨＤＭＩの３つのＴＭＤＳチャネルで伝送データが伝送されるビデオフィールド（Video Field）には、伝送データの種類に応じて、ビデオデータ区間２４（Video Data Period）、データアイランド区間２５（Data Island Period）、およびコントロール区間２６（Control Period）の３種類の区間が存在する。

　ここで、ビデオフィールド区間は、ある垂直同期信号の立ち上がりエッジ（Active Edge）から次の垂直同期信号の立ち上がりエッジまでの区間であり、水平帰線期間２２（Horizontal Blanking）、垂直帰線期間２３（Vertical Blanking）、並びに、ビデオフィールド区間から、水平帰線期間および垂直帰線期間を除いた区間である有効画素区間２１（Active Video）に分けられる。

　ビデオデータ区間２４は、有効画素区間２１に割り当てられる。このビデオデータ区間２４では、非圧縮の１画面分の画像データを構成する１９２０ピクセル（画素）×１０８０ライン分の有効画素（Active Pixel）のデータが伝送される。データアイランド区間２５およびコントロール区間２６は、水平帰線期間２２および垂直帰線期間２３に割り当てられる。このデータアイランド区間２５およびコントロール区間２６では、補助データ（Auxiliary Data）が伝送される。

　すなわち、データアイランド区間２５は、水平帰線期間２２と垂直帰線期間２３の一部分に割り当てられている。このデータアイランド区間２５では、補助データのうち、制御に関係しないデータである、例えば、音声データのパケット等が伝送される。コントロール区間２６は、水平帰線期間２２と垂直帰線期間２３の他の部分に割り当てられている。このコントロール区間２６では、補助データのうちの、制御に関係するデータである、例えば、垂直同期信号および水平同期信号、制御パケット等が伝送される。

　「セットトップボックスとテレビ受信機との間の通信例」
　セットトップボックス２００のＣＰＵ２０１は、例えば、テレビ受信機３００のＣＰＵ３０１との間で例えばＣＥＣラインを用いた通信によりネゴシエーションを行って、テレビ受信機３００が必要とするオーディオストリームを把握し、そのオーディオストリームのみを送信することが可能とされる。

　図３３は、セットトップボックス２００およびテレビ受信機３００におけるネゴシエーションを伴った動作の一例を示している。

　（１）セットトップボックス２００は、ＥＩＴ配下のコンポーネント・デスクリプタ（Component_descriptor）、また、データコンテナ・デスクリプタ(data_container_descriptor)に基づいて、ネットリンク可能な番組を明示した番組表の表示信号をテレビ受信機３００に送り、テレビ受信機３００の表示画面に当該番組表を表示する。

　（２）テレビ受信機３００は、表示画面に表示された番組表を利用して、ネットリンク可能な番組を選択し、その番組選択信号をセットトップボックス２００に送る。

（３）セットトップボックス２００は、テレビ受信機３００からの番組選択信号に基づいて、当該番組を受信する。そして、セットトップボックス２００は、データコンテナ・デスクリプタ（Data_container descriptor）に基づいて、所定情報（挿入データ）が挿入されているオーディオストリームを検知する。

　（４）セットトップボックス２００は、テレビ受信機３００のＥＤＩＤにアクセスして受信可能性をチェックする。

　（５）テレビ受信機３００は、ＥＤＩＤにより、オーディオストリーム（圧縮ストリーム）が受信可能であることを、セットトップボックス２００に通知する。（６）テレビ受信機３００は、ＥＤＩＤにより、オーディオ再生用デコーダは一つであることを、セットトップボックス２００に通知する。

　（７）セットトップボックス２００は、所定情報が挿入されているオーディオストリームが２つである場合、（８）２つのオーディオストリーム（例えばメインストリームとサブストリームの２ストリーム）の受信が必要であることを、テレビ受信機３００に通知する。

　（９）それに対応して、テレビ受信機３００は、アクノーレッジ（ACK）信号を、セットトップボックス２００に送る。（１０）セットトップボックス２００は、テレビ受信機３００のオーディオ再生用デコーダは１つであるが、２つのオーディオストリームを、送信する。

　（１１）テレビ受信機３００は、２ストリームを受信する。そして、メインストリームに関しては、挿入されている所定情報の分割部分をエクストラクタで抽出する一方で、当該メインストリームをデコーダへ転送してデコードする。一方、サブストリームに関しては、挿入されている所定情報の分割部分をエクストラクタで抽出する。そして、テレビ受信機３００は、各エクストラクタで抽出された所定情報の各分割部分から、データリアセンブラで、所定情報を再構成する。（１２）テレビ受信機３００は、再構成された所定情報、ここではネットアクセス情報を用いて、ネットアクセスを行って、所定の情報を取得し、表示等を行う。

　上述したように、図１に示す送受信システム１０において、放送送出装置１００は、オーディオストリームの所定数のオーディオフレームにビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信する。そのため、オーディオストリームを含めた全体のビットレートをターゲットビットレートに抑えることができ、オーディオストリームに所定の情報を挿入して送信することを良好に行い得る。

　また、図１に示す送受信システム１０において、放送送出装置１００は、１つ以上、例えば２つのオーディオストリームの所定数のオーディオフレームに所定情報を分割して得た各分割部分を挿入して送信する。そのため、所定情報の全体の送信に必要な時間の短縮が可能となる。

　＜２．変形例＞
　なお、上述実施の形態において、放送送出装置１００は、所定情報をオーディオストリームに挿入して送信する。しかし、放送送出装置１００は、所定情報をビデオストリームなどのその他のメディア符号化ストリームに挿入して送信することも考えられる。

　図３４は、その場合における、放送送出装置１００が備えるストリーム生成部１１０Ｃの構成例を示している。この図３４において、図２と対応する部分には、同一符号を付し、適宜、その詳細説明を省略する。このストリーム生成部１１０Ｃは、制御部１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、スプリッタ１１４と、インサータ１１５，１１７と、マルチプレクサ１１６を有している。

　ＣＰＵ１１１は、ストリーム生成部１１０Ｃの各部を制御する。ビデオエンコーダ１１２は、ビデオデータ（画像データ）ＳＶに対して、ＭＰＥＧ２、Ｈ．２６４／ＡＶＣ、Ｈ．２６５/ＨＥＶＣなどの符号化を施し、ビデオストリーム（ビデオエレメンタリストリーム）を生成する。オーディオエンコーダ１１３は、オーディオデータ（音声データ）ＳＡに対して、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏの圧縮フォーマットによる符号化を施し、オーディオストリーム（オーディオエレメンタリストリーム）を生成する。

　スプリッタ１１４は、詳細説明は省略するが、図２のストリーム生成部１１０Ａのスプリッタ１１４と同様に、所定情報を構成する挿入データＤＴを分割して、所定数の分割部分ｆ（ｉ）を得る。この場合、ビデオストリーム、オーディオストリームのそれぞれに挿入される挿入データＤＴのビットレートが許容ビットレートに収まるように、（１）または（２）の方法で分割される。

　インサータ１１７は、ビデオエンコーダ１１２で生成されたビデオストリームＲ＿ＥＭ３の所定数のアクセスユニット（ピクチャ）に、スプリッタ１１４で分割されて得られた所定数の分割部分ｆ(i)を、再構成のための順番情報を付加して、順次挿入する。この場合、分割部分ｆ(i)を持つジェネリックデータ（generic_data）（図１０参照）が、ＳＥＩ　ＮＡＬユニットに、例えば、図９に構造例を示すエントリを用いて配置される。

　また、インサータ１１５は、詳細説明は省略するが、図２のストリーム生成部１００Ａにおけるインサータ１１５と同様にして、オーディオエンコーダ１１３で生成されたオーディオストリームＲ＿ＥＭ１の所定数のオーディオフレームに、スプリッタ１１４で分割されて得られた所定数の分割部分ｆ(i)を、再構成のための順番情報を付加して、順次挿入する。

　マルチプレクサ１１６は、インサータ１１７から出力される、所定情報（挿入データＤＴ）の各分割部分が挿入されたビデオストリームと、インサータ１１５から出力される、所定情報（挿入データＤＴ）の各分割部分が挿入されたオーディオストリームを、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。

　また、マルチプレクサ１１６は、トランスポートストリームＴＳに、ビデオストリーム、オーディオストリームのそれぞれに対応して、所定情報の挿入があることを示す識別情報などを挿入する。具体的には、プログラムマップテーブル（ＰＭＴ）の配下のビデオエレメンタリストリームループ内、オーディオエレメンタリストリームループ内に、データコンテナ・デスクリプタ（図１４参照）を挿入する。

　図３５は、トランスポートストリームＴＳの構造例を示している。この構造例は、ビデオストリームとオーディオストリームの２つのストリームで所定情報をコンテナする場合の例である（図３４参照）。

　この構造例では、ＰＩＤ１で識別されるビデオストリームのＰＥＳパケット「Video PES」が存在すると共に、ＰＩＤ２で識別されるオーディオストリームのＰＥＳパケット「Audio PES」が存在する。

　ビデオストリームのＰＥＳパケットには、ビデオストリーム（Video coded stream）が挿入される。このビデオストリームの所定数（１を含む）のアクセスユニット（ピクチャ）内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。また、オーディオストリームのＰＥＳパケットにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームの所定数（１を含む）のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。

　また、ＰＭＴには、各エレメンタリストリームに関連した情報を持つエレメンタリストリーム・ループが存在する。この構造例では、ビデオストリームに対応してビデオエレメンタリストリーム・ループ（Video ES loop）が存在すると共に、オーディオストリームに対応してオーディオエレメンタリストリーム・ループ（Audio ES loop）が存在する。

　各エレメンタリストリーム・ループ（ES loop）には、それぞれのストリームに対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタの１つとして、上述したデータコンテナ・デスクリプタ（data_container descriptor）（図１４参照）が配置される。

　また、各エレメンタリストリーム・ループには、デスクリプタの１つとして、「Component_tag」の情報を持つストリームアイデンチファイア・デスクリプタ（Stream_identifier descriptor）が配置される。また、ＥＩＴ（Event Information Table）の配下に、コンポーネント・デスクリプタ（Component_descriptor）が配置される。また、ＥＩＴには上述したデータコンテナ・デスクリプタ（data_container descriptor）が配置されてもよい。その場合、受信機ＥＰＧ表示にメタデータの挿入を記す際の識別情報の提供になる。

　このコンポーネント・デスクリプタは、「Component_tag」により上述のＰＭＴ配下の各エレメンタリストリーム・ループと関連付けられる。これにより、ある番組のビデオ、オーディオのストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、ＥＰＧなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをＴＶ視聴者に知らせることが可能となる。

　上述の図２６に示すセットトップボックス２００は、受信されたビデオストリームにデコード処理を施して得られた非圧縮のビデオデータを、ＨＤＭＩケーブル４００を介して、テレビ受信機３００に送信する構成となっている。しかし、上述したように所定情報をビデオストリームに挿入して送信する場合にあっては、受信されたビデオストリームをデコードせずにそのまま、ＨＤＭＩケーブル４００を介して、テレビ受信機３００に送信する構成となる。この場合、ビデオストリームのデコードはテレビ受信機３００で行われることになる。

　なお、図３４のストリーム生成部１１０Ｃでは、所定情報をビデオストリームとオーディオストリームの双方に挿入して送信するものである。詳細説明は省略するが、所定情報をビデオストリームのみに挿入して送信する構成も考えられる。

　また、上述実施の形態においては、オーディオ圧縮フォーマットがＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏである例を示した。しかし、本技術は、オーディオ圧縮フォーマットが、ＡＡＣ、ＡＣ３、ＡＣ４などのその他のオーディオ圧縮フォーマットである場合にも、同様に適用できる。

　図３６（ａ）は、ＡＣ４のシンプルトランスポート（Simple Transport）のレイヤの構造を示している。シンクワード（syncWord）のフィールドと、フレームレングス（frame Length）のフィールドと、符号化データのフィールドとしての「RawAc4Frame」のフィールドと、ＣＲＣフィールドが存在する。「RawAc4Frame」のフィールドには、図３６（ｂ）に示すように、先頭にＴＯＣ（Table Of Content）のフィールドが存在し、その後の所定数のサブストリーム（Substream）のフィールドが存在する。

　図３７（ｂ）に示すように、サブストリーム（ac4_substream_data()）の中には、メタデータ領域（metadata）が存在し、その中に「umd_payloads_substream()」のフィールドが設けられる。この「umd_payloads_substream()」のフィールドの中の「umd_payload_byte」のフィールドに、例えば、図９に構造例を示すエントリを用いて、所定情報の分割部分を持つジェネリックデータ（generic_data）（図１０参照）が配置される。

　なお、図３７（ａ）に示すように、ＴＯＣ（ac4_toc()）の中には「ac4_presentation_info()」のフィールドが存在し、さらにその中に「umd_info()」のフィールドが存在し、その中に上述の「umd_payloads_substream()）」のフィールドにメタデータの挿入があることが示される。

　また、上述実施の形態においては、コンテナストリーム（多重化ストリーム）がＭＰＥＧ－２　トランスポートストリーム（トランスポートストリームＴＳ）である例を示した。しかし、本技術は、ＭＰ４やそれ以外のフォーマットのコンテナストリームで配信されるシステムにも同様に適用できる。例えば、ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システム、あるいは、ＭＭＴ（MPEG Media Transport）構造伝送ストリームを扱う送受信システムなどである。

　図３８は、ＭＭＴのトランスポートストリームの構造例を示している。この構造例は、２つのオーディオストリームが存在し、その２つのオーディオストリームで所定情報をコンテナする場合の例である（図１６参照）。この構造例では、ビデオストリームに係る部分は省略している。

　ＭＭＴのトランスポートストリームには、パケットタイプが“MPU”である場合、ＩＤ１で識別されるオーディオストリームＡＳのＭＰＵパケット「MPU audio」と、ＩＤ２で識別されるオーディオストリームＡＳのＭＰＵパケット「MPU audio」が配置される。これらのＭＰＵパケットにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームの所定数（１を含む）のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。

　また、ＭＭＴのトランスポートストリームには、パケットタイプが“message”である場合、種々のメッセージパケットが配置される。このメッセージパケットの一つとしてＰＡ（Packet Access）メッセージパケットがある。ＰＡメッセージパケットには、ＭＰＴなどのテーブルが含まれている。

　ＭＰＴには、アセットとしての各ストリームに対応して、アセットタイプ（Asset_type）、パケットＩＤ（Packet_id）等の情報が配置されると共に、そのストリームに関連する情報を記述するデスクリプタも配置される。このデスクリプタの一つとして、上述したデータコンテナ・デスクリプタ（data_container descriptor）（図１４参照）が配置される。

　また、デスクリプタの１つとして、「Component_tag」の情報を持つＭＨストリームアイデンチファイア・デスクリプタ（MH-Stream_identifier descriptor）が配置される。また、ＭＨ－ＥＩＴ（MH-Event Information Table）の配下に、ＭＨ・コンポーネント・グループ・デスクリプタ（MH-Component_Group_Descriptor）が配置される。また、ＭＨ－ＥＩＴには上述したデータコンテナ・デスクリプタ（data_container descriptor）が配置されてもよい。
その場合、受信機ＥＰＧ表示にメタデータの挿入を記す際の識別情報の提供になる。

　このＭＨ・コンポーネント・グループ・デスクリプタは、「Component_tag」により上述のＭＰＴ配下の各アセット（オーディオストリーム）の情報と関連付けられる。これにより、ある番組のオーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、ＥＰＧなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをＴＶ視聴者に知らせることが可能となる。

　図３９は、ＭＭＴのトランスポートストリームの他の構造例を示している。この構造例は、ビデオストリームとオーディオストリームの２つのストリームで所定情報をコンテナする場合の例である（図３４参照）。

　ＭＭＴのトランスポートストリームには、パケットタイプが“MPU”である場合、ＩＤ１で識別されるビデオストリームＶＳのＭＰＵパケット「MPU video」と、ＩＤ２で識別されるオーディオストリームＡＳのＭＰＵパケット「MPU audio」が配置される。

　ビデオストリームのＭＰＵパケットには、ビデオストリーム（Video coded stream）が挿入される。このビデオストリームの所定数（１を含む）のアクセスユニット（ピクチャ）内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。また、オーディオストリームのＭＰＵパケットにはオーディオストリーム（Audio coded stream）が挿入される。このオーディオストリームの所定数（１を含む）のオーディオフレーム内に、所定情報の各分割部分を含むジェネリックデータ（generic_data）（図１０参照）が挿入される。

　また、デスクリプタの１つとして、「Component_tag」の情報を持つＭＨストリームアイデンチファイア・デスクリプタ（MH-Stream_identifier descriptor）が配置される。また、ＭＨ－ＥＩＴ（MH-Event Information Table）の配下に、ＭＨ・コンポーネント・グループ・デスクリプタ（MH-Component_Group_Descriptor）が配置される。ＭＨ－ＥＩＴには上述したデータコンテナ・デスクリプタ（data_container descriptor）が配置されてもよい。その場合、受信機ＥＰＧ表示にメタデータの挿入を記す際の識別情報の提供になる。

　このＭＨ・コンポーネント・グループ・デスクリプタは、「Component_tag」により上述のＭＰＴ配下の各アセット（ビデオストリーム、オーディオストリーム）の情報と関連付けられる。これにより、ある番組のビデオストリーム、オーディオストリームに所定情報、例えばネットアクセス情報の挿入があることがわかり、ＥＰＧなどの番組表の表示時に、当該ある番組の部分に“net link”などの表示を行って、ネットアクセス可能な配信であることをＴＶ視聴者に知らせることが可能となる。

　図４０は、オーディオ圧縮フォーマットがＭＰＥＧ－Ｈ　３Ｄ　ＡｕｄｉｏあるいはＡＣ４である場合におけるオーディオトラック（トラックＡ）のデータを含むＭＰ４ストリーム（ファイル）の構成例を示している。図示の例は、フラグメンテッドＭＰ４（Fragmented MP4）の場合の例である。ＭＰ４ストリームには、制御情報が入る“ｍｏｏｆ”ボックスとメディアデータ本体が入る“ｍｄａｔ”ボックスから構成されるムービーフラグメント（Movie Fragment）が所定個数配置される。“ｍｄａｔ”ボックスには、トラックデータが断片化されて得られた断片が入るので、“ｍｏｏｆ”ボックスに入る制御情報はその断片に関する制御情報となる。

　オーディオトラックに対応したＭＰ４ストリーム「audio bitstream」において、各ムービーフラグメントの“ｍｄａｔ”ボックスには、所定個数のオーディオフレーム（アクセスユニットフレーム）が配置される。また、このＭＰ４ストリーム「audio bitstream」において、各ムービーフラグメントの“ｍｏｏｆ”ボックス内に“ｔｒａｆ”ボックスが存在し、そのボックス内に“ｔｆｄｔ”ボックスが存在する。この“ｔｆｄｔ”ボックスに、“ｍｏｏｆ”ボックスの後の最初のアクセスユニットのデコードタイム“baseMediaDecodeTime”の記載がある。

　また、“ｍｏｏｆ”ボックス内に“ｔｆｄｔ”ボックスが存在し、その内に“ｓｇｐｄ”ボックスが存在し、さらに、その内に“ｔｓｃｌ”ボックスが存在する。この“ｔｓｃｌ”ボックスに、「Audiostreamtype」、「Attribute」のパラメータの記載がある。「Audiostreamtype = AC4 or mpegh」は、オーディオ圧縮フォーマットがＡＣ４あるいはＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏであることを示す。「Attribute = sound genericdata」は、オーディオトラックにジェネリックデータ（generic data）の挿入あることを示す。具体的には、「sound genericdata」として、例えば、上述の図１４に示すデータコンテナ・デスクリプタ（dat_cintainer descriptor）の内容が記載される。

　図４１は、データ挿入ストリームが２つのオーディオストリームである場合におけるＭＰＤファイル記述例を示している。また、図４２は、データ挿入ストリームがオーディオストリームとビデオストリームである場合におけるＭＰＤファイル記述例を示している。また、図４３は、それらの記述例における主要な情報の内容を示す。従来周知のように、ＭＰＥＧ－ＤＡＳＨベースのストリーム配信システムにおいては、メディアストリーム（ＭＰ４ストリーム）と、メタファイルとしてのＭＰＤファイルが、通信ネットワーク伝送路を通じて受信側に送信される。

　最初に、図４１のＭＰＤファイル記述例を説明する。ここでは、説明の簡単化のためにオーディオストリームに関する情報のみが記述されている例を示しているが、実際にはビデオストリームに関する情報も記述されている。このＭＰＤファイルには、第１、第２のオーディオストリームにそれぞれ対応したアダプテーションセット（AdaptationSet）が存在する。

　「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、第１のオーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ１が割り当てられていることが示されている。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “AC4or mpegh”/>」の記述により、オーディオストリームのコーデックがＡＣ４あるいはＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏであることが示されている。「schemeIdUri=“urn:brdcst:codecType”」は、コーデックの種類を示す。例えば、「value」は“mpegh”、”AAC”、”AC3”、”AC4”などとされる。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ（generic_data）が含まれることが示されている。例えば、「value」が“true”であるときは、ジェネリックデータが含まれることを示す。「value」が“false”であるときは、ジェネリックデータが含まれないことを示す。

　また、「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。例えば、「value」が“true”であるときは、ネット接続情報が他のアダプテーションセットのストリームと協調して供給されることを示す。「value」が“false”であるときは、ネット接続情報が本アダプテーションセットのストリームのみで供給されることを示す。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“１”であることが示されている。「schemeIdUri=“urn:brdcst:metaInsertionFrequency”」は、アクセスユニット単位にメタ情報が供給される頻度を示す。例えば、“１”は、１つのユーザデータエントリが１アクセスユニットに発生することを示す。“２”は、１つ以上のユーザデータエントリが１アクセスユニットに発生することを示す。“３”は、１つ以上のユーザデータエントリが、ランダムアクセスポイントで区切られる期間中に発生することを示す。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。「schemeIdUri=“urn:brdcst:type”」は、メタによるサービスの種類を示す。例えば、「value」が“netlink”であるときは、メタによるサービスの種類がネット接続であることを示す。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を１０００ｂｐｓ単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート（ＣＲ：compressed media_data_bitrate）を基準とした、挿入データのビットレート（ＡＶＲ：inserted_data_bitrate）の割合（Ratio）を示す。その場合、割合の算出は次式のようなものになる。
Ratio = inserted_data_bitrate / compressed media_data_bitrate

　また、「<Representation id=“11” bandwidth=“64000”>」の記述により、グループ１のアダプテーションセットの中に、「Representation id=“11”」で識別されるリプレゼンテーションとして、グループ１“group1”の符号化データを含むビットレートが６４ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/64.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/64.mp4」として示されている。

　また、「<AdaptationSet mimeType=“audio/mp4” group=“2”>」の記述により、第２のオーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ２が割り当てられていることが示されている。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “AC4or mpegh”/>」の記述により、オーディオストリームのコーデックがＡＣ４あるいはＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ（generic_data）が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。

。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“１”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を１０００ｂｐｓ単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート（ＣＲ）を基準とした、挿入データのビットレート（ＡＶＲ）の割合を示す。

　また、「<Representation id=“21” bandwidth=“96000”>」の記述により、グループ２のアダプテーションセットの中に、「Representation id=“21”」で識別されるリプレゼンテーションとして、グループ２“group2”の符号化データを含むビットレートが９６ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/96.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/96.mp4」として示されている。

　次に、図４２のＭＰＤファイル記述例を説明する。このＭＰＤファイルには、オーディオストリーム、ビデオストリームにそれぞれ対応したアダプテーションセット（AdaptationSet）が存在する。

　「<AdaptationSet mimeType=“audio/mp4” group=“1”>」の記述により、オーディオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのオーディストリームはＭＰ４ファイル構造で供給され、グループ１が割り当てられていることが示されている。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “mpegh”/>」の記述により、オーディオストリームのコーデックがＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ（generic_data）が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“１”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を１０００ｂｐｓ単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート（ＣＲ）を基準とした、挿入データのビットレート（ＡＶＲ）の割合を示す。

　また、「<Representation id=“11” bandwidth=“128000”>」の記述により、グループ１のアダプテーションセットの中に、「Representation id=“11”」で識別されるリプレゼンテーションとして、グループ１“group1”の符号化データを含むビットレートが１２８ｋｂｐｓのオーディオストリームの存在が示されている。そして、「<baseURL>audio/jp/128.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「audio/jp/128.mp4」として示されている。

　また、「<AdaptationSet mimeType=“video/mp4” group=“2”>」の記述により、ビデオストリームに対するアダプテーションセット（AdaptationSet）が存在し、そのビデオストリームはＭＰ４ファイル構造で供給され、グループ２が割り当てられていることが示されている。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:codecType” value= “hevc”/>」の記述により、ビデオストリームのコーデックがＨＥＶＣであることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、オーディオストリームにジェネリックデータ（generic_data）が含まれることが示されている。「schemeIdUri==“urn:brdcst:jointstreamdelivery”」は、ネット接続に必要な情報が複数のメディアストリーム間で協調して供給されか否かを示す。

　また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:genericdatacContained” value=“true”/>」の記述により、ビデオストリームにジェネリックデータ（generic_data）が含まれることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:metaInsertionFrequency” value= “1”/>」の記述により、アクセスユニット単位にメタ情報が供給される頻度が“１”であることが示されている。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:type”value=“netlink”/>」の記述により、メタによるサービスの種類がネット接続であることが示されている。そして、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:databitrate”value= “value”/>」の記述により、データ挿入後のbitrate(target_bitrate)を１０００ｂｐｓ単位の値で示す。また、「<SupplementaryDescriptor schemeIdUri=“urn:brdcst:datainsertionratio” value= “value”/>」の記述により、メディア符号化ストリームのビットレート（ＣＲ）を基準とした、挿入データのビットレート（ＡＶＲ）の割合を示す。

　また、「<Representation id=“21” bandwidth=“20000000”>」の記述により、グループ２のアダプテーションセットの中に、「Representation id=“21”」で識別されるリプレゼンテーションとして、グループ２“group2”の符号化データを含むビットレートが２０Ｍｂｐｓのビデオストリームの存在が示されている。そして、「<baseURL>audio/jp/20000.mp4</BaseURL>」の記述により、そのオーディオストリームのロケーション先が、「video/jp/20000.mp4」として示されている。

　また、上述実施の形態においては、セットトップボックス２００およびテレビ受信機３００を有する送受信システム１０を示した。しかし、テレビ受信機３００の代わりに、モニタ装置、あるいはプロジェクタ等が配置される構成も考えられる。また、セットトップボックス２００の代わりに、受信機能付きのレコーダ、パーソナルコンピュータ等が配置される構成も考えられる。

　また、上述実施の形態においては、セットトップボックス２００およびテレビ受信機３００がＨＤＭＩのデジタルインタフェースにより有線で接続されている。しかし、各機器が、ＨＤＭＩと同様のデジタルインタフェースで有線接続される場合、さらには、無線によって接続される場合にも、この発明を同様に適用できることは勿論である。

　また、上述実施の形態においては、放送送出装置１００から放送波に載せて送信されてくるトランスポートストリームＴＳをセットトップボックス２００で受信する送受信システム１０を示した。しかし、図４４に示すように、放送送出装置１００から放送波に載せて送信されてくるトランスポートストリームＴＳをテレビ受信機３００で直接受信する送受信システム１０Ａも考えられる。

　なお、本技術は、以下のような構成もとることができる。
　（１）メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
　上記情報挿入部は、
　上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
　送信装置。
　（２）上記情報挿入部は、
　上記所定情報を、各分割部分のデータサイズが固定サイズとなるように分割する
　前記（１）に記載の送信装置。
　（３）上記情報挿入部は、
　ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する上記単位部分の数で割ることにより上記固定サイズを算出する
　前記（２）に記載の送信装置。
　（４）上記情報挿入部は、
　上記所定情報を、上記分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する
　前記（１）に記載の送信装置。
　（５）上記情報挿入部は、
　ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する上記単位部分の数で割って得られた第１のサイズと、上記メディア符号化ストリームのビットレートを１秒間で発生する上記単位部分の数で割って得られた第２のサイズとを加算することで上記固定サイズを算出する
　前記（４）に記載の送信装置。
　（６）上記情報挿入部は、
　１つ以上の上記メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に挿入される上記各分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報を付加する
　前記（１）から（５）のいずれかに記載の送信装置。
　（７）上記コンテナに、上記１つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
　前記（６）に記載の送信装置。
　（８）上記識別情報挿入部は、
　上記コンテナに、上記１つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
　上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
　前記（７）に記載の送信装置。
　（９）メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
　送信部により、上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
　上記情報挿入ステップでは、
　上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
　送信方法。
　（１０）１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報の分割部分が挿入された上記１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　（１１）上記情報挿入部は、
　上記１つ以上のメディア符号化ストリームにそれぞれ挿入される上記各分割部分に、他の上記メディアストリームへの上記分割部分の挿入があるか識別する識別情報を付加する
　前記（１０）に記載の送信装置。
　（１２）上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
　前記（１０）または（１１）に記載の送信装置。
　（１３）上記識別情報挿入部は、
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
　上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
　前記（１２）に記載の送信装置。
　（１４）１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
　送信部により、上記所定情報の分割部分が挿入された上記１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。
　（１５）１つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
　上記１つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
　受信装置。
　（１６）上記ストリーム受信部は、
　上記１つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する
　前記（１５）に記載の受信装置。
　（１７）上記１つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている上記分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報が付加されており、
　上記所定情報を再構成する処理では、上記識別情報に基づいて、上記１つ以上のメディア符号化ストリームの所定数の単位部分から上記所定情報の各分割部分を取り出す
　前記（１５）または（１６）に記載の受信装置。
　（１８）受信部により、１つ以上のメディア符号化ストリームを受信するストリーム受信ステップを有し、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
　上記１つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成するデータ構成ステップと、
　上記再構成された所定情報を利用した情報処理を行う情報処理ステップをさらに有する
　受信方法。
　（１９）１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
　上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記１つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
　受信装置。

　本技術の主な特徴は、メディア符号化ストリームの所定数の単位部分にビットレートが所定ビットレートに収まるように所定情報を分割して得た各分割部分を挿入して送信することで、メディア符号化ストリームに所定の情報を挿入して送信することを良好に行い得るようにしたことである（図２、図４、図６参照）。

　１０，１０Ａ・・・送受信システム
　２１・・・有効画素区間
　２２・・・水平帰線期間
　２３・・・垂直帰線期間
　２４・・・ビデオデータ区間
　２５・・・データアイランド区間
　２６・・・コントロール区間
　３１・・・ＨＤＭＩトランスミッタ
　３２・・・ＨＤＭＩレシーバ
　３３・・・ＤＤＣ
　３４・・・ＣＥＣライン
　３５・・・ＨＰＤライン
　３６・・・電源ライン
　３７・・・リザーブライン
　１００・・・放送送出装置
　１１０Ａ，１１０Ｂ，１１０Ｃ・・・ストリーム生成部
　１１１・・・ＣＰＵ
　１１２・・・ビデオエンコーダ
　１１３，１１３-1，１１３-2・・・オーディオエンコーダ
　１１４・・・スプリッタ
　１１５，１１５-1，１１５-2，１１７・・・インサータ
　１１６・・・マルチプレクサ
　２００・・・セットトップボックス（ＳＴＢ）
　２０１・・・ＣＰＵ
　２０２・・・フラッシュＲＯＭ
　２０３・・・ＤＲＡＭ
　２０４・・・内部バス
　２０５・・・リモコン受信部
　２０６・・・リモコン送信機
　２１１・・・アンテナ端子
　２１２・・・デジタルチューナ
　２１３・・・デマルチプレクサ
　２１４・・・ビデオデコーダ
　２１５・・・オーディオフレーミング部
　２１６・・・ＨＤＭＩ送信部
　２１７・・・ＨＤＭＩ端子
　３００・・・テレビ受信機（ＴＶ）
　３０１・・・ＣＰＵ
　３０２・・・フラッシュＲＯＭ
　３０３・・・ＤＲＡＭ
　３０４・・・内部バス
　３０５・・・リモコン受信部
　３０６・・・リモコン送信機
　３０７・・・通信インタフェース
　３１１・・・アンテナ端子
　３１２・・・デジタルチューナ
　３１３・・・デマルチプレクサ
　３１４・・・ビデオデコーダ
　３１５・・・ＨＤＭＩ端子
　３１６・・・ＨＤＭＩ受信部
　３１７・・・映像処理回路
　３１８・・・パネル駆動回路
　３１９・・・表示パネル
　３２０・・・オーディオデコーダ
　３２１・・・音声処理回路
　３２２・・・音声増幅回路
　３２３・・・スピーカ
　３５１-1，３５１-2・・・エクストラクタ
　３５２-1，３５２-2・・・デコーダ
　３５３・・・データリアセンブラ
　４００・・・ＨＤＭＩケーブル

Claims

　メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備え、
　上記情報挿入部は、
　上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
　送信装置。
　上記情報挿入部は、
　上記所定情報を、各分割部分のデータサイズが固定サイズとなるように分割する
　請求項１に記載の送信装置。
　上記情報挿入部は、
　ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する上記単位部分の数で割ることにより上記固定サイズを算出する
　請求項２に記載の送信装置。
　上記情報挿入部は、
　上記所定情報を、上記分割部分が挿入された各単位部分のデータサイズが固定サイズとなるように分割する
　請求項１に記載の送信装置。
　上記情報挿入部は、
　ターゲットビットレートから上記メディア符号化ストリームのビットレートを差し引いて得られた許容ビットレートを１秒間で発生する上記単位部分の数で割って得られた第１のサイズと、上記メディア符号化ストリームのビットレートを１秒間で発生する上記単位部分の数で割って得られた第２のサイズとを加算することで上記固定サイズを算出する
　請求項４に記載の送信装置。
　上記情報挿入部は、
　１つ以上の上記メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入し、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に挿入される上記各分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報を付加する
　請求項１に記載の送信装置。
　上記コンテナに、上記１つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
　請求項６に記載の送信装置。
　上記識別情報挿入部は、
　上記コンテナに、上記１つ以上の上記メディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
　上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
　請求項７に記載の送信装置。
　メディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
　送信部により、上記所定情報が挿入されたメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有し、
　上記情報挿入ステップでは、
　上記所定情報のビットレートが所定ビットレートに収まるように、上記所定情報を分割する
　送信方法。
　１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入部と、
　上記所定情報の分割部分が挿入された上記１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　上記情報挿入部は、
　上記１つ以上のメディア符号化ストリームにそれぞれ挿入される上記各分割部分に、他の上記メディアストリームへの上記分割部分の挿入があるか識別する識別情報を付加する
　請求項１０に記載の送信装置。
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報を挿入する識別情報挿入部をさらに備える
　請求項１０に記載の送信装置。
　上記識別情報挿入部は、
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入がある他のメディア符号化ストリームが存在するかを示す識別情報と、
　上記他のメディア符号化ストリームが存在するとき、該他のメディア符号化ストリームを示す識別情報をさらに挿入する
　請求項１２に記載の送信装置。
　１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分を、再構成のための順番情報を付加して順次挿入する情報挿入ステップと、
　送信部により、上記所定情報の分割部分が挿入された上記１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。
　１つ以上のメディア符号化ストリームを受信するストリーム受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
　上記１つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成する処理と、該再構成された所定情報を利用した情報処理を制御する制御部をさらに備える
　受信装置。
　上記ストリーム受信部は、
　上記１つ以上のメディア符号化ストリームを、外部機器からデジタルインタフェースを介して受信する
　請求項１５に記載の受信装置。
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に挿入されている上記分割部分に、他の上記メディア符号化ストリームへの上記分割部分の挿入があるか識別するための識別情報が付加されており、
　上記所定情報を再構成する処理では、上記識別情報に基づいて、上記１つ以上のメディア符号化ストリームの所定数の単位部分から上記所定情報の各分割部分を取り出す
　請求項１５に記載の受信装置。
　受信部により、１つ以上のメディア符号化ストリームを受信するストリーム受信ステップを有し、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が再構成のための順番情報が付加されて順次挿入されており、
　上記１つ以上のメディア符号化ストリームの上記所定数の単位部分から上記所定情報の各分割部分を取り出し、上記順番情報に基づいて上記所定情報を再構成するデータ構成ステップと、
　上記再構成された所定情報を利用した情報処理を行う情報処理ステップをさらに有する
　受信方法。
　１つ以上のメディア符号化ストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記１つ以上のメディア符号化ストリームの所定数の単位部分に、所定情報を分割して得た各分割部分が、再構成のための順番情報が付加されて順次挿入されており、
　上記コンテナに、上記１つ以上のメディア符号化ストリームのそれぞれに対応して、上記所定情報の分割部分の挿入があることを示す識別情報が挿入されており、
　上記識別情報に基づいて上記所定情報の分割部分の挿入がある上記１つ以上のメディア符号化ストリームを上記外部機器にデジタルインタフェースを介して送信する送信部をさらに備える
　受信装置。