WO2017208818A1

WO2017208818A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2017208818A1
Application number: PCT/JP2017/018483
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2016-05-31
Filing date: 2017-05-17
Publication date: 2017-12-07
Also published as: EP3468204A4; EP3468204A1; US20190123842A1; AU2017274829A1; JP7020406B2; CN109155866A; JPWO2017208818A1

Abstract

複数種類のサブタイトル情報の伝送の簡素化を図る。　それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成し、それを含む所定フォーマットのコンテナを送信する。受信側では、所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出し、この１つのサブタイトルストリームから１つのサブタイトル情報を抽出し、この１つのサブタイトル情報をデコードしてサブタイトル表示を制御する。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、複数種類のサブタトル情報を並行して伝送する送信装置等に関する。

　近時、サブタイトルの情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。この場合、受信側で解像度に応じたフォント展開がなされる。例えば、Ｗ３Ｃ（(World Wide Web Consortium）でＴＴＭＬ（Timed Text Markup Language）が提唱されている（特許文献１参照）。

特開２０１２－１６９８８５号公報

　言語あるいは内容が異なる複数種類のサブタイトル情報をそれぞれ含む複数のサブタイトルストリームを並行して送信し、受信側ではストリーム選択を行うことよって所望のサブタイトル表示を行うことが知られている。この場合、サブタイトル情報の種類が増加すると、サブタイトルストリームの数も増加し、送信側の多重化が同期関係で複雑化する懸念がある。

　本技術の目的は、複数種類のサブタイトル情報の伝送の簡素化を図ることにある。

　本技術の概念は、
　それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置にある。

　本技術において、サブタイトルエンコード部により、それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームが生成される。例えば、所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ、ようにされてもよい。送信部により、所定数のサブタイトルストリームを含む所定フォーマットのコンテナが送信される。

　例えば、サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ、ようにされてもよい。また、例えば、サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ、ようにされてもよい。

　このように本技術においては、複数のサブタイトル情報を含むサブタイトルストリームを生成して送信できる。そのため、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となる。

　なお、本技術において、例えば、コンテナに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える、ようにされてもよい。例えば、サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる、ようにされてもよい。受信側では、この所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を制御することが可能となる。

　また、本技術の他の概念は、
　それぞれ一つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
　上記所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、該抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理を制御する制御部を備える
　受信装置にある。

　本技術において、受信部により、それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナが受信される。制御部により、所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、この抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理が制御される。

　例えば、コンテナに、所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、制御部は、所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、第１の抽出処理および第２の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する、ようにされてもよい。この場合、ユーザは、ユーザインタフェース情報に基づいて、サブタイトル情報の選択操作を適切かつ効率的に行うことができる。

　このように本技術においては、所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出し、さらに、この抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出するものである。そのため、所定数のサブタイトルストリームに複数のサブタイトル情報を含むサブタイトルストリームが含まれる場合であっても、所望のサブタイトル表示が可能となる。

　本技術によれば、複数種類のサブタイトル情報の伝送の簡素化を図ることができる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。複数のサブタイトルストリームが持つサブタイトル情報の一例を示す図である。サブタイトルストリーム１，２から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示す図と、ユーザインタフェース情報の表示例を示す図である。ストリーム抽出処理で抽出されるサブタイトルストリームの時系列的な変化の一例を示す図である。放送送出システム１００のストリーム生成部の構成例を示すブロック図である。ＴＴＭＬ構造の一例を示す図である。サブタイトルＰＥＳパケットの構造例と、「PES_data_byte_field()」の構造例を示す図である。サブタイトル・セグメントの構造例と、その構造例における主要な情報の内容を示す図である。セグメントタイプの定義の一例を示す図である。セグメントタイプが“０ｘ８４”の場合におけるセグメント・ペイロードの構造例を示す図である。セグメント・ペイロードの構造例における主要な情報の内容を示している。テキスト・サブタイトル・デスクリプタの構造例を示す図である。テキスト・サブタイトル・デスクリプタの構造例における主要な情報の内容を示す図である。パケットタイプの定義の一例を示す図である。フォント・ファイル・デスクリプタの構造例を示す図である。サブタイトルストリーム１，２が含まれるトランスポートストリームＴＳの構成例を示す図である。テレビ受信機の構成例を示すブロック図である。ユーザあるいはシステムの選択情報に基づきストリームの選択およびＴＴＭＬセグメントの選択が行われることを説明するための図である。複数のサブタイトルストリームが持つサブタイトル情報の一例を示す図である。サブタイトルストリーム１，２，３から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示す図と、ユーザインタフェース情報の表示例を示す図である。サブタイトルストリーム１，２，３が含まれるトランスポートストリームＴＳの構成例を示す図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、放送送出システム１００とテレビ受信機２００により構成されている。放送送出システム１００は、コンテナ（多重化ストリーム）としてのＭＰＥＧ－２　ＴＳのトランスポートストリーム（以下、単に、「トランスポートストリームＴＳ」という）を、放送波に載せて送信する。

　トランスポートストリームＴＳには、ビデオデータを持つビデオストリームおよびオーディオデータを持つオーディオストリームと共に、所定数のサブタイトルストリームが含まれる。所定数のサブタイトルストリームは、それぞれ、１つまたは２つ以上のサブタイトル情報を持っている。サブタイトル情報としては、サブタイトル（字幕）のテキスト情報、例えばＴＴＭＬあるいはＴＴＭＬの派生フォーマットなどが考えられる。この実施の形態において、サブタイトル情報はＴＴＭＬであり、サブタイトルストリームはセグメント化されたサブタイトル情報を持っている。

　放送送出システム１００は、コンテナとしてのトランスポートストリームＴＳに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入する。この情報には、例えば、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる。この情報挿入により、受信側では、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を適切に行うことが可能となる。

　テレビ受信機２００は、放送送出システム１００から送られてくるトランスポートストリームＴＳを受信する。テレビ受信機２００は、ビデオデータを持つビデオストリームにデコード処理を施してビデオデータを得ると共に、オーディデータを持つオーディオストリームにデコード処理を施してオーディオデータを得る。

　テレビ受信機２００は、ユーザの選択操作に応じて、所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出し、この抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する。そして、テレビ受信機２００は、この抽出された１つのサブタイトル情報にデコード処理を施してサブタイトルのビットマップデータを得てビデオデータに重畳し、表示用のビデオデータを得る。

　この場合、テレビ受信機２００は、トランスポートストリームＴＳに挿入されている所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザの選択操作の便宜のために、ユーザインタフェース情報（図３（ｂ）参照）を表示する。ユーザは、このユーザインタフェース情報に基づいて選択操作をすることで、所望のサブタイトル表示を行わせることを容易に行い得る。

　この実施の形態において、トランスポートストリームＴＳにサブタイトルストリーム１（Packet id1）とサブタイトルストリーム２（Packet id2）が含まれ、それぞれ３つのサブタイトル情報を持つものとする。図２は、サブタイトルストリーム１，２が持つサブタイトル情報の一例を示している。

　ここで、サブタイトルストリーム１は、言語が「英語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である３つのサブタイトル情報を持っている。また、サブタイトルストリーム２は、言語が「フランス語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である３つのサブタイトル情報を持っている。

　図３（ａ）は、テレビ受信機２００におけるサブタイトルストリーム１，２から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示している。まず、ストリーム抽出処理（第１の抽出処理）で、サブタイトルストリーム１，２から所望のサブタイトル表示を行うためのサブタイトル情報を含むサブタイトルストリームが抽出される。次に、サブタイトル情報抽出処理（第２の抽出処理）で、抽出されたサブタイトルストリームから、所望のサブタイトル表示を行うためのサブタイトル情報が抽出される。

　図３（ｂ）は、ユーザの選択操作のためのユーザインタフェース情報の表示例を示している。言語選択“Language Selection”の箇所で、「英語（English）」または「フランス語（French）」の選択が可能となっている。また、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル（Normal Subtitle）」、「聴覚障害者向けサブタイトル（Hard of Hearing Subtitle）」または「非ネイティブ向けサブタイトル（Non-native Subtitle）」の選択が可能となっている。図示の例では、「英語」で「一般のサブタイトル」が選択された状態を示している。

　図４（ａ）は、ストリーム抽出処理で抽出されるサブタイトルストリームの時系列的な変化の一例を示している。表示タイミングがＴ１とされたサブタイトルストリームは、“Normal1”、“Hard of hearing1”、“Non-native1”のサブタイトル情報を持っている。

　ここで、“Normal1”は、一般のサブタイトルの情報であることからセグメントタイプ（segment type）は１とされ、例えば「xxx　yy」を表示するサブタイトル情報である。“Hard of hearing1”は、聴覚障害者向けサブタイトルの情報であることからセグメントタイプ（segment type）は２とされ、例えば「ggggjjjj」を表示するサブタイトル情報である。“Non-native1”は、非ネイティブ向けサブタイトルの情報であることからセグメントタイプ（segment type）は３とされ、例えば「Fff　hi」を表示するサブタイトル情報である。

　図４（ｂ）は、表示タイミングがＴ１とされたサブタイトルストリームから、サブタイトル情報抽出処理で“Normal1”のサブタイトル情報が抽出された場合における、サブタイトル表示例を示している。

　また、表示タイミングがＴ２とされたサブタイトルストリームは、“Normal2”、“Hard of hearing2”、“Non-native2”のサブタイトル情報を持っている。

　ここで、“Normal2”は、一般のサブタイトルの情報であることからセグメントタイプ（segment type）は１とされ、例えば「xxx　yy zzzz」を表示するサブタイトル情報である。“Hard of hearing2”は、聴覚障害者向けサブタイトルの情報であることからセグメントタイプ（segment type）は２とされ、例えば「G hg jkj jk」を表示するサブタイトル情報である。“Non-native2”は、非ネイティブ向けサブタイトルの情報であることからセグメントタイプ（segment type）は３とされ、例えば「Fff　hi jjj」を表示するサブタイトル情報である。

　図４（ｃ）は、表示タイミングがＴ２とされたサブタイトルストリームから、サブタイトル情報抽出処理で“Hard of hearing2”のサブタイトル情報が抽出された場合における、サブタイトル表示例を示している。

　［放送送出システムのストリーム生成部の構成例］
　図５は、放送送出システム１００のストリーム生成部１１０の構成例を示している。このストリーム生成部１１０は、制御部１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、テキストフォーマット変換部１１４と、サブタイトルエンコーダ１１５と、ＴＳフォーマッタ（マルチプレクサ）１１６を有している。

　制御部１１１は、例えば、ＣＰＵ（Central Processing Unit）を備えた構成とされており、ストリーム生成部１１０の各部の動作を制御する。ビデオエンコーダ１１２は、ビデオデータＤＶを入力し、このビデオデータＤＶに対して符号化を施し、ペイロードに符号化ビデオデータを持つビデオＰＥＳパケットにより構成されるビデオストリームを生成する。オーディオエンコーダ１１３は、オーディオデータＤＡを入力し、このオーディオデータＤＡに対して符号化を施し、符号化オーディオデータを持つオーディオＰＥＳパケットにより構成されるオーディオストリームを生成する。

　テキストフォーマット変換部１１４は、テキストデータ（文字コード）ＤＴを入力し、サブタイトル情報としてのＴＴＭＬ（Timed Text Markup Language）を得る。図６は、ＴＴＭＬ構造の一例を示している。ＴＴＭＬは、ＸＭＬベースで記載される。ＴＴＭＬは、ヘッド（head）とボディ（body）からなっている。ヘッド（head）には、メタデータ（metadata）、スタイリング（styling）、スタイリング・エクステンション（styling extension）、レイアウト（layout）などの各要素が存在する。

　メタデータ（metadata）には、メタデータのタイトルの情報と、コピーライトの情報などが含まれている。スタイリングには、識別子（id）の他に、リージョン（Region）の位置、サイズ、カラー（color）、フォント（fontFamily）、フォントサイズ（fontSize）、テキストアラインメント（textAlign）などの情報が含まれている。レイアウトには、サブタイトルを配置するリージョンの識別子（id）の他に、オフセット（padding）、バックグラウンドカラー（backgroundColor）、アラインメント（displayAlign）などの情報が含まれている。ボディ（body）には、サブタイトルの情報が含まれている。サブタイトル毎に、表示開始タイミングと表示終了タイミングが記載されると共に、テキストデータが記載されている。

　テキストフォーマット変換部１１４は、同一の表示タイミングに対応して、複数種類のＴＴＭＬを得る。この実施の形態においては、（１）言語が「英語」で内容が「一般」のＴＴＭＬ、（２）言語が「英語」で内容が「聴覚障害者向け」のＴＴＭＬ、（３）言語が「英語」で内容が「非ネイティブ向け」のＴＴＭＬ、（４）言語が「フランス語」で内容が「一般」のＴＴＭＬ、（５）言語が「フランス語」で内容が「聴覚障害者向け」のＴＴＭＬ、（６）言語が「フランス語」で内容が「非ネイティブ向け」のＴＴＭＬの６種類が得られる。

　サブタイトルエンコーダ１１５は、テキストフォーマット変換部１１４で得られる６種類のＴＴＭＬをセグメント（ＴＴＭＬセグメント）に変換する。そして、サブタイトルエンコーダ１１５は、言語が「英語」である上述の（１）～（３）のＴＴＭＬセグメントをペイロードに配置したサブタイトルＰＥＳパケットからなるサブタイトルストリーム１を生成すると共に、言語が「フランス語」である上述の（４）～（６）のＴＴＭＬセグメントをペイロードに配置したサブタイトルＰＥＳパケットからなるサブタイトルストリーム２を生成する。

　なお、この実施の形態において、サブタイトルストリーム１，２には、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ダウンロード・セグメント（Font_download_segment）も含める。すなわち、サブタイトルエンコーダ１１５は、サブタイトルストリーム１，２をそれぞれ構成するサブタイトルＰＥＳパケットのペイロードに、フォント・ダウンロード・セグメントを挿入する。

　図７（ａ）は、サブタイトルＰＥＳパケット（PES_packet）の構造例（Syntax）を示している。「PES_startcode_prefix」の２４ビットフィールドには、“０ｘ０００００１”の固定パターンが配置される。「stream_id」の８ビットフィールドは、ストリーム識別子を示す。サブタイトルＰＥＳパケットの場合、「private stream1を示す値である“１０１１１１０１”とされる。「PES_packet_length」の１６ビットフィールドは、ＰＥＳパケットの長さ（サイズ）として以降のバイト数を示す。

　「PES_packet_length」の後に、「Optional_PES_header()」のフィールドが存在する。このフィールドには、ＰＴＳ，ＤＴＳのタイムスタンプなどが配置される。このフィールドの後に、「PES_packet_data_byte」のフィールドが存在する。このフィールドが、ＰＥＳペイロードに相当する。このフィールドに、データをコンテナするための「PES_data_byte_field()」が配置される。

　図７（ｂ）は、「PES_data_byte_field()」の構造例（Syntax）を示している。「data_identifier」の８ビットフィールドは、コンテナ部分でデータの種類を識別する識別子を示す。従来のサブタイトル（ビットマップの場合）は、“０ｘ２０”で示すこととされているので、テキストの場合は新たな値、例えば“０ｘ２１”で識別することも可能である。

　「subtitle_stream_id」の８ビットフィールドは、サブタイトルストリームの種類を識別する識別子を示す。テキスト情報を伝送するサブタイトルストリームの場合は新たな値、例えば“０ｘ０１”とし、従来のビットマップを伝送するサブタイトルストリーム“０ｘ００”と区別することが可能である。

　この「subtitle_stream_id」のフィールドの後に、“００００１１１１”のパターンに続いて、「TimedTextSubtitling_segments()」のフィールドが存在する。このフィールドに、サブタイトル・セグメント（Subtitle_segment）が配置される。このフィールドの後に、「end_of_PES_data_field_marker」の８ビットフィールドが存在する。このフィールドは、ＰＥＳパケットの最後を示すマーカである。

　図８（ａ）は、サブタイトル・セグメントの構造例（Syntax）を示している。図８（ｂ）は、その構造例などにおける主要な情報の内容（Semantics）を示している。「sync_byte」の８ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の８ビットフィールドは、セグメント種類（セグメントタイプ）を示す。

　図９は、セグメントタイプ（segment_type）の定義の一例を示している。例えば、“０ｘ０１”は、一般のサブタイトル（Normal subtitle）を示し、“０ｘ０２”は聴覚障害者向けサブタイトル（Hard_of_hearing subtitle）を示し、“０ｘ０３”は非ネイティブ向けのサブタイトル（Non-native subtitle）を示す。また、例えば、“０ｘ１１”は言語１（英語）のサブタイトルを示す、“０ｘ１２”は言語２（フランス語）のサブタイトルを示す。さらに、例えば、“０ｘ８４”は、フォント・ダウンロード（Font Download）を示す。

　図８（ａ）に戻って、「segment_id」の８ビットフィールドは、セグメント識別を示す。「segment_length」は、１６ビットフィールドは、サブタイトル・セグメントの長さ（サイズ）として以降のバイト数を示す。「version_number」の４ビットフィールドは、情報の更新を示す。更新がなされる場合は値を一つ増加する。

　セグメントタイプが“０ｘ０１”、“０ｘ０２”、“０ｘ０３”、“０ｘ１１”、“０ｘ１２”の場合、「segment_payload()」のフィールドには、ＴＴＭＬ文書（図６参照）が配置される。

　図１０は、セグメントタイプが“０ｘ８４”の場合におけるセグメント・ペイロード（segment_payload()）の構造例（Syntax）を示し、図１１は、その構造例における主要な情報の内容（Semantics）を示している。

　「original_network_id」の１６ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の１６ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の１６ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。配信メディア間共通のダウンロード対象の場合、自身のトランスポートストリームではなく、他のトランスポートストリームでフォントファイルが送られていることもあり、その場合の参照先のプライベートセクションを特定する情報として、これらの「original_network_id」、「transport_stream_id」、「service_id」の情報が指定できるようになっている。

　「font_file_id」の８ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の２４ビットフィールドは、言語を識別させる３文字からなるコードを示す。例えば、“ｊｐｎ”は日本語を示し、“ｅｎｇ”は英語を示す。「font_group_id」の８ビットフィールドは、フォントグループの識別情報を示し、ＴＴＭＬのジェネリックファミリーに相当する。「font_name_id」の８ビットフィールドは、個別フォント名を示す。

　「url_type」の８ビットフィールドは、サーバのタイプを示す。例えば、“０ｘ０１”はフォントサーバ（非圧縮ＵＲＬ）を示し、“０ｘ０２”は一般のサーバ（非圧縮ＵＲＬ）を示し、“０ｘ１１”はフォントサーバ（圧縮ＵＲＬ）を示し、“０ｘ１２”は一般のサーバ（圧縮ＵＲＬ）を示す。「url_string_length」の８ビットフィールドは、以降のＵＲＬの文字列を示す文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。

　図５に戻って、ＴＳフォーマッタ１１６は、ビデオエンコーダ１１２で生成されたビデオストリーム、オーディオエンコーダ１１３で生成されたオーディオストリームおよびサブタイトルエンコーダ１１５で生成されたサブタイトルストリーム１，２を、トランスポートパケット化して多重し、コンテナ（多重化ストリーム）としてのトランスポートストリームＴＳを得る。

　この場合、ＴＳフォーマッタ１１６は、ＰＭＴ（Program Map Table）に、トランスポートストリームＴＳに含まれる２つのサブタイトルストリーム１，２のそれぞれに関する情報を挿入する。具体的には、それらの情報を持つ新規定義するテキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）を生成し、サブタイトルストリーム１，２のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ（Subtitle ES loop）に挿入する

　図１２は、テキスト・サブタイトル・デスクリプタの構造例（Syntax）を示している。図１３は、その構造例における主要な情報の内容（Semantics）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、テキスト・サブタイトル・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「packet_type」の８ビットフィールドは、図８（ｂ）に示すように、パケット種類（パケットタイプ）を示す。

　図１４は、パケットタイプ（packet_type）の定義の一例を示している。例えば、“０ｘ０１”は、一般のサブタイトル（Normal subtitle）を示し、“０ｘ０２”は聴覚障害者向けサブタイトル（Hard_of_hearing subtitle）を示し、“０ｘ０３”は非ネイティブ向けのサブタイトル（Non-native subtitle）を示す。また、例えば、“０ｘ１１”は言語１（英語）のサブタイトルを示す、“０ｘ１２”は言語２（フランス語）のサブタイトルを示す。さらに、例えば、“０ｘ８４”は、フォント・ダウンロード（Font Download）を示す。

　図１２に戻って、「multiplexed_segment_packet_flag」の１ビットフィールドは、サブタイトルストリームが複数のサブタイトル情報を含むか否かを示す。「number_of_segments」の７ビットフィールドは、サブタイトルストリームが含むサブタイトル情報の数を示す。そして、サブタイトル情報の数だけ、「segment_id」の８ビットフィールド、「segment_type」の８ビットフィールド、「ISO_639_language_code」の２４ビットフィールドが、繰り返し存在する。「segment_id」のフィールドは、セグメント識別を示す。「segment_type」のフィールドは、セグメント種類を示す。「ISO_639_language_code」は、言語を識別させる３文字からなるコードを示す。

　なお、この実施の形態において、サブタイトルストリーム１，２のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ（Subtitle ES loop）に、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ファイル・デスクリプタ（Font_file_descriptor）を挿入する。

　図１５は、フォント・ファイル・デスクリプタの構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ファイル・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。なお、その他のフィールドに関しては、上述の図１０に示すセグメントタイプが“０ｘ８４”の場合におけるセグメント・ペイロードの構造例におけると同様であるので、その詳細説明は省略する。

　図５に示すストリーム生成部１１０の動作を簡単に説明する。ビデオデータＤＶは、ビデオエンコーダ１１２に供給される。ビデオエンコーダ１１２では、このビデオデータＤＶに対して符号化が施され、ペイロードに符号化画像データを持つビデオＰＥＳパケットからなるビデオストリームが生成される。このビデオストリームは、ＴＳフォーマッタ１１６に供給される。

　また、オーディオデータＤＡは、オーディオエンコーダ１１３に供給される。オーディオエンコーダ１１３では、オーディオデータＤＡに対して符号化が施され、符号化音声データを持つオーディオＰＥＳパケットからなるオーディオストリームが生成される。このオーディオストリームは、ＴＳフォーマッタ１１６に供給される。

　また、テキストデータ（文字コード）ＤＴは、テキストフォーマット変換部１１４に供給される。このテキストフォーマット変換部１１４では、字幕情報としてのＴＴＭＬが得られる（図６参照）。この場合、同一の表示タイミングに対応して、６種類のＴＴＭＬが得られる。すなわち、（１）言語が「英語」で内容が「一般」のＴＴＭＬ、（２）言語が「英語」で内容が「聴覚障害者向け」のＴＴＭＬ、（３）言語が「英語」で内容が「非ネイティブ向け」のＴＴＭＬ、（４）言語が「フランス語」で内容が「一般」のＴＴＭＬ、（５）言語が「フランス語」で内容が「聴覚障害者向け」のＴＴＭＬ、（６）言語が「フランス語」で内容が「非ネイティブ向け」のＴＴＭＬの６種類が得られる。

　テキストフォーマット変換部１１４で得られた６種類のＴＴＭＬは、サブタイトルエンコーダ１１５に供給される。このサブタイトルエンコーダ１１５では、６種類のＴＴＭＬがセグメント（ＴＴＭＬセグメント）に変換される（図８（ａ）、図６参照）。そして、サブタイトルエンコーダ１１５では、言語が「英語」である上述の（１）～（３）のＴＴＭＬセグメントがペイロードに配置されたサブタイトルＰＥＳパケットからなるサブタイトルストリーム１が生成されると共に、言語が「フランス語」である上述の（４）～（６）のＴＴＭＬセグメントがペイロードに配置されたサブタイトルＰＥＳパケットからなるサブタイトルストリーム２が生成される。このサブタイトルストリーム１，２は、ＴＳフォーマッタ１１６に供給される。

　　なお、サブタイトルエンコーダ１１５では、サブタイトルストリーム１，２に、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ダウンロード・セグメント（Font_download_segment）も含められる（図８（ａ）、図１０参照）。

　ＴＳフォーマッタ１１６では、ビデオエンコーダ１１２で生成されたビデオストリーム、オーディオエンコーダ１１３で生成されたオーディオストリームおよびサブタイトルエンコーダ１１５で生成されたサブタイトルストリーム１，２が、トランスポートパケット化されて多重化され、コンテナ（多重化ストリーム）としてのトランスポートストリームＴＳが生成される。

　この場合、ＴＳフォーマッタ１１６では、ＰＭＴの配下のサブタイトルストリーム１，２のそれぞれに対応したサブタイトル・エレメンタリストリーム・ループ（Subtitle ES loop）に、対応するサブタイトルストリームに関する情報を持つテキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）が挿入され（図１２参照）、さらに、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持つフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１５参照）。

　「トランスポートストリームＴＳの構成例」
　図１６は、トランスポートストリームＴＳの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略している。この構成例では、ＰＩＤ１で識別されるサブタイトルストリーム１のＰＥＳパケットであるサブタイトル１・ＰＥＳパケット「Subtitle1 PES」が存在すると共に、ＰＩＤ２で識別されるサブタイトルストリーム２のＰＥＳパケットであるサブタイトル２・ＰＥＳパケット「Subtitle2 PES」が存在する。

　サブタイトル１・ＰＥＳパケットにおいて、ＰＥＳペイロードには、言語が英語（= 1st language）であるサブタイトル情報を持つ３種類のＴＴＭＬセグメントが挿入されている。すなわち、このＰＥＳペイロードには、セグメントタイプが“０ｘ０１”である一般のサブタイトル（Normal subtitle）のＴＴＭＬセグメント、セグメントタイプが“０ｘ０２”である聴覚障害者向けサブタイトル（Hard_of_hearing subtitle）およびセグメントタイプが“０ｘ０３”である非ネイティブ向けのサブタイトル（Non-native subtitle）のＴＴＭＬセグメントが挿入されている。また、このＰＥＳペイロードには、セグメントタイプが“０ｘ８４”であるフォント・ダウンロード・セグメントも挿入されている。

　同様に、サブタイトル２・ＰＥＳパケットにおいて、ＰＥＳペイロードには、言語がフランス語（= 2nd language）であるサブタイトル情報を持つ３種類のＴＴＭＬセグメントが挿入されている。すなわち、このＰＥＳペイロードには、セグメントタイプが“０ｘ０１”である一般のサブタイトル（Normal subtitle）のＴＴＭＬセグメント、セグメントタイプが“０ｘ０２”である聴覚障害者向けサブタイトル（Hard_of_hearing subtitle）およびセグメントタイプが“０ｘ０３”である非ネイティブ向けのサブタイトル（Non-native subtitle）のＴＴＭＬセグメントが挿入されている。また、このＰＥＳペイロードには、セグメントタイプが“０ｘ８４”であるフォント・ダウンロード・セグメントも挿入されている。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームＴＳに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、プログラム全体に関連する情報を記述するプログラム・デスクリプタ（Program Descriptor）が存在する。

　このＰＭＴには、サブタイトルストリーム１に関連した情報を持つサブタイトル１・エレメンタリストリーム・ループ（Subtitle1 ES loop）が存在する。このループには、サブタイトルストリーム１に対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。

　このデスクリプタとして、テキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）およびフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１２、図１５参照）。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“０ｘ１１”とされている。フォント・ファイル・デスクリプタは、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。

　また、このＰＭＴには、サブタイトルストリーム２に関連した情報を持つサブタイトル２・エレメンタリストリーム・ループ（Subtitle2 ES loop）が存在する。このループには、サブタイトルストリーム２に対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。

　このデスクリプタとして、テキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）およびフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１２、図１５参照）。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“０ｘ１２”とされている。フォント・ファイル・デスクリプタは、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。

　［テレビ受信機の構成例］
　図１７は、テレビ受信機２００の構成例を示している。このテレビ受信機２００は、受信部２０１と、ＴＳ解析部（デマルチプレクサ）２０２と、ビデオデコーダ２０３と、ビデオ重畳部２０４と、パネル駆動回路２０５と、モニタ（ディスプレイ）としての表示パネル２０６を有している。また、このテレビ受信機２００は、オーディオデコーダ２０７と、オーディオ出力回路２０８と、スピーカ２０９と、サブタイトルデコーダ２１０を有している。また、このテレビ受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６と、通信インタフェース２２７を有している。

　ＣＰＵ２２１は、テレビ受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、テレビ受信機２００の各部を制御する。

　リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、テレビ受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

　通信インタフェース２２７は、ＣＰＵ２２１の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース２２７は、内部バス２２４に接続されている。

　受信部２０１は、放送送出システム１００から放送波に載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、上述したように、ビデオストリーム、オーディオストリームおよびサブタイトルストリーム１，２が含まれている。ＴＳ解析部２０２は、トランスポートストリームＴＳからビデオ、オーディオ、サブタイトルの各ストリームを抽出する。

　この場合、ＴＳ解析部２０２は、各ＴＳパケットのヘッダに挿入されている種々の情報を解析し、“ＰＩＤ”に基づいてビデオ、オーディオ、サブタイトルの各ＰＥＳパケットのデータを含むＴＳパケットを選択的に抽出して、ビデオ、オーディオ、サブタイトルの各ストリームを得る。

　また、ＴＳ解析部２０２は、各ＴＳパケットのヘッダに挿入されている種々の情報を解析し、“ＰＩＤ”に基づいてトランスポートストリームＴＳに挿入されている種々の情報を抽出し、ＣＰＵ２２１に送る。この情報には、テキスト・サブタイトル・デスクリプタおよびフォント・ファイル・デスクリプタも含まれる（図１２、図１５参照）。

　ＣＰＵ２２１は、テキスト・サブタイトル・デスクリプタから、対応するサブタイトルストリームに関する情報を取得する。この情報には、例えば、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報、対応するサブタイトルストリームを識別する識別情報、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報などが含まれる。また、ＣＰＵ２２１は、フォント・ファイル・デスクリプタから、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報を取得する。

　オーディオデコーダ２０７は、ＴＳ解析部２０２で抽出されたオーディオストリームにデコード処理を施し、オーディオデータを得る。オーディオ出力回路２０８は、オーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を施し、スピーカ２０９に供給する。ビデオデコーダ２０３は、ＴＳ解析部２０２で抽出されたビデオストリームにデコード処理を施し、ビデオデータを得る。

　サブタイトルデコーダ２１０は、ＴＳ解析部２０２で抽出されたサブタイトルストリームにデコード処理を施し、タイムド・テキスト・サブタイトリング・セグメント（TimedText subtitle segments）からＴＴＭＬを得る。

　この場合、ＴＳ解析部２０２からサブタイトルデコーダ２１０には、トランスポートストリームＴＳに含まれている２つのサブタイトルストリーム１，２から１つのみが選択的に抽出されて供給される。また、サブタイトルデコーダ２１０では、ＴＳ解析部２０２から供給されるサブタイトルストリームに含まれる３つのＴＴＭＬセグメントから１つのみが選択的に抽出されてデコード処理が施されてＴＴＭＬが得られる。

　ストリームの選択は、ユーザあるいはシステムの言語の選択情報に基づき、図１８に示すように、ＣＰＵ２２１からＴＳ解析部２０２にパケットタイプ（Packet_type）の情報（図１４参照）が供給される、つまりパケットタイプ指定が行われることで行われる。上述したように、図３（ｂ）に示すユーザの選択操作のためのユーザインタフェース情報において、ユーザは、言語選択“Language Selection”の箇所で、「英語（English）」または「フランス語（French）」の選択が可能となっている。なお、このユーザインタフェース情報は、ＣＰＵ２２１の制御のもと、所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、表示パネル２０６に表示される。

　例えば、「英語（English）」が選択される場合、パケットタイプは“０ｘ１１”とされ、ＴＳ解析部２０２ではサブタイトルストリーム１が抽出される。また、例えば、「フランス語（French）」が選択される場合、パケットタイプは“０ｘ１２”とされ、ＴＳ解析部２０２ではサブタイトルストリーム２が抽出される。

　また、ＴＴＭＬセグメントの選択は、ユーザあるいはシステムの内容の選択情報に基づき、図１８に示すように、ＣＰＵ２２１からサブタイトルデコーダ２１０にセグメントタイプ（Segment_type）の情報（図９参照）が供給される、つまりセグメントタイプ指定が行われることで行われる。上述したように、図３（ｂ）に示すユーザの選択操作のためのユーザインタフェース情報において、ユーザは、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル（Normal Subtitle）」、「聴覚障害者向けサブタイトル（Hard of Hearing Subtitle）」または「非ネイティブ向けサブタイトル（Non-native Subtitle）」の選択が可能となっている。

　例えば、「一般のサブタイトル（Normal Subtitle）」が選択される場合、セグメントタイプは“０ｘ０１”とされ、サブタイトルデコーダ２１０では「一般」のＴＴＭＬを含むＴＴＭＬセグメントが抽出される。また、例えば、「聴覚障害者向けサブタイトル（Hard of Hearing Subtitle）」が選択される場合、セグメントタイプは“０ｘ０２”とされ、サブタイトルデコーダ２１０では「聴覚障害者向け」のＴＴＭＬを含むＴＴＭＬセグメントが抽出される。また、例えば、「非ネイティブ向けサブタイトル（Non-native Subtitle）」が選択される場合、セグメントタイプは“０ｘ０３”とされ、サブタイトルデコーダ２１０では「非ネイティブ向け」のＴＴＭＬを含むＴＴＭＬセグメントが抽出される。

　サブタイトルデコーダ２１０は、抽出された１つのＴＴＭＬセグメントにデコード処理を施して得られたＴＴＭＬをＣＰＵ２２１に送る。ＣＰＵ２２１は、このＴＴＭＬから、字幕表示位置情報などを取得する。

　また、サブタイトルデコーダ２１０は、ＴＳ解析部２０２で抽出されたサブタイトルストリーム（ＰＥＳパケット）に含まれるフォント・ダウンロード・セグメント（図８（ａ）、図１０参照）を抽出し、ＣＰＵ２２１に送る。ＣＰＵ２２１は、このフォント・ダウンロード・セグメントから、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報を取得する。

　また、サブタイトルデコーダ２１０は、ＣＰＵ２２１の制御のもと、ＴＴＭＬに含まれる各字幕表示位置（リージョン）の字幕（サブタイトル）のテキストデータ（フォントデータ）を、ビットマップデータ（バイナリイメージ情報）に変換する。

　ここで、サブタイトルデコーダ２１０は、ＣＰＵ２２１の制御のもと、字幕のビットマップデータを得る際、ＴＴＭＬが有するフォント指定情報で指定されるフォントのファイルを用いる。テレビ受信機２００がフォント指定情報で指定されるフォントのファイルを搭載していないとき、ＣＰＵ２２１は、適宜、上述したようにＰＥＳパケット、ＰＭＴ等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号（トランスポートストリームＴＳ）あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル（例えば、デフォルトのフォントファイル）を使用する。

　ビデオ重畳部２０４は、ＣＰＵ２２１の制御のもと、ビデオデコーダ２０３で得られたビデオデータに、サブタイトルデコーダ２１０で得られた各字幕表示位置の字幕のビットマップデータを重畳し、表示用ビデオデータを得る。この場合、ＣＰＵ２２１は、字幕のビットマップデータの重畳位置が字幕表示位置情報により決定された字幕表示位置となるように制御する。

　パネル駆動回路２０５は、ビデオ重畳部２０４で得られる表示用のビデオデータに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

　図１７に示すテレビ受信機２００の動作を簡単に説明する。受信部２０１では、放送送出システム１００から放送波に載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳには、ビデオストリーム、オーディオストリームおよびサブタイトルストリーム１，２が含まれている。このトランスポートストリームＴＳは、ＴＳ解析部２０２に供給される。ＴＳ解析部２０２では、トランスポートストリームＴＳからビデオ、オーディオ、サブタイトルの各ストリームが抽出される。

　また、ＴＳ解析部２０２では、トランスポートストリームＴＳに挿入されている種々の情報が抽出され、ＣＰＵ２２１に送られる。この情報には、テキスト・サブタイトル・デスクリプタおよびフォント・ファイル・デスクリプタも含まれる（図１２、図１５参照）。

　これにより、ＣＰＵ２２１では、テキスト・サブタイトル・デスクリプタから、対応するサブタイトルストリームに関する情報が取得される。また、ＣＰＵ２２１では、フォント・ファイル・デスクリプタから、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。

　ＴＳ解析部２０２で抽出されたビデオストリームは、ビデオデコーダ２０３に供給される。ビデオデコーダ２０３では、このビデオＰＥＳストリームにデコード処理が施されて、ビデオデータが得られる。

　また、ＴＳ解析部２０２で抽出されるサブタイトルストリームは、サブタイトルデコーダ２１０に供給される。このサブタイトルデコーダ２１０では、サブタイトルストリームにデコード処理が施され、タイムド・テキスト・サブタイトリング・セグメント（TimedText subtitle segments）からＴＴＭＬが得られる。

　ＴＳ解析部２０２におけるストリームの選択は、ユーザあるいはシステムの言語の選択情報に基づき、ＣＰＵ２２１の制御のもとで行われる。なお、サブタイトルデコーダ２１０におけるＴＴＭＬセグメントの選択は、ユーザあるいはシステムの言語の選択情報に基づき、ＣＰＵ２２１の制御のもとで行われる。ユーザは、言語および内容を選択することで、所望のサブタイトルの表示を行わせることが可能となる。

　サブタイトルデコーダ２１０では、ＴＳ解析部２０２で得られたサブタイトルストリームからフォント・ダウンロード・セグメントが抽出され、ＣＰＵ２２１に送られる。ＣＰＵ２２１では、フォント・ダウンロード・セグメントから、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。

　サブタイトルデコーダ２１０で得られたＴＴＭＬは、ＣＰＵ２２１に送られる。ＣＰＵ２２１では、このＴＴＭＬから字幕表示位置情報などが取得される。

　また、サブタイトルデコーダ２１０はで、ＴＳ解析部２０２で抽出されたサブタイトルストリーム（ＰＥＳパケット）に含まれるフォント・ダウンロード・セグメント（図８（ａ）、図１０参照）が抽出され、ＣＰＵ２２１に送られる。ＣＰＵ２２１では、このフォント・ダウンロード・セグメントから、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするための情報が取得される。

　また、サブタイトルデコーダ２１０では、ＣＰＵ２２１の制御のもと、ＴＴＭＬに含まれる各字幕表示位置（リージョン）の字幕（サブタイトル）のテキストデータ（フォントデータ）が、ビットマップデータ（バイナリイメージ情報）に変換される。

　ここで、サブタイトルデコーダ２１０では、ＣＰＵ２２１の制御のもと、字幕のビットマップデータを得る際、ＴＴＭＬが有するフォント指定情報で指定されるフォントのファイルが用いられる。テレビ受信機２００がフォント指定情報で指定されるフォントのファイルを搭載していないとき、ＣＰＵ２２１は、適宜、上述したようにＰＥＳパケット、ＰＭＴ等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号（トランスポートストリームＴＳ）あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル（例えば、デフォルトのフォントファイル）を使用する。

　サブタイトルデコーダ２１０から出力される各字幕表示位置の字幕のビットマップデータは、ビデオ重畳部２０４に供給される。ビデオ重畳部２０４では、ビデオデコーダ２０３で得られたビデオデータに、サブタイトルデコーダ２１０で得られた各字幕表示位置の字幕のビットマップデータが重畳され、表示用のビデオデータが得られる。この場合、ＣＰＵ２２１により、字幕表示位置情報により決定された字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御される。

　ビデオ重畳部２０４で得られた表示用のビデオデータは、パネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、各字幕表示位置（リージョン）に字幕（サブタイトル）が重畳された画像が表示される。

　また、ＴＳ解析部２０２で抽出されたオーディオストリームは、オーディオデコーダ２０７に供給される。オーディオデコーダ２０７では、このオーディオストリームにデコード処理が施され、オーディオデータが得られる。このオーディオデータは、オーディオ出力回路２０８に供給される。オーディオ出力回路２０８では、オーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカ２０９に供給される。これにより、スピーカ２０９からは表示パネル２０６の表示画像に対応した音声出力が得られる。

　以上説明したように、図１に示す送受信システム１０において、放送送出システム１００は、複数のサブタイトル情報（ＴＴＭＬセグメント）を含むサブタイトルストリームを生成して送信するものである。そのため、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となる。

　また、図１に示す送受信システム１０において、放送送出システム１００は、コンテナとしてのサブタイトルストリームＴＳに、所定数のサブタイトルストリームのそれぞれに関する情報を挿入して送信するものである。そのため、受信側では、この所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、ユーザが所望のサブタイトル表示のための選択操作を行うためのユーザインタフェース情報の表示処理を制御することが可能となる。

　また、図１に示す送受信システム１０において、テレビ受信機２００は、所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出し、さらに、この抽出された１つのサブタイトルストリームから１つのサブタイトル情報（ＴＴＭＬセグメント）を抽出するものである。そのため、所定数のサブタイトルストリームに複数のサブタイトル情報を含むサブタイトルストリームが含まれる場合であっても、所望のサブタイトル表示が可能となる。

　＜２．変形例＞
　なお、上述実施の形態においては、放送送出システム１００で生成されるトランスポートストリームＴＳに、言語が「英語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である３つのサブタイトル情報（ＴＴＭＬセグメント）を持つサブタイトルストリーム１（Packet id1）と、言語が「フランス語」で、内容がそれぞれ「一般」、「聴覚障害者向け」、「非ネイティブ向け」である３つのサブタイトル情報（ＴＴＭＬセグメント）を持つサブタイトルストリーム２（Packet id2）が含まれる例を示した。

　しかし、放送送出システム１００で生成されるトランスポートストリームＴＳに、内容が「一般」であるサブタイトル情報（ＴＴＭＬセグメント）を持つサブタイトルストリーム１（Packet id1）と、内容が「聴覚障害者向け」であるサブタイトル情報（ＴＴＭＬセグメント）を持つサブタイトルストリーム２（Packet id2）と、内容が「非ネイティブ向け」であるサブタイトル情報（ＴＴＭＬセグメント）を持つサブタイトルストリーム３（Packet id3）が含まれる例も考えられる。

　図１９は、サブタイトルストリーム１，２，３が持つサブタイトル情報の一例を示している。ここで、サブタイトルストリーム１は、内容が「一般」で、言語がそれぞれ「英語」、「フランス語」である２つのサブタイトル情報を持っている。また、サブタイトルストリーム２は、内容が「聴覚障害者向け」で、言語がそれぞれ「英語」、「フランス語」である２つのサブタイトル情報を持っている。また、サブタイトルストリーム３は、内容が「非ネイティブ向け」で、言語がそれぞれ「英語」、「フランス語」である２つのサブタイトル情報を持っている。

　図２０（ａ）は、上述したようにトランスポートストリームＴＳにサブタイトルストリーム１，２，３が含まれる場合にあって、テレビ受信機２００におけるサブタイトルストリーム１，２，３から所望のサブタイトル表示を行うためのサブタイトル情報の抽出処理の流れを示している。

　まず、ストリーム抽出処理（第１の抽出処理）で、サブタイトルストリーム１，２，３から所望のサブタイトル表示を行うためのサブタイトル情報を含むサブタイトルストリームが抽出される。次に、サブタイトル情報抽出処理（第２の抽出処理）で、抽出されたサブタイトルストリームから、所望のサブタイトル表示を行うためのサブタイトル情報が抽出される。

　図２０（ｂ）は、ユーザの選択操作のためのユーザインタフェース情報の表示例を示している。言語選択“Language Selection”の箇所で、「英語（English）」または「フランス語（French）」の選択が可能となっている。また、内容選択“Subtitle Type Selection”の箇所で、「一般のサブタイトル（Normal Subtitle）」、「聴覚障害者向けサブタイトル（Hard of Hearing Subtitle）」または「非ネイティブ向けサブタイトル（Non-native Subtitle）」の選択が可能となっている。図示の例では、「フランス語」で「聴覚障害者向けサブタイトル」が選択された状態を示している。

　図２１は、上述したようにサブタイトルストリーム１，２，３が含まれるトランスポートストリームＴＳの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略している。この構成例では、ＰＩＤ１で識別されるサブタイトルストリーム１のＰＥＳパケットであるサブタイトル１・ＰＥＳパケット「Subtitle1 PES」、ＰＩＤ２で識別されるサブタイトルストリーム２のＰＥＳパケットであるサブタイトル２・ＰＥＳパケット「Subtitle2 PES」、さらにＰＩＤ３で識別されるサブタイトルストリーム３のＰＥＳパケットであるサブタイトル３・ＰＥＳパケット「Subtitle3 PES」が存在する。

　サブタイトル１・ＰＥＳパケットにおいて、ＰＥＳペイロードには、内容が一般であるサブタイトル情報を持つ２種類のＴＴＭＬセグメントが挿入されている。すなわち、このＰＥＳペイロードには、セグメントタイプが“０ｘ１１”である英語（English）のサブタイトルのＴＴＭＬセグメント、セグメントタイプが“０ｘ１２”であるフランス語（French）のサブタイトルのＴＴＭＬセグメントが挿入されている。また、このＰＥＳペイロードには、セグメントタイプが“０ｘ８４”であるフォント・ダウンロード・セグメントも挿入されている。

　同様に、サブタイトル２・ＰＥＳパケットにおいて、ＰＥＳペイロードには、内容が聴覚障害者向けであるサブタイトル情報を持つ２種類のＴＴＭＬセグメントが挿入されている。すなわち、このＰＥＳペイロードには、セグメントタイプが“０ｘ１１”である英語（English）のサブタイトルのＴＴＭＬセグメント、セグメントタイプが“０ｘ１２”であるフランス語（French）のサブタイトルのＴＴＭＬセグメントが挿入されている。また、このＰＥＳペイロードには、セグメントタイプが“０ｘ８４”であるフォント・ダウンロード・セグメントも挿入されている。

　同様に、サブタイトル３・ＰＥＳパケットにおいて、ＰＥＳペイロードには、内容が非ネイティブ向けであるサブタイトル情報を持つ２種類のＴＴＭＬセグメントが挿入されている。すなわち、このＰＥＳペイロードには、セグメントタイプが“０ｘ１１”である英語（English）のサブタイトルのＴＴＭＬセグメント、セグメントタイプが“０ｘ１２”であるフランス語（French）のサブタイトルのＴＴＭＬセグメントが挿入されている。また、このＰＥＳペイロードには、セグメントタイプが“０ｘ８４”であるフォント・ダウンロード・セグメントも挿入されている。

　このデスクリプタとして、テキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）およびフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１２、図１５参照）。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“０ｘ０１”とされている。フォント・ファイル・デスクリプタは、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。

　このデスクリプタとして、テキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）およびフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１２、図１５参照）。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“０ｘ０２”とされている。フォント・ファイル・デスクリプタは、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。

　また、このＰＭＴには、サブタイトルストリーム３に関連した情報を持つサブタイトル３・エレメンタリストリーム・ループ（Subtitle2 ES loop）が存在する。このループには、サブタイトルストリーム３に対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。

　このデスクリプタとして、テキスト・サブタイトル・デスクリプタ（Text_subtitle_descriptor）およびフォント・ファイル・デスクリプタ（Font_file_descriptor）が挿入される（図１２、図１５参照）。テキスト・サブタイトル・デスクリプタは、対応するサブタイトルストリームに関する情報を持っている。この場合、パケットタイプは、“０ｘ０３”とされている。フォント・ファイル・デスクリプタは、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を持っている。

　また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、ＭＰＥＧ－２　ＴＳのコンテナに限定されるものではなく、例えばＭＭＴあるいは、ＩＳＯＢＭＦＦなど、その他のフォーマットのコンテナであっても同様に実現できる。

　また、上述実施の形態においては、放送送出システム１００とテレビ受信機２００とからなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、テレビ受信機２００の部分が、ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は登録商標である。

　また、本技術は、以下のような構成を取ることもできる。
　（１）それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　（２）上記所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ
　前記（１）に記載の送信装置。
　（３）上記サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
　上記複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ
　前記（１）または（２）に記載の送信装置。
　（４）上記サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
　上記複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ
　前記（１）または（２）に記載の送信装置。
　（５）上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える
　前記（１）から（４）のいずれかに記載の送信装置。
　（６）上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報が含まれる
　前記（５）に記載の送信装置。
　（７）上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームを識別する識別情報が含まれる
　前記（５）または（６）に記載の送信装置。
　（８）上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報が含まれる
　前記（５）から（７）のいずれかに記載の送信装置。
　（９）それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。
　（１０）それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
　上記所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、該抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理を制御する制御部を備える
　受信装置。
　（１１）上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、
　上記制御部は、
　上記所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、上記第１の抽出処理および上記第２の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する
　前記（１０）に記載の受信装置。
　（１２）受信部により、それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、該抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理を制御する制御ステップを有する
　受信方法。

　本技術の主な特徴は、複数のサブタイトル情報を含むサブタイトルストリームを生成して送信することで、サブタイトル情報の種類が増加してもサブタイトルストリームの数の増加を抑制でき、従って、複数種類のサブタイトル情報の伝送の簡素化が可能となるようにしたことである（図２、図１６参照）。

　１０・・・送受信システム
　１００・・・放送送出システム
　１１０・・・ストリーム生成部
　１１１・・・制御部
　１１２・・・ビデオエンコーダ
　１１３・・・オーディオエンコーダ
　１１４・・・テキストフォーマット変換部
　１１５・・・サブタイトルエンコーダ
　１１６・・・ＴＳフォーマッタ
　２００・・・テレビ受信機
　２０１・・・受信部
　２０２・・・ＴＳ解析部
　２０３・・・ビデオデコーダ
　２０４・・・ビデオ重畳部
　２０５・・・パネル駆動回路
　２０６・・・表示パネル
　２０７・・・オーディオデコーダ
　２０８・・・オーディオ出力回路
　２０９・・・スピーカ
　２１０・・・サブタイトルデコーダ
　２２１・・・ＣＰＵ
　２２７・・・通信インタフェース

Claims

　それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　上記所定数のサブタイトルストリームは、それぞれ、セグメント化されたサブタイトル情報を持つ
　請求項１に記載の送信装置。
　上記サブタイトルエンコード部は、それぞれ言語の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
　上記複数のサブタイトルストリームは、それぞれ、内容の異なる複数のサブタイトル情報を持つ
　請求項１に記載の送信装置。
　上記サブタイトルエンコード部は、それぞれ内容の異なるサブタイトル情報を持つ複数のサブタイトルストリームを生成し、
　上記複数のサブタイトルストリームは、それぞれ、言語の異なる複数のサブタイトル情報を持つ
　請求項１に記載の送信装置。
　上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報を挿入する情報挿入部をさらに備える
　請求項１に記載の送信装置。
　上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが複数のサブタイトル情報を持つか否かを示すフラグ情報が含まれる
　請求項５に記載の送信装置。
　上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームを識別する識別情報が含まれる
　請求項５に記載の送信装置。
　上記サブタイトルストリームのそれぞれに関する情報には、対応するサブタイトルストリームが持つ各サブタイトル情報を識別する識別情報が含まれる
　請求項５に記載の送信装置。
　それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記所定数のサブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。
　それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部と、
　上記所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、該抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理を制御する制御部を備える
　受信装置。
　上記コンテナに、上記所定数のサブタイトルストリームのそれぞれに関する情報が挿入されており、
　上記制御部は、
　上記所定数のサブタイトルストリームのそれぞれに関する情報に基づいて、上記第１の抽出処理および上記第２の抽出処理のためのユーザインタフェース情報の表示処理をさらに制御する
　請求項１０に記載の受信装置。
　受信部により、それぞれ１つまたは２つ以上のサブタイトル情報を持つ所定数のサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記所定数のサブタイトルストリームから１つのサブタイトルストリームを抽出する第１の抽出処理と、該抽出された１つのサブタイトルストリームから１つのサブタイトル情報を抽出する第２の抽出処理を制御する制御ステップを有する
　受信方法。