WO2017159482A1

WO2017159482A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2017159482A1
Application number: PCT/JP2017/009182
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2016-03-15
Filing date: 2017-03-08
Publication date: 2017-09-21
Also published as: JPWO2017159482A1; EP3432585A1; TW201739241A; ES2859660T3; EP3734978A1; JP7063261B2; CN108886627A; US10979664B2; TWI728061B; CN108886627B; EP3432585A4; EP3432585B1; US20190037168A1

Abstract

受信側における字幕表示を良好に行い得るようにする。　ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する。サブタイトルストリームのコンテナに、字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する。例えば、補助情報は、リサイズ処理に関する情報、字幕表示範囲を決定するための情報などである。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオデータと共に字幕のテキスト情報を送信する送信装置等に関する。

　従来、例えば、ＤＶＢ（Digital Video Broadcasting）の放送などでは、字幕情報をビットマップデータで送信する運用が行われている。近時、字幕情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。このテキスト情報として、例えば、Ｗ３Ｃ（World Wide Web Consortium）でＴＴＭＬ（Timed Text Markup Language）が提唱されている（特許文献１参照）。

　従来、字幕のテキスト情報に含まれる字幕表示位置情報において字幕表示位置を、例えばビデオ領域に対する相対位置で指定することが知られている。この場合、ビデオ領域のアスペクト比とディスプレイ領域のアスペクト比とが一致しない場合には、表示方法によって字幕の一部がディスプレイ領域からはみ出して表示されなくなることがあった。また、従来、字幕のテキスト情報にフォント指定情報を含めて送信することが知られている。

特開２０１２－１６９８８５号公報

　上述したように字幕の一部がディスプレイ領域からはみ出して表示されなくなることを回避するため、例えば、受信側において、ビデオ領域に対する相対位置ではなく、モニタ（ディスプレイ）に表示されるビデオ領域（表示ビデオ領域）に対する相対位置として処理を行うことが考えられる。その場合、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比とが異なる場合、例えば字幕表示位置が水平方向にだけ圧縮されたものとなり、視聴者に違和感を与える字幕表示になる可能性がある。また、上述したように字幕のテキスト情報にフォント指定情報を含めて送信する場合、受信側において、指定されたフォントのファイルを搭載していない場合には、指定されたフォントでの字幕表示ができず、制作者が意図したような字幕表示にならない可能性がある。

　本技術の目的は、受信側における字幕表示を良好に行い得るようにすることにある。

　本技術の概念は、
　ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入部を備える
　送信装置にある。

　本技術において、送信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが送信される。字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有するものである。

　情報挿入部により、サブタイトルストリームのコンテナに、字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入される。例えば、補助情報は、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入される、ようにされてもよい。

　例えば、補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む、ようにされてもよい。この場合、例えば、リサイズ処理に関する情報は、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である、ようにされてもよい。

　また、例えば、補助情報は、字幕表示範囲を決定するための情報を含む、ようにされてもよい。この場合、例えば、字幕表示範囲を決定するための情報は、字幕表示範囲の基準点情報およびアスペクト比情報である、ようにされてもよい。

　このように本技術においては、サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入される。そのため、受信側では、字幕位置情報と共にこの補助情報を用いることで字幕表示位置を適切に取得して字幕表示を良好に行うことが可能となる。

　また、本技術の他の概念は、
　ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームをデコード処理して字幕のビットマップデータを得る処理と、上記字幕表示位置情報および上記サブタイトルストリームのコンテナに挿入されている上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う処理と、上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
　受信装置にある。

　本技術において、受信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが受信される。字幕のテキスト情報は、字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有するものである。サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されている。

　制御部により、ビデオストリームをデコードしてビデオデータを得る処理と、サブタイトルストリームをデコード処理して字幕のビットマップデータを得る処理と、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御を行う処理と、表示位置制御が行われた字幕のビットマップデータをビデオデータに重畳する処理が制御される。

　例えば、補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、表示位置制御を行う処理では、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置にリサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする、ようにされてもよい。

　また、例えば、補助情報は、字幕表示範囲を決定するための情報を含み、表示位置制御を行う処理では、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする、ようにされてもよい。

　このように本技術においては、サブタイトルストリームのコンテナに字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御が行われる。そのため、字幕表示を良好に行うことが可能となる。

　また、本技術の他の概念は、
　ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備える
　送信装置にある。

　本技術において、送信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが送信される。字幕のテキスト情報は、フォント指定情報を有するものである。

　情報挿入部により、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。例えば、補助情報は、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入される、ようにされてもよい。例えば、ダウンロード情報は、フォントファイルを放送信号から取得するための情報であるか、あるいはフォントファイルをネットワーク上のサーバから取得するための情報である、ようにされてもよい。

　このように本技術においては、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。そのため、受信側では、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得することができ、字幕表示を良好に行うことが可能となる。

　また、本技術の他の概念は、
　ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームのコンテナに挿入されている少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得する処理と、上記サブタイトルストリームをデコードし上記取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、上記字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
　受信装置にある。

　本技術において、受信部により、ビデオデータを持つビデオストリームと字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナが受信される。字幕のテキスト情報は、フォント指定情報を有するものである。サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されている。

　制御部により、ビデオストリームをデコードしてビデオデータを得る処理と、ダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルを取得する処理と、サブタイトルストリームをデコードし取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、字幕のビットマップデータをビデオデータに重畳する処理が制御される。

　このように本技術においては、サブタイトルストリームのコンテナに少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、このダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルが取得されて、字幕のビットマップデータを得る際に用いられる。そのため、フォント指定情報で指定されているフォントのファイルを持っていない場合にあっても、字幕表示を良好に行うことが可能となる。

　また、本技術の他の概念は、
　トランスポートストリームにそれぞれ異なるフォントファイルを持つ定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入部と、
　上記セクションテーブルが挿入されたトランスポートストリームを送信する送信部を備える
　送信装置にある。

　本技術において、セクションテーブル挿入部により、トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルが順次繰り返し挿入される。送信部により、セクションテーブルが挿入されたトランスポートストリームが送信される。この場合、所定数のセクションテーブルは、データカルーセルで繰り返し送信されることとなる。

　このように本技術においては、トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルが順次繰り返し挿入される。そのため、受信側では、トランスポートストリームから、例えば字幕のテキスト情報が有するフォント指定情報で指定されるフォントのフォントファイルを容易に取得可能となる。

　本技術によれば、受信側における字幕表示を良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。字幕表示位置情報で決定される字幕表示位置（リージョン）の一例を示す図である。ＴＴＭＬの構造例（字幕表示位置が１個）を示す図である。ＴＴＭＬ構造における主要な情報の内容を示す図である。ＴＴＭＬの構造例（字幕表示位置が２個）を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じである場合における字幕の表示例（字幕表示位置が１個）を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じである場合における字幕の表示例（字幕表示位置が２個）を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第１の方法）における字幕の表示例（字幕表示位置が１個）を示す図である。リサイズ処理が施された場合の表示例を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定され、さらにリサイズ処理が施された場合（第１の方法）における字幕の表示例（字幕表示位置が２個）を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第２の方法）における字幕の表示例（字幕表示位置が１個）を示す図である。ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第２の方法）における字幕の表示例（字幕表示位置が２個）を示す図である。放送送出システムのストリーム生成部の構成例を示すブロック図である。サブタイトルＰＥＳパケットの構造例と、「PES_data_byte_field()」の構造例を示す図である。セグメントタイプの定義の一例を示す図である。ＴＴＭＬ・ディスプレイ・セグメントの構造例を示す図である。ＴＴＭＬ・ディスプレイ・セグメントの構造例における主要な情報の内容を示す図である。フォント・ダウンロード・セグメントの構造例を示す図である。フォント・ダウンロード・セグメントの構造例における主要な情報の内容を示す図である。ＵＲＬ・シグナリング・セグメントの構造例を示す図である。ＵＲＬ・シグナリング・セグメントの構造例における主要な情報の内容を示す図である。ＴＴＭＬ・ディスプレイ・デスクリプタの構造例）を示す図である。フォント・ダウンロード・デスクリプタの構造例を示す図である。フォント・ダウンロード・デスクリプタの構造例を示す図である。ＴＴＭＬのフォント指定情報で指定されているフォントのファイルをトランスポートストリームＴＳ（放送信号）から取得するケース（Case1）とそのファイルをネットワーク上のサーバから取得するケース（Case2）の概要を示す図である。フォントファイル（Font file）を持つＮ個のセクションテーブルの他に、フォントテーブル（Font table）を持つ１個のセクションテーブルがデータカルーセルで繰り返し送信されることを模式的に示す図である。フォント・ダウンローディング・セクションテーブルの構造例を示す図である。フォント・ダウンローディング・セクションテーブルの構造例における主要な情報の内容を示す図である。「data_downloading_id」が“０ｘ００”であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示す図である。「font_group_id」の値とフォントグループとの対応関係を示す図である。フォント・テーブル・デスクリプタの構造例を示す図である。「data_downloading_id」が“０ｘ００”以外であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示す図である。フォント・ファイル・デスクリプタの構造例を示す図である。トランスポートストリームＴＳの構成例を示す図である。テレビ受信機の構成例を示すブロック図である。テレビ受信機のＣＰＵにおける字幕表示位置の決定およびリサイズ処理の手順の一例を示すフローチャートである。ビデオ領域のアスペクト比とモニタ（ディスプレイ）のアスペクト比の一例と、ビデオ全領域を表示するモードか否かの判断例の説明に供する図である。ビデオ全領域を表示するモードで、かつ字幕表示範囲の指定がない場合における字幕表示位置の決定の説明に供する図である。ビデオ全領域を表示するモードで、かつ字幕表示範囲の指定がある場合における字幕表示位置の決定の説明に供する図である。ビデオ全領域を表示しないモードで、かつ字幕表示範囲の指定がない場合およびある場合における字幕表示位置の決定の説明に供する図である。テレビ受信機のＣＰＵにおける使用フォントファイルの決定処理の手順の一例を示すフローチャートである。ＴＴＭＬの構造例（字幕表示位置が２個）を示す図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、放送送出システム１００とテレビ受信機２００により構成されている。放送送出システム１００は、コンテナ（多重化ストリーム）としてのＭＰＥＧ－２　ＴＳのトランスポートストリーム（以下、単に、「トランスポートストリームＴＳ」という）を、放送波に載せて送信する。

　トランスポートストリームＴＳには、ビデオデータを持つビデオストリームと、字幕（サブタイトル）のテキスト情報を持つサブタイトルストリームが含まれる。ここで、字幕のテキスト情報として、例えば、ＴＴＭＬあるいはＴＴＭＬの派生フォーマットなどが考えられるが、この実施の形態においては、ＴＴＭＬであるとする。このＴＴＭＬは字幕表示位置情報を有し、この字幕表示位置情報は、字幕表示位置（リージョン）を字幕表示範囲に対する相対位置（プロポーショナルな値）で指定する。また、このＴＴＭＬは、フォント指定情報を有する。

　放送送出システム１００は、このＴＴＭＬおよび/またはサブタイトルストリームのコンテナに、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報を挿入する。この実施の形態において、放送送出システム１００は、この補助情報を、ＴＴＭＬに含める他、ＰＥＳ（Packetized Elementary Stream）パケットとＰＭＴ（Program Map Table）に挿入する。

　この補助情報に、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、字幕表示位置情報に基づいて決定された字幕表示位置のリサイズ処理に関する情報が含まれる。このリサイズ処理に関する情報は、例えば、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である。また、この補助情報に、字幕表示範囲を決定するための情報が含まれる。例えば、この字幕表示範囲を決定するための情報は、字幕表示範囲の基準点情報およびアスペクト比情報である。

　また、放送送出システム１００は、サブタイトルストリームのコンテナに、少なくともフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。このダウンロード情報は、フォントファイルを放送信号（トランスポートストリームＴＳ）から取得するための情報やフォントファイルをネットワーク上のサーバから取得するための情報などである。この実施の形態において、放送送出システム１００は、このダウンロード情報を、ＰＥＳ（Packetized Elementary Stream）パケットとＰＭＴ（Program Map Table）に挿入する。

　また、放送送出システム１００は、放送信号としてのトランスポートストリームＴＳに、互いに異なるフォントファイルを含む所定数のセクションテーブルを順次繰り返し挿入する。つまり、放送送出システム１００は、所定数のセクションテーブルを、データカルーセルで繰り返し送信する。なお、フォントファイルを含むセクションテーブルを挿入するトランスポートストリームＴＳは、上述のサブタイトルストリームを含むトランスポートストリームＴＳと同一である必要はなく、他のサービスのトランスポートストリームＴＳであってもよい。

　テレビ受信機２００は、放送送出システム１００から送られてくるトランスポートストリームＴＳを受信する。テレビ受信機２００は、ビデオデータを持つビデオストリームにデコード処理を施してビデオデータを得ると共に、字幕のテキスト情報としてのＴＴＭＬを持つサブタイトルストリームにデコード処理を施して字幕のビットマップデータを得る。

　テレビ受信機２００は、字幕のビットマップデータを得る際、ＴＴＭＬが有するフォント指定情報で指定されるフォントのファイルを用いる。上述したように、少なくともフォント指定情報で指定されるフォントのファイルをダウンロードするためのダウンロード情報が、ＰＥＳパケットとＰＭＴ（Program Map Table）に挿入されている。テレビ受信機２００は、フォント指定情報で指定されるフォントのファイルを搭載していないとき、ダウンロード情報に基づいて当該フォントのファイルをダウンロードして用いる。

　上述したようにＴＴＭＬが有する字幕表示位置情報において、字幕表示位置は字幕表示範囲に対する相対位置で指定されている。また、上述したように、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報が、ＴＴＭＬに含められている他、ＰＥＳパケットとＰＭＴに挿入されている。

　テレビ受信機２００は、字幕表示位置情報および補助情報を用いて字幕表示位置を取得し、この取得された字幕表示位置に基づいて、字幕のビットマップデータに対して表示位置制御をする。テレビ受信機２００は、表示位置制御が行われた字幕のビットマップデータをビデオデータに重畳して、表示用のビデオデータを得る。

　テレビ受信機２００は、字幕のビットマップデータに対する表示位置制御として、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が異なる場合、以下の第１の方法あるいは第２の方法を選択的に実行する。

　第１の方法では、テレビ受信機２００は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として字幕表示位置情報に基づいて字幕表示位置を決定した後、この決定された字幕表示位置にリサイズ処理を施し、最終的な字幕表示位置を取得する。テレビ受信機２００は、このように取得された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。

　リサイズ処理では、字幕表示位置として本来の形状を回復する処理であり、例えば、決定された字幕表示位置が水平方向にだけ圧縮されたものである場合、垂直方向にも同じ割合で圧縮する。例えば、リサイズ処理で垂直方向のサイズを圧縮する場合、トップライン（上のライン）、ボトムライン（下のライン）、あるいはミドルライン（中間のライン）などの所定のライン位置を固定した状態で圧縮する。

　この所定のライン位置を適切に選択することで、例えば、２つの字幕表示位置があった場合、その２つの字幕表示位置の垂直方向の間隔を、リサイズ処理を行っても維持することが可能となる。テレビ受信機２００は、ＴＴＭＬ、ＰＥＳパケット、ＰＭＴ等に、リサイズ処理に関する情報として、固定位置とすべきライン位置を示す情報が挿入されているとき、その情報を利用できる。

　第２の方法では、テレビ受信機２００は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域に字幕表示範囲を設定し、字幕表示位置情報に基づいて字幕表示位置を決定し、最終的な字幕表示位置を取得する。テレビ受信機２００は、このように取得された字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。

　テレビ受信機２００は、ＴＴＭＬ、ＰＥＳパケット、ＰＭＴ等に挿入されている字幕表示範囲を決定するための情報が挿入されているとき、その情報を利用して字幕表示範囲を適切に設定できる。例えば、テレビ受信機２００は、ＴＴＭＬ、ＰＥＳパケット、ＰＭＴ等に字幕表示範囲を決定するための情報が含まれているときは第２の方法を選択し、それが含まれていないとき第１の方法を選択する。

　図２は、字幕表示位置情報で決定される字幕表示位置（リージョン）の一例を示している。この例は、ＴＴＭＬで、字幕表示位置情報が、字幕表示位置の基点（origin）を示す情報「origin=“OH%OV%”」と、字幕表示位置の領域（extent）を示す情報「extent=“EH%EV%”」で与えられている場合を示している。“ＲＰ”は、字幕表示範囲のトップ―レフト（top-left）である基準点（Reference Pont）を示している。

　図２（ａ）は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が同じ場合の例を示している。この例では、ビデオ領域のアスペクト比が１６：９に対して、モニタのアスペクト比は１６：９であって、表示ビデオ領域のアスペクト比が１６：９となっている。この場合、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報に基づき字幕表示位置が決定される。

　図２（ｂ）は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第１の方法）の例である。この例では、ビデオ領域のアスペクト比が１６：９に対して、モニタのアスペクト比は４：３であり、表示方法がセンターカット（Center-cut）である場合であって、表示ビデオ領域のアスペクト比が４：３となっている。この場合、字幕表示位置は、図２（ａ）の場合と比較して、垂直方向には同じ幅となるが、水平方向には、その幅が圧縮されたものとなる。この場合、字幕表示位置の形状は、図２（ａ）の場合とは異なったものとなる。

　図２（ｃ）は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第２の方法）の例である。この例では、ビデオ領域のアスペクト比が１６：９に対して、モニタのアスペクト比は４：３であり、表示方法がセンターカット（Center-cut）である場合であって、表示ビデオ領域のアスペクト比が４：３となっている。この場合、字幕表示位置は、図２（ａ）の場合と比較して、垂直方向および水平方向の双方に、その幅が圧縮されたものとなる。設定される字幕表示範囲のアスペクト比が１６：９である場合には、字幕表示位置の形状は、図２（ａ）の場合と同じくなる。

　図３は、ＴＴＭＬ構造の一例を示している。この例は、字幕表示位置（リージョン）が１個の場合の例である。ＴＴＭＬは、ＸＭＬを基本に記載される。ttルートコンテナには、ランゲージ（言語）やネームスペース（名前空間）が定義されている。ネームスペースは、システムあるいは規格体系において全要素中で一意に識別できるための固有の要素名として定義されるものである。また、<tt>において、「tts:extent」は、字幕の位置情報の対象の元となるビデオ１００％の対象領域を最初に宣言するもので、“Fullvideo”は、４Ｋビデオが対象である場合は３８４０（Ｈ）×２１６０（Ｖ）の解像度のビデオ全体を示し、２Ｋ（フルＨＤ）ビデオが対象である場合は１９２０（Ｈ）×１０８０（Ｖ）の解像度のビデオ全体を示す。

　「xmlns=http://www.w3.org/ns/ttml」、「xmlns:ttp=http://www.w3.org/ns/ttml#parameter」、「xmlns:tts=http://www.w3.org/ns/ttml#styling」のネームスペースは、詳細説明は省略するが、予めＷ３ＣでＴＴＭＬの属性分類として確保されているパラメータ、スタイリングなどのネームスペースである。

　「xmlns:dto=http://www.example.org/ns/displaytextoverlay」は、新規に定義するネームスペースである。このネームスペースは、字幕表示範囲の情報を挿入するためのものである。そして、「dto:dispasp=“16:9”」および「dto:RPoffset=“Ax%, By%”」が、字幕表示範囲の情報を示す。

　「dto:dispasp=“16:9”」は、字幕表示範囲のアスペクト比情報を示し、字幕表示範囲は１６：９のアスペクト比の領域であることを示している。図示の例では、字幕表示範囲のアスペクト比が１６：９であることを示しているが、字幕表示範囲のアスペクト比としては、図４に示すように、４：３、２１：９などを指定することも可能である。「dto:RPoffset=“Ax%, By%”」は字幕表示範囲の基準点情報を示し、図４に示すように、表示ビデオ領域の水平垂直のそれぞれを１００％としたときの字幕表示範囲の基準点（ＲＰ：Reference Point）の位置を、表示ビデオ領域のトップ－レフト（top-left）からのオフセットの比率で示している。

　ヘッド（head）には、レイアウト（layout）の要素が存在している。リージョンＩＤが“ｒ１”で示され、字幕表示位置情報として字幕表示位置の起点（origin）と、その領域（extent）が相対位置で示されている。すなわち、「origin=“OH%OV%”」は字幕表示位置の基点を示し、起点が左（left）からＯＨで、上（top）からＯＶ％であることが示されている。また、「extent=“EH%EV%”」は字幕表示位置の領域を示し、横幅がＥＨ％で、縦幅がＥＶ％であることが示されている。

　また、ヘッド（head）には、スタイル（style）の要素が存在している。「fontFamily=" proportionalSansSerif"」は、フォント指定情報である。ここで、「proportionalSansSerif」は、フォントのジェネリックファミリー（総称名）を示している。

　ボディ（body）には、ＸＭＬ　ＩＤが“ｐ１”で示され、リージョンＩＤが“ｒ１”で示され、フォント指定がされると共に、字幕（サブタイトル）のテキストデータが記載されている。ここでは、テキストデータが「ＡＢＣＤＥ」とされている。「font-family:’Arial’, ‘Tahoma’, sans-serif」は、ｐ要素のフォントを指定しているフォント指定情報である。ここで、「Arial」、「Tahoma」は個別フォント名を示し、「sans-serif」はフォントのジェネリックファミリー（総称名）を示している。

　「dto:scalingjustify=top」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がトップライン（上のライン）であることを示しているが、図４に示すように、ボトムライン（下のライン）、ミドルライン（中間のライン）などを指定することも可能である。

　図５も、ＴＴＭＬ構造の一例を示している。この例は、字幕表示位置（リージョン）が２個の場合の例である。ttルートコンテナは、図３と同様であるので、その説明は省略する。

　ヘッド（head）には、レイアウト（layout）の要素が存在している。第１の字幕表示位置のリージョンＩＤが“ｒ１”で示され、字幕表示位置情報として字幕表示位置の起点（origin）と、その領域（extent）が相対位置で示されている。すなわち、「origin=“OH1%OV1%”」により、起点が左（left）からＯＨ１％で、上（top）からＯＶ１％であることが示されている。また、「extent=“EH1%EV1%”」により、領域の横幅がＥＨ１％で、その縦幅がＥＶ１％であることが示されている。

　また、第２の字幕表示位置のリージョンＩＤが“ｒ２”で示され、字幕表示位置情報として字幕表示位置の起点（origin）と、その領域（extent）が相対位置で示されている。すなわち、「origin=“OH2%OV2%”」により、起点が左（left）からＯＨ２％で、上（top）からＯＶ２％であることが示されている。また、「extent=“EH2%EV2%”」により、領域の横幅がＥＨ２％で、その縦幅がＥＶ２％であることが示されている。

　ボディ（body）には、第１の字幕位置に関連して、ＸＭＬ　ＩＤが“ｐ１”で示され、リージョンＩＤが“ｒ１”で示され、フォント指定がされると共に、字幕（サブタイトル）のテキストデータが記載されている。ここでは、テキストデータが「ＡＢＣＤＥ」とされている。「font-family:’Arial’, ‘Tahoma’, sans-serif」は、ｐ要素のフォントを指定しているフォント指定情報である。ここで、「Arial」、「Tahoma」は個別フォント名を示し、「sans-serif」はフォントのジェネリックファミリー（総称名）を示している。

　「dto:scalingjustify=bottom」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がボトムライン（下のライン）であることを示している。

　また、ボディ（body）には、第２の字幕位置に関連して、ＸＭＬ　ＩＤが“ｐ２”で示され、リージョンＩＤが“ｒ２”で示されると共に、字幕（サブタイトル）のテキストデータが記載されている。ここでは、テキストデータが「ＦＧＨ」とされている。「font-family=“monospaceSerif“」は、ｐ要素のフォントを指定しているフォント指定情報である。ここで、「monospaceSerif」はフォントのジェネリックファミリー（総称名）を示している。
　（００５５）
　「dto:scalingjustify=top」は、リサイズ処理に関する情報を構成しており、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示している。図示の例では、固定位置とすべきライン位置がトップライン（上のライン）であることを示している。

　図６は、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が同じである場合における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比も１６：９である場合であって、図３に示すようなＴＴＭＬ構造（字幕表示位置が１個）を持つ場合の例である。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）に基づき字幕表示位置（リージョン）が決定されている。“ＲＰ”は、字幕表示範囲のトップ―レフト（top-left）である基準点（Reference Pont）を示している。

　このように決定された字幕表示位置に、テキストデータによる字幕「ＡＢＣＤＥ」が表示されている。なお、図示の例では、ビデオ領域、モニタ領域および字幕表示範囲を示す各枠がずれて表示されているが、各枠を明確に表示するための処置であり、実際には、各枠は重なっている。説明は省略するが、以下の各図においても、同様の表示がなされている。

　図７も、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が同じである場合における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比も１６：９である場合であって、図５に示すようなＴＴＭＬ構造（字幕表示位置が２個）を持つ場合の例である。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」）に基づき、第１、第２の字幕表示位置（リージョン）が決定されている。

　そして、第１の字幕表示位置（第１のリージョン）にテキストデータによる字幕「ＡＢＣＤＥ」が表示され、第２の字幕表示位置（第２のリージョン）にテキストデータによる字幕「ＦＧＨ」が表示されている。この場合、２つの字幕表示位置（リージョン）の間隔は、例えば１０ラインとされている。

　図８は、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第１の方法）における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比は４：３である場合であって、図３に示すようなＴＴＭＬ構造（字幕表示位置が１個）を持つ場合の例である。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）に基づき字幕表示位置（リージョン）が決定されている。そして、字幕表示位置に、テキストデータによる字幕「ＡＢＣＤＥ」が表示されている。

　この場合、字幕表示位置は、図６の場合と比較して、垂直方向には同じ幅となるが、水平方向にはその幅が圧縮されたものとなる。この場合、字幕表示位置の幅が圧縮されることに伴って字幕のフォントサイズも小さいサイズに調整される。このように字幕のフォントサイズが調整されることで、図示のように、水平方向に関しては字幕表示位置とそれに表示される字幕との関係は整合した状態となるが、字幕表示位置の幅が圧縮されていない垂直方向に関しては字幕表示位置とそれに表示される字幕との関係は不整合な状態となる。この場合、視聴者は、字幕表示位置の黒領域が浮いたような感じを受けるようになる。

　そこで、上述したように第１の方法においては、決定された字幕表示位置にリサイズ処理が施され、字幕表示位置とそれに表示される字幕との関係が水平方向だけでなく垂直方向にも整合した状態とされる。図９は、リサイズ処理が施された場合の表示例を示している。この場合、リサイズ処理により、字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）に基づいて決定されることで水平方向にだけ圧縮された字幕表示位置が、垂直方向にも同じ割合で圧縮されたものとされる。この場合、結果的に、字幕表示位置は、字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EVu%”」）で決定されたものとなる。この場合、ＥＶｕ＝３/４＊ＥＶの関係となる。

　このようにリサイズ処理が行われる場合、所定のライン位置が固定された状態で垂直方向の幅の圧縮が行われる。図示の例は、ＴＴＭＬに含まれる「dto:scalingjustify=top」の情報に基づいて、所定のライン位置がトップライン（上のライン）とされた例である。なお、図示の例において、破線枠は、垂直方向の幅の圧縮が行われる前における字幕表示位置を示している。

　図１０も、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が異なる場合であって、表示ビデオ領域が字幕表示範囲とされ、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第１の方法）における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比は４：３である場合であって、図５に示すようなＴＴＭＬ構造（字幕表示位置が２個）を持つ場合の例であり、リサイズ処理が施された場合の表示例を示している。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」）に基づき、第１、第２の字幕表示位置（リージョン）が決定され、その後にさらにリサイズ処理が施されている。

　この場合、第１の字幕表示位置（第１のリージョン）は、結果的に、字幕表示位置情報（「origin=“OH1%OV1%”」、「extent=“EH1%EV1u%”」）で決定されたものとなる。この場合、ＥＶ１ｕ＝３/４＊ＥＶ１の関係となる。同様に、この場合、第２の字幕表示位置（第２のリージョン）は、結果的に、字幕表示位置情報（「origin=“OH2%OV2%”」、「extent=“EH2%EV2u%”」）で決定されたものとなる。この場合、ＥＶ２ｕ＝３/４＊ＥＶ２の関係となる。

　そして、第１の字幕表示位置（第１のリージョン）にテキストデータによる字幕「ＡＢＣＤＥ」が表示され、第２の字幕表示位置（第２のリージョン）にテキストデータによる字幕「ＦＧＨ」が表示されている。この場合、字幕表示位置（リージョン）の圧縮に応じて、それに整合するように字幕のフォントサイズが調整される。

　リサイズ処理が行われる場合、所定のライン位置が固定された状態で垂直方向の幅の圧縮が行われる。図示の例は、ＴＴＭＬに含まれる「dto:scalingjustify=bottom」の情報に基づいて、第１の字幕表示位置（第１のリージョン）に関しては、所定のライン位置がボトムライン（下のライン）とされた例である。また、ＴＴＭＬに含まれる「dto:scalingjustify=top」の情報に基づいて、第２の字幕表示位置（第２のリージョン）に関しては、所定のライン位置がトップライン（上のライン）とされた例である。

　このように第１、第２の字幕表示位置における所定のライン位置が選択されることで、第１、第２の字幕表示位置の間隔として、図７の表示例における場合と同様に例えば１０ラインが維持される。そのため、視聴者における、表示画像上における字幕（サブタイトル）の知覚性をほぼ維持することが可能となる

　図１１は、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第２の方法）における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比は４：３である場合であって、図３に示すようなＴＴＭＬ構造（字幕表示位置が１個）を持つ場合の表示例を示している。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域に字幕表示範囲が設定され、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）に基づき字幕表示位置（リージョン）が決定されている。そして、字幕表示位置に、テキストデータによる字幕「ＡＢＣＤＥ」が表示されている。この場合、字幕表示位置（リージョン）の圧縮に応じて、それに整合するように字幕のフォントサイズが調整される。

　この場合、例えば、表示ビデオ領域に、ビデオ領域のアスペクト比と同じアスペクト比の字幕表示範囲が設定される。図示の例は、ＴＴＭＬに含まれる字幕表示範囲の情報、すなわち字幕表示範囲の基準点情報（「dto:RPoffset=“Ax%, By%”」）と、字幕表示範囲のアスペクト比情報（「dto:dispasp=“16:9”」）に基づいて、表示ビデオ領域にアスペクト比が１６：９である字幕表示範囲が設定された例である。

　この場合、字幕表示位置は、垂直方向および水平方向の双方にその幅が圧縮されたものとなり、字幕表示位置の形状は図６の場合と同じくなり、字幕のフォントサイズの調整に伴う字幕表示位置の調整（リサイズ処理）は不要となる。

　図１２も、ビデオ領域のアスペクト比と表示ビデオ領域（モニタに表示されるビデオ領域）のアスペクト比が異なる場合であって、表示ビデオ領域に字幕表示範囲が設定され、字幕表示位置情報に基づいて字幕表示位置が決定される場合（第２の方法）における字幕（サブタイトル）の表示例を示している。図示の例は、ビデオ領域のアスペクト比が１６：９で、モニタのアスペクト比は４：３である場合であって、図５に示すようなＴＴＭＬ構造（字幕表示位置が２個）を持つ場合の表示例を示している。

　図示の例では、ビデオ領域を破線枠で示し、モニタ領域を実線枠で示している。この場合、一点鎖線枠で示すように、表示ビデオ領域が字幕表示範囲とされ、それに対する相対位置で指定される字幕表示位置情報（「origin=“OH1%OV1%”」、「extent=“EH1%EV1%”」、「origin=“OH2%OV2%”」、「extent=“EH2%EV2%”」）に基づき、第１、第２の字幕表示位置（リージョン）が決定されている。そして、第１の字幕表示位置（第１のリージョン）にテキストデータによる字幕「ＡＢＣＤＥ」が表示され、第２の字幕表示位置（第２のリージョン）にテキストデータによる字幕「ＦＧＨ」が表示されている。

　［放送送出システムのストリーム生成部の構成例］
　図１３は、放送送出システム１００のストリーム生成部１１０の構成例を示している。このストリーム生成部１１０は、制御部１１１と、ビデオエンコーダ１１２と、オーディオエンコーダ１１３と、テキストフォーマット変換部１１４と、サブタイトルエンコーダ１１５と、ＴＳフォーマッタ（マルチプレクサ）１１６を有している。

　制御部１１１は、例えば、ＣＰＵ（Central Processing Unit）を備えた構成とされており、ストリーム生成部１１０の各部の動作を制御する。ビデオエンコーダ１１２は、ビデオデータＤＶを入力し、このビデオデータＤＶに対して符号化を施し、ペイロードに符号化ビデオデータを持つビデオＰＥＳパケットにより構成されるビデオストリーム（ＰＥＳストリーム）を生成する。オーディオエンコーダ１１３は、オーディオデータＤＡを入力し、このオーディオデータＤＡに対して符号化を施し、符号化オーディオデータを持つオーディオＰＥＳパケットにより構成されるオーディオストリーム（ＰＥＳストリーム）を生成する。

　テキストフォーマット変換部１１４は、テキストデータ（文字コード）ＤＴを入力し、字幕情報としてのＴＴＭＬ（Timed Text Markup Language）を得る（図３、図５参照）。このＴＴＭＬに、字幕表示位置情報が含まれる。この字幕表示位置情報では、字幕表示位置（リージョン）が字幕表示範囲に対する相対位置（プロポーショナルな値）で指定される。また、このＴＴＭＬに、フォント指定情報が含まれる。

　また、このＴＴＭＬに、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる字幕表示位置のリサイズ処理に関する情報、例えば、字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報が含まれる。また、このＴＴＭＬに、字幕表示範囲を決定するための情報（字幕表示範囲の基準点情報およびアスペクト比情報）が含まれる。

　サブタイトルエンコーダ１１５は、テキストフォーマット変換部１１４で得られるＴＴＭＬを種々のセグメントに変換し、ペイロードにそれらのセグメントを配置したサブタイトルＰＥＳパケットにより構成されるサブタイトルストリーム（ＰＥＳストリーム）を生成する。

　この場合、サブタイトルエンコーダ１１５は、ＰＥＳパケットに、ＴＴＭＬに含まれていると同様のリサイズ処理に関する情報、字幕表示範囲を決定するための情報を挿入する。具体的には、それらの情報を持つ新規定義するＴＴＭＬ・ディスプレイ・セグメント（TTML_display_segment）を生成し、このセグメントをＰＥＳパケットに挿入する。

　また、サブタイトルエンコーダ１１５は、ＰＥＳパケットに、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。具体的には、放送信号（トランスポートストリームＴＳ）からダウンロードするための情報を持つ新規定義するフォント・ダウンロード・セグメント（Font_download_segment）と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するＵＲＬ・シグナリング・セグメント（URL_signaling_segment）を生成し、それらのセグメントをＰＥＳパケットに挿入する。

　図１４（ａ）は、サブタイトルＰＥＳパケット（PES_packet）の構造例（Syntax）を示している。「PES_startcode_prefix」の２４ビットフィールドには、“０ｘ０００００１”の固定パターンが配置される。「stream_id」の８ビットフィールドは、ストリーム識別子を示す。サブタイトルＰＥＳパケットの場合、「private stream1を示す値である“１０１１１１０１”とされる。「PES_packet_length」の１６ビットフィールドは、ＰＥＳパケットの長さ（サイズ）として以降のバイト数を示す。

　「PES_packet_length」の後に、「Optional_PES_header()」のフィールドが存在する。このフィールドには、ＰＴＳ，ＤＴＳのタイムスタンプなどが配置される。このフィールドの後に、「PES_packet_data_byte」のフィールドが存在する。このフィールドが、ＰＥＳペイロードに相当する。このフィールドに、データをコンテナするための「PES_data_byte_field()」が配置される。

　図１４（ｂ）は、「PES_data_byte_field()」の構造例（Syntax）を示している。「data_identifier」の８ビットフィールドは、コンテナ部分でデータの種類を識別する識別子を示す。従来のサブタイトル（ビットマップの場合）は、“０ｘ２０”で示すこととされているので、テキストの場合は新たな値、例えば“０ｘ２１”で識別することも可能である。

　「subtitle_stream_id」の８ビットフィールドは、サブタイトルストリームの種類を識別する識別子を示す。テキスト情報を伝送するサブタイトルストリームの場合は新たな値、例えば“０ｘ０１”とし、従来のビットマップを伝送するサブタイトルストリーム“０ｘ００”と区別することが可能である。

　この「subtitle_stream_id」のフィールドの後に、“００００１１１１”のパターンに続いて、「TimedTextSubtitling_segments()」のフィールドが存在する。このフィールドに、セグメントパケットが配置される。このフィールドの後に、「end_of_PES_data_field_marker」の８ビットフィールドが存在する。このフィールドは、ＰＥＳパケットの最後を示すマーカである。

　図１５は、セグメントタイプ（segment_type）の定義の一例を示している。“０ｘＡ０”は、ＴＴＭＬのドキュメントの全体を伝送するセグメントであることを示す。“０ｘＡ１”は、<tt>の部分を伝送するセグメントであることを示す。“０ｘＡ２”は、<head>の部分を伝送するセグメントであることを示す。“０ｘＡ３”は、<body>の部分を伝送するセグメントパケットであることを示す。“０ｘＡ４”は、ＴＴＭＬ・ディスプレイ・セグメントであることを示す。“０ｘＡ５”は、フォント・ダウンロード・セグメントであることを示す。“０ｘＡ６”は、ＵＲＬ・シグナリング・セグメントであることを示す。

　図１６は、ＴＴＭＬ・ディスプレイ・セグメント（TTML_display_segment）の構造例（Syntax）を示している。図１７は、その構造例における主要な情報の内容（Semantics）を示している。「sync_byte」の８ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の８ビットフィールドは、セグメントの種類を示す。このＴＴＭＬ・ディスプレイ・セグメントの場合、「segment_type」は“０ｘＡ４”とされ（図１５参照）、ＴＴＭＬ・ディスプレイ・セグメントであることを示す。「segment_length」の１６ビットフィールドは、ＴＴＭＬ・ディスプレイ・セグメントの長さ（サイズ）として以降のバイト数を示す。

　「tds_version_number」の４ビットフィールドは、ＴＴＭＬ・ディスプレイ・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。「display_aspect_type」の８ビットフィールドは、字幕表示範囲のアスペクト比を示す。例えば、“０ｘ０１”は１６：９を示し、“０ｘ０２”は４：３を示し、“０ｘ０３”は２１：９を示す。このフィールドの情報は、ＴＴＭＬにおける「dto:dispasp」の情報に対応する（図３、図５参照）。

　「reference_point_offset_v」の８ビットフィールドは、表示ビデオ領域の垂直水平を１００％としたときの字幕表示範囲の基準点の垂直位置を、表示ビデオ領域の左上（top-left）からのオフセットの比率で示す。「reference_point_offset_h」の８ビットフィールドは、表示ビデオ領域の垂直水平を１００％としたときの字幕表示範囲の基準点の水平位置を、表示ビデオ領域の左上（top-left）からのオフセットの比率で示す。これらのフィールドの情報は、ＴＴＭＬにおける「dto:RPoffset」の情報に対応する（図３、図５参照）。

　「scaling_justify_flag」の１ビットフィールドは、リージョン（region）のスケーリングを行う場合に、スケーリングの基準点を指定するか否かを示す。“１”は基準点を指定することを示し、“０”は基準点を指定しないことを示す。基準点を指定する場合、リージョンが複数ある際には、最上位置のリージョンはリージョンの下部を基準(bottom_line_justified)とし、最下位置のリージョンはリージョンの上部を基準(top_line_justified)とする。このフィールドの情報は、ＴＴＭＬにおける「dto:scalingjustify」の情報に対応する（図３、図５参照）。

　図１８は、フォント・ダウンロード・セグメント（Font_download_segment）の構造例（Syntax）を示している。図１９は、その構造例における主要な情報の内容（Semantics）を示している。「sync_byte」の８ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の８ビットフィールドは、セグメントの種類を示す。このフォント・ダウンロード・セグメントの場合、「segment_type」は“０ｘＡ５”とされ（図１５参照）、フォント・ダウンロード・セグメントであることを示す。「segment_length」の１６ビットフィールドは、フォント・ダウンロード・セグメントの長さ（サイズ）として以降のバイト数を示す。「fds_version_number」の４ビットフィールドは、フォント・ダウンロード・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。

　「original_network_id」の１６ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の１６ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の１６ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。配信メディア間共通のダウンロード対象の場合、自身のトランスポートストリームではなく、他のトランスポートストリームでフォントファイルが送られていることもあり、その場合の参照先のプライベートセクションを特定する情報として、これらの「original_network_id」、「transport_stream_id」、「service_id」の情報が指定できるようになっている。

　「font_file_id」の８ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の２４ビットフィールドは、言語を識別させる３文字からなるコードを示す。例えば、“ｊｐｎ”は日本語を示し、“ｅｎｇ”は英語を示す。「font_group_id」の８ビットフィールドは、フォントグループの識別情報を示し、ＴＴＭＬのジェネリックファミリーに相当する。「font_name_id」の８ビットフィールドは、個別フォント名を示す。

　「text_length」の８ビットフィールドは、以降の文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。

　なお、図１８の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「original_network_id」からのフィールドが繰り返される構造となる。あるいは、フォント・ダウンロード・セグメント（Font_download_segment）を複数伝送することで複数のフォントファイルのダウンロード情報供給とすることも可能である。

　図２０は、ＵＲＬ・シグナリング・セグメント（URL_signaling_segment）の構造例（Syntax）を示している。図２１は、その構造例における主要な情報の内容（Semantics）を示している。「sync_byte」の８ビットフィールドは、セグメント開始を示すユニークワードである。「segment_type」の８ビットフィールドは、セグメントの種類を示す。このＵＲＬ・シグナリング・セグメントの場合、「segment_type」は“０ｘＡ６”とされ（図１５参照）、ＵＲＬ・シグナリング・セグメントであることを示す。「segment_length」の１６ビットフィールドは、フォント・ダウンロード・セグメントの長さ（サイズ）として以降のバイト数を示す。「uss_version_number」の４ビットフィールドは、ＵＲＬ・シグナリング・セグメントの更新を示す。要素に変化がある場合、値を一つ増加する。

　「ISO_639_language_code」の２４ビットフィールドは、言語を識別させる３文字からなるコードを示す。例えば、“ｊｐｎ”は日本語を示し、“ｅｎｇ”は英語を示す。「font_group_id」の８ビットフィールドは、フォントグループの識別情報を示し、ＴＴＭＬのジェネリックファミリーに相当する。「font_name_id」の８ビットフィールドは、個別フォント名を示す。

　「url_type」の８ビットフィールドは、サーバのタイプを示す。例えば、“０ｘ０１”はフォントサーバ（非圧縮ＵＲＬ）を示し、“０ｘ０２”は一般のサーバ（非圧縮ＵＲＬ）を示し、“０ｘ１１”はフォントサーバ（圧縮ＵＲＬ）を示し、“０ｘ１２”は一般のサーバ（圧縮ＵＲＬ）を示す。「url_string_length」の８ビットフィールドは、以降のＵＲＬの文字列を示す文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。

　なお、図２０の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「ISO_639_language_code」からのフィールドが繰り返される構造となる。あるいは、ＵＲＬ・シグナリング・セグメント（URL_signaling_segment）を複数伝送することで複数のフォントファイルのダウンロード情報供給とすることも可能である。

　図１３に戻って、ＴＳフォーマッタ１１６は、ビデオエンコーダ１１２で生成されたビデオストリーム、オーディオエンコーダ１１３で生成されたオーディオストリームおよびサブタイトルエンコーダ１１５で生成されたサブタイトルストリームを、トランスポートパケット化して多重し、コンテナ（多重化ストリーム）としてのトランスポートストリームＴＳを得る。

　この場合、ＴＳフォーマッタ１１６は、ＰＭＴ（Program Map Table）に、ＴＴＭＬに含まれていると同様のリサイズ処理に関する情報、字幕表示範囲を決定するための情報を挿入する。具体的には、それらの情報を持つ新規定義するＴＴＭＬ・ディスプレイ・デスクリプタ（TTML_display_descriptor）を生成し、このデスクリプタをＰＭＴに挿入する。

　また、ＴＳフォーマッタ１１６は、ＰＭＴに、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。具体的には、放送信号（トランスポートストリームＴＳ）からダウンロードするための情報を持つ新規定義するフォント・ダウンロード・デスクリプタ（Font_download_descriptor）と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するＵＲＬ・シグナリング・デスクリプタ（URL_signaling_descriptor）を生成し、それらのデスクリプタをＰＭＴに挿入する。

　図２２は、ＴＴＭＬ・ディスプレイ・デスクリプタ（TTML_display_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、ＴＴＭＬ・ディスプレイ・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「display_aspect_type」の８ビットフィールドは、字幕表示範囲のアスペクト比を示す。このフィールドの情報は、ＴＴＭＬにおける「dto:dispasp」の情報に対応する（図３、図５参照）。

　「scaling_justify_flag」の１ビットフィールドは、リージョン（region）のスケーリングを行う場合に、スケーリングの基準点を指定するか否かを示す。“１”は基準点を指定することを示し、“０”は基準点を指定しないことを示す。このフィールドの情報は、ＴＴＭＬにおける「dto:scalingjustify」の情報に対応する（図３、図５参照）。

　「text_length」の８ビットフィールドは、以降の文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、アスペクト比など示す文字コードを配置することが可能である。

　図２３は、フォント・ダウンロード・デスクリプタ（Font_download_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ダウンロード・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「font_file_id」の８ビットフィールドは、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」の２４ビットフィールドは、言語を識別させる３文字からなるコードを示す。「font_group_id」の８ビットフィールドは、フォントグループの識別情報を示し、ＴＴＭＬのジェネリックファミリーに相当する。「font_name_id」の８ビットフィールドは、個別フォント名を示す。

　なお、図２３の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「original_network_id」からのフィールドが繰り返される構造となる。

　図２４は、フォント・ダウンロード・デスクリプタ（Font_download_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ダウンロード・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「ISO_639_language_code」の２４ビットフィールドは、言語を識別させる３文字からなるコードを示す。「font_group_id」の８ビットフィールドは、フォントグループの識別情報を示し、ＴＴＭＬのジェネリックファミリーに相当する。「font_name_id」の８ビットフィールドは、個別フォント名を示す。「url_type」の８ビットフィールドは、サーバのタイプを示す。「url_string_length」の８ビットフィールドは、以降のＵＲＬの文字列を示す文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。

　なお、図２４の例では、一つのフォントファイルのダウンロード情報を含むものであるが、複数のフォントファイルのダウンロード情報を含めることも可能である。その場合には、forループにより、「ISO_639_language_code」からのフィールドが繰り返される構造となる。

　上述したように、ＰＥＳパケットに挿入されるフォント・ダウンロード・セグメント（図１８参照）、あるいはＰＭＴに挿入されるフォント・ダウンロード・デスクリプタ（図２３参照）に含まれる情報に基づいて、テレビ受信機２００は、図２５（ａ）に「Font download case(Case1)」として示すように、トランスポートストリームＴＳ（放送信号）から、ＴＴＭＬのフォント指定情報で指定されているフォントのファイルを取得できる。

　また、上述したように、ＰＥＳパケットに挿入されるＵＲＬ・シグナリング・セグメント（図２０参照）、あるいはＰＭＴに挿入されるフォント・ダウンロード・デスクリプタ（図２４参照）に含まれる情報に基づいて、テレビ受信機２００は、図２５（ｂ）に「Font download case(Case2)」として示すように、ネットワーク上のサーバから、ＴＴＭＬのフォント指定情報で指定されているフォントのファイルを取得できる。

　図１３に戻って、ＴＳフォーマッタ１１６は、トランスポートストリームＴＳに、それぞれ異なるフォントファイル（Font file）を持つ所定数のセクションテーブルを順次繰り返し挿入する。つまり、放送送出システム１００は、この所定数のセクションテーブルをデータカルーセルで繰り返し送信する。

　図２６は、フォントファイル（Font file）を持つＮ個のセクションテーブルの他に、フォントテーブル（Font table）を持つ１個のセクションテーブルがデータカルーセルで繰り返し送信され、受信機２００はそれらのセクションテーブルをそのタイミングが限定されることなく受信可能であることを模式的に示している。

　ここで、フォントファイルやフォントテーブルを持つセクションテーブルとして、プライベートセクションテーブルとしてのフォント・ダウンローディング・セクションテーブル（ＦＤＴ：Font_downloading_section table）を新規定義する。フォント・ダウンローディング・セクションテーブルには、テーブル構造は後述するが、「data_downloading_id」、「section_number」、「last_section_number」などのフィールドが存在する。

　図２６に示すように、巡回するフォント・ダウンローディング・セクションテーブルの「data_downloading_id」のフィールドには例えば０からＮまでの値が挿入されてそれぞれのセクションテーブルの識別が可能とされる。巡回するフォント・ダウンローディング・セクションテーブルの「section_number」のフィールドにも「data_downloading_id」のフィールドと同様の値が挿入され、各セクションテーブルの「last_section_number」のフィールドにはＮの値が挿入される。

　受信機２００は、巡回供給中の位置関係を、受信したフォント・ダウンローディング・セクションテーブルの「section_number」、「last_section_number」のフィールドの値で認識できる。つまり、受信機２００は、「section_number」のフィールドの値で現在のセクションテーブルの位置を認識し、「section_number」のフィールドの値が「last_section_number」のフィールドの値と一致するとき巡回する最後のセクションテーブルであることを認識し、一巡で全てのセクションテーブルを取得することに利用できる。

　図２７は、フォント・ダウンローディング・セクションテーブル（Font_downloading_section table）の構造例（Syntax）を示している。図２８は、その構造例における主要な情報の内容（Semantics）を示している。

　「table_id」の８ビットフィールドは、テーブル識別情報を示す。このテーブル識別情報としてフォント・ダウンローディング・セクションテーブルを示す値が指定される。「data_downloading_id」の１６ビットフィールドは、ダウンロードデータの識別情報で「original_network_id」ごとに定義されるユニーク値を示す。例えば、“０ｘ００”でフォントテーブル情報であることを示し、“０ｘ００”以外でフォントファイル情報であることを示す。「version_number」の５ビットフィールドは、フォント・ダウンローディング・セクションテーブルの更新を示す。要素に変化がある場合、値を一つ増加する。

　「original_network_id」の１６ビットフィールドは、ダウンロードデータが伝送されるネットワークの識別情報を示す。「transport_stream_id」の１６ビットフィールドは、個別のトランスポートストリームの識別情報を示す。「service_id」の１６ビットフィールドは、ダウンロードが行われるサービスの識別情報を示す。これら３つの識別情報を共に用いることで、配信メディア間共通のダウンロード対象とすることが可能になる。

　「descriptor()」のフィールドには、「data_downloading_id」が“０ｘ００”であるときはフォント・テーブル・デスクリプタ（Font_table_descriptor）が配置され、「data_downloading_id」が“０ｘ００”以外であるときはフォント・ファイル・デスクリプタ（Font_file_descriptor）が配置される。また、「data_downloading_id」が“０ｘ００”以外であるとき、「data_byte」のフィールドにフォントファイル（Font file）が配置される。

　図２９は、「data_downloading_id」が“０ｘ００”であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示している。この場合、上述したように、フォント・ダウンローディング・セクションテーブルには、「descriptor()」のフィールドにフォント・テーブル・デスクリプタ（Font_table_descriptor）が配置される。

　フォント・テーブル・デスクリプタには、巡回送信される所定数のフォントファイルの情報が記述される。フォントファイルの情報として、「Font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」などの情報が含まれる。「font_file_id」は、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」は、言語の識別コードを示す。「font_group_id」は、フォントグループの識別情報を示す。「font_name_id」は、個別フォント名を示す。図３０は、「font_group_id」の値とフォントグループとの対応関係を示している。

　図３１は、フォント・テーブル・デスクリプタ（Font_table_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・テーブル・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　「number_of_font_files」の８ビットフィールドは、フォントファイルの数を示す。このフォントファイルの数だけ、「Font_file_id」の８ビットフィールド、「ISO_639_language_code」の２４ビットフィールド、「font_group_id」の８ビットフィールド、「font_name_id」の８ビットフィールドが存在する。

　図３２は、「data_downloading_id」が“０ｘ００”以外であるときにフォント・ダウンローディング・セクションテーブルに記述されるフォントテーブル情報を概略的に示している。この場合、上述したように、フォント・ダウンローディング・セクションテーブルには、「descriptor()」のフィールドにフォント・ファイル・デスクリプタ（Font_file_ descriptor）が配置され、さらに「data_byte」のフィールドにフォントファイル（Font file）が配置される。

　フォント・ファイル・デスクリプタには、送信されるフォントファイルの情報が記述される。フォントファイルの情報として、「Font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」などの情報が含まれる。「font_file_id」は、フォントファイルに割り当てられた識別番号を示す。「ISO_639_language_code」は、言語の識別コードを示す。「font_group_id」は、フォントグループの識別情報を示す。「font_name_id」は、個別フォント名を示す。

　図３３は、フォント・ファイル・デスクリプタ（Font_file_descriptor）の構造例（Syntax）を示している。「descriptor_tag」の８ビットフィールドは、デスクリプタタイプを示し、ここでは、フォント・ファイル・デスクリプタであることを示す。「descriptor_length」の８ビットフィールドは、デスクリプタの長さ（サイズ）を示し、デスクリプタの長さとして以降のバイト数を示す。

　送信するフォントファイルの情報を示す、「Font_file_id」の８ビットフィールド、「ISO_639_language_code」の２４ビットフィールド、「font_group_id」の８ビットフィールド、「font_name_id」の８ビットフィールドが存在する。「text_length」の８ビットフィールドは、以降の文字コード部分の長さ（サイズ）をバイト数で示す。文字コードは、「char」のフィールドに配置される。例えば、文字コードとして、個別フォント名などを示す文字コードを配置することが可能である。

　図１３に示すストリーム生成部１１０の動作を簡単に説明する。ビデオデータＤＶは、ビデオエンコーダ１１２に供給される。ビデオエンコーダ１１２では、このビデオデータＤＶに対して符号化が施され、ペイロードに符号化画像データを持つビデオＰＥＳパケットからなるビデオストリーム（ＰＥＳストリーム）が生成される。このビデオストリームは、ＴＳフォーマッタ１１６に供給される。

　また、オーディオデータＤＡは、オーディオエンコーダ１１３に供給される。オーディオエンコーダ１１３では、オーディオデータＤＡに対して符号化が施され、符号化音声データを持つオーディオＰＥＳパケットからなるオーディオストリーム（ＰＥＳストリーム）が生成される。このオーディオストリームは、ＴＳフォーマッタ１１６に供給される。

　また、テキストデータ（文字コード）ＤＴは、テキストフォーマット変換部１１４に供給される。このキストフォーマット変換部１１４では、字幕情報としてのＴＴＭＬが得られる（図３、図５参照）。このＴＴＭＬには、字幕表示位置（リージョン）を字幕表示範囲に対する相対位置（プロポーショナルな値）で指定する字幕表示位置情報が含まれている。また、ＴＴＭＬには、フォント指定情報が含まれている。また、ＴＴＭＬには、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）が含まれている。

　このＴＴＭＬは、サブタイトルエンコーダ１１５に供給される。このサブタイトルエンコーダ１１５では、ＴＴＭＬが種々のセグメントに変換され、ペイロードにそれらのセグメントを配置したサブタイトルＰＥＳパケットからなるサブタイトルストリームが生成される。このサブタイトルストリームは、ＴＳフォーマッタ１１６に供給される。

　この場合、サブタイトルエンコーダ１１５では、ＰＥＳパケットに、ＴＴＭＬに含まれていると同様の、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）が挿入される。具体的には、それらの情報を持つＴＴＭＬ・ディスプレイ・セグメント（図１６参照））が生成され、このセグメントがＰＥＳパケットに挿入される。

　また、サブタイトルエンコーダ１１５では、ＰＥＳパケットに、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。具体的には、放送信号（トランスポートストリームＴＳ）からダウンロードするための情報を持つフォント・ダウンロード・セグメント（図１８参照））と、ネットワーク上のサーバからダウンロードするための情報を持つＵＲＬ・シグナリング・セグメント（図２０参照）が生成され、それらのセグメントがＰＥＳパケットに挿入される。

　ＴＳフォーマッタ１１６では、ビデオエンコーダ１１２で生成されたビデオストリーム、オーディオエンコーダ１１３で生成されたオーディオストリームおよびサブタイトルエンコーダ１１５で生成されたサブタイトルストリームが、トランスポートパケット化されて多重化され、コンテナ（多重化ストリーム）としてのトランスポートストリームＴＳが生成される。

　この場合、ＴＳフォーマッタ１１６では、ＰＭＴに、ＴＴＭＬに含まれていると同様の、字幕表示位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）が挿入される。具体的には、それらの情報を持つＴＴＭＬ・ディスプレイ・デスクリプタ（図２２参照）が生成され、このデスクリプタがＰＭＴに挿入される。

　また、ＴＳフォーマッタ１１６では、ＰＭＴに、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入される。具体的には、放送信号（トランスポートストリームＴＳ）からダウンロードするための情報を持つフォント・ダウンロード・デスクリプタ（図２３参照）と、ネットワーク上のサーバからダウンロードするための情報を持つ新規定義するＵＲＬ・シグナリング・デスクリプタ（図２４参照）が生成され、それらのデスクリプタがＰＭＴに挿入される。

　「トランスポートストリームＴＳの構成例」
　図３４は、トランスポートストリームＴＳの構成例を示している。この構成例では、ビデオ、オーディオの部分についての構成は省略されている。この構成例では、サブタイトルストリームのＰＥＳパケットであるサブタイトルＰＥＳパケット「Subtitle PES」が存在する。

　サブタイトルＰＥＳパケットにおいて、ＰＥＳヘッダにはＰＴＳのタイムスタンプが挿入されており、ＰＥＳペイロードには、ＴＴＭＬのドキュメントの全体、あるいはＴＴＭＬのドキュメントの分割部分を持つセグメント（タイムド・テキスト・サブタイトリング・セグメント：TimedText subtitle segments）が挿入されている。このセグメントには、リサイズ処理に関する情報（「dto:scalingjustify」）、字幕表示範囲を決定するための情報（「dto:dispasp」、「dto:RPoffset」）が含まれている。

　また、このセグメントには、フォント指定情報（「fontFamily」）が含まれている。なお、このセグメントに、後述するように、ダウンロード情報（「fontdlurl=http://www.w3.org/ns/fontdlservice」、「fontdlurl:iso639languagecode="value"」、「fontdlurl:fontgroupid="value"」、「fontdlurl:fontnameid="value"、「fontdlurl:fontname="value“」を含めることも考えられる。

　また、サブタイトルＰＥＳパケットのＰＥＳペイロードには、ＴＴＭＬ・ディスプレイ・セグメント（TTML_display_segment）（図１６参照）が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments）に含まれているリサイズ処理に関する情報（「dto:scalingjustify」）、字幕表示範囲を決定するための情報（「dto:dispasp」、「dto:RPoffset」）にそれぞれ対応した、リサイズ処理に関する情報（「scaling_justify_flag」）、字幕表示範囲を決定するための情報（「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」）が挿入されている。

　また、サブタイトルＰＥＳパケットのＰＥＳペイロードには、フォント・ダウンロード・セグメント(Font_download_segment) （図１８参照）が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments）に含まれているフォント指定情報（「fontFamily」）で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）からダウンロードするための情報（「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など）が挿入されている。

　また、サブタイトルＰＥＳパケットのＰＥＳペイロードには、ＵＲＬ・シグナリング・セグメント(URL_signalin_segment)（図２０参照）が挿入されている。このセグメントには、上述のタイムド・テキスト・サブタイトリング・セグメント(TimedText subtitle segments）に含まれているフォント指定情報（「fontFamily」）で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報（「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など）が挿入されている。

　また、トランスポートストリームＴＳには、ＰＳＩ（Program Specific Information）として、ＰＭＴ（Program Map Table）が含まれている。このＰＳＩは、トランスポートストリームＴＳに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。ＰＭＴには、サブタイトルストリームに関連した情報を持つサブタイトルエレメンタリストリーム・ループ（Subtitle ES loop）が存在する。

　このサブタイトルエレメンタリストリーム・ループには、サブタイトルストリームに対応して、ＰＩＤ（パケット識別子）等の情報が配置されると共に、そのサブタイトルストリームに関連する情報を記述するデスクリプタも配置される。デスクリプタとして、ＴＴＭＬ・ディスプレイ・デスクリプタ（TTML_display_descriptor）（図２２参照）、フォント・ダウンロード・デスクリプタ（Font_download_descriptor）（図２３参照）、ＵＲＬ・シグナリング・デスクリプタ（URL_signaling_descriptor）（図２４参照）が配置される。

　ＴＴＭＬ・ディスプレイ・デスクリプタには、リサイズ処理に関する情報（「scaling_justify_flag」）、字幕表示範囲を決定するための情報（「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」）が挿入されている。フォント・ダウンロード・デスクリプタには、フォント・ダウンロード・セグメントと同様のダウンロード情報（「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など）が挿入されている。ＵＲＬ・シグナリング・デスクリプタには、ＵＲＬ・シグナリング・セグメントと同様のダウンロード情報（「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など）が挿入されている。

　なお、トランスポートストリームＴＳのＥＩＴ（Event Information Table）の配下に、フォント・ダウンロード・デスクリプタおよびＵＲＬ・シグナリング・デスクリプタが配置されてもよい。これにより、番組毎に、ダウンロード情報を記述することが可能となる。

　また、トランスポートストリームＴＳには、ＦＤＴ（Font_downloading_section table）（図２７参照））が含まれている。これにより、データカルーセルでフォントテーブル・ファイルを巡回供給する。このＦＤＴには、フォント・テーブル・デスクリプタ（Font_table_descriptor）（図３１参照）、あるいはフォント・ファイル・デスクリプタ（Font_file_ descriptor）（図３３参照）とフォントファイル（Font_file）が挿入されている。なお、このＦＤＴは、当該トランスポートストリームＴＳに存在しない場合もある。その場合、受信機２００は、ＰＥＳパケットのフォント・ダウンロード・セグメントあるいはＰＭＴのフォント・ダウンロード・デスクリプタに含まれるダウンロード情報に基づいてフォントファイルをダウンロードする場合には、他のトランスポートストリームＴＳからフォントファイルをダウンロードすることとなる。

　［テレビ受信機の構成例］
　図３５は、テレビ受信機２００の構成例を示している。このテレビ受信機２００は、受信部２０１と、ＴＳ解析部（デマルチプレクサ）２０２と、ビデオデコーダ２０３と、ビデオ重畳部２０４と、パネル駆動回路２０５と、モニタ（ディスプレイ）としての表示パネル２０６を有している。また、このテレビ受信機２００は、オーディオデコーダ２０７と、オーディオ出力回路２０８と、スピーカ２０９と、サブタイトルデコーダ２１０を有している。また、このテレビ受信機２００は、ＣＰＵ２２１と、フラッシュＲＯＭ２２２と、ＤＲＡＭ２２３と、内部バス２２４と、リモコン受信部２２５と、リモコン送信機２２６と、通信インタフェース２２７を有している。

　ＣＰＵ２２１は、テレビ受信機２００の各部の動作を制御する。フラッシュＲＯＭ２２２は、制御ソフトウェアの格納およびデータの保管を行う。ＤＲＡＭ２２３は、ＣＰＵ２２１のワークエリアを構成する。ＣＰＵ２２１は、フラッシュＲＯＭ２２２から読み出したソフトウェアやデータをＤＲＡＭ２２３上に展開してソフトウェアを起動させ、テレビ受信機２００の各部を制御する。

　リモコン受信部２２５は、リモコン送信機２２６から送信されたリモートコントロール信号（リモコンコード）を受信し、ＣＰＵ２２１に供給する。ＣＰＵ２２１は、このリモコンコードに基づいて、テレビ受信機２００の各部を制御する。ＣＰＵ２２１、フラッシュＲＯＭ２２２およびＤＲＡＭ２２３は、内部バス２２４に接続されている。

　通信インタフェース２２７は、ＣＰＵ２２１の制御のもと、インターネット等のネットワーク上に存在するサーバとの間で通信を行う。この通信インタフェース２２７は、内部バス２２４に接続されている。

　受信部２０１は、放送送出システム１００から放送波に載せて送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、上述したように、ビデオストリーム、オーディオストリームおよびサブタイトルストリームが含まれている。ＴＳ解析部２０２は、トランスポートストリームＴＳからビデオ、オーディオ、サブタイトルの各ストリームのＰＥＳパケットを抽出する。この場合、ＴＳ解析部２０２は、各ＴＳパケットのヘッダに挿入されている種々の情報を解析し、“ＰＩＤ”に基づいてビデオ、オーディオ、サブタイトルの各ＰＥＳパケットのデータを含むＴＳパケットを選択的に抽出して、ビデオ、オーディオ、サブタイトルの各ＰＥＳパケットを得る。

　また、ＴＳ解析部２０２は、各ＴＳパケットのヘッダに挿入されている種々の情報を解析し、“ＰＩＤ”に基づいてトランスポートストリームＴＳに挿入されている種々の情報を抽出し、ＣＰＵ２２１に送る。この情報には、ＴＴＭＬ・ディスプレイ・デスクリプタ（TTML_display_descriptor）（図２２参照）、フォント・ダウンロード・デスクリプタ（Font_download_descriptor）（図２３参照）およびＵＲＬ・シグナリング・デスクリプタ（URL_signaling_descriptor）（図２４参照）も含まれる。

　ＣＰＵ２２１は、ＴＴＭＬ・ディスプレイ・デスクリプタから、サブタイトルストリームが持つＴＴＭＬの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報（「scaling_justify_flag」）、字幕表示範囲を決定するための情報（「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」）を取得する。

　また、ＣＰＵ２２１は、フォント・ダウンロード・デスクリプタから、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）からダウンロードするための情報（「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など）を取得する。

　また、ＣＰＵ２２１は、ＵＲＬ・シグナリング・デスクリプタから、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報（「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など）を取得する。

　また、ＴＳ解析部２０２で抽出される情報には、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）からダウンロードする場合におけるＦＤＴ（Font_downloading_section table）（図２７参照））も含まれる。ＣＰＵ２２１は、このＦＤＴからサブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを取得する。

　オーディオデコーダ２０７は、ＴＳ解析部２０２で得られたオーディオＰＥＳパケットにデコード処理を施し、オーディオデータを得る。オーディオ出力回路２０８は、オーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理を施し、スピーカ２０９に供給する。ビデオデコーダ２０３は、ＴＳ解析部２０２で得られたビデオＰＥＳパケットにデコード処理を施し、ビデオデータを得る。なお、ビデオデコーダ２０３は、表示モードなどに応じて、適宜、ビデオデータの解像度変換も行う。例えば、ビデオ領域のアスペクト比が１６：９でモニタ（ディスプレイ）のアスペクト比が４：３であって、表示モードがレターボックスである場合には、ビデオデータの解像度変換が行われる。

　サブタイトルデコーダ２１０は、ＴＳ解析部２０２で得られたサブタイトルＰＥＳパケットにデコード処理を施し、タイムド・テキスト・サブタイトリング・セグメント（TimedText subtitle segments）からＴＴＭＬを得て、ＣＰＵ２２１に送る。ＣＰＵ２２１は、このＴＴＭＬから、字幕表示位置（リージョン）を字幕表示範囲に対する相対位置（プロポーショナルな値）で指定する字幕表示位置情報、さらにはこの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報（「dto:scalingjustify」）、字幕表示範囲を決定するための情報（「dto:dispasp」、「dto:RPoffset」）などを取得する。

　また、サブタイトルデコーダ２１０は、ＴＳ解析部２０２で得られたサブタイトルＰＥＳパケットに含まれるＴＴＭＬ・ディスプレイ・セグメント（TTML_display_segment）（図１６参照）、フォント・ダウンロード・セグメント(Font_download_segment) （図１８参照）、ＵＲＬ・シグナリング・セグメント(URL_signalin_segment)（図２０参照）を抽出し、ＣＰＵ２２１に送る。

　ＣＰＵ２２１は、ＴＴＭＬ・ディスプレイ・セグメントから、サブタイトルストリームが持つＴＴＭＬの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報としてのリサイズ処理に関する情報（「scaling_justify_flag」）、字幕表示範囲を決定するための情報（「display_aspect_type」、「reference_point_offset_v, reference_point_offset_h」）を取得する。

　また、ＣＰＵ２２１は、フォント・ダウンロード・セグメントから、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）からダウンロードするための情報（「font_file_id」、「ISO_639_language_code」、「font_group_id」、「font_name_id」など）を取得する。

　また、ＣＰＵ２２１は、ＵＲＬ・シグナリング・セグメントから、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルをネットワーク上のサーバからダウンロードするための情報（「ISO_639_language_code」、「font_group_id」、「font_name_id」、「url_type」、「URL」など）を取得する。

　また、サブタイトルデコーダ２１０は、ＣＰＵ２２１の制御のもと、ＴＴＭＬに含まれる各字幕表示位置（リージョン）の字幕（サブタイトル）のテキストデータ（フォントデータ）を、ビットマップデータ（バイナリイメージ情報）に変換する。この場合、字幕のフォントサイズは、ＣＰＵ２２１の制御のもと、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置の大きさに応じて、ＴＴＭＬで指定されたフォントサイズから適宜調整されたものとされる。

　ＣＰＵ２２１は、字幕表示位置情報に基づいて字幕表示位置を決定し、さらに、必要に応じて、決定された字幕表示位置にリサイズ処理を施す。この際、ＣＰＵ２２１は、適宜、上述したようにＴＴＭＬ、ＰＥＳパケット、ＰＭＴ等に挿入されている補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）を使用する。ＣＰＵ２２１における字幕表示位置の決定およびリサイズ処理の手順の詳細については、さらに後述する。

　また、サブタイトルデコーダ２１０は、ＣＰＵ２２１の制御のもと、字幕のビットマップデータを得る際、ＴＴＭＬが有するフォント指定情報で指定されるフォントのファイルを用いる。テレビ受信機２００がフォント指定情報で指定されるフォントのファイルを搭載していないとき、ＣＰＵ２２１は、適宜、上述したようにＰＥＳパケット、ＰＭＴ等に挿入されているダウンロード情報に基づいて当該フォントファイルを放送信号（トランスポートストリームＴＳ）あるいはネットワーク上のサーバからダウンロードして使用する。なお、当該ファイルのダウンロードができなかったときは、代用のフォントファイル（例えば、デフォルトのフォントファイル）を使用する。ＣＰＵ２２１における使用フォントファイルの決定処理の手順の詳細については、さらに後述する。

　ビデオ重畳部２０４は、ＣＰＵ２２１の制御のもと、ビデオデコーダ２０３で得られたビデオデータに、サブタイトルデコーダ２１０で得られた各字幕表示位置の字幕のビットマップデータを重畳し、表示用ビデオデータを得る。この場合、ＣＰＵ２２１は、上述したように字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御する。

　パネル駆動回路２０５は、ビデオ重畳部２０４で得られる表示用のビデオデータに基づいて、表示パネル２０６を駆動する。表示パネル２０６は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成されている。

　図３５に示すテレビ受信機２００の動作を簡単に説明する。受信部２０１では、放送送出システム１００から放送波に載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳには、ビデオストリーム、オーディオストリームおよびサブタイトルストリームが含まれている。このトランスポートストリームＴＳは、ＴＳ解析部２０２に供給される。ＴＳ解析部２０２では、トランスポートストリームＴＳからビデオ、オーディオ、サブタイトルの各ストリームのＰＥＳパケットが抽出される。

　また、ＴＳ解析部２０２では、トランスポートストリームＴＳに挿入されている種々の情報が抽出され、ＣＰＵ２２１に送られる。この情報には、ＴＴＭＬ・ディスプレイ・デスクリプタ）、フォント・ダウンロード・デスクリプタおよびＵＲＬ・シグナリング・デスクリプタも含まれる。

　これにより、ＣＰＵ２２１では、サブタイトルストリームが持つＴＴＭＬの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報（サイズ処理に関する情報、字幕表示範囲を決定するための情報が取得される。また、ＣＰＵ２２１では、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）やネットワーク上のサーバからダウンロードするためのダウンロード情報が取得される。

　また、ＴＳ解析部２０２では、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルを放送信号（トランスポートストリームＴＳ）からダウンロードする際には、トランスポートストリームＴＳからＦＤＴが抽出され、ＣＰＵ２２１に送られる。これにより、ＣＰＵ２２１では、サブタイトルストリームが持つＴＴＭＬに含まれているフォント指定情報で指定されているフォントのファイルが取得される。

　ＴＳ解析部２０２で抽出されたビデオＰＥＳパケットは、ビデオデコーダ２０３に供給される。ビデオデコーダ２０３では、このビデオＰＥＳパケットにデコード処理が施されて、ビデオデータが得られる。この場合、ビデオデコーダ２０３では、表示モードなどに応じて、適宜、ビデオデータの解像度変換も行われる。

　また、ＴＳ解析部２０２で抽出されるサブタイトルＰＥＳパケットは、サブタイトルデコーダ２１０に供給される。このサブタイトルデコーダ２１０では、ＴＳ解析部２０２で得られたサブタイトルＰＥＳパケットにデコード処理が施され、ＴＴＭＬが得られる。このＴＴＭＬはＣＰＵ２２１に送られる。ＣＰＵ２２１では、このＴＴＭＬから、字幕表示位置（リージョン）を字幕表示範囲に対する相対位置（プロポーショナルな値）で指定する字幕表示位置情報、さらにはこの字幕表示位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）などが取得される。

　また、サブタイトルデコーダ２１０では、ＴＳ解析部２０２で得られたサブタイトルＰＥＳパケットからＴＴＭＬ・ディスプレイ・セグメント、フォント・ダウンロード・セグメントおよびＵＲＬ・シグナリング・セグメントが抽出され、ＣＰＵ２２１に送られる。

　サブタイトルデコーダ２１０では、ＣＰＵ２２１の制御のもと、ＴＴＭＬに含まれる各字幕表示位置（リージョン）の字幕（サブタイトル）のテキストデータ（フォントデータ）が、ビットマップデータ（バイナリイメージ情報）に変換される。この場合、字幕のフォントサイズは、ＣＰＵ２２１の制御のもと、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置の大きさに応じて、ＴＴＭＬで指定されたフォントサイズから適宜調整されたものとされる。

　また、この場合、字幕のビットマップデータを得る際、基本的には、ＴＴＭＬが有するフォント指定情報で指定されるフォントのファイルが用いられる。テレビ受信機２００がフォント指定情報で指定されるフォントのファイルを搭載していないとき、ＰＥＳパケット、ＰＭＴ等に挿入されているダウンロード情報に基づいて、当該フォントファイルが放送信号（トランスポートストリームＴＳ）あるいはネットワーク上のサーバからダウンロードされて使用される。このとき、当該フォントファイルのダウンロードができないときは、代用のフォントファイルが使用される。

　ＣＰＵ２２１では、字幕表示位置情報に基づいて字幕表示位置が決定され、さらに、必要に応じて、決定された字幕表示位置にリサイズ処理が施される。この際、ＣＰＵ２２１では、適宜、上述したようにＴＴＭＬ、ＰＥＳパケット、ＰＭＴ等に挿入されている補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）が使用される。

　サブタイトルデコーダ２１０から出力される各字幕表示位置の字幕のビットマップデータは、ビデオ重畳部２０４に供給される。ビデオ重畳部２０４では、ビデオデコーダ２０３で得られたビデオデータに、サブタイトルデコーダ２１０で得られた各字幕表示位置の字幕のビットマップデータが重畳され、表示用のビデオデータが得られる。この場合、ＣＰＵ２２１により、字幕表示位置情報により決定された、あるいはさらにリサイズ処理されて得られた字幕表示位置に基づいて、字幕のビットマップデータの重畳位置が字幕表示位置となるように制御される。

　ビデオ重畳部２０４で得られた表示用のビデオデータは、パネル駆動回路２０５に供給される。パネル駆動回路２０５では、表示用のビデオデータに基づいて、表示パネル２０６を駆動することが行われる。これにより、表示パネル２０６には、各字幕表示位置（リージョン）に字幕（サブタイトル）が重畳された画像が表示される。

　また、ＴＳ解析部２０２で抽出されたオーディオＰＥＳパケットは、オーディオデコーダ２０７に供給される。オーディオデコーダ２０７では、このオーディオＰＥＳパケットにデコード処理が施され、オーディオデータが得られる。このオーディオデータは、オーディオ出力回路２０８に供給される。オーディオ出力回路２０８では、オーディオデータに対して、Ｄ／Ａ変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカ２０９に供給される。これにより、スピーカ２０９からは表示パネル２０６の表示画像に対応した音声出力が得られる。

　「字幕表示位置の決定およびリサイズ処理の手順」
　ＣＰＵ２２１における字幕表示位置の決定およびリサイズ処理の手順の詳細について説明する。図３６のフローチャートは、ＣＰＵ２２１における字幕表示位置の決定およびリサイズ処理の手順の一例を示している。

　この例では、ビデオ領域のアスペクト比が１６：９であることを想定している。そして、図３７（ａ）に示すようにＴＴＭＬで字幕表示範囲の指定がない場合と、図３７（ｂ），（ｃ）に示すようにＴＴＭＬで字幕表示範囲の指定がある場合の双方があることを想定している。なお、ここでは、指定される字幕表示範囲のアスペクト比が１６：９と４：３である例を示しているが、指定される字幕表示範囲のアスペクト比がこれに限定されるものではない。また、ここでは、モニタ（ディスプレイ）のアスペクト比が１６：９の場合と４：３の場合の双方があることを想定している。

　ＣＰＵ２２１は、ステップＳＴ１で処理を開始し、その後に、ステップＳＴ２の処理に移る。このステップＳＴ２において、ＣＰＵ２２１は、受信機表示はビデオ全領域を表示するモードか否かを判断する。例えば、モニタのアスペクト比が１６：９である場合（図３７（ｆ）参照）、あるいはモニタのアスペクト比が４：３であってレターボックス（Letter box）の表示方法を採る場合（図３７（ｇ）参照）には、ビデオ全領域を表示するモードであると判断する。また、例えば、モニタのアスペクト比が４：３であってセンターカット（Center-cut）の表示方法を採る場合（図３７（ｈ）参照）には、ビデオ全領域を表示しないモードであると判断する。

　ＣＰＵ２２１は、ビデオ全領域を表示するモードであると判断するとき、ステップＳＴ３の処理に移る。このステップＳＴ３において、ＣＰＵ２２１は、字幕表示範囲の指定があるか否かを判断する。例えば、ＴＴＭＬのttルートコンテナに字幕表示範囲の基準点情報（RPoffset）およびアスペクト比情報（dispasp）が存在する場合には、字幕表示範囲の指定があると判断する。

　字幕表示範囲の指定がないとき、ＣＰＵ２２１は、ステップＳＴ４の処理に移る。このステップＳＴ４において、ＣＰＵ２２１は、表示ビデオ領域を字幕表示範囲として、字幕表示位置（リージョン）を決定する。このとき、ＣＰＵ２２１は、表示ビデオ領域のトップ―レフト（top-left）を基準点ＲＰとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）の指示通りに字幕表示位置（リージョン）を決定する。

　図３８（ａ）は、モニタのアスペクト比が１６：９である場合の例を示している。図３８（ｂ）は、モニタのアスペクト比が４：３であってレターボックス（Letter box）の表示方法を採る場合の例を示している。なお、“ＲＰ”は、字幕表示範囲のトップ―レフト（top-left）である基準点（Reference Pont）を示している。

　このステップＳＴ４の処理の後、ＣＰＵ２２１は、ステップＳＴ５において、処理を終了する。

　上述のステップＳＴ３で字幕表示範囲の指定があるとき、ＣＰＵ２２１は、ステップＳＴ６の処理に移る。このステップＳＴ６において、ＣＰＵ２２１は、指定された字幕表示範囲において、字幕表示位置（リージョン）を決定する。このとき、ＣＰＵ２２１は、字幕表示範囲の情報としてアスペクト比情報（dispasp）のみを用い、表示ビデオ領域上に字幕表示範囲を設定する。そして、ＣＰＵ２２１は、字幕表示範囲のトップ―レフト（top-left）を基準点ＲＰとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）の指示通りに字幕表示位置（リージョン）を決定する。

　図３９（ａ）は、モニタのアスペクト比が１６：９であり、かつアスペクト比情報（dispasp）が示すアスペクト比が１６：９である場合の例を示している。図３９（ｂ）は、モニタのアスペクト比が１６：９であり、かつアスペクト比情報（dispasp）が示すアスペクト比が４：３である場合の例を示している。

　なお、このようにアスペクト比情報（dispasp）が示すアスペクト比がモニタのアスペクト比と異なる場合、ＣＰＵ２２１は、表示ビデオ領域の中央に、垂直方向幅あるいは水平方向幅が一致し、かつアスペクト比情報（dispasp）が示すアスペクト比の字幕表示範囲を設定する。図示の例においては、モニタのアスペクト比が１６：９であり、かつアスペクト比情報（dispasp）が４：３であるので、垂直方向幅が一致している。

　図３９（ｃ）は、モニタのアスペクト比が４：３であってレターボックスの表示方法を採り、かつアスペクト比情報（dispasp）が示すアスペクト比が１６：９である場合の例を示している。図３９（ｄ）は、モニタのアスペクト比が４：３であってレターボックスの表示方法を採り、かつアスペクト比情報（dispasp）が示すアスペクト比が４；３である場合の例を示している。

　このステップＳＴ６の処理の後、ＣＰＵ２２１は、ステップＳＴ５において、処理を終了する。

　上述のステップＳＴ２でビデオ全領域を表示しないモードであると判断するとき、ステップＳＴ７の処理に移る。このステップＳＴ７において、ＣＰＵ２２１は、字幕表示範囲の指定があるか否かを判断する。例えば、ＴＴＭＬのttルートコンテナに字幕表示範囲の基準点情報（RPoffset）およびアスペクト比情報（dispasp）が存在する場合には、字幕表示範囲の指定があると判断する。

　字幕表示範囲の指定がないとき、ＣＰＵ２２１は、ステップＳＴ８の処理に移る。このステップＳＴ８において、ＣＰＵ２２１は、表示ビデオ領域を字幕表示範囲として、字幕表示位置（リージョン）を決定する。このとき、ＣＰＵ２２１は、表示ビデオ領域のトップ―レフト（top-left）を基準点ＲＰとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）の指示通りに字幕表示位置（リージョン）を決定する。

　このように決定された字幕表示位置は、水平方向のみその幅が圧縮されたものとなる。そのため、ＣＰＵ２２１は、さらに、決定された字幕表示位置にリサイズ処理を施し、垂直方向の幅も圧縮し、最終的な字幕表示位置を得る。この場合、ＣＰＵ２２１は、例えば、ＴＴＭＬに含まれる「dto:scalingjustify=top」の情報に基づいて、所定のライン位置を固定した状態で垂直方向の幅の圧縮をする。

　図４０（ａ）は、モニタのアスペクト比が４：３であってセンターカット（Center-cut）の表示方法を採る場合の例を示している。字幕表示位置の垂直方向の幅は、リサイズ処理によって、ＥＶ％からＥＶｕ％に圧縮されている。

　このステップＳＴ８の処理の後、ＣＰＵ２２１は、ステップＳＴ５において、処理を終了する。

　上述のステップＳＴ７で字幕表示範囲の指定があるとき、ＣＰＵ２２１は、ステップＳＴ９の処理に移る。このステップＳＴ９において、ＣＰＵ２２１は、指定された字幕表示範囲において、字幕表示位置（リージョン）を決定する。このとき、ＣＰＵ２２１は、字幕表示範囲の情報（基準点情報（RPoffset）、アスペクト比情報（dispasp））を用い、表示ビデオ領域上に字幕表示範囲を設定する。

　この場合、ＣＰＵ２２１は、表示ビデオ領域のトップ―レフト（top-left）から基準点情報（RPoffset）だけずらした位置を字幕表示範囲のトップ―レフト（top-left）とし、アスペクト比情報（dispasp）が示すアスペクト比に対応した範囲を字幕表示範囲に設定する。この場合、字幕表示範囲の水平方向幅は、表示ビデオ領域の水平方向幅と一致したものとされる。

　そして、ＣＰＵ２２１は、上述したように設定された字幕表示範囲のトップ―レフト（top-left）を基準点ＲＰとし、字幕表示範囲に対する相対位置で指定されている字幕表示位置情報（「origin=“OH%OV%”」、「extent=“EH%EV%”」）の指示通りに字幕表示位置（リージョン）を決定する。

　図４０（ｂ）は、モニタのアスペクト比が４：３であってセンターカットの表示方法を採り、かつアスペクト比情報（dispasp）が示すアスペクト比が１６：９である場合の例を示している。図４０（ｃ）は、モニタのアスペクト比が４：３であってセンターカットの表示方法を採り、かつアスペクト比情報（dispasp）が示すアスペクト比が４：３である場合の例を示している。

　このステップＳＴ９の処理の後、ＣＰＵ２２１は、ステップＳＴ５において、処理を終了する。

　「使用フォントファイルの決定処理の手順」
　ＣＰＵ２２１における使用フォントファイルの決定処理の手順の詳細について説明する。図４１のフローチャートは、ＣＰＵ２２１における使用フォントファイルの決定処理の手順の一例を示している。

　ＣＰＵ２２１は、ステップＳＴ１１で処理を開始し、その後に、ステップＳＴ１２の処理に移る。このステップＳＴ１２において、ＣＰＵ２２１は、ＴＴＭＬでフォント指定を受信する。つまり、ＣＰＵ２２１は、フォント指定情報を含むＴＴＭＬを、サブタイトルデコーダ２１０から受け取る。

　次に、ＣＰＵ２２１は、ステップＳＴ１３において、テレビ受信機２００がＴＴＭＬのフォント指定情報で指定されたフォントファイル、指定フォントファイルを搭載しているか否かを判断する。指定フォントファイルを搭載していると判断するとき、ＣＰＵ２２１は、ステップＳＴ１４において、搭載している指定フォントファイルを使用することに決定し、その後にステップＳＴ１５において、処理を終了する。

　ステップＳＴ１３で指定フォントファイルを搭載していないと判断するとき、ＣＰＵ２２１は、ステップＳＴ１６において、プライベートセクションテーブル、つまりＦＤＴ（Font_downloading_section table）で指定フォントフィルが供給されるか否かを判断する。この場合、ＣＰＵ２２１は、フォント・ダウンロード・セグメント(Font_download_segment) （図１８参照）、あるいはフォント・ダウンロード・デスクリプタ（Font_download_descriptor）（図２３参照）が、指定フォントファイルのダウンロード情報を含んでいる場合には、ＦＤＴで指定フォントファイルが供給されると判断する。

　ＦＤＴで指定フォントファイルが供給されると判断するとき、ＣＰＵ２２１は、ステップＳＴ１７において、カルーセル伝送から指定フォントファイルをダウンロードできたか否かを判断する。指定フォントファイルをダウンロードできたとき、ＣＰＵ２２１は、ステップＳＴ１４において、ダウンロードされた指定フォントファイルを使用することに決定し、その後にステップＳＴ１５において、処理を終了する。

　ステップＳＴ１７で指定フォントファイルのダウンロードができなかったとき、ＣＰＵ２２１は、ステップＳＴ１８の処理に移る。ステップＳＴ１６においてＦＤＴで指定フォントファイルが供給されないと判断するときも、ＣＰＵ２２１は、このステップＳＴ１８の処理に移る。

　このステップＳＴ１８において、ＣＰＵ２２１は、指定フォントファイルのダウンロード用のＵＲＬ情報があるか否かを判断する。この場合、ＣＰＵ２２１は、ＵＲＬ・シグナリング・セグメント(URL_signalin_segment)（図２０参照）、あるいはＵＲＬ・シグナリング・デスクリプタ（URL_signaling_descriptor）（図２４参照）が、指定フォントファイルのダウンロード用のＵＲＬ情報を含んでいる場合には、指定フォントファイルのダウンロード用のＵＲＬ情報があると判断する。

　指定フォントファイルのダウンロード用のＵＲＬ情報があると判断するとき、ＣＰＵ２２１は、ステップＳＴ１９において、ネットワーク上のサーバから指定フォントファイルをダウンロードできたか否かを判断する。指定フォントファイルをダウンロードできたとき、ＣＰＵ２２１は、ステップＳＴ１４において、ダウンロードされた指定フォントファイルを使用することに決定し、その後にステップＳＴ１５において、処理を終了する。

　ステップＳＴ１９で指定フォントファイルのダウンロードができなかったとき、ＣＰＵ２２１は、ステップＳＴ２０の処理に移る。ステップＳＴ１８において指定フォントファイルのダウンロード用のＵＲＬ情報がないと判断するときも、ＣＰＵ２２１は、このステップＳＴ２０の処理に移る。

　このステップＳＴ２０において、ＣＰＵ２２１は、指定フォントファイルではなく、代用のフォントファイル、例えばデフォルトとされるフォントのファイルを使用することを決定し、その後にステップＳＴ１５において、処理を終了する。

　以上説明したように、図１に示す送受信システム１０において、放送送出システム１００は、サブタイトルストリームのコンテナ（例えば、ＰＥＳパケット、ＰＭＴ）に、字幕位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）を挿入する。そのため、受信側では、字幕位置情報と共にこの補助情報を用いることで字幕表示位置を適切に取得して字幕表示を良好に行うことが可能となる。

　また、図１に示す送受信システム１０において、テレビ受信機２００は、字幕表示位置情報および補助情報を用いて取得される字幕表示位置に基づいて字幕のビットマップデータに対して表示位置制御をする。そのため、字幕表示を良好に行うことが可能となる。

　また、図１に示す送受信システム１０において、放送送出システム１００は、サブタイトルストリームのコンテナ（例えば、ＰＥＳパケット、ＰＭＴ）に、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する。そのため、受信側では、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得することができ、字幕表示を良好に行うことが可能となる。

　また、図１に示す送受信システム１０において、テレビ受信機２００は、ダウンロード情報に基づいてフォント指定情報で指定されたフォントのフォントファイルを取得して、字幕のビットマップデータを得る際に用いる。そのため、フォント指定情報で指定されているフォントのファイルを持っていない場合にあっても、字幕表示を良好に行うことが可能となる。

　＜２．変形例＞
　なお、上述実施の形態においては、ＴＴＭＬにフォントダウンロード情報が挿入されていない例を示した（図３、図５参照）。しかし、このＴＴＭＬに、フォントダウンロード情報を挿入することも考えられる。図４２は、その場合におけるＴＴＭＬ構造の一例を示している。この例は、図５と同様に、字幕表示位置（リージョン）が２個の場合の例である。

　「fontdlurl=http://www.w3.org/ns/fontdlservice」、「fontdlurl:iso639languagecode="value"」、「fontdlurl:fontgroupid="value"」、「fontdlurl:fontnameid="value"」、「fontdlurl:fontname="value“」の各情報はダウンロード情報を構成している。なお、「fontdlurl:fontname」の"value“には、　‘Arial’, ‘Tahoma’の指定がそのまま反映される。

　また、上述実施の形態においては、所定フォーマットの字幕のテキスト情報としてＴＴＭＬを用いる例を示した。しかし、本技術は、これに限定されず、ＴＴＭＬと同等の情報を持つその他のテキスト情報を用いることも考えらえる。例えば、ＴＴＭＬの派生フォーマットを用いてもよい。

　また、上述実施の形態においては、放送送出システム１００とテレビ受信機２００とからなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、テレビ受信機２００の部分が、ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は登録商標である。

　また、上述実施の形態においては、コンテナがＭＰＥＧ－２　ＴＳのトランスポートストリームである例を示した。本技術は、コンテナがＭＭＴのトランスポートストリームあるいはＤＡＳＨ/ＩＳＯＢＭＦＦストリームなどである場合にも、同様に適用できることは勿論である。

　また、本技術は、以下のような構成を取ることもできる。
　（１）ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入部を備える
　送信装置。
　（２）上記補助情報は、
　ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む
　前記（１）に記載の送信装置。
　（３）上記リサイズ処理に関する情報は、上記字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である
　前記（２）に記載の送信装置。
　（４）上記補助情報は、
　上記字幕表示範囲を決定するための情報を含む
　前記（１）から（３）のいずれかに記載の送信装置。
　（５）上記字幕表示範囲を決定するための情報は、上記字幕表示範囲の基準点情報およびアスペクト比情報である
　前記（４）に記載の送信装置。
　（６）上記情報挿入部は、
　上記補助情報を、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入する
　前記（１）から（５）のいずれかに記載の送信装置。
　（７）送信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入ステップを有する
　送信方法。
　（８）ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード部と、
　上記サブタイトルストリームにデコード処理を施して字幕のビットマップデータを得るサブタイトルデコード部を備え、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、
　上記字幕表示位置情報および上記補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御部と、
　上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳部をさらに備える
　受信装置。
　（９）上記補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、
　上記表示制御部は、
　ビデオ領域のアスペクト比と上記表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に上記リサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
　前記（８）に記載の受信装置。
　（１０）上記補助情報は、上記字幕表示範囲を決定するための情報を含み、
　上記表示制御部は、
　ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、上記字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
　前記（８）に記載の受信装置。
　（１１）受信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
　上記サブタイトルストリームにデコード処理を施して字幕のビットマップデータを得るサブタイトルデコードステップを有し、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、
　上記字幕表示位置情報および上記補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御ステップと、
　上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
　受信方法。
　（１２）ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備える
　送信装置。
　（１３）上記ダウンロード情報は、上記フォントファイルを放送信号から取得するための情報である
　前記（１２）に記載の送信装置。
　（１４）上記ダウンロード情報は、上記フォントファイルをネットワーク上のサーバから取得するための情報である
　前記（１２）または（１３）に記載の送信装置。
　（１５）上記情報挿入部は、
　上記ダウンロード情報を、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入する
　前記（１２）から（１４）のいずれかに記載の送信装置。
　（１６）送信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入ステップを有する
　送信方法。
　（１７）ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード部を備え、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、
　上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロード部と、
　上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコード部と、
　上記字幕表示位置情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御部と、
　上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳部をさらに備える
　受信装置。
　（１８）受信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップを有し、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、
　上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロードステップと、
　上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコードステップと、
　上記字幕表示位置情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御ステップと、
　上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
　受信方法。
　（１９）トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入部と、
　上記セクションテーブルが挿入されたトランスポートストリームを送信する送信部を備える
　送信装置。
　（２０）トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入ステップと、
　送信部により、上記セクションテーブルが挿入されたトランスポートストリームを送信する送信ステップを有する
　送信方法。

　本技術の主な特徴は、サブタイトルストリームのコンテナ（例えば、ＰＥＳパケット、ＰＭＴ）に、字幕位置情報を用いて字幕を表示するときに使用される補助情報（リサイズ処理に関する情報、字幕表示範囲を決定するための情報）を挿入することで、受信側では、字幕位置情報と共にこの補助情報を用いて字幕表示位置を適切に取得して字幕表示を良好に行うことを可能としたことである（図３４参照）。

　また、本技術の主な特徴は、サブタイトルストリームのコンテナ（例えば、ＰＥＳパケット、ＰＭＴ）に、少なくともＴＴＭＬのフォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入することで、フォント指定情報で指定されているフォントのファイルを持っていない場合に、当該ダウンロード情報に基づいてフォント指定情報で指定されているフォントのファイルを取得し、字幕表示を良好に行うことを可能としたことである（図３４参照）。

　１０・・・送受信システム
　１００・・・放送送出システム
　１１０・・・ストリーム生成部
　１１１・・・制御部
　１１２・・・ビデオエンコーダ
　１１３・・・オーディオエンコーダ
　１１４・・・テキストフォーマット変換部
　１１５・・・サブタイトルエンコーダ
　１１６・・・ＴＳフォーマッタ
　２００・・・テレビ受信機
　２０１・・・受信部
　２０２・・・ＴＳ解析部
　２０３・・・ビデオデコーダ
　２０４・・・ビデオ重畳部
　２０５・・・パネル駆動回路
　２０６・・・表示パネル
　２０７・・・オーディオデコーダ
　２０８・・・オーディオ出力回路
　２０９・・・スピーカ
　２１０・・・サブタイトルデコーダ
　２２１・・・ＣＰＵ
　２２７・・・通信インタフェース

Claims

　ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入部を備える
　送信装置。
　上記補助情報は、
　ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含む
　請求項１に記載の送信装置。
　上記リサイズ処理に関する情報は、上記字幕表示位置のリサイズ処理で垂直方向のサイズを圧縮する場合に固定位置とすべきライン位置を示す情報である
　請求項２に記載の送信装置。
　上記補助情報は、
　上記字幕表示範囲を決定するための情報を含む
　請求項１に記載の送信装置。
　上記字幕表示範囲を決定するための情報は、上記字幕表示範囲の基準点情報およびアスペクト比情報である
　請求項４に記載の送信装置。
　上記情報挿入部は、
　上記補助情報を、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入する
　請求項１に記載の送信装置。
　送信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を挿入する情報挿入ステップを有する
　送信方法。
　ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームをデコードして字幕のビットマップデータを得る処理と、上記字幕表示位置情報および上記サブタイトルストリームのコンテナに挿入されている上記字幕位置情報を用いて字幕を表示するときに使用される補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う処理と、上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
　受信装置。
　上記補助情報は、ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合に受信側で行われる、上記字幕表示位置情報に基づいて決定される字幕表示位置のリサイズ処理に関する情報を含み、
　上記表示位置制御を行う処理では、
　ビデオ領域のアスペクト比と上記表示ビデオ領域のアスペクト比が異なる場合、表示ビデオ領域を字幕表示範囲として上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に上記リサイズ処理に関する情報を用いてリサイズ処理を施し、該リサイズ処理が施された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
　請求項８に記載の受信装置。
　上記補助情報は、上記字幕表示範囲を決定するための情報を含み、
　上記表示位置制御を行う処理では、
　ビデオ領域のアスペクト比と表示ビデオ領域のアスペクト比が異なる場合、上記字幕表示範囲を決定するための情報に基づいて表示ビデオ領域に字幕表示範囲を設定し、上記字幕表示位置情報に基づいて字幕表示位置を決定し、該決定された字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御をする
　請求項８に記載の受信装置。
　受信部により、ビデオデータを持つビデオストリームと字幕表示位置を字幕表示範囲に対する相対位置で指定する字幕表示位置情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
　上記サブタイトルストリームにデコード処理を施して字幕のビットマップデータを得るサブタイトルデコードステップを有し、
　上記サブタイトルストリームのコンテナに上記字幕位置情報を用いて字幕を表示するときに使用される補助情報が挿入されており、
　上記字幕表示位置情報および上記補助情報を用いて取得される字幕表示位置に基づいて上記字幕のビットマップデータに対して表示位置制御を行う表示制御ステップと、
　上記表示位置制御が行われた字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
　受信方法。
　ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信部と、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入部を備える
　送信装置。
　上記ダウンロード情報は、上記フォントファイルを放送信号から取得するための情報である
　請求項１２に記載の送信装置。
　上記ダウンロード情報は、上記フォントファイルをネットワーク上のサーバから取得するための情報である
　請求項１２に記載の送信装置。
　上記情報挿入部は、
　上記ダウンロード情報を、ＰＥＳパケットおよび/またはプログラムマップテーブルに挿入する
　請求項１２に記載の送信装置。
　送信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを送信する送信ステップと、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報を挿入する情報挿入ステップを有する
　送信方法。
　ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信部と、
　上記ビデオストリームをデコードしてビデオデータを得る処理と、上記サブタイトルストリームのコンテナに挿入されている少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得する処理と、上記サブタイトルストリームをデコードし上記取得されたフォントファイルに基づいて字幕のビットマップデータを得る処理と、上記字幕のビットマップデータを上記ビデオデータに重畳する処理を制御する制御部を備える
　受信装置。
　受信部により、ビデオデータを持つビデオストリームとフォント指定情報を有する字幕のテキスト情報を持つサブタイトルストリームとを含む所定フォーマットのコンテナを受信する受信ステップと、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップを有し、
　上記サブタイトルストリームのコンテナに少なくとも上記フォント指定情報で指定されているフォントのファイルをダウンロードするためのダウンロード情報が挿入されており、
　上記ダウンロード情報に基づいて上記フォント指定情報で指定されたフォントのフォントファイルを取得するフォントファイルダウンロードステップと、
　上記サブタイトルストリームにデコード処理を施して上記取得されたフォントファイルに基づいて字幕のビットマップデータを得るサブタイトルデコードステップと、
　上記字幕のビットマップデータを上記ビデオデータに重畳するビデオ重畳ステップをさらに有する
　受信方法。
　トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入部と、
　上記セクションテーブルが挿入されたトランスポートストリームを送信する送信部を備える
　送信装置。
　トランスポートストリームにそれぞれ異なるフォントファイルを持つ所定数のセクションテーブルを順次繰り返し挿入するセクションテーブル挿入ステップと、
　送信部により、上記セクションテーブルが挿入されたトランスポートストリームを送信する送信ステップを有する
　送信方法。