WO2017010359A1

WO2017010359A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2017010359A1
Application number: PCT/JP2016/069955
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2015-07-16
Filing date: 2016-07-05
Publication date: 2017-01-19
Also published as: EP3324637A1; JP6943179B2; JP2021185714A; JP2023076613A; EP3324637A4; JP7259901B2; EP3324637B1; CN107852517A; AU2016294096B2; JPWO2017010359A1; US20180376173A1; AU2016294096A1

Abstract

受信側におけるサブタイトル表示のための処理負荷の軽減を図る。　符号化ビデオデータを含むビデオストリームを生成する。表示タイミング情報を持つサブタイトルのテキスト情報と、このテキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成する。ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを送信する。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、ビデオ情報と共にテキスト情報を送信する送信装置等に関する。

　従来、例えば、ＤＶＢ（Digital Video Broadcasting）の放送などでは、サブタイトル（字幕）の情報をビットマップデータで送信する運用が行われている。近時、サブタイトルの情報をテキストの文字コードで、つまりテキストベースで送信することが提案されている。この場合、受信側で解像度に応じたフォント展開がなされる。

　また、サブタイトルの情報をテキストベースで送信する場合、テキスト情報にタイミング情報を持たせることが提案されている。このテキスト情報として、例えば、Ｗ３Ｃ（(World Wide Web Consortium）でＴＴＭＬ（Timed Text Markup Language）が提唱されている（特許文献１参照）。

特開２０１２－１６９８８５号公報

　ＴＴＭＬで表現されるサブタイトルのテキスト情報は、マークアップ言語（markup language）の形でファイルとして扱われる。この場合、各パラメータの転送順の制約がないことから、受信側では、重要なパラメータを取得するために、ファイル全体をスキャンするということが必要となる。

　本技術の目的は、受信側におけるサブタイトル表示のための処理負荷の軽減を図ることにある。

　本技術の概念は、
　符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置にある。

　本技術において、ビデオエンコード部により、符号化ビデオデータを含むビデオストリームが生成される。サブタイトルエンコーダにより、表示タイミング情報を持つサブタイトルのテキスト情報と、このテキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームが生成される。例えば、サブタイトルのテキスト情報は、ＴＴＭＬ、あるいはこのＴＴＭＬの派生フォーマットである、ようにされてもよい。そして、送信部により、ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナが送信される。

　例えば、アブストラクト情報には、サブタイトルの表示タイミング情報が含まれる、ようにされてもよい。受信側では、サブタイトルのテキスト情報をスキャンすることなく、アブストラクト情報に含まれるサブタイトルの表示タイミング情報に基づいて、サブタイトルの表示タイミングを制御することが可能となる。

　この場合、例えば、サブタイトルの表示タイミング情報は、表示開始タイミングと表示期間の情報を持つ、ようにされてもよい。そして、この場合、サブタイトルストリームは、ＰＥＳヘッダとＰＥＳペイロードとからなるＰＥＳパケットにより構成され、サブタイトルのテキスト情報とアブストラクト情報はＰＥＳペイロードに配置され、表示開始タイミングは、ＰＥＳヘッダに挿入されているＰＴＳ（Presentation Time Stamp）からの表示オフセットで示される、ようにされてもよい。

　また、例えば、アブストラクト情報には、サブタイトルの表示状態を制御する表示制御情報が含まれる、ようにされてもよい。受信側では、サブタイトルのテキスト情報をスキャンすることなく、アブストラクト情報に含まれる表示制御情報に基づいて、サブタイトルの表示状態を制御することが可能となる。

　この場合、例えば、表示制御情報には、少なくともサブタイトルの表示位置、色域およびダイナミックレンジのうちのいずれかの情報が含まれる、ようにされてもよい。そして、この場合、例えば、表示制御情報には、対象ビデオの情報がさらに含まれる、ようにされてもよい。

　また、例えば、アブストラクト情報には、サブタイトルのテキスト情報の要素に変化があることを通知する通知情報が含まれる、ようにされてもよい。この通知情報により、受信側では、サブタイトルのテキスト情報の要素に変化があることを容易に認識でき、サブタイトルのテキスト情報の要素のスキャンを効率よく行うことが可能となる。

　また、例えば、サブタイトルエンコード部は、サブタイトルのテキスト情報とアブストラクト情報をセグメント化し、所定数のセグメントを持つサブタイトルストリームを生成する、ようにされてもよい。この場合、受信側では、サブタイトルストリームからアブストラクト情報を含むセグメントを抽出することで、アブストラクト情報を容易に取得可能となる。

　この場合、例えば、サブタイトルストリームには、アブストラクト情報のセグメントが最初に配置され、続いてサブタイトルのテキスト情報のセグメントが配置される、ようにされてもよい。このようにアブストラクト情報のセグメントが最初に配置されることで、受信側では、サブタイトルストリームからアブストラクト情報のセグメントの抽出を簡単かつ効率よく行い得る。

　このように本技術においては、サブタイトルストリームに、サブタイトルのテキスト情報と共に、そのテキスト情報に対応したアブストラクト情報を含めるものである。そのため、受信側では、アブストラクト情報を用いてサブタイトル表示のため処理を行うことができ、処理負荷の軽減を図ることが可能となる。

　また、本技術の他の概念は、
　ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記ビデオストリームは、符号化ビデオデータを含み、
　上記サブタイトルストリームは、表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含み、
　上記ビデオストリームをデコードしてビデオデータを得るビデオデコード処理と、上記サブタイトルストリームをデコードしてサブタイトルのビットマップデータを得ると共に、上記アブストラクト情報を抽出するサブタイトルデコード処理と、上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳処理と、上記ビデオデータに重畳されるサブタイトルのビットマップデータを上記アブストラクト情報に基づいて処理するビットマップデータ処理を制御する制御部をさらに備える
　受信装置にある。

　本技術において、ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナが受信される。ビデオストリームには、符号化ビデオデータが含まれている。サブタイトルストリームには、表示タイミング情報を持つサブタイトルのテキスト情報と、このテキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報が含まれている。

　制御部により、ビデオデコード処理、サブタイトルデコード処理、ビデオ重畳処理およびビットマップデータ処理が制御される。ビデオデコード処理では、ビデオストリームがデコードされてビデオデータが得られる。また、サブタイトルデコード処理では、、サブタイトルストリームがデコードされて、サブタイトルのビットマップデータが得られると共に、アブストラクト情報が抽出される。

　ビデオ重畳処理では、ビデオデータにサブタイトルのビットマップデータが重畳されて表示用ビデオデータが得られる。ビットマップデータ処理では、ビデオデータに重畳されるサブタイトルのビットマップデータがアブストラクト情報に基づいて処理される。

　例えば、アブストラクト情報には、サブタイトルの表示タイミング情報が含まれており、ビットマップデータ処理では、ビデオデータへのサブタイトルのビットマップデータの重畳タイミングを、サブタイトルの表示タイミング情報に基づいて制御する、ようにされてもよい。

　また、例えば、アブストラクト情報には、サブタイトルの表示状態を制御する表示制御情報が含まれており、ビットマップデータ処理では、ビデオデータに重畳されるサブタイトルのビットマップの状態を表示制御情報に基づいて制御する、ようにされてもよい。

　このように本技術においては、ビデオデータに重畳されるサブタイトルのビットマップデータを、サブタイトルストリームから抽出されたアブストラクト情報に基づいて処理するものである。そのため、サブタイトル表示のための処理負荷の軽減を図ることが可能となる。

　また、本技術の他の概念は、
　符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントを生成し、該１つまたは複数のセグメントを含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置にある。

　本技術において、ビデオエンコード部により、符号化ビデオデータを含むビデオストリームが生成される。サブタイトルエンコード部により、表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントが生成され、この１つまたは複数のセグメントを含むサブタイトルストリームが生成される。例えば、サブタイトルのテキスト情報は、ＴＴＭＬ、あるいは該ＴＴＭＬの派生フォーマットである、ようにされてもよい。送信部により、ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナが送信される。

　このように本技術においては、表示タイミング情報を持つサブタイトルのテキスト情報をセグメント化してサブタイトルストリームに含めて送信するものである。そのため、受信側では、サブタイトルのテキスト情報の各要素の受信を良好に行うことが可能となる。

　なお、本技術において、例えば、サブタイトルエンコード部は、サブタイトルのテキスト情報の全ての要素が配置された１つのセグメントを生成する場合、セグメントのレイヤまたはそれに配置される要素のレイヤに、サブタイトルのテキスト情報の伝送順および/または更新の有無に関する情報を挿入する、ようにされてもよい。サブタイトルのテキスト情報の伝送順に関する情報が挿入されることで、受信側では、サブタイトルのテキスト情報の伝送順を認識できることから、デコード処理を効率よく行うことが可能となる。また、サブタイトルのテキスト情報の更新の有無に関する情報が挿入されることで、受信側では、サブタイトルのテキスト情報の更新の有無を容易に把握可能となる。

　本技術によれば、受信側におけるサブタイトル表示のための処理負荷の軽減を図ることができる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。送信装置の構成例を示すブロック図である。光電変換特性の例を示す図である。ダイナミックレンジ・ＳＥＩメッセージの構造例と、その構造例における主要な情報の内容を示す図である。ＴＴＭＬ構造を示す図である。ＴＴＭＬ構造を示す図である。ＴＴＭＬ構造のヘッダ（head）に存在するメタデータ（ＴＴＭ：TTML Metadata）の構造例を示している。ＴＴＭＬ構造のヘッダ（head）に存在するスタイリング（ＴＴＳ：TTML Styling）の構造例を示す図である。ＴＴＭＬ構造のヘッダ（head）に存在するスタイリング・エクステンション（ＴＴＳＥ：TTML Styling Extension）の構造例を示す図である。ＴＴＭＬ構造のヘッダ（head）に存在するレイアウト（ＴＴＬ：TTML layout）の構造例を示す図である。ＴＴＭＬ構造のボディ（body）の構造例を示す図である。ＰＥＳパケットの構成例を示す図である。ＰＥＳ内部のセグメント・インタフェースを示す図である。ＰＥＳデータペイロードに配置される「TimedTextSubtitling_segments()」の構造例を示す図である。ＰＥＳデータペイロードに配置される「TimedTextSubtitling_segments()」の他の構造例を示す図である。メタデータ（ＴＴＭ）が配置されるＴＨＭＳ（text_header_metadata_segment）の構造例を示す図である。スタイリング（ＴＴＳ）が配置されるＴＨＳＳ（text_header_styling_segment）の構造例を示す図である。スタイリング・エクステンション（ＴＴＭＬ）が配置されるＴＨＳＥＳ（text_header_styling_extension_segment）の構造例を示す図である。レイアウト（ＴＴＬ）が配置されるＴＨＬＳ（text_header_layout_segment）の構造例を示す図である。ＴＴＭＬ構造のボディ（body）が配置されるＴＢＳ（text_body_segment）の構造例を示す図である。ＴＴＭＬ構造のヘッダ（head）が配置されるＴＨＡＳ（text_header_all_segment）の構造例を示す図である。ＴＴＭＬ構造の全体が配置されるＴＷＳ（text whole segment）の構造例を示す図である。ＴＴＭＬ構造の全体が配置されるＴＷＳ（text whole segment）の他の構造例を示す図である。アブストラクト情報が配置されたＡＰＴＳ（abstract_parameter_TimedText_segment）の構造例を示す図（１/２）である。アブストラクト情報が配置されたＡＰＴＳ（abstract_parameter_TimedText_segment）の構造例を示す図（２/２）である。ＡＰＴＳの構造例における主要な情報の内容を示す図（１/２）である。ＡＰＴＳの構造例における主要な情報の内容を示す図（２/２）である。ＴＴＭＬをセグメント（Segment）に変換する場合における「ＰＴＳ」、「start_time_offset」、「end_time_offset」を設定について説明するための図である。受信装置の構成例を示すブロック図である。サブタイトルデコーダの構成例を示すブロック図である。色域・輝度変換部の構成例を示す図である。輝度変換部に含まれる輝度信号Ｙに係る構成部の構成例を示す図である。輝度変換部の動作を模式的に表す図である。位置・サイズ変換部における位置変換を説明するための図である。位置・サイズ変換部におけるサイズ変換を説明するための図である。サブタイトルの時系列順の表示制御の一例を説明するための図である。サブタイトルの時系列順の表示制御の一例を説明するための図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システムの構成例］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、送信装置１００と受信装置２００により構成されている。

　送信装置１００は、コンテナとしてのＭＰＥＧ２のトランスポートストリームＴＳを生成し、このトランスポートストリームＴＳを放送波あるいはネットのパケットに載せて送信する。このトランスポートストリームＴＳには、符号化ビデオデータを持つビデオストリームが含まれる。

　また、このトランスポートストリームＴＳには、サブタイトルストリームが含まれている。このサブタイトルストリームには、表示タイミング情報を持つサブタイトル（字幕）のテキスト情報と、このテキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報が含まれている。この実施の形態において、テキスト情報は、例えば、Ｗ３Ｃ（(World Wide Web Consortium）で提唱されているＴＴＭＬ（Timed Text Markup Language）である。

　この実施の形態において、アブストラクト情報には、サブタイトルの表示タイミング情報が含まれている。この表示タイミング情報は、表示開始タイミングと表示期間の情報を持っている。ここで、サブタイトルストリームは、ＰＥＳヘッダとＰＥＳペイロードとからなるＰＥＳパケットにより構成され、サブタイトルのテキスト情報および表示タイミング情報はＰＥＳペイロードに配置され、例えば、表示開始タイミングは、ＰＥＳヘッダに挿入されているＰＴＳからの表示オフセットで示される。

　また、この実施の形態において、アブストラクト情報には、サブタイトルの表示状態を制御するための表示制御情報が含まれている。この実施の形態において、表示制御情報には、サブタイトルの表示位置、色域およびダイナミックレンジの情報が含まれている。また、この実施の形態において、アブストラクト情報には、対象ビデオの情報が含まれている。

　受信装置２００は、送信装置１００から放送波で送られてくるトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳは、上述したように、符号化ビデオデータを含むビデオストリームと、サブタイトルのテキスト情報およびアブストラクト情報を含むサブタイトルストリームを有している。

　受信装置２００は、ビデオストリームからビデオデータを得ると共に、サブタイトルストリームからサブタイトルのビットマップデータを得ると共に、アブストラクト情報を抽出する。受信装置２００は、ビデオデータにサブタイトルのビットマップデータを重畳して表示用ビデオデータを得る。テレビ受信機２００は、ビデオデータに重畳されるサブタイトルのビットマップデータを、アブストラクト情報に基づいて処理する。

　この実施の形態において、アブストラクト情報にはサブタイトルの表示タイミング情報が含まれており、受信装置２００は、ビデオデータへのブタイトルのビットマップデータの重畳タイミングを、表示タイミング情報に基づいて制御する。また、この実施の形態において、アブストラクト情報にはサブタイトルの表示状態（表示位置、色域、ダイナミックレンジなど）を制御するための表示制御情報が含まれており、受信装置２００は、サブタイトルのビットマップの状態を、表示制御情報に基づいて制御する。

　「送信装置の構成例」
　図２は、送信装置１００の構成例を示している。この送信装置１００は、制御部１０１と、カメラ１０２と、ビデオ光電変換部１０３と、ＲＧＢ/ＹＣｂＣｒ変換部１０４と、ビデオエンコーダ１０５と、サブタイトル発生部１０６と、テキストフォーマット変換部１０７と、サブタイトルエンコーダ１０８と、システムエンコーダ１０９と、送信部１１０を有している。

　制御部１０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、送信装置１００の各部の動作を制御する。カメラ１０２は、被写体を撮像して、ＨＤＲ（High Dynamic Range）、あるいはＳＤＲ（Standard Dynamic Range）のビデオデータ（画像データ）を出力する。ＨＤＲ画像は、ＳＤＲ画像の白ピークの明るさを超える０～１００％＊Ｎ（Ｎは１より大きい数）、例えば０～１０００％などのコントラスト比を持つ。ここで、１００％のレベルは、例えば、白の輝度値１００ｃｄ/ｍ^２に相当する。

　ビデオ光電変換部１０３は、カメラ１０２で得られたビデオデータに対して、光電変換を施して、伝送ビデオデータＶ１を得る。この場合、ビデオデータがＳＤＲビデオデータである場合には、ＳＤＲ光電変換特性を適用して光電変換し、ＳＤＲ伝送ビデオデータ（ＳＤＲ光電変換特性を持たせた伝送ビデオデータ）を得る。一方、ビデオデータがＨＤＲビデオデータである場合には、ＨＤＲ光電変換特性を適用して光電変換し、ＨＤＲ伝送ビデオデータ（ＨＤＲ光電変換特性を持たせた伝送ビデオデータ）を得る。

　ＲＧＢ/ＹＣｂＣｒ変換部１０４は、伝送ビデオデータをＲＧＢドメインからＹＣｂＣｒ（輝度・色差）ドメインに変換する。ビデオエンコーダ１０５は、ＹＣｂＣｒドメインに変換された伝送ビデオデータＶ１に対して、例えば、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化を施し、符号化ビデオデータを含むビデオストリーム（ＰＥＳストリーム）ＶＳを生成する。

　このとき、ビデオエンコーダ１０５は、アクセスユニット（ＡＵ）のＳＰＳＮＡＬユニットのＶＵＩ（video usability information）の領域に、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、伝送ビデオデータＶ１の色域を示す情報、リファレンスレベルを示す情報などのメタ情報を挿入する。

　また、ビデオエンコーダ１０５は、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、リファレンスレベルの情報などのメタ情報を持つ、新規定義するダイナミックレンジ・ＳＥＩメッセージ（Dynamic_range SEI message）を挿入する。

　ここで、ダイナミックレンジ・ＳＥＩメッセージに、電光変換特性を示す情報を持たせるのは、伝送ビデオデータＶ１がＨＤＲ伝送ビデオデータであっても、ＨＤＲ光電変換特性がＳＤＲ光電変換特性と互換性を持つ場合、ＳＰＳＮＡＬユニットのＶＵＩには、ＳＤＲ光電変換特性に対応した電光変換特性（ガンマ特性）を示す情報が挿入されるので、ＶＵＩ以外の場所にＨＤＲ光電変換特性に対応した電光変換特性を示す情報が必要となるからである。

　図３は光電変換特性の例を示している。この図において、横軸は入力輝度レベルを示し、縦軸は伝送符号値を示す。曲線ａは、ＳＤＲ光電変換特性の例を示している。また、曲線ｂ１は、ＨＤＲ光電変換特性の例（ＳＤＲ光電変換特性と互換性を持たない）を示している。さらに、曲線ｂ２は、ＨＤＲ光電変換特性の例（ＳＤＲ光電変換特性と互換性を持つ）を示している。この例の場合、入力輝度レベルが互換限界値までは、ＳＤＲ光電変換特性と一致している。入力輝度レベルが互換限界値であるとき、伝送符号値は互換レベルとなる。

　また、ダイナミックレンジ・ＳＥＩメッセージに、リファレンスレベルの情報を持たせるのは、伝送ビデオデータＶ１がＳＤＲ伝送ビデオデータであるとき、ＳＰＳＮＡＬユニットのＶＵＩにＳＤＲ光電変換特性に対応した電光変換特性（ガンマ特性）を示す情報が挿入されるが、リファレンスレベルを挿入することに関しては規格明記がないからである。

　図４（ａ）は、ダイナミックレンジ・ＳＥＩメッセージの構造例(Syntax)を示している。図４（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。「Dynamic_range_cancel_flag」の１ビットのフラグ情報は、“Dynamic_range ”のメッセージをリフレッシュするかを示す。“０”はメッセージをリフレッシュすることを示し、“１”はメッセージをリフレッシュしないこと、つまり前のメッセージをそのまま維持することを示す。

　「Dynamic_range_cancel_flag」が“０”であるとき、以下のフィールドが存在する。「coded_data_bit_depth」の８ビットフィールドは、符号化画素ビット数を示す。「reference_level」の８ビットフィールドは、リファレンスレベルとしての基準輝度レベル値を示す。「modify_tf_flag」の1ビットフィールドは、ＶＵＩ（video usability information）で示されるTransfer Function（ＴＦ）を修正するか否かを示す。“０”はＶＵＩで示されるＴＦが対象であることを示し、“１”は本ＳＥＩの「transfer_function」で指定されるＴＦでＶＵＩのＴＦを修正することを示す。「transfer_function」の８ビットフィールドは、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す。

　図２に戻って、サブタイトル発生部１０６は、サブタイトル情報としてのテキストデータ（文字コード）ＤＴを発生する。テキストフォーマット変換部１０７は、テキストデータＤＴを入力し、所定フォーマットのサブタイトルのテキスト情報、この実施の形態においてはＴＴＭＬ（Timed Text Markup Language）を得る。

　図５は、ＴＴＭＬ（Timed Text Markup Language）構造の一例を示している。ＴＴＭＬは、ＸＭＬベースで記載される。なお、図６（ａ）も、ＴＴＭＬ構造の一例を示している。この例のように、ルート・コンテナ（root container）の位置に、「tts:extent」でサブタイトルエリア（Subtitle area）を指定することも可能である。図６（ｂ）は、「tts:extent=“1920px 1080px”」で指定される、水平１９２０ピクセル、垂直１０８０ピクセルのサブタイトルエリアを示している。

　ＴＴＭＬは、ヘッダ（head）とボディ（body）からなっている。ヘッダ（head）には、メタデータ（metadata）、スタイリング（styling）、スタイリング・エクステンション（styling extension）、レイアウト（layout）などの各要素が存在する。図７は、メタデータ（ＴＴＭ：TTML Metadata）の構造例を示している。このメタデータには、メタデータのタイトルの情報と、コピーライトの情報が含まれている。

　図８（ａ）は、スタイリング（ＴＴＳ：TTML Styling）の構造例を示している。このスタイリングには、識別子（id）の他に、リージョン（Region）の位置、サイズ、カラー（color）、フォント（fontFamily）、フォントサイズ（fontSize）、テキストアラインメント（textAlign）などの情報が含まれている。

　「tts:origin」は、サブタイトルの表示領域であるリージョン（Region）の開始位置を画素数で指定する。この例では、「tts:origin“480px 600px”」であり、図８（ｂ）に示すように、開始位置（矢印Ｐ参照）は（４８０，６００）であることを示している。また、「tts:extent」は、リージョンの終了位置を開始位置からの水平方向、垂直方向のオフセット画素数で指定する。この例では、「tts:extent“560px 350px”」であり、図８（ｂ）に示すように、終了位置（矢印Ｑ参照）は（４８０＋５６０，６００＋３５０）であることを示している。ここで、このオフセット画素数は、リージョンの水平、垂直のサイズに対応している。

　「tts:opacity=“1.0”」は、サブタイトル（字幕）と背景ビデオとの混合比を示す。例えば、“１．０”はサブタイトルを１００％、背景ビデオを０％とすることを示し、“０．１”はサブタイトル（字幕）を０％、背景ビデオを１００％とすることを示す。図示の例では、“１．０”とされている。

　図９は、スタイリング・エクステンション（ＴＴＭＬ　Styling Extension）の構造例を示している。このスタイリング・エクステンションには、識別子（id）の他に、色域（colorspace）、ダイナミックレンジ（dynamicrange）の情報が含まれている。色域情報は、サブタイトルの想定する色域を指定する。図示の例では、“ITUR2020”であることが示されている。ダイナミックレンジ情報は、サブタイトルの想定するダイナミックレンジがＳＤＲであるかＨＤＲであるかを指定する。図示の例では、ＳＤＲであることが示されている。

　図１０は、レイアウト（region：TTML layout）の構造例を示している。このレイアウトには、サブタイトルを配置するリージョンの識別子（id）の他に、オフセット（padding）、バックグラウンドカラー（backgroundColor）、アラインメント（displayAlign）などの情報が含まれている。

　図１１は、ボディ（body）の構造例を示している。図示の例では、サブタイトル１（subtitle 1）、サブタイトル２（subtitle 2）、サブタイトル３（subtitle 3）の３つのサブタイトルの情報が含まれている。サブタイトル毎に、表示開始タイミングと表示終了タイミングが記載されると共に、テキストデータが記載されている。例えば、サブタイトル１（subtitle 1）に関しては、表示開始タイミングが“Ｔ１”で、表示終了タイミングが“Ｔ３”であり、テキストデータが「ＡＢＣ」とされている。

　図２に戻って、サブタイトルエンコーダ１０８は、テキストフォーマット変換部１０７で得られたＴＴＭＬを種々のセグメントに変換し、ペイロードにそれらのセグメントを配置したＰＥＳパケットで構成されるサブタイトルストリームＳＳを生成する。

　図１２は、ＰＥＳパケットの構成例を示している。ＰＥＳヘッダ（PES header）には、ＰＴＳ（Presentation Time Stamp）が含まれている。ＰＥＳデータペイロード（PES data payload）には、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＨＭＳ（text_header_metadata_segment）、ＴＨＳＳ（text header styling segment）、ＴＨＳＥＳ（text_header_styling_extension_segment）、ＴＨＬＳ（text_header_layout_segment）、ＴＢＳ（text_body_segment）の各セグメントが含まれている。

　なお、ＰＥＳデータペイロード（PES data payload）には、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＨＡＳ（text_header_all_segment）、ＴＢＳ（text_body_segment）の各セグメントが含まれる場合もある。また、ＰＥＳデータペイロード（PES data payload）には、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＷＳ（text_whole_segment）の各セグメントが含まれる場合もある。

　図１３は、ＰＥＳ内部のセグメント・インタフェースを示している。「PES_data_field」は、ＰＥＳパケットのＰＥＳデータペイロードのコンテナ部分を示している。「data_identifier」の８ビットフィールドは、上述のコンテナ部分で伝送するデータの種類を識別するＩＤを示す。従来のサブタイトル（ビットマップの場合）は、“０ｘ２０”で示すこととされているので、テキストの場合は新たな値、例えば“０ｘ２１”で識別することも可能である。

　「subtitle_stream_id」の８ビットフィールドは、サブタイトルストリームの種類を識別するＩＤを示す。テキスト情報を伝送するサブタイトルストリームの場合は新たな値、例えば“０ｘ０１”とし、従来のビットマップを伝送するサブタイトルストリーム“０ｘ００”と区別することが可能である。

　「TimedTextSubtitling_segments()」のフィールドにセグメント群が配置される。図１４は、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＨＭＳ（text_header_metadata_segment）、ＴＨＳＳ（text header styling segment）、ＴＨＳＥＳ（text_header_styling_extension_segment）、ＴＨＬＳ（text_header_layout_segment）、ＴＢＳ（text_body_segment）の各セグメントがＰＥＳデータペイロードに配置される場合における、「TimedTextSubtitling_segments()」の構造例を示している。

　図１５（ａ）は、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＨＡＳ（text_header_all_segment）、ＴＢＳ（text_body_segment）の各セグメントがＰＥＳデータペイロードに配置される場合における、「TimedTextSubtitling_segments()」の構造例を示している。図１５（ｂ）は、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＷＳ（text_whole_segment）の各セグメントがＰＥＳデータペイロードに配置される場合における、「TimedTextSubtitling_segments()」の構造例を示している。

　なお、各セグメントのサブタイトルストリームへの挿入の有無はフレキシブルであり、例えば、表示サブタイトル以外に変更がない場合は、ＡＰＴＳ（abstract_parameter_TimedText_segment）、ＴＢＳ（text_body_segment）の２つのセグメントのみの構成となる。いずれの場合においても、ＰＥＳデータペイロードには、アブストラクト情報を持つＡＰＴＳのセグメントが最初に配置され、それに続いてその他のセグメントが配置される。このような配置とされることで、受信側では、サブタイトルストリームからアブストラクト情報のセグメントの抽出を簡単かつ効率よく行い得る。

　図１６（ａ）は、ＴＨＭＳ（text_header_metadata_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「thm_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＨＭＳを示す例えば「０ｘ２０」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図１６（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬのヘッダ（head）に存在するメタデータ（metadata）の要素と同じものである（図７参照）。

　図１７（ａ）は、ＴＨＳＳ（text_header_styling_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「ths_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＨＳＳを示す例えば「０ｘ２１」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図１７（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬのヘッダ（head）に存在するスタイリング（styling）の要素と同じものである（図８（ａ）参照）。

　図１８（ａ）は、ＴＨＳＥＳ（text_header_styling_extension_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「thse_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＨＳＥＳを示す例えば「０ｘ２２」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図１８（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬのヘッダ（head）に存在するスタイリング・エクステンション（styling_extension）の要素と同じものである（図９（ａ）参照）。

　図１９（ａ）は、ＴＨＬＳ（text_header_layout_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「thl_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＨＬＳを示す例えば「０ｘ２３」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図１９（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬのヘッダ（head）に存在するレイアウト（layout）の要素と同じものである（図１０参照）。

　図２０（ａ）は、ＴＢＳ（text_body_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「tb_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＢＳを示す例えば「０ｘ２４」とされる。「segment_payload()」の中に、図２０（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬのボディ（body）と同じものである（図１１参照）。

　図２１（ａ）は、ＴＨＡＳ（text_header_all_segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「tha_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＨＡＳを示す例えば「０ｘ２５」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図２１（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ヘッダ（head）の全体である。

　図２２（ａ）は、ＴＷＳ（text whole segment）の構造例（syntax）を示している。この構造には、「sync_byte」、「segment_type」、「page_id」、「segment_length」、「tw_version_number」、「segment_payload()」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＴＷＳを示す例えば「０ｘ２６」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。「segment_payload()」の中に、図２２（ｂ）に示すようなメタデータがＸＭＬ情報として配置される。このメタデータは、ＴＴＭＬの全体である（図５参照）。この構造は、ＴＴＭＬ全体での互換性を維持するための構造であって、ＴＴＭＬ全体を一つのセグメントに入れるものである。

　このようにＴＴＭＬの全ての要素を１つのセグメントに配置して送る場合、図２２（ｂ）に示すように、要素のレイヤに、「ttnew:sequentialinorder」、「ttnew:partialupdate」の２つの新規要素が挿入される。なお、これらは、同時に挿入されなくてもよい。

　「ttnew:sequentialinorder」は、ＴＴＭＬの伝送順に関する情報を構成する。この「ttnew:sequentialinorder」は、<head>の前に配置される。「ttnew:sequentialinorder=true　(=1)」で伝送順の制約があることを示す。その場合は、<head> の中が、<metadata>、<styling>、<styling extension>、<layout> の順で配置され、その後に<body> の中身の“<div>、<p> text </p> </div> ” が続くことを示す。なお、<styling extension>が存在しない場合は、<metadata>、<styling>、<layout> の順である。一方、「ttnew:sequentialinorder=false (=0)」で、上記制約がないことを示す。

　このように「ttnew:sequentialinorder」の要素が挿入されることで、受信側では、ＴＴＭＬの伝送順を認識できることから、ＴＴＭＬの全ての要素がまとめて送られてくる場合でも、ＴＴＭＬの伝送順が所定の順序に則ってなされることを認識でき、デコードまでの過程が簡便になり、デコード処理を効率よく行うことが可能となる。

　また、「ttnew:partialupdate」は、ＴＴＭＬの更新の有無に関する情報を構成する。この「ttnew:partialupdate」は、<head>の前に配置される。「ttnew:partialupdate=true　(=1) 」で<body> の前に、<head> のいずれかの要素のアップデートが起こることを示す。一方、「ttnew:partialupdate=false (=0)」で、上記アップデートがないことを示す。このように「ttnew:sequentialinorder」の要素が挿入されることで、受信側では、ＴＴＭＬの更新の有無を容易に把握可能となる。

　なお、上述では、「ttnew:sequentialinorder」、「ttnew:partialupdate」の２つの新規要素が要素のレイヤに挿入される例を示した。しかし、これらの新規要素が、図２３（ａ）に示すように、セグメントのレイヤに挿入される例も考えられる。図２３（ｂ）は、その場合に、「segment_payload()」の中に配置されるメタデータ（ＸＭＬ情報）を示している。

　「ＡＰＴＳ（abstract_parameter_TimedText_segment）のセグメント」
　ここで、ＡＰＴＳ（abstract_parameter_TimedText_segment）のセグメントについて説明する。このＡＰＴＳのセグメントには、アブストラクト情報が含まれる。このアブストラクト情報には、ＴＴＭＬで示される複数の情報のうちの一部の情報に対応した情報を持っている。

　図２４、図２５は、ＡＰＴＳ（abstract_parameter_TimedText_segment）の構造例（syntax）を示している。図２６、図２７は、その構造例における主要な情報の内容（Semantics）を示している。この構造には、他のセグメントと同様に、「sync_byte」、「segment_type」、「page_id」、「segment_length」の各情報が含まれている。「segment_type」は、セグメントタイプを示す８ビットのデータであり、ここでは、ＡＰＴＳを示す例えば「０ｘ１９」とされる。「segment_length」は、セグメントの長さ（サイズ）を示す８ビットのデータである。

　「APT_version_number」の４ビットフィールドは、ＡＰＴＳ（abstract_parameter_TimedText_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。「TTM_version_number」の４ビットフィールドは、ＴＨＭＳ（text_header_metadata_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。「TTS_version_number」の４ビットフィールドは、ＴＨＳＳ（text_header_styling_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。

　「TTSE_version_number」の４ビットフィールドは、ＴＨＳＥＳ（text_header_styling_extension_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。「TTL_version_number」の４ビットフィールドは、ＴＨＬＳ（text_header_layout_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。

　「TTHA_version_number」の４ビットフィールドは、ＴＨＡＳ（text_header_all_segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。「TW_version_number」の４ビットフィールドは、ＴＷＳ（text whole segment）の要素に以前に送られている内容との間に変化があるか否かを示し、変化がある場合には値を１つ増加する。

　「subtitle_display_area」の４ビットフィールドは、サブタイトル表示領域（サブタイトルエリア）を指定する。例えば、“０ｘ１”は６４０ｈ＊４８０ｖを指定し、“０ｘ２”は７２０ｈ＊４８０ｖを指定し、“０ｘ３”は７２０ｈ＊５７６ｖを指定し、“０ｘ４”は１２８０ｈ＊７２０ｖを指定し、“０ｘ５”は１９２０ｈ＊１０８０ｖを指定し、“０ｘ６”は３８４０ｈ＊２１６０ｖを指定し、“０ｘ７”は７６８０ｈ＊４３２０ｖを指定する。

　「subtitle_color_gamut_info」の４ビットフィールドは、サブタイトルの想定する色域を指定する。「subtitle_dynamic_range_info」の４ビットフィールドは、サブタイトルの想定するダイナミックレンジを指定する。例えば、“０ｘ１”はＳＤＲを示し、“０ｘ２”はＨＤＲを示す。サブタイトルにＨＤＲを指定する場合はサブタイトルの輝度をビデオの標準白レベル以下に抑えることを想定することを示す。

　「target_video_resolution」の４ビットフィールドは、想定するビデオの解像度を指定する。例えば、“０ｘ１”は６４０ｈ＊４８０ｖを指定し、“０ｘ２”は７２０ｈ＊４８０ｖを指定し、“０ｘ３”は７２０ｈ＊５７６ｖを指定し、“０ｘ４”は１２８０ｈ＊７２０ｖを指定し、“０ｘ５”は１９２０ｈ＊１０８０ｖを指定し、“０ｘ６”は３８４０ｈ＊２１６０ｖを指定し、“０ｘ７”は７６８０ｈ＊４３２０ｖを指定する。

　「target_video_color_gamut_info」の４ビットフィールドは、想定するビデオの色域を指定する。例えば、“０ｘ１”は「ＢＴ．７０９」を示し、“０ｘ２”は「ＢＴ．２０２０」を示す。「target_video_dynamic_range_info」の４ビットフィールドは、想定するビデオのダイナミックレンジを指定する。例えば、“０ｘ１”は「ＢＴ．７０９」を示し、“０ｘ２”は「ＢＴ．２０２ｘ」を示し、“０ｘ３”は「Ｓｍｐｔｅ　２０８４」を示す。

　「number_of_regions」の４ビットフィールドは、リージョンの数を指定する。リージョンの数だけ、以下のフィールドが繰り返し存在する。「region_id」の１６ビットフィールドは、リージョンのＩＤを示す。

　「start_time_offset」の８ビットフィールドは、サブタイトルの表示開始時刻をＰＴＳからのオフセット値として示す。この「start_time_offset」のオフセット値は、符号付きであり、負の値の場合はＰＴＳよりも早い時点での表示開始を表す。この「start_time_offset」のオフセット値が０であるときは、ＰＴＳのタイミングで表示を開始することを意味する。８ビット表現の場合の値の精度は、符号値を１０で割った、小数点第１位までになる。

　「end_time_offset」の８ビットフィールドは、サブタイトルの表示終了時刻を「start_time_offset」からのオフセット値として示す。このオフセット値は、表示期間を示す。上述の「start_time_offset」のオフセット値が０であるときは、ＰＴＳにこの「end_time_offset」のオフセット値を加えた値のタイミングで表示を終了することを示す。８ビット表現の場合の値の精度は、符号値を１０で割った、小数点第１位までになる。

　なお、「start_time_offset」、「end_time_offset」は、ＰＴＳと同じ９０ｋＨｚ精度で伝送することも可能である。その場合には、「start_time_offset」、「end_time_offset」のそれぞれのフィールドとして３２ビットの空間を確保することになる。

　サブタイトルエンコーダ１０８は、図２８に示すように、ＴＴＭＬをセグメント（Segment）に変換する際に、ＴＴＭＬのボディ（body）に含まれる各サブタイトルの表示開始タイミング（begin）と表示終了タイミング（end）の記載に基づき、システム時刻情報（ＰＣＲ、ビデオ・オーディオの同期時刻）を参照して、各サブタイトルの「ＰＴＳ」、「start_time_offset」、「end_time_offset」を設定する。この際、サブタイトルエンコーダ１０８は、デコーダ・バッファ・モデルを使用し、受信側の動作が正しく行われるように検証しながら、「ＰＴＳ」、「start_time_offset」、「end_time_offset」の設定を行うようにしてもよい。

　「region_start_horizontal」の１６ビットフィールドは、上述の「subtitle_display_area」で指定されるサブタイトル表示領域の中のリージョンの左上端点（図８（ｂ）のＰ点参照）の水平画素位置を示す。「region_start_vertical」の１６ビットフィールドは、サブタイトル表示領域の中のリージョンの左上端点の垂直画素位置を示す。「region_end_horizontal」の１６ビットフィールドは、サブタイトル表示領域の中のリージョンの右下端点（図８（ｂ）のＱ点参照）の水平画素位置を示す。「region_end_vertical」の１６ビットフィールドは、サブタイトル表示領域の中のリージョンの右下端点の垂直画素位置を示す。

　図２に戻って、システムエンコーダ１０９は、ビデオエンコーダ１０５で生成されたビデオストリームＶＳと、サブタイトルエンコーダ１０８で生成されたサブタイトルストリームＳＳを含むトランスポートストリームＴＳを生成する。送信部１１０は、このトランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて、受信装置２００に送信する。

　図２に示す送信装置１００の動作を簡単に説明する。カメラ１０２で撮像されて得られたビデオデータ（画像データ）は、ビデオ光電変換部１０３に供給される。ビデオ光電変換部１０３では、カメラ１０２で得られたビデオデータに対して、光電変換が施されて、伝送ビデオデータＶ１が得られる。

　この場合、ビデオデータがＳＤＲビデオデータである場合には、ＳＤＲ光電変換特性が適用されて光電変換が行われ、ＳＤＲ伝送ビデオデータ（ＳＤＲ光電変換特性を持たせた伝送ビデオデータ）が得られる。一方、ビデオデータがＨＤＲビデオデータである場合には、ＨＤＲ光電変換特性が適用されて光電変換が行われ、ＨＤＲ伝送ビデオデータ（ＨＤＲ光電変換特性を持たせた伝送ビデオデータ）が得られる。

　ビデオ光電変換部１０３で得られた伝送ビデオデータＶ１は、ＲＧＢ/ＹＣｂＣｒ変換部１０４でＲＧＢドメインからＹＣｂＣｒ（輝度・色差）ドメインに変換された後に、ビデオエンコーダ１０５に供給される。ビデオエンコーダ１０５は、この伝送ビデオデータＶ１に対して、例えば、ＭＰＥＧ４－ＡＶＣあるいはＨＥＶＣなどの符号化が施されて、符号化ビデオデータを含むビデオストリーム（ＰＥＳストリーム）ＶＳが生成される。

　また、ビデオエンコーダ１０５では、アクセスユニット（ＡＵ）のＳＰＳＮＡＬユニットのＶＵＩの領域に、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、伝送ビデオデータＶ１の色域を示す情報、リファレンスレベルを示す情報などのメタ情報が挿入される。

　また、ビデオエンコーダ１０５では、アクセスユニット（ＡＵ）の“ＳＥＩｓ”の部分に、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、リファレンスレベルの情報などのメタ情報を持つ、新規定義するダイナミックレンジ・ＳＥＩメッセージ（図４参照）が挿入される。

　サブタイトル発生部１０６では、サブタイトル情報としてのテキストデータ（文字コード）ＤＴが発生される。このテキストデータＤＴはテキストフォーマット変換部１０７に供給される。テキストフォーマット変換部１０７では、テキストデータＤＴに基づいて、表示タイミング情報を持つサブタイトルのテキスト情報、つまりＴＴＭＬに変換される（図３、図４参照）。このＴＴＭＬは、サブタイトルエンコーダ１０８に供給される。

　サブタイトルエンコーダ１０８では、テキストフォーマット変換部１０７で得られたＴＴＭＬが種々のセグメントに変換され、ペイロードにそれらのセグメントが配置されたＰＥＳパケットで構成されるサブタイトルストリームＳＳが生成される。この場合、ＰＥＳパケットのペイロードには、アブストラクト情報を持つＡＰＴＳのセグメント（図２４-図２７参照）が最初に配置され、続いてサブタイトルのテキスト情報を持つセグメントが配置される（図１２参照）。

　ビデオエンコーダ１０５で生成されるビデオストリームＶＳは、システムエンコーダ１０９に供給される。サブタイトルエンコーダ１０８で生成されたサブタイトルストリームＳＳは、システムエンコーダ１０９に供給される。システムエンコーダ１０９では、ビデオストリームＶＳとサブタイトルストリームＳＳを含むトランスポートストリームＴＳが生成される。このトランスポートストリームＴＳは、送信部１１０により、放送波あるいはネットのパケットに載せて、受信装置２００に送信される。

　「受信装置の構成例」
　図２９は、受信装置２００の構成例を示している。この受信装置２００は、制御部２０１と、ユーザ操作部２０２と、受信部２０３と、システムデコーダ２０４と、ビデオデコーダ２０５と、サブタイトルデコーダ２０６と、色域・輝度変換部２０７と、位置・サイズ変換部２０８を有している。また、受信装置２００は、ビデオ重畳部２０９と、ＹＣｂＣｒ/ＲＧＢ変換部２１０と、電光変換部２１１と、表示マッピング部２１２と、ＣＥモニタ２１３を有している。

　制御部２０１は、ＣＰＵ（Central Processing Unit）を備えて構成され、制御プログラムに基づいて、受信装置２００の各部の動作を制御する。ユーザ操作部２０２は、視聴者などのユーザが種々の操作を行うためのスイッチ、タッチパネル、リモコン送信部などである。受信部２０３は、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。

　システムデコーダ２０４は、このトランスポートストリームＴＳから、ビデオストリームＶＳとサブタイトルストリームＳＳを抽出する。また、システムデコーダ２０４は、トランスポートストリームＴＳ（コンテナ）に挿入されている種々の情報を抽出し、制御部２０１に送る。

　ビデオデコーダ２０５は、システムデコーダ２０４で抽出されるビデオストリームＶＳに対してデコード処理を行って、伝送ビデオデータＶ１を出力する。また、ビデオデコーダ２０５は、ビデオストリームＶＳを構成する各アクセスユニットに挿入されているパラメータセットやＳＥＩメッセージを抽出し、制御部２０１に送る。

　ＳＰＳＮＡＬユニットのＶＵＩの領域には、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、伝送ビデオデータＶ１の色域を示す情報、リファレンスレベルを示す情報などが挿入されている。また、このＳＥＩメッセージには、伝送ビデオデータＶ１が持つ光電変換特性に対応した電光変換特性を示す情報（transfer function）、リファレンスレベルの情報などを持つダイナミックレンジＳＥＩメッセージ（図４参照）も含まれる。

　サブタイトルデコーダ２０６は、サブタイトルストリームＳＳに含まれている各リージョンのセグメントデータを処理し、ビデオデータに重畳すべき各リージョンのビットマップデータを出力する。また、このサブタイトルデコーダ２０６は、ＡＰＴＳのセグメントに含まれるアブストラクト情報を抽出し、制御部２０１に送る。

　このアブストラクト情報には、サブタイトルの表示タイミング情報、サブタイトルの表示制御情報（サブタイトルの表示位置、色域およびダイナミックレンジの情報）、さらには、対象ビデオの情報（解像度、色域、ダイナミックレンジの情報）などが含まれている。

　ここで、サブタイトルの表示タイミング情報や表示制御情報は、ＡＰＴＳ以外のセグメントの「segment_payload()」の中に配置されるＸＭＬ情報に含まれているので、そのＸＭＬ情報をスキャンすることでも得ることが可能であるが、ＡＰＴＳのセグメントからアブストラクト情報を抽出だけで容易に得ることができる。なお、対象ビデオの情報（解像度、色域、ダイナミックレンジの情報）は、ビデオストリームＶＳの系から取得可能であるが、ＡＰＴＳのセグメントからアブストラクト情報を抽出するだけで容易に得ることができる。

　図３０は、サブタイトルデコーダ２０６の構成例を示している。このサブタイトルデコーダ２０６は、コーデッドバッファ２６１と、サブタイトルセグメントデコーダ２６２と、フォント展開部２６３と、ビットマップバッファ２６４を有している。

　コーデッドバッファ２６１は、サブタイトルストリームＳＳを一時的に保持する。サブタイトルセグメントデコーダ２６２は、コーデッドバッファ２６１に保持されている各リージョンのセグメントデータに対して所定のタイミングでデコード処理を施して、各リージョンのテキストデータや制御コードを得る。

　フォント展開部２６３は、サブタイトルセグメントデコーダ２６２で得られた各リージョンのテキストデータや制御コードに基づいてフォント展開して、各リージョンのサブタイトルのビットマップデータを得る。この場合、フォント展開部２６３は、各リージョンの位置情報として、例えば、アブストラクト情報に含まれる位置情報（「region_start_horizontal」、「region_start_vertical」、「region_end_horizontal」、「region_end_vertical」）を用いる。

　このサブタイトルのビットマップデータはＲＧＢのドメインで得られる。また、このサブタイトルのビットマップデータの色域は、アブストラクト情報に含まれるサブタイトルの色域情報で示される色域に合致したものとされる。さらに、このサブタイトルのビットマップデータのダイナミックレンジは、アブストラクト情報に含まれるサブタイトルのダイナミックレンジ情報で示されるダイナミックレンジに合致したものとされる。

　例えば、ダイナミックレンジ情報が“ＳＤＲ”であった場合、サブタイトルのビットマップデータは、ダイナミックレンジがＳＤＲであって、ＳＤＲ光電変換特性が適用されて光電変換がされたものとされる。また、例えば、ダイナミックレンジ情報が“ＨＤＲ”であった場合、サブタイトルのビットマップデータは、ダイナミックレンジがＨＤＲであって、ＨＤＲ光電変換特性が適用されて光電変換がされたものとされる。この場合、ＨＤＲのビデオへの重畳を前提に、ＨＤＲのリファレンスレベルまでの輝度範囲に限定される。

　ビットマップバッファ２６４は、フォント展開部２６３で得られた各リージョンのビットマップデータを一時的に保持する。このビットマップバッファ２６４に保持されている各リージョンのビットマップデータは、表示開始タイミングから読み出されて画像データに重畳され、それが表示期間だけ継続される。

　ここで、サブタイトルセグメントデコーダ２６２は、ＰＥＳパケットのＰＥＳヘッダからＰＴＳを抽出する。また、サブタイトルセグメントデコーダ２６２は、ＡＰＴＳのセグメントからアブストラクト情報を抽出する。これらの情報は、制御部２０１に送られる。制御部２０１は、ＰＴＳと、アブストラクト情報に含まれる「start_time_offset」、「end_time_offset」の情報に基づいて、ビットマップバッファ２６４からの各リージョンのビットマップデータの読み出しタイミングを制御する。

　図２９に戻って、色域・輝度変換部２０７は、制御部２０１の制御のもと、サブタイトルのビットマップデータの色域情報（「subtitle_color_gamut_info」）とビデオデータの色域情報（「target_video_color_gamut_info」）に基づいて、サブタイトルのビットマップデータの色域を、ビデオデータの色域に合わせる。また、色域・輝度変換部２０７は、制御部２０１の制御のもと、サブタイトルのビットマップデータのダイナミックレンジ情報（「subtitle_dynamic_range_info」）とビデオデータのダイナミックレンジ情報（「target_video_dynamic_range_info」）に基づいて、サブタイトルのビットマップデータの輝度の最大レベルがビデオデータの輝度のリファレンスレベル以下となるように調整する。

　図３１は、色域・輝度変換部２０７の構成例を示している。この色域輝度変換部２１０は、電光変換部２２１と、色域変換部２２２と、光電変換部２２３と、ＲＧＢ/ＹＣｂＣｒ変換部２２４と、輝度変換部２２５を有している。

　電光変換部２２１は、入力されたサブタイトルのビットマップデータに対して光電変換をする。ここで、サブタイトルのビットマップデータのダイナミックレンジがＳＤＲであるとき、電光変換部２２１は、ＳＤＲ電光変換特性を適用して電光変換を行ってリニアな状態にする。また、サブタイトルのビットマップデータのダイナミックレンジがＨＤＲであるとき、電光変換部２２１は、ＨＤＲ電光変換特性を適用して電光変換を行ってリニアな状態にする。なお、入力されたサブタイトルのビットマップデータが光電変換を施していないリニア状態にあることも考えられる。その場合、電光変換部２２１は不要となる。

　色域変換部２２２は、電光変換部２２１から出力されたサブタイトルのビットマップデータの色域をビデオデータの色域に合わせる。例えば、サブタイトルのビットマップデータの色域が“ＢＴ．７０９”であってビデオデータの色域が“ＢＴ．２０２０”であるとき、サブタイトルのビットマップデータの色域は“ＢＴ．７０９”から“ＢＴ．２０２０”に変換される。なお、サブタイトルのビットマップデータの色域がビデオデータの色域と同じであるとき、色域変換部２２２は、実質的に何もせずに、入力されたサブタイトルのビットマップデータをそのまま出力する。

　光電変換部２２３は、色域変換部２２２から出力されたサブタイトルのビットマップデータに対して、ビデオデータに適用されている光電変換特性と同じ光電変換特性を適用して、光電変換を行う。ＲＧＢ/ＹＣｂＣｒ変換部２２４は、光電変換部２２３から出力されたサブタイトルのビットマップデータを、ＲＧＢドメインからＹＣｂＣｒ（輝度・色差）ドメインに変換する。

　輝度変換部２２５は、ＲＧＢ/ＹＣｂＣｒ変換部２２４から出力されたサブタイトルのビットマップデータに対して、サブタイトルのビットマップデータの輝度の最大レベルがビデオデータの輝度のリファレンスレベル以下、あるいは、基準となるホワイトレベルとなるように調整を行って、出力ビットマップデータを得る。この場合、サブタイトルのビットマップデータがＨＤＲビデオへのレンダリングを考慮してビットマップデータの輝度調整が既に行われている場合、ビデオデータがＨＤＲであるときには、実質的に何もせずに、入力されたサブタイトルのビットマップデータをそのまま出力する。

　図３２は、輝度変換部２２５に含まれる輝度信号Ｙに係る構成部２２５Ｙの構成例を示している。この構成部２２５Ｙは、符号化画素ビット数調整部２３１と、レベル調整部２３２を有している。

　符号化画素ビット数調整部２３１は、サブタイトルのビットマップデータの輝度信号Ｙｓの符号化画素ビット数をビデオデータの符号化画素ビット数に合わせる。例えば、輝度信号Ｙｓの符号化画素ビット数が“８ｂｉｔｓ”でビデオデータの符号化画素ビット数が“１０ｂｉｔｓ”であるとき、輝度信号Ｙｓの符号化画素ビット数が“８ｂｉｔｓ”から“１０ｂｉｔｓ”に変換される。レベル調整部２３２は、符号化画素ビット数が合わせられた輝度信号Ｙｓの最大レベルがビデオデータの輝度のリファレンスレベル以下、あるいは、リファレンス・ホワイトレベルとなるように調整して、出力輝度信号Ｙｓ´とする。

　図３３は、図３２に示す構成部２２５Ｙの動作を模式的に表している。図示の例は、ビデオデータがＨＤＲである場合を示している。リファレンスレベル（reference level）は、非輝き部分と輝き部分の境界に当たる。

　符号化画素ビット数が合わせられた後の輝度信号Ｙｓの最大レベル（sc_high）と最小レベル（sc_low）の間に、リファレンスレベルが存在する。この場合、最大レベル（sc_high）がリファレンスレベル以下となるように調整される。なお、この場合、クリップの方法では白潰れみたいな状態になるので、例えば、リニアにスケールダウンする方法が採用される。

　このように輝度信号Ｙｓのレベルが調整されることで、サブタイトルのビットマップデータをビデオデータに重畳したとき、サブタイトルが背景ビデオに輝いて表示されることが防止されるので、画品質を高画質に保つことが可能となる。

　なお、上述では、輝度変換部２２５に含まれる、輝度信号Ｙｓに係る構成部２２５Ｙ（図３２参照）について説明した。輝度変換部２２５では、色差信号Ｃｂ，Ｃｒに関しては、符号化画素ビット数をビデオデータの符号化画素ビット数に合わせる処理のみが行われる。例えば、８ビット空間から１０ビット空間への変換は、ビット幅で表現される範囲の全体を１００％とし、その中で中央値が基準とされて、基準値からプラス方向に５０％、マイナス方向に５０％の振れ幅となるように、変換される。

　図２９に戻って、位置・サイズ変換部２０８は、色域・輝度変換部２０７で得られたサブタイトルのビットマップデータに対して、制御部２０１の制御のもと、位置変換の処理を行う。位置・サイズ変換部２０８は、サブタイトルの対応解像度（「subtitle_display_area」の情報で示される）がビデオの解像度（「target_video_resolution」）と異なるとき、サブタイトルが背景ビデオの適切な位置に表示されるように、サブタイトルの位置変換をする。

　例えば、サブタイトルがＨＤ解像度対応で、ビデオがＵＨＤ解像度である場合について説明する。ここで、ＵＨＤ解像度は、ＨＤ解像度を越えるものであり、４Ｋ解像度あるいは８Ｋ解像度を含むものである。

　図３４（ａ）は、ビデオがＵＨＤ解像度で、サブタイトルがＨＤ解像度対応である場合の例を示している。サブタイトルの表示領域は、図中の“subtitle area”で表される。“subtitle area”とビデオの位置関係は、双方の基準位置、つまり、左上（left-top）を共有させたもので表されることとする。リージョンの開始点の画素位置は（ａ，ｂ）、その終了点の画素位置は（ｃ，ｄ）となっている。この場合、背景ビデオの解像度がサブタイトルの対応解像度より大きいことから、背景ビデオ上のサブタイトルの表示位置は、制作側が意図した位置ではなく、右上に偏った状態となる。

　図３４（ｂ）は、位置変換処理を行った場合の例を示している。サブタイトルの表示領域であるリージョンの開始点の画素位置は（ａ´，ｂ´）、その終了点の画素位置は（ｃ´，ｄ´）とされる。この場合、位置変換前のリージョンの位置座標はＨＤ表示領域の座標であるので、ビデオ画枠との関係に応じて、従ってＵＨＤ解像度のＨＤ解像度に対する比率に基づいてＵＨＤ表示領域の座標に変換される。なお、この例では、位置変換と同時に、サブタイトルのサイズ変換処理も行っている。

　また、位置・サイズ変換部２０８は、色域・輝度変換部２０７で得られたサブタイトルのビットマップデータに対して、制御部２０１の制御のもと、例えば、視聴者などのユーザの操作に応じて、あるいは、ビデオ解像度およびサブタイトルの対応解像度との関係から自動的に、サブタイトルのサイズ変換の処理を行う。

　図３５（ａ）に示すように、表示領域の中心位置(dc: display center)からリージョン（region）の中心位置、つまりリージョンを水平・垂直方向に２分する点(region center位置: rc)までの距離はビデオの解像度に比例して決定される。例えば、ビデオの解像度としてＨＤが想定されてサブタイトルの表示領域の中心位置ｄｃからリージョンの中心位置ｒｃが定義される場合、ビデオの解像度が４Ｋ（＝3840x2160）の際には、ｄｃからｒｃまでの距離は画素数で２倍になるように位置の制御がなされる。

　図３５（ｂ）に示すように、リージョン（Region）のサイズをｒ＿ｏｒｇ（Region 00）からｒ＿ｍｏｄ（Region 01）に変更した場合、開始位置（ｒｓｘ１，ｒｓｙ１)と終了位置（ｒｅｘ１，ｒｅｙ１)は、Ｒａｔｉｏ＝（ｒ＿ｍｏｄ/ｒ＿ｏｒｇ）を満足するように、それぞれ、開始位置（ｒｓｘ２，ｒｓｙ２)と終了位置（ｒｅｘ２，ｒｅｙ２)に修正される。

　つまり、ｒｃから（ｒｓｘ２，ｒｓｙ２)までの距離とｒｃから（ｒｓｘ1，ｒｓｙ１）までの距離との比、およびｒｃから（ｒｅｘ２，ｒｅｙ２)までの距離とｒｃから（ｒｅｘ1，ｒｅｙ１）までの距離との比は、Ｒａｔｉｏと整合するようにされる。このようにすることで、サイズ変換を行ってもリージョンの中心位置ｒｃはそのままであり、表示領域全体の相対位置関係を一定に維持しつつ、サブタイトル（リージョン）のサイズ変換を行うことが可能となる。

　図２９に戻って、ビデオ重畳部２０９は、ビデオデコーダ２０５から出力された伝送ビデオデータＶ１に、位置・サイズ変換部２０８から出力されたサブタイトルのビットマップデータを重畳する。この場合、ビデオ重畳部２０９は、サブタイトルのビットマップデータを、サブタイトルデコーダ２０６で得られた混合比情報（Mixing data）で示される混合比で混合する。

　ＹＣｂＣｒ/ＲＧＢ変換部２１０は、サブタイトルのビットマップデータが重畳された伝送ビデオデータＶ１´をＹＣｂＣｒ（輝度・色差）ドメインからＲＧＢドメインに変換する。この場合、ＹＣｂＣｒ/ＲＧＢ変換部２１０は、色域情報に基づいて、色域に対応した変換式を用いて変換を行う。

　電光変換部２１１は、ＲＧＢドメインに変換された伝送ビデオデータＶ１´に、それに適用されている光電変換特性に対応した電光変換特性を適用して電光変換を行って、画像を表示するための表示用ビデオデータを得る。表示マッピング部２１２は、表示用ビデオデータに対して、ＣＥモニタ２１３の最大輝度表示能力などに応じた表示輝度調整を行う。ＣＥモニタ２１３は、表示輝度調整が行われた表示用ビデオデータに基づいて画像を表示する。このＣＥモニタ２１３は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬディスプレイ（organic electroluminescence display）などで構成される。

　図２９に示す受信装置２００の動作を簡単に説明する。受信部２０３では、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、システムデコーダ２０４に供給される。システムデコーダ２０４では、このトランスポートストリームＴＳから、ビデオストリームＶＳおよびサブタイトルストリームＳＳが抽出される。また、システムデコーダ２０４では、トランスポートストリームＴＳ（コンテナ）に挿入されている種々の情報が抽出され、制御部２０１に送られる。

　システムデコーダ２０４で抽出されたビデオストリームＶＳは、ビデオデコーダ２０５に供給される。ビデオデコーダ２０５では、ビデオストリームＶＳに対してデコード処理が施されて、伝送ビデオデータＶ１が得られる。また、ビデオデコーダ２０５では、ビデオストリームＶＳを構成する各アクセスユニットに挿入されているパラメータセットやＳＥＩメッセージが抽出され、制御部２０１に送られる。

　システムデコーダ２０４で抽出されたサブタイトルストリームＳＳは、サブタイトルデコーダ２０６に供給される。サブタイトルデコーダ２０６では、サブタイトルストリームＳＳに含まれている各リージョンのセグメントデータに対してデコード処理が施されて、ビデオデータに重畳すべき各リージョンのサブタイトルのビットマップデータが得られる。

　また、このサブタイトルデコーダ２０６では、ＡＰＴＳのセグメント（図２４、図２５参照）に含まれるアブストラクト情報が抽出され、制御部２０１に送られる。このアブストラクト情報には、サブタイトルの表示タイミング情報、サブタイトルの表示制御情報（サブタイトルの表示位置、色域およびダイナミックレンジの情報）、さらには、対象ビデオの情報（解像度、色域、ダイナミックレンジの情報）などが含まれている。

　サブタイトルデコーダ２０６は、制御部２０１の制御のもと、例えば、アブストラクト情報に含まれるサブタイトルの表示タイミング情報（「start_time_offset」、「end_time_offset」）に基づいて、制御部２０１によって、各リージョンのサブタイトルのビットマップデータの出力タイミングが制御される。

　サブタイトルデコーダ２０６で得られた各リージョンのサブタイトルのビットマップデータは、色域・輝度変換部２０７に供給される。色域・輝度変換部２０７では、制御部２０１の制御のもと、例えば、アブストラクト情報に含まれる色域情報（「subtitle_color_gamut_info」、「target_video_color_gamut_info」）に基づいて、サブタイトルのビットマップデータの色域が、ビデオデータの色域に合わせられる。

　また、色域・輝度変換部２０７では、制御部２０１の制御のもと、例えば、アブストラクト情報に含まれるダイナミックレンジ情報（「subtitle_dynamic_range_info」、「target_video_dynamic_range_info」）に基づいて、サブタイトルのビットマップデータの輝度の最大レベルがビデオデータの輝度のリファレンスレベル以下となるように調整される。

　色域・輝度変換部２０７で得られた各リージョンのサブタイトルのビットマップデータは、位置・サイズ変換部２０８に供給される。位置・サイズ変換部２０８では、各リージョンのサブタイトルのビットマップデータに対して、制御部２０１の制御のもと、例えば、アブストラクト情報に含まれる解像度情報（「subtitle_display_area」、「target_video_resolution」）に基づいて、位置変換の処理が行われる。

　また、位置・サイズ変換部２０８では、色域・輝度変換部２０７で得られたサブタイトルのビットマップデータに対して、制御部２０１の制御のもと、例えば、視聴者などのユーザの操作に応じて、あるいは、ビデオ解像度およびサブタイトルの対応解像度との関係から自動的に、サブタイトルのサイズ変換の処理が行われる。

　ビデオデコーダ２０４で得られた伝送ビデオデータＶ１は、ビデオ重畳部２０９に供給される。また、位置・サイズ変換部２０８で得られた各リージョンのサブタイトルのビットマップデータは、ビデオ重畳部２０９に供給される。このビデオ重畳部２０９では、伝送ビデオデータＶ１に、各リージョンのサブタイトルのビットマップデータが重畳される。この場合、サブタイトルのビットマップデータが、混合比情報（Mixing data）で示される混合比で混合される。

　ビデオ重畳部２０９で得られた、各リージョンのサブタイトルのビットマップデータが重畳された伝送ビデオデータＶ１´は、ＹＣｂＣｒ/ＲＧＢ変換部２１０において、ＹＣｂＣｒ（輝度・色差）ドメインからＲＧＢドメインに変換されて、電光変換部２１１に供給される。電光変換部２１１では、伝送ビデオデータＶ１´に、それに適用されている光電変換特性に対応した電光変換特性が適用されて電光変換が行われ、画像を表示するための表示用ビデオデータが得られる。

　表示用ビデオデータは、表示マッピング部２１２に供給される。この表示マッピング部２１２では、表示用ビデオデータに対して、ＣＥモニタ２１３の最大輝度表示能力などに応じた表示輝度調整が行われる。このように表示輝度調整が行われた表示用ビデオデータはＣＥモニタ２１３に供給される。ＣＥモニタ２１３には、この表示用ビデオデータに基づいて画像が表示される。

　以上説明したように、図１に示す送受信システム１０においては、サブタイトルストリームに、サブタイトルのテキスト情報と共に、そのテキスト情報に対応したアブストラクト情報を含めるものである。そのため、受信側では、アブストラクト情報を用いてサブタイトル表示のため処理を行うことができ、処理負荷の軽減を図ることが可能となる。

　この場合、受信側では、処理負荷が軽減されることから、サブタイトルの表示が比較的速く変化していく時系列順の表示制御にも容易に対処可能となる。例えば、図３６（ａ）－（ｆ）のようにサブタイトル表示が変化していく場合を考える。

　この場合、最初、例えば、図３７（ａ）に示すように、ＡＰＴＳ（abstract_parameter_TimedText_segment）とＴＢＳ（text body segment）のセグメントがＰＥＳデータペイロードに配置されたＰＥＳパケットを含むサブタイトルストリームＳＳが送信されてくる。受信側では、ＴＢＳのセグメントデータと、ＡＰＴＳのセグメントに含まれるリージョン位置情報（Region_position）に基づいて、当該リージョン“region r1” の位置に「ＡＢＣ」の文言を表示するためのサブタイトルのビットマップデータを発生する。

　そして、受信側では、ＰＴＳ１と、ＡＰＴＳのセグメントに含まれる表示タイミング情報（ＳＴＳ１，ＥＴＳ１）に基づいて、表示開始タイミングＴ１から表示終了タイミングＴ３まで、このビットマップデータを出力する。これにより、受信側では、図３６に示すように、Ｔ１からＴ３にかけて、画面上に「ＡＢＣ」の文言の表示が継続して行われる。

　次に、例えば、図３７（ｂ）に示すように、ＡＰＴＳ（abstract_parameter_TimedText_segment）とＴＢＳ（text body segment）のセグメントがＰＥＳデータペイロードに配置されたＰＥＳパケットを含むサブタイトルストリームＳＳが送信されてくる。受信側では、ＴＢＳのセグメントデータと、ＡＰＴＳのセグメントに含まれるリージョン位置情報（Region_position）に基づいて、当該リージョン“region r2” の位置に「ＤＥＦ」の文言を表示するためのサブタイトルのビットマップデータを発生する。

　そして、受信側では、ＰＴＳ２と、ＡＰＴＳのセグメントに含まれる表示タイミング情報（ＳＴＳ２，ＥＴＳ２）に基づいて、表示開始タイミングＴ２から表示終了タイミングＴ５まで、このビットマップデータを出力する。これにより、受信側では、図３６に示すように、Ｔ２からＴ５にかけて、画面上に「ＤＥＦ」の文言の表示が継続して行われる。

　次に、例えば、図３７（ｃ）に示すように、ＡＰＴＳ（abstract_parameter_TimedText_segment）とＴＢＳ（text body segment）のセグメントがＰＥＳデータペイロードに配置されたＰＥＳパケットを含むサブタイトルストリームＳＳが送信されてくる。受信側では、ＴＢＳのセグメントデータと、ＡＰＴＳのセグメントに含まれるリージョン位置情報（Region_position）に基づいて、当該リージョン“region r3” の位置に「ＧＨＩ」の文言を表示するためのサブタイトルのビットマップデータを発生する。

　そして、受信側では、ＰＴＳ３と、ＡＰＴＳのセグメントに含まれる表示タイミング情報（ＳＴＳ３，ＥＴＳ３）に基づいて、表示開始タイミングＴ４から表示終了タイミングＴ６まで、このビットマップデータを出力する。これにより、受信側では、図３６に示すように、Ｔ４からＴ６にかけて、画面上に「ＧＨＩ」の文言の表示が継続して行われる。

　＜２．変形例＞
　なお、上述実施の形態においては、表示タイミング情報を持つ所定フォーマットのサブタイトルのテキスト情報としてＴＴＭＬを用いる例を示した。しかし、本技術は、これに限定されず、ＴＴＭＬと同等の情報を持つその他のタイムドテキスト情報を用いることも考えらえる。例えば、ＴＴＭＬの派生フォーマットを用いてもよい。

　また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、ＭＰＥＧ－２　ＴＳのコンテナに限定されるものではなく、例えばＭＭＴあるいは、ＩＳＯＢＭＦＦなど、その他のフォーマットのコンテナであっても同様に実現できる。

　また、上述実施の形態においては、ＴＴＭＬおよびアブストラクト情報をセグメントに載せたうえでＰＥＳパケットのＰＥＳデータペイロードに配置する例を示した。しかし、本技術は、ＰＥＳデータペイロードに、ＴＴＭＬおよびアブストラクト情報を直接配置することも考えられる。

　また、上述実施の形態においては、送信装置１００と受信装置２００とからなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置２００の部分が、ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は登録商標である。

　また、本技術は、以下のような構成を取ることもできる。
　（１）符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含むコンテナを送信する送信部を備える
　送信装置。
　（２）上記アブストラクト情報には、サブタイトルの表示タイミング情報が含まれる
　前記（１）に記載の送信装置。
　（３）上記サブタイトルの表示タイミング情報は、表示開始タイミングと表示期間の情報を持つ
　前記（２）に記載の送信装置。
　（４）上記サブタイトルストリームは、ＰＥＳヘッダとＰＥＳペイロードとからなるＰＥＳパケットにより構成され、
　上記サブタイトルのテキスト情報と上記アブストラクト情報はＰＥＳペイロードに配置され、
　上記表示開始タイミングは、上記ＰＥＳヘッダに挿入されているＰＴＳからの表示オフセットで示される
　前記（３）に記載の送信装置。
　（５）上記アブストラクト情報には、サブタイトルの表示状態を制御するための表示制御情報が含まれる
　前記（１）から（４）のいずれかに記載の送信装置。
　（６）上記表示制御情報には、少なくともサブタイトルの表示位置、色域およびダイナミックレンジのうちのいずれかの情報が含まれる
　前記（５）に記載の送信装置。
　（７）上記表示制御情報には、対象ビデオの情報がさらに含まれる
　前記（６）に記載の送信装置。
　（８）上記アブストラクト情報には、上記サブタイトルのテキスト情報の要素に変化があることを通知する通知情報が含まれる
　前記（１）から（７）のいずれかに記載の送信装置。
　（９）上記サブタイトルエンコード部は、
　上記サブタイトルのテキスト情報と上記アブストラクト情報をセグメント化し、所定数のセグメントを持つ上記サブタイトルストリームを生成する
　前記（１）から（８）のいずれかに記載の送信装置。
　（１０）上記サブタイトルストリームには、
　上記アブストラクト情報のセグメントが最初に配置され、続いて上記サブタイトルのテキスト情報のセグメントが配置される
　前記（９）に記載の送信装置。
　（１１）上記サブタイトルのテキスト情報は、ＴＴＭＬ、あるいは該ＴＴＭＬの派生フォーマットである
　前記（１）から（１０）のいずれかに記載の送信装置。
　（１２）符号化ビデオデータを含むビデオストリームを生成するビデオエンコードステップと、
　表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記ビデオストリームと上記サブタイトルストリームを含むコンテナを送信する送信ステップを有する
　送信方法。
　（１３）ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記ビデオストリームは、符号化ビデオデータを含み、
　上記サブタイトルストリームは、表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含み、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコード部と、
　上記サブタイトルストリームにデコード処理を施してサブタイトルのビットマップデータを得ると共に、上記アブストラクト情報を抽出するサブタイトルデコード部と、
　上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳部と、
　上記ビデオデータに重畳されるサブタイトルのビットマップデータを、上記アブストラクト情報に基づいて制御する制御部をさらに備える
　受信装置。
　（１４）上記アブストラクト情報には、サブタイトルの表示タイミング情報が含まれており、
　上記制御部は、
　上記ビデオデータへの上記サブタイトルのビットマップデータの重畳タイミングを、上記サブタイトルの表示タイミング情報に基づいて制御する
　前記（１３）に記載の受信装置。
　（１５）上記アブストラクト情報には、サブタイトルの表示状態を制御するための表示制御情報が含まれており、
　上記制御部は、
　上記ビデオデータに重畳される上記サブタイトルのビットマップの状態を上記表示制御情報に基づいて制御する
　前記（１３）または（１４）に記載の受信装置。
　（１６）受信部により、ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
　上記ビデオストリームは、符号化ビデオデータを含み、
　上記サブタイトルストリームは、表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含み、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
　上記サブタイトルストリームにデコード処理を施してサブタイトルのビットマップデータを得ると共に、上記アブストラクト情報を抽出するサブタイトルデコードステップと、
　上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳ステップと、
　上記ビデオデータに重畳されるサブタイトルのビットマップデータを、上記アブストラクト情報に基づいて制御する制御ステップをさらに有する
　受信方法。
　（１７）符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントを生成し、該１つまたは複数のセグメントを含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　（１８）上記サブタイトルエンコード部は、
　上記サブタイトルのテキスト情報の全ての要素が配置された１つのセグメントを生成する場合、
　上記セグメントのレイヤまたは上記要素のレイヤに、上記サブタイトルのテキスト情報の伝送順および/または更新の有無に関する情報を挿入する
　前記（１７）に記載の送信装置。
　（１９）上記サブタイトルのテキスト情報は、ＴＴＭＬ、あるいは該ＴＴＭＬの派生フォーマットである
　前記（１７）または（１８）に記載の送信装置。
　（２０）符号化ビデオデータを含むビデオストリームを生成するビデオエンコードステップと、
　表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントを生成し、該１つまたは複数のセグメントを含むサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。

　本技術の主な特徴は、サブタイトルストリームにサブタイトルのテキスト情報と共に、そのテキスト情報に対応したアブストラクト情報を含めることで、受信側におけるサブタイトル表示のため処理の負荷の軽減を図るようにしたことである（図１２参照）。

　１０・・・送受信システム
　１００・・・送信装置
　１０１・・・制御部
　１０２・・・カメラ
　１０３・・・ビデオ光電変換部
　１０４・・・ＲＧＢ/ＹＣｂＣｒ変換部
　１０５・・・ビデオエンコーダ
　１０６・・・サブタイトル発生部
　１０７・・・テキストフォーマット変換部
　１０８・・・サブタイトルエンコーダ
　１０９・・・システムエンコーダ
　１１０・・・送信部
　２００・・・受信装置
　２０１・・・制御部
　２０２・・・ユーザ操作部
　２０３・・・受信部
　２０４・・・システムデコーダ
　２０５・・・ビデオデコーダ
　２０６・・・サブタイトルデコーダ
　２０７・・・色域・輝度変換部
　２０８・・・位置・サイズ変換部
　２０９・・・ビデオ重畳部
　２１０・・・ＹＣｂＣｒ/ＲＧＢ変換部
　２１１・・・電光変換部
　２１２・・・表示マッピング部
　２１３・・・ＣＥモニタ
　２２１・・・電光変換部
　２２２・・・色域変換部
　２２３・・・光電変換部
　２２４・・・ＲＧＢ/ＹＣｂＣｒ変換部
　２２５・・・輝度変換部
　２２５Ｙ・・・構成部
　２３１・・・符号化画素ビット数調整部
　２３２・・・レベル調整部
　２６１・・・コーデッドバッファ
　２６２・・・サブタイトルセグメントデコーダ
　２６３・・・フォント展開部
　２６４・・・ビットマップバッファ

Claims

　符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　上記アブストラクト情報には、サブタイトルの表示タイミング情報が含まれる
　請求項１に記載の送信装置。
　上記サブタイトルの表示タイミング情報は、表示開始タイミングと表示期間の情報を持つ
　請求項２に記載の送信装置。
　上記サブタイトルストリームは、ＰＥＳヘッダとＰＥＳペイロードとからなるＰＥＳパケットにより構成され、
　上記サブタイトルのテキスト情報と上記アブストラクト情報はＰＥＳペイロードに配置され、
　上記表示開始タイミングは、上記ＰＥＳヘッダに挿入されているＰＴＳからの表示オフセットで示される
　請求項３に記載の送信装置。
　上記アブストラクト情報には、サブタイトルの表示状態を制御するための表示制御情報が含まれる
　請求項１に記載の送信装置。
　上記表示制御情報には、少なくともサブタイトルの表示位置、色域およびダイナミックレンジのうちのいずれかの情報が含まれる
　請求項５に記載の送信装置。
　上記表示制御情報には、対象ビデオの情報がさらに含まれる
　請求項６に記載の送信装置。
　上記アブストラクト情報には、上記サブタイトルのテキスト情報の要素に変化があることを通知する通知情報が含まれる
　請求項１に記載の送信装置。
　上記サブタイトルエンコード部は、
　上記サブタイトルのテキスト情報と上記アブストラクト情報をセグメント化し、所定数のセグメントを持つ上記サブタイトルストリームを生成する
　請求項１に記載の送信装置。
　上記サブタイトルストリームには、
　上記アブストラクト情報のセグメントが最初に配置され、続いて上記サブタイトルのテキスト情報のセグメントが配置される
　請求項９に記載の送信装置。
　上記サブタイトルのテキスト情報は、ＴＴＭＬ、あるいは該ＴＴＭＬの派生フォーマットである
　請求項１に記載の送信装置。
　符号化ビデオデータを含むビデオストリームを生成するビデオエンコードステップと、
　表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含むサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。
　ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信部を備え、
　上記ビデオストリームは、符号化ビデオデータを含み、
　上記サブタイトルストリームは、表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含み、
　上記ビデオストリームをデコードしてビデオデータを得るビデオデコード処理と、上記サブタイトルストリームをデコードしてサブタイトルのビットマップデータを得ると共に、上記アブストラクト情報を抽出するサブタイトルデコード処理と、上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳処理と、上記ビデオデータに重畳されるサブタイトルのビットマップデータを上記アブストラクト情報に基づいて処理するビットマップデータ処理を制御する制御部をさらに備える
　受信装置。
　上記アブストラクト情報には、サブタイトルの表示タイミング情報が含まれており、
　上記ビットマップデータ処理では、
　上記ビデオデータへの上記サブタイトルのビットマップデータの重畳タイミングを、上記サブタイトルの表示タイミング情報に基づいて制御する
　請求項１３に記載の受信装置。
　上記アブストラクト情報には、サブタイトルの表示状態を制御するための表示制御情報が含まれており、
　上記ビットマップデータ処理では、
　上記ビデオデータに重畳される上記サブタイトルのビットマップの状態を上記表示制御情報に基づいて制御する
　請求項１３に記載の受信装置。
　受信部により、ビデオストリームとサブタイトルストリームを含む所定フォーマットのコンテナを受信する受信ステップを有し、
　上記ビデオストリームは、符号化ビデオデータを含み、
　上記サブタイトルストリームは、表示タイミング情報を持つサブタイトルのテキスト情報と、該テキスト情報で示される複数の情報のうちの一部の情報に対応した情報を持つアブストラクト情報を含み、
　上記ビデオストリームにデコード処理を施してビデオデータを得るビデオデコードステップと、
　上記サブタイトルストリームにデコード処理を施してサブタイトルのビットマップデータを得ると共に、上記アブストラクト情報を抽出するサブタイトルデコードステップと、
　上記ビデオデータに上記サブタイトルのビットマップデータを重畳して表示用ビデオデータを得るビデオ重畳ステップと、
　上記ビデオデータに重畳されるサブタイトルのビットマップデータを、上記アブストラクト情報に基づいて制御する制御ステップをさらに有する
　受信方法。
　符号化ビデオデータを含むビデオストリームを生成するビデオエンコード部と、
　表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントを生成し、該１つまたは複数のセグメントを含むサブタイトルストリームを生成するサブタイトルエンコード部と、
　上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信部を備える
　送信装置。
　上記サブタイトルエンコード部は、
　上記サブタイトルのテキスト情報の全ての要素が配置された１つのセグメントを生成する場合、
　上記セグメントのレイヤまたは上記要素のレイヤに、上記サブタイトルのテキスト情報の伝送順および/または更新の有無に関する情報を挿入する
　請求項１７に記載の送信装置。
　上記サブタイトルのテキスト情報は、ＴＴＭＬ、あるいは該ＴＴＭＬの派生フォーマットである
　請求項１７に記載の送信装置。
　符号化ビデオデータを含むビデオストリームを生成するビデオエンコードステップと、
　表示タイミング情報を持つサブタイトルのテキスト情報の要素が配置された１つまたは複数のセグメントを生成し、該１つまたは複数のセグメントを含むサブタイトルストリームを生成するサブタイトルエンコードステップと、
　送信部により、上記ビデオストリームと上記サブタイトルストリームを含む所定フォーマットのコンテナを送信する送信ステップを有する
　送信方法。