WO2013018517A1

WO2013018517A1 - ストリーミング配信装置および方法、ストリーミング受信装置および方法、ストリーミングシステム、プログラム、並びに記録媒体

Info

Publication number: WO2013018517A1
Application number: PCT/JP2012/067719
Authority: WO
Inventors: 山岸　靖明; 北里　直久; 義治出葉; 高林　和彦; 平林　光浩
Original assignee: ソニー株式会社
Priority date: 2011-07-29
Filing date: 2012-07-11
Publication date: 2013-02-07
Also published as: BR112014001577A8; CN103688532B; US20150304730A1; CN103688532A; JP6062363B2; RU2014102004A; EP2739047A1; KR20140044861A; EP2739047A4; JPWO2013018517A1; KR102023788B1; IN2014CN00513A; BR112014001577A2; US20130185760A1; US9113178B2; RU2618373C2

Abstract

本技術は、ストリーミングにおけるサブタイトルの表示に係る処理負荷を軽減させることができるようにするストリーミング配信装置および方法、ストリーミング受信装置および方法、ストリーミングシステム、プログラム、並びに記録媒体に関する。ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、コンテンツに表示されるサブタイトルに係るＴＴＭＬドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、フラグメントのヘッダ情報に、フラグメントに格納されたＴＴＭＬドキュメントインスタンスがサブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加する。

Description

ストリーミング配信装置および方法、ストリーミング受信装置および方法、ストリーミングシステム、プログラム、並びに記録媒体

　本技術は、ストリーミング配信装置および方法、ストリーミング受信装置および方法、ストリーミングシステム、プログラム、並びに記録媒体に関し、特に、ストリーミングにおけるサブタイトルの表示に係る処理負荷を軽減させることができるようにするストリーミング配信装置および方法、ストリーミング受信装置および方法、ストリーミングシステム、プログラム、並びに記録媒体に関する。

　近年、ＩＰ（Internet Protocol）を用いて動画配信を行うＩＰＴＶ等のインターネットストリーミングにおける標準化が行われている。例えば、ＨＴＴＰ（HyperText Transfer Protocol）ストリーミングによるＶｏＤ（Video On Demand）ストリーミングや、ライブストリーミングに適用される方式の標準化が行われている。このような標準化の作業において、コンテナレイヤにおいて採用するフォーマットとして、ＭＰ４ファイルフォーマットを用いることが検討されている。

　ＨＴＴＰストリーミングの構成要素として字幕（サブタイトル）がある場合、Ｗ３Ｃ（The World Wide Web Consortium）によって規定されたＴＴＭＬ（TimedText　MarkUp　Language)が多く利用されている。ＴＴＭＬは、他の標準化団体でも採用が進んでおり、有力なフォーマットとして注目されている。

　ＴＴＭＬは、ドキュメントインスタンスという区分に従って、主に２つのタイプに分類される。１つは、「Initialization　Document　instance」と称されるドキュメントインスタンスであり、例えば、サブタイトルとして表示される文字の色、フォント、表示位置などを指定する記述によって構成されるインスタンスとされる。他の１つは、「Body　Document　instance」と称されるドキュメントインスタンスであり、実際にサブタイトルとして実際に表示される文字列などの記述によって構成されるインスタンスとされる。

　ＴＴＭＬを用いれば、例えば、「Initialization　Document　instance」に記述された文字の色、フォント、表示位置などに従って、「Body　Document　instance」に記述された文字列を次々と表示させることができる。

　すなわち、ストリームを受信して表示する受信機においては、最初に「Initialization　Document　instance」を解析して、文字の色、フォント、表示位置などを特定しておき、その後、「Body　Document　instance」を解析して得られた文字列を表示させるようにすることができる。つまり、受信機において、文字の色、フォント、表示位置などの定義情報であるレンダリングコンテクストを都度、解析する必要がなくなるので、サブタイトルの表示に係る処理負荷を低減させることが可能となる。

　また、２Ｄ番組と３Ｄ番組とが混在する編成形態において、効率的な帯域運用や、受信機側での効率的なチャネル切り替え処理を実現することが可能なストリーム受信装置も提案されている（例えば、特許文献１参照）。

特開２０１１－０９７２２７号公報

　ところで、映画やドラマなどのコンテンツの場合と異なり、例えば、ニュースやスポーツ中継などのライブコンテンツの画像に挿入されるサブタイトルの場合、予めサブタイトルの文字列を確定させておくことができない。このため、放送（ストリーミング）中にサブタイトルの文字列を都度、挿入する処理が必要となる。このような場合、受信機にＴＴＭＬの「Initialization　Document　instance」を受信させてレンダリングコンテクストを解析させた後、「Body　Document　instance」を都度、受信させるようにすることが望ましい。

　また、例えば、サブタイトルとして表示する文字列の内容（強調したい文や、驚きや困惑を表す感情表現文等）に応じて、レンダリングコンテクストを変更させたい場合もある。このような場合、ＴＴＭＬの「Initialization　Document　instance」によって、複数種類のレンダリングコンテクストを予め定義しておき、その後、「Body　Document　instance」において使用するレンダリングコンテクストを指定することも可能である。

　しかしながら、ＭＰ４ファイルフォーマットでは、ＴＴＭＬインスタンスのタイプを区分して格納する方法が規定されていないため、受信機がＴＴＭＬのインスタンスのタイプを識別できない。このため、ＩＰＴＶ等のインターネットストリーミングにおいてサブタイトルを表示させる際には、レンダリングコンテクストの解析に係る処理負荷を軽減させることが期待されていた。

　本技術はこのような状況に鑑みて開示するものであり、ストリーミングにおけるサブタイトルの表示に係る処理負荷を軽減させることができるようにするものである。

　本技術の第１の側面は、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、前記サブタイトルフラグメント生成部は、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置である。

　前記サブタイトルフラグメント生成部は、前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報とともに、前記ＴＴＭＬドキュメントインスタンスが記述されたサンプルを、前記フラグメントに格納するようにすることができる。

　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備えるようにすることができる。

　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備え、前記ムービーヘッダ生成部は、フラグメント区分識別情報に、前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスを格納し、前記フラグメントのヘッダ情報に、前記インスタンス区分識別情報が付加されないようにすることができる。

　本発明の第１の側面は、コンテンツフラグメント生成部が、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、サブタイトルフラグメント生成部が、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、前記サブタイトルフラグメント生成部により、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報が付加されるストリーミング配信方法である。

　本発明の第１の側面は、コンピュータを、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、前記サブタイトルフラグメント生成部は、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置として機能させるプログラムである。

　本発明の第１の側面においては、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントが生成され、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントが生成され、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報が付加される。

　本発明の第２の側面は、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置である。

　前記ＴＴＭＬデコード部は、前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別してデコードするようにすることができる。

　前記ＴＴＭＬデコード部は、前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別し、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであると識別された場合、前記フラグメントに格納されたサンプルにおける前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報に基づいて、前記ＴＴＭＬドキュメントインスタンスをデコードするか否かを判定するデコード判定部を備えるようにすることができる。

　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬデコード部が、フラグメント区分識別情報に含まれる前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスをデコードするようにすることができる。

　本発明の第２の側面は、ムービー受信部が、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信し、ＴＴＭＬ判定部が、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定し、ＴＴＭＬデコード部が、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするストリーミング受信方法である。

　本発明の第２の側面は、コンピュータを、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置として機能させるプログラムである。

　本発明の第２の側面においては、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータが受信され、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かが判定され、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが抽出されてデコードされる。

　本発明の第３の側面は、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、前記サブタイトルフラグメント生成部は、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置と、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置とから成るストリーミングシステムである。

　本発明の第３の側面においては、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントが生成され、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントが生成され、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報が付加される。また、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータが受信され、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かが判定され、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが抽出されてデコードされる。

　本技術によれば、ストリーミングにおけるサブタイトルの表示に係る処理負荷を軽減させることができる。

ＴＴＭＬの構成を説明する図である。ＭＰ４ファイルフォーマットにおける「BOX」の構成を示す図である。「BOX」の階層構造を説明する図である。ＭＰ４ファイルフォーマットを用いたストリーミングについて説明する図である。「Movie」の構成を説明する図である。「Movie」における「BOX」構造を説明する図である。「Non-fragment Movie」の構成を説明する図である。「Fragment Movie」の構成を説明する図である。「moov」の「BOX」の構成を説明する図である。「Initialization　Document　instance」の場合の「moof」の「BOX」の構成を説明する図である。「Body　Document　instance」の場合の「moof」の「BOX」の構成を説明する図である。ＴＴＭＬのドキュメントインスタンスが格納される場合の「mdat」の「Sample」の記述形式を説明する図である。本技術の一実施の形態に係るストリーミングシステムの構成例を示すブロック図である。「Initialization　Document　instance」の記述例を示す図である。「Body　Document　instance」の記述例を示す図である。図１５の「Body　Document　instance」に基づいて表示されるサブタイトルを示す図である。「Body　Document　instance」の別の記述例を示す図である。図１７の「Body　Document　instance」に基づいて表示されるサブタイトルを示す図である。サブタイトルの表示例を説明する図である。ストリーミング配信処理の例を説明するフローチャートである。サブタイトルデータ挿入処理の例を説明するフローチャートである。コンテンツ再生処理の例を説明するフローチャートである。ＴＴデコード処理の例を説明するフローチャートである。「moov」の「BOX」の別の構成を説明する図である。図２４に対応するサブタイトルの表示例を説明する図である。パーソナルコンピュータの構成例を示すブロック図である。

　以下、図面を参照して、ここで開示する技術の実施の形態について説明する。

　最初にＴＴＭＬ（TimedText　MarkUp　Language)について説明する。ＴＴＭＬは、Ｗ３Ｃ（The World Wide Web Consortium）によって規定されたマークアップ言語であり、テキストの表示位置（レイアウト）、表示のタイミングなどを指定することができる。

　例えば、サーバからＴＴＭＬで記述された情報を伝送し、クライアントに解析させることにより、クライアントのディスプレイにおいて、指定された時刻に、指定された書体で、指定された領域に、所定の文字列を表示させることができる。このようにＴＴＭＬで記述された情報を用いれば、例えば、コンテンツの画像や音声と同期させてサブタイトルを表示させることも簡単に実現できる。

　ＴＴＭＬは、ドキュメントインスタンスと称されるテキストの集合体によって構成され、ドキュメントインスタンスは、主に２つのタイプに分類される。１つは、「Initialization　Document　instance」と称されるドキュメントインスタンスであり、例えば、サブタイトルとして表示される文字の色、フォント、表示位置などを指定する記述によって構成されるインスタンスとされる。他の１つは、「Body　Document　instance」と称されるドキュメントインスタンスであり、実際にサブタイトルとして実際に表示される文字列などの記述によって構成されるインスタンスとされる。

　図１は、ＴＴＭＬの構成を説明する図である。

　同図に示されるインスタンス２１が、「Initialization　Document　instance」とされる。このインスタンス２１には、「head」、「styling」、「layout」、・・・というタグが記述されている。「styling」、「layout」のタグによって、サブタイトルとして表示される文字の色、フォント、表示位置などのレンダリングコンテクストが指定される。

　また、この例では、「<region xml:id=”subtitleArea”style=”s1”・・・」という記述によって、「ｓ１」というレンダリングコンテクストが定義されている。例えば、１つの「Initialization　Document　instance」の中で、「ｓ１」、「ｓ２」、・・・のように複数の種類のレンダリングコンテクストを定義することも可能である。

　図１のインスタンス２２は、「Body　Document　instance」とされる。このインスタンス２２には、「body」、「div」、「p」、・・・というタグが記述されている。例えば、「<p xml:id=・・・>」という記述によって、サブタイトルの文字列、並びに、その文字列の表示開始時刻、および表示終了時刻が指定されている。

　このように、ＴＴＭＬは、インスタンス２１とインスタンス２２の組み合わせによってなる階層構造を有する記述とされる。図１のインスタンス２２の図中左側に、インスタンス２１とインスタンス２２の組み合わせによってなる階層構造が示されている。

　例えば、ストリームを受信して表示する受信機において、図１に示されるＴＴＭＬを受信させて解析させることにより、コンテンツの中の所定の時間帯に所定の文字列を表示させることが可能となる。すなわち、受信機のディスプレイにおいて、インスタンス２２の「p」というタグによって指定された文字列、表示開始時刻、および表示終了時刻に基づいて、サブタイトルの表示が適宜変更されていく。同図の例では、インスタンス２２の「p」というタグによって指定された文字列Ｆ１、文字列Ｆ２、・・・が時間の経過に伴って切り替えられて表示される。

　なお、ＴＴＭＬの詳細については、Timed Text Markup Language (TTML) 1.0などに開示されている。

　次に、ＭＰ４ファイルフォーマットについて説明する。ＭＰファイルフォーマットは、自由度が高いファイルフォーマットであり、「BOX」と称されるさまざまなサイズのデータが集まってＭＰ４ファイルを構成するように規定されている。「BOX」にはいろいろな種類があり、自由に増やすこともできる。

　ＭＰ４ファイルフォーマットにおける「BOX」の構成を図２に示す。同図において、「Box Size」、「Box Type」と表示されている領域には、当該「BOX」のサイズとタイプ（種類）が記述される。そして、「Box Data」と表示された領域には、例えば、エンコードされたビデオデータ、オーディオデータ、サブタイトルのデータなどが格納される。

　また、ＭＰ４ファイルフォーマットにおいては、上述した「BOX」が階層構造を有するように規定されている。すなわち、図３に示されるように、上位の階層の「BOX」の領域「Box Data」の中に下位の階層の「BOX」を格納できるようになされている。

　ＭＰ４ファイルフォーマットにおいては、例えば、オーディオデータのデコード単位、ビデオデータの１フレームなど、伝送されるコンテンツの単位データが「Sample（サンプル）」と称される。そして、複数の「Sample」によって「Chunk（チャンク）」が構成される。例えば、図４に示されるように、オーディオ（audio）の「Chunk」、ビデオ（video）の「Chunk」によってストリーミングが構成される。

　ＭＰ４ファイルフォーマットにおいては、例えば、一連のビデオの「Chunk」の集合体、一連のオーディオの「Chunk」の集合体などを「Track（トラック）」と称する。そして、複数のトラックを統合したデータが「Movie（ムービー）」と称される。

　図５は、「Movie」の構成を説明する図である。同図の例では、ビデオの「Track」と、オーディオの「Track」によって１つの「Movie」が構成されている。

　「Movie」は、上述したように、「BOX」構造を有する。図６は、「Movie」における「BOX」構造を説明する図である。同図の例では、「Movie」の「BOX」の中に、「Moive　Metadata　box」と「Movie　Data　box」が格納されている。

　「Moive　Metadata　box」は、「Movie　Data　box」の中に格納された各「Sample」の格納位置に係る情報（「adrs=1000」など）と、再生時刻や再生時間に係る情報（「Δt=10」など）が記述された「BOX」とされる。また、必要に応じてコーデックパラメータなども記述される。「Movie　Data　box」は、各「Sample」が格納された「BOX」とされる。なお、ＭＰ４ファイルフォーマットの規格では、「Moive　Metadata　box」は「moov」と称され、「Movie　Data　box」は「mdat」と称される。

　図６に示されるような「Movie」を受信機で受信して解析することにより、時刻ｔ０、時刻ｔ１０、時刻ｔ２０、・・・において、それぞれSample１、Sample２、Sample３、・・・が再生されるようにすることができる。

　また、「Movie」は、大別すると２種類に分類される。１つは、「Non-fragment Movie」と称され、例えば、映画やドラマなどのコンテンツの伝送に適している。他の１つは「Fragmented Movie」と称され、ニュースやスポーツ中継などのライブコンテンツの伝送に適している。

　図７は、「Non-fragment Movie」の構成を説明する図である。

　同図に示されるように、「Non-fragment Movie」の先頭には、「File Type（ftyp）」と称される「BOX」が配置される。「File Type（ftyp）」は、ファイルタイプ、互換性情報などが格納された「BOX」とされる。

　「ftyp」に続いて、上述した「moov」が配置され、また、上述した「mdat」が配置されている。上述したように、「moov」には、コーデックパラメータ、格納位置情報、再生時間情報などが記述されている。「moov」は、いわば「Movie」全体におけるヘッダ情報とされる。また、上述したように、「mdat」には、オーディオデータのデコード単位、ビデオデータの１フレームなどからなる「Sample」が格納されている。

　「Non-fragment Movie」では、「moov」によって、「Movie」全体のレンダリングコンテクストが定義されるようになされている。すなわち、映画やドラマなどのコンテンツの場合、どのタイミングで、どの画像、どの音声、どの字幕が再生されるべきかが予め分かっているので、各「Sample」を受信する前に、「Movie」全体のレンダリングコンテクストを定義することができる。

　ニュースやスポーツ中継などのライブコンテンツの場合、どのタイミングで、どの画像、どの音声、どの字幕が再生されるべきかを予め知ることができない。このため、ライブコンテンツの伝送には、「Fragmented Movie」が採用される。

　図８は、「Fragmented Movie」の構成を説明する図である。

　同図に示されるように、「Fragmented Movie」は、「Non-fragment Movie」の場合と同様に、「ftyp」と「moov」が配置されるが、その後は、「Fragment」と称される「BOX」が複数配置される。「Fragment」は、「Movie Fragment(moof)」と称される「BOX」と、「mdat」によって構成されている。

　同図に示されるように、各「Fragment」のそれぞれに「moof」が設けられており、「moof」は、いわば「Fragment」のヘッダ情報とされる。「moof」には、当該「Fragment」に格納されている「mdat」の「Sample」に関しての格納位置情報、再生時間情報などが記述されている。すなわち、「Fragmented Movie」では、「Non-fragment Movie」の場合と異なり、各「Fragment」毎に、各「Fragment」のレンダリングコンテクストが定義されるようになされている。

　なお、図８に示される「Movie Fragment RandomAccess(mfra)」は、「Fragmented Movie」の最後に挿入される「BOX」とされ、ランダムアクセス用情報などが格納される。

　なお、図７と図８に示される例は、ＭＰ４ファイルフォーマットとしての「Movie」の構成を示したものであり、例えば、インターネットストリーミングなどが行われる際には、図７と図８を参照して上述したデータが所定の伝送フォーマットで配信されることになる。この伝送フォーマットにおいては、例えば、図８に示される「moov」が、「Fragment」間に挿入されて複数回繰り返して配信されるようになされている。

　ところで、近年、ＩＰ（Internet Protocol）を用いて動画配信を行うＩＰＴＶ等のインターネットストリーミングにおける標準化が行われている。例えば、ＨＴＴＰ（HyperText Transfer Protocol）ストリーミングによるＶｏＤ（Video On Demand）ストリーミングや、ライブストリーミングに適用される方式の標準化が行われている。このような標準化の作業において、コンテナレイヤにおいて採用するフォーマットとして、ＭＰ４ファイルフォーマットを用いることが検討されている。

　また、ストリーミングの構成要素として字幕（サブタイトル）がある場合、ＴＴＭＬが多く利用されており、ストリーミングの標準化においても注目されている。

　例えば、ニュースやスポーツ中継などのライブコンテンツの画像にサブタイトルを挿入する場合、予めサブタイトルの文字列を確定させておくことができない。このため、放送（ストリーミング）中にサブタイトルの文字列を都度、挿入する処理が必要となる。このような場合、例えば、受信機にＴＴＭＬの「Initialization　Document　instance」を受信させてレンダリングコンテクストを解析させた後、「Body　Document　instance」を都度、受信させるようにすることが望ましい。

　また、例えば、同一のコンテンツの中でも、サブタイトルとして表示する文字列の内容（強調したい文や、驚きや困惑を表す感情表現文等）に応じて、レンダリングコンテクストを変更させたい場合もある。このような場合、ＴＴＭＬの「Initialization　Document　instance」によって、複数種類のレンダリングコンテクストを予め定義しておき、その後、「Body　Document　instance」において使用するレンダリングコンテクストを指定することも可能である。

　しかしながら、ＭＰ４ファイルフォーマットでは、ＴＴＭＬインスタンスのタイプを区分して格納する方法が規定されていないため、受信機がＴＴＭＬのインスタンスのタイプを識別できない。このため、従来、ＭＰ４ファイルフォーマットで送信されるＩＰＴＶ等のインターネットストリーミングにおいては、例えば、サブタイトルとして表示させる文字列とともに、レンダリングコンテクストを都度解析させるようにせざるを得なかった。このような状況の中で、ＩＰＴＶ等のインターネットストリーミングにおいてサブタイトルを表示させる際には、レンダリングコンテクストの解析に係る処理負荷を軽減させることが期待されていた。

　そこで、本技術では、次のようにして、ＭＰ４ファイルフォーマットを用いて、ＴＴＭＬインスタンスのタイプを区分して格納できるようにする。

　本技術では、「Fragmented Movie」として伝送されるコンテンツにおいて、サブタイトルを挿入する場合に適用されることを前提とする。そして、「Fragment」の中の「mdat」の「Sample」としてＴＴＭＬのドキュメントインスタンスが格納されて伝送されるようにする。すなわち、ストリーミングされるコンテンツに挿入されるサブタイトルを表示させるために、「Fragment」の中の「mdat」の「Sample」として、図１のインスタンス２１、または、インスタンス２２などが適宜格納されることになる。

　まず、本技術では、「moov」の「BOX」に記述された情報に基づいて、ＴＴＭＬで記述された情報が含まれるインターネットストリーミングであることを識別できるようにする。具体的には、「moov.trak.mdia.minf.stbl.stsd」にＴＴＭＬで記述された情報が含まれることを記述できるようにする。

　図９は、「moov」の「BOX」の構成を説明する図である。上述したように、「BOX」では階層構造が採用されており、「moov」の「BOX」の下位の階層の「BOX」として「stsd」と称される「BOX」が設けられている（「moov.trak.mdia.minf.stbl.stsd」のように記述する）。「stsd」は、トラックデータ再生のためのヘッダ情報を格納するための「BOX」とされている。

　本技術では、ＴＴＭＬで記述された情報が含まれる場合、「stsd」の「sampleEntry」には、４ＣＣ(four_character_code)の「ttml」が記述されるようにする。なお、従来の標準では、オーディオデータであることを表す４ＣＣの「MP4A」、ビデオデータであることを表す４ＣＣの「MP4V」などが「stsd」に格納されることが規定されている。

　また、ＴＴＭＬで記述された情報が含まれる場合、「moov.trak.mdia.hdlr」の「HandlerType」には、「text」と記述されるようにする。

　さらに、本技術では、「moof」の「BOX」に記述された情報に基づいて、当該「Fragment」の中の「mdat」の「Sample」として格納されているＴＴＭＬのドキュメントインスタンスが、「Initialization　Document　instance」であるのか、「Body　Document　instance」であるのかを識別できるようにする。

　具体的には、「moof」の「BOX」の「traf」と称される「BOX」の下位の階層の「BOX」として、「ttsd」と称される「BOX」を新たに設けることとする。そして、「ttsd」の「initFlag」が「true」と記述されている場合、当該「Fragment」に格納されているＴＴＭＬドキュメントインスタンスが、「Initialization　Document　instance」であることを表すこととする。また、「ttsd」の「initFlag」が「false」と記述されている場合、当該「Fragment」に格納されているＴＴＭＬドキュメントインスタンスが、「Body　Document　instance」であることを表すこととする。

　図１０は、当該「Fragment」に格納されているＴＴＭＬのドキュメントインスタンスが、「Initialization　Document　instance」である場合の「moof」の「BOX」の構成を示す図である。同図に示されるように、「moof」の下位の階層に「traf」が存在し、さらのその下位の階層の「BOX」として「ttsd」が設けられている。そして、「ttsd」に格納される情報として「initFlag：“true”」と記述されている。

　図１１は、当該「Fragment」に格納されているＴＴＭＬドキュメントインスタンスが、「Body　Document　instance」である場合の「moof」の「BOX」の構成を示す図である。同図に示されるように、「moof」の下位の階層に「traf」が存在し、さらのその下位の階層の「BOX」として「ttsd」が設けられている。そして、「ttsd」に格納される情報として「initFlag：“false”」と記述されている。

　さらに、本技術では、送信されてきたＴＴＭＬのドキュメントインスタンスの記述内容に変更（更新）があったか否かを、受信機が判定できるようにする。具体的には、ＴＴＭＬのドキュメントインスタンスが格納される場合の「mdat」の「Sample」の記述形式を、例えば、図１２に示されるように規定する。

　本技術では、図１２に示される「unsined　id（16）document-id；」のフィールドを新たに設けることとする。「unsined　id（16）document-id；」のフィールドに、当該「Sample」に記述されているＴＴＭＬのドキュメントインスタンスを識別するための識別子が記述される。この識別子は、例えば、個々のドキュメントインスタンスに付与されたＩＤやバージョンなどとされる。当然、ドキュメントインスタンスに変更があった場合、上記の識別子も変更されるので、例えば、受信機がドキュメントインスタンスに変更があったか否かを判定することが可能となる。

　また、同図に示される「unsined　int（16）text-length；」のフィールドには、「unsined　int（8）text［text-length］；」のフィールドに格納されるテキストのテキスト長が格納される。同図に示される「unsined　int（8）text［text-length］；」のフィールドに、ＴＴＭＬのドキュメントインスタンスが格納されるようにする。

　例えば、複数のチャンネルでコンテンツをストリーミング放送する場合、視聴者はいつどのチャンネルを選局するか分からないので、定期的にレンダリングコンテクストの定義情報（すなわち、「Initialization　Document　instance」）を送信する必要がある。この場合、受信した「Initialization　Document　instance」を都度構文解析させると、受信機の処理負荷が増大することになるので、一度構文解析した「Initialization　Document　instance」に基づいて、その後のレンダリングコンテクストが定義されるようにすることが望ましい。

　しかしながら、「Initialization　Document　instance」の内容が更新された場合、レンダリングコンテクストが変更されることになるので、受信機では、新たに構文解析を行う必要がある。このため、上述したように、本技術では、送信されてきたＴＴＭＬドキュメントインスタンスの記述内容に変更（更新）があったか否かを、受信機が判定できるようになされている。

　まとめると、本技術では、「moov」の「stsd」の「sampleEntry」に記述される新たな４ＣＣ(four_character_code)として、「ttml」を設けることとする。そして、「moov」の「stsd」の記述を参照することにより、「Fragment」にＴＴＭＬのドキュメントインスタンスが格納されていることを識別できるようにする。

　また、本技術では、各「Fragment」の「moof」の下位の階層の「BOX」として「ttsd」を設ける。そして、「ttsd」に格納される情報として「initFlag：“true”」または「initFlag：“false”」が記述されることとし、当該「Fragment」に格納されているＴＴＭＬが、「Initialization　Document　instance」であるか、または、「Body　Document　instance」であるかを識別できるようにする。

　さらに、本技術では、「mdat」の「Sample」において、「unsined　id（16）document-id；」のフィールドを設ける。そして、このフィールドに格納された識別子に基づいて、ＴＴＭＬドキュメントインスタンスの記述内容に変更（更新）があったか否かを識別できるようにする。

　このようにすることで、ＭＰ４ファイルフォーマットを用いて、ＴＴＭＬドキュメントインスタンスを伝送する際に、ＴＴＭＬインスタンスのタイプを区分して格納でき、また、記述内容の更新を簡単に識別することができる。従って、本技術によれば、例えば、ＩＰＴＶ等のストリーミングにおけるサブタイトルの表示に係る処理負荷を軽減させることができる。

　図１３は、本技術の一実施の形態に係るストリーミングシステムの構成例を示すブロック図である。同図に示されるストリーミングシステム１００は、ＴＴ（TimedText）サーバ１２１、ＩＰＴＶサーバ１２２、およびＩＰＴＶクライアント１２３により構成されている。

　同図のＩＰＴＶサーバ１２２は、例えば、コンテンツをストリーミング放送する送信機として構成され、ＩＰＴＶクライアント１２３は、ストリーミング放送を受信する受信機として構成される。そして、ＴＴサーバ１２１は、例えば、ストリーミング放送されるコンテンツに挿入されるサブタイトルに係るデータを生成する装置とされる。

　ＴＴサーバ１２１は、ＴＴ（TimedText）フラグメント生成部１４１、および、サンプル挿入部１４２を有する構成とされている。

　ＴＴフラグメント生成部１４１は、「moov」の「stsd」の「sampleEntry」に、４ＣＣの「ttml」を記述し、「moov.trak.mdia.hdlr」の「HandlerType」には、「text」と記述する。（この処理は、後述の「Fragment」の生成よりは頻度が低い。）また、ＴＴフラグメント生成部１４１は、図８を参照して上述したようなＴＴＭＬのドキュメントインスタンスが格納される「Fragment」のデータを生成する。この際、ＴＴフラグメント生成部１４１は、「moof」の下位の階層の「BOX」として「ttsd」を設ける。そして、ＴＴフラグメント生成部１４１は、生成されるドキュメントインスタンスのタイプに応じて「ttsd」に格納される情報として「initFlag：“true”」または「initFlag：“false”」を記述する。

　例えば、当該「Fragment」に格納されているＴＴＭＬのドキュメントインスタンスが、「Initialization　Document　instance」である場合、「ttsd」に格納される情報として「initFlag：“true”」が記述される。また、例えば、当該「Fragment」に格納されているＴＴＭＬドキュメントインスタンスが、「Body　Document　instance」である場合、「ttsd」に格納される情報として「initFlag：“false”」が記述される。

　サンプル挿入部１４２は、ＴＴＭＬのドキュメントインスタンスを生成するとともに、ＴＴフラグメント生成部１４１によって生成された「Fragment」の中の「mdat」の「Sample」としてＴＴＭＬのドキュメントインスタンスを挿入する。

　この際、サンプル挿入部１４２は、図１２を参照して上述したように、「unsined　id（16）document-id；」のフィールドを設ける。そして、サンプル挿入部１４２は、「unsined　id（16）document-id；」のフィールドに、当該「Sample」に記述されているＴＴＭＬのドキュメントインスタンスを識別するための識別子を記述する。なお、ドキュメントインスタンスに変更があった場合、上記の識別子も変更される。

　また、ＮＴＰ同期されたタイムスタンプ生成部１５１により生成されたタイムスタンプが、ＴＴフラグメント生成部１４１、および、サンプル挿入部１４２に適宜供給されるようになされている。

　ＩＰＴＶサーバ１２２は、コンテンツサンプル生成部１６１、フラグメントマルチプレクサ１６２、およびフラグメント配信部１６３を有する構成とされている。

　コンテンツサンプル生成部１６１は、例えば、コンテンツを構成する音声のデータ、画像のデータなどをエンコードして、オーディオデータ、ビデオデータなどを生成する。そして、コンテンツサンプル生成部１６１は、それらのオーディオデータ、ビデオデータなどに基づいて、「Sample」のデータを生成する。

　フラグメントマルチプレクサ１６２は、コンテンツサンプル生成部１６１が生成した「Sample」のデータを、「mdat」の中に格納した「Fragment」を生成する。そして、フラグメントマルチプレクサ１６２は、ＴＴサーバ１２１によって生成された「Fragment」と、自分が生成した「Fragment」を多重化する。すなわち、オーディオデータ、ビデオデータなどが格納された「Fragment」とＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が多重化される。

　フラグメント配信部１６３は、フラグメントマルチプレクサ１６２によって多重化された「Fragment」によって構成される「Fragmented Movie」を、ネットワークなどを介して配信する。これにより、コンテンツがストリーミング配信されることになる。

　なお、ＮＴＰ同期されたタイムスタンプ生成部１５１により生成されたタイムスタンプが、コンテンツサンプル生成部１６１、および、フラグメントマルチプレクサ１６２に適宜供給されるようになされている。

　ＩＰＴＶクライアント１２３は、計時部１８１、フラグメントデマルチプレクサ１８２、ＴＴ（TimedText）デコーダ１８３、コンテンツデコーダ１８４、および表示制御部１８５を有する構成とされている。

　計時部１８１は、各部にＮＴＰ同期された時刻情報を供給する。

　フラグメントデマルチプレクサ１８２は、ＩＰＴＶサーバ１２２から送信された「Fragmented Movie」を、ネットワークなどを介して受信し、「Fragmented Movie」を構成する各「Fragment」を抽出する。そして、フラグメントデマルチプレクサ１８２は、「moov」の「stsd」の「sampleEntry」の記述を解析し、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在しているか否かを判定する。すなわち、「moov」の「stsd」の「sampleEntry」の記述が「ttml」であった場合、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在すると判定される。

　ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在すると判定された場合、フラグメントデマルチプレクサ１８２は、各「Fragment」の「moof」の「ttsd」をチェックして、当該「Fragment」にＴＴＭＬのドキュメントインスタンスが格納されているか否かを判定する。すなわち、「moof」の下位に「ttsd」が設けられている「Fragment」は、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」と判定され、ＴＴデコーダ１８３に供給される。一方、「moof」に「ttsd」が設けられていない「Fragment」は、ＴＴＭＬのドキュメントインスタンスが格納されていない「Fragment」（オーディオデータ、ビデオデータなどの「Fragment」）と判定され、コンテンツデコーダ１８４に供給される。

　ＴＴデコーダ１８３は、ＴＴＭＬのドキュメントインスタンスが格納された「Sample」のデータのデコードを行う機能ブロックとされる。なお、ＴＴデコーダ１８３におけるデコードは、主に、ＴＴＭＬドキュメントインスタンスの構文解析を意味するものである。

　ＴＴデコーダ１８３は、各「Fragment」の「moof」の「ttsd」の記述に基づいて、当該「Fragment」に格納されているＴＴＭＬのドキュメントインスタンスのタイプを判定する。すなわち、「ttsd」の記述が「initFlag：“true”」であった場合、当該「Fragment」には、「Initialization　Document　instance」が格納されていると判定される。一方、「ttsd」の記述が「initFlag：“false”」であった場合、当該「Fragment」には、「Body　Document　instance」が格納されていると判定される。

　「Initialization　Document　instance」が格納されていると判定された場合、ＴＴデコーダ１８３は、「Fragment」の中の「mdat」の「Sample」の「unsined　id（16）document-id；」のフィールドに記述された識別子を記憶する。そして、ＴＴデコーダ１８３は、「mdat」の「Sample」の中に格納された「Initialization　Document　instance」の記述を解析し、レンダリングコンテクストを設定する。

　これ以降、ＴＴデコーダ１８３は、「unsined　id（16）document-id；」のフィールドに記述された識別子を、予め記憶している識別子と比較して、「Initialization　Document　instance」に変更があったか否かを判定する。そして、ＴＴデコーダ１８３は、「Initialization　Document　instance」に変更があったと判定された場合にのみ、「mdat」の「Sample」の中に格納された「Initialization　Document　instance」の記述を解析し、レンダリングコンテクストを再度設定するようになされている。

　また、「Body　Document　instance」が格納されていると判定された場合、ＴＴデコーダ１８３は、「mdat」の「Sample」の中に格納された「Body　Document　instance」を解析し、サブタイトルの表示データを生成する。ここで生成されたサブタイトルの表示データは、表示時刻に係る情報とともに、表示制御部１８５に供給される。

　コンテンツデコーダ１８４は、「mdat」の「Sample」の中に格納されたオーディオデータ、ビデオデータなどをデコードし、画像の表示データ、音声の出力データなどを生成する。ここで生成された画像の表示データ、音声の出力データなどは、表示時刻、出力時刻などに係る情報とともに表示制御部１８５に供給される。

　表示制御部１８５は、表示時刻に係る情報などに基づいて、コンテンツの画像にサブタイトルを重畳して表示させるための画像信号を生成して、図示せぬディスプレイなどに供給する。また、表示制御部１８５は、出力時刻に係る情報などに基づいて、コンテンツの音声を出力させるための音声信号を生成し、図示せぬスピーカなどに供給する。

　このようなストリーミングシステム１００によって、例えば、次のようなサブタイトルの表示を制御することが可能となる。

　例えば、ＴＴサーバ１２１により、図１４に示されるようなＴＴＭＬのドキュメントインスタンスを「Fragment」に格納し、ＩＰＴＶサーバ１２２から配信する。図１４は、「Initialization　Document　instance」の記述の一例とされる。

　そして、ＴＴサーバ１２１により、図１５に示されるようなＴＴＭＬのドキュメントインスタンスを「Fragment」に格納し、ＩＰＴＶサーバ１２２から配信する。図１５は、「Body　Document　instance」の記述の一例とされる。

　図１４の記述に従って設定されたレンダリングコンテクストにおいて、図１５の記述によって指定された文字列を表示させると、例えば、図１６に示されるようなサブタイトルを表示させることができる。

　その後、ＴＴサーバ１２１により、図１７に示されるようなＴＴＭＬのドキュメントインスタンスを「Fragment」に格納し、ＩＰＴＶサーバ１２２から配信する。図１７は、「Body　Document　instance」の記述の別の例とされる。

　図１４の記述に従って設定されたレンダリングコンテクストにおいて、図１７の記述によって指定された文字列を表示させると、例えば、図１８に示されるようなサブタイトルを表示させることができる。

　なお、「Body　Document　instance」の「<p>」というタグにより指定された文字列が、サブタイトルの文字列とされる。「<p>」のタグ内に時間が指定されている場合にはその時間指定に合わせて文字列が表示され、時間指定がない場合、または、表示期間（duration）のみ指定されている場合には、当該「Sample」の「decodingTime」として特定される再生時刻に表示が開始されるように制御される。

　すなわち、図１９に示されるように、Fragment０、Fragment１、Fragment２の各「Fragment」の「mdat」の「Sample」として格納されたＴＴＭＬのドキュメントインスタンスが解析されてサブタイトルが表示される。

　この例では、Fragment０のmdat０に図１４に示される「Initialization　Document　instance」（Init instance）が格納されていたものとする。また、Fragment１のmdat１に図１５に示される「Body　Document　instance」（Body instance１）が格納されていたものとする。さらに、Fragment２のmdat２に図１７に示される「Body　Document　instance」（Body instance２）が格納されていたものとする。

　図１９の例では、Fragment０のmdat０のSample０に格納されたInit instanceに基づいてレンダリングコンテクストが設定されている。その後、時刻ｔ１において、Fragment１のmdat１のSample１に格納されたBody instance１に基づいて、図１６に示されるようなサブタイトルが表示されている。さらに、その後、時刻ｔ２において、Fragment２のmdat２のSample２に格納されたBody instance２に基づいて、図１８に示されるようなサブタイトルが表示されている。

　なお、上述した時刻ｔ１および時刻ｔ２は、moov.trak.mdia.minf.stbl.stts、または、moof.traf.tfdtに記述されるそのmoofに対応する最初のmdatに格納される最初の「Sample」の「decoding time」に基づいて算出される。

　すなわち、ＴＴＭＬのドキュメントインスタンスの中に記述される文字列の表示時間を特定するために、そのドキュメントインスタンスが格納されるＭＰ４ファイルの「Sample」の提示時刻が利用される。

　次に、図２０のフローチャートを参照して、図１３のＩＰＴＶサーバ１２２によるストリーミング配信処理の例について説明する。この処理は、例えば、ライブコンテンツにサブタイトルを挿入して、「Fragmented Movie」としてネットワークなどを介して配信する場合に実行される。

　ステップＳ２１において、ＩＰＴＶサーバ１２２は、コンテンツのデータを取得する。このとき、例えば、コンテンツを構成する音声のデータ、画像のデータなどが取得される。

　ステップＳ２２において、コンテンツサンプル生成部１６１は、例えば、コンテンツを構成する音声のデータ、画像のデータなどをエンコードして、オーディオデータ、ビデオデータなどを生成する。そして、コンテンツサンプル生成部１６１は、それらのオーディオデータ、ビデオデータなどに基づいて、「Sample」のデータを生成する。

　ステップＳ２３において、フラグメントマルチプレクサ１６２は、ステップＳ２２で生成された「Sample」のデータを、「mdat」の中に格納した「Fragment」を生成する。

　ステップＳ２４において、ＴＴサーバ１２１は、図２１を参照して後述するサブタイトルデータ挿入処理を実行する。これにより、ストリーミング配信されるコンテンツのデータに、サブタイトルに関するデータが挿入される。

　ここで、図２１のフローチャートを参照して、図２０のステップＳ２４のサブタイトルデータ挿入処理の詳細な例について説明する。

　ステップＳ４１において、ＴＴＭＬ文が生成される。

　ステップＳ４２において、ＴＴフラグメント生成部１４１は、「moov」の「stsd」の「sampleEntry」に、４ＣＣの「ttml」を記述し、「moov.trak.mdia.hdlr」の「HandlerType」には、「text」と記述する。（この処理は、後述の「Fragment」の生成よりは頻度が低い。）また、ＴＴフラグメント生成部１４１は、ＴＴＭＬのドキュメントインスタンスが格納される「Fragment」のデータを生成する。この際、ＴＴフラグメント生成部１４１は、「moof」の下位の階層の「BOX」として「ttsd」を設ける。そして、ＴＴフラグメント生成部１４１は、生成されるドキュメントインスタンスのタイプに応じて「ttsd」に格納される情報として「initFlag：“true”」または「initFlag：“false”」を記述する。

　ステップＳ４３において、サンプル挿入部１４２は、ステップＳ４１で生成されたＴＴＭＬ文に基づいて、ＴＴＭＬのドキュメントインスタンスを生成するとともに、ステップＳ４２で生成された「Fragment」の中の「mdat」の「Sample」としてＴＴＭＬのドキュメントインスタンスを挿入する。

　この際、サンプル挿入部１４２は、図１２を参照して上述したように、「unsined　id（16）document-id；」のフィールドを設ける。そして、サンプル挿入部１４２は、「unsined　id（16）document-id；」のフィールドに、当該「Sample」に記述されているＴＴＭＬのドキュメントインスタンスのタイプを識別するための識別子を記述する。なお、ドキュメントインスタンスに変更があった場合、上記の識別子も変更される。

　ステップＳ４４において、サンプル挿入部１４２は、ステップＳ４３の処理によりＴＴＭＬのドキュメントインスタンスが挿入された「Fragment」を出力する。これにより、ＩＰＴＶサーバ１２２のフラグメントマルチプレクサ１６２に、当該「Fragment」が供給される。

　なお、ＮＴＰ同期されたタイムスタンプ生成部１５１により生成されたタイムスタンプが、ＴＴフラグメント生成部１４１、および、サンプル挿入部１４２に適宜供給されるようになされている。

　図２０に戻って、ステップＳ２４の処理の後、ステップＳ２５において、フラグメントマルチプレクサ１６２は、図２１のステップＳ４１の処理で生成された「Fragment」と、ステップＳ２３の処理で生成された「Fragment」を多重化する。すなわち、オーディオデータ、ビデオデータなどが格納された「Fragment」とＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が多重化される。

　ステップＳ２６において、フラグメントマルチプレクサ１６２は、「Fragmented Movie」のデータを生成する。

　ステップＳ２７において、フラグメント配信部１６３は、ステップＳ２６の処理で生成された「Fragmented Movie」を、ネットワークなどを介して配信する。

　このようにして、ストリーミング配信処理が実行される。

　次に、図２２のフローチャートを参照して、図１３のＩＰＴＶクライアント１２３によるコンテンツ再生処理の例について説明する。

　ステップＳ６１において、ＩＰＴＶクライアント１２３のフラグメントデマルチプレクサ１８２は、図２０のステップＳ２７の処理で配信された「Fragmented Movie」を受信する。

　ステップＳ６２において、フラグメントデマルチプレクサ１８２は、ステップＳ６１で受信した「Fragmented Movie」の「moov」の「stsd」の「sampleEntry」の記述を解析する。

　ステップＳ６３において、フラグメントデマルチプレクサ１８２は、ステップＳ６１で受信した「Fragmented Movie」を構成する各「Fragment」を抽出する。

　ステップＳ６４において、フラグメントデマルチプレクサ１８２は、ステップＳ６２の処理での解析結果に基づいて、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在しているか否かを判定する。このとき、「moov」の「stsd」の「sampleEntry」の記述が「ttml」であった場合、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在すると判定される。

　ステップＳ６４において、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在すると判定された場合、処理は、ステップＳ６５に進む。

　ステップＳ６５において、フラグメントデマルチプレクサ１８２、およびＴＴデコーダ１８３は、図２３のフローチャートを参照して後述するＴＴデコード処理を実行する。

　ここで、図２３のフローチャートを参照して図２２のステップＳ６５のＴＴデコード処理の詳細な例について説明する。

　ステップＳ８１において、フラグメントデマルチプレクサ１８２は、各「Fragment」の「moof」の「ttsd」をチェックする。

　ステップＳ８２において、フラグメントデマルチプレクサ１８２は、当該「Fragment」にＴＴＭＬのドキュメントインスタンスが格納されているか否かを判定する。このとき、「moof」の下位に「ttsd」が設けられている「Fragment」は、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」と判定される。一方、「moof」に「ttsd」が設けられていない「Fragment」は、ＴＴＭＬのドキュメントインスタンスが格納されていない「Fragment」（オーディオデータ、ビデオデータなどの「Fragment」）と判定される。

　ステップＳ８２において、当該「Fragment」にＴＴＭＬのドキュメントインスタンスが格納されていると判定された場合、処理は、ステップＳ８３に進む。

　ステップＳ８３において、ＴＴデコーダ１８３は、「Fragment」の「moof」の「ttsd」の記述に基づいて、当該「Fragment」に格納されているＴＴＭＬのドキュメントインスタンスのタイプを判定する。このとき、「ttsd」の記述が「initFlag：“true”」であった場合、当該「Fragment」には、「Initialization　Document　instance」が格納されていると判定される。一方、「ttsd」の記述が「initFlag：“false”」であった場合、当該「Fragment」には、「Body　Document　instance」が格納されていると判定される。

　ステップＳ８３の処理で「Initialization　Document　instance」が格納されていると判定された場合、処理は、ステップＳ８４に進む。

　ステップＳ８４において、ＴＴデコーダ１８３は、ＴＴデコーダ１８３は、「unsined　id（16）document-id；」のフィールドに記述された識別子を取得する。

　ステップＳ８５において、ＴＴデコーダ１８３は、ステップＳ８４で取得した識別子を予め記憶している識別子と比較して、「Initialization　Document　instance」に変更があったか否かを判定する。なお、「Initialization　Document　instance」が最初に受信されたときは、「Initialization　Document　instance」に変更があったと判定されることになる。

　ステップＳ８５において、「Initialization　Document　instance」に変更があったと判定された場合、処理は、ステップＳ８６に進む。

　ステップＳ８６において、ＴＴデコーダ１８３は、「Fragment」の中の「mdat」の「Sample」の「unsined　id（16）document-id；」のフィールドに記述された識別子を記憶する。なお、例えば、複数のチャンネルでコンテンツがストリーミング放送されている場合、当該識別子は、チャンネルに対応付けられて記憶される。

　ステップＳ８７において、ＴＴデコーダ１８３は、「mdat」の「Sample」の中に格納された「Initialization　Document　instance」の記述を解析（デコード）する。

　ステップＳ８８において、ＴＴデコーダ１８３は、ステップＳ８７での解析結果に基づいて、レンダリングコンテクストを設定する。

　なお、ステップＳ８５において、「Initialization　Document　instance」に変更がなかったと判定された場合、ステップＳ８６乃至ステップＳ８８の処理はスキップされる。

　一方、ステップＳ８３の処理で、「Body　Document　instance」が格納されていると判定された場合、処理は、ステップＳ８９に進む。

　ステップＳ８９において、ＴＴデコーダ１８３は、「mdat」の「Sample」の中に格納された「Body　Document　instance」を解析（デコード）する。

　ステップＳ９０において、ＴＴデコーダ１８３は、ステップＳ８９での解析結果に基づいて、サブタイトルの表示データを生成する。ここで生成されたサブタイトルの表示データは、表示時刻に係る情報とともに、表示制御部１８５に供給される。

　また、ステップＳ８２において、当該「Fragment」にＴＴＭＬのドキュメントインスタンスが格納されていないと判定された場合、処理は、図２２のステップＳ６６に進む。

　このようにして、ＴＴデコード処理が実行される。

　図２２の説明に戻る。ステップＳ６４において、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在しないと判定された場合、処理は、ステップＳ６６に進む。

　ステップＳ６６において、コンテンツデコーダ１８４は、「mdat」の「Sample」の中に格納されたオーディオデータ、ビデオデータなどをデコードする。

　ステップＳ６７において、コンテンツデコーダ１８４は、ステップＳ６６の処理の結果得られた画像の表示データ、音声の出力データなどを出力する。ここで生成された画像の表示データ、音声の出力データなどは、表示時刻、出力時刻などに係る情報とともに表示制御部１８５に供給される。

　ステップＳ６８において、表示制御部１８５は、表示時刻に係る情報などに基づいて、コンテンツの画像にサブタイトルを重畳して表示させるための画像信号を生成して、図示せぬディスプレイなどに供給する。また、表示制御部１８５は、出力時刻に係る情報などに基づいて、コンテンツの音声を出力させるための音声信号を生成し、図示せぬスピーカなどに供給する。

　すなわち、図２２のステップＳ６７の処理で生成された画像の表示データ、音声の出力データと、図２３のステップＳ９０の処理で生成されたサブタイトルの表示データが同期して表示または出力される。

　ステップＳ６９において、「Fragmented Movie」が終了したか否かが判定される。例えば、図８に示される「Movie Fragment RandomAccess(mfra)」が受信された場合、「Fragmented Movie」が終了したと判定される。また、例えば、ユーザが受信を停止するように指令した場合、「Fragmented Movie」が終了したと判定される。

　ステップＳ６９において、まだ、「Fragmented Movie」が終了していないと判定された場合、処理は、ステップＳ６３に戻る。一方、ステップＳ６９において、「Fragmented Movie」が終了したと判定された場合、処理は、終了する。

　このようにして、コンテンツ再生処理が実行される。

　ところで、以上においては、図９を参照して上述したように、ＴＴＭＬで記述された情報が含まれる場合、「moov.trak.mdia.minf.stbl.stsd」の「sampleEntry」には、４ＣＣの「ttml」が記述されるようにすると説明した。しかし、「moov.trak.mdia.minf.stbl.stsd」に、さらに「Initialization　Document　instance」が格納されるようにすることも可能である。

　図２４は、「Initialization　Document　instance」が格納されるようにした場合の「moov」の「BOX」の構成を説明する図である。同図に示されるように、「moov.trak.mdia.minf.stbl.stsd」の「sampleEntry」には、図９の場合と同様に、４ＣＣの「ttml」が記述されているが、これに続いて「TTconfig｛・・・」という記述がなされている。

　そして、図２４の「TTconfig｛・・・」という記述において、「unsined　id（16）document-id；」のフィールドが設けられている。これは、図１２を参照して上述した場合と同様に、ＴＴＭＬのドキュメントインスタンスを識別するための識別子が記述されるフィールドとされる。この識別子は、例えば、個々のドキュメントインスタンスに付与されたＩＤやバージョンなどとされる。当然、ドキュメントインスタンスに変更があった場合、上記の識別子も変更されるので、例えば、受信機がドキュメントインスタンスに変更があったか否かを判定することが可能となる。

　また、図２４に示される「unsined　int（16）text-length；」のフィールドには、「unsined　int（8）text［text-length］；」のフィールドに格納されるテキストのテキスト長が格納される。図２４に示される「unsined　int（8）text［text-length］；」のフィールドに、ＴＴＭＬドキュメントインスタンスが格納されるようにする。図２４の例の場合、「unsined　int（8）text［text-length］；」のフィールドには、「Initialization　Document　instance」のみが格納され、「Body　Document　instance」は格納されない。

　さらに、図２４に示されるように「moov」を構成する場合、「moof」の「traf」の下位の階層の「BOX」である「ttsd」に、「initFlag：“true”」または「initFlag：“false”」を記述する必要はない（記述してもよいが、無意味な情報となる）。すなわち、いまの場合、各「Fragment」の中の「mdat」の「Sample」として格納されるＴＴＭＬのドキュメントインスタンスは、「Body　Document　instance」のみとなる。従って、当該「Fragment」に格納されているＴＴＭＬドキュメントインスタンスが、「Initialization　Document　instance」であるか、「Body　Document　instance」を表す必要はない。

　さらに、図２４に示されるように「moov」を構成する場合、例えば、ＩＰＴＶサーバ１２２のＴＴフラグメント生成部１４１が、「Fragmented Movie」のデータを生成する際に、「moov」の「stsd」の「sampleEntry」に、４ＣＣの「ttml」を記述し、「moov.trak.mdia.hdlr」の「HandlerType」には、「text」と記述する。また、ＴＴフラグメント生成部１４１は、「moov」の「stsd」に図２４の「TTconfig｛・・・」という記述を追加する。なお、このとき、「unsined　int（8）text［text-length］；」のフィールドには、「Initialization　Document　instance」が格納されることになる。

　図２４に示されるように「moov」を構成する場合、例えば、ＩＰＴＶクライアント１２３のフラグメントデマルチプレクサ１８２が、「Fragmented Movie」の「moov」の「stsd」の「sampleEntry」の記述を解析し、当該「Fragmented Movie」には、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在しているか否かを判定する。ここで、ＴＴＭＬのドキュメントインスタンスが格納された「Fragment」が存在していると判定された場合（すなわち、「stsd」の「sampleEntry」に、４ＣＣの「ttml」が記述されていた場合）、「TTconfig｛・・・」という記述がＴＴデコーダ１８３に供給される。

　そして、ＴＴデコーダ１８３は、「unsined　id（16）document-id；」のフィールドに記述された識別子を取得し、予め記憶している識別子と比較して、「Initialization　Document　instance」に変更があったか否かを判定する。「Initialization　Document　instance」に変更があったと判定された場合、ＴＴデコーダ１８３は、「unsined　id（16）document-id；」のフィールドに記述された識別子を記憶する。なお、例えば、複数のチャンネルでコンテンツがストリーミング放送されている場合、当該識別子は、チャンネルに対応付けられて記憶される。

　さらに、ＴＴデコーダ１８３は、「unsined　int（8）text［text-length］；」のフィールドに格納されている「Initialization　Document　instance」の記述を解析（デコード）する。そして、解析結果に基づいて、レンダリングコンテクストが設定される。

　図２４に示されるように「moov」を構成する場合、図２５に示されるように、Fragment１、Fragment２の各「Fragment」の「mdat」の「Sample」として格納されたＴＴＭＬのドキュメントインスタンスが解析されてサブタイトルが表示される。

　この例では、Fragment１のmdat１に図１５に示される「Body　Document　instance」（Body instance１）が格納されていたものとする。さらに、Fragment２のmdat２に図１７に示される「Body　Document　instance」（Body instance２）が格納されていたものとする。

　図２５の例では、「moov」の「stsd」に格納された「Initialization　Document　instance（Init instance）」に基づいてレンダリングコンテクストが設定されている。その後、時刻ｔ１において、Fragment１のmdat１のSample１に格納されたBody instance１に基づいて、図１６に示されるようなサブタイトルが表示されている。さらに、その後、時刻ｔ２において、Fragment２のmdat２のSample２に格納されたBody instance２に基づいて、図１８に示されるようなサブタイトルが表示されている。

　このように、「moov.trak.mdia.minf.stbl.stsd」に、さらに「Initialization　Document　instance」が格納されるようにしてもよい。

　なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図２６に示されるような汎用のパーソナルコンピュータ７００などに、ネットワークや記録媒体からインストールされる。

　図２６において、ＣＰＵ（Central Processing Unit）７０１は、ＲＯＭ（Read Only Memory）７０２に記憶されているプログラム、または記憶部７０８からＲＡＭ（Random Access Memory）７０３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ７０３にはまた、ＣＰＵ７０１が各種の処理を実行する上において必要なデータなども適宜記憶される。

　ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。このバス７０４にはまた、入出力インタフェース７０５も接続されている。

　入出力インタフェース７０５には、キーボード、マウスなどよりなる入力部７０６、ＬＣＤ(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部７０７、ハードディスクなどより構成される記憶部７０８、モデム、ＬＡＮカードなどのネットワークインタフェースカードなどより構成される通信部７０９が接続されている。通信部７０９は、インターネットを含むネットワークを介しての通信処理を行う。

　入出力インタフェース７０５にはまた、必要に応じてドライブ７１０が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部７０８にインストールされる。

　上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア７１１などからなる記録媒体からインストールされる。

　なお、この記録媒体は、図２６に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク（フロッピディスク（登録商標）を含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（Mini-Disk）（登録商標）を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア７１１により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているＲＯＭ７０２や、記憶部７０８に含まれるハードディスクなどで構成されるものも含む。

　なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　なお、本技術は以下のような構成も取ることができる。

（１）　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加する
　ストリーミング配信装置。
（２）　前記サブタイトルフラグメント生成部は、
　前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報とともに、前記ＴＴＭＬドキュメントインスタンスが記述されたサンプルを、前記フラグメントに格納する
　（１）に記載のストリーミング配信装置。
（３）　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備える
　（１）または（２）に記載のストリーミング配信装置。
（４）　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備え、
　前記ムービーヘッダ生成部は、フラグメント区分識別情報に、前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスを格納し、
　前記フラグメントのヘッダ情報に、前記インスタンス区分識別情報が付加されない
　（１）または（２）に記載のストリーミング配信装置。
（５）　コンテンツフラグメント生成部が、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、
　サブタイトルフラグメント生成部が、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、
　前記サブタイトルフラグメント生成部により、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報が付加される
　ストリーミング配信方法。
（６）　コンピュータを、
　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置として機能させる
　プログラム。
（７）　（６）に記載のプログラムが記録されている記録媒体。
（８）　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部と
　を備えるストリーミング受信装置。
（９）　前記ＴＴＭＬデコード部は、
　前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別してデコードする
　（８）に記載のストリーミング受信装置。
（１０）　前記ＴＴＭＬデコード部は、
　前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別し、
　　前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであると識別された場合、
　　前記フラグメントに格納されたサンプルにおける前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報に基づいて、前記ＴＴＭＬドキュメントインスタンスをデコードするか否かを判定するデコード判定部を備える
　（８）または（９）に記載のストリーミング受信装置。
（１１）　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、
　前記ＴＴＭＬデコード部が、フラグメント区分識別情報に含まれる前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスをデコードする
　（８）または（９）に記載のストリーミング受信装置。
（１２）　ムービー受信部が、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信し、
　ＴＴＭＬ判定部が、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定し、
　ＴＴＭＬデコード部が、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードする
　ストリーミング受信方法。
（１３）　コンピュータを、
　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置として機能させる
　プログラム。
（１４）　（１３）に記載のプログラムが記録されている記録媒体。
（１５）　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置と、
　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置と
　から成るストリーミングシステム。

　１００　ストリーミングシステム，　１２１　ＴＴサーバ，　１２２　ＩＰＴＶサーバ，　１２３　ＩＰＴＶクライアント，　１４１　ＴＴフラグメント生成部，　１４２　サンプル挿入部，　１５１　タイムスタンプ生成部，　１６１　コンテンツサンプル生成部，　１６２　フラグメントマルチプレクサ，　１６３　フラグメント配信部，　１８１　計時部，　１８２　フラグメントデマルチプレクサ，　１８３　ＴＴデコーダ，　１８４　コンテンツデコーダ，　１８５　表示制御部

Claims

　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加する
　ストリーミング配信装置。
　前記サブタイトルフラグメント生成部は、
　前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報とともに、前記ＴＴＭＬドキュメントインスタンスが記述されたサンプルを、前記フラグメントに格納する
　請求項１に記載のストリーミング配信装置。
　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備える
　請求項１に記載のストリーミング配信装置。
　複数の前記フラグメントから成るムービーのヘッダ情報において、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報を付加するムービーヘッダ生成部をさらに備え、
　前記ムービーヘッダ生成部は、フラグメント区分識別情報に、前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスを格納し、
　前記フラグメントのヘッダ情報に、前記インスタンス区分識別情報が付加されない
　請求項１に記載のストリーミング配信装置。
　コンテンツフラグメント生成部が、ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、
　サブタイトルフラグメント生成部が、前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成し、
　前記サブタイトルフラグメント生成部により、前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報が付加される
　ストリーミング配信方法。
　コンピュータを、
　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置として機能させる
　プログラム。
　請求項６に記載のプログラムが記録されている記録媒体。
　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部と
　を備えるストリーミング受信装置。
　前記ＴＴＭＬデコード部は、
　前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別してデコードする
　請求項８に記載のストリーミング受信装置。
　前記ＴＴＭＬデコード部は、
　前記フラグメントのヘッダ情報に含まれる、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報に基づいて、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスの区分を識別し、
　　前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであると識別された場合、
　　前記フラグメントに格納されたサンプルにおける前記サブタイトルに係るＴＴＭＬドキュメントインスタンスの記述内容を個々に識別する記述内容識別情報に基づいて、前記ＴＴＭＬドキュメントインスタンスをデコードするか否かを判定するデコード判定部を備える
　請求項８に記載のストリーミング受信装置。
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、
　前記ＴＴＭＬデコード部が、フラグメント区分識別情報に含まれる前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスをデコードする
　請求項８に記載のストリーミング受信装置。
　ムービー受信部が、ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信し、
　ＴＴＭＬ判定部が、前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定し、
　ＴＴＭＬデコード部が、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードする
　ストリーミング受信方法。
　コンピュータを、
　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置として機能させる
　プログラム。
　請求項１３に記載のプログラムが記録されている記録媒体。
　ストリーミング配信されるコンテンツのデータが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するコンテンツフラグメント生成部と、
　前記コンテンツに表示されるサブタイトルに係るＴＴＭＬ（TimedText　MarkUp　Language)ドキュメントインスタンスが格納されたフラグメントであって、ＭＰ４ファイルフォーマットにより規定されたフラグメントを生成するサブタイトルフラグメント生成部とを備え、
　前記サブタイトルフラグメント生成部は、
　前記フラグメントのヘッダ情報に、前記フラグメントに格納された前記ＴＴＭＬドキュメントインスタンスが前記サブタイトルに係るレンダリングコンテクストを指定するＴＴＭＬドキュメントインスタンスであるか否かを識別するインスタンス区分識別情報を付加するストリーミング配信装置と、
　ＭＰ４ファイルフォーマットにより規定されたフラグメントであって、複数のフラグメントから成るムービーのデータを受信するムービー受信部と、
　前記ムービーのヘッダ情報に付加された、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれることを表すフラグメント区分識別情報に基づいて、前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれるか否かを判定するＴＴＭＬ判定部と、
　前記ムービーに前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントが含まれると判定された場合、前記ＴＴＭＬドキュメントインスタンスが格納されたフラグメントを抽出してデコードするＴＴＭＬデコード部とを備えるストリーミング受信装置と
　から成るストリーミングシステム。