WO2004100545A1

WO2004100545A1 - 情報処理装置及び方法，並びにプログラム及び記録媒体

Info

Publication number: WO2004100545A1
Application number: PCT/JP2004/005782
Authority: WO
Inventors: Motoki Kato
Original assignee: Sony Corporation
Priority date: 2003-05-08
Filing date: 2004-04-22
Publication date: 2004-11-18
Also published as: TWI246330B; CN1698374A; KR20060009807A; US20050249202A1; KR100975175B1; CN100380959C; TW200425740A; EP1515553A1; JP2004336488A; EP1515553B1; JP4902935B2; US8086087B2; EP1515553A4

Abstract

　プレーヤモデル（１）は、シームレスに接続されたTS1及びTS2から、トランスポートパケット及びアライバルタイムスタンプを有するソースパケットを読み出し、そのアライバルタイムスタンプに従ってトランスポートパケットを出力する出力部（１０）と、トランスポートパケットをデコードするデコーダ（２０）とから構成される。出力部（１０）は、ソースパケットのアライバルタイムスタンプに従ってトランスポートパケットをデコーダ（２０）に入力するものとし、デコーダ（２０）は、そのオーディオバッファTBnを、TS2の最初のピクチャであるＩピクチャをビデオバッファTB1に入力するために要する時間分のオーディオデータをバッファリング可能な容量とする。

Description

明細書情報処理装置及び方法、並びにプログラム及び記録媒体技術分野本発明は、ビデオストリームとオーディオストリームとの多重化ストリ一ムをビデオフレーム精度で編集して、編集点を連続的（シームレス）に再生するための情報処理装置、その方法、プログラム及び記録媒体、並びにシームレス再生に最適な形式で多重化ストリームを生成する情報処理装置及びその多重化されたストリ一ムデ一夕が記録された記録媒体に関する。

本出願は、日本国において 2 0 0 3年 5月 8日に出願された日本特許出願番号 2 0 0 3 - 1 3 0 6 6 1を基礎として優先権を主張するものであり、この出願は参照することにより、本出願に援用される。背景技術ビデオストリ一ムとオーディォストリームの多重化ストリ一ムをビデオフレーム精度で編集して、編集点をシームレスに再生するための方法が例えば日本公開特許公報 2 0 0 0— 1 7 5 1 5 2号、日本公開特許公報 2 0 0 1— 5 44 1 1 8 号、日本公開特許公報 2 0 0 2— 1 5 8 9 7 4号に記載されている。

図 1は、従来の D VR— S TDモデル（DVR MPEG2 transport stream player model) (以下、プレーヤという。） 1 0 1を示すブロック図である。 DVR- STDは、シ一ムレス接続された 2っの1⁾13 116111にょって参照される ¥ストリ一ムの生成及び検証の際におけるデコード処理をモデル化するための概念モデルである。

図 1に示すように、プレーヤ 1 0 1においては、読出部（DVRdrive) 1 1 1からビットレート R_UDで読み出された T S (トランスポートストリーム）ファイルは，リ一ドバッファ 1 1 2にバッファリングされ、このリードバッファ 1 1 2からソ —スパケットがソースデパケッ夕ィザ部（source depacket izer) 1 1 3へ最大ビットレート R_MAXで読み出される。

パルス発振器（27MHz X- 1) 1 14は、 2 7 MH zのパルスを発生する。ァラィバルクロックカウンタ（Arrival time clock counter) 1 1 5は、この 2 7M Hzの周波数のパルスをカウントするバイナリカウンタであり、ソースデパケッタイザ部 1 1 3に、時刻 t ( i ) における Arrival t ime clock counterのカウント値 Arrival— time— clock (i)を供給する。

1つのソースパケットは、 1つのトランスポートパケットとそれの arrivaし U me— s t ampを持つ。現在のソ一スノヽ。ケッ卜の ar rival— t ime— stampが arrival— t ime_c lock(i)の L S B (least significant Bit :最下位ビット） 30ビットの値と等しいとき、ソースデパケッタイザ部 1 1 3からそのトランスポートパケットが出力される。 TS_recording_rateは、トランスポ一トストリ一ム（以下、 TSという。）のビットレートである。また、図 1 2に示す n、 TBn、 MBn、 EBn、 TBsys, B sys、 Rxn、 Rbxn、 Rxsys、 Dn、 Dsys、 On及び Pn (k)の表記方法は、 ISO/IEC13818-1

(MPEG2 Systems規格）の T- STD (ISO/IEC 13818- 1で規定される transport stre am system target decoder) に定義されているものと同.じである。

次に、このような従来のプレーヤ 1 0 1におけるデコーディングプロセスについて説明する。先ず、 1つの DVR MPEG2 TSを再生しているときのデコーディングプロセスを説明する。単一の DVR MPEG2 TSを再生している間は、出力部 1 1 0からトランスポートパケットを出力してデコーダ 1 20である DVR-STDの TB1、 TBn又は TBsysのバッファへ入力するタイミングは、ソースパケットの arrivaし time— st ampにより決定される。 TB1、 MB1、 EB1、 TBn, Bn、 TBsys及び TBsysのバッファリング動作の規定は、 IS0/IEC 13818- 1に規定されている T-STDと同じである。復号動作と表示動作の規定もまた、 IS0/IEC 13818-1に規定されている T-STDと同じである。

次に、シ一ムレス接続された Playltemを再生している間のデコ一ディングプロセスについて説明する。ここでは、シームレス接続された Playltemによって参照される先行するストリ一ム TS1と、現在のストリーム TS2との再生について説明をする。

ある AVストリーム（TS1) からそれにシームレスに接続された次の AVストリーム（TS2) へと移る間には、 TS2のァライパルタイムベースの時間軸は、 TS1のァライバルタイムベースの時間軸と同じ時間軸でない。また、 TS2のシステムタイムベースの時間軸は、 TS1のシステムタイムベースの時間軸と同じ時間軸でない。ビデォの表示は、シームレスに連続していることが要求される。オーディオのプレゼンテ一ションュニットの表示時間にはオーバラップがあってもよい。

次に、ソースデパケッタイザ部から読み出される卜ランスポートバケツトの DV R - STDへの入力夕イミングについて説明する。

( 1 ) TS1の最後のビデオパケットが DVR- STDの TBIに入力終了する時刻 T 1までの時間

時刻 T 1までの時間は、 DVR-STDの TB1、 TBn又は TBsysのバッファへの入力タイミングは、 TS1のソースパケットの arrival— time_s tampによって決定される。

(2) 時刻 T 1から TS1の残りのパケットの最後のバイトが入力終了する時刻 T 2まで

TS1の残りのパケットは、 TS— recording_rate (TSl) のビットレート（TS1の最大ビットレート）で DVR-STDの TBn又は TBsysのバッファへ入力されなければならない。ここで、 TS_recording— rate (TSl) は、 CI ip 1に対応する CI iplnfo 0において定義される TS_recording— rateの値である。 TS1の最後のバイトがバッファへ入力する時刻は、時刻 T 2である。したがって、時刻 T 1'から T 2までの区間では、ソースパケットの arrival一 Ume_s tampは無視される。

を TS1の最後のビデオパケットに続く TS1のトランスポートパケットのバイト数とすると、時刻 T 1から T 2までの時間

2— T 1は、バイトが TS —recording— rate (TSl) のビットレートで入力終了するために必要な時間であり、下記式（1) のように計算される。

時刻 T 1から Τ 2までの間は、図 1に示す Rxnと Rxsysの値は共に TS_recording rate (TSl) の値に変化する。このルール以外のバッファリング動作は、 T- STDと同じである。

オーディオデコーダは、時刻 T 1から T 2までの区間の入力データを処理することができるように、即ち、時刻 T 1から T 2までの間は、図 1に示す Rxnと Rxs ysの値が共に TS_recording一 rate (TS1) の値に変化するため、 T- STDで定義されるバッファ量に加えて付加的なバッファ量（約 1秒分のデータ量）が必要である。

( 3) 時刻 T 2以後

T 2の時刻において、ァライバルタイムクロックカウンタ 1 1 5は、 TS2の最初のソースパケットの arrival—time— s mpの値にリセットされる。 DVR- STDの TB1 TBn又は TBsysのパッファへの入力夕イミングは、 TS2のソースパケットの arrival — time_sta即によって決定される。 Rxnと Rxsysはともに、 T-STDにおいて定義されている値に変化する。

次に、ビデオのプレゼンテ一ション夕イミングについて説明する。ビデオプレゼンテーションュニッ卜の表示は、接続点 (コネクションボイン卜）を通してギャップなしに連続でなければならない。

STC (System Time Clock) 1 ： TS1のシステムタイムベースの時間軸

STC2： TS2のシステムタイムべ一スの時間軸（正確には、 STC2は、 TS2の最初の PC

R (Program Clock Refarence) が T- STDに入力した時刻から開始する。）とする。

S 1と STC2との間のオフセット値は、次のように決定される。

PTS nd： TS1の最後のビデオプレゼンテーションュニットに対応する STC1上の PT S

PTS2start ： TS2の最初のビデオプレゼンテ一ションュニッ卜に対応する STC2上の PTS

Tpp：最後のビデオプレゼンテ一ションュニッ卜の表示期間

とすると、 2つのシステムタイムベースの間のオフセット値 STC_deltaは、下記式 (2) のように計算される。 STC_delta = PTSlend + T_Pp-PTS2s tar t · · · ( 2 ) 次に、オーディオのプレゼンテーションタイミングについて説明する。 TS1と T S2との接続点において、オーディオプレゼンテーションュニットの表示夕イミングのオーバラップがあってもよく、それは 0から 2オーディオフレーム未満である。プレーヤ 1 0 1には、どちらのォ一ディオサンプルを選択するかということと、オーディオプレゼンテーションュニットの表示を接続点の後の補正された夕ィムベースに再同期する制御が要求される。

TS1からそれにシームレスに接続された次の TS2へと移るとき、 DVR-STDのシステムタイムクロックの制御について、プレーヤ 1 0 1が行う処理を説明する。 TS1の最後のォ一ディオプレゼンテーションュニットが表示される時刻 T 5において、システムタイムクロックは、時刻 T 2から T 5の間にオーバ一ラップしていてもよい。この区間では、 DVR- STDは、システムタイムクロックを古いタイムベースの値（STC1) から新しいタイムべ一スの値（STC2) の値に切り替える。 STC2の値は、下記式（3 ) のように計算できる。

STC2 = STCl-STC_delta · · · ( 3)

TSlから、これにシームレスに接続された次の TS2へと移るとき、 TS1及び TS2が満たさなければいけない符号化条件を説明する。

STC vid.cend： TS1の最後のビデオパケットの最後のバイトが DVR-STDの TBIへ到着するときのシステムタイムベース STC1上の STCの値

STC2²v_{i d}eo.start ： TS2の最初のビデオパケットの最初のバイトが DVR- STDの TB 1へ到着するときのシステムタイムベース STC2上の STCの値

STC2¹video_end： STC 1¹ v i d e。_e _n dの値をシステムタイムべ一ス STC2上の値に換算した値

とした場合、

dは、下記式（4) のようにして計算される。 STC2¹ v i d e o.e n d = STCl¹ v i d e o.e n d-STC_delta · · · (4) ここで、デコーダ 1 2 0が DVR-STDに従うために、次の 2つの条件を満たすことが要求される。

(条件 1)

TS2の最初のビデオパケットの TBIへの到着タイミングは、次に示す不等式

(5) を満たさなければならない。 irLZ² v i d e o_s t a r t/^>STC2¹ v i d e o_e n d+ l 2 - 1 · · · 、5) この上記不等式（5) を満たすように、 CUpl及び/又は Clip2の部分的なストリ一ムを再エンコード及び又は再多重化することが必要になる。

(条件 2)

STC1と STC2とを同じ時間軸上に換算したシステムタイムベースの時間軸上において、 TS1からのビデオパケットの入力とそれに続く TS2からのビデオパケットの入力は、ビデオバッファをオーバフロー及びアンダフ口一させてはならない。

しかしながら、上述したように、 D VR— S TDモデルを使用した従来のプレ —ャ 1 0 1においては、時刻 T 1から T 2までの区間の入力データを処理することができるように、即ち、時刻 T 1から T 2までの間は、 TS1の残りのパケットは、 TS_recording_rate (TS1) のビットレート（TS1の最大ビットレート）で DVR- STD の TBn又は TBsysのバッファへ入力されていたため、 T- STDで定義されるバッファに加えて、約 1秒分のデ一夕をバッファリング可能な容量の付加的なバッファが必要である。

このバッファ容量の大きさは、次の要因に基づく。即ち、 MPEG2TSの中において、あるバイト位置にあるビデオデータに同期再生されるオーディオデータが、所定範囲内の多重化位相差を離れて存在することができ、この多重化位相差の最大値が 1秒分のデータ量に相当する。したがって、上記式（1) の N 1の最大値は、最大 1秒分のオーディオデータに相当する。時刻 T 1から T 2までの間は、ソースパケットの arrivaし time_s mpを無視して、 TSの最大ビットレートで N 1のデ一夕量のソースパケットが、オーディオバッファに入力されるので、このデータ量をバッファリングするために、 T-STDで定義されるバッファ量に加えて付加的なバッファ量（約 1秒分のデ一夕量）が必要になっていた。

この付加的なバッファの大きさを具体的に計算すると次のようになる。即ち、例えば 640 kbpsのドルビー AC 3方式により符号化されたオーディォストリ一ムの場合、 1秒分のオーディオデータは、 640 kbits= 80 kBytesとなり、 80 kBytesの付加的なバッファが必要となる。

また、 Linear PCM方式により符号化されたオーディオストリームであって、 2 4 bi tSample, 96 kHz sampling f reauency, 8cha匿 Isの場合、 1秒分のオーディォデータは、 24bitSampleX 9 6 00 0 samples/sec X 8 channels:約 1 8M bitsとなり、約 3 Mbytesの付加的なバッファが必要となり、このようなマルチチャンネルのオーディォデ一夕を扱う場合、この付加的なバッファが極めて大きくなってしまうという問題点がある。発明の開示本発明は、このような従来の実情に鑑みて提案されたものであり、オーディオストリ一ムとビデオストリームとが多重化された 2つの多重化ストリームをシ一ムレスに連続して復号するために、最適な容量のオーディォバッファとした情報処理装置、その方法、プログラム及び記録媒体、並びにこのようなオーディオバッファ容量に対応した多重化ストリームを生成する情報処理装置及びその方法、並びにその多重化ストリ一ムが記録された記録媒体を提供することを目的とする。上述した目的を達成するために、本発明に係る情報処理装置は、トランスポートパケットとそのァライパルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、第 1の多重化ストリームの最後のピクチャである第 1のピクチャに第 2の多重化ストリームの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリームを復号する情報処理装置において、上記多重化ストリ一ムの上記ァライバルタイムスタンプに従って上記ソ一スパケットを出力する出力手段と、上記ソースバケツトのうちビデオデ一夕をバッファリングするビデオバッファと、上記ソースパケットのうちオーディオデ一夕をバッファリングするオーディォバッファと、上記ビデオバッフ 7にバッファリングされたビデオデ一夕を復号するビデオ復号手段と、上記オーディオバッファにバッファリングされたオーディォデータを復号するオーディォ復号手段とを有し、上記オーディオバッファは、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディオデータをバッファリング可能な容量を有することを特徴とする。

本発明においては、オーディオバッファのサイズを、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディォデータをバッファリング可能な容量とするとともに、上記第 1のピクチャが上記ビデオバッファに入力終了する時刻から第 1の多重化ストリームの最後のソースパケットを入力終了する時刻までの間においても、多重化ストリームのソースパケットのァライパルタイムスタンプ（arr ivaし t ime_s ta即）に従ってソースパケットをバッファに入力するようにしたので、従来ソースパケットの arr ivaし t ime_s t ainpを無視して、トランスポートストリーム（TS) の最大ビットレートで入力するために必要とされていた 1秒分の付加的なバッファを不要とするとともに、第 1の多重化ストリ —ムの最後のトランスポートバケツトを入力した後に、第 2の多重化ストリームの最初にデコ一ドされるピクチャをそのデコードタイミングまでにビデオバッファへ入力することができる。

また、上記オーディオバッファの必要な容量を EBnjnax (b i ts) とし、上記第 2 のピクチャのビット量を Ijnax (b i t s) とし、上記ビデオバッファへの入力ビットレ一トを Rv (bps) とし、オーディオデ一夕のビットレートを Ra (bps) としたとき、 EBn_max= ( I_max/ v) X Raを満たすものとすることができ、第 2のピクチャとなる例えば I ピクチャのビット量の最大値を Ijnaxとした場合、オーディオバッファの容量は、

( I_max/Rv) X Raとすることができる。

更に、上記オーディオバッファは、 1 0 0ミリ秒分のオーディオデータをバッファリング可能な容量を有することが好ましく、これにより、例えば MPEG2の I ピクチャのデータ量は、通常 1秒間で伝送されるデータ量の 1 0 %以下の大きさであるため、オーディオバッファをこれと同じ大きさの容量としておき、その大きさ分のオーディオデータを先送りしておくことで、 I ピクチャをそのデコード夕ィミングまでにビデオパッファへ入力することができ、ビデオデータのェンコ一ド制限が少なくなる。即ち、オーディオバッファを上記容量とすることで、ォーディォデータをそれが再生されるタイミングよりも 1 0 0ミリ秒だけ早く入力終了するように多重化ストリームを多重化することができる。

更にまた、上記第 1の多重化ストリ一ムの時間軸における上記第 1のピクチャの表示終了時刻と上記第 2の多重化ストリームの時間軸における上記第 2のピクチヤの表示開始時刻との時間差を STC_dell:aとし、上記第 1の多重化ストリームの最後のソースパケットの最後のバイトが上記出力手段から出力される該第 1の多重化ストリームの時間軸上の値 STC endを上記時間差 STC— deltaにより上記第 2の多重化ストリ一ムの時間軸上の値に換算した値を STCZiend ( = STCl¹enc.-STC_de lta) とし、上記第 2の多重化ストリームの最初のソースパケットの最初のバイトが上記出力手段から出力される該第 2の多重化ストリームの時間軸上の値を STC2 ² _{s tart}としたとき、上記多重化ストリームは、 STC2² _{s t a r t}>STC2¹ _endを満たすものとすることにより、 D VR— S TDに従ったものとすることができる。

更にまた、上記第 1の多重化ストリームの最後のソースパケットが上記出力手段から出力された後、所定時間 del talの経過後、上記第 2の多重化ストリームの最初のソースパケットを上記出力手段から出力するものとし、 STC2² _{s t a r t}>STC2 ^nd + deltalを満たすものとしてもよく、これにより、第 2の多重化ストリームの最初のソースパケッ卜の入力夕イミングに柔軟性を持たせ、第 2の多重化ストリームの符号化を容易にすることができる。

更にまた、上記第 1の多重化ストリ一ムの時間軸における上記第 1のピクチャの表示終了時刻と上記第 2の多重化ストリームの時間軸における上記第 2のピクチヤの表示開始時刻との時間差を STC_deltaとし、上記第 1の多重化ストリームの最後のソースバケツトの出力を開始した後、所定時間 ATC— deltaの経過後に上記第 2の多重化ストリームの最初のソースパケットを上記出力手段から出力するものとし、上記所定時間 ATC_del を、上記時間差 STC_deltaの値を満たすように決定し、上記多重化ストリームは、上記時間差 STC_deltaの値を満たすように多重化されたものとしてもよく、これにより、第 2の多重化ストリームの最初のソースパケッ卜の入力タイミングに柔軟性を持たせ、第 2の多重化ス卜リームの符号化を容易にすることができる。

このとき、上記所定時間 ATC一 de l taの値は、上記第 1の多重化ストリームの付属情報として管理することができる。

本発明に係る情報処理方法は、トランスポートパケットとそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、第 1の多重化ストリームの最後のピクチャである第 1のピクチャに第 2の多重化ストリ一ムの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリームを復号する情報処理方法において、上記多重化ストリームの上記ァライバルタイムスタンプに従って上記ソースバケツトを出力する出力工程と、上記ソースパケットのうちビデオデータをビデオバッファにバッファリングし、オーディォデ一夕をオーディォバッフ 7にバッファリングするバッファリングェ程と、上記ビデオバッファ及びオーディォバッファにバッファリングされたビデォデ一夕及びオーディォデ一夕を復号する復号工程とを有し、上記バッフアリング工程では、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディォデータを、上記第 2のピクチャを上記ビデオバッファにバッファリングする前に上記オーディォバッフ 7にバッファリングすることを特徴とする。

また、本発明に係るプログラムは、上述した情報処理をコンピュータに実行させるものであり、本発明に係る記録媒体は、そのようなプログラムが記録されたコンピュータ読取可能なものである。

本発明に係る他の記録媒体は、トランスポートパケットとそのァライバルタイムスタンプとを有するソースパケットを単位とするデ一夕列からなる多重化ストリームが記録された記録媒体であって、上記多重化ストリームは、第 1の多重化ストリ一ムの最後のピクチャである第 1のピクチャに第 2の多重化ストリームの最初のピクチャである第 2のピクチャが連続して再生されるよう接続され、上記第 1及び第 2の多重化ストリ一ムが夫々のァライバルタイムスタンプに基づいてデコーダに入力可能であって、且つ、上記第 2のピクチャをデコーダに入力するために要する時間分のオーディオデータを該第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化された多重化ストリームが記録されたことを特徴とする。

本発明においては、第 2のピクチャを上記デコーダに入力するために要する時間分のオーディオデータを該第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化ストリームが多重化されているため、このような多重化ストリームを、第 2のピクチャをビデオバッファに入力するために要する時間分のオーディォデータをバッファリング可能な容量のオーディォバッファを有するデコーダにより復号すれば、第 1の多重化ストリ一ムの最後のトランスポートパケットを入力した後に、第 2の多重化ストリームの最初にデコードされるピクチャをそのデコード夕イミングまでにビデオバッファへ入力することができる。

本発明に係る他の情報処理装置は、トランスポートバケツトとそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、該ァライバルタイムスタンプに基づきデコーダにより読み出されてデコードされる多重化ストリームを生成する情報処理装置において、第 1のピクチャで表示終了する第 1のビデオ符号化ストリームを生成し、この第 1のピクチャに続けて表示される第 2のピクチャから表示開始する第 2のビデオ符号化ストリ一ムを生成するビデオ符号化手段と、上記第 1のビデオ符号化ストリームとこの上記第 1のビデォ符号化ストリ一ムに同期したオーディォ符号化ストリームとを多重化して第 1 の多重化ストリームを生成し、上記第 2のビデオ符号化ス卜リームとこの第 2のビデオ符号化ストリームに同期したオーディォ符号化ストリ一ムとを多重化して第 2の多重化ストリ一ムを生成し、上記第 1の多重化ストリームの最後のピクチャである上記第 1のピクチャに上記第 2の多重化ストリームの最初のピクチャである上記第 2のピクチャが連続して再生されるよう接続された多重化ストリ一ムを生成する多重化手段とを有し、上記多重化手段は、上記第 2のピクチャを上記デコーダに入力するために要する時間分のオーディオデータを上記第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化することを特徴とする。本発明においては、上記第 2のピクチャを上記デコーダに入力するために要す .る時間分の、例えば 1 0 0ミリ秒分のオーディオデータを上記第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化するため、デコーダにおいて、オーディオデータをオーディオバッファに先送りして、 I ピクチヤ等の第 2のピクチャを、そのデコードタイミングまでに伝送する時間を十分に確保することができ、多重化ストリ一ムの符号化が容易になる。

本発明に係る他の情報処理方法は、トランスポートパケットとそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、該ァライパルタイムスタンプに基づきデコーダにより読み出されてデコードされる多重化ストリームを生成する情報処理方法において、第 1のピクチャで表示終了する第 1のビデオ符号化ストリームを生成し、この第 1のピクチャに続けて表示される第 2のピクチャから表示開始する第 2のビデオ符号化ストリームを生成するビデオ符号化工程と、上記第 1のビデオ符号化ストリームとこの上記第 1のビデォ符号化ストリームに同期したオーディオ符号化ストリームとを多重化して第 1 の多重化ストリ一ムを生成し、上記第 2のビデオ符号化ストリームとこの第 2のビデオ符号化ストリームに同期したォ一ディォ符号化ストリームとを多重化して第 2の多重化ストリ一ムを生成し、上記第 1の多重化ストリームの最後のピクチャである上記第 1のピクチャに上記第 2の多重化ストリームの最初のピクチャである上記第 2のピクチャが連続して再生されるよう接続された多重化ストリームを生成する多重化工程とを有し、上記多重化工程では、上記第 2のピクチャを上記デコーダに入力するために要する時間分のオーディオデータを上記第 2のピクチヤが該デコーダに入力開始される前までに入力終了可能なように多重化することを特徴とする。

本発明の更に他の目的、本発明によって得られる具体的な利点は、以下に説明される実施例の説明から一層明らかにされるであろう。図面の簡単な説明図 1は、従来の情報処理装置を示すブロック図である。図 2は、 Bridge- Clipを使用する場合の先行する Playltemと現在の Playltemとの関係を示す模式図である。

図 3は、 Bridge- Clipを使用しない場合の先行する Playltemと現在の Playltemの関係を示す模式図である。

図 4は、ビデオストリームとしての Cliplと Clip2とをシームレス接続する例をピクチャの表示順序（Presen Uon order) で示す模式図である。

図 5は、図 4に表示ビデオストリーム（ ipl及び Clip2) をシームレス接続する場合に、第 1の方法である BridgeSeauenceを使用してシームレス接続を実現する各 A Vストリームにおけるデータ列を示す模式図である。

図 6は、図 4示すビデオストリーム（Clipl及び Clip2) をシームレス接続する場合に、第 2の方法である BridgeSetiuenceを使用しないでシームレス接続を実現する各 AVストリームにおけるデ一夕列を示す模式図である。

図 7は、オーディオの表示のオーバラップを説明する図であって、 TS1及び TS2 におけるビデオのプレゼンテ一ションュニット及びオーディォのプレゼンテーションュニットを示す模式図である。

図 8は、本発明の実施の形態における情報処理装置を示すプロック図である。図 9は、ある AVストリーム（TS1) から、これにシームレスに接続された次の AVストリーム（TS2) へと移るときのトランスポートパケットの入力、復号、及び表示のタイミングチヤ一卜である。

図 1 0は、ある AVストリーム（TS1) からそれにシームレスに接続された次の AVストリーム（TS2) へと移るときのトランスポートパケットの入力、復号、表示の他の例を示す夕イミングチヤ一トである。

図 1 1は、ある AVストリーム（TS1) からそれにシームレスに接続された次の AVストリーム（TS2) へと移るときのトランスポートパケットの入力、復号、表示の他の例を示す夕イミングチヤ一トである。

図 1 2は、 ATC_deltaを格納するための付属情報 ClipInfoOのデータフォ一マツトを示す図である。

図 1 3は、ある AVストリーム（TS1) に接続されるところの次の AVストリーム（TS2) が複数存在する場合の付属情報 ClipInfoOを示す模式図である。図 14は、従来の DVR- STDの場合であり、オーディオのバッファサイズが 4kBy tesである場合に、 TS1からそれにシームレスに接続される次の TS2へと移るときの DVR-STDのビデオバッファ及びオーディオバッファのビット占有量の変化の例を示すグラフ図である。

図 1 5は、本発明の実施の形態における効果を説明する図であって、オーディォのバッファサイズが 8 kBytesである場合に、 TS1からそれにシームレスに接続される次の TS2へと移るときの D VR— S TDのビデオパッファ及びオーディォバッファのビット占有量の変化の例を示すグラフ図である。発明を実施するための最良の形態以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、ビデオストリームとオーディオストリームとが多重化された 2つの A Vストリームをシームレスで連続再生する情報処理装置に適用したものである。そして、本実施の形態においては、 DVR-STD

(Digital Video Recording-System Target Decoder) において、シームレスに接続された 2つの A Vストリームを再生する際に最適な容量としたオーディォバッファを提案するものである。

はじめに、以下の説明において使用する用語について説明する。 Clipは、ビデォストリームとオーディオストリームとの多重化ストリームを示す。また、 Play Listは、 Clipの中の再生区間の集まりを示す。ある Clipの中の 1つの再生区間は、 Playltemと呼ばれ、それは、時間軸上の I N点と OUT点のペアで表される。それゆえ、 PlayListは、 Playltemの集まりである。

Playltem間をシームレスに再生するとは、再生装置（プレーヤ）が、デコーダの再生出力にポーズやギヤップを起こさせることなく、ディスクに記録されたォ —ディォビデオデータを表示（再生）することができることである。

シームレス接続されている 2つの Playltemsの構造について説明する。先行する Playltemと現在の Playltemとの接続が、シームレス表示できるように保証されているかどうかは、現在の Playltemにおいて定義されている connection condition フィールドから判断することができる。そして、 Playltem間のシームレス接続は、 Bridge-Clip (BridgeSeauence) を使用する方法（以下、第 1の方法とする。）と使用しない方法（以下、第 2の方法とする。）がある。

先ず、先行する Playltem (previous Playltem) と現在の Playltem (current P lay Item) とが、第 1の方法である Br idgeSeauenceを使用して接続されている場合の TS1及び TS2について説明する。図 2は、第 1の方法である Bridge- Clipを使用する場合における、先行する Playltemである P I 1と現在の Playltemである P I 2との関係を示す模式図である。この図 2において、 Bridge- Clipを使用する場合にプレーヤが読み出すストリームデ一夕を影を付けて示す。ここで、 DVR MPEG

(Moving Picture Experts Group) 2トランスポートストリーム（TS) は、整数個の Aligned unitから構成される。 Aligned unitの大きさは、 6144バイト（20 48X3バイト）である。 1つの Aligned unitは、 32個のソースパケットからなり，ソースパケッ卜の第 1バイト目から始まる。

各ソースパケットは、 192バイト長である。 1つのソースパケットは、 TP— e xtra_headerとトランスポートパケットとからなり、 TP_extra_lieaderは、 4バイト長であり、またトランスポートパケットは、 188バイト長である。 TP— extra —headerは、 copy— pr emission— indicatorと arrival— t ime— s tampとを有し、 copy— p remission— indicatorは、トランスポートパケットのペイロード（Payload) のコピー制限を表す整数、 arrival_time_stamp (ATS) は、 A Vストリームの中で、対応するトランスポートパケットがデコーダに到着する時刻を示すタイムスタンプである。 A Vストリ一ムを構成する各ソースパケットの arrivaし time— stampに基づいて作られる時間軸をァライバルタイムべ一スといい、そのクロックを ATC

(Arrival Time Clock) と呼ぶ。

図 2に示す TS1 (第 1の多重化ストリーム）は、 Clipl (Clip AVストリーム）の影を付けて示すストリ一ムデ一夕 D 1と Bridge- Clipの SPlarrivaし timejiscon tinuityより前の影を付けて示すストリームデータ D 2からなる。 SPN_arrival_t ime— discontinuityは、 the Bridge-Clip AVストリームファイルの中でァライバルタイムベースの不連続点があるところのソースパケットのァドレスを示す。

そして、 TS1に含まれる Cliplの影を付けて示すストリームデータ D 1は、先行する PI ay It emの IN— time (図 2において IN— time 1で示す。 ) に対応するプレゼンテ一ションュニットを復号するために必要なストリームのァドレスから、 SPN— ex iし from— previous_Clipで参照されるソースパケットまでのストリームデータである。

また、 TS1に含まれる Bridge-Clipの SPN— arrival— time— discontinuityより前の影を付けて示すストリ一ムデータ D 2は、 Bridge-Clipの最初のソースパケットから、 SPN_arrivaし tinie_discontiiiuityで参照されるソースパケットの直前のソ一 . スパケットまでのストリームデータである。

また、図 2に示す TS2 (第 2の多重化ストリ一ム）は、 Clip2 (Clip AVストリ —ム）の影を付けて示すストリ一ムデ一夕 D 4と Bridge- Clipの SPN_arrival—tim e— discontinuity以後の影を付けて示すストリームデータ D 3からなる。

そして、 TS2に含まれる Bridge- Clipの SPN_arrivaし time— discontinuity以後の影を付けて示すストリ一ムデ一夕 D 3は、 SPN_arrival一 tiine_discontinuityで参照されるソースパケットから、 Bridge- Clipの最後のソースバケツトまでのストリ —ムデ一夕である。

また、 TS2に含まれる Clip2の影を付けて示すストリームデータ D 4は、 SPN_e nter— to— current— Clipで参照されるソースパケットから、現在の Playltemの 0UT_ time (図 2において、 OUT—t ime 2で示す。）に対応するプレゼンテーションュニットを復号するために必要なストリームのァドレスまでのストリームデータである。

次に、先行する Playltemと現在の Playltemが、第 2の方法である BridgeSetiuen ceを使用しないで接続されている場合の TSl及び TS2について説明する。図 3は、第 2の方法である Bridge- Clipを使用しない場合における、先行する Playltemである P I 1と現在の Playltemである P I 2との関係を示す模式図である。この図 3 において、プレーヤが読み出すストリームデ一夕は、影を付けて示す。

図 3に示す TS1 (第 1の多重化ストリーム）は、 Clipl (Clip AVストリーム）の影を付けて示すストリームデ一タ D 5からなる。 TS1に含まれる Cliplの影を付けて示すストリームデータ D 5は、先行する Playltemの IN— time (図 3において I N time 1で示す）に対応するプレゼンテーションユニットを復号するために必要なストリ一ムのァドレスから始まり、 Clip 1の最後のソースパケットまでのデー夕である。

また、図 3に示す TS2 (第 2の多重化ストリーム）は、 Clip2 (Clip AVストリ —ム）の影を付けて示すストリームデータ D 6からなる。 TS2に含まれる Clip2の影を付けて示すストリ一ムデータ D 6は、 Clip2の最初のソースパケットカ、ら始まり、現在の Playltemの 0UT_time (図 3において OUT— time 2で示す）に対応するプレゼンテ一ションュニットを復号するために必要なストリ一ムのァドレスまでのストリ一ムデ一夕である。

図 2及び図 3の両方において、 TS1及び TS2は、ソースパケットの連続したストリームである。次に、 TS1及び TS2のストリーム規定とそれらの間の接続条件について説明する。

TS1及び TS2は、ビデオストリームとオーディォストリームとが多重化されたものであるが、ここでは、先ず、シームレス接続のための符号化制限におけるビデオビットストリームの制限について説明する。

図 4は、ビデオストリ一ムとしての Cliplと Clip2とをシームレス接続する例をピクチャの表示順序（Presentation order) で示す模式図である。動画像プログラムの一部分をスキップ再生する際に、スキップ再生開始点であるアウト点ピクチヤより時間的に前側のプログラムであるァゥト点側プログラムと、スキップ再生到達点であるィン点ピクチャより時間に後側のプログラムであるイン点側プログラムとをシームレスに接続するには、復号装置においてビデオストリームの再エンコード処理を行う必要がある。

MPEG2規格に準じた画像群の単位である GO P (group of pictures) には、他の画像からの予測符号化なしに画像が符号化された参照画像である少なくとも 1 つの I (Intra) ピクチャ（フレーム内符号化画像）と、表示順序に順方向の予測符号化を用いて画像が符号化された順方向予測符号化画像である P (predict iv e) ピクチャと、順方向及び逆方向の予測符号化を用いて画像が符号化された双方向予測符号化画像である B (bidirectionally) ピクチャとの 3種類の符号化画像が含まれている。図 4においては、 Clipl及び Clip2の各数字は表示順序を示し、 I、 P、 B、又は i、 p、 bは各ピクチャの種類を示す。例えば図 4には、 Clip 1の B 7と Clip2の b 4とを接続する例を示すが、この接続点においてビデオストリームをシームレスに表示できるためには、 0UT_timel (CI ip 1の OUTjime) の後と IN— time2 (CI ip2の IN— t ime) の前に表示される不必要なピクチャは、接続点付近の Clipの部分的なストリームを再エンコードするプロセスにより、除去されなければならない。

図 4に示すようなビデオストリーム（Clipl及び Clip2) をシームレス接続する場合に、上記第 1の方法である BridgeSeauenceを使用してシームレス接続を実現する例を図 5に示す。 SPN— arrival— time一 discontinuityより前の Br idge- CI ipのビデォストリームは、図 4に示す Cliplの 0UT_Umelに対応するピクチャまでの符号化ビデオストリームからなる。そして、そのビデオストリームは先行する Clipl のビデオストリ一ムに接続され、 1つの連続で MPEG2規格に従ったエレメンタリストリームとなるように再エンコードされている。同様にして、 SPN_arrival_time —discontinuity以後の Bridge-Clipのビデオストリ一ムは、図 4の CI ip 2の IN_ti me 2に対応するピクチャ以後の符号化ビデオストリームからなる。そして、そのビデオストリームは、正しくデコード開始することができて、これに続く Clip2のビデオストリ一ムに接続され、 1つの連続で MPEG2規格に従つたエレメン夕リストリームとなるように再エンコードされている。 Bridge-Clipを作るためには、一般に、数枚のピクチャは再エンコードしなければならず、それ以外のピクチャはォリジナルの Clipからコピーすることができる。

図 5の（a) は、図 4に示す Cliplをその復号順に示したものであり、プレーヤは、先行する Cliplの P 5のソースパケット番号（SPN_exit_from_previous_Cli p) から（b) に示す Bridge- Clipにジャンプする。ここで、 Bridge- CI ipの図 2に示した D 2、即ち、 Br idgeSeduenceにおける SPN— arrival— time— discontinuityの前までのビデオデ一夕に相当する Cliplの OUT— timel側のストリ一ムデータにおいて、 B 4までのデータ d lは、 Cliplをそのままコピーしたデータからなり、これに続くデ一夕 P 7， B 6は本来はオリジナルの Cliplの B 6及び B 7からなるが、 Cliplを復号し圧縮していない画像データに戻してから再びェンコ一ドして P 7及び B 6としたデータ d 2となっている。また、 Bridge- Clipの図 2に示した D 3、即ち、 BridgeSeauence における SPN— arrivaし time_discontinuity以降のビデオデ —夕に相当する Clip2の IN— time2側のストリームデータにおいても、オリジナルの Clip2の b 4、 p 5、 p 8、 b 6、 b 7は、 CI ip2を一旦復号して圧縮していない画像デ一夕に戻してから再びエンコードして新たに作成されたデータ（ i 0、 p 1、 4, b 2、 b 3 ) d 3となり、それ以降 CI ip2の SPN_enter_to_currenr— CI ipにジャンプするまでの間のデータ d 4は、 Clip2をそのままコピーしたものとなつている。

次に、図 4に示すようなビデオストリーム（Clipl及び Clip2) をシームレス接続する場合に、上記第 2の方法である BridgeSeauenceを使用しないでシ一ムレス接続を実現する例を図 6に示す。図 6において、 Clipl及び Clip2は、その復号順序にピクチャを示したものである。 BridgeSeauenceを使用しない場合であっても、図 5に示した BridgeSeauenceを使用する場合と同様に、接続点（コネクションポイント： conection point) 付近のストリームは、一旦復号して圧縮していないデ一夕に戻してから最適なピクチャタイプに再デコードされる。即ち、 Cliplのビデォストリームは、図 4の OUTLUmelに対応するピクチャまでの符号化ビデオストリームからなり、それは、 1つの連続で MPEG2規格に従ったエレメン夕リストリームとなるように、オリジナルの Cliplの B 6， B 7が再エンコードされたデータ (P 7 , B 6 ) d 5とされている。同様にして、 Clip2のビデオストリームは、図 4の Clip2の IN_time2に対応するピクチャ以後の符号化ビデオストリ一ムからなり、それは、 1つの連続で MPEG2規格に従ったエレメン夕リストリームとなるように、オリジナルの Clip2の b 4， p 5， p 8 , b 6 , b 7が再エンコードされたデ —夕（ i 0, p i, 4, b 2 , b 3 ) d 6とされている。

次に、 TS1及び TS2のそれぞれの多重化ストリームの符号化制限について説明する。図 7は、オーディオの表示のオーバラップを説明する図であって、 TS1及び T S2におけるビデオのプレゼンテ一ションュニット VPU1, VPU2及びオーディォのプレゼンテ一ションュニット ΑΡϋΙ, APU2を示す模式図である。

図 7に示すように、 TS1のオーディオストリームの最後のオーディオフレーム A _endは、 TS1の最後の表示ピクチャの表示終了時（OUT— t imel) に等しい表示時刻を持つオーディオサンプルを含んでいる。また、 TS2のオーディオストリームの最初のオーディオフレーム A starUま、 TS2の最初の表示ピクチャの表示開始時（IN _time2) に等しい表示時刻を持つオーディオサンプルを含んでいる。これにより、 TS1と TS2との接続点において、オーディオプレゼンテーションュニットのシ一ケンスにギヤップは存在せず、 2オーディオフレーム区間未満のオーディオプレゼンテ一ションュニッ卜の長さで定義されるオーディォオーバラップ（Audio over lap) が生じる。接続点における TSは、後述する DVR- STD (Digital VideoRecordi ng-System Target Decoder) に従った DVR MPEG2TSである。

D VR— S TDは、シームレス接続された 2つの P yltemによって参照される AVストリ一ムの生成及び検証の際におけるデコード処理をモデル化するための概念モデルである。 DVR- STDモデル（DVR MPEG2 transport stream player mode 1) を図 8に示す。

図 8に示すように、本実施の形態における情報処理装置（DVR MPEG2 transpor t stream player model, 以下プレーヤという。） 1は、シームレスに再生されるよう接続された TSからトランスポートパケット（Transport packets) を読み出し出力する出力部 1 0と、出力部 1 0からのトランスポートパケットをデコードするデコーダ（D VR— S TD) 2 0とから構成される。このデコーダ 20は、後述するように、上述した従来の D VR— S TDにおけるトランスポートパケットの入力夕イミングとオーディォバッファの容量とを変更したものである。出力部 1 0において、読出部（DVRdrive) 1 1から読出しレート R_UDで読み出された TSフアイルは、リードバッファ 1 2にパッファリングされ、このリードバッファ 1 2 からソースパケット（Source packets) がソ一スデパケッタイザ部（source dep acketizer) 1 3へビットレート R_MAXで読み出される。 R_MAXは、ソースパケットス卜リームのビットレー卜である。

パルス発振器（27MHz X-tal) 14は、 2 7 MH zのパルスを発生する。ァライバルクロックカウンタ（Arrival time clock counter) 1 5は、この 2 7MHz の周波数のパルスをカウントするバイナリカウンタであり、ソースデパケッタイザ部 1 3に、時刻 t (i)における Arrival time clock counterのカウント値 Arriva 1一 time一 clock(i)を供給する。

上述したように、 1つのソースパケットは、 1つのトランスポートパケットとそれの arrival t ime_stampを持つ。現在のソースパケットの arrival— time— stamp が arrival— time_clock(i)の L S B 3 0ビットの値と等しいとき、ソースデパケッタイザ部 1 3からそのトランスポートパケットが出力される。 TS— recording_rat eは、 TSのビットレ一トである。

また、図 8に示す n、 TBn、 MBn、 EBn、 TBsys, Bsys、 Rxn、 Rbxn、 Rxsys、 Dn、 D sys、 On及び Pn(k)の表記方法は、 IS0/IEC13818-1 (MPEG2 Systems規格）の T-STD

(ISO/IEC 13818- 1で規定される transport stream system target decoder) に定義されているものと同じである。即ち、次の通りである。

n :エレメンタリストリ一ムのィンデクス番号

TBn：エレメンタリストリ—ム nのトランスポートバッファ

MBn：エレメンタリストリーム nの多重バッファ（ビデオストリ一ムについてのみ存在）

EBn：エレメンタリストリーム nのエレメン夕リストリ一ムバッファ、ビデオストリ一ムについてのみ存在

TBsys：復号中のプログラムのシステム情報のための入力バッファ

Bsys：復号中のプログラムのシステム情報のためのシステム夕ーゲットデコーダ内のメインバッファ

Rxn：データが TBnから取り除かれる伝送レート

Rbxn： PESパケットぺイロ一ドが MBnから取り除かれる伝送レート（ビデオストリームについてのみ存在）

Rxsys：データが TBsysから取り除かれる伝送レ一ト

Dn：エレメンタリストリ一ム nのデコーダ

Dsys：復号中のプログラムのシステム情報に関するデコーダ

On : ビデオストリーム nの再配列バッファ（re-ordering buffer)

Pn(k) ：エレメン夕リストリーム nの k番目のプレゼンテーションュニット

次に、デコーダ 2 0のデコーディングプロセスについて説明する。先ず、 1つの DVR MPEG2 TSを再生しているときのデコ一ディングプロセスを説明する。

単一の DVR MPEG2TSを再生している間は、トランスポートパケットを TB1、 TBn又は TBsysのバッファへ入力するタイミングは、ソースパケットの arrival_time_st a即により決定される。 TB1、 MB1、 EB1、 TBn、 Bn、 TBsys及び TBsysのバッファリング動作の規定は、 IS 0/IEC 13818- 1に規定されている T-STDと同じである。復号動作と表示動作の規定もまた、 IS0/IEC 13818- 1に規定されている T-STDと同じである。

次に、シームレス接続された Playltemを再生している間のデコーディングプロセスについて説明する。図 9は、ある AVストリーム（TS1) から、これにシ一ムレスに接続された次の AVストリーム (TS2) へと移るときのトランスポートパケットの入力、復号、及び表示のタイミングチャートである。

ここでは、シームレス接続された Playltemによって参照される 2つの AVストリームの再生について説明をすることにし、以後の説明では、図 2又は図 3に示した、シームレス接続された TS1及び TS2の再生について説明する。したがって、 TS1は、先行するストリームであり、 TS2は、現在のストリームである。また、 TS 1及び TS2で区分された各パケットは、 TS1及び TS2のソースパケット SP1, SP2を表している。

ある AVストリーム (TS1) からそれにシームレスに接続された次の A Vストリーム（TS2) へと移る間には、 TS2のァライパルタイムベースの時間軸（図 9において ATC2で示される）は、 TS1のァライバルタイムベースの時間軸（図 9における ATC1で示される）と同じ時間軸でない。また、 TS2のシステムタイムベースの時間軸（図 9において STC2で示される）は、 TS1のシステムタイムベースの時間軸（図 9において STC1で示される）と同じ時間軸でない。ビデオの表示は、シームレスに連続していることが要求される。オーディォのプレゼンテ一ションュニットの表示時間にはオーバラップがあってもよい。

ここで、本実施の形態におけるプレーヤ 1においては、上述した日本公開特許公報 2 0 0 0— 1 7 5 1 5 2号、日本公開特許公報 2 0 0 1 - 5 44 1 1 8号及び日本公開特許公報 2 0 0 2— 1 5 8 9 7 4号に記載のプレーヤ 1 0 1に対し、以下の 2点を変更することで、オーディォバッファを最適な容量とするものである。先ず、 1つ目の変更点について説明する。 1つ目の変更点は、ある A Vス卜リーム（TS1)からそれにシームレスに接続された次の AVストリ一ム（TS2)へと移るとき、 TS1の最後のパケットまでのデコーダ 2 0への入力をそれらソースパケットの arrival_l;ime_stampによって決定することとする点である。即ち、上述した如く、従来は、 TS1の最後のビデオパケットが TBIに入力終了する時刻 T 1から、 TS1の最後のパイトが入力終了するまでの時刻 T 2までの間は、 arrival_Ume_stampを無視して、 TSの最大ビットレートで、トランスポートパケットがバッファに入力されていたのに対し、本実施の形態においては、 T 1から T 2までの間のソースパケットの入力を、時刻 T 1までと同様にして、 TS1のソースパケットの&1"1： 31_1：11116—513卹にょって決定する。これにより、従来ソースパケットの arrival— time_s tampを無視して、 TSの最大ビットレ一ト R_MAXで入力するために必要とされていた 1秒分の付加的なバッファは、不要となる。

この場合のデコーダ 2 0への入カタイミングについて、図 9を参照して説明する。

( 1 ) 時刻 T 1までの時間

時刻 T 1までの時間、即ち、 TS1の最後のビデオパケットがデコーダ 2 0の TBI に入力終了するまでは、デコーダ 2 0の TB1、 TBn又は TBsysのバッファへの入カタィミングは、 TS1のソースパケット SP1の arrivaし time_stampによって決定される。

( 2 ) 時刻 T 1から T 2まで

TS1の残りのパケッ卜がデコーダ 2 0へ入力するタイミングもまた、 TS1のソ一スパケット SP1の arrivaし Ume_stampによって決定される。 TS1の最後のバイトがバッファへ入力する時刻は、時刻 T 2である。

( 3) 時刻 T 2以後

T 2の時刻において、ァライパルタイムクロックカウンタ 1 5は、 TS2の最初のソースパケットの arrival_time_sta即の値にリセットされる。デコーダ 2 0の TB 1、 TBn又は TBsysのバッファへの入力タイミングは、 TS2のソースパケット SP2の a rrival_t ime— stampによって決定される。

即ち、デコーダ 2 0への入力タイミングは、 TS1の最後のバイトがバッファへ入力する時刻 T 2までは、デコーダ 2 0の TB1、 TBn又は TBsysのバッファへの入カタィミングを TS1のソースパケット SP1の arrivaし time_sta即によって決定し、 T 2 以降は、 TS2のソースバケツト SP2の arrival— time— stampによって決定する。

次に、ビデオのプレゼンテーションタイミングについて説明する。ビデオプレゼンテーシヨンユニットの表示は、上述の図 2又は図 3に示すような接続点（コネクシヨンポイント）を通して、ギャップなしに連続しなければならない。即ち、

TS1の最後のビデオデータ（第 1のピクチャ）に、 TS2の最初のビデオデータ（第

2のピクチャ）が連続して再生される。ここで、

STC1： TS1のシステムタイムベースの時間軸（図 9では STC1と示す。）

STC2： TS2のシステムタイムベースの時間軸（図 9では STC2と示す。）正確には、

STC2は、 TS2の最初の PCR ( (Program Clock Refarence) ) が T- STDに入力した時刻から開始される。

とする。

また、 STC1と STC2との間のオフセットは、次のように決定される。即ち、 PTS nd： TS1の最後のビデオプレゼンテ一ションュニットに対応する STC1上の PT S

PTS2start ： TS2の最初のビデオプレゼンテ一ションュニットに対応する STC2上の PTS

T PP： TS1の最後のビデオプレゼンテ一ションュニットの表示期間

とすると、 2つのシステムタイムベースの間のオフセット値 SK_deltaは、下記式 (6 ) のように計算される。

STC_delta=PTSlend + Tp_P-PTS2s tar t · . · ( 6 ) 次に、オーディオのプレゼンテーションタイミングについて説明する。 TS1と T S2との接続点において、オーディオプレゼンテーションュニットの表示夕イミングのオーバラップがあってもよく、それは 0以上であって 2オーディオフレーム未満である（図 9のオーディオオーバラップを参照）。プレーヤには、どちらのオーディオサンプルを選択するかということ及び、オーディオプレゼンテ一ションュニットの表示を接続点の後の補正されたタイムベースに再同期する制御が要求される。

TS1からそれにシームレスに接続された次の TS2へと移るとき、デコーダ 2 0のシステムタイムクロックの制御について、プレーヤが行う処理を説明する。時刻で 5において、 TS1の最後のオーディオプレゼンテ一ションュニットが表示される。システムタイムクロックは、時刻 T 2から T 5の間にオーバーラップしていてもよい。この区間では、デコーダ 2 0は、システムタイムクロックを古いタイムベースの値（STC1) を新しいタイムベースの値（STC2) に切り替える。 ST C2の値は、下記式（7 ) のように計算できる。

STC2 = STCl-STC_delta · · · (7) 次に、 TS1から、この TS1にシームレスに接続される次の TS2へと移るとき、 TS1 及び T S 2が満たさなければいけない符号化条件を説明する。ここで、

STCPend： TS1の最後のパケットの最後のバイトがデコーダ 2 0へ到着するときのシステムタイムベース STC1上の STCの値

STC2²s tart ： TS2の最初のバケツトの最初のバイトがデコーダ 2 0へ到着するときのシステムタイムべ一ス STC2上の STCの値

STC2¹e„d： STCl ndの値をシステムタイムべ一ス STC2上の値に換算した値とすると、

は、下記式（8 ) のようにして計算される。

STC2¹end = STCl¹end -STC_delta · · · (8) ここで、デコーダ 2 0が D VR— S TDに従うために、次の 2つの条件を満たすことが要求される。

(条件 1 )

TS2の最初のパケットのデコーダ 2 0への到着夕イミングは、次に示す不等式 ( 9 ) を満たさなければならない。

STC2²s tar t>STC2¹end · · · (9) この上記不等式（9) を満たすように、 Clipl及び又は Clip2の部分的なストリームを再エンコード及び Z又は再多重化することが必要になる。

(条件 2)

STC1と STC2とを同じ時間軸上に換算したシステムタイムベースの時間軸上において、 TS1からのビデオパケットの入力とそれに続く TS2からのビデオパケットの入力は、ビデオバッファをオーバフロー及びアンダフ口一させてはならない。また、 STC1と STC2とを同じ時間軸上に換算したシステムタイムベースの時間軸上において、 TS1からのパケットの入力とそれに続く TS2からのパケットの入力は、デコーダ 20のすベてのバッファをオーバフロー及びアンダフローさせてはならない。

図 1 0は、ある AVストリーム（TS1)からそれにシームレスに接続された次の A Vストリーム（TS2)へと移るときのトランスポートパケットの入力、復号、表示のタイミングチャートの他の例である。この場合もまた、 TS1の最後のパケットまでのデコーダ 20への入力をそれらソースバケツトの arrivaし time_stainpによって決定することは同様であるが、図 9に示す夕イミングチャートとの一点の違いとして、図 1 0に示すように、 TS1の最後のパケットの直後に TS2の最初のパケットを入力する必要がないように、所定の時間間隔（deltal：時刻 T 2〜T 2 ' の間）を設けている。これにより、 TS2の最初のパケットの入力タイミングの決定が図 9の場合よりも柔軟であるので、 TS2の符号化を容易にする効果がある。

この場合のデコーダ 2 0への入力タイミングについて、図 1 0を参照して説明する。

( 1 ) 時刻 Τ 2までの時間

時刻 Τ 2までの時間、即ち、 TS1の最後のパケットの最後のバイトがデコーダ 2 0へ入力終了するまでは、デコーダ 2 0の TB1、 TBn又は TBsysのバッファへの入力タイミングは、 TS1のソースパケット SP1の arrival— time_stampによって決定される。

(2) 時刻 T 2 ' 以後

時刻 T 2から de alの時間の後、時刻 T 2 'の時刻において、ァライバルタイムクロックカウンタ 1 5は、 TS2の最初のソースバケツ卜の arrival_time_stampの値にリセットされる。デコーダ 20の TB1、 TBn又は TBsysのバッファへの入力夕イミングは、 TS2のソースパケット SP2の arrival— time— stampによって決定される。ここで、図 1 0に示すように、 del lを設ける場合、上述の STC2² _{s tart}と STC2 ndは下記の関係式（ 1 0) を満たさなければならない。

STC2²s t ar t>STC2¹end + deltal · · · ( 1 0 ) 図 1 1は、ある A Vストリーム（TS1)からそれにシームレスに接続された次の A Vストリーム（TS2)へと移るときのトランスポートパケットの入力、復号、表示のタイミングチャートの他の例である。この場合もまた、 TS1の最後のパケットまでのデコーダ 20への入力をそれらソースパケットの arrivaし time_sta即によって決定することは同様であるが、図 1 0に示す夕イミングチャートとの一点の違いとして、図 1 1に示すように、所定の時間間隔（ATC_delta：時刻 T 2〜T 2 ' の間）を設けている。これにより、 TS2の最初のパケットの入力タイミングの決定が図 9の場合よりも柔軟であるので、 TS2の符号化を容易にする効果がある。

この場合のデコーダ 2 0への入カタイミングについて、図 1 1を参照して説明する。

( 1 ) 時刻 Τ 2までの時間

時刻 Τ 2までの時間、即ち、 TS1の最後のパケットの最後のバイトがデコーダ 2 0へ入力終了するまでは、デコーダ 20の ΤΒ1、 ΤΒη又は TBsysのバッファへの入力タイミングは、 TS1のソースパケット SP1の arrival_time_stanipによって決定される。

(2) 時刻 T 2から T 2 ' までの時間

時刻 T 2 ' は、 TS2の最初のパケットがデコーダ 2 0に入力される時刻である。 ATC_deltaは、 TS1の最後のバケツトの arrivaし t ime— stamp時刻 (ATCl上の時刻) から ATCl上に投射された時刻 T 2 ' までのオフセット時間である。

(3) 時刻 T 2 ' 以後

時刻 T 2 'の時刻において、ァライバルタイムクロックカウンタ 1 5は、 TS2の最初のソースパケットの arrival time stampの値にリセットされる。デコーダ 2 0の TB1、 TBn又は TBsysのバッファへの入力タイミングは、 TS2のソースパケット SP2の arrivaし time_stampによって決定される。

ここで、 ATC— deltaの値は、上記式（6) の STC_del taを満たすように値が決定される。

この ATC_deltaの値は、ストリームデ一夕の付属情報として管理される。 TS1と TS2とが図 1 1のようにシームレスに接続される場合、 ATC— deltaの値は、 TS1の付属情報として管理される。

図 12には、 ATC_deltaを格納するための付属情報 ClipInioOのデ一タフォ一マッ卜を示す。

図 12において、 is—ATC—dell^、 CI iplnfo 0が ATC_deltaの値を持つか否かを示すフラグである。 Cliplnio 0には複数の値を登録することができる。これは、 TS1に接続されるところの TS2を図 1 3に示すように複数持たせることができるようにするためである。 is_ATC_deltaフラグが 1である場合、 number_oし ATC— del t a_entriesは、この CI iplnf o 0に登録されている ATC— deltaの個数を示す。

また、図 12において、 following— Clip— Infomat ion— file— nameは、 TSlに接続されるところの TS2のストリ一ムの名前である。 following— Clip— Iniomation_fil e一 nameに対応するところの TS2が複数存在する場合、それぞれの TS2に対する ATC_ deltaの値が Cliplnfo 0に登録される。

図 8の DVR- STDモデルに TS1及び TS2が入力される場合、それぞれの多重化ストリ —ムとともに、その付属情報 ClipInfoOが入力される。 ClipInioOは、上述の AT C— deltaの情報を含み、 ATC_deltaは、 DVR-STDモデルのコントローラ（図 8で図示せず）によって、上述のように TS1と TS2との切替わりにおいて所定の方法で取り扱われる。

2つ目の変更点としては、デコーダ 20のオーディオバッファのサイズを、次の条件が満たされるような十分な大きさに変更する。この条件とは、 TS1からこれにシームレスに接続される次の TS2へと移るとき、 TS1の最後のトランスポ一トパケットを入力後に、 TS2の最初にデコードされるピクチャ（ Iピクチャ）をそのデコード夕イミングまでにビデオパッファへ入力できることである。

この条件を満たすために、オーディオバッファの必要な容量の最大値は次のような値である。即ち、「 I ピクチャの最大のビット量をそのデコードタイミングまでにビデオバッファへ入力できる時間」に相当する長さのオーディォのデータ量を蓄えられる大きさである。ォ一ディォバッファの必要量の最大値 EBnjnaxは、次の式（ 1 1 ) で計算できる。

EBn_max= (I_max/Rv) * Ra [b i t s] · · · ( 1 1 ) ここで、し maxは、 Iピクチャの最大のビット量であり、これは、図 8に示すビデォコードバッファ EB1の大きさである。 Rvは、ビデオコードバッファ EB 1への入力ビットレートである。また、は、オーディオストリームのビットレートである。上記式（ 1 1 ) に示すように、求めるべきオーディオバッファの大きさ EBn一 maxは、ビデオエレメンタリストリ一ムバッファ（EB 1) への入力ビットレートでビデオコードバッファ EB1のバッファ占有量をゼロから I_maxにするまでにかかる時間 (Lmax/Rv)に Raを掛けた値である。

また、具体的な値として、少なくとも 1 0 0ミリ秒分のオーディオデータを蓄えられるバッファサイズを推奨する。これは以下の理由による。即ち、 I ピクチャを 0 . 5秒ごとに符号化する場合、 I ピクチャのビットサイズは、一般的に、符号化ビットレートの 1 0 %以下である。例えば、符号化ピットレートが 1 0 Mb psの場合、 I ピクチャのサイズは、通常 I Mb i ts以下である。

したがって、第 1に、少なくとも、 1 0 0ミリ秒分の時間があれば、 I ピクチャをそのデコ一ドタイミングまでにデコーダ 2 0のビデオバッファへ入力できる。また、第 2にデコーダ 2 0のオーディオバッファが、 1 0 0ミリ秒分のオーディォデ一夕を蓄えられるのであれば、オーディォデータをそれが再生される夕イミングよりも 1 0 0ミリ秒だけ早く、オーディオバッファに入力終了するように TS 1を多重化できる。したがって、オーディオバッファを、少なくとも 1 0 0ミリ秒分のオーディォデ一夕を蓄えられるバッファサイズとすれば、上記第 1及び第 2 の理由により、 TS1からそれにシームレスに接続される次の TS2へと移るとき、 TS 1の最後のトランスポートパケットを入力後に、 TS2の最初にデコードされるピクチヤ（ I ピクチャ）をビデオバッファへ入力終了する（ I ピクチャのコードタイミング）までの時間として少なくとも 1 0 0ミリ秒分を確保することができる。

1 0 0ミリ秒分のオーディォデータを蓄えられるオーディオバッファの容量を具体的に計算すると次のようになる。

6 4 0 kbpsのドルビー AC3オーディォストリ一ムの場合： 6 4 0 kbpsX 0. Is ec= 64kbitS= 8 kBytes

Linear PCMオーディオス卜リ一ム、 24bitSa即 le、 96 kHz sampling f re ue ncy、 8 chaimalsの場合：（24bUSample*96000samples/sec*8cli) x 0. 1 sec = 23040 0 Bytes

次に、以上説明した本実施の形態のデコーダ 20のように、 DVR- STDのオーディォバッファのサイズを、「TS2の最初にデコードされるピクチャ（ I ピクチャ）をそのデコードタイミングまでにビデオバッファへ入力できる時間に相当するォーディォのデータ量を蓄えられる大きさ」に変更することによる効果を図 14及び図 1 5を用いて更に詳細に説明する。

例として、オーディオストリームが、ビットレート 640 kbps、サンプリング周波数 48kHzの AC3オーディォストリ一ムの場合を説明する。 AC3オーディォストリームの 1オーディオフレームのサンプル数は 1 5 3 6 samplesであるので、その時間長は、 3 2ミリ秒である。また、 1オーディオフレームのバイトサイズは、 256 0 Bytesである。

図 14の（a) 及び（b) は、従来の DVR- STDの場合であり、オーディオのバッファサイズが 4 kBytesである場合に、 TS1からそれにシームレスに接続される次の TS2へと移るときの DVR-STDの夫々ビデオバッファ及びオーディォバッファのビット占有量の変化の例を示すグラフ図である。この図 14において、 TS1のビデオ/ オーディオデータのバッファ遷移を破線で示し、また、 TS2のビデオ/オーディオデータのバッファ遷移を実線で示す。

4 kBytesのオーディォバッファは、 5 0ミリ秒分のオーディォデ一夕を蓄えられる。したがって、 TS 1の最後のオーディオパケットの最後のバイトが DVR-STDに到着する時刻であ

において、オーディォデータをそれが再生される夕イミングょりも 50ミリ秒だけ早く入力終了するように TS1を多重化できる。しかしながら、 50ミリ秒は、 TS2の最初にデコードされるピクチャ（ I ピクチャ）をそのデコードタイミングまでにビデオバッファへ入力するためには、不十分である。そのため、 TS2の最初にデコードされるピクチャ（ Iピクチャ）のサイズを小さくするようにエンコードを制限することになり、画質が悪くなる問題がある。

即ち、 4kBytesのオーディオバッファでは、先送りすることができるォ一ディォデ一夕は 50ミリ秒であるので、 TS2の最初の I ピクチャをビデオバッファに入力するための時間である図 14に示すスタートアップディレイ（start- up dela y) t 1は、最大 50ミリ秒と小さくなる。したがって、 TS2の最初の I ピクチャを入力する時間を十分とれず、 I ピクチャサイズ S 1が小さくなり、符号化が制限され I ピクチャの画質が劣化する。なお、この start-up delayを大きくするため、上述した如く、従来は、 4 kBytesに加えて 1秒分程度の付加的なバッファを設け、且つ T 1〜T 2の間は TSの最大レート RMAXで入力する必要があった。ここでは、ビットレート 640 kbpsの AC3オーディォストリ一ムについて説明しているが、上述した如く、マルチチャンネルの LPCMオーディオに対応可能なように設計すると、 1秒分程度の付加的なバッファは極めて大きくなつてしまう。

この問題を解決するために、本実施の形態におけるデコーダ 20のように、 DV R - STDのオーディオバッファサイズを例えば 8 kBytesに変更する。図 1 5の（a) 及び（b) は、オーディオバッファの容量を最適化した例を示すものであって、オーディォのバッファサイズが 8kBytesである場合に、 TS1からこれにシームレスに接続される次の TS2へと移るときの本実施の形態における DVR— S TDの夫々ビデオパッファ及びオーディォパッファのビット占有量の変化の例を示すグラフ図である。この図 1 5において、 TS1のビデオ/オーディオデータのバッファ遷移を破線で示し、また、 TS2のビデオ Zオーディオデータのバッファ遷移を実線で示す。

8 kBytesのオーディォバッファは、 1 0 0ミリ秒分のォ一ディォデータを蓄えられる。したがって、 TS1の最後のオーディオパケットの最後のバイトが DVR-ST

Dに到着する時刻である STC aucM c^ndにおいて、オーディォデ一夕をそれが再生されるタイミングよりも 1 00ミリ秒だけ早く入力終了するように TS1を多重化できる。少なくとも、 1 0 0ミリ秒あれば、 TS2の最初にデコードされるピクチャ

( I ピクチャ）をそのデコードタイミングまでにビデオバッファへ入力する余裕ができる。即ち、 TS2の最初の Iピクチャを入力する時間（スタートアップディレィ） t 2を十分とることができ、そのため、 TS2の最初にデコードされるピクチャ ( I ピクチャ）サイズ S 2を大きくすることができ、したがって I ピクチャのェンコード制限が小さく、高画質にすることができる。

また、図 8に示すようなプレーヤモデル 1において、トランスポートパケットとそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、そのァライバルタイムスタンプに基づきデコーダにより読み出されてデコードされる TSは、多重化装置（情報処理装置）において生成され記録されたものとすることができる。

多重化装置は、例えば上述の図 4乃至 6を参照して説明したように、所定のピクチャで表示終了するよう、再符号化した Cl ipl (第 1のビデオ符号化ストリーム）を生成し、このピクチャに続けて表示され、且つ表示開始できるよう再符号化した Cl ip2 (第 2のビデオ符号化ストリーム）を生成するビデオ符号化部と、 C l ip lとこの Cl iplに同期したオーディォ符号化ストリームとを多重化して TS 1を生成し、 Cl ip2とこの Cl ip2に同期したオーディォ符号化ストリ一ムとを多重化して TS2を生成する多重化部と、 TS1及び TS2からなる多重化ストリームを記録する記録部とを備える。ここで、多重化部においては、上記第 2のピクチャである I ピクチヤをデコーダ 2 0のビデオバッファに入力するために要する時間分のオーディォデータを当該 I ピクチャがデコーダ 2 0に入力開始される前までに入力終了可能なように多重化する。なお、図 5に示すように、符号化部において Br idge-Cl i Pを生成し、多重化部において Br idge-Cl ipも合わせて多重化するようにしてもよいことはもちろんである。

このような多重化装置により生成された多重化ストリームが記録された記録媒体には、第 1のピクチャで表示終了する TS 1と、この第 1のピクチャに続けて再生する第 2のピクチャから表示開始する TS2とから生成され、 TS 1及び TS2が夫々のァライバルタイムスタンプに基づいてデコーダ 2 0に入力可能であって、且つ、第 2のピクチャである TS2の最初のピクチャをデコーダに入力するために要する時間分のオーディォデータを第 2のピクチャがデコーダ 2 0に入力開始される前までに入力終了可能なように多重化された多重化ストリームが記録されたものとなつている。

このように構成された本実施の形態においては、シームレスに接続された TS 1及び TS2を再生する際、 TS 1の最後のビデオパケットがデコーダ 2 0の TB Iに入力終了した後から TS 1の残りのパケットがデコーダ 2 0へ入力するまでにおいても、トランスポートパケットをァライバルタイムスタンプに従って入力するようにし、ォ一ディォバッファのサイズを、従来の D V R— S T Dにおける 4 k Bytesから、 I ピクチャの最大のビット量をそのデコードタイミングまでにビデオバッファへ入力できる時間に相当する長さのオーディォのデータ量を蓄えられる大きさに変更することにより、 TS 1の最後のバケツトが入力終了してから TS2の最初のピクチャである I ピクチャをそのデコードタイミングまでに入力する時間（スタートアツプディレイ）を十分確保することができるので、 I ピクチャの符号化制限を小さくし、高画質とすることができる。

また、従来のように付加的なバッファを設ける方法であると、例えば TSにおけるオーディォデータをマルチチヤンネルの LPCMオーディォデータとした場合に極めて大きい容量の付加的なバッファが必要になるのに対し、本実施の形態においては、オーディオバッファの容量を上記のように変更し、ァライバルタイムス夕ンプに従ってトランスポートパケットを入力するようにすることで、従来必要となっていた付加的なバッファを不要とすることができる。

なお、本発明は、図面を参照して説明した上述の実施例に限定されるものではなく、添付の請求の範囲及びその主旨を逸脱することなく、様々な変更、置換又はその同等のものを行うことができることは当業者にとって明らかである。産業上の利用可能性上述した本発明によれば、ビデオストリ一ムとォ一ディォストリームの多重化ストリームをビデオフレーム精度で編集して、編集点をシームレスに再生することが可能であり、従来ソースパケットの arr ival— t ime_s t anipを無視して、 TSの最大ビットレートで入力するために必要とされていた 1秒分の付加的なパッファを不要とし、従来よりもデコーダに必要なバッファ量を小さくできると共に、ォ一ディォパッファのサイズを、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディォデータをバッファリング可能な容量とすることにより第 2のピクチャのエンコード制限が小さく、高画質とすることができる <

Claims

請求の範囲

1 . トランスポートパケッ卜とそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、第 1の多重化ストリームの最後のピクチヤである第 1のピクチャに第 2の多重化ストリームの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリ一ムを復号する情報処理装置において、

上記多重化ストリームの上記ァライバルタイムスタンプに従って上記ソースパケッ 1、を出力する出力手段と、

上記ソースパケットのうちビデオデータをパッフアリングするビデオバッファと、

上記ソースバケツトのうちオーディオデータをバッファリングするオーディオバッファと、

上記ビデオバッファにバッファリングされたビデオデ一夕を復号するビデオ復号手段と、

上記オーディォバッファにバッファリングされたオーディォデ一タを復号するォ一ディォ復号手段とを有し、

上記オーディォパッファは、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディォデ一夕をバッファリング可能な容量を有する情報処理装置。

2 . 上記オーディオバッファに必要な容量を EBnjnax (b i t s) とし、上記第 2のピクチャのビット量をし max (b i t s) とし、上記ビデオバッファへの入力ビットレ一トを Rv (bps)とし、オーディオデータのビットレートを Ra (bps) としたとき、 EBn_max= (し腹/ Rv) x Ra

を満たす請求の範囲第 1項記載の情報処理装置。

3 . 上記第 2のピクチャは、フレーム内符号化画像である請求の範囲第 1項記載の情報処理装置。

4 . 上記オーディオバッファは、少なくとも 1 0 0ミリ秒分のオーディオデータをバッファリング可能な容量を有する請求の範囲第 1項記載の情報処理装置。

5. 上記第 1の多重化ストリームの時間軸における上記第 1のピクチャの表示終了時刻と上記第 2の多重化ストリームの時間軸における上記第 2のピクチャの表示開始時刻との時間差を STC_deltaとし、上記第 1の多重化ストリ一ムの最後のソースパケッ卜の最後のバイトが上記出力手段から出力される該第 1の多重化ストリ一ムの時間軸上の値 STC e n aを上記時間差 STC— deltaにより上記第 2の多重化ストリ一ムの時間軸上の値に換算した値を STC e nd ( = STCl¹ e n d - STC_delta) とし、上記第 2の多重化ストリームの最初のソースバケツ卜の最初のバイトが上記出力手段から出力される該第 2の多重化ストリームの時間軸上の値を STC2² _{s tar t}としたとき、上記多重化ストリームは、

STCl s t a r t / STb2 e n d

を満たす請求の範囲第 1項記載の情報処理装置。

6. 上記第 1の多重化ストリ一ムの時間軸における上記第 1のピクチャの表示終了時刻と上記第 2の多重化ストリームの時間軸における上記第 2のピクチャの表示開始時刻との時間差を STC— deltaとし、上記第 1の多重化ストリームの最後のソースパケッ卜の最後のバイトが上記出力手段から出力される該第 1の多重化ストリームの時間軸上の値 STCl n dを上記時間差 STC一 deltaにより上記第 2の多重化ストリ一ムの時間軸上の値に換算した値を STCZ^ nd ( = STCl¹ e n d-STC_delta) とし, 上記第 2の多重化ストリームの最初のソースパケットの最初のバイトが上記出力手段から出力される該第 2の多重化ストリ一ムの時間軸上の値を STC2² s t a r tとし、上記第 1の多重化ストリームの最後のソースパケッ卜が上記出力手段から出力された後、所定時間 del talの経過後に上記第 2の多重化ストリ一ムの最初のソースパケットを上記出力手段から出力するものとしたとき、上記多重化ストリームは、

STC2² s t a r t>STC2¹ e n d + deltal

を満たす請求の範囲第 1項記載の情報処理装置。

7. 上記第 1の多重化ストリームの時間軸における上記第 1のピクチャの表示終了時刻と上記第 2の多重化ストリームの時間軸における上記第 2のピクチャの表示開始時刻との時間差を STC_deltaとし、上記第 1の多重化ストリームの最後のソ —スパケットの出力を開始した後、所定時間 ATC_deltaの経過後に上記第 2の多重化ストリームの最初のソースパケットを上記出力手段から出力するものとし、上記所定時間 ATC_d e 1 1 aは、上記時間差 S T C— d e 1 1 aの値を満たすように決定されたものであり、

上記多重化ストリームは、上記時間差 STC— de l t aの値を満たすように多重化されたものである請求の範囲第 1項記載の情報処理装置。

8 . 上記所定時間 ATC— de l t aの値を上記第 1の多重化ストリ一ムの付属情報として管理する範囲第 7項記載の情報処理装置。

9 . 上記第 1及び第 2の多重化ストリームにおけるオーディオデータは、マルチチヤンネルのオーディォデータからなる請求の範囲第 1項記載の情報処理装置。

1 0 . トランスポートパケッ卜とそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、第 1の多重化ストリームの最後のピクチャである第 1のピクチャに第 2の多重化ストリ一ムの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリ一ムを復号する情報処理方法において、

上記多重化ストリ一ムの上記ァライバルタイムスタンプに従って上記ソースパケッ卜を出力する出力工程と、

上記ソースバケツトのうちビデオデ一夕をビデオバッファにバッファリングし、ォ一ディォデ一夕をオーディォバッファにバッファリングするバッファリングェ程と、

上記ビデオバッファ及びオーディォバッファにバッファリングされた夫々ビデォデ一夕及びオーディォデータを復号する復号工程とを有し、

上記バッフアリング工程では、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディオデータを、上記第 2のピクチャを上記ビデォバッファにバッファリングする前に上記オーディォバッファにバッファリングする情報処理方法。

1 1 . 上記オーディオバッファの必要ビット量を EBnjax ( b i t s) とし、上記第 2 のピクチャのビット量をし max (b i t s) とし、上記ビデオバッファへの入力ビットレートを Rv (bps)、オーディオデータのビットレートを Ra (bps) としたとき、 EBn_max= ( I— maxZRv) x Ra

を満たす請求の範囲第 1 0項記載の情報処理方法。

1 2 . トランスポートパケッ卜とそのァライバルタイムスタンプとを有するソースパケットを単位とするデータ列からなり、第 1の多重化ストリームの最後のピクチャである第 1のピクチャに第 2の多重化ストリ一ムの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリ一ムを復号する処理をコンピュータに実行させるためのプログラムであって、

上記多重化ストリームの上記ァライバルタイムスタンプに従って上記ソースパケットを出力する出力工程と、

上記ソースパケットのうちビデオデ一夕をビデオバッファにバッファリングし、オーディォデ一夕をオーディォバッファにバッファリングするバッファリングェ程と、

上記ビデオバッファ及びオーディォバッファにバッファリングされた夫々ビデォデータ及びオーディォデ一夕を復号する復号工程とを有し、

上記バッファリング工程では、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディオデータを、上記第 2のピクチャを上記ビデォバッファにバッファリングする前に上記オーディォバッファにバッフアリングするプログラム。

1 3 . 上記オーディオバッファの必要ビット量を EBnjnax (b i ts) とし、上記第 2 のピクチャのビット量をし max (b i t s) とし、上記ビデオバッファへの入力ビットレートを Rv (bps) 、オーディオデータのビットレートを Ra (bps) としたとき、 EBn_max= ( I— maxZRv) X Ra

を満たす請求の範囲第 1 2項記載のプログラム。

1 4 . トランスポートパケットとそのァライバルタイムスタンプとを有するソースパケットを単位とするデ一夕列からなり、第 1の多重化ストリ一ムの最後のピクチャである第 1のピクチャに第 2の多重化ストリームの最初のピクチャである第 2のピクチャが連続して再生されるよう接続された多重化ストリ一ムを復号する処理をコンピュータに実行させるためのプログラムが記録されたコンピュータ読取可能な記録媒体であって、

上記多重化ストリームの上記ァライバルタイムスタンプに従って上記ソースパケットを出力する出力工程と、上記ソースパケットのうちビデオデ一夕をビデオバッファにバッファリングし、オーディォデ一夕をオーディォパッファにバッファリングするパッファリングェ程と、

上記バッフアリング工程では、上記第 2のピクチャを上記ビデオバッファに入力するために要する時間分のオーディォデ一夕を、上記第 2のピクチャを上記ビデォバッファにバッファリングする前に上記オーディォバッファにバッフアリングするプログラムが記録された記録媒体。

1 5 . 上記オーディオバッファの必要ピット量を EBnjnax (b i t s) とし、上記第 2 のピクチャのビット量をし max (b i t s) とし、上記ビデオバッファへの入力ビットレートを Rv (bps) 、オーディオデ一夕のビットレートを Ra (bps) としたとき、 EBn_max= ( I— max/Rv) X Ra

を満たす請求の範囲第 1 4項記載の記録媒体。

1 6 . トランスポートパケットとそのァライバルタイムスタンプとを有するソ一スバケツトを単位とするデータ列からなる多重化ストリームが記録された記録媒体であって、

上記多重化ストリ一ムは、第 1の多重化ストリ一ムの最後のピクチャである第 1のピクチャに第 2の多重化ストリ一ムの最初のピクチャである第 2のピクチャが連続して再生されるよう接続され、上記第 1及び第 2の多重化ストリームが夫々のァライバルタイムスタンプに基づいてデコーダに入力可能であって、且つ、上記第 2のピクチャを該デコーダに入力するために要する時間分のオーディオデ —夕を該第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化された多重化ストリームが記録された記録媒体。

1 7 . 上記第 2のピクチャを上記デコーダに入力するために要する時間分のォーディォデ一夕は、上記第 2のピクチャのビット量を I_max (b i t s) とし、上記デコ —ダのビデオバッファへの入力ビットレ一トを Rv (bps)、オーディォデータのビットレ一トを Ra (bps) としたとき、（し maxZRv) X Raである請求の範囲第 1 6項記載の記録媒体。

1 8 . 上記第 2のピクチャは、フレーム内符号化画像である請求の範囲第 1 6項記載の記録媒体。

1 9 . トランスポートパケットとそのァライバルタイムスタンプとを有するソ一スパケットを単位とするデータ列からなり、該ァライバルタイムスタンプに基づきデコーダにより読み出されてデコードされる多重化ストリームを生成する情報処理装置において、

第 1のピクチャで表示終了する第 1のビデオ符号化ストリームを生成し、この第 1のピクチャに続けて表示される第 2のピクチャから表示開始する第 2のビデォ符号化ストリームを生成するビデオ符号化手段と、

上記第 1のビデオ符号化ストリームとこの上記第 1のビデオ符号化ストリ一ムに同期したオーディォ符号化ス卜リームとを多重化して第 1の多重化ス卜リームを生成し、上記第 2のビデオ符号化ス卜リームとこの第 2のビデオ符号化ストリ —ムに同期したオーディォ符号化ストリームとを多重化して第 2の多重化ストリ —ムを生成し、上記第 1の多重化ストリームの最後のピクチャである上記第 1のピクチャに上記第 2の多重化ストリームの最初のピクチャである上記第 2のピクチヤが連続して再生されるよう接続された多重化ストリームを生成する多重化手段とを有し、

上記多重化手段は、上記第 2のピクチャを上記デコーダに入力するために要する時間分のオーディオデータを上記第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化する情報処理装置。

2 0 . 上記第 2のピクチャを上記デコーダに入力するために要する時間分のォ一ディォデ一夕は、上記第 2のピクチャのビット量をし max (b i ts) とし、上記デコ —ダのビデオバッファへの入力ピットレ一トを Rv (bps)、オーディォデータのビットレ一トを Ra (bps) としたとき、（IjaxZRv) X Raである請求の範囲第 1 9項記載の情報処理装置。

2 1 . 上記第 2のピクチャは、フレーム内符号化画像である請求の範囲第 1 9項記載の情報処理装置。

2 2 . トランスポートパケットとそのァライバルタイムスタンプとを有するソ一スパケットを単位とするデ一夕列からなり、該ァライパルタイムスタンプに基づきデコーダにより読み出されてデコードされる多重化ス卜リ一ムを生成する情報処理方法において、

第 1のピクチャで表示終了する第 1のビデオ符号化ストリ一ムを生成し、この第 1のピクチャに続けて表示される第 2のピクチャから表示開始する第 2のビデォ符号化ストリームを生成するビデオ符号化工程と、

上記第 1のビデオ符号化ストリームとこの上記第 1のビデオ符号化ストリ一ムに同期したオーディオ符号化ストリームとを多重化して第 1の多重化ストリームを生成し、上記第 2のビデオ符号化ストリームとこの第 2のビデオ符号化ストリームに同期したオーディォ符号化ストリームとを多重化して第 2の多重化ストリームを生成し、上記第 1の多重化ストリームの最後のピクチャである上記第 1のピクチャに上記第 2の多重化ストリームの最初のピクチャである上記第 2のピクチヤが連続して再生されるよう接続された多重化ストリームを生成する多重化工程とを有し、

上記多重化工程では、上記第 2のピクチャを上記デコーダに入力するために要する時間分のオーディオデータを上記第 2のピクチャが該デコーダに入力開始される前までに入力終了可能なように多重化する情報処理方法。