JPWO2004077825A1

JPWO2004077825A1 - データ処理装置および方法

Info

Publication number: JPWO2004077825A1
Application number: JP2005502885A
Authority: JP
Inventors: 和生藤本; 晋司小島
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2003-02-27
Filing date: 2004-02-24
Publication date: 2006-06-08
Anticipated expiration: 2024-02-24
Also published as: CN1723703B; EP1603336A1; WO2004077825A1; US20060072399A1; US8290353B2; JP4536653B2; EP1603336B1; KR100711328B1; KR20050056211A; CN1723703A; EP1603336A4

Abstract

データ処理装置は、圧縮符号化されたビデオコンテンツに関する第１データ、第１データの再生時刻を規定する第１時刻情報、ビデオコンテンツと異なるコンテンツに関する第２データおよび第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取る受信部と、データストリームから、第１データ、第１時刻情報、第２データおよび第２時刻情報を抽出する分離部と、第１データをデコードして、第１時刻情報に基づいて出力する第１デコード部と、第２時刻情報に基づいて第２データを出力する第２デコード部とを有している。データ処理装置は、さらに、第１時刻情報および第２時刻情報が第１データおよび第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持し、かつ、遅延情報に基づいて第２時刻情報を修正し、第２データの再生時刻を遅延させる遅延設定部を備えている。

Description

本発明は、圧縮符号化されたオーディオデータおよびビデオデータを再生する際に、オーディオとビデオとを同期して再生する装置および方法に関する。

従来、圧縮符号化されて記録されたビデオ信号およびオーディオ信号をＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体から読み出し、デコード（伸張）して出力するデータ再生装置が知られている。データ再生装置が伸張されたデータをその装置に接続されたモニタ、音響スピーカ等に送ることにより、ビデオおよびオーディオの再生が実現される。
圧縮符号化に関しては、多くの規格が規定されている。例えばＭＰＥＧ（ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）は、ビデオ信号およびオーディオ信号の両方を圧縮符号化する規格として知られている。ＭＰＥＧ規格では、ビデオ信号が表すビデオおよびオーディオ信号が表すオーディオが同期して再生されることを保証するために、オーディオ信号およびビデオ信号のそれぞれに再生されるべき時刻を表す時刻情報が付加される。これにより、伸張時にはシステム機器が有するシステム時刻基準参照値に対し、これらの時刻情報を参照してオーディオ信号とビデオ信号とを同期させて再生することができる。
以下、従来の同期方法を説明する。例えば、日本国特開平６−２３３２６９号公報に記載された技術によれば、まず、再生装置はオーディオおよびビデオのいずれか一方が伸張処理を終了したときの時刻と、他方の伸張処理が終了したときの時刻との差分を検出する。そして、検出された差分値に基づいて、再生装置は圧縮データの転送タイミング、伸張回路の起動タイミングおよびビデオの表示タイミングを変更し、オーディオとビデオを同期させて、モニタ、音響スピーカ等の外部機器に出力している。
しかし、上述の再生装置は、その内部でオーディオとビデオとを同期させて外部機器に出力しているため、外部機器においてビデオおよびオーディオの一方に処理を加えて遅延が発生すると他方と同期して再生できないという問題が生じていた。
例えば、テレビ等の映像表示機器が外部機器であるとき、映像表示機器においてインターレース／プログレッシブ変換、ＮＴＳＣ／ＰＡＬ変換等の変換処理や、ユーザからの指示によるビデオの拡大・縮小の画像処理を行うと、処理に時間を要するためオーディオ再生がビデオ再生よりも先行してしまう。例えば、出力画面を拡大する画像処理を想定すると、元の出力画面データから補間データを作成するために演算処理が必要である。そして、なめらかな動画を作り出すために、時間的に前後する複数の出力フレームや出力フィールド単位のフィルタ演算が必要になる。また、複数の入力ストリームを独立して伸張できる回路等から出力された２以上のビデオを合成する処理を想定すると、全てのビデオを同期させるために、特定のストリームのビデオ出力を遅延させなければならない場合がある。さらに、シアターシステム等のように、ビデオ信号を一旦光信号等に変換して伝送するときにも、ビデオ信号の変換に時間を要する場合もある。
上述の１つまたは２つ以上の演算処理等には、数ミリ秒から数十ミリ秒の時間を要する場合がある。オーディオ再生がビデオ再生よりも一定時間（概ね３０ミリ秒）以上先行すると、映像中の人物の口の動きと音声とのずれが目立ち、視聴者に違和感を与える。従来の再生装置は外部機器の処理に起因するビデオおよびオーディオの再生タイミングのずれを想定していないため、外部機器においてさらに時間を要する処理を行うとさらにビデオおよびオーディオの再生タイミングがずれてしまう。
なお、外部機器にオーディオ再生を遅延させるバッファを設け、オーディオと画像処理後のビデオとを同期して再生することは可能である。しかし、外部機器に出力されたビデオデータおよびオーディオデータには再生タイミングを指示する時刻情報は存在しないため、外部機器において出力タイミングを独自に決定することになってしまい妥当ではない。また、バッファを設けるという手法はバッファを持たない現存の外部機器には適用できないため、根本的な解決法とはいえない。
本発明は、以上のような課題を解決するためになされたもので、その目的は、外部接続機器の差、処理種別等によってビデオの遅延量が異なる場合においても、当初意図されたとおりにオーディオとビデオとを同期して再生することである。

本発明によるデータ処理装置は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取る受信部と、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出する分離部と、前記第１データをデコードして、前記第１時刻情報に基づいて出力する第１デコード部と、前記第２時刻情報に基づいて前記第２データを出力する第２デコード部とを有している。データ処理装置は、さらに、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持し、かつ、前記遅延情報に基づいて前記第２時刻情報を修正し、前記第２データの再生時刻を遅延させる遅延設定部を備えている。
前記第２データのコンテンツは圧縮符号化されており、前記第２デコード部は前記第２データを復号し、前記第２デコード部は復号された前記第２データを格納する内部バッファを有していてもよい。
前記第２データのコンテンツは圧縮符号化されており、前記データ処理装置は、圧縮符号化された前記第２データを格納するデータバッファをさらに備え、前記データバッファは、修正後の第２時刻情報によって規定される再生時刻の前に前記圧縮符号化された前記第２データを取り出し、前記第２デコード部に出力してもよい。
前記受信部は前記データストリームを継続的に受け取り、前記データバッファは前記第２データを順次格納する。前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上であってもよい。
前記データ処理装置は、前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理する管理部をさらに備えていてもよい。
前記管理部は、一部の前記第２データについて前記テーブルを管理してもよい。
前記受信部は、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取ってもよい。
前記遅延設定部は、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持してもよい。
前記遅延設定部は、予め定められた値を前記遅延情報として保持してもよい。
前記遅延設定部は、再生時刻の遅延量を３０ミリ秒以上の値として規定した遅延情報を保持してもよい。
前記データ処理装置は、接続先の機器に前記第１データを送出するとともに、前記機器を特定することが可能な固有情報を前記機器から受け取るトランスミッタをさらに備えている。前記トランスミッタは、前記固有情報に基づいて前記機器において実行される前記第１データに関するビデオ処理の所要時間を特定し、前記遅延設定部は、特定された前記所要時間の値を前記遅延量として遅延情報を保持してもよい。
前記第１デコード部および前記第２デコード部は、単一のデコード回路として実装されてもよい。
本発明によるデータ処理方法は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取るステップと、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出するステップと、前記第１データをデコードして、前記第１時刻情報に基づいて出力するステップとを包含している。さらにデータ処理方法は、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持するステップと、前記遅延情報に基づいて前記第２時刻情報を修正して前記第２データの再生時刻を遅延させるステップと、前記第２時刻情報に基づいて前記第２データを出力するステップとを包含する。
前記第２データのコンテンツは圧縮符号化されており、前記第２データを出力するステップは、前記第２データを復号し、復号された前記第２データをデータバッファに格納した後に出力してもよい。
前記第２データのコンテンツは圧縮符号化されており、前記データ処理方法は、圧縮符号化された前記第２データをデータバッファに格納するステップと、修正後の第２時刻情報によって規定される再生時刻の前に、格納された前記第２データを前記データバッファから取り出すステップとをさらに包含する。前記第２データを出力するステップは、前記データバッファから取り出された前記第２データを出力してもよい。
前記受信するステップは、前記データストリームを継続的に受信し、前記第２データを格納するステップは前記第２データを前記データバッファに順次格納する。前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上であってもよい。
前記データ処理方法は、前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理するステップをさらに包含してもよい。
前記管理するステップは、一部の前記第２データについて、前記テーブルを管理してもよい。
前記受信するステップは、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取ってもよい。
前記遅延させるステップは、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持してもよい。
前記遅延させるステップは、予め定められた値を前記遅延情報として保持してもよい。
前記遅延させるステップは、前記再生時刻の遅延量を３０ミリ秒以上に規定した遅延情報を保持してもよい。
前記データ処理方法は、接続先の機器に前記第１データを送出するステップと、前記機器を特定することが可能な固有情報を前記機器から受け取るステップと、前記固有情報に基づいて、前記機器において実行される前記第１データに関するビデオ処理の所要時間を特定するステップとをさらに包含する。前記遅延させるステップは、特定された前記所要時間の値を遅延情報として保持してもよい。
本発明によるコンピュータプログラムは、データ処理装置のコンピュータにおいて実行される。前記プログラムにしたがってコンピュータが実行するデータ処理方法は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取るステップと、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出するステップと、前記第１データをデコードして、前記第１時刻情報に基づいて出力するステップとを包含している。さらに、このコンピュータが実行するデータ処理方法は、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持するステップと、前記遅延情報に基づいて前記第２時刻情報を修正して前記第２データの再生時刻を遅延させるステップと、前記第２時刻情報に基づいて前記第２データを出力するステップとを包含する。

図１は、ＭＰＥＧ２プログラムストリーム１０のデータ構造を示す図である。
図２は、オーディオパック４０のデータ構造を示す図である。
図３は、データ処理装置１００と、データ処理装置１００に接続された映像音響機器１２０を示す図である。
図４は、デコード部６０の詳細な機能ブロックの構成を示す図である。
図５は、ＰＴＳを用いてビデオとオーディオとの同期再生を実現する再生タイミングを示す図である。
図６は、本実施形態によるデコード部６０の処理手順を示すフローチャートである。
図７（ａ）は、オーディオ再生管理部７において生成されるテーブルの構成を示す図である。
図７（ｂ）は、オーディオバッファ部６に格納されたオーディオデータのデータ配置と、オーディオアドレス情報によって参照されるデータ位置の関係を示す図である。
図８（ａ）は、オーディオ遅延設定部９の操作部の例を示す図である。
図８（ｂ）は、遅延時間の設定画面の例を示す図である。
図９は、オーディオバッファ部６の構成の例を示す図である。
図１０（ａ）は間引き前のオーディオ再生管理部７のテーブル７ａの構成を示す図である。
図１０（ｂ）は間引き後のオーディオ再生管理部７のテーブル７ｂの構成を示す図である。
図１１は、ビデオ処理を行う処理回路を搭載したビデオ出力部１２の機能ブロックの構成を示す図である。
図１２は、データ処理装置１００と映像音響機器１２０との接続およびそれらの間で授受されるデータの種類を示す図である図である。

以下では、まずデータストリームのデータ構造を説明し、その後、そのデータストリームを利用して本発明の処理を行うデータ処理装置の構成および動作を説明する。
図１は、ＭＰＥＧ２プログラムストリーム１０のデータ構造を示す。ＭＰＥＧ２プログラムストリーム１０（以下「データストリーム１０」と称する）は、ＤＶＤビデオ規格に準拠したデータ構造を有している。データストリーム１０は、ビデオのコンテンツに関するビデオデータと、オーディオのコンテンツに関するオーディオデータとが含まれている。以下では、ビデオデータおよびオーディオデータが含まれているとして説明するが、これら以外にも、データストリーム１０には字幕データ等が含まれていてもよい。
データストリーム１０は、複数のビデオオブジェクトユニット（ＶｉｄｅｏＯＢｊｅｃｔ；ＶＯＢ）＃１、＃２、・・・、＃ｋを含んでいる。各ＶＯＢは、複数のＶＯＢユニット（ＶｉｄｅｏＯＢｊｅｃｔｕｎｉｔ；ＶＯＢＵ）＃１、＃２、・・・、＃ｎを含んでいる。各ＶＯＢＵは、映像の再生時間にして０．４秒から１秒程度のデータを含むデータ単位である。以下、ＶＯＢＵ＃１および＃２を例にして、ＶＯＢＵのデータ構造を説明する。なお、以下で用いられる「再生」という語は、特に明示しない限り、ビデオコンテンツや字幕等のビデオに関しては表示機器（テレビ等）に映し出されることをいい、オーディオに関しては出力機器（スピーカ等）から音として出力されることをいうとする。
ＶＯＢＵ＃１は、複数のパックから構成されている。データストリーム１０内の各パックのデータ長（パック長）は一定（２キロバイト（２０４８バイト））である。ＶＯＢＵの先頭には、図１に“Ｎ”で示されるナビゲーションパック（ナビパック）２０が配置されている。ナビパック２０の後には、“Ｖ”で示されるビデオパック（ビデオパック３０等）および“Ａ”で示されるオーディオパック（オーディオパック４０等）が複数含まれている。
各パックは以下の情報を格納している。すなわち、ナビパック２０は、データストリーム１０内のビデオ、オーディオ等の再生を制御するために用いられる情報、例えばＶＯＢＵの再生タイミングを示す情報等を格納している。ビデオパック３０は、ＭＰＥＧ２圧縮符号化されたビデオデータを格納している。オーディオパック４０は、例えばＭＰＥＧ２−オーディオ規格によって圧縮符号化されたオーディオデータを格納している。近接するビデオパック３０およびオーディオパック４０には、例えば、同期して再生されるビデオデータおよびオーディオデータが格納されているが、それらの配置（順序）は任意である。
ＶＯＢＵ＃２もまた、複数のパックから構成されている。ＶＯＢＵ＃２の先頭には、ナビパック２０が配置され、その後、ビデオパック３０およびオーディオパック４０等が複数配置されている。各パックに格納される情報の内容はＶＯＢＵ＃１と同様である。
次に、図２を参照しながらオーディオパック４０のデータ構造を説明する。図２は、オーディオパック４０のデータ構造を示す。オーディオパック４０は、オーディオパケット４１およびパディングパケット４２を含む。なお、パディングパケット４２はデータパックのパック長を調整するために設けられたパケットであるため、パック長を調整する必要がないときは存在しない。このときは、オーディオパック４０にはオーディオパケット４１のみが含まれる。
オーディオパケット４１は、先頭から順に、１４バイトのパックヘッダ（Ｐａｃｋ＿Ｈ）、２４バイトのシステムヘッダ（ｓｙｓｔｅｍ＿Ｈ）、パケットヘッダ（Ｐａｃｋｅｔ＿Ｈ）４１ａおよびペイロードを有する。
パックヘッダには、パックの種類（ここではオーディオパケット）を特定する情報が記述される。パックの開始コードに続いて、基準時間情報であるＳＣＲ（ＳｙｓｔｅｍＣｌｏｃｋＲｅｆｅｒｅｎｃｅ；システム時刻基準参照値）が記述されている。ＳＣＲは、ストリームをデコードする際に、復号器側の動作時刻の基準となる同期信号ＳＴＣ（ＳｙｓｔｅｍＴｉｍｅＣｌｏｃｋ；システム時刻基準）の値を符号器側が意図した値に設定し、または、その値に修正するための情報である。ＳＣＲは基本的にどのパケットヘッダにも付加される。ＳＣＲは、９０ｋＨｚのクロックで計測した値であり、３３ビット長で表されている。システムヘッダは、ＶＯＢＵの先頭のパックに必ず付加される。パケットヘッダ４１ａは後に詳述する。ペイロードには、圧縮符号化されたビデオデータが記述される。
オーディオパック４０には、パック長を調整する目的で、パックヘッダ４２とパディングデータ４２ｂとを有するパディングパケット４２が設けられる。所定の条件のもとでは、パディングパケット４２を設けることに代えて、パケットヘッダ４１ａ内にスタッフィングバイトフィールド４９が設けられる。両者は同一のパック内には共存しない。図２に示す例では、オーディオパック４０にはパディングパケット４２が存在しているため、スタッフィングバイトフィールド４９は０バイトであり存在しない。
次に、オーディオパケット４１のパケットヘッダ４１ａのデータ構造を説明する。パケットヘッダ４１ａは、パケット長フィールド４３、フラグフィールド４４およびヘッダデータ長フィールド４５を有する。さらに、パケットヘッダ４１ａには、時間フラグフィールド４４ａおよびＰＥＳ拡張フラグフィールド４４ｂの値に応じて、追加のフィールド４６が設けられることがある。
パケット長フィールド４３には、そのフィールド以降からそのオーディオパケット４１の最後までのパケット長（バイト長）が記述される。続いて、フラグフィールド４４は、時間フラグフィールド４４ａ（ＰＴＳ＿ＤＴＳ＿ｆｌａｇ）、ＰＥＳ拡張フラグフィールド（ＰＥＳ＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇ）４４ｂ等を含む。時間フラグフィールド４４ａには、後述するプレゼンテーションタイムスタンプ（ＰＴＳ）またはデコーディングタイムスタンプ（ＤＴＳ）の有無を示すフラグが記述される。また、ＰＥＳ拡張フラグフィールド４４ｂには、ＰＥＳ拡張フィールド４８の有無を示すフラグが記述される。ヘッダデータ長フィールド４５には、追加のフィールド４６およびスタッフィングバイトフィールド４９のフィールド長の和が格納される。
次に、追加のフィールド４６を説明する。ＭＰＥＧでは、ビデオおよびオーディオの同期再生を実現するために、ビデオとオーディオの各アクセスユニットと呼ばれるデコードの単位ごと（ビデオは１フレーム、オーディオは１オーディオフレーム）に、いつ再生すべきかの時刻を管理するためのタイムスタンプ値が付加されている。このタイムスタンプ値は、ＰＴＳ（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅＳｔａｍｐ）と呼ばれ、オーディオ用はオーディオＰＴＳ（以下「ＡＰＴＳ」と記述する）およびビデオ用はビデオＰＴＳ（以下「ＶＰＴＳ」と記述する）が規定されている。
ＰＴＳが上述のシステム時刻基準ＳＴＣに一致したときに、そのＰＴＳが付加されたアクセスユニットが再生のために出力される。ＰＴＳの精度は、ＳＣＲと同様、９０ｋＨｚのクロックで計測した値であり、３３ビット長で表されている。９０ｋＨｚで計測する理由は、ＮＴＳＣ、ＰＡＬの両方のビデオ方式のフレーム周波数の公倍数であることと、オーディオの１サンプル周期よりも高い精度を得るためである。
一方、圧縮データをどのような順序でデコードすべきかを示すタイムスタンプ情報が付加されている。このタイムスタンプ値は、デコーディングタイムスタンプ（ＤＴＳ）と呼ばれる。
フィールド４６に各５バイトのＰＴＳ／ＤＴＳフィールド４７が設けられているときは、時間フラグフィールド４４ａはＰＴＳおよびＤＴＳを有することを示している。時間フラグフィールド４４ａの値に応じて、いずれか一方のフィールドが設けられる。また、追加のフィールド４６としてＰＥＳ拡張フィールド４８が設けられることもある。ＰＥＳ拡張フィールド４８にはプログラムストリーム１０のデコードに必要な情報、例えばデコード用のデータバッファの容量等が記述される。
なお、図２ではオーディオパックのデータ構造を示したが、ビデオパックのデータ構造も同様である。「オーディオパケット」を「ビデオパケット」に読み替え、ペイロードに格納される「オーディオデータ」を「ビデオデータ」に読み替えればよい。ビデオパケットにも、上述したＰＴＳおよびＤＴＳが同じデータ構造で記述されており、デコードタイミングおよび再生タイミングが規定される。
次に、図３および図４を参照しながら、本実施形態によるデータ処理装置１００の構成および動作を説明する。図３は、データ処理装置１００と、データ処理装置１００に接続された映像音響機器１２０を示す。データ処理装置１００は、ＤＶＤ−ＲＯＭ等の光ディスク１１０から光ピックアップを介してデータストリーム１０を読み出す。再生処理部５０は、アナログ波形として読み出されたデータストリーム１０に２値化処理等を行って、デジタルデータストリームとして出力する。ＭＰＥＧ２−ＰＳデコード部６０（以下「デコード部６０」と記述する）は、このストリームをビデオデータおよびオーディオデータに分離し、各々をデコードして映像音響機器１２０に出力する。
データ処理装置１００は、ＤＶＤプレーヤ、ＤＶＤレコーダ、ＰＣ等であるが、光ディスク１１０に代えてハードディスクを用いたときはハードディスクレコーダである。または、アンテナ等を介してデジタル放送のデータストリーム１０を受け取るときには、データ処理装置１００はセットトップボックス、デジタル衛星放送受像機等として実現される。一方、映像音響機器１２０は、例えばＴＶ等のモニタ出力機器、オーディオ出力アンプ、ＡＶセレクタ機能を有するＡＶアンプ等のインタフェース機器である。図３では１つの映像音響機器１２０が示されているが、映像を表示する機器、音声等を出力する機器等が複数存在していてもよい。
本実施形態によるデータ処理装置１００の特徴のひとつは、映像音響機器１２０において行われる種々の演算処理等により、本来同期して再生すべきビデオおよびオーディオがずれて再生されてしまう場合に、先行する出力を遅延して出力することにある。例えば、映像音響機器１２０においてビデオデータのインターレース／プログレッシブ変換を行うためにビデオデータの再生がオーディオの再生よりも遅延してしまう場合に、ビデオデータの再生時刻の遅延量相当時間だけ、先行するオーディオデータを遅延して出力する。これにより、ビデオデータとオーディオデータとの同期再生が可能になる。なお、オーディオデータの遅延出力は、オーディオデータの再生時刻を規定するＰＴＳを修正することによって実現される。遅延量は、予想される時間、ユーザによって設定された時間、映像音響機器１２０を特定して判断することができる映像音響機器１２０におけるビデオ処理の所要時間等に基づいて設定される。
上述のデータ処理装置１００の特徴は、主としてデータ処理装置１００のデコード部６０によって実現される。以下、デコード部６０を詳細に説明する。
図４は、デコード部６０の詳細な機能ブロックの構成を示す。デコード部６０は、システムデコード部１と、ビデオバッファ部２と、ビデオ再生管理部３と、システム時刻基準参照部４と、ビデオデコード部５と、オーディオバッファ部６と、オーディオ再生管理部７と、オーディオデコード部８と、オーディオ遅延設定部９とを有する。
システムデコード部１は、データストリーム１０から、デジタル圧縮符号化されたオーディオおよびビデオデータを分離して抽出するとともに、ビデオパックに付加されたＰＴＳをビデオ再生時刻情報として抽出し、オーディオパックに付加されたＰＴＳをオーディオ再生時刻情報として抽出する。
まず、ビデオ処理に関する構成要素を説明する。ビデオバッファ部２は、システムデコーダ部１によって分離されたビデオデータを格納する。ビデオ再生管理部３は、ビデオバッファ部２に格納されたビデオデータとビデオ再生時刻情報を関連づけたテーブルを生成し、管理する。
ビデオデコード部５は、圧縮符号化されたビデオデータの属性情報（ビデオヘッダ情報）を解析するとともに、ビデオバッファ部２に格納されているビデオデータをビデオ再生時刻情報に従ってデコードする。ビデオデコード部５にはフレームバッファ部１１およびビデオ出力部１２が設けられている。フレームバッファ部１１は、デコードしたビデオデータを格納する。ビデオ出力部１２は、デコード部６０からその外部へビデオデータを出力する。このビデオデータは、さらにデータ処理装置１００に接続された映像音響機器１２０に出力される。
次に、オーディオ処理に関する構成要素を説明する。オーディオバッファ部６は、システムデコード部１によって分離されたオーディオデータを格納することができる半導体メモリである。そのバッファサイズは、取り扱う符号化オーディオデータの圧縮率等によって異なり、例えば数キロバイトから数十キロバイト程度である。オーディオ再生管理部７は、オーディオバッファ部６に格納されたオーディオデータとオーディオ再生時刻情報を関連づけるテーブルを生成し、管理する。このテーブルは後に図７（ａ）および（ｂ）を参照しながら詳述する。
オーディオ遅延設定部９は、オーディオの再生時刻の遅延量を規定する遅延情報を保持し、かつ、遅延情報に基づいてオーディオの再生時刻情報を修正して、その再生時刻を遅延させる。オーディオ遅延設定部９は、例えば遅延情報を保持するメモリ（図示せず）を有しており、映像音響機器１２０の処理に鑑みて想定される時間が予め設定されている。そしてさらに、ユーザによって設定された数ミリ秒単位またはビデオフレーム単位の遅延時間に関する情報も保持できる。これにより、映像音響機器１２０において発生する処理遅延に応じた微調整が可能になる。
オーディオデコード部８は、圧縮符号化されたオーディオデータの属性情報（オーディオヘッダ情報）を解析するとともに、オーディオバッファ部６に格納されているオーディオデータをオーディオ再生時刻情報に従ってデコードする。オーディオデコード部８にはＰＣＭバッファ部１３およびオーディオ出力部１４が設けられている。ＰＣＭバッファ部１３は、デコードしたオーディオデータを格納する。オーディオ出力部１４は、デコード部６０からその外部へオーディオデータを出力する。このオーディオデータは、さらにデータ処理装置１００に接続された映像音響機器１２０に出力される。
なお、上述のビデオデコード部５およびオーディオデコード部８は、デコードする点において同じ機能を有する。したがって、それぞれの機能を実現できる限り、１つの半導体集積回路等として実装してもよい。例えば図４は、ビデオデコード部５およびオーディオデコード部８を有するデコーダチップ１５を示している。
次に、ビデオ出力部１２およびオーディオ出力部１４から出力されるビデオデータおよびオーディオデータを、同期して再生するための構成を説明する。デコードタイミングおよび再生タイミングは、システム時刻基準参照部４によって実現される。システム時刻基準参照部４は、ＭＰＥＧシステムのデータ処理装置１００の内部においてシステム時刻基準ＳＴＣを生成する。データ処理装置１００側でＳＴＣを生成するためには、ＤＶＤディスク等で使用されるプログラムストリーム（ＰＳ）に規定されるＳＣＲの値を用いる。上述のように、ＳＣＲはパックヘッダに記述されている。なお、入力されるデータストリームがＢＳデジタル放送で使用されるトランスポートストリーム（ＴＳ）のときは、ＰＣＲ（ＰｒｏｇｒａｍＣｌｏｃｋＲｅｆｅｒｅｎｃｅ：プログラム時刻基準参照値）が用いられる。
システム時刻基準参照部４は、ビデオデータの最終バイトの到着時（再生処理部５０からのデータ受け取り時）に、ＳＣＲの値と同じ値がシステム時刻基準ＳＴＣとして設定され、ＳＴＣが基準時刻とされる。さらに、このＳＴＣの値と、ＰＬＬ（位相ロックループ）回路（図示せず）とを組み合わせることにより、デコード部６０の基準時刻用システムクロックと完全に周波数が一致したＳＴＣにすることができる。システム時刻基準ＳＴＣのシステムクロックの周波数は２７ＭＨｚである。このＳＴＣからカウンタ等により分周することにより、各ＰＴＳ（周波数：９０ｋＨｚ）が参照される。
データ処理装置１００が従来の処理を行う場合には、ビデオデコード部５は、システム時刻基準ＳＴＣがＶＰＴＳに一致したときそのＰＴＳが付加されていたアクセスユニットを出力し再生させる。またオーディオデコード部８は、ＳＴＣがＡＰＴＳに一致したときにそのＰＴＳが付加されていたアクセスユニットを出力し再生させる。ＰＴＳの周波数は９０ｋＨｚであるから、この精度の範囲内で、ＳＴＣとＶＰＴＳおよびＡＰＴＳとの同期をとれるようにビデオデータおよびオーディオデータの各々をデコードする。これにより、ビデオおよびオーディオの同期再生を実現できる。
一方、本実施形態による処理によれば、映像音響機器１２０におけるビデオ処理の遅延を考慮した上で、データ処理装置１００はビデオおよびオーディオの同期再生を実現する。以下、図５を参照しながらその概略を説明し、その後、図６を参照しながらその動作を実現するための処理の手順を説明する。
図５は、ＰＴＳを用いてビデオとオーディオとの同期再生を実現する再生タイミングを示す。再生時刻情報が示すタイミングが４段に分けて記載されている。
１段目は、データストリーム１０に規定されていたビデオ再生時刻情報（ＶＰＴＳ）のタイミングを示す。データストリーム１０を生成したエンコーダ（図示せず）は、時刻ｔ_ｖ１、ｔ_ｖ２、・・・において、ビデオが再生されることを意図して圧縮符号化を行っている。時刻ｔ_ｖ１とｔ_ｖ２との間隔は、例えば、ＮＴＳＣ方式であれば３３ミリ秒のｎ倍（ｎ：自然数）（３０Ｈｚ）、ＰＡＬ方式であれば４０ミリ秒のｎ倍（ｎ：自然数）（２５Ｈｚ）である。
次に、３段目はデータストリーム１０のオーディオの再生タイミングを示す。オーディオについてもビデオと同様に、エンコーダ（図示せず）は、時刻ｔ_Ａ１、ｔ_Ａ２、・・・において、オーディオが再生されることを意図して圧縮符号化を行っている。時刻ｔ_Ａ１とｔ_Ａ２との間隔は、例えば、ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）方式では２１．１２ミリ秒のｎ倍（ｎ：自然数）である。
一方、図５の２段目は、映像音響機器１２０におけるビデオ処理によって遅延したビデオの再生タイミングを示す。例えば、最初に表示されるビデオについてみると、ビデオ処理に起因する遅延により、本来時刻ｔ_ｖ１で表示されるはずの映像が、時刻ｔ_ｖ１より後の時刻ｔ_ｐ１において再生されている。その時間差をΔｔとする。
次に、４段目は、本実施形態のオーディオ遅延設定部９が元の再生時刻情報（ＡＰＴＳ）を修正した後の、オーディオの再生タイミングを示す。オーディオ遅延設定部９は、時刻ｔ_ｖ１において再生されるべきことを示すオーディオの再生時刻情報（ＡＰＴＳ）を、ビデオが映像音響機器１２０において遅延する時間（Δｔ）だけずらした時刻情報（ＮＡＰＴＳ）に修正し、オーディオの再生時刻を遅延させている。この結果、ビデオデータは１段目のタイミング（時刻ｔ_ｖ１、ｔ_ｖ２、・・・）においてビデオ出力部１２から出力され、２段目のタイミング（時刻ｔ_ｐ１、ｔ_ｐ２、・・・）において再生され、オーディオデータは３段目のタイミングにおいてオーディオ出力部１４から出力され、４段目のタイミング（時刻Ｔ_ＮＡ１、Ｔ_ＮＡ２、・・・）において再生される。ビデオの処理によって遅延した時間Δｔだけオーディオの再生時間をずらすことにより、エンコード時に想定されていた再生タイミングでビデオおよびオーディオを再生できる。よって、同期再生が意図されていたビデオおよびオーディオに対しても、想定されていたとおりの同期再生を実現できる。
なお、ビデオおよびオーディオの「同期再生」とは、ビデオの再生タイミングがオーディオの再生タイミングに対して、一定の時間範囲（例えば５０ミリ秒先行から３０ミリ秒遅延の間）に入っていることをいう。ビデオおよびオーディオのＰＴＳが一致している場合に限られるものではない。
ビデオとオーディオとが時間にして３０ミリ秒以上のずれると、視聴者に違和感を与える場合がある。したがって、ＶＰＴＳが、ＮＡＰＴＳに対して５０ミリ秒先行（さらに厳密には３０ミリ秒先行）から、３０ミリ秒遅延までの間にあわせれば、実際の視聴において視聴者にとっては同期再生されているといえる。
図６は、本実施形態によるデコード部６０の処理手順を示す。まずステップＳ１０１において、システムデコード部１は、符号化データストリームを符号化ビデオデータおよび符号化オーディオデータに分離し、ステップＳ１０２において、符号化データ（ビデオ／オーディオ）から、符号化フレームデータおよび再生時刻情報（ＶＰＴＳ／ＡＰＴＳ）を抽出する。ビデオおよびオーディオの各符号化フレームデータは、それぞれビデオバッファ部２およびオーディオバッファ部６に格納され、再生時刻情報（ＶＰＴＳ／ＡＰＴＳ）はビデオ再生管理部３およびオーディオ再生管理部７に送られる。
図７（ａ）は、オーディオ再生管理部７において生成されるテーブルの構成を示す。このテーブルは、オーディオバッファ部６に格納されたオーディオデータとオーディオ再生時刻情報とを関連づける。まず、オーディオ再生管理部７は、例えばＡＰＴＳごとにスロットという単位に分割する。そして、各スロットとオーディオアドレス情報とを対応付ける。オーディオアドレス情報は、対応するスロットに再生される、オーディオバッファ部６に格納されたオーディオデータの先頭アドレスを参照する。図７（ｂ）は、オーディオバッファ部６に格納されたオーディオデータのデータ配置と、オーディオアドレス情報によって参照されるデータ位置の関係を示す。
再び図６を参照する。ステップＳ１０３において、ビデオデコード部５およびオーディオデコード部８は、ＶＰＴＳ／ＡＰＴＳがシステム時刻基準ＳＴＣに達する前に、ビデオ／オーディオの符号化フレームデータをデコードし、ステップＳ１０４において、デコードされたビデオ／オーディオデータをフレームバッファ部１１およびＰＣＭバッファ部１３に格納する。
次にステップＳ１０５において、オーディオ遅延設定部９は、予め設定された遅延時間に対応するＰＴＳ値ΔｔをＡＰＴＳの値に加算し、新たなオーディオ再生時刻情報ＮＡＰＴＳ値を求める（ＮＡＰＴＳ＝ＡＰＴＳ＋Δｔ）。以上の処理によって、オーディオの再生時刻情報（ＡＰＴＳ）を修正した新たな再生時刻情報（ＮＡＰＴＳ）が得られる。
本実施形態では、遅延時間はユーザによって予め設定されているとする。図８（ａ）はオーディオ遅延設定部９の操作部の例を示す。ユーザが初期設定画面において図８（ａ）に示す項目選択キーを操作すると、音声の遅延時間を設定できるモードに移行する。図８（ｂ）は音声の遅延時間を設定する際の画面の例を示す。ユーザが操作部を介して画面上のハイライト９１を「手動」にあわせ、決定キーを押下すると、手動による遅延時間の設定モードに移行する。ユーザが遅延量の表示窓９３を見ながら図８（ａ）の「設定１」と示される上方向ボタンを押下すると画面上の増加ボタン９２ａがハイライトされ遅延量が増加する。逆に、「設定２」と示される下方向ボタンを押下すると、画面上の減少ボタン９２ｂがハイライトされ遅延量が減少する。図８では、遅延させたい時間が“６０ｍｓ”に設定されている。ＰＴＳ値Δｔは設定された遅延時間に基づいて得ることができる。設定された時間がｔ（ｍｓ）のとき、ＰＴＳ値Δｔ＝９０．９ｔまたは９１ｔとなる。
次にステップＳ１０６において、ビデオデコード部５は、システム時刻基準ＳＴＣがＶＰＴＳに達したか否かを判断する。達していれば、ステップＳ１０７においてビデオ出力部１２はフレームバッファからビデオデータを出力する。達していなければ、達するまで待つ。次に、ステップＳ１０８において、オーディオデコード部８は、ＳＴＣがＮＡＰＴＳに達したか否かを判断する。「達した」とは、ＳＴＣがＮＡＰＴＳに一致したとき、またはＳＴＣがＮＡＰＴＳを超過したときを示す。達していれば、ステップＳ１０９において、オーディオ出力部１４はＰＣＭバッファからビデオデータを出力する。達していなければ、達するまで待つ。
そして、ステップＳ１１０において、ビデオデコード部５およびオーディオデコード部８はデコードが終了したか否かを判断する。終了したときは処理を終了し、していなければステップＳ１０１に戻って処理を継続する。なお、ユーザから再生の停止が指示された場合にも処理は終了する。
以上、本実施形態によるデータ処理装置１００の動作（特にデコード部６０の動作）を説明した。
上述した説明では、圧縮符号化されたオーディオデータをデコードした後ＰＣＭデータをバッファするとした。しかし、それに代えて、デコード部６０がデコードする前のオーディオバッファ部６に、オーディオデータをバッファすることも好ましい。デコードされたＰＣＭデータより、デコード前の圧縮符号化された状態のオーディオデータの方がデータ量が小さく、オーディオバッファ部６等のバッファサイズが少なくてすむからである。具体的には、オーディオの符号化フレームデータがオーディオバッファ部６に格納された後、予め設定された遅延時間に対応するＰＴＳ値Δｔをオーディオの再生時刻（ＡＰＴＳ）の値に加算してＮＡＰＴＳ値を求めればよい（ＮＡＰＴＳ＝ＡＰＴＳ＋Δｔ）。これは、図６のステップＳ１０２の後、ステップＳ１０３の前に、ステップＳ１０５の処理を行うことに相当する。その他の処理は図６に示すとおりである。
図９は、オーディオバッファ部６の構成の例を示す。オーディオバッファ部６には、オーディオ遅延がない場合において符号化オーディオデータが格納される標準バッファ６ａと、オーディオ遅延がある場合において追加の符号化オーディオデータが格納される追加バッファ６ｂとが設けられる。追加バッファ６ｂが設けられる理由は、オーディオ遅延がある場合には、従来の処理によればＡＰＴＳによって示された時刻に出力されているはずのオーディオデータが、本実施形態による処理ではＮＡＰＴＳになるまで出力されないため、時間にしてΔｔ（＝ＮＡＰＴＳ−ＡＰＴＳ）の間に読み込まれたデータをさらに格納するバッファ容量が必要になるからである。
よって、オーディオバッファ部６に必要なバッファ容量は、当初のＡＰＴＳによって規定される再生時刻の到達前までに受け取る符号化オーディオデータのデータ量と、再生時刻の遅延量（Δｔ）に応じた時間の経過までに受け取る符号化オーディオデータのデータ量との和以上である。前者は標準バッファ６ａにより、後者は追加バッファ６ｂにより確保される。
例えば、追加バッファ６ｂに最大１００ミリ秒のデータを追加的に格納できる追加バッファ６ｂが必要である場合を考える。これは、遅延時間が最大１００ミリ秒の場合に相当し、ビデオではＮＴＳＣ方式出力のときのビデオ約３フレームの表示時間に相当する。この場合に必要な追加バッファ６ｂの容量は、ＢＳデジタル放送で使用されているオーディオ圧縮フォーマットのＡＡＣ方式では約２２キロバイトである（１チャンネルあたり２８８キロビット秒として６チャンネル分のデータ量を算出した）。この容量は、デコード後のＰＣＭデータを追加的に保存するときの容量の数分の１である。
なお、オーディオバッファ部６に格納される符号化オーディオフレームデータのデータ量が増加するため、オーディオ再生管理部７のテーブルサイズを増加させなければならない点にも留意しなければならない。
ただし、オーディオ再生管理部７に全てのオーディオの再生時刻情報（ＡＰＴＳ）を格納せず、一部を間引いてテーブルを構成すれば、テーブルサイズの増加を防ぐことができる。図１０（ａ）は間引き前のオーディオ再生管理部７のテーブル７ａの構成を示し、図１０（ｂ）は間引き後のオーディオ再生管理部７のテーブル７ｂの構成を示す。テーブル７ｂは、テーブル７ａの奇数番目の再生時刻情報（ＡＰＴＳ）を間引いて生成されている。オーディオ再生管理部７がリアルタイムでテーブル７ｂを生成するときは、１つおきにの再生時刻情報（ＡＰＴＳ）およびその対応アドレス情報の関係を記述すればよい。これによりテーブル７ｂのデータ量はテーブル７ａのデータ量の半分になる。換言すれば、同じテーブルサイズであれば、テーブル７ｂはテーブル７ａの倍のオーディオデータを管理できる。なお、再生時刻情報（ＡＰＴＳ）およびその対応アドレス情報を間引くことにより、同期に必要なＡＰＴＳ情報が減少するため、同期させる頻度は減少するが、管理すべきデータのデータ量が増加しても確実にビデオとオーディオの再生を同期させることができる。
本実施形態では、ビデオデコード部５およびオーディオデコード部８は、圧縮符号化されたビデオデータおよびオーディオデータをデコードして、フレームバッファ部１１およびＰＣＭバッファ部１３に保持しておくとした。しかし、例えばＤＶＤにはリニアＰＣＭデータがオーディオデータとして含まれている場合には、デコード動作は不要である。リニアＰＣＭデータは符号化はされているが圧縮はされていないからである。ただし、オーディオデータがリニアＰＣＭデータであっても、ストリームに含まれる同期情報に従ってビデオと同期して再生されるため、先の説明をそのまま適用できる。また、データ処理装置１００が光出力端子からドルビーデジタル等の符号化ストリームをそのまま出力する場合には、ストリームバッファ（図示せず）に一旦蓄えて、ＳＴＣを参照し、ＮＡＰＴＳがＳＴＣに達した時点で、オーディオ出力部１４から出力すればよい。
次に、オーディオの遅延を発生させる映像音響機器１２０のビデオ処理の具体例を説明する。想定されるビデオ処理は、
（１）毎秒２４フレームのフィルム素材から毎秒３０フレームのビデオ素材への変換処理、
（２）インターレース走査・プログレッシブ走査間の変換処理、標準画質（ＳｔａｎｄａｒｄＤｅｆｉｎｉｔｉｏｎ；ＳＤ）のＤ１規格信号・高精細画質（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎ；ＨＤ）のＤ３規格信号間の変換処理、ＮＴＳＣ方式・ＰＡＬ方式間の変換処理
（３）ユーザからの指示等に基づく映像の拡大、縮小、編集処理
（４）複数の映像の合成処理
等である。上述の処理が不要な通常の再生時には、オーディオデータを遅延して出力する必要はない。しかし、ビデオ処理のオン／オフによって遅延が発生しうるため、遅延量の設定およびその設定に基づくオーディオデータの遅延出力が必要になる。
そのようなときは、オーディオ遅延設定部９に遅延時間が異なる複数の遅延情報を設け、行われる処理種別に応じて対応付けておくことが好ましい。例えば、映像音響機器１２０で実行される画像処理の種別をユーザが入力すると、その種別応じて遅延時間を変えるようにデコード部６０を構成すればよい。
次に、オーディオデータの再生時間を遅延させる遅延時間を求め、その時間をオーディオ遅延設定部９において自動的に設定するための第１〜第３の設定手法を説明する。
まず第１の手法は以下のとおりである。データ処理装置１００において、ビデオ信号にあらかじめ特定パターンの信号が含まれている同期検証用テストストリーム等をデコードし、映像音響機器１２０に送る。そして、映像音響機器１２０においてビデオ処理された後の表示された映像をキャプチャし、その遅延時間を測定する。得られた遅延時間をオーディオ遅延設定部９に設定することにより、遅延時間が設定できる。これらの処理を自動化することによりオーディオの再生遅延時間を自動的に設定できる。なお、遅延時間は、映像音響機器１２０における各信号処理モードの各々について遅延時間を測定し、遅延時間を設定してもよい。テストストリームは、放送系から入力されてもよいし、テストディスクまたはデータ処理装置１００内のメモリ等から読み出されてもよい。なお、入力がテストストリームではなく、あらかじめデコードされたビデオデータを出力するようなテストパターンであってもよい。これは、デコードした後のビデオ処理での遅延を測定すればよいためである。
続いて、遅延時間を自動的に設定する第２の手法を説明する。第２の手法では、オーディオとの同期を阻害するビデオ処理の遅延原因（１）〜（４）の処理を、映像音響機器１２０ではなく、ビデオデコード部５のビデオ出力部１２が行う。ビデオ出力部１２がそのようなビデオ処理を行うことにより、デコード部６０はビデオ処理に起因する遅延時間を把握することができ、その結果、オーディオ遅延設定部９はリアルタイムで遅延量を変更できる。また、映像音響機器１２０におけるビデオ処理も必要なくなるので、その負荷が軽減できる。
図１１は、ビデオ処理を行う処理回路を搭載したビデオ出力部１２の機能ブロックの構成を示す。ビデオ出力部１２は、フレームバッファ部１１からデコードされたフレームデータを受け取り、所定のビデオ処理を行ったビデオデータを出力する。ビデオ出力部１２は、ＩＰ変換部７１と、フォーマット変換部７２と、拡大縮小部７３と、他画面合成部７４と、ＧＵＩ重畳部７５と、出力部７６とを有する。これらの構成要素に関連して、ビデオデコード部５には外部映像入力部７７およびＧＵＩデータ生成部７８とが別途設けられる。
ＩＰ変換部７１は、インターレース走査・プログレッシブ走査間の変換処理を行う。フォーマット変換部７２は、４８０ｉビデオ信号・１０８０ｉビデオ信号間の変換処理およびＮＴＳＣ方式・ＰＡＬ方式間の変換処理を行う。拡大縮小部７３は、ユーザからの指示等に基づく映像の拡大、縮小、編集処理を行う。他画面合成部７４は、デコードされたビデオと外部映像入力部７７から入力されるビデオとを合成する。ＧＵＩ重畳部７５は、これまでの処理によって得られたビデオに、ＧＵＩデータ生成部７８によって生成されたＧＵＩデータを重畳する。そして出力部７６は、最終的に得られたビデオデータを出力する。この出力は、映像音響機器１２０に送られる。ビデオデコード部５は、ビデオデータが得られたときの時刻をＳＴＣに基づいて取得し、そのビデオデータのＶＰＴＳと比較することによって、遅延時間を特定することができる。
さらに、遅延時間を自動的に設定する第３の手法を説明する。第３の手法では、データ処理装置１００と映像音響機器１２０とが互いに通信して、データ処理装置１００が映像音響機器１２０において行われるビデオ処理の種別を特定する。これにより、データ処理装置１００のデコード部６０は、ビデオ処理に起因する遅延時間を予め特定できる。
以下、具体的に説明する。図１２は、データ処理装置１００と映像音響機器１２０との接続およびそれらの間で授受されるデータの種類を示す。図１２の例では、ＨＤＭＩ規格に従ってデータが授受される。まずＨＤＭＩトランスミッタ８０は、映像音響機器１２０のＨＤＭＩレシーバ１３０に対して、映像音響機器１２０を特定する情報（機器固有情報）を求める制御コマンドを送信する。ＨＤＭＩレシーバ１３０は、その制御コマンドに基づいて、自己の装置の機器ＩＤを機器固有情報としてＨＤＭＩトランスミッタ８０に送信する。機器ＩＤは、例えば映像音響機器１２０内のＲＯＭ１３１にメーカー固有情報（ＶｅｎｄｏｒＳｐｅｃｉｆｉｃＤａｔａ）として格納されており、メーカー名、機種名等を特定することができる。
ＨＤＭＩトランスミッタ８０は、機器ＩＤを受け取ってデコード部６０に出力する。デコード部６０は、機器ＩＤを受け取ると、内部メモリまたは外部のメモリカード等に規定されたテーブルを参照する。テーブルには、機器ＩＤと遅延設定との対応が記述されている。デコード部６０は、機器ＩＤおよびそのテーブルに基づいて、映像音響機器１２０が実行するビデオ処理に起因する遅延時間を得ることができる。これにより、その遅延時間をオーディオ遅延設定部９に設定できる。なお、図１２は、ＭＰＥＧ２プログラムストリームをデコードするデータ処理装置１００を利用する場合の例であるが、デコードの対象はこのストリームに限られない。例えば、受信され、記録されたデジタル放送のＭＰＥＧ２トランスポートストリームもデコードの対象になる。デコード部６０はストリームの種類に応じたデコードを行うように構成されればよい。
ここまでは、システム時刻基準参照値ＳＣＲを基準としてシステム時刻基準ＳＴＣを生成し、そのＳＴＣに基づいて、ビデオの再生時間を規定するＶＰＴＳおよび遅延させたオーディオの再生時間を規定するＮＡＰＴＳを生成し、ビデオおよびオーディオを同期して再生させるとして説明した。しかし、さらにＶＰＴＳに基づいてオーディオを再生することもできるし、ＮＡＰＴＳに基づいてビデオを再生することもできる。
光ディスク１１０に記録した符号化コンテンツを再生する場合、符号化コンテンツ等を編集し、編集点でのビデオを途切れなく再生する場合には、ビデオの再生時間を基準とした時間管理が有効である。これは、ＶＰＴＳを基準としてＮＡＰＴＳを管理することを意味する。本明細書では、ＶＰＴＳを基準としてＮＡＰＴＳを管理することをビデオマスターと呼ぶ。システム時刻基準参照部４は、ＳＣＲに基づいて生成したＳＴＣではなく、ＶＰＴＳに基づいてＳＴＣを生成し、かつＮＡＰＴＳが規定精度以内におさまるようにオーディオデコードを実施する。そして、ＮＡＰＴＳによって規定される時刻がＶＰＴＳによって規定される時刻を超えるまでのオーディオデータの再生をスキップすることによって、ビデオとオーディオとを同期して再生する。デコード部６０のシステム時刻基準参照部４は、ＶＰＴＳによって規定される再生時刻とＮＡＰＴＳによって規定される時刻とが一定の許容範囲内に入ったことを確認した後、ビデオマスターに基づいて時間を管理して再生すればシームレスな編集再生を実現することができる。
例えば、ビデオデータの一部を削除した後で削除部分の前後にわたってシームレスに映像を再生したい場合には、削除位置直後のビデオデータに基づいて映像を表示するとともに、削除位置直前のビデオデータのＶＰＴＳから生成したＳＴＣ値を、削除位置直後のビデオデータのＶＰＴＳから生成したＳＴＣ値に変更する。そして、オーディオ出力をミュートして再度、遅延量を変更したビデオおよびオーディオの再生同期を取り直すことによってオーディオデコードを再開する。これにより、編集点の前後でもビデオマスターとしたＳＴＣ値の変更が行われ、編集点の再生時に再生された映像がフリーズする等の不自然な再生がなくなる。なおこの場合にも、オーディオ遅延分のオーディオバッファ部６の容量の増加、および、オーディオ再生時刻情報管理部７のテーブルサイズの増加は必要になる。
一方、光ディスク１１０に記録した符号化コンテンツを再生するとき、オーディオを途切れなく再生する場合には、オーディオの再生時間ＮＡＰＴＳを基準とした時間管理が有効である。これは、ＮＡＰＴＳを基準としてＶＰＴＳを同期させることを意味する。本明細書では、ＮＡＰＴＳを基準としてＶＰＴＳを管理することをオーディオマスターと呼ぶ。システム時刻基準参照部４は、ＳＣＲに基づいて生成したＳＴＣではなく、ＮＡＰＴＳに基づいてＳＴＣを生成し、かつ、ＶＰＴＳが規定精度以内におさまるようにビデオデコードを実施する。そして、適当な出力映像のスキップまたは同じ画面の複数回出力によってオーディオをビデオと同期して再生する。オーディオの再生時間ＮＡＰＴＳによって規定される時刻をオーディオマスターとしたときでも、オーディオ遅延を考慮して出力しているため、オーディオを遅延したビデオと同期して再生することができる。なおこの場合にも、オーディオ遅延分のオーディオバッファ部６の容量の増加、および、オーディオ再生時刻情報管理部７のテーブルサイズの増加は必要になる。
例えば、出力音声または音楽等を途切れることなく再生したいとき（早送りやコマ送り再生時）においてオーディオの連続性を保つためには、ビデオの再生が長すぎる、または短すぎる場合がある。その場合には、同じ画面を何度も繰り返し表示し、または、特定数フレームをスキップする等の処理を行う。
オーディオ遅延設定部９において遅延時間の設定を変更する際には、一旦オーディオ出力をフェードアウトもしくはミュート設定して、音量を下げる。そして遅延設定を変更後、ミュート解除もしくは、フェードインを実行し、元の音量に復帰させればよい。
図１に示すデータストリーム１０にはオーディオデータとビデオデータとが混在しており、図４に示すシステムデコード部１においてそれらを分離するとして説明した。しかし、オーディオデータおよびビデオデータは独立した別個のストリームとして含まれていてもよい。例えば、ビデオカメラ等で撮影したオーディオデータおよびビデオデータをＰＣで編集して、ビデオのエレメンタリストリームとオーディオのエレメンタリストリームとにわけてデータ処理装置１００に入力してもよい。ビデオデータの再生時刻情報およびオーディオデータの再生時刻情報に基づいて、ビデオとオーディオが同期して再生されるのであれば、本発明は適用可能である。
本実施形態は、ビデオとオーディオとを同期して再生するとしたが、これは例である。例えば、ＤＶＤに設けられているサブピクチャに関して、そのビデオ処理に基づく再生遅延が発生する場合には、やはりオーディオの再生時刻情報ＮＡＰＴＳを生成して字幕とオーディオとを同期して再生することもできる。また衛星放送を受信し記録した場合のデータ放送の同期についても同様である。映像音響機器１２０においてビデオとデータの内容との重ね合わせ処理等において処理遅延が発生する場合には、オーディオの再生時刻情報ＮＡＰＴＳを生成して、ビデオ、データの内容およびオーディオを同期して再生することができる。
本実施形態では、ＡＰＴＳにオーディオ遅延Δｔに相当するＰＴＳを加算してＮＡＰＴＳを求めるとしたが、ＶＰＴＳからΔｔ相当分を減算してもよい。ただし、ＶＰＴＳからΔｔを減算するだけでなく、システム時刻基準参照値そのものをΔｔ減算することで、同じ効果が得られる。具体的には、データ処理装置１００に、ビデオの再生時刻情報に任意の遅延用設定時間を減算する手段およびシステム時刻基準参照値に任意の遅延用設定時間を減算する手段を設ければよい。これにより、映像音響機器１２０におけるビデオ処理の遅延を考慮して遅延用設定時間を減算したシステム時刻基準参照値に対して、遅延のために設定時間を減算されたビデオと、オーディオとを同期して再生できる。
また、本実施形態では、画像処理によってビデオがオーディオに遅れて再生されることを想定して説明した。しかし、これとは逆に、データ処理装置１００の出力後に行われる各種の音響効果等の処理に起因してオーディオの再生が遅延する場合もある。このときは、ビデオ再生が先行してしまうため、ＶＰＴＳに遅延時間Δｔに相当するＰＴＳを加算した新たなビデオ再生時刻情報ＮＶＰＴＳを求めて、ビデオとオーディオとの再生を同期させればよい。このときは、ビデオバッファ部２およびビデオ再生管理部３のテーブルサイズが増加することになる。
データ処理装置１００に設けられた種々のバッファは、その一部または全部が半導体メモリによって構成されていてもよいし、ハードディスク等の記録媒体によって構成されていてもよい。
上述のデータ処理装置１０の機能、特にデコード部６０の機能は、ソフトウェアを実行することによって実現してもよい。例えば、ＣＰＵ（図示せず）がコンピュータプログラムを実行することによって、各構成要素の動作を制御してもよい。コンピュータプログラムは、例えば図６に示すフローチャートにしたがった処理をデータストリーム１０に実行させるように構成すればよい。
コンピュータプログラムは、光ディスクに代表される光記録媒体、ＳＤメモリカード、ＥＥＰＲＯＭに代表される半導体記録媒体、フレキシブルディスクに代表される磁気記録媒体等の記録媒体に記録することができる。なお、データ処理装置１０は、記録媒体を介してのみならず、インターネット等の電気通信回線を介してもコンピュータプログラムを取得できる。

本発明によれば、ビデオ、オーディオ等を同期して再生することができるデータ処理装置等が提供される。例えば、ビデオ処理に起因してビデオの再生が遅延する場合には、オーディオの再生時刻がビデオの遅延時間相当量だけ遅くなるようにオーディオの再生時刻情報を修正するので、ビデオとオーディオとを同期して再生することができる。

従来、圧縮符号化されて記録されたビデオ信号およびオーディオ信号をＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体から読み出し、デコード（伸張）して出力するデータ再生装置が知られている。データ再生装置が伸張されたデータをその装置に接続されたモニタ、音響スピーカ等に送ることにより、ビデオおよびオーディオの再生が実現される。

圧縮符号化に関しては、多くの規格が規定されている。例えばＭＰＥＧ（Motion Picture Experts Group）は、ビデオ信号およびオーディオ信号の両方を圧縮符号化する規格として知られている。ＭＰＥＧ規格では、ビデオ信号が表すビデオおよびオーディオ信号が表すオーディオが同期して再生されることを保証するために、オーディオ信号およびビデオ信号のそれぞれに再生されるべき時刻を表す時刻情報が付加される。これにより、伸張時にはシステム機器が有するシステム時刻基準参照値に対し、これらの時刻情報を参照してオーディオ信号とビデオ信号とを同期させて再生することができる。

以下、従来の同期方法を説明する。例えば、特許文献１に記載された技術によれば、まず、再生装置はオーディオおよびビデオのいずれか一方が伸張処理を終了したときの時刻と、他方の伸張処理が終了したときの時刻との差分を検出する。そして、検出された差分値に基づいて、再生装置は圧縮データの転送タイミング、伸張回路の起動タイミングおよびビデオの表示タイミングを変更し、オーディオとビデオを同期させて、モニタ、音響スピーカ等の外部機器に出力している。
特開平６−２３３２６９号公報

しかし、上述の再生装置は、その内部でオーディオとビデオとを同期させて外部機器に出力しているため、外部機器においてビデオおよびオーディオの一方に処理を加えて遅延が発生すると他方と同期して再生できないという問題が生じていた。

例えば、テレビ等の映像表示機器が外部機器であるとき、映像表示機器においてインターレース／プログレッシブ変換、ＮＴＳＣ／ＰＡＬ変換等の変換処理や、ユーザからの指示によるビデオの拡大・縮小の画像処理を行うと、処理に時間を要するためオーディオ再生がビデオ再生よりも先行してしまう。例えば、出力画面を拡大する画像処理を想定すると、元の出力画面データから補間データを作成するために演算処理が必要である。そして、なめらかな動画を作り出すために、時間的に前後する複数の出力フレームや出力フィールド単位のフィルタ演算が必要になる。また、複数の入力ストリームを独立して伸張できる回路等から出力された２以上のビデオを合成する処理を想定すると、全てのビデオを同期させるために、特定のストリームのビデオ出力を遅延させなければならない場合がある。さらに、シアターシステム等のように、ビデオ信号を一旦光信号等に変換して伝送するときにも、ビデオ信号の変換に時間を要する場合もある。

上述の１つまたは２つ以上の演算処理等には、数ミリ秒から数十ミリ秒の時間を要する場合がある。オーディオ再生がビデオ再生よりも一定時間（概ね３０ミリ秒）以上先行すると、映像中の人物の口の動きと音声とのずれが目立ち、視聴者に違和感を与える。従来の再生装置は外部機器の処理に起因するビデオおよびオーディオの再生タイミングのずれを想定していないため、外部機器においてさらに時間を要する処理を行うとさらにビデオおよびオーディオの再生タイミングがずれてしまう。

なお、外部機器にオーディオ再生を遅延させるバッファを設け、オーディオと画像処理後のビデオとを同期して再生することは可能である。しかし、外部機器に出力されたビデオデータおよびオーディオデータには再生タイミングを指示する時刻情報は存在しないため、外部機器において出力タイミングを独自に決定することになってしまい妥当ではない。また、バッファを設けるという手法はバッファを持たない現存の外部機器には適用できないため、根本的な解決法とはいえない。

本発明は、以上のような課題を解決するためになされたもので、その目的は、外部接続機器の差、処理種別等によってビデオの遅延量が異なる場合においても、当初意図されたとおりにオーディオとビデオとを同期して再生することである。

本発明によるデータ処理装置は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取る受信部と、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出する分離部と、前記第１データをデコードして、前記第１時刻情報に基づいて出力する第１デコード部と、前記第２時刻情報に基づいて前記第２データを出力する第２デコード部とを有している。データ処理装置は、さらに、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持し、かつ、前記遅延情報に基づいて前記第２時刻情報を修正し、前記第２データの再生時刻を遅延させる遅延設定部を備えている。

前記第２データのコンテンツは圧縮符号化されており、前記第２デコード部は前記第２データを復号し、前記第２デコード部は復号された前記第２データを格納する内部バッファを有していてもよい。

前記第２データのコンテンツは圧縮符号化されており、前記データ処理装置は、圧縮符号化された前記第２データを格納するデータバッファをさらに備え、前記データバッファは、修正後の第２時刻情報によって規定される再生時刻の前に前記圧縮符号化された前記第２データを取り出し、前記第２デコード部に出力してもよい。

前記受信部は前記データストリームを継続的に受け取り、前記データバッファは前記第２データを順次格納する。前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上であってもよい。

前記データ処理装置は、前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理する管理部をさらに備えていてもよい。

前記管理部は、一部の前記第２データについて前記テーブルを管理してもよい。

前記受信部は、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取ってもよい。

前記遅延設定部は、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持してもよい。

前記遅延設定部は、予め定められた値を前記遅延情報として保持してもよい。

前記遅延設定部は、再生時刻の遅延量を３０ミリ秒以上の値として規定した遅延情報を保持してもよい。

前記データ処理装置は、接続先の機器に前記第１データを送出するとともに、前記機器を特定することが可能な固有情報を前記機器から受け取るトランスミッタをさらに備えている。前記トランスミッタは、前記固有情報に基づいて前記機器において実行される前記第１データに関するビデオ処理の所要時間を特定し、前記遅延設定部は、特定された前記所要時間の値を前記遅延量として遅延情報を保持してもよい。

前記第１デコード部および前記第２デコード部は、単一のデコード回路として実装されてもよい。

本発明によるデータ処理方法は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取るステップと、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出するステップと、前記第１データをデコードして、前記第１時刻情報に基づいて出力するステップとを包含している。さらにデータ処理方法は、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持するステップと、前記遅延情報に基づいて前記第２時刻情報を修正して前記第２データの再生時刻を遅延させるステップと、前記第２時刻情報に基づいて前記第２データを出力するステップとを包含する。

前記第２データのコンテンツは圧縮符号化されており、前記第２データを出力するステップは、前記第２データを復号し、復号された前記第２データをデータバッファに格納した後に出力してもよい。

前記第２データのコンテンツは圧縮符号化されており、前記データ処理方法は、圧縮符号化された前記第２データをデータバッファに格納するステップと、修正後の第２時刻情報によって規定される再生時刻の前に、格納された前記第２データを前記データバッファから取り出すステップとをさらに包含する。前記第２データを出力するステップは、前記データバッファから取り出された前記第２データを出力してもよい。

前記受信するステップは、前記データストリームを継続的に受信し、前記第２データを格納するステップは前記第２データを前記データバッファに順次格納する。前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上であってもよい。

前記データ処理方法は、前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理するステップをさらに包含してもよい。

前記管理するステップは、一部の前記第２データについて、前記テーブルを管理してもよい。

前記受信するステップは、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取ってもよい。

前記遅延させるステップは、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持してもよい。

前記遅延させるステップは、予め定められた値を前記遅延情報として保持してもよい。

前記遅延させるステップは、前記再生時刻の遅延量を３０ミリ秒以上に規定した遅延情報を保持してもよい。

前記データ処理方法は、接続先の機器に前記第１データを送出するステップと、前記機器を特定することが可能な固有情報を前記機器から受け取るステップと、前記固有情報に基づいて、前記機器において実行される前記第１データに関するビデオ処理の所要時間を特定するステップとをさらに包含する。前記遅延させるステップは、特定された前記所要時間の値を遅延情報として保持してもよい。

本発明によるコンピュータプログラムは、データ処理装置のコンピュータにおいて実行される。前記プログラムにしたがってコンピュータが実行するデータ処理方法は、圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取るステップと、前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出するステップと、前記第１データをデコードして、前記第１時刻情報に基づいて出力するステップとを包含している。さらに、このコンピュータが実行するデータ処理方法は、前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持するステップと、前記遅延情報に基づいて前記第２時刻情報を修正して前記第２データの再生時刻を遅延させるステップと、前記第２時刻情報に基づいて前記第２データを出力するステップとを包含する。

以下では、まずデータストリームのデータ構造を説明し、その後、そのデータストリームを利用して本発明の処理を行うデータ処理装置の構成および動作を説明する。

図１は、ＭＰＥＧ２プログラムストリーム１０のデータ構造を示す。ＭＰＥＧ２プログラムストリーム１０（以下「データストリーム１０」と称する）は、ＤＶＤビデオ規格に準拠したデータ構造を有している。データストリーム１０は、ビデオのコンテンツに関するビデオデータと、オーディオのコンテンツに関するオーディオデータとが含まれている。以下では、ビデオデータおよびオーディオデータが含まれているとして説明するが、これら以外にも、データストリーム１０には字幕データ等が含まれていてもよい。

データストリーム１０は、複数のビデオオブジェクトユニット（Video OBject；ＶＯＢ）＃１、＃２、・・・、＃ｋを含んでいる。各ＶＯＢは、複数のＶＯＢユニット（Video OBject unit；ＶＯＢＵ）＃１、＃２、・・・、＃ｎを含んでいる。各ＶＯＢＵは、映像の再生時間にして０．４秒から１秒程度のデータを含むデータ単位である。以下、ＶＯＢＵ＃１および＃２を例にして、ＶＯＢＵのデータ構造を説明する。なお、以下で用いられる「再生」という語は、特に明示しない限り、ビデオコンテンツや字幕等のビデオに関しては表示機器（テレビ等）に映し出されることをいい、オーディオに関しては出力機器（スピーカ等）から音として出力されることをいうとする。

ＶＯＢＵ＃１は、複数のパックから構成されている。データストリーム１０内の各パックのデータ長（パック長）は一定（２キロバイト（２０４８バイト））である。ＶＯＢＵの先頭には、図１に“Ｎ”で示されるナビゲーションパック（ナビパック）２０が配置されている。ナビパック２０の後には、“Ｖ”で示されるビデオパック（ビデオパック３０等）および“Ａ”で示されるオーディオパック（オーディオパック４０等）が複数含まれている。

各パックは以下の情報を格納している。すなわち、ナビパック２０は、データストリーム１０内のビデオ、オーディオ等の再生を制御するために用いられる情報、例えばＶＯＢＵの再生タイミングを示す情報等を格納している。ビデオパック３０は、ＭＰＥＧ２圧縮符号化されたビデオデータを格納している。オーディオパック４０は、例えばＭＰＥＧ２−オーディオ規格によって圧縮符号化されたオーディオデータを格納している。近接するビデオパック３０およびオーディオパック４０には、例えば、同期して再生されるビデオデータおよびオーディオデータが格納されているが、それらの配置（順序）は任意である。

ＶＯＢＵ＃２もまた、複数のパックから構成されている。ＶＯＢＵ＃２の先頭には、ナビパック２０が配置され、その後、ビデオパック３０およびオーディオパック４０等が複数配置されている。各パックに格納される情報の内容はＶＯＢＵ＃１と同様である。

次に、図２を参照しながらオーディオパック４０のデータ構造を説明する。図２は、オーディオパック４０のデータ構造を示す。オーディオパック４０は、オーディオパケット４１およびパディングパケット４２を含む。なお、パディングパケット４２はデータパックのパック長を調整するために設けられたパケットであるため、パック長を調整する必要がないときは存在しない。このときは、オーディオパック４０にはオーディオパケット４１のみが含まれる。

オーディオパケット４１は、先頭から順に、１４バイトのパックヘッダ（Pack_H）、２４バイトのシステムヘッダ（system_H）、パケットヘッダ（Packet_H）４１ａおよびペイロードを有する。

パックヘッダには、パックの種類（ここではオーディオパケット）を特定する情報が記述される。パックの開始コードに続いて、基準時間情報であるＳＣＲ（System Clock Reference；システム時刻基準参照値）が記述されている。ＳＣＲは、ストリームをデコードする際に、復号器側の動作時刻の基準となる同期信号ＳＴＣ（System Time Clock；システム時刻基準）の値を符号器側が意図した値に設定し、または、その値に修正するための情報である。ＳＣＲは基本的にどのパケットヘッダにも付加される。ＳＣＲは、９０ｋＨｚのクロックで計測した値であり、３３ビット長で表されている。システムヘッダは、ＶＯＢＵの先頭のパックに必ず付加される。パケットヘッダ４１ａは後に詳述する。ペイロードには、圧縮符号化されたビデオデータが記述される。

オーディオパック４０には、パック長を調整する目的で、パックヘッダ４２とパディングデータ４２ｂとを有するパディングパケット４２が設けられる。所定の条件のもとでは、パディングパケット４２を設けることに代えて、パケットヘッダ４１ａ内にスタッフィングバイトフィールド４９が設けられる。両者は同一のパック内には共存しない。図２に示す例では、オーディオパック４０にはパディングパケット４２が存在しているため、スタッフィングバイトフィールド４９は０バイトであり存在しない。

次に、オーディオパケット４１のパケットヘッダ４１ａのデータ構造を説明する。パケットヘッダ４１ａは、パケット長フィールド４３、フラグフィールド４４およびヘッダデータ長フィールド４５を有する。さらに、パケットヘッダ４１ａには、時間フラグフィールド４４ａおよびＰＥＳ拡張フラグフィールド４４ｂの値に応じて、追加のフィールド４６が設けられることがある。

パケット長フィールド４３には、そのフィールド以降からそのオーディオパケット４１の最後までのパケット長（バイト長）が記述される。続いて、フラグフィールド４４は、時間フラグフィールド４４ａ（PTS_DTS_flag）、ＰＥＳ拡張フラグフィールド（PES_extension_flag）４４ｂ等を含む。時間フラグフィールド４４ａには、後述するプレゼンテーションタイムスタンプ（ＰＴＳ）またはデコーディングタイムスタンプ（ＤＴＳ）の有無を示すフラグが記述される。また、ＰＥＳ拡張フラグフィールド４４ｂには、ＰＥＳ拡張フィールド４８の有無を示すフラグが記述される。ヘッダデータ長フィールド４５には、追加のフィールド４６およびスタッフィングバイトフィールド４９のフィールド長の和が格納される。

次に、追加のフィールド４６を説明する。ＭＰＥＧでは、ビデオおよびオーディオの同期再生を実現するために、ビデオとオーディオの各アクセスユニットと呼ばれるデコードの単位ごと（ビデオは１フレーム、オーディオは１オーディオフレーム）に、いつ再生すべきかの時刻を管理するためのタイムスタンプ値が付加されている。このタイムスタンプ値は、ＰＴＳ（Presentation Time Stamp）と呼ばれ、オーディオ用はオーディオＰＴＳ（以下「ＡＰＴＳ」と記述する）およびビデオ用はビデオＰＴＳ（以下「ＶＰＴＳ」と記述する）が規定されている。

ＰＴＳが上述のシステム時刻基準ＳＴＣに一致したときに、そのＰＴＳが付加されたアクセスユニットが再生のために出力される。ＰＴＳの精度は、ＳＣＲと同様、９０ｋＨｚのクロックで計測した値であり、３３ビット長で表されている。９０ｋＨｚで計測する理由は、ＮＴＳＣ、ＰＡＬの両方のビデオ方式のフレーム周波数の公倍数であることと、オーディオの１サンプル周期よりも高い精度を得るためである。

一方、圧縮データをどのような順序でデコードすべきかを示すタイムスタンプ情報が付加されている。このタイムスタンプ値は、デコーディングタイムスタンプ（ＤＴＳ）と呼ばれる。

フィールド４６に各５バイトのＰＴＳ／ＤＴＳフィールド４７が設けられているときは、時間フラグフィールド４４ａはＰＴＳおよびＤＴＳを有することを示している。時間フラグフィールド４４ａの値に応じて、いずれか一方のフィールドが設けられる。また、追加のフィールド４６としてＰＥＳ拡張フィールド４８が設けられることもある。ＰＥＳ拡張フィールド４８にはプログラムストリーム１０のデコードに必要な情報、例えばデコード用のデータバッファの容量等が記述される。

なお、図２ではオーディオパックのデータ構造を示したが、ビデオパックのデータ構造も同様である。「オーディオパケット」を「ビデオパケット」に読み替え、ペイロードに格納される「オーディオデータ」を「ビデオデータ」に読み替えればよい。ビデオパケットにも、上述したＰＴＳおよびＤＴＳが同じデータ構造で記述されており、デコードタイミングおよび再生タイミングが規定される。

次に、図３および図４を参照しながら、本実施形態によるデータ処理装置１００の構成および動作を説明する。図３は、データ処理装置１００と、データ処理装置１００に接続された映像音響機器１２０を示す。データ処理装置１００は、ＤＶＤ−ＲＯＭ等の光ディスク１１０から光ピックアップを介してデータストリーム１０を読み出す。再生処理部５０は、アナログ波形として読み出されたデータストリーム１０に２値化処理等を行って、デジタルデータストリームとして出力する。ＭＰＥＧ２−ＰＳデコード部６０（以下「デコード部６０」と記述する）は、このストリームをビデオデータおよびオーディオデータに分離し、各々をデコードして映像音響機器１２０に出力する。

データ処理装置１００は、ＤＶＤプレーヤ、ＤＶＤレコーダ、ＰＣ等であるが、光ディスク１１０に代えてハードディスクを用いたときはハードディスクレコーダである。または、アンテナ等を介してデジタル放送のデータストリーム１０を受け取るときには、データ処理装置１００はセットトップボックス、デジタル衛星放送受像機等として実現される。一方、映像音響機器１２０は、例えばＴＶ等のモニタ出力機器、オーディオ出力アンプ、ＡＶセレクタ機能を有するＡＶアンプ等のインタフェース機器である。図３では１つの映像音響機器１２０が示されているが、映像を表示する機器、音声等を出力する機器等が複数存在していてもよい。

本実施形態によるデータ処理装置１００の特徴のひとつは、映像音響機器１２０において行われる種々の演算処理等により、本来同期して再生すべきビデオおよびオーディオがずれて再生されてしまう場合に、先行する出力を遅延して出力することにある。例えば、映像音響機器１２０においてビデオデータのインターレース／プログレッシブ変換を行うためにビデオデータの再生がオーディオの再生よりも遅延してしまう場合に、ビデオデータの再生時刻の遅延量相当時間だけ、先行するオーディオデータを遅延して出力する。これにより、ビデオデータとオーディオデータとの同期再生が可能になる。なお、オーディオデータの遅延出力は、オーディオデータの再生時刻を規定するＰＴＳを修正することによって実現される。遅延量は、予想される時間、ユーザによって設定された時間、映像音響機器１２０を特定して判断することができる映像音響機器１２０におけるビデオ処理の所要時間等に基づいて設定される。

上述のデータ処理装置１００の特徴は、主としてデータ処理装置１００のデコード部６０によって実現される。以下、デコード部６０を詳細に説明する。

図４は、デコード部６０の詳細な機能ブロックの構成を示す。デコード部６０は、システムデコード部１と、ビデオバッファ部２と、ビデオ再生管理部３と、システム時刻基準参照部４と、ビデオデコード部５と、オーディオバッファ部６と、オーディオ再生管理部７と、オーディオデコード部８と、オーディオ遅延設定部９とを有する。

システムデコード部１は、データストリーム１０から、デジタル圧縮符号化されたオーディオおよびビデオデータを分離して抽出するとともに、ビデオパックに付加されたＰＴＳをビデオ再生時刻情報として抽出し、オーディオパックに付加されたＰＴＳをオーディオ再生時刻情報として抽出する。

まず、ビデオ処理に関する構成要素を説明する。ビデオバッファ部２は、システムデコーダ部１によって分離されたビデオデータを格納する。ビデオ再生管理部３は、ビデオバッファ部２に格納されたビデオデータとビデオ再生時刻情報を関連づけたテーブルを生成し、管理する。

ビデオデコード部５は、圧縮符号化されたビデオデータの属性情報（ビデオヘッダ情報）を解析するとともに、ビデオバッファ部２に格納されているビデオデータをビデオ再生時刻情報に従ってデコードする。ビデオデコード部５にはフレームバッファ部１１およびビデオ出力部１２が設けられている。フレームバッファ部１１は、デコードしたビデオデータを格納する。ビデオ出力部１２は、デコード部６０からその外部へビデオデータを出力する。このビデオデータは、さらにデータ処理装置１００に接続された映像音響機器１２０に出力される。

次に、オーディオ処理に関する構成要素を説明する。オーディオバッファ部６は、システムデコード部１によって分離されたオーディオデータを格納することができる半導体メモリである。そのバッファサイズは、取り扱う符号化オーディオデータの圧縮率等によって異なり、例えば数キロバイトから数十キロバイト程度である。オーディオ再生管理部７は、オーディオバッファ部６に格納されたオーディオデータとオーディオ再生時刻情報を関連づけるテーブルを生成し、管理する。このテーブルは後に図７（ａ）および（ｂ）を参照しながら詳述する。

オーディオ遅延設定部９は、オーディオの再生時刻の遅延量を規定する遅延情報を保持し、かつ、遅延情報に基づいてオーディオの再生時刻情報を修正して、その再生時刻を遅延させる。オーディオ遅延設定部９は、例えば遅延情報を保持するメモリ（図示せず）を有しており、映像音響機器１２０の処理に鑑みて想定される時間が予め設定されている。そしてさらに、ユーザによって設定された数ミリ秒単位またはビデオフレーム単位の遅延時間に関する情報も保持できる。これにより、映像音響機器１２０において発生する処理遅延に応じた微調整が可能になる。

オーディオデコード部８は、圧縮符号化されたオーディオデータの属性情報（オーディオヘッダ情報）を解析するとともに、オーディオバッファ部６に格納されているオーディオデータをオーディオ再生時刻情報に従ってデコードする。オーディオデコード部８にはＰＣＭバッファ部１３およびオーディオ出力部１４が設けられている。ＰＣＭバッファ部１３は、デコードしたオーディオデータを格納する。オーディオ出力部１４は、デコード部６０からその外部へオーディオデータを出力する。このオーディオデータは、さらにデータ処理装置１００に接続された映像音響機器１２０に出力される。

なお、上述のビデオデコード部５およびオーディオデコード部８は、デコードする点において同じ機能を有する。したがって、それぞれの機能を実現できる限り、１つの半導体集積回路等として実装してもよい。例えば図４は、ビデオデコード部５およびオーディオデコード部８を有するデコーダチップ１５を示している。

次に、ビデオ出力部１２およびオーディオ出力部１４から出力されるビデオデータおよびオーディオデータを、同期して再生するための構成を説明する。デコードタイミングおよび再生タイミングは、システム時刻基準参照部４によって実現される。システム時刻基準参照部４は、ＭＰＥＧシステムのデータ処理装置１００の内部においてシステム時刻基準ＳＴＣを生成する。データ処理装置１００側でＳＴＣを生成するためには、ＤＶＤディスク等で使用されるプログラムストリーム（ＰＳ）に規定されるＳＣＲの値を用いる。上述のように、ＳＣＲはパックヘッダに記述されている。なお、入力されるデータストリームがＢＳデジタル放送で使用されるトランスポートストリーム（ＴＳ）のときは、ＰＣＲ（Program Clock Reference：プログラム時刻基準参照値）が用いられる。

システム時刻基準参照部４は、ビデオデータの最終バイトの到着時（再生処理部５０からのデータ受け取り時）に、ＳＣＲの値と同じ値がシステム時刻基準ＳＴＣとして設定され、ＳＴＣが基準時刻とされる。さらに、このＳＴＣの値と、ＰＬＬ（位相ロックループ）回路（図示せず）とを組み合わせることにより、デコード部６０の基準時刻用システムクロックと完全に周波数が一致したＳＴＣにすることができる。システム時刻基準ＳＴＣのシステムクロックの周波数は２７ＭＨｚである。このＳＴＣからカウンタ等により分周することにより、各ＰＴＳ（周波数：９０ｋＨｚ）が参照される。

データ処理装置１００が従来の処理を行う場合には、ビデオデコード部５は、システム時刻基準ＳＴＣがＶＰＴＳに一致したときそのＰＴＳが付加されていたアクセスユニットを出力し再生させる。またオーディオデコード部８は、ＳＴＣがＡＰＴＳに一致したときにそのＰＴＳが付加されていたアクセスユニットを出力し再生させる。ＰＴＳの周波数は９０ｋＨｚであるから、この精度の範囲内で、ＳＴＣとＶＰＴＳおよびＡＰＴＳとの同期をとれるようにビデオデータおよびオーディオデータの各々をデコードする。これにより、ビデオおよびオーディオの同期再生を実現できる。

一方、本実施形態による処理によれば、映像音響機器１２０におけるビデオ処理の遅延を考慮した上で、データ処理装置１００はビデオおよびオーディオの同期再生を実現する。以下、図５を参照しながらその概略を説明し、その後、図６を参照しながらその動作を実現するための処理の手順を説明する。

図５は、ＰＴＳを用いてビデオとオーディオとの同期再生を実現する再生タイミングを示す。再生時刻情報が示すタイミングが４段に分けて記載されている。

１段目は、データストリーム１０に規定されていたビデオ再生時刻情報（ＶＰＴＳ）のタイミングを示す。データストリーム１０を生成したエンコーダ（図示せず）は、時刻ｔ_v1、ｔ_v2、・・・において、ビデオが再生されることを意図して圧縮符号化を行っている。時刻ｔ_v1とｔ_v2との間隔は、例えば、ＮＴＳＣ方式であれば３３ミリ秒のｎ倍（ｎ：自然数）（３０Ｈｚ）、ＰＡＬ方式であれば４０ミリ秒のｎ倍（ｎ：自然数）（２５Ｈｚ）である。

次に、３段目はデータストリーム１０のオーディオの再生タイミングを示す。オーディオについてもビデオと同様に、エンコーダ（図示せず）は、時刻ｔ_A1、ｔ_A2、・・・において、オーディオが再生されることを意図して圧縮符号化を行っている。時刻ｔ_A1とｔ_A2との間隔は、例えば、ＡＡＣ（Advanced Audio Coding）方式では２１．１２ミリ秒のｎ倍（ｎ：自然数）である。

一方、図５の２段目は、映像音響機器１２０におけるビデオ処理によって遅延したビデオの再生タイミングを示す。例えば、最初に表示されるビデオについてみると、ビデオ処理に起因する遅延により、本来時刻ｔ_v1で表示されるはずの映像が、時刻ｔ_v1より後の時刻ｔ_p1において再生されている。その時間差をΔｔとする。

次に、４段目は、本実施形態のオーディオ遅延設定部９が元の再生時刻情報（ＡＰＴＳ）を修正した後の、オーディオの再生タイミングを示す。オーディオ遅延設定部９は、時刻ｔ_v1において再生されるべきことを示すオーディオの再生時刻情報（ＡＰＴＳ）を、ビデオが映像音響機器１２０において遅延する時間（Δｔ）だけずらした時刻情報（ＮＡＰＴＳ）に修正し、オーディオの再生時刻を遅延させている。この結果、ビデオデータは１段目のタイミング（時刻ｔ_v1、ｔ_v2、・・・）においてビデオ出力部１２から出力され、２段目のタイミング（時刻ｔ_p1、ｔ_p2、・・・）において再生され、オーディオデータは３段目のタイミングにおいてオーディオ出力部１４から出力され、４段目のタイミング（時刻Ｔ_NA1、Ｔ_NA2、・・・）において再生される。ビデオの処理によって遅延した時間Δｔだけオーディオの再生時間をずらすことにより、エンコード時に想定されていた再生タイミングでビデオおよびオーディオを再生できる。よって、同期再生が意図されていたビデオおよびオーディオに対しても、想定されていたとおりの同期再生を実現できる。

なお、ビデオおよびオーディオの「同期再生」とは、ビデオの再生タイミングがオーディオの再生タイミングに対して、一定の時間範囲（例えば５０ミリ秒先行から３０ミリ秒遅延の間）に入っていることをいう。ビデオおよびオーディオのＰＴＳが一致している場合に限られるものではない。

ビデオとオーディオとが時間にして３０ミリ秒以上のずれると、視聴者に違和感を与える場合がある。したがって、ＶＰＴＳが、ＮＡＰＴＳに対して５０ミリ秒先行（さらに厳密には３０ミリ秒先行）から、３０ミリ秒遅延までの間にあわせれば、実際の視聴において視聴者にとっては同期再生されているといえる。

図６は、本実施形態によるデコード部６０の処理手順を示す。まずステップＳ１０１において、システムデコード部１は、符号化データストリームを符号化ビデオデータおよび符号化オーディオデータに分離し、ステップＳ１０２において、符号化データ（ビデオ／オーディオ）から、符号化フレームデータおよび再生時刻情報（ＶＰＴＳ／ＡＰＴＳ）を抽出する。ビデオおよびオーディオの各符号化フレームデータは、それぞれビデオバッファ部２およびオーディオバッファ部６に格納され、再生時刻情報（ＶＰＴＳ／ＡＰＴＳ）はビデオ再生管理部３およびオーディオ再生管理部７に送られる。

図７（ａ）は、オーディオ再生管理部７において生成されるテーブルの構成を示す。このテーブルは、オーディオバッファ部６に格納されたオーディオデータとオーディオ再生時刻情報とを関連づける。まず、オーディオ再生管理部７は、例えばＡＰＴＳごとにスロットという単位に分割する。そして、各スロットとオーディオアドレス情報とを対応付ける。オーディオアドレス情報は、対応するスロットに再生される、オーディオバッファ部６に格納されたオーディオデータの先頭アドレスを参照する。図７（ｂ）は、オーディオバッファ部６に格納されたオーディオデータのデータ配置と、オーディオアドレス情報によって参照されるデータ位置の関係を示す。

再び図６を参照する。ステップＳ１０３において、ビデオデコード部５およびオーディオデコード部８は、ＶＰＴＳ／ＡＰＴＳがシステム時刻基準ＳＴＣに達する前に、ビデオ／オーディオの符号化フレームデータをデコードし、ステップＳ１０４において、デコードされたビデオ／オーディオデータをフレームバッファ部１１およびＰＣＭバッファ部１３に格納する。

次にステップＳ１０５において、オーディオ遅延設定部９は、予め設定された遅延時間に対応するＰＴＳ値ΔｔをＡＰＴＳの値に加算し、新たなオーディオ再生時刻情報ＮＡＰＴＳ値を求める（ＮＡＰＴＳ＝ＡＰＴＳ＋Δｔ）。以上の処理によって、オーディオの再生時刻情報（ＡＰＴＳ）を修正した新たな再生時刻情報（ＮＡＰＴＳ）が得られる。

本実施形態では、遅延時間はユーザによって予め設定されているとする。図８（ａ）はオーディオ遅延設定部９の操作部の例を示す。ユーザが初期設定画面において図８（ａ）に示す項目選択キーを操作すると、音声の遅延時間を設定できるモードに移行する。図８（ｂ）は音声の遅延時間を設定する際の画面の例を示す。ユーザが操作部を介して画面上のハイライト９１を「手動」にあわせ、決定キーを押下すると、手動による遅延時間の設定モードに移行する。ユーザが遅延量の表示窓９３を見ながら図８（ａ）の「設定１」と示される上方向ボタンを押下すると画面上の増加ボタン９２ａがハイライトされ遅延量が増加する。逆に、「設定２」と示される下方向ボタンを押下すると、画面上の減少ボタン９２ｂがハイライトされ遅延量が減少する。図８では、遅延させたい時間が“６０ｍｓ”に設定されている。ＰＴＳ値Δｔは設定された遅延時間に基づいて得ることができる。設定された時間がｔ（ｍｓ）のとき、ＰＴＳ値Δｔ＝９０．９ｔまたは９１ｔとなる。

次にステップＳ１０６において、ビデオデコード部５は、システム時刻基準ＳＴＣがＶＰＴＳに達したか否かを判断する。達していれば、ステップＳ１０７においてビデオ出力部１２はフレームバッファからビデオデータを出力する。達していなければ、達するまで待つ。次に、ステップＳ１０８において、オーディオデコード部８は、ＳＴＣがＮＡＰＴＳに達したか否かを判断する。「達した」とは、ＳＴＣがＮＡＰＴＳに一致したとき、またはＳＴＣがＮＡＰＴＳを超過したときを示す。達していれば、ステップＳ１０９において、オーディオ出力部１４はＰＣＭバッファからビデオデータを出力する。達していなければ、達するまで待つ。

そして、ステップＳ１１０において、ビデオデコード部５およびオーディオデコード部８はデコードが終了したか否かを判断する。終了したときは処理を終了し、していなければステップＳ１０１に戻って処理を継続する。なお、ユーザから再生の停止が指示された場合にも処理は終了する。

以上、本実施形態によるデータ処理装置１００の動作（特にデコード部６０の動作）を説明した。

上述した説明では、圧縮符号化されたオーディオデータをデコードした後ＰＣＭデータをバッファするとした。しかし、それに代えて、デコード部６０がデコードする前のオーディオバッファ部６に、オーディオデータをバッファすることも好ましい。デコードされたＰＣＭデータより、デコード前の圧縮符号化された状態のオーディオデータの方がデータ量が小さく、オーディオバッファ部６等のバッファサイズが少なくてすむからである。具体的には、オーディオの符号化フレームデータがオーディオバッファ部６に格納された後、予め設定された遅延時間に対応するＰＴＳ値Δｔをオーディオの再生時刻（ＡＰＴＳ）の値に加算してＮＡＰＴＳ値を求めればよい（ＮＡＰＴＳ＝ＡＰＴＳ＋Δｔ）。これは、図６のステップＳ１０２の後、ステップＳ１０３の前に、ステップＳ１０５の処理を行うことに相当する。その他の処理は図６に示すとおりである。

図９は、オーディオバッファ部６の構成の例を示す。オーディオバッファ部６には、オーディオ遅延がない場合において符号化オーディオデータが格納される標準バッファ６ａと、オーディオ遅延がある場合において追加の符号化オーディオデータが格納される追加バッファ６ｂとが設けられる。追加バッファ６ｂが設けられる理由は、オーディオ遅延がある場合には、従来の処理によればＡＰＴＳによって示された時刻に出力されているはずのオーディオデータが、本実施形態による処理ではＮＡＰＴＳになるまで出力されないため、時間にしてΔｔ（＝ＮＡＰＴＳ−ＡＰＴＳ）の間に読み込まれたデータをさらに格納するバッファ容量が必要になるからである。

よって、オーディオバッファ部６に必要なバッファ容量は、当初のＡＰＴＳによって規定される再生時刻の到達前までに受け取る符号化オーディオデータのデータ量と、再生時刻の遅延量（Δｔ）に応じた時間の経過までに受け取る符号化オーディオデータのデータ量との和以上である。前者は標準バッファ６ａにより、後者は追加バッファ６ｂにより確保される。

例えば、追加バッファ６ｂに最大１００ミリ秒のデータを追加的に格納できる追加バッファ６ｂが必要である場合を考える。これは、遅延時間が最大１００ミリ秒の場合に相当し、ビデオではＮＴＳＣ方式出力のときのビデオ約３フレームの表示時間に相当する。この場合に必要な追加バッファ６ｂの容量は、ＢＳデジタル放送で使用されているオーディオ圧縮フォーマットのＡＡＣ方式では約２２キロバイトである（１チャンネルあたり２８８キロビット秒として６チャンネル分のデータ量を算出した）。この容量は、デコード後のＰＣＭデータを追加的に保存するときの容量の数分の１である。

なお、オーディオバッファ部６に格納される符号化オーディオフレームデータのデータ量が増加するため、オーディオ再生管理部７のテーブルサイズを増加させなければならない点にも留意しなければならない。

ただし、オーディオ再生管理部７に全てのオーディオの再生時刻情報（ＡＰＴＳ）を格納せず、一部を間引いてテーブルを構成すれば、テーブルサイズの増加を防ぐことができる。図１０（ａ）は間引き前のオーディオ再生管理部７のテーブル７ａの構成を示し、図１０（ｂ）は間引き後のオーディオ再生管理部７のテーブル７ｂの構成を示す。テーブル７ｂは、テーブル７ａの奇数番目の再生時刻情報（ＡＰＴＳ）を間引いて生成されている。オーディオ再生管理部７がリアルタイムでテーブル７ｂを生成するときは、１つおきにの再生時刻情報（ＡＰＴＳ）およびその対応アドレス情報の関係を記述すればよい。これによりテーブル７ｂのデータ量はテーブル７ａのデータ量の半分になる。換言すれば、同じテーブルサイズであれば、テーブル７ｂはテーブル７ａの倍のオーディオデータを管理できる。なお、再生時刻情報（ＡＰＴＳ）およびその対応アドレス情報を間引くことにより、同期に必要なＡＰＴＳ情報が減少するため、同期させる頻度は減少するが、管理すべきデータのデータ量が増加しても確実にビデオとオーディオの再生を同期させることができる。

本実施形態では、ビデオデコード部５およびオーディオデコード部８は、圧縮符号化されたビデオデータおよびオーディオデータをデコードして、フレームバッファ部１１およびＰＣＭバッファ部１３に保持しておくとした。しかし、例えばＤＶＤにはリニアＰＣＭデータがオーディオデータとして含まれている場合には、デコード動作は不要である。リニアＰＣＭデータは符号化はされているが圧縮はされていないからである。ただし、オーディオデータがリニアＰＣＭデータであっても、ストリームに含まれる同期情報に従ってビデオと同期して再生されるため、先の説明をそのまま適用できる。また、データ処理装置１００が光出力端子からドルビーデジタル等の符号化ストリームをそのまま出力する場合には、ストリームバッファ（図示せず）に一旦蓄えて、ＳＴＣを参照し、ＮＡＰＴＳがＳＴＣに達した時点で、オーディオ出力部１４から出力すればよい。

次に、オーディオの遅延を発生させる映像音響機器１２０のビデオ処理の具体例を説明する。想定されるビデオ処理は、
（１）毎秒２４フレームのフィルム素材から毎秒３０フレームのビデオ素材への変換処理、
（２）インターレース走査・プログレッシブ走査間の変換処理、標準画質（Standard Definition;ＳＤ）のＤ１規格信号・高精細画質（High Definition;ＨＤ）のＤ３規格信号間の変換処理、ＮＴＳＣ方式・ＰＡＬ方式間の変換処理
（３）ユーザからの指示等に基づく映像の拡大、縮小、編集処理
（４）複数の映像の合成処理
等である。上述の処理が不要な通常の再生時には、オーディオデータを遅延して出力する必要はない。しかし、ビデオ処理のオン／オフによって遅延が発生しうるため、遅延量の設定およびその設定に基づくオーディオデータの遅延出力が必要になる。

そのようなときは、オーディオ遅延設定部９に遅延時間が異なる複数の遅延情報を設け、行われる処理種別に応じて対応付けておくことが好ましい。例えば、映像音響機器１２０で実行される画像処理の種別をユーザが入力すると、その種別応じて遅延時間を変えるようにデコード部６０を構成すればよい。

次に、オーディオデータの再生時間を遅延させる遅延時間を求め、その時間をオーディオ遅延設定部９において自動的に設定するための第１〜第３の設定手法を説明する。

まず第１の手法は以下のとおりである。データ処理装置１００において、ビデオ信号にあらかじめ特定パターンの信号が含まれている同期検証用テストストリーム等をデコードし、映像音響機器１２０に送る。そして、映像音響機器１２０においてビデオ処理された後の表示された映像をキャプチャし、その遅延時間を測定する。得られた遅延時間をオーディオ遅延設定部９に設定することにより、遅延時間が設定できる。これらの処理を自動化することによりオーディオの再生遅延時間を自動的に設定できる。なお、遅延時間は、映像音響機器１２０における各信号処理モードの各々について遅延時間を測定し、遅延時間を設定してもよい。テストストリームは、放送系から入力されてもよいし、テストディスクまたはデータ処理装置１００内のメモリ等から読み出されてもよい。なお、入力がテストストリームではなく、あらかじめデコードされたビデオデータを出力するようなテストパターンであってもよい。これは、デコードした後のビデオ処理での遅延を測定すればよいためである。

続いて、遅延時間を自動的に設定する第２の手法を説明する。第２の手法では、オーディオとの同期を阻害するビデオ処理の遅延原因（１）〜（４）の処理を、映像音響機器１２０ではなく、ビデオデコード部５のビデオ出力部１２が行う。ビデオ出力部１２がそのようなビデオ処理を行うことにより、デコード部６０はビデオ処理に起因する遅延時間を把握することができ、その結果、オーディオ遅延設定部９はリアルタイムで遅延量を変更できる。また、映像音響機器１２０におけるビデオ処理も必要なくなるので、その負荷が軽減できる。

図１１は、ビデオ処理を行う処理回路を搭載したビデオ出力部１２の機能ブロックの構成を示す。ビデオ出力部１２は、フレームバッファ部１１からデコードされたフレームデータを受け取り、所定のビデオ処理を行ったビデオデータを出力する。ビデオ出力部１２は、ＩＰ変換部７１と、フォーマット変換部７２と、拡大縮小部７３と、他画面合成部７４と、ＧＵＩ重畳部７５と、出力部７６とを有する。これらの構成要素に関連して、ビデオデコード部５には外部映像入力部７７およびＧＵＩデータ生成部７８とが別途設けられる。

ＩＰ変換部７１は、インターレース走査・プログレッシブ走査間の変換処理を行う。フォーマット変換部７２は、４８０ｉビデオ信号・１０８０ｉビデオ信号間の変換処理およびＮＴＳＣ方式・ＰＡＬ方式間の変換処理を行う。拡大縮小部７３は、ユーザからの指示等に基づく映像の拡大、縮小、編集処理を行う。他画面合成部７４は、デコードされたビデオと外部映像入力部７７から入力されるビデオとを合成する。ＧＵＩ重畳部７５は、これまでの処理によって得られたビデオに、ＧＵＩデータ生成部７８によって生成されたＧＵＩデータを重畳する。そして出力部７６は、最終的に得られたビデオデータを出力する。この出力は、映像音響機器１２０に送られる。ビデオデコード部５は、ビデオデータが得られたときの時刻をＳＴＣに基づいて取得し、そのビデオデータのＶＰＴＳと比較することによって、遅延時間を特定することができる。

さらに、遅延時間を自動的に設定する第３の手法を説明する。第３の手法では、データ処理装置１００と映像音響機器１２０とが互いに通信して、データ処理装置１００が映像音響機器１２０において行われるビデオ処理の種別を特定する。これにより、データ処理装置１００のデコード部６０は、ビデオ処理に起因する遅延時間を予め特定できる。

以下、具体的に説明する。図１２は、データ処理装置１００と映像音響機器１２０との接続およびそれらの間で授受されるデータの種類を示す。図１２の例では、ＨＤＭＩ規格に従ってデータが授受される。まずＨＤＭＩトランスミッタ８０は、映像音響機器１２０のＨＤＭＩレシーバ１３０に対して、映像音響機器１２０を特定する情報（機器固有情報）を求める制御コマンドを送信する。ＨＤＭＩレシーバ１３０は、その制御コマンドに基づいて、自己の装置の機器ＩＤを機器固有情報としてＨＤＭＩトランスミッタ８０に送信する。機器ＩＤは、例えば映像音響機器１２０内のＲＯＭ１３１にメーカー固有情報（Vendor Specific Data）として格納されており、メーカー名、機種名等を特定することができる。

ＨＤＭＩトランスミッタ８０は、機器ＩＤを受け取ってデコード部６０に出力する。デコード部６０は、機器ＩＤを受け取ると、内部メモリまたは外部のメモリカード等に規定されたテーブルを参照する。テーブルには、機器ＩＤと遅延設定との対応が記述されている。デコード部６０は、機器ＩＤおよびそのテーブルに基づいて、映像音響機器１２０が実行するビデオ処理に起因する遅延時間を得ることができる。これにより、その遅延時間をオーディオ遅延設定部９に設定できる。なお、図１２は、ＭＰＥＧ２プログラムストリームをデコードするデータ処理装置１００を利用する場合の例であるが、デコードの対象はこのストリームに限られない。例えば、受信され、記録されたデジタル放送のＭＰＥＧ２トランスポートストリームもデコードの対象になる。デコード部６０はストリームの種類に応じたデコードを行うように構成されればよい。

ここまでは、システム時刻基準参照値ＳＣＲを基準としてシステム時刻基準ＳＴＣを生成し、そのＳＴＣに基づいて、ビデオの再生時間を規定するＶＰＴＳおよび遅延させたオーディオの再生時間を規定するＮＡＰＴＳを生成し、ビデオおよびオーディオを同期して再生させるとして説明した。しかし、さらにＶＰＴＳに基づいてオーディオを再生することもできるし、ＮＡＰＴＳに基づいてビデオを再生することもできる。

光ディスク１１０に記録した符号化コンテンツを再生する場合、符号化コンテンツ等を編集し、編集点でのビデオを途切れなく再生する場合には、ビデオの再生時間を基準とした時間管理が有効である。これは、ＶＰＴＳを基準としてＮＡＰＴＳを管理することを意味する。本明細書では、ＶＰＴＳを基準としてＮＡＰＴＳを管理することをビデオマスターと呼ぶ。システム時刻基準参照部４は、ＳＣＲに基づいて生成したＳＴＣではなく、ＶＰＴＳに基づいてＳＴＣを生成し、かつＮＡＰＴＳが規定精度以内におさまるようにオーディオデコードを実施する。そして、ＮＡＰＴＳによって規定される時刻がＶＰＴＳによって規定される時刻を超えるまでのオーディオデータの再生をスキップすることによって、ビデオとオーディオとを同期して再生する。デコード部６０のシステム時刻基準参照部４は、ＶＰＴＳによって規定される再生時刻とＮＡＰＴＳによって規定される時刻とが一定の許容範囲内に入ったことを確認した後、ビデオマスターに基づいて時間を管理して再生すればシームレスな編集再生を実現することができる。

例えば、ビデオデータの一部を削除した後で削除部分の前後にわたってシームレスに映像を再生したい場合には、削除位置直後のビデオデータに基づいて映像を表示するとともに、削除位置直前のビデオデータのＶＰＴＳから生成したＳＴＣ値を、削除位置直後のビデオデータのＶＰＴＳから生成したＳＴＣ値に変更する。そして、オーディオ出力をミュートして再度、遅延量を変更したビデオおよびオーディオの再生同期を取り直すことによってオーディオデコードを再開する。これにより、編集点の前後でもビデオマスターとしたＳＴＣ値の変更が行われ、編集点の再生時に再生された映像がフリーズする等の不自然な再生がなくなる。なおこの場合にも、オーディオ遅延分のオーディオバッファ部６の容量の増加、および、オーディオ再生時刻情報管理部７のテーブルサイズの増加は必要になる。

一方、光ディスク１１０に記録した符号化コンテンツを再生するとき、オーディオを途切れなく再生する場合には、オーディオの再生時間ＮＡＰＴＳを基準とした時間管理が有効である。これは、ＮＡＰＴＳを基準としてＶＰＴＳを同期させることを意味する。本明細書では、ＮＡＰＴＳを基準としてＶＰＴＳを管理することをオーディオマスターと呼ぶ。システム時刻基準参照部４は、ＳＣＲに基づいて生成したＳＴＣではなく、ＮＡＰＴＳに基づいてＳＴＣを生成し、かつ、ＶＰＴＳが規定精度以内におさまるようにビデオデコードを実施する。そして、適当な出力映像のスキップまたは同じ画面の複数回出力によってオーディオをビデオと同期して再生する。オーディオの再生時間ＮＡＰＴＳによって規定される時刻をオーディオマスターとしたときでも、オーディオ遅延を考慮して出力しているため、オーディオを遅延したビデオと同期して再生することができる。なおこの場合にも、オーディオ遅延分のオーディオバッファ部６の容量の増加、および、オーディオ再生時刻情報管理部７のテーブルサイズの増加は必要になる。

例えば、出力音声または音楽等を途切れることなく再生したいとき（早送りやコマ送り再生時）においてオーディオの連続性を保つためには、ビデオの再生が長すぎる、または短すぎる場合がある。その場合には、同じ画面を何度も繰り返し表示し、または、特定数フレームをスキップする等の処理を行う。

オーディオ遅延設定部９において遅延時間の設定を変更する際には、一旦オーディオ出力をフェードアウトもしくはミュート設定して、音量を下げる。そして遅延設定を変更後、ミュート解除もしくは、フェードインを実行し、元の音量に復帰させればよい。

図１に示すデータストリーム１０にはオーディオデータとビデオデータとが混在しており、図４に示すシステムデコード部１においてそれらを分離するとして説明した。しかし、オーディオデータおよびビデオデータは独立した別個のストリームとして含まれていてもよい。例えば、ビデオカメラ等で撮影したオーディオデータおよびビデオデータをＰＣで編集して、ビデオのエレメンタリストリームとオーディオのエレメンタリストリームとにわけてデータ処理装置１００に入力してもよい。ビデオデータの再生時刻情報およびオーディオデータの再生時刻情報に基づいて、ビデオとオーディオが同期して再生されるのであれば、本発明は適用可能である。

本実施形態は、ビデオとオーディオとを同期して再生するとしたが、これは例である。例えば、ＤＶＤに設けられているサブピクチャに関して、そのビデオ処理に基づく再生遅延が発生する場合には、やはりオーディオの再生時刻情報ＮＡＰＴＳを生成して字幕とオーディオとを同期して再生することもできる。また衛星放送を受信し記録した場合のデータ放送の同期についても同様である。映像音響機器１２０においてビデオとデータの内容との重ね合わせ処理等において処理遅延が発生する場合には、オーディオの再生時刻情報ＮＡＰＴＳを生成して、ビデオ、データの内容およびオーディオを同期して再生することができる。

本実施形態では、ＡＰＴＳにオーディオ遅延Δｔに相当するＰＴＳを加算してＮＡＰＴＳを求めるとしたが、ＶＰＴＳからΔｔ相当分を減算してもよい。ただし、ＶＰＴＳからΔｔを減算するだけでなく、システム時刻基準参照値そのものをΔｔ減算することで、同じ効果が得られる。具体的には、データ処理装置１００に、ビデオの再生時刻情報に任意の遅延用設定時間を減算する手段およびシステム時刻基準参照値に任意の遅延用設定時間を減算する手段を設ければよい。これにより、映像音響機器１２０におけるビデオ処理の遅延を考慮して遅延用設定時間を減算したシステム時刻基準参照値に対して、遅延のために設定時間を減算されたビデオと、オーディオとを同期して再生できる。

また、本実施形態では、画像処理によってビデオがオーディオに遅れて再生されることを想定して説明した。しかし、これとは逆に、データ処理装置１００の出力後に行われる各種の音響効果等の処理に起因してオーディオの再生が遅延する場合もある。このときは、ビデオ再生が先行してしまうため、ＶＰＴＳに遅延時間Δｔに相当するＰＴＳを加算した新たなビデオ再生時刻情報ＮＶＰＴＳを求めて、ビデオとオーディオとの再生を同期させればよい。このときは、ビデオバッファ部２およびビデオ再生管理部３のテーブルサイズが増加することになる。

データ処理装置１００に設けられた種々のバッファは、その一部または全部が半導体メモリによって構成されていてもよいし、ハードディスク等の記録媒体によって構成されていてもよい。

上述のデータ処理装置１０の機能、特にデコード部６０の機能は、ソフトウェアを実行することによって実現してもよい。例えば、ＣＰＵ（図示せず）がコンピュータプログラムを実行することによって、各構成要素の動作を制御してもよい。コンピュータプログラムは、例えば図６に示すフローチャートにしたがった処理をデータストリーム１０に実行させるように構成すればよい。

コンピュータプログラムは、光ディスクに代表される光記録媒体、ＳＤメモリカード、ＥＥＰＲＯＭに代表される半導体記録媒体、フレキシブルディスクに代表される磁気記録媒体等の記録媒体に記録することができる。なお、データ処理装置１０は、記録媒体を介してのみならず、インターネット等の電気通信回線を介してもコンピュータプログラムを取得できる。

ＭＰＥＧ２プログラムストリーム１０のデータ構造を示す図である。オーディオパック４０のデータ構造を示す図である。データ処理装置１００と、データ処理装置１００に接続された映像音響機器１２０を示す図である。デコード部６０の詳細な機能ブロックの構成を示す図である。ＰＴＳを用いてビデオとオーディオとの同期再生を実現する再生タイミングを示す図である。本実施形態によるデコード部６０の処理手順を示すフローチャートである。（ａ）は、オーディオ再生管理部７において生成されるテーブルの構成を示す図であり、（ｂ）は、オーディオバッファ部６に格納されたオーディオデータのデータ配置と、オーディオアドレス情報によって参照されるデータ位置の関係を示す図である。（ａ）は、オーディオ遅延設定部９の操作部の例を示す図であり、（ｂ）は、遅延時間の設定画面の例を示す図である。オーディオバッファ部６の構成の例を示す図である。（ａ）は間引き前のオーディオ再生管理部７のテーブル７ａの構成を示す図であり、（ｂ）は間引き後のオーディオ再生管理部７のテーブル７ｂの構成を示す図である。ビデオ処理を行う処理回路を搭載したビデオ出力部１２の機能ブロックの構成を示す図である。データ処理装置１００と映像音響機器１２０との接続およびそれらの間で授受されるデータの種類を示す図である。

Claims

圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取る受信部と、
前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出する分離部と、
前記第１データをデコードして、前記第１時刻情報に基づいて出力する第１デコード部と、
前記第２時刻情報に基づいて前記第２データを出力する第２デコード部と
を有するデータ処理装置であって、
前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、再生時刻の遅延量を規定する遅延情報を保持し、かつ、前記遅延情報に基づいて前記第２時刻情報を修正し、前記第２データの再生時刻を遅延させる遅延設定部をさらに備えたデータ処理装置。
前記第２データのコンテンツは圧縮符号化されており、
前記第２デコード部は前記第２データを復号し、前記第２デコード部は復号された前記第２データを格納する内部バッファを有する、請求項１に記載のデータ処理装置。
前記第２データのコンテンツは圧縮符号化されており、
圧縮符号化された前記第２データを格納するデータバッファをさらに備え、
前記データバッファは、修正後の第２時刻情報によって規定される再生時刻の前に前記圧縮符号化された前記第２データを取り出し、前記第２デコード部に出力する、請求項２に記載のデータ処理装置。
前記受信部は前記データストリームを継続的に受け取り、前記データバッファは前記第２データを順次格納し、
前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上である、請求項３に記載のデータ処理装置。
前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理する管理部をさらに備えた、請求項４に記載のデータ処理装置。
前記管理部は、一部の前記第２データについて、前記テーブルを管理する、請求項５に記載のデータ処理装置。
前記受信部は、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取る、請求項１に記載のデータ処理装置。
前記遅延設定部は、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持する、請求項１に記載のデータ処理装置。
前記遅延設定部は、予め定められた値を前記遅延情報として保持する、請求項１に記載のデータ処理装置。
前記遅延設定部は、再生時刻の遅延量を３０ミリ秒以上の値として規定した遅延情報を保持する、請求項９に記載のデータ処理装置。
接続先の機器に前記第１データを送出するとともに、前記機器を特定することが可能な固有情報を前記機器から受け取るトランスミッタをさらに備え、
前記トランスミッタは、前記固有情報に基づいて前記機器において実行される前記第１データに関するビデオ処理の所要時間を特定し、
前記遅延設定部は、特定された前記所要時間の値を前記遅延量として遅延情報を保持する、請求項１に記載のデータ処理装置。
前記第１デコード部および前記第２デコード部は、単一のデコード回路として実装される、請求項１に記載のデータ処理装置。
圧縮符号化されたビデオコンテンツに関する第１データ、前記第１データの再生時刻を規定する第１時刻情報、前記ビデオコンテンツと異なるコンテンツに関する第２データおよび前記第２データの再生時刻を規定する第２時刻情報を有するデータストリームを受け取るステップと、
前記データストリームから、前記第１データ、前記第１時刻情報、前記第２データおよび前記第２時刻情報を抽出するステップと、
前記第１データをデコードして、前記第１時刻情報に基づいて出力するステップと
を包含するデータ処理方法であって、
前記第１時刻情報および前記第２時刻情報が前記第１データおよび前記第２データを同期して再生する時刻を規定している場合において、
再生時刻の遅延量を規定する遅延情報を保持するステップと、
前記遅延情報に基づいて前記第２時刻情報を修正して前記第２データの再生時刻を遅延させるステップと、
前記第２時刻情報に基づいて前記第２データを出力するステップと
を包含する、データ処理方法。
前記第２データのコンテンツは圧縮符号化されており、
前記第２データを出力するステップは、前記第２データを復号し、復号された前記第２データをデータバッファに格納した後に出力する、請求項１３に記載のデータ処理方法。
前記第２データのコンテンツは圧縮符号化されており、
圧縮符号化された前記第２データをデータバッファに格納するステップと、
修正後の第２時刻情報によって規定される再生時刻の前に、格納された前記第２データを前記データバッファから取り出すステップとをさらに包含し、
前記第２データを出力するステップは、前記データバッファから取り出された前記第２データを出力する、請求項１４に記載のデータ処理方法。
前記受信するステップは、前記データストリームを継続的に受信し、前記第２データを格納するステップは前記第２データを前記データバッファに順次格納し、
前記データバッファの容量は、修正前の第２時刻情報によって規定される再生時刻の到達前までに受け取る前記第２データのデータ量と、前記再生時刻の遅延量に応じた時間の経過までに受け取る前記第２データのデータ量との和以上である、請求項１５に記載のデータ処理方法。
前記第２データが格納された前記データバッファ内の位置を示すアドレス情報と、前記第２データに対応する修正前の第２時刻情報との対応関係を規定するテーブルを管理するステップをさらに包含する、請求項１６に記載のデータ処理方法。
前記受信するステップは、オーディオおよび字幕の少なくとも一方に関する前記第２データを有するデータストリームを受け取る、請求項１３に記載のデータ処理方法。
前記遅延させるステップは、ユーザから前記遅延量を特定する値を受け取って、前記遅延情報として保持する、請求項１３に記載のデータ処理方法。
前記遅延させるステップは、予め定められた値を前記遅延情報として保持する、請求項１３に記載のデータ処理方法。