WO2013145225A1

WO2013145225A1 - エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム

Info

Publication number: WO2013145225A1
Application number: PCT/JP2012/058427
Authority: WO
Inventors: 山下和博; 山口洋介; 上戸貴文; 簾田恭雄; 冨田芳洋; ▲高▼林陽介
Original assignee: 富士通株式会社
Priority date: 2012-03-29
Filing date: 2012-03-29
Publication date: 2013-10-03
Also published as: JP5867590B2; US20140369425A1; US9866898B2; JPWO2013145225A1

Abstract

　エレメンタリストリームをエンコードし、多重し、またはデコードする技術に関し、システム全体のモジュール数を減らす。エンコーダ（符号化部）５０１では、ＰＥＳ多重部５１０が、符号化されたＡｕｄｉｏＥＳを、Ｖｉｄｅｏフレームの時間間隔に対応するストリーム長を有するＡｕｄｉｏＰＥＳに多重して送出する。また、ＡＶ同期検出部５０７で検出されたＶｓｙｎｃのタイミングから音声取込開始タイミングまでの差分値に対応するストリーム長のＤｕｍｍｙＥＳを、ＡｕｄｉｏＰＥＳに多重する。デコーダ（復号部）５０２では、ＰＥＳ分離部５１３が、ＡｕｄｉｏＰＥＳ中のＤｕｍｍｙＥＳから差分値を抽出する。ＡＶ同期調整部５１６は、Ｖｓｙｎｃのタイミングから差分値だけずらしたタイミングで、復号音声信号の出力を開始する。

Description

エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラム

　本発明は、エレメンタリストリームをエンコードし、多重し、またはデコードするための方法、装置、およびプログラムに関する。

　近年、映像音声伝送システム開発において、伝送する映像の画サイズ増大や音声圧縮符号化方式の多様化などの機能増加に伴い、システム複雑化がすすんでいる。その一方で、さらなる小型化、低消費電力化が望まれている。そこで、システム開発の際、まず機能単位に分割切出しを行い、モジュールとして機能単位での開発を行っておき、次に、システムに搭載する機能に応じてモジュールを結合し、システム構築するという開発手法が行われている。

　映像と音声の同期（以下、「ＡＶ同期」と略す）とは、映像モニタに写る映像上の動きと、音声スピーカから出力する音声とのタイミングを合わせることをさす。タイミングのずれが大きい（５ミリ秒以上の）場合、映像と音声の同期が取れない出力となり、視聴者が違和感を覚える原因となる。

　映像音声伝送システムにおいて、映像と音声を同期する規格として、ＭＰＥＧ－２と呼ばれる標準規格が知られている。ＭＰＥＧ－２は、国際標準化機構と国際電気標準会議の第一合同技術委員会のＭｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ（ＭＰＥＧ）によって、１９９５年７月に定められた。さらにこの規格の中で、エラーが発生しうる環境で取り扱う放送や通信で映像と音声を用いることを想定したＭＰＥＧ－２ＴＳ（ＭＰＥＧ－２　Ｔｒａｎｓｐｏｒｔ　Ｓｔｒｅａｍ）と呼ばれる規格が知られている。

　ＭＰＥＧ－２規格では、映像信号と音声信号はそれぞれ符号化されて、エレメンタリストリーム（ＥＳ：Ｅｌｅｍｅｎｔａｒｙ　Ｓｔｒｅａｍ。以下「ＥＳ」と呼ぶ）と呼ばれるストリームデータに変換される。映像信号のＥＳをビデオＥＳ、音声信号のＥＳをオーディオＥＳと呼ぶ。ビデオＥＳとオーディオＥＳはそれぞれ、適当な大きさに分割されてパケットに多重化される。このパケットはＰＥＳ（Ｐａｃｋｅｔｉｚｅｄ　Ｅｌｅｍｅｎｔａｒｙ　Ｓｔｒｅａｍ）と呼ばれる。ビデオＥＳをＰＥＳにパケット化したものをビデオＰＥＳ、オーディオＥＳをパケット化したものをオーディオＰＥＳと呼ぶ。ＰＥＳは、そのヘッダ部に、ＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）と呼ばれる、映像信号または音声信号の再生時刻の情報を含むことができる。

　さらに、ＭＰＥＧ－２ＴＳ規格では、ＰＥＳパケットがトランスポートパケット（Ｔｒａｎｓｐｏｒｔ　Ｐａｃｋｅｔ。「ＴＳパケット」とも呼ばれる。）と呼ばれる１８８バイト固定長のパケットへ分割される。このトランスポートパケットの連続が、トランスポートストリームとして通信路上を伝送される。ＴＳパケットには、各パケットがどの映像または音声を伝送しているかを示す識別子を含むことができる。同一の映像または音声はそれぞれ同じ識別子を持つ。このためＴＳパケットを受信したデコード側は、その識別子を用いて元のＰＥＳおよびＥＳに戻すことが可能である。また、ＴＳパケットには、エンコード側のシステムタイムクロック（Ｓｙｓｔｅｍ　Ｔｉｍｅ　Ｃｌｏｃｋ。以下「ＳＴＣ」と呼ぶ）のタイミングを示すＰＣＲ（Ｐｒｏｇｒａｍ　Ｃｌｏｃｋ　Ｒｅｆｅｒｅｎｃｅ。以下「ＰＣＲ」と呼ぶ）と呼ばれるタイムスタンプ情報を含むことができる。デコード側は、このＰＣＲのタイムスタンプ情報とＴＳパケットの到着タイミングでＰＬＬ（Ｐｈａｓｅ　Ｌｏｃｋｅｄ　Ｌｏｏｐ）制御を行ってＳＴＣの発振速度を制御することにより、エンコード側のＳＴＣに追従することができる。

　さらに、デコード側は、上述のようにして再生されたＳＴＣを基準として、各ＰＥＳに含まれる再生時刻の情報であるＰＴＳに応じたタイミングで、各ＰＥＳに含まれるＥＳから復号した映像信号と音声信号を出力することで、映像と音声の同期を実現する。

　以上のＭＰＥＧ－２ＴＳの機能を実現するためのシステムとしては従来、以下のような機能部が必要であった。
　まず、エンコーダとして、次のような機能部が必要であった。まず、映像信号および音声信号を受信するＡＶ信号受信部である。次に、映像信号および音声信号をそれぞれ符号化して、ビデオＥＳ、オーディオＥＳを出力する符号化部である。さらに、ビデオＥＳおよびオーディオＥＳをそれぞれパケット化するとともにそのヘッダ部に各ビデオＥＳおよびオーディオＥＳに対応するＰＴＳを付加して、ビデオＰＥＳおよびオーディオＰＥＳを生成するＰＥＳ多重部である。そして、ビデオＰＥＳおよびオーディオＰＥＳをそれぞれＴＳパケットに分割し、各ＴＳパケットのヘッダ部にＰＣＲを付加し、各ＴＳパケットをストリーム送信するＴＳ多重部である。

　次に、デコーダとしては、次のような機能部が必要であった。まず、ＴＳパケットからビデオＰＥＳおよびオーディオＰＥＳを取り出すとともに、ＴＳパケット内のＰＣＲに基づいてＳＴＣを同期させるＴＳ分離部である。次に、ビデオＰＥＳおよびオーディオＰＥＳから、それぞれビデオＥＳおよびオーディオＥＳを分離するとともに、各ＥＳのＰＴＳを取り出すＰＥＳ分離部である。さらに、ビデオＥＳおよびオーディオＥＳをそれぞれ復号して、映像信号および音声信号を出力する復号部である。そして、同期されたＳＴＣを基準として、復号された映像信号および音声信号を、それぞれに対応するＰＥＳから取り出されたＰＴＳに応じたタイミングでそれぞれ出力するＡＶ同期調整部である。

　ＭＰＥＧ－２ＴＳ形式で映像音声伝送を行うシステムを構築する際、従来は、エンコーダおよびデコーダのそれぞれにおいて、上述の各機能部を実現する各モジュールを単体で開発し、結合することが必要であった。

　しかし、取り扱う映像サイズの増大に伴い、ＴＳ多重部およびＴＳ分離部に必要とされる多重化バッファの容量の増大が問題となっていた。
　また、モジュール毎に開発を行っているため、評価時にはモジュール単体の試験であることから、他モジュールとのインタフェース等で不一致があった場合、結合確認後に発覚し、変更の手戻りが発生するなどの問題があった。

特開２００７－１５９０９２号公報特開２０１１－２３９００９号公報

　そこで、本発明の１つの側面では、システム全体のモジュール数を減らすことを目的とする。

　態様の一例では、映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行う方法において、エンコード処理時に、ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、音声信号を取り込んで符号化することによりオーディオエレメンタリストリームを生成し、オーディオエレメンタリストリームを１パケットあたりビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力することを備え、デコード処理時に、ビデオエレメンタリストリームを入力して映像信号を復号し、オーディオパケット化エレメンタリストリームを入力してオーディオエレメンタリストリームを分離し、オーディオエレメンタリストリームから音声信号を復号し、復号された映像信号および音声信号をビデオ同期信号に同期して出力することを備える。

　ＰＴＳを伝送する必要がなくなることでビデオＰＥＳ多重部／分離部が不要となり、ＰＣＲも伝送する必要がなくなることでＴＳ多重部／分離部も不要となる。このため、システム全体のモジュール数を削減可能となり、システムの小型化、システム構築の容易化、システムの低電力化が可能となる。

一般的に考えられるエンコード／デコード処理における同期制御の説明図である。一般的に考えられるエンコード／デコードシステムの構成図である。一般的に考えられるエンコード処理の動作タイミングの説明図である。一般的に考えられるデコード処理の動作タイミングの説明図である。本実施形態のエンコード／デコードシステムの構成図である。本実施形態におけるエンコード処理の動作タイミングの説明図である。本実施形態におけるデコード処理の動作タイミングの説明図である。本実施形態におけるオーディオ出力タイミング決定処理のエンコード側の開始処理を示すフローチャートである。本実施形態におけるオーディオ出力タイミング決定処理のデコード側の開始処理を示すフローチャートである。他の実施形態の説明図である。本実施形態のシステムを実現可能なハードウェアシステムの構成図である。

　以下、本発明を実施するための形態について図面を参照しながら詳細に説明する。
　まず、本実施形態について詳細に説明する前に、ＭＰＥＧ－２ＴＳの一般的な考え方、構成、および動作について説明する。

　図１は、一般的に考えられるエンコード／デコード処理の説明図である。
　エンコーダ１０１側では、ビデオフレーム（以下「Ｖｉｄｅｏフレーム」と呼ぶ）ごとのビデオ同期信号（以下「Ｖｓｙｎｃ」と呼ぶ）の受信タイミングに入力された映像信号である例えば＃１から＃４の入力画１０３がエンコードされる。そして、デコーダ１０２側では例えば、＃１から＃４の入力画１０３に対応する＃１から＃４の出力画１０４がデコードされて出力される。

　ここで例えば、＃１から＃４の各入力画１０３のＶｓｙｎｃの各受信タイミングに対応するタイムスタンプ、すなわちエンコーダ側のシステムタイムクロック（以下「エンコーダＳＴＣ」と呼ぶ）の値を、ＰＴＳ１、ＰＴＳ２，ＰＴＳ３、ＰＴＳ４とする。ＭＰＥＧ－２ＴＳ規格では一般的に、例えば＃１の＃４の各入力画１０３が符号化されて各ビデオＥＳに変換され、各ビデオＰＥＳにパケット化される。このとき、各ビデオＰＥＳのヘッダ部にはそれぞれ例えば、上述のＰＴＳ１、ＰＴＳ２，ＰＴＳ３、ＰＴＳ４が付加されて伝送される。

　デコーダ１０２側では、受信された各ビデオＰＥＳから、各ビデオＥＳおよび各ＰＴＳ（例えばＰＴＳ１、ＰＴＳ２，ＰＴＳ３、ＰＴＳ４）が取り出され、各ビデオＥＳから例えば＃１から＃４の各出力画１０４が復号される。そして、デコーダ１０２側のＳＴＣ（以下「デコーダＳＴＣ」と呼ぶ）の値が例えばそれぞれＰＴＳ１、ＰＴＳ２，ＰＴＳ３、ＰＴＳ４になったタイミングで、例えば＃１、＃２、＃３、＃４の各出力画１０４が出力される。

　ここで一般に、エンコーダＳＴＣとデコーダＳＴＣは、クロック周波数精度がわずかに異なる可能性がある。そこで、ＭＰＥＧ－２ＴＳ規格では、例えば＃１から＃４の入力画１０３から生成された各ＰＥＳパケットが、特には図示しないＴＳパケットと呼ばれる１８８バイト固定長のパケットへ分割される。このトランスポートパケットの連続が、トランスポートストリームとして通信路上を伝送される。ＴＳパケットには、エンコーダＳＴＣのタイミングを示すＰＣＲのタイムスタンプ情報を含むことができる。デコーダ１０２側は、このＰＣＲのタイムスタンプ情報とＴＳパケットの到着タイミングでＰＬＬ制御を行ってデコーダＳＴＣの発振速度を制御することにより、エンコーダＳＴＣに追従することができる。

　図１は、映像信号である入力画１０３および出力画１０４に対する処理のみ示されているが、音声信号についても同様である。
　図２は、一般的に考えられるエンコード／デコードシステムの構成図である。

　エンコーダ部は、エンコーダ（符号化部）２０１とエンコーダ（多重部）２０３とから構成される。デコーダ部は、デコーダ（復号部）２０２とデコーダ（分離部）２０４とから構成される。

　エンコーダ（符号化部）２０１は、ＡＶ信号受信部２０７、ビデオ（Ｖｉｄｅｏ）符号化部２０８、オーディオ（Ａｕｄｉｏ）符号化部２０９、およびＰＥＳ多重部２１０を備える。エンコーダ（多重部）２０３は、ＴＳ多重部２１１を備える。

　ＡＶ信号受信部２０７は、映像カメラ２０５からの映像信号と音声マイク２０６からの音声信号をそれぞれ同期させて受信する。

　Ｖｉｄｅｏ符号化部２０８は、Ｖｓｙｎｃのタイミングに同期したＶｉｄｅｏフレームの時間間隔で映像信号を取り込んで符号化することにより、ビデオ（Ｖｉｄｅｏ）ＥＳを生成する。

　Ａｕｄｉｏ符号化部２０９は、音声信号を取り込んで符号化することによりオーディオ（Ａｕｄｉｏ）ＥＳを生成する。

　ＰＥＳ多重部２１０は、ＶｉｄｅｏＥＳおよびＡｕｄｉｏＥＳをそれぞれパケット化して、ビデオ（Ｖｉｄｅｏ）ＰＥＳおよびオーディオ（Ａｕｄｉｏ）ＰＥＳを生成する。このとき、ＰＥＳ多重部２１０は、ＶｉｄｅｏＰＥＳおよびＡｕｄｉｏＰＥＳの各ヘッダ部に、ＶｉｄｅｏＥＳおよびＡｕｄｉｏＥＳの入力タイミングにおける各エンコーダＳＴＣ値を各ＰＴＳとして付加する（図１参照）。

　ＴＳ多重部２１１は、ＶｉｄｅｏＰＥＳおよびＡｕｄｉｏＰＥＳをそれぞれＴＳパケットに分割して、伝送路２２１上をストリーム伝送する。このとき、ＴＳ多重部２１１は、エンコーダＳＴＣ（図１参照）のタイミング情報をＰＣＲとして各ＴＳパケットのヘッダ部に付加する。
　伝送路２２１は、無線または有線（メタル線または光ファイバ等）の伝送路である。

　デコーダ（分離部）２０４は、ＴＳ分離部２２０を備える。デコーダ（復号部）２０２は、ＰＥＳ分離部２１３、ビデオ（Ｖｉｄｅｏ）復号部２１４、オーディオ（Ａｕｄｉｏ）復号部２１５、およびＡＶ同期調整部２１６を備える。

　ＴＳ分離部２２０は、伝送路２２１からＴＳパケットを受信し、各ＴＳパケットからＶｉｄｅｏＰＥＳおよびＡｕｄｉｏＰＥＳを取り出すとともに、各ＴＳパケット内のＰＣＲに基づいてデコーダＳＴＣ（図１参照）を同期させる。

　ＰＥＳ分離部２１３は、ＶｉｄｅｏＰＥＳおよびＡｕｄｉｏＰＥＳから、それぞれＶｉｄｅｏＥＳおよびＡｕｄｉｏＥＳを分離するとともに、各ＥＳのＰＴＳを取り出す。
　Ｖｉｄｅｏ復号部２１４は、ＶｉｄｅｏＥＳを復号して映像信号を出力する。
　Ａｕｄｉｏ復号部２１５は、ＡｕｄｉｏＥＳを復号して音声信号を出力する。

　ＡＶ同期調整部２１６は、復号された映像信号および音声信号を、デコーダＳＴＣ（図１参照）の値がそれぞれに対応するＰＥＳから取り出されたＰＴＳに一致したタイミングで、それぞれ映像モニタ２１７および音声スピーカ２１８に出力する。

　図３は、図２に示される一般的に考えられるエンコード／デコードシステムにおけるエンコード処理の動作タイミングの説明図である。

　図２のＡＶ信号受信部２０７に入力する映像信号は、図３（ｉ）のエンコーダＳＴＣ（図１参照）およびそれに同期しているＶｓｙｎｃに同期して、図３（ａ）に示されるように入力する。

　このとき、図３（ａ）の例では、各ＶｓｙｎｃのタイミングにおけるＰＴＳは、エンコーダＳＴＣ値が０、２５、５０等となるタイムスタンプである。

　図３（ａ）の例えば３０１－１のタイミングから入力した１Ｖｉｄｅｏフレーム間隔分の映像信号は、図３（ｂ）の３０２－１として示されるように、１Ｖｉｄｅｏフレーム分遅れた次のＰＴＳ＝２５であるＶｓｙｎｃタイミングから符号化が開始される。この結果、例えばビデオＥＳとしてＶｉｄｅｏＥＳ１が得られる。

　続いて、図３（ｃ）の３０３－１として示されるように、図２のＰＥＳ多重部２１０により、ＶｉｄｅｏＥＳ１がＰＥＳパケット化されてＶｉｄｅｏＰＥＳが生成される。このとき、ビデオＰＥＳヘッダＶＰＥＳＨとして、例えばＰＴＳ＝０（図３（ｄ））が付加される。このＰＴＳ値は、図３（ａ）の３０１－１に示される、ＶｉｄｅｏＥＳ１に対応する映像信号の入力開始タイミングのエンコーダＳＴＣ値（図３（ｉ））である。このようにして生成されたＶｉｄｅｏＥＳ１とＰＴＳ＝０を含むＶｉｄｅｏＰＥＳが、図２のＴＳ多重部２１１に出力されて、伝送路２２１上を伝送される。

　同様に、図３（ａ）のＰＴＳ＝２５のＶｓｙｎｃタイミングから入力した１Ｖｉｄｅｏフレーム分の映像信号は、ＰＴＳ＝５０のＶｓｙｎｃタイミングから符号化が開始され、ＶｉｄｅｏＥＳ２が得られる（図３（ｂ））。そして、ＰＴＳ＝２５がＶＰＥＳＨヘッダに付加されたＶｉｄｅｏＰＥＳが生成される（図３（ｃ）（ｄ））。このようにして、ＶｉｄｅｏＥＳ２とＰＴＳ＝２５が付加されたＶｉｄｅｏＰＥＳが、図２のＴＳ多重部２１１に出力されて、伝送路２２１上を伝送される。

　一方、図２のＡＶ信号受信部２０７に入力する音声信号は、図３（ｉ）のエンコーダＳＴＣ（図１参照）に同期して、図３（ｅ）の３０１－２として示されるように、例えばＰＴＳ＝１０を取込開始タイミングとして入力が開始される。

　次に、図２のＡｕｄｉｏ符号化部２０９で、図３（ｅ）に示される例えばＰＴＳ＝１０、２０、３０、４０、・・・というオーディオ（Ａｕｄｉｏ）間隔ごとに、１Ａｕｄｉｏ間隔ずつ遅れて、音声信号が符号化される。このＡｕｄｉｏ間隔は、音声の分析フレーム長である。この結果、図３（ｆ）の３０２－２として示されるように、オーディオＥＳとして、例えばＡｕｄｉｏＥＳ１、ＡｕｄｉｏＥＳ２、ＡｕｄｉｏＥＳ３、ＡｕｄｉｏＥＳ４、・・・が順次生成される。

　続いて、図３（ｇ）の３０３－２として示されるように、図２のＰＥＳ多重部２１０により、各ＡｕｄｉｏＥＳが順次ＰＥＳパケット化されて各ＡｕｄｉｏＰＥＳが生成される。このとき、各オーディオＰＥＳヘッダＡＰＥＳＨとして、例えばＰＴＳ＝１０、２０、３０、４０、・・・（図３（ｈ））が付加される。これらのＰＴＳ値は、図３（ｅ）の２０１－２に示される、各ＡｕｄｉｏＥＳに対応する音声信号の各入力開始タイミングのエンコーダＳＴＣ値（図３（ｉ））である。このようにして生成された各ＡｕｄｉｏＥＳと各ＰＴＳ値を含むＡｕｄｉｏＰＥＳが、図２のＴＳ多重部２１１に出力されて、伝送路２２１上を伝送される。

　図４は、図２に示される一般的に考えられるエンコード／デコードシステムにおけるデコード処理の動作タイミングの説明図である。

　図２のＴＳ分離部２２０からＰＥＳ分離部２１３に入力するＶｉｄｅｏＰＥＳは、図４（ａ）に示されるように入力する。

　次に、例えば図４（ａ）の４０１－１のタイミングで入力したＶｉｄｅｏＥＳ１とＰＴＳ＝０を含むＶｉｄｅｏＰＥＳは、図２のＰＥＳ分離部２１３にて、図４（ｂ）の４０２－１に示されるように分離される。この結果、１Ｖｉｄｅｏフレーム分のＶｉｄｅｏＥＳ１とＰＴＳ＝０の情報が取り出される。このＶｉｄｅｏＥＳ１はさらに、図２のＶｉｄｅｏ復号部２１４において、映像信号に復号される。

　ここで、デコーダＳＴＣは、図２のＴＳ分離部２２０から分離されたＰＣＲに同期して、例えば図４（ｇ）のようなタイミングで、クロック出力を開始する。

　これに対して、図２のＡＶ同期調整部２１６は、例えば図４（ｂ）の４０２－１のタイミングで抽出され復号されたＶｉｄｅｏＥＳ１に対応する１Ｖｉｄｅｏフレーム分の映像信号の出力を開始する。この場合、ＡＶ同期調整部２１６は、図４（ｃ）に示されるように、図４（ｇ）のデコーダＳＴＣ値が図４（ｂ）の４０２－１で分離されたＰＴＳ＝０に一致するタイミングから出力開始する。

　同様に、次のタイミングで入力したＶｉｄｅｏＥＳ２とＰＴＳ＝２５を含むＶｉｄｅｏＰＥＳは、図４（ｂ）に示されるように分離されて、ＶｉｄｅｏＥＳ２が１Ｖｉｄｅｏフレーム分の映像信号に復号される。そして、その映像信号は、図４（ｃ）に示されるように、図４（ｇ）のデコーダＳＴＣ値が上記分離されたＰＴＳ＝２５に一致するタイミングから出力開始される。

　一方、図２のＰＥＳ多重部２１０に入力するＡｕｄｉｏＰＥＳは、図４（ｄ）に示されるように入力する。

　次に、例えば図４（ｄ）の４０１－２のタイミングで入力したＡｕｄｉｏＥＳ１とＰＴＳ＝１０を含むＡｕｄｉｏＰＥＳは、図２のＰＥＳ分離部２１３にて、図４（ｅ）の４０２－２に示されるように分離される。この結果、１Ａｕｄｉｏ間隔（音声フレーム）分のＡｕｄｉｏＥＳ１とＰＴＳ＝１０の情報が取り出される。このＡｕｄｉｏＥＳ１はさらに、図２のＡｕｄｉｏ復号部２１５において、音声信号に復号される。

　これに対して、図２のＡＶ同期調整部２１６は、例えば図４（ｅ）の４０２－２のタイミングで抽出され復号されたＡｕｄｉｏＥＳ１に対応する１Ａｕｄｉｏ間隔（音声フレーム）分の音声信号の出力を開始する。この場合、ＡＶ同期調整部２１６は、図４（ｆ）に示されるように、図４（ｇ）のデコーダＳＴＣ値が図４（ｅ）の４０２－２で分離されたＰＴＳ＝１０に一致するタイミングから出力開始する。

　同様に、各タイミングで入力したＡｕｄｉｏＥＳ２とＰＴＳ＝２０、ＡｕｄｉｏＥＳ３とＰＴＳ＝３０、ＡｕｄｉｏＥＳ４とＰＴＳ＝４０、・・・を含むＡｕｄｉｏＰＥＳは、図４（ｅ）に示されるように分離される。そして、各ＡｕｄｉｏＥＳが、それぞれ１Ａｕｄｉｏ間隔（音声フレーム）分の各音声信号に復号される。そして、各音声信号は、図４（ｃ）に示されるように、図４（ｇ）のデコーダＳＴＣ値がそれぞれ分離されたＰＴＳ＝２０、３０、４０、・・・に一致する各タイミングで出力する。

　以上示したように、図２の一般的に考えられるエンコード／デコードシステムの構成では、ＰＥＳ多重部２１０およびＰＥＳ分離部２１３は、ＶｉｄｅｏＥＳとＶｉｄｅｏＰＥＳおよびＡｕｄｉｏＥＳとＡｕｄｉｏＰＥＳ間の変換処理を実行する必要がある。また、ＴＳ多重部２１１およびＴＳ分離部２２０は、ＶｉｄｅｏＰＥＳ、ＡｕｄｉｏＰＥＳとＴＳパケットとの間で変換処理を実行する必要がある。

　この場合特に、取り扱う映像サイズの増大に伴い、ＴＳ多重部２１１およびＴＳ分離部２２０に必要とされる多重化バッファ２１９、２２０の容量の増大が問題となり、システムの大型化とコストアップを招いてしまう。

　そこで、以下に説明する本実施形態では、ＴＳ多重／分離処理と、ＶｉｄｅｏＥＳ、ＶｉｄｅｏＰＥＳに対するＰＥＳ多重／分離処理を省略できるシステム構成によって、システム全体のモジュール数を削減可能とする。

　図５は、本実施形態のエンコード／デコードシステムの構成図である。
　エンコーダ部は、エンコーダ（符号化部）５０１によって構成される。デコーダ部は、デコーダ（復号部）５０２によって構成される。図２の一般的に考えられる構成で必要であった、エンコーダ（多重部）２０３とその内部のＴＳ多重部２１１に対応する５０３、５１１の破線部分、デコーダ（分離部）２０４とその内部のＴＳ分離部２２０に対応する５０４、５１２の破線部分は不要となる。

　エンコーダ（符号化部）５０１は、ＡＶ同期検出部（同期検出部）５０７、ビデオ（Ｖｉｄｅｏ）符号化部５０８、オーディオ（Ａｕｄｉｏ）符号化部５０９、およびＰＥＳ（パケット化エレメンタリストリーム）多重部５１０を備える。

　ＡＶ同期検出部５０７は、映像カメラ５０５からの映像信号と音声マイク５０６からの音声信号をそれぞれ同期させて受信する。また、ＡＶ同期検出部５０７は、ビデオ同期信号（Ｖｓｙｎｃ）のタイミングから音声信号の取込開始タイミングまでの差分値を出力する。

　Ｖｉｄｅｏ符号化部５０８は、Ｖｓｙｎｃのタイミングに同期したビデオ（Ｖｉｄｅｏ）フレームの時間間隔で映像信号を取り込んで符号化することにより、ビデオエレメンタリストリーム（ＶｉｄｅｏＥＳ）を生成する。このＶｉｄｅｏＥＳは、そのまま伝送路５１９に出力される。

　Ａｕｄｉｏ符号化部５０９は、音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリーム（ＡｕｄｉｏＥＳ）を生成する。

　ＰＥＳ多重部５１０は、ＡｕｄｉｏＥＳをパケット化して、オーディオパケット化エレメンタリストリーム（ＡｕｄｉｏＰＥＳ）を生成する。このとき、ＰＥＳ多重部５１０は、１パケットあたりＶｉｄｅｏフレームの時間間隔に対応するストリーム長を有するように、ＡｕｄｉｏＥＳをまとめてパケット化する。ＰＥＳ多重部５１０は、図２のＰＥＳ多重部２１０とは異なり、Ｖｉｄｅｏ符号化部５０８が出力するＶｉｄｅｏＥＳに対してＰＥＳパケット化は行わない。すなわち、図５の破線部５１０′は不要となる。ＰＥＳ多重部２１０から出力されるＡｕｄｉｏＰＥＳは、ＴＳパケット化されずに、そのまま伝送路５１９に出力される。ＰＥＳ多重部５１０は、ＡＶ同期検出部５０７がＶｓｙｎｃのタイミングから音声信号の取込開始までの差分値を出力したときには、差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリーム（ＤｕｍｍｙＥＳ）を生成する。そして、ＰＥＳ多重部５１０は、その生成したＤｕｍｍｙＥＳを、ＡｕｄｉｏＰＥＳに多重する。
　伝送路５１９は、無線または有線（メタル線または光ファイバ等）の伝送路である。

　デコーダ（復号部）５０２は、ビデオ（Ｖｉｄｅｏ）復号部２１４、ＰＥＳ（パケット化エレメンタリストリーム）分離部５１３、オーディオ（Ａｕｄｉｏ）復号部２１５、およびＡＶ同期調整部（同期調整部）２１６を備える。

　Ｖｉｄｅｏ復号部５１４は、伝送路５１９から入力されるＶｉｄｅｏＥＳを入力して映像信号を復号する。

　ＰＥＳ分離部５１３は、伝送路５１９からＡｕｄｉｏＰＥＳを順次入力してＡｕｄｉｏ間隔ごとのＡｕｄｉｏＥＳに分離する。ＰＥＳ分離部５１３は、ＡｕｄｉｏＰＥＳにＤｕｍｍｙＥＳが多重されているときには、ＤｕｍｍｙＥＳのストリーム長に基づき、符号化側で重畳されたＶｓｙｎｃのタイミングから音声信号の取込開始タイミングまでの差分値を出力する。

　Ａｕｄｉｏ復号部５１５は、ＰＥＳ分離部５１３にて分離されたＡｕｄｉｏＥＳから、音声信号を復号する。

　ＡＶ同期調整部５１６は、Ｖｉｄｅｏ復号部５１４で復号された映像信号およびＡｕｄｉｏ復号部５１５で復号された音声信号を、Ｖｓｙｎｃに同期して、それぞれ映像モニタ５１７および音声スピーカ５１８に出力する。ＡＶ同期調整部５１６は、ＰＥＳ分離部５１３が符号化側で重畳されたＶｓｙｎｃのタイミングから音声信号の取込開始タイミングまでの差分値を出力したときには、次の動作を実行する。ＡＶ同期調整部５１６は、ＰＥＳ分離部５１３でＤｕｍｍｙＥＳに続いて分離されたＡｕｄｉｏＥＳがＡｕｄｉｏ復号部５１５で復号されて得られる音声信号を、Ｖｓｙｎｃのタイミングからその差分値だけずらしたタイミングで出力する。

　図６は、図５に示される本実施形態のエンコード／デコードシステムにおけるエンコード処理の動作タイミングの説明図である。

　図５のＡＶ同期検出部５０７に入力する映像信号は、Ｖｓｙｎｃに同期して、図６（ａ）に示されるように入力する。各Ｖｓｙｎｃタイミングで入力する各１Ｖｉｄｅｏフレーム間隔分の映像信号は、図６（ｂ）の６０１－１として示されるように、１Ｖｉｄｅｏフレーム分遅れた次のＶｓｙｎｃタイミングから、Ｖｉｄｅｏ符号化部５０８により符号化される。この結果、例えばビデオＥＳとして、ＶｉｄｅｏＥＳ１、ＶｉｄｅｏＥＳ２、・・・が得られる。

　このようにして得られた各ＶｉｄｅｏＥＳは、ＰＥＳパケット化はされずにそのまま順次、伝送路５１９に送出される。

　一方、図５のＡＶ同期検出部５０７では、音声マイク５０６からの音声信号は、例えば図６（ｃ）に示されるように入力される。これに対して、ＡＶ同期検出部５０７は、音声信号の取込開始タイミングで、Ｖｓｙｎｃのタイミングからその取込開始タイミングまでの差分値を出力する。図６（ｃ）の例では、音声の取込開始タイミングは、Ｖｓｙｎｃから１０ｍｓｅｃだけずれているため、差分値＝１０を出力する。

　次に、図５のＡｕｄｉｏ符号化部５０９は、図６（ｄ）の６０１－２のように、音声取込開始後のＶｓｙｎｃのタイミングを基準とする例えば１０、２０、３０、４０、・・・（図６（ｃ））という各オーディオ（Ａｕｄｉｏ）間隔ごとに、音声信号を符号化する。このＡｕｄｉｏ間隔は、音声の分析フレーム長に対応する。この結果、Ａｕｄｉｏ符号化部５０９は、ＡｕｄｉｏＥＳとして、ＡｕｄｉｏＥＳ１、ＡｕｄｉｏＥＳ２、ＡｕｄｉｏＥＳ３、ＡｕｄｉｏＥＳ４、・・・を順次出力する。

　続いて、図５のＰＥＳ多重部５１０は、各ＡｕｄｉｏＥＳをパケット化して、ＡｕｄｉｏＰＥＳを生成する。このとき、ＰＥＳ多重部５１０は、図６（ｅ）のように、１パケットがＶｉｄｅｏフレームの時間間隔に対応する符号化された上でのストリーム長を有するように、ＡｕｄｉｏＥＳ１～４を再構成して多重する。また、ＰＥＳ多重部５１０は、図５のＡＶ同期検出部５０７がＶｓｙｎｃのタイミングから音声信号の取込開始タイミングまでの差分値を出力したときには、差分値に対応するストリーム長を有するＤｕｍｍｙＥＳを生成する。そして、ＰＥＳ多重部５１０は、図６（ｅ）の６０２－２として示されるように、その生成したＤｕｍｍｙＥＳを、ＡｕｄｉｏＰＥＳに多重する。この例では、ＤｕｍｍｙＥＳのストリーム長は差分値＝１０に対応する符号化された上でのストリーム長となる。本実施形態の場合、各ＡｕｄｉｏＰＥＳには、各パケット長を示す情報がそのヘッダ部ＡＰＥＳＨに付加されるが、音声信号の各入力開始タイミングを示すエンコーダＳＴＣ値を基準とするＰＴＳは付加する必要はない。以上のようにして生成された各ＡｕｄｉｏＰＥＳが、伝送路５１９に送出される。

　図７は、図５に示される本実施形態のエンコード／デコードシステムにおけるデコード処理の動作タイミングの説明図である。

　図５の伝送路５１９からＶｉｄｅｏ復号部５１４に入力するＶｉｄｅｏＥＳは、図７（ａ）の７０１－１として示されるように、Ｖｉｄｅｏフレーム間隔に対応するストリーム長で入力する。本実施形態では、エンコーダＳＴＣのタイミングを示すＰＣＲ（Ｐｒｏｇｒａｍ　Ｃｌｏｃｋ　Ｒｅｆｅｒｅｎｃｅ）は伝送する必要はないため、ＴＳパケットの分離を行う必要はない（図５の破線部５１２）。また、ＰＴＳ（Ｐｒｅｓｅｎｔａｔｉｏｎ　Ｔｉｍｅ　Ｓｔａｍｐ）のタイムスタンプ情報も伝送する必要がなく、ＶｉｄｅｏＥＳはパケットされずに伝送されるため、ＶｉｄｅｏＰＥＳからＶｉｄｅｏＥＳへのＰＥＳ分離も行う必要はない。

　次に、図５のＡＶ同期調整部５１６は、Ｖｉｄｅｏ復号部５１４で復号された映像信号が特には図示しない映像バッファに１Ｖｉｄｅｏフレーム分揃って表示可能になると、次のような出力タイミング制御を行う。ＡＶ同期調整部５１６は、図７（ｂ）の７０２－１として示されるように、各Ｖｉｄｅｏフレームごとの復号された映像信号を、Ｖｓｙｎｃのタイミングに同期して映像モニタ５１７に出力する。

　一方、図５の伝送路５１９からＰＥＳ多重部５１０に入力する各ＡｕｄｉｏＰＥＳは、図７（ｃ）に示されるように入力する。本実施形態では、エンコーダＳＴＣのタイミングを示すＰＣＲは伝送する必要はないため、ＴＳパケットの分離を行う必要はない（図５の破線部５１２）。各オーディオＰＥＳには、Ｖｉｄｅｏフレーム間隔に対応する音声符号化されたストリーム長分のＡｕｄｉｏＥＳが格納されている。この場合、１つのＡｕｄｉｏＰＥＳ内に、別々のＡｕｄｉｏ間隔から生成された複数のＡｕｄｉｏＥＳが含まれ得る。ＰＥＳ多重部５１０は、各オーディオＰＥＳから、それぞれＡｕｄｉｏ間隔ごとのＡｕｄｉｏＰＥＳを分離する。例えば図７（ｄ）に示されるように、ＡｕｄｉｏＥＳ１、ＡｕｄｉｏＥＳ２、ＡｕｄｉｏＥＳ３、ＡｕｄｉｏＥＳ４、・・・が順次分離される。また、音声信号の取込開始タイミングにおいては、ＡｕｄｉｏＰＥＳの先頭に、ＤｕｍｍｙＥＳが含まれ得る。この場合、ＰＥＳ多重部５１０は、図７（ｃ）の７０１－２に示されるように、ＤｕｍｍｙＥＳのストリーム長に基づき、符号化側で重畳されたＶｓｙｎｃのタイミングから音声信号の取込開始タイミングまでの差分値を出力する。図７では、例えば差分値＝１０である。

　ＰＥＳ分離部５１３にて分離されたＡｕｄｉｏ間隔ごとの各ＡｕｄｉｏＥＳはさらに、図５のＡｕｄｉｏ復号部５１５において、音声信号に復号され、特には図示しない音声バッファに順次出力される。図５のＡＶ同期調整部５１６は、音声バッファに音声信号が揃って出力可能となると、その直後のＶｓｙｎｃのタイミングからＰＥＳ分離部５１３からの差分値だけタイミングをずらして、Ａｕｄｉｏ間隔ごとの復号音声信号を音声スピーカ５１８に出力開始する。図７の例では、図７（ｅ）の７０２－２のＶｓｙｎｃタイミングから差分値に対応する時間＝１０ｍｓｅｃだけずれたタイミングから、Ａｕｄｉｏ間隔ごとの復号音声信号が出力開始される。

　以上示したように、図５の本実施形態によるエンコード／デコードシステムの構成では、図２のエンコーダ（多重部）２０３とその内部のＴＳ多重部２１１、および図２のデコーダ（分離部）２０４とその内部のＴＳ分離部２２０が不要となる。すなわち、図５の５０３、５１１、５０４、５１２の各破線部分が不要となる。また、図５のＰＥＳ多重部５１０およびＰＥＳ分離部５１３についても、ＶｉｄｅｏＥＳとＶｉｄｅｏＰＥＳを相互変換する機能も不要となる。この結果、例えば取り扱う映像サイズが増大しても、例えば図２のＴＳ多重部２１１およびＴＳ分離部２２０の部分で必要とされた多重化バッファ２１９、２２０が不要となるため、システムの大型化とコストアップを回避することが可能となる。

　図８は、図５のシステム構成を有する本実施形態におけるオーディオ出力タイミング決定処理のエンコード側の開始処理を示すフローチャートである。この処理は、図５のエンコーダ（符号化部）５０１の機能を実現するコンピュータ内の特には図示しないＣＰＵ（中央演算処理装置）が、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

　まず、図５のＡＶ同期検出部５０７において、映像信号の取込開始タイミング（ビデオ取込開始タイミング）が、Ｖｓｙｎｃを基準に決定される（ステップＳ８０１）。

　次に、ＡＶ同期検出部５０７において、ビデオ取込開始タイミングに対する音声信号の取込開始タイミング（オーディオ取込開始タイミング）の差分値が決定される（ステップＳ８０２）。

　次に、図５のＰＥＳ多重部５１０において、上記差分値に対応するストリーム長を有するＤｕｍｍｙＥＳ（ダミーストリーム）が生成される（ステップＳ８０３）。

　続いて、ＰＥＳ多重部５１０において、生成されたＤｕｍｍｙＥＳが、ＡｕｄｉｏＰＥＳの先頭に配置される（ステップＳ８０４）（図７の７０１－２参照）。

　これ以後、ＰＥＳ多重部５１０において、Ｖｓｙｎｃ間隔ごとにＡｕｄｉｏＰＥＳが生成されて出力される（ステップＳ８０５）。

　図９は、図５のシステム構成を有する本実施形態におけるオーディオ出力タイミング決定処理のデコード側の開始処理を示すフローチャートである。この処理は、図５のデコーダ（復号部）５０２の機能を実現するコンピュータ内の特には図示しないＣＰＵが、特には図示しないメモリに記憶された制御プログラムを実行する動作として実現される。

　まず、図５のＡＶ同期調整部５１６において、デコーダ（復号部）５０２側のＶｓｙｎｃ信号を基準に、映像信号（ビデオ）の表示タイミングが決定される（ステップＳ９０１）。

　次に、図５のＰＥＳ分離部５１３において、ＡｕｄｉｏＰＥＳに多重されているＤｕｍｍｙＥＳのストリーム長に基づき、符号化側で重畳されたＶｓｙｎｃのタイミングから音声信号の取込開始タイミングまでの差分値が取得される（ステップＳ９０２）。

　次に、図５のＡＶ同期調整部５１６において、Ｖｓｙｎｃに同期するビデオ表示タイミングと、ＰＥＳ分離部５１３から通知される差分値とから、オーディオ出力タイミングが決定される（ステップＳ９０３）（図７の７０２－２参照）。

　そして、ＡＶ同期調整部５１６で、オーディオ出力タイミング以降、図５のＡｕｄｉｏ復号部５１５から特には図示しない音声バッファを介して順次出力されるＡｕｄｉｏ間隔ごとの音声信号が、連続出力される（ステップＳ９０４）。

　図１０は、他の実施形態の説明図である。
　図１から図４で説明した一般的に考えられる構成は、図１０（ａ）に示されるように、ＡｕｄｉｏＰＥＳには、オーディオストリーム（ＡｕｄｉｏＥＳ）が単純にパケット化されるだけであった。

　これに対して、上述した図５から図９で説明した実施形態では、図１０（ｂ）に示されるように、音声取込開始タイミングで、ＡｕｄｉｏＰＥＳの先頭に、ダミーストリーム（ＤｕｍｍｙＥＳ）１００１が配置された。そして、このダミーストリーム１００１は、Ｖｓｙｎｃのタイミングから音声取込開始タイミングまでの差分値に対応するストリーム長を有するように設定された。その後、連続するオーディオストリーム（ＡｕｄｉｏＥＳ）が配置された。この場合、ダミーストリーム１００１は、図５のＡｕｄｉｏ復号部５１５において、オーディオデコード（復号）エラーが発生しないように、ビット列が配慮される。

　図１０（ｃ）は、音声取込開始タイミングを通知する他の実施形態である。この実施形態では、音声取込開始タイミングで、ＡｕｄｉｏＰＥＳの先頭にオーディオ差分情報が格納される。このオーディオ差分情報は、Ｖｓｙｎｃのタイミングから音声取込開始タイミングまでの差分値を示す情報である。このオーディオ差分情報は、図５のＰＥＳ分離部５１３においてＡｕｄｉｏＰＥＳから分離されて、差分値としてＡＶ同期調整部５１６に通知される。この場合も、図５のＡｕｄｉｏ復号部５１５において、オーディオデコード（復号）エラーが発生しないように、ビット列が配慮される。

　以上説明した各実施形態では、信号処理のためのモジュール点数を削減し、システム構築を容易にすることが可能となる。

　また、モジュール点数の削減に伴って、ＴＳ多重部やＴＳ分離部等の多重化モジュール自体の準備、ブロック間インタフェースの作成／結合に係る作業を削減することが可能となる。

　さらに、ＴＳ多重部やＴＳ分離部等の削減により、小型化、低消費電力化を図ることが可能となる。

　図１１は、上記システムをソフトウェア処理として実現できるコンピュータのハードウェア構成の一例を示す図である。

　図１１に示されるコンピュータは、ＣＰＵ１１０１、メモリ１１０２、入力装置１１０３、出力装置１１０４、外部記憶装置１１０５、可搬記録媒体１１０９が挿入される可搬記録媒体駆動装置１１０６、及び通信インタフェース１１０７を有し、これらがバス１１０８によって相互に接続された構成を有する。同図に示される構成は上記システムを実現できるコンピュータの一例であり、そのようなコンピュータはこの構成に限定されるものではない。

　ＣＰＵ１１０１は、当該コンピュータ全体の制御を行う。メモリ１１０２は、プログラムの実行、データ更新等の際に、外部記憶装置１１０５（或いは可搬記録媒体１１０９）に記憶されているプログラム又はデータを一時的に格納するＲＡＭ等のメモリである。ＣＵＰ１１０１は、プログラムをメモリ１１０２に読み出して実行することにより、全体の制御を行う。

　入出力装置１１０３は、ユーザによるキーボードやマウス等による入力操作を検出し、その検出結果をＣＰＵ１１０１に通知し、ＣＰＵ１１０１の制御によって送られてくるデータを表示装置や印刷装置に出力する。

　外部記憶装置１１０５は、例えばハードディスク記憶装置である。主に各種データやプログラムの保存に用いられる。

　可搬記録媒体駆動装置１１０６は、光ディスクやＳＤＲＡＭ、コンパクトフラッシュ（登録商標）等の可搬記録媒体１１０９を収容するもので、外部記憶装置１１０５の補助の役割を有する。

　通信インタフェース１１０７は、例えばＬＡＮ（ローカルエリアネットワーク）又はＷＡＮ（ワイドエリアネットワーク）の通信回線を接続するための装置である。

　本実施形態によるシステムは、図５に示される各部の機能または図８、図９の動作フローチャートで実現される制御動作の機能を搭載したプログラムをＣＰＵ１１０１が実行することで実現される。そのプログラムは、例えば外部記憶装置１１０５や可搬記録媒体１１０９に記録して配布してもよく、或いはネットワーク接続装置１１０７によりネットワークから取得できるようにしてもよい。

Claims

　映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行う方法において、
　エンコード処理時に、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、
　前記音声信号をオーディオ間隔ごとに取り込んで符号化することによりオーディオエレメンタリストリームを生成し、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する、
　ことを備え、
　デコード処理時に、
　前記ビデオエレメンタリストリームを入力して前記映像信号を復号し、
　前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離し、
　前記オーディオエレメンタリストリームから前記音声信号を復号し、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する、
　ことを備えることを特徴とするエレメンタリストリーム多重方法。
　前記エンコード処理時に、
　前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力し、
　前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
　ことをさらに備え、
　前記デコード処理時に、
　前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
　前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
　ことをさらに備えることを特徴とする請求項１に記載のエレメンタリストリーム多重方法。
　映像信号と音声信号を圧縮符号化してストリーム形式にエンコードする方法であって、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力し、
　前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成し、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する、
　ことを備えることを特徴とするエレメンタリストリームエンコード方法。
　前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力し、
　前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
　ことをさらに備えることを特徴とする請求項３に記載のエレメンタリストリームエンコード方法。
　ストリーム形式にエンコードされている映像信号および音声信号をデコードする方法であって、
　ビデオエレメンタリストリームを入力して前記映像信号を復号し、
　オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離し、
　前記オーディオエレメンタリストリームから前記音声信号を復号し、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する、
　ことを備えることを特徴とするエレメンタリストリームデコード方法。
　前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
　前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
　ことをさらに備えることを特徴とする請求項５に記載のエレメンタリストリームデコード方法。
　映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行うシステムにおいて、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力するビデオ符号化部と、
　前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成するオーディオ符号化部と、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力するパケット化エレメンタリストリーム多重部と、
　を備えるエンコーダと、
　前記ビデオエレメンタリストリームを入力して前記映像信号を復号するビデオ復号部と、
　前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離するパケット化エレメンタリストリーム分離部と、
　前記オーディオエレメンタリストリームから前記音声信号を復号するオーディオ復号部と、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する同期調整部と、
　を備えるデコーダと、
　を備えることを特徴とするエレメンタリストリーム多重システム。
　前記エンコーダは、前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する同期検出部をさらに備え、
　前記パケット化エレメンタリストリーム多重部は、前記同期検出部が前記差分値を出力したときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重し、
　前記パケット化エレメンタリストリーム分離部は、前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
　前記同期調整部は、前記パケット化エレメンタリストリーム分離部が前記差分値を出力したときには、前記パケット化エレメンタリストリーム分離部において前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが前記オーディオ復号部で復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
　ことを備えることを特徴とする請求項７に記載のエレメンタリストリーム多重システム。
　映像信号と音声信号を圧縮符号化してストリーム形式にエンコードする装置であって、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力するビデオ符号化部と、
　前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成するオーディオ符号化部と、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力するパケット化エレメンタリストリーム多重部と、
　を備えることを特徴とするエレメンタリストリームエンコード装置。
　前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する同期検出部をさらに備え
　前記パケット化エレメンタリストリーム多重部は、前記同期検出部が前記差分値を出力したときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する、
　ことを特徴とする請求項９に記載のエレメンタリストリームエンコード装置。
　ストリーム形式にエンコードされている映像信号および音声信号をデコードする装置であって、
　ビデオエレメンタリストリームを入力して前記映像信号を復号するビデオ復号部と、
　オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離するパケット化エレメンタリストリーム分離部と、
　前記オーディオエレメンタリストリームから前記音声信号を復号するオーディオ復号部と、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する同期調整部と、
　を備えることを特徴とするエレメンタリストリームデコード装置。
　前記パケット化エレメンタリストリーム分離部は、前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力し、
　前記同期調整部は、前記パケット化エレメンタリストリーム分離部が前記差分値を出力したときには、前記パケット化エレメンタリストリーム部で前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが前記オーディオ復号部で復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する、
　ことを特徴とする請求項１１に記載のエレメンタリストリームデコード装置。
　映像信号と音声信号を圧縮符号化してストリーム形式にて受け渡しを行うコンピュータに、
　エンコード処理時に、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力する機能と、
　前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成する機能と、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する機能と、
　を実行させ、
　デコード処理時に、
　前記ビデオエレメンタリストリームを入力して前記映像信号を復号し、
　前記オーディオパケット化エレメンタリストリームを入力して前記オーディオ間隔ごとの前記オーディオエレメンタリストリームを分離する機能と、
　前記オーディオエレメンタリストリームから前記音声信号を復号する機能と、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する機能と、
　を実行させることを特徴とするプログラム。
　前記エンコード処理時に、
　前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する機能と
　前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する機能と、
　をさらに実行させ、
　前記デコード処理時に、
　前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力する機能と、
　前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する機能と、
　をさらに実行させることを特徴とする請求項１３に記載のプログラム。
　映像信号と音声信号を圧縮符号化してストリーム形式にエンコードするコンピュータに、
　ビデオ同期信号のタイミングに同期したビデオフレームの時間間隔で前記映像信号を取り込んで符号化することによりビデオエレメンタリストリームを生成して出力する機能と、
　前記音声信号を取り込んでオーディオ間隔ごとに符号化することによりオーディオエレメンタリストリームを生成する機能と、
　前記オーディオエレメンタリストリームを１パケットあたり前記ビデオフレームの時間間隔に対応するストリーム長を有するオーディオパケット化エレメンタリストリームに多重して出力する機能と、
　を実行させることを特徴とするプログラム。
　前記音声信号の取込みが開始されるタイミングごとに、該タイミングの前記ビデオ同期信号のタイミングからの差分値を出力する機能と、
　前記差分値が出力されたときには、前記差分値に対応するストリーム長を有するダミーオーディオエレメンタリストリームを生成して前記オーディオパケット化エレメンタリストリームに多重する機能と、
　をさらに実行させることを特徴とする請求項１５に記載のプログラム。
　ストリーム形式にエンコードされている映像信号および音声信号をデコードするコンピュータに、
　ビデオエレメンタリストリームを入力して前記映像信号を復号する機能と、
　オーディオパケット化エレメンタリストリームを入力してオーディオ間隔ごとのオーディオエレメンタリストリームを分離する機能と、
　前記オーディオエレメンタリストリームから前記音声信号を復号する機能と、
　復号された前記映像信号および前記音声信号を前記ビデオ同期信号に同期して出力する機能と、
　を実行させることを特徴とするプログラム。
　前記オーディオパケット化エレメンタリストリームに前記ダミーオーディオエレメンタリストリームが多重されているときには、前記ダミーオーディオエレメンタリストリームのストリーム長に基づいて前記差分値を出力する機能と、
　前記差分値が出力されたときには、前記ダミーオーディオエレメンタリストリームに続いて分離された前記オーディオエレメンタリストリームが復号されて得られる前記音声信号を、前記ビデオ同期信号のタイミングから前記差分値だけずらしたタイミングで出力する機能と、
　をさらに実行させることを特徴とする請求項１７に記載のプログラム。