WO2005025224A1

WO2005025224A1 - コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システム

Info

Publication number: WO2005025224A1
Application number: PCT/JP2004/010744
Authority: WO
Inventors: Ikuo Tsukagoshi; Shinji Takada; Koichi Goto
Original assignee: Sony Corporation
Priority date: 2003-09-02
Filing date: 2004-07-22
Publication date: 2005-03-17
Also published as: CN1868213A; KR20060134911A; TWI256255B; EP1662793B1; CN1868213B; EP1662793A1; TW200511853A; US20070092224A1; US7983345B2; EP1662793A4

Abstract

本発明は、映像及び音声間のリップシンクをデコーダ側で確実に調整できるようにする。本発明は、ビデオタイムスタンプVTSが付された複数の符号化ビデオフレームと、オーディオタイムスタンプATSが付された複数の符号化オーディオフレームとをエンコーダ側から受信して復号し、その結果得られる複数のビデオフレームVF1及び複数のオーディオフレームAF1を蓄積し、エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックstcのクロック周波数とのずれによって生じる時間差をレンダラー37、67で算出し、その時間差に応じ、複数のオーディオフレームAF1をフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームVF1をフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整することにより、音声の連続性を保持したままリップシンクさせることができる。

Description

明細書コンテンッ受信装置、ビデオオーディォ出力タイミング制御方法及ぴコ提供システム技術分野

本発明は、コンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及びコンテンツ提供システムに関し、例えばコンテンツを受信するデコーダ側で映像と音声のリップシンクがずれるこ'とを解消する場合に適用して好適なものである。背景技術

従来、コンテンツ受信装置においては、エンコーダ側のサ一パからコンテンツを受信してデコードする場合、当該コンテンツを構成する映像バケツト及ぴ音声パケットに分離し、それぞれデコードした後に映像バケツトに付されたビデオタィムスタンプと音声パケットに付されたオーディォタイムスタンプを基にビデオフレームとオーディオフレームを出力することにより、映像と音声との出力タイミングを一致させる（すなわちリップシンクさせる）ようになされている（例えば、特許文献 1参照）。 ' . 特許文献 1 特開平 8— 2 8 0 0 0 8号公報。ところでかかる構成のコンテンツ受信装置においては、当該デコーダ側のシステムタイムクロックと、エンコーダ側の基準クロックとが互いに同期しているとは限らず、また当該デコーダ側のシステムタイムクロックにおけるクロックジッタ等によってエンコーダ側の基準ク口ックとの間でク口ック周波数の微妙なずれが生じていることもある。またコンテンツ受信装置は、ビデオフレームとオーディオフレームとではそのデータ長が異なるため、当該デコーダ側のシステムタイムクロックとエンコーダ側の基準クロックとが完全に同期していないときには、ビデオタイムスタンプ及ビデオォタイムスタンプを基にビデオフレーム及ビデオオフレームを出力したとしても、映像と音声との出力タイミングが一致せず、リップシンクがずれてしまうという問題があった。発明の開示

本発明は以上の点を考慮してなされたもので、視聴者であるユーザに違和感を感じさせることなく映像及び音声間のリップシンクを当該デコーダ側で確実に調整し得るコンテンッ受信装置、ビデオオーディォ出カタイミング制御方法及びコンテンッ提供システムを提案しようとするものであ.る。

かかる課題を解決するため本発明においては、エンコーダ側の基準クロックに基づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、基準クロックに基づくオーディォタイムスタンプが順次付された複数の符号化ォーディオフレームとをエンコーダ側のコンテンツ提供装置から受信して復号する復号手段と、復号手段によつて符号化ビデオフレーム及び符号化オーディオフレ一ムを復号した結果得'られる複数のビデオフレーム及ぴ複数のオーディオフレームを蓄積する記憶手段と、エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手段と、時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整するタイミング調整手段とを設けるよう

にする。

エンコーダ側の基準ク口ックとデコーダ側のシステムタイムクロックとの間におけるクロック周波数のずれによって生じる時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整することにより、エンコーダ側とデコーダ側のク口ック周波数の差を吸収し、オーディオフレーム出力タイミングにビデオフレーム出力タイミングを合わせてリップシンクさせることができる。

また本発明においては、復号手段に対して、エンコーダ側の基準クロックに基づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、基準ク口ック.に基づくオーディオタイムスタンプが順次付された複数の符号化オーディオフレームとをエンコーダ側のコンテンッ提供装置から受信して復号させる復号ステップと、記憶手段に対して、復号ステップで符号化ビデオフレーム及び符号化オーディオフレームを復号した結果得られる複数のビデオフレーム及び複数のオーディオフレームを蓄積させる記憶ステップと、算出手段に対して、ェンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間差を算出させる差分算出ステップと、タイミング調整手段に対して、時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのォ一ディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整させるタイミング調整ステップとを設けるようにする。 . エンコーダ側の基準クロックとデコーダ側のシステムタイムクロックとの間におけるクロック周波数のずれによって生じる時間差に応じ、複数のオーディオフレ一ムをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフ.レーム出力タイミングを調整することにより、エンコーダ側とデコーダ側のクロック周波数の差を吸収し、オーディオフレーム出力タイミングにビデオフレーム出力タイミングを合わせてリップシンクさせることができる。

さらに本発明においては、コンテンツ提供装置とコンテンツ受信装置を有するコンテンツ提供システムであって、コンテンツ提供装置は、エンコーダ側の基準ク口ックに基づくビデオタイムスタンプを付した複数の符号化ビデオフレームと、基準ク口ックに基づくオーディオタイムスタンプを付した複数の符号化オーディオフレームとを生成する符号化手段と、複数の符号化ビデオフレーム及び複数の符号化オーディオフレームをコンテンッ受信装置へ順次送信する送信手段とを具え、コンテンツ受信装置は、ビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、オーディォタイムスタンプが順次付された複数の符号化ォーディオフレームとをエンコーダ側のコンテンッ提供装置から受信して復号する復号手段と、復号手段によつて符号化ビデオフレーム及び符号化オーディオフレ一ムを復号した結果得られる複数のビデオフレーム及び複数のオーディォフレームを蓄積する記憶手段と、エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手段と、時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム'出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整するタイミング調整手段とを設けるようにする。

エンコーダ側の基準クロックとデコーダ側のシステムタイムクロックとの間におけるクロック,周波数のずれによつて'生じる時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整することにより、エンコーダ側とデコーダ側のク口ック周波数の差を吸収し、オーディオフレーム出力タイミングにビデ才フレーム出力タイミングを合わせてリップシンクさせることができる。

上述のように本発明によれば、エンコーダ側の基準ク口ックとデコーダ側のシステムタイムクロックとの間におけるクロック周波数のずれによって生じる時間差に応じ、複数のオーディオフレームをフレーム単位で順次出力するときのォーディオフレーム出力タイミングを基準として複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整することにより、エンコーダ側とデコーダ側のクロック周波数の差を吸収し、オーディオフレーム出力タイミングにビデオフレーム出力タイミングを合わせてリップシンクさせることができ、かくして視聴者であるュ一ザに違和感を感じさせることなく映像及ぴ音声間のリップシンクを当該デコーダ側で確実に調整し得るコンテンッ受信装置、ビデオオーディオ出力タイミング制御方法及ぴコンテンツ提供システムを実現することができる。図面の簡単な説明

図 1は、ストリーミングシステムの全容を表すコンテンツ提供システムの全体構成を示す略線的ブロック図である。 '

図 2は、コンテンツ提供装置の回路構成を示す略線的プロック図である。図 3は、オーディオパケット及ぴビデオパケット内のタイムスタンプ ( T C P プロトコル）の構造を示す略線図である。

図 4は、第 1のコンテンツ受信装置におけるストリーミングデコーダのモジュール構成を示す略線的ブロック図である。

図 5は、プリェンコ一デッドストリーミングにおけるビデオフレーム及びォーディオフレームの出力タイミングを説明する際に供する略線図である。

図 6は、プリェンコ '一デッドストリーミングにおけるリップシンク調整処理手順を示す略線的フローチャートである。'

図 7は、第 1のコンテンツ受信装置におけるリアルタイムストリーミングェンコーダの回路構成を示す略線的プロック図である。 '

図 8は、コントロールパグット内の P C R (U D Pプロトコル）の構造を示す略線図である。

図 9は、第 2のコンテンツ受信装置におけるリアルタイムストリーミングデコーダの回路構成を示す略線的プロック図である。

図 1 0は、ライプストリーミングにおけるビデオフレーム及びオーディオフレ —ムの出力タイミングを説明する際に供する略線図である。図 1 1は、ライブストリーミングにおけるリップシンク調整処理手順を示す略線的フローチャートである。発明を実施するための最良の形態

以下、図面について、本発明の一実施の形態を詳述する。

(1) コンテンツ提供システムの全体構成

図 1において、 1は全体として本発明のコンテンツ提供システムを示し、大きく分けてコンテンツ配信側となるコンテンッ提供装置 2と、コンテンッ受信側となる第 1のコンテンッ受信装置 3及び第 2のコンテンッ受信装置 4とによって構成されている。

, コンテンッ提供システム 1では、コンテンツ提供装置 2と第 1のコンテンツ受信装置 3とがインターネット 5を介して相互に接続されており、例えば第 1のコンテンッ受信装置 3からの要求に応じてコンテンッ提供装置 2からコンテンツを配信するビデオオンデマンド（VOD) のようなプリェンコ一デッドストリーミングを実現し得るようになされている。

コンテンツ提供装置 2は、エンコーダ 7で予めエンコードして蓄積しておいたエレメンタリストリーム E Sをストリ一ミングサーバ 8でパケット化し、これをインターネット 5を介して第 1のコンテンツ受信装置 3へ配信するようになされている。

第 1のコンテンツ受信装置 3は、エレメンタリストリーム E Sをストリーミングデコーダ 9でデコードすることにより元の映像及ぴ音声を復元し、当該元の映像及び音声をモニタ 1 0から出力するようになされている。 .

またコンテンツ提供システム 1では、第 1のコンテンツ受信装置 3と第 2のコンテンッ受信装置 4とが例えば I E E E ( I n s t i t u t e o f E— l e c t r i c a l a n d E l e c t r o n i c s En g i n e e r s ) 802. 1 1 a/bZg等の規格に準拠した無線 LAN 6で接続されており、当該第 1のコンテンツ受信装置 3が出力から供給された地上波ディジタル、 B S ( B r o a d c a s t S a t e l 1 i t e ) / C S (C o mm u n i c a— t i o n S a t e l l i t e) ディジタル又は地上波アナログ放送等のコンテンッあるいは DVD (D i g i t a l V e r s a t i l e D i s c) , V i d e o C Dほか一般的なビデオ力メラからのコンテンツをリアルタイムでェンコードした後に中継する形で第 2のコンテンッ受信装置 4へ無線送信し得るようになされている。

因みに、第 1のコンテンツ受信装置 3と第 2のコンテンツ受信装置 4とは必ずしも無線 L A N 6で接続されていなければならない訳ではなく、有線 L A Nで接続されていても良い。

第 2のコンテンッ受信装置 4は、第 1のコンテンッ受信装置 3から受信したコンテンッをリアルタイムストリ一ミングデコーダ 1 2でデコードすることによりストーミング再生を行い、その再生結果をモニタ 1 3へ出力するようになされている。 '

かくして第 1のコンテンツ受信装置 3及び第 2のコンテンツ受信装置 4の間では、出力から供給を受けたコンテンツを第 1のコンテンツ受信装置 3でリアルタィムにェンコ一ドして第 2のコンテンツ受信装置 4へ ¾信し、当該第 2のコンテンッ受信装置 4でストリーミング再生することにより、ライブストリーミングを実現し得るようになされている。

(2) コンテンツ提供装置の構成

図 2に示すようにコンテンツ提供装置 2は、エンコーダ 7及びストリーミングサーバ 8によって構成されており、出力から取り込んだビデオ信号 VS 1をビデォ入力部 2 1を介してビデオエンコーダ 2 2へ送出する。

ビデオェンコーダ 2 2は、ビデオ信号 V S 1を例えば M P EG 1 /2/4 ( Mo v i n g P i c t r e E x p e r t s G r o u p) の規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号化し、その結果得られるビデオエレメンタリストリーム VE S 1をリングパッファでなるビデォ E S蓄積部 2 3へ送出する。ビデオ E S蓄積部 23は、ビデオエレメンタリストリーム VE S 1を一旦蓄積した後に、当該ビデオエレメンタリストリーム VE S 1をストリ一ミングサーバ 8のバケツト生成部 27及びビデオフレームカウンタ 28へ送出する。

ビデオフレームカウンタ 28では、ビデオエレメンタリストリーム VE S 1をフレーム周波数単位 (29. 97 [Hz] あるいは 30 [Hz] あるいは 5 9. 94 [H z] あるいは 60 [H z] ) でカウントし、そのカウントアップ値を基準クロックに基づく 90 [KHz] 単位の値に変

換し、 3 2ビット表現で各ビデオフレームに対するビデオタイムスタンプ VTS (VT S 1、 VT S 2、 VTS 3、 …… ) としてパケット生成部 27へ送出する

'一方、コンテンツ提供装置 2は、出力から取り込んだオーディオ信号 AS 1をストリーミングエンコーダ 7のオーディォ入力部 24を介してオーディオェンコーダ 25へ送出する。

オーディオエンコーダ 25は、オーディオ信号 AS 1を MPEG 1/2/4ォ一ディォの規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号化し、その結果得られるオーディオエレメンタリストリーム AE S 1 をリングバッファでなるオーディォ E S蓄積部 26へ送出する。

オーディオ E S蓄積部 26は、オーディオエレメンタリストリーム AE S 1を一旦蓄積した後に、当該オーディオエレメンタリストリーム AE S 1をストリ.一ミングサーバ 8のバケツト生成部 27及びオーディオフレームカウンタ 29へ送出する。

オーディオフレームカウンタ 29はビデオフレ一ムカウンタ 28同様、オーディォフレームのカウントアップ値をビデオと^通の基準ク口ックに基づく 90 [ KH z] 単位の値に変換し、各オーディオフレームに対するオーディオタイムスタンプ ATS (ATS 1、 ATS 2、 AT S 3、 …… ) として 32ビット表現し、バケツト生成部 2 7へ送出する。

バケツト生成部 27では、ビデオエレメンタリストリーム VE S 1を所定データサイズのバケツトに分割し、それぞれのバケツトにビデオヘッダ情報を付加することによりビデオパケットを生成すると共に、オーディオエレメンタリストリーム AES 1を所定データサイズのバケツトに分割し、それぞれのバケツトにォ一ディォヘッダ情報を付加することによりオーディオパケットを生成する。ここで図 3に示すようにオーディオパケット及びビデオパケットは、 I P (

I n t e r n e t P r o t o c o l ) へッダ、 TCP (T r a n s m i s— s i o n Co n t r o l P r o t o c o l ) へッグ、 RTP (R e a l— T i me Tr a n s p o r t P r o t o c o l) ヘッダ及び RT Pペイロードからなり、 RT Pヘッダ内における 4バイトのタイムスタンプ領域に上述のォ一ディォタイムスタンプ AT Sやビデオタイムスタンプ VTSが書き込まれるようになされている。

そしてバケツト生成部 27では、ビデオバケツト及びビデオタイムスタンプ V TSを基に所定バイト数からなる映像パケットデータを生成すると共に、オーディォパケット及ビデオオタィムスタンプ A TSを基に所定バイト数からなる音声バケツトデータを生成し、これらを多重化する'ことにより多重化デタ MXD 1 を生成した後パケットデータ蓄積部 30へ送出する。

パケットデータ蓄積部 30は、多重化データ MXD 1を所定量蓄積すると、パケット毎の当該多重化データ MXD 1をィンターネット 5を介して RTPZTC P (Re a I T ime T r a n s p o r t P r o t o c o 1 /Tr a n s— m i s s i o n C o n t r o l P r o t o c o l) で第 1のコンテンツ受信装置 3へ送信するようになされている。

(3) 第 1のコンテンツ受信琴置におけるストリーミングデコーダのモジュール構成

図 4に示すように第 1のコンテンッ受信装置 3は、コンテンッ提供装置 2から RTP/TCPで送信された多重化データ MXD 1を入力バケツト蓄積部 31に一旦蓄積した後、パケット分割部 32へ送出する。

パケット分割部 32は、多重化データ MX D 1を映像バケツトデータ VP 1と音声バケツトデータ A P 1に分割し、さらに当該音声バケツトデータ A P 1をォ一ディォバケツトとオーディォタイムスタンプ A T Sとに分割した後、オーディォバケツトをリ,ングバッファでなる入力オーディォバッファ 3 3を介してオーディォフレーム単位でオーデ'ィォデコーダ 3 5へ送出すると共に、オーディオタイムスタンプ A T Sをレンダラー 3 7へ送出する。

またバケツト分割部 3 2は、映像パケットデータ V P 1をビデオパケットとビデォタイムスタンプ V T Sに分割した後、当該ビデオバケツトをリングバッファでなる入力ビデオバッファ 3 4を介してフレーム単位でビデオデコーダ 3 6へ送出すると共に、ビデオタイムスタンプ V T Sをレンダラー 3 7へ送出するようになされてい。

オーディオデコーダ 3 5は、音声バケツトデータ A P 1をオーディオフレーム単位でデコードすることにより圧縮符号化前のオーディオフレーム A F 1を復元し、順次レンダラー 3 7へ送出する。 ' ビデオデコーダ 3 6は、映像パケットデータ V P 1をビデオフレーム単位でデコードすることにより圧縮符号化前のビデオフレーム V F 1を復元し、順次レンダラー 3 7へ送出する。

レンダラー 3 7は、オーディオタイムスタンプ A T Sをキュー (図示せず) に格納すると共にオーディオフレーム A F 1をリングバッファでなる出力オーディォバッファ 3 8へ一時的に格納し、また同様にビデオタイムスタンプ V T Sをキユー (図示せず) に格納すると共にビデオフレーム V F 1をリングバッファでなる出力ビデオバッファ 3 9に一時的に格納する。

レンダラー 3 7は、モニタ 1 0へ出力すべきビデオフレーム V F 1の映像とォ一ディオフレーム A F 1の音声とをリップシンクさせるべく、オーディオタイムスタンプ A T S及びビデオタイムスタンプ V T Sに基づいて最終的な出力タイミングを調整した後、その出力タイミングで出力ビデオバッファ 3 9及び出カオ一ディォバッファ 3 8からビデオフレーム V F 1及びオーディオフレーム A F 1を順次出力するようになされている。 (4) デコーダ側でのリップシンク調整処理

(4 - 1 ) プリェンコーデッドストリーミングにおけるビデオフレーム及ぴォーディオフレームの出力タイミング調整方法

まず最初にレンダラー 37は、図 5に示すように例えばオーディオデコーダ 3 5でデコードした後のオーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 … -) をモニタ 1 0へ順次出力する時点 T a 1、 T a 2、 T a 3、 ……、のダイミングで、クリスタルオシレ一タ回路 40及びシステムタイムクロック回路 4 1を介して供給されるシステムタイムクロック s t cの値をオーディオタイムスタンプ ATS (AT S 1 , ATS 2、 ATS 3、 …… ) でプリセットする、すなわちシステムタイムクロック s t cの値をオーディオタイムスタンプ AT S (ATS 1、 ATS 2、 ATS 3、 ……）の値にアジャストする（置き換える）ようになされている。

このことは、音声が再生中に途切たり音飛びがあるとユーザにとって非常に目立つので、レンダラー 3 7ではオーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 …… ) をリップシンク調整処理の基準として用い、当該オーディオフレーム AF 1 (A f l、 A f 2、 A f 3、 …… ) の出力に合わせてビデオフレーム V F 1 (V f l、 V f 2、 V f 3、 ……）の出カタイミングを調整する必要があるからである。 '

またレンダラー 3 7は、オーディオフレーム AF 1 (A f l、 A f 2、 A f 3 、 …… ) の出力タイミング（時点 T a l、 T a 2、 T a 3、 …… ) が決まると、ビデオフレーム VF 1 (V f l、 V f 2、 V f 3、 …… ) をシステムタイムクロック s t cに基づく 30 [H z] のフレーム周波数で出力する任意の時点 T V 1

、 T V 2、 T V 3、において、プリセット後のシステムタイムクロック s t cのカウント値と、ビデオフレーム VF 1 (V f l、 V f 2、 V f 3、 …… ) に付されているビデオタイムスタンプ VT S (VTS 1、 VTS 2、 VTS 3、 ··· …）とをそれぞれ比較する。 '

ここで仮に、プリセット後のシステムタイムクロック s t cのカウント値と、ビデオタイムスタンプ VT S (VTS 1、 VT S 2、 VT S 3、 …… ) とが一致していた場合、これはェンコ一ダ側で付加したときのオーディオタイムスタンプ ATS (ATS 1、 ATS 2、 ATS 3、 …… ) とビデオタイムスタンプ V T S (VT S 1 , VTS 2、 VTS 3、 …… ) 'との時間的な対応関係が一致し、かつエンコーダ側の基準クロックのクロック周波数と、デコーダ側のシステムタイムクロック s t cのクロック周波数とが完全に一致していることを表している。すなわち、レンダラー 3 7がデコーダ側のシステムタイムクロック s t cを基にオーディオタイムスタンプ AT S及びビデオタイムスタンプ VTSのタイミングでオーディォフレーム A F 1及びビデオフレーム V F 1をモニタ 1 0へ出力したときにも、映像及び音声の出力タイミングのずれがないことを表している。仮に、プリセット後のシステムタイムクロック s t cのカウント値と、ビデオタイムスタンプ VTS (VTS 1、 VTS 2、 VTS 3、 …… ) とを比較した'結果が完全に一致していない場合であっても、プリセット後のシステムタイムクロック s t cのカウント値とビデオタイムスタンプ VT S (VT S 1、 VT S 2、 VTS 3、 ……）との差分値 D 1 ( 間差）が所定の時間を表す閾値 TH以下であれば、ユーザにとっては映像と音声とがー致していないと認識し得ないレベルなので、レンダラー 3 7はビデオタイムスタンプ VT S (VT S 1、 VT S 2ヽ VTS 3、 …… ) に従ってビデオフレーム VF 1 (V f 1、 V f 2、 V f 3、 ·'· …；）をモニタ 1 0に出力すればよい。

それ以外の場合、すなわち時点 Tv 2のタイミングにおいて、プリセット後のシステムタイムクロック s t cのカウント値と例えばビデオタイムスタンプ VT S 2との差分値 D 1が所定の閾値 THよりも大きく、かつ映像が音声よりも遅れている場合には、エンコーダ側のクロック周波数とデコーダ側のクロック周波数とのずれが原因で音声に映像が追いついていない状態であるため、レンダラー 3 7では GO P (G r o u p O f P i c t u r e ) を構成している例えば Bピクチャに相当するビデオフレーム V f 3をデコードすることなくスキップし、次のビデオフレーム V f 4を出力するようになされている。 TJP2004/010744

これに対してレンダラー 3 7は、時点 T V 2のタイミングにおいて、プリセット後のシステムタイムクロック s t cのカウント値と例えばビデオタイムスタンプ VTS 2との差分値 D 1が所定の閾値 THよりも大きく、かつ音声が映像よりも遅れている場合には、エンコーダ側のクロック周波数とデコーダ側のクロック周波数とのずれが原因で映像に音声が追いついていない状態であるため、現在出力中のビデオフレーム V f 2を繰り返しリピートして出力するようになされている。

(4- 2) プリェンコーデッドストリーミングにおけるリップシンク調整処理手順，

上述のようにストリーミングデコーダ 9のレンダラー 37がオーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 …… ) を基準にしてビデオフレーム V F 1 (V f l、 V f 2、 V f 3、 · ···'· ) の出力タイミングを調整することにより、映像と音声とをリップシンクさせる出力タイミング調整方法についてまとめると、次の図 6に示すフローチヤ一トに示すように、ストリーミングデコーダ 9のレンタラー 3 7は、ルーチン RT 1の開始ステップから入って、次のステップ S P 1 へ移る。

ステップ S P 1においてレンダラー 3 7は、オーディオフレーム AF 1 (A f 1、 A f 2、 A f 3、 …… ) をモニタ 1 0へ出力する時点 T a 1、 T a 2、 T a 3、 ……のタイミングで、システムタイムクロック s t cの値をオーディオタイムスタンプ AT S (ATS 1 , ATS 2、 ATS 3、 …… ) の値でプリセットし、次のステップ S P 2へ移る。

ステップ S P 2においてレンダラー 3 7は、時点 Tv l、 TV2、 Tv 3、 … …のタイミングで出力すべきビデオフレーム VF 1 (V f 1、 V f 2、 V'f 3、 ) のタイムスタンプ VTS (VTS 1 , VTS 2、 VTS 3、 …… ) と、当該時点 Tv l、 TV 2、 Tv 3、 ……のタイミングにおけるプリセット後のシステムタイムクロック s t cのカウント値との差分値 p 1を算出し、次のステップ S P 3へ移る。ステップ S P 3においてレンダラー 3 7は、ステップ S P 2で算出した差分値 D 1 (絶対値）が所定の閾値 T Hよりも大きいか否かを判定する。ここで否定結果が得られると、このことは、差分値 D 1が、映像及び音声を見て聞いたユーザにとつて当該映像と当該音声との間にずれが生じているとは判断し得なレ、择度の時間（例えば 1 0 0 [m s e c ] ) 以下であることを表しており、このときレンダラー 3 7は次のステップ S P 4へ移る。

ステップ S P 4においてレンダラー 3 7は、映像と音声がずれていると判断し得ない程度の時間差しかないので、この場合は当該ビデオフレーム V F 1をそのままモニタ 1 0,へ出力し、またオーディオフレーム A F 1は原則的にそのままモユタ 1 0へ出力し、次のステップ S P 8へ移って処理を終了する。

これに対してステップ S P 3で肯定結果が得られると、このことは差分値 D 1 が所定の閾値 T Hよりも大きい、すなわち映像及び音声を見て聞いたユーザにとつて当該映像と当該音声との間にずれが生じていると判断し得る程度であることを表しており、このときレンダラー 3 7は次のステップ S P 5へ移る。

' ステップ S P 5においてレンダラー 3 7は、映像が音声よりも遅れているか否かをオーディオタイムスタンプ A T S及びビデオタイムスタンプ V T Sに基づいて判定し、否定結果が得られると次のステップ S P 6へ移る。

ステップ S P 6においてレンダラー 3 7は、 '映像の方が音声よりも進んでいるので、当映像に音声が追いつくように現在出力中のピクチャを構成しているビデォフレーム V F 1を繰り返しリピート出力した後、次のステップ S P 8へ移つて処理を終了する。

これに対してステップ S P 5で肯定結果が得られると、このことは映像が音声よりも遅れていることを表しており、このときレンダラー 3 7は次のステップ S P 7へ移ってその遅れを取り戻すべく例えば Bピクチャ（ビデオフレーム V f 3 ) をデコードせずにスキップして出力することにより、音声に対する映像の遅れを取り戻してリップシンクさせることができ、次のステップ S P 8へ移って処理を終了する。この場合、レンダラー 37は出力ビデオバッファ 39に格納されている「P」ピクチャについては、ビデオデコーダ 36で次のピクチャをデコードする際の参照フレームとなるためスキップせず、当該スキップによる影響を受けることのない「B」ピクチャをスキップすることにより、画質劣化を未然に防ぎながらリツプシンクさせるようになされている。

(5) 第 1のコンテンツ受信装置におけるリアルタイムストリーミングェンコーダの回路構成

第 1のコンテンツ受信装置 3 (図 1) は、外部から供給された地上波ディジタル、 B SZC Sディジタル又は地上波アナログ放送等のコンテンツあるいは DV D、 V i d e o CDほか一般的なビデオカメラからのコンテンツをリアルタイムストリーミングエンコーダ 1 1によってリアルタイムにェンコ一ドした後に第 2 のコンテンツ受信装置 4へ中継する形で無線送信することによりコンテンツ提供側にもなり'得るようになされている。

その第 1のコンテンツ受信装置 3における.リアルタイムストリーミングェンコーダ 1 1の回路構成につい'て図 7を用いて説明する。リアルタイムストリーミングエンコーダ 1 1は、外部から供給されたコンテンツを構成するビデオ信号 VS 2及ぴオーディオ信号 AS 2をビデオ入力部 41及ぴオーディオ入力部 43を介してディジタル変換し、これをビデオデータ VD 2及ぴオーディオデータ A D 2 としてビデオエンコーダ 42及びオーディオエンコーダ 44へ送出する。

ビデオェンコーダ 42は、ビデオデータ V D 2を例えば M PEG1Z2Z4の規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号化し、その結果得られるビデオエレメンタリストリーム VE S 2をバケツト生成部 46及ぴビデオフレームカウンタ 47へ送出する。 '

ビデオフレームカウンタ 47では、ビデオエレメンタリストリーム VE S 2をフレーム周波数単位（29. 97 [Hz] あるいは 30 [Hz] あるレヽは 59. 94 [Hz] あるいは 60 [Hz] ) でカウントし、そのカウントアップ値を基準ク口ックに基づく 90 [KH z] 単位の値に変換し、 32ビット表現で各ビデオフレームに対するビデオタイムスタンプ VT S (VT S 1、 VT S 2、 VT S 3、 …… ) としてパケット生成部 46へ送出する。

オーディオエンコーダ 44は、オーディオデータ AD 2を MP EG 1/2/4 オーディオの規格に準拠した所定の圧縮符号化方法あるいは種々の圧縮符号化方式で圧縮符号化し、その結果得られるオーディオエレメンタリストリーム AE S 2をバケツト生成部 46及ぴオーディオフレームカウンタ 48へ送出する。 . オーディオフレームカウンタ 48はビデオフレームカウンタ 47同様、オーディォフレームのカウントアップ値と共通の基準ク口ックに基づく 90 [KH z] 単位の値に変換し、オーディオタイムスタンプ AT S (ATS 1 , ATS 2、 A T S 3、 …… ) として 32ビット表現し、バケツト生成部 46へ送出する。バケツト生成部 46では、ビデオエレメンタリストリーム VE S 2を所定データサイズのパケットに分割し、それぞれのバケツトにビデオヘッダ情報を付加することによりビデオバケツトを生成すると共に、オーディオエレメ.ンタリストリーム AES 2を所定データサイズのバケツトに分割し、それぞれのバケツトにォ一ディォヘッダ情報を付加することによりオーディオバケツトを生成する。ここで図 8に示すようにコントローノレパケットは、 I P ( I n t e r n e t P r o t o c o l ) へッダ、 UDP (U s e r D a t a g r am P r o. t o c o l ) ヘッダ、 RTCP (R e a l T i me C o n t r o l P r o t o c o l ) パケットセンダリポート及び RTCPパケットからなり、 RTCPパケットンダリポート内のセンダ情報內にある 4パイトの RTPタイムスタンプ領域に P CR値としてエンコーダ側におけるシステムタイムクロック S TC値のスナップショット情報が書き込まれるようになされていて、デコーダ側のクロックリカバリ用に PCR回路 5 1から送出される。

そしてバケツト生成部 46では、ビデオバケツト及びビデオタイムスタンプ V TSに基づいて所定バイト数からなる映像バケツトデータを生成すると共に、ォ一ディォバケツト及ビデオォタイムスタンプ AT Sに基づいて所定パイト数からなる音声パケットデータを生成し、これらを図 3の要領で多重化することにより多重化データ MX D 2を生成した後バケツトデータ蓄積部 49へ送出する。

パケットデータ蓄積部 49は、多重化データ MXD 2を所定量蓄積すると、パケット毎の当該多重化データ M X D 2を無線 LAN6を介して RTPZTCPで第 2のコンテンツ受信装置 4へ送信するようになされている。

ところでリアルタイムストリーミングエンコーダ 1 1は、ビデオ入力部 41でディジタル変換したビデオデータ VD 2を PL L (P a s e -L o c k e d L o o p) 回路 45にも供給する。？ 1 回路45は、ビデオデータ VD 2に基づいて当該ビデオデータ VD 2のクロック周波数にシステムタイムク口ック回路 50を同期させると共に、ビデオエンコーダ 42、オーディオ入力部 43及ぴォ一ディォエンコーダ 44についてもビデオデータ VD 2のク口ック周波数と同期させるようになされている。 '

これによりリアルタイムストリーミングエンコーダ 1 1は、 P LL回路 45を介してビデオデータ VD 2に対する圧縮符号化処理とオーディォデータ AD 2に対する圧縮符号化処理とをビデオデータ VD 2のクロック周波数と同期したタイミングで実行し得ると共に、 PCR (P r o g r am C l o c k R e f e r e n c e) 回路 51を介してビデオデータ VD 2のクロック周波数に同期したクロックリファレンス p e rを第 2のコンテンツ受信装置 4におけるリアルタィムストリーミングデコーダ 12へ送信し得るようになされている。

このとき P C R回路 5 1は、クロックリファレンス p c rを RTPプロトコノレの下位層に位置する UDP (U s e r D a t a g r am P r o t o c o l ) で第 2のコンテンツ受信装置 4のリアルタイムストリ一ミングデコーダ 12へ送信するようになされており、これにより高速性を確保してリアルタイム性の必要とされるライブストリーミングにも対応し得るようになされている。

(6)'第 2のコンテンツ受信装置におけるリアルタイムストリーミングデコーダの回路構成

図 9に示すように第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコーダ 12は、第 1のコンテンツ受信装置 3のリアルタイムストリーミングエンコーダ 1 1から送信された多重化データ MX D 2を入力バケツト蓄積部 6 1に一旦蓄積した後、バケツト分割部 6 2へ送出する。

バケツト分割部 6 2は、多重化データ MX D 2を映像パケットデータ V P 2と音声パケットデータ A P 2に分割し、 'さらに当該音声バケツトデータ A P 2をォ一ディォバケツトとオーディオタイムスタンプ A T Sとに分割した後、オーディォバケツトをリングバッファでなる入力オーディオバッファ 6 3を介してオーディォフレーム単位でオーディオデコーダ 6 4へ送出すると共に、オーディオタイムスタンプ A T Sをレンダラー 6 7へ送出する。

またパケット分割部 6 2は、映像パケットデータ V P 2をビデオパケットとビデォタイムスタンプ V T Sに分割した後、当該ビデオパケットをリングバッファでなる入力ビデオバッファ 6 5を介してフレーム単位でビデオデコーダ 6 6へ送出すると共に、ビデオタイムスタンプ V T Sをレンダラー 6 7へ送出するようになされている。

オーディオデコーダ 6 4は、音声バケツトデータ A P 2をオーディオフレーム単位でデコードすることにより圧縮符号化前のオーディオフレーム A F 2を復元し、順次レンダラー 6 7へ送出する。

ビデオデコーダ 6 6は、映像パケットデータ V P 2をビデオフレーム単位でデコードすることにより圧縮符号化前のビデオフレーム V F 2を復元し、順次レン 'ダラー 6 7へ送出する。 .'

Ί

レンダラー 6 7は、オーディオタイムスタンプ A T S、をキューに格納すると共にオーディオフレーム A F 2をリングバッファでなる出力オーディォパッフ了 6 8へ一時的に格納し、また同様にビデオタイムスタンプ V T Sをキューに格納すると共にビデオフレーム V F 2をリングバッファでなる出力ビデオパッファ 6 9 に一時的に格納する。

レンダラー 6 7は、モニタ 1 3へ出力するビデオフレーム V F 2の映像とォーディオフレーム A F 2の音声とをリップシン^させるベ,くオーディオタイムスタ

Sに基づいて最終的な出力タイミング 4010744

を調整した後、その出力タイミングで出力ビデオバッファ 6 9及び出力オーディォバッファ 68からビデオフレーム VF 2及ぴオーディオフレーム A F 2をモ- タ 1 3へ出力するようになされている。

ところでリアルタイムストリーミングデコーダ 1 2は、第 1のコンテンツ受信装置 3におけるリアルタイムストリーミングエンコーダ 1 1の P CR回路 5 1から UDPで送信されるクロックリファレンス p e rを受信して減算回路 71に入力する。

減算回路 7 1は、クロックリファレンス p c rとシステムタイムクロック回路 74から供給されるシステムタイムク口ック s t cとの差を算出し、これをフィルタ 72、電圧制御型クリスタルオシレータ回路 73及ぴシステムタイムクロック回路 74を順次介して減算回路 71にフィードパックすることにより PLL ( Ph a s e L o c k e d L o o p) を形成し、リアルタイムストリーミングエンコーダ 1 1のクロックリファレンス p e rに次第に収束し、最終的には当該クロックリファレンス p c rによりリアルタイムストリーミングエンコーダ 1 1 と同期したシステムタイムクロック s t cをレンダラー 6 7へ供給するようになされている。

これによりレンダラー 6 7は、第 1のコンテンツ受信装置 3におけるリアルタィムストリーミングエンコーダ 1 1でビデオデータ VD 2及オーディオデータ A D 2を圧縮符号化したり、ビデオタイムスタンプ VTS及ビデオォタイムスタンプ AT Sをカウントするときのクロック周波数と同期したシステムタイムク口ック s t cを基準にして、ビデオフレーム VF 2及オーディオフレーム AF 2の出カタイミングを調整し得るようになされている。

実際上レンダラー 6 7は、オーディオフレーム A F 2に関してはリングバッファでなる出力オーディオバッファ 68へ一時的に格納すると共に、ビデオフレーム VF 2に関してはリングバッファでなる出力ビデオバッファ 6 9に一時的に格納し、映像と音声とをリップシンクさせた状態で出力するべ'く、リアルタイムストリーミングエンコーダ 1 1の PCR回路 51から供給されるクロックリファレ 2004/010744 ンス p c rによってエンコーダ側と同期ロック S t Cの基で、オーディオ： 'ォ Sに従って出力タイミングを調整するよう

になされている。

(7) デコ— 調整処理

(7- 1) ライブストリーミングにおけるビデオフレーム及びオーディオフレームの出力タイミング調整方法

図 10に示すように、この場合レンダラー 6 7は、リアルタイムストリーミングエンコーダ 1 1の P CR回路 5 1から所定周期で供給されてくるクロックリブァレンス p c rの値に、システムタイムクロック s t cのクロック周波数を P L Lで口ックさせたうえで、当該システムタイムクロック s t cの基で同期されたモニタ 1 3を通してオーディオタイムスタンプ AT S及ぴビデオタイムスタンプ VTSに従いオーディオフレーム A F 2及びビデオフレーム VF 2の出力をコントロールする。

すなわちレンダラー 6 7は、クロックリファレンス p e rの値にシステムタイムクロック S. t Cのクロック周波数がアジヤストされた状態で、システムタイムクロック s t cとオーディォタイムスタンプ AT S (ATS 1、 AT S 2、 AT

S 3、 ) に従ってオーディオフレーム AF 2 (A f 1、 A f 2 A f 3、 …

··') をモニタ 1 3へ順次出力する。 '

ここで、クロックリファレンス p e rの値とシステムタイムクロック s t じのクロック周波数とは前述のように同期関係を維持しているので、システムタイムクロック s t cのカウント値とビデオタイムスタンプ VT S (VT S 1、 VTS 2、 VTS 3、 …… ) との間で、例えば時点 Tv 1においてシステムタイムクロック s t cのカウント値とビデオタイムスタンプ VT S 1との差分値 D 2 Vが発生することはない。

しかしながら、リアルタイムストリーミングエンコーダ 1 1の P CR回路 5 1 から供給されるクロックリファレンス P c rは UDPで送信されてくるものであ „

PCT/JP2004/010744 り、高速性を重視するあまり再送制御されないので当該クロックリファレンス P c てが第 2のコンテンツ受信装置 4のリアルタイムストリーミングデコーダ 1 2 到達しないか、あるいはエラーデータを含んで到達することもある。

このような場合には、リアルタイムストリーミングエンコーダ 1 1の： P C R回路 5 1から所定周期で供給されてくるクロックリファレンス P c rの値と、システムタイムクロック s t cのクロック周波数との同期が P L Lを介してずれることがあるが、このときも本発明におけるレンダラー 6 7ではリップシンクを保障し得るようになされている。 '

本発明では、システムタイムクロック s t cとオーディォタイムスタンプ A T Sそしてビデオタイムスタンプ V T Sとの間にずれが生じた場合、リップシンクを取る方法として、オーディオ出力の連続性を優先させるようになされている。レンダラー 6 7は、オーディオフレーム A F 2の出力タイミング T a 2でシステムタイムクロック. s t cのカウント値とオーディオタイムスタンプ A T S 2 とを比較し、その差分値 D 2 Aを記憶する。一方、レンダラー 6 7はビデオフ.レ —ム V F 2の出力タイミング T V 2でのシステムタイムクロック s t cのカウント値とビデオタイムスタンプ V T S 2とを比較し、その差分値 D 2 Vを記憶するこのとき、クロックリファレンス p c rが第 2のコンテンツ受信装置 4のリアルタイムストリ一ミングデコーダ 1 2へ確実に到達し、クロックリファレンス p c rの値と当該リアルタイムストリーミングデコーダ 1 2のシステムタイムクロック s t cのクロック周波数とが P L Lを介して完全に一致し、モニタ 1 3を含んでデコーダ側がシステムタイムクロック s t cに同期していれば差分値 D 2 V D 2 Aは「0」となる。

この差分値 D 2 Aが正値であればオーディオフレーム A F 2は早いと判断され、負値であればォ一ディオフレーム A F 2は遅れていると判断される。同様に、差分値 D 2 Vが正値であればビデオフレーム V F 2は早いと判断され、負値であればビデオフレ一ム V F 2は遅れていると判断される。ここでレンダラー 6 7は、オーディオフレーム A F 2が早くても遅れていても、オーディオ出力の連続性を維持させることを優先させ、オーディオフレーム A F 2に対するビデオフレーム V F 2の出力を相対的に次のように制御する。例えば、 i D 2 V— D 2 A！が閾値 T Hよりも大きい場合、差分値 D 2 Vが差分値 D 2 Aよりも大きければ音声に映像が追いついていない状態であるため、レンダラ一 6 7は G O Pを構成している例えば Bピクチャに相当するビデオフレーム V f 3をデコードすることなくスキップして次のビデオフレーム V f 4を出力するようになされている。

これに対して i D 2 V— D 2 A Iが閾値 T Hよりも大きく、差分値 D 2 Aの方が差分値 D 2 Vよりも大きければ映像に音声が追いついていない状態であるため、レンダラー 6 7は現在出力中のビデオフレーム V f 2を繰り返しリピート出力するようになされている。，

また、 I D 2 V— D 2 A Iが閾値 T Hよりも小さい場合は、音声に対する映像のギャップは許容範囲内であると判断され、レンダラー 6 7は当該ビデオフレーム V F 2をそのままモニタ 1 3へ出力する。

( 7 - 2 ) ライブストリーミングにおけるリ'ップシンク調整処理手順

上述のようにリアルタイムストリーミングデコーダ 1 2のレンダラー 6 7がラィブストリーミング再生を行う際に、オーディオフレーム A F 2を基準にしてビデォフレーム V F 2の出力タイミングを調整することにより映像と音声とをリップシンクさせる出力タイミング調整方法についてまとめると、次の図 1 1に示すフローチヤ一トに示すように、リアルタイムストリーミングデコーダ 1 2のレンダラー 6 7は、ルーチン R T 2の開始ステップから入って、次のステップ S P 1 1へ移る。

ステップ S P 1 1において、第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコーダ 1 2のレンダラー 6 7は、第 1のコンテンツ受信装置 3におけるリアルタイムストリーミングエンコーダ 1 1の P C R回路 5 1からクロックリファレンス p e rを受信し、次のステップ S P 1 2へ移る。ステップ S P 1 2においてレンダラ一 6 7は、減算回路 7 1、フィルタ 72、電圧制御型クリスタルオシレータ回路 73及びシステムタイムクロック回路 74 を介して構成される P LLによってクロックリファレンス p c rとシステムタイムクロック s t cとを同期させることにより、これ以降、出力タイミングを調整する際の基準として当該クロックリファンレンス p c rに同期したシステムタイムクロック s t cを用い、次のステップ S P 1 3へ移る。

ステップ S P 1 3においてレンダラー 6 7は、時点 Tv 1、 TV 2、 Tv 3、のタイミィグにおけるシステムタイムクロック s t cの力ゥント値とビデオタイムスタンプ VTSとの差分値 D 2 Vを算出し、また時点 T a l、 T a 2、 T a 3、 ……のタイミングにおけるシステムタイムクロック s t cのカウント値とオーディオタイムスタンプ AT Sとの差分値 D 2 Aを算出し、次のステップ S P 14へ移る。

ステップ S P 14においてレンダラー 6 7は、ステップ S P 1 3で算出した差分値 D 2V、 D 2 Aの程度を検査し、差分値 D 2 Vが差分値 D 2 Aよりも閾値 T H (例えば 1 00 [m s e c] ) 以上に大きい場合、映像が音声に対して遅れていると判断し、次のステップ S P 1 5へ移る。

ステップ S Ρ,Ι 5においてレンダラー 6 7は、ビォデがオーディオに対して遅れていると判断したので、例えば Βピクチャ（ビデオフレーム V i 3) をデコードせずにスキップして出力することにより、音声に対する映像の遅れを取り戻してリップシンクさせることができ、次のステップ S P 1 9へ移って処理を終了する。

この場合、レンダラー 6 7は「P」ピクチャについては次のピクチャに対して参照フレームとなるためスキップせず、当該スキップによる影響を受けることのない「B」ピクチャをスキップすることにより、画質劣化を未然に防ぎつつリツプシンクを調整し得るようになされている。

—方、ステップ S P 14においてレンダラー 6 7は、差分値 D 2Vが差分値 D 2 Aよりも閾値 TH (例えば 1 00 [m s e c] ) 以上に大きくない場合、次のステップ S P 1 6へ移る。

ステップ S P 1 6においてレンダラー 6 7は、差分値 D 2 Aが差分値 D 2 Vよりも閾値 T H (例えば 1 0 0 [m s e c ] ) 以上に大きい場合、映像が音声に対して進んでいると判断し、次のステップ S P 1 7へ移る。

ステップ S P 1 7においてレンダラー 6 7は、映像の方が音声よりも進んでいるので、音声が映像に追いつくように現在出力中のピクチャを構成するビデオフレーム V F 2をリピートして出力した後、次のステップ S P 1 9へ移って処理を終了する。

これに対してステップ S P 1 6で差分値 D 2 Aと差分値 D 2 Vとのギャップが閾値 T Hの範囲内であれば音声と映像との間にずれが生じているとは判断し得ない程度と判断し、次のステップ S P 1 8へ移る。

ステップ S P 1 8においてレンダラー 6 7は、映像と音声との間でずれが生じていると判断し得ない程度の時間差しかないので、この場合はクロックリファレンス p c r と同期したシステムタイムクロック s t cを基に、ビデオフレーム V F 2をそのままモニタ 1 3へ出力し、次のステップ S P 1 9へ移って処理を終了する。

なおレンダラー 6 7は、音声に関しては音の連続性を維持させるため、上記のいずれの場合においてもそのままモニタ 1 3·へ出力するようになされている。このように第 2のコンテンッ受信装置 4におけるリアルタイムストリーミングデコーダ 1 2のレンダラー 6 7は、第 1のコンテンツ受信装置 3におけるリアルタイムストリーミングエンコーダ 1 1のクロックリファレンス p e rと当該リァルタイムストリーミングデコーダ 1 2のシステムタイムクロック s t 。とを同期させることによりライブストリーミング再生を実現すると共に、そのためのクロッタリファレンス p e rが U D Pで再送制御されずに到達しないことがあった場合でも、システムタイムクロック s t cに対するオーディオタイムスタンプ A T S、ビデオタイムスタンプ V T Sのずれに応じてリップシンク調整処理を実行することにより、ライブストリミング再生を行いながらも確実にリップシンクさせ得るようになされている。 .

(8) 動作及び効果

以上の構成において、第 1のコンテンツ受信装置³のストリーミングデコーダ 9は、オーディオフレーム A F 1 (A f 1、 A f 2、 A f 3、 ···，·, ) を任拿の時点 T a 1、 T a 2、 T a 3、 ……のタイミングで出力する際、システムタイムクロック s t cをオーディォタイムスタンプ AT S (ATS 1、 ATS 2、 ATS 3、 …… ) でプリセットする。

■ これによりストリーミングデコーダ 9のレンダラー 3 7は、オーディオタイムスタンプ AT S (AT S 1、 AT S 2、 AT S 3、 …… ) でプリセットしたシステムタイムクロック s t cのカウント値と、ビデオフレーム VF 1 (V f 1、 V f 2、 V f 3、 …… ) に付されたビデオタイムスタンプ VT S (VTS 1、 VT S 2、 VTS 3、 ……）との差分値 D lを算出することにより、当該ビデオタイムスタンプ VT Sを付したエンコーダ側のクロック周波数とデコーダ側システムタイムクロック s t cのクロック周波数とのずれによって生じる時間差を認識することができる。，

そしてストリーミングデコーダ 9のレンダラー 37は、その差分値 D 1に応じてビデオフレーム VF 1の現ピクチャをリピートして出力したり、例えば Bピクチヤをデコードせずにスキップして出力することにより、モニタ 1 0へ出力する音声を途切れさせることなく連続性を保つたまま、その音声に'対する映像の出力タイミングを調整することができる。

' もちろんレンダラー 37は、差分値 D 1·が閾値 TH以下であって、ユーザがリップシンクのずれを認織し得ない程度である場合には、リピート出力やスキップ再生せずにビデオタイムスタンプ VTS (VTS 1、 VTS 2、 VTS 3、 …… ) のままモニタ 1 0へ出力することもできるので、この場合には映像の連続性を保つこともできる。

さらに第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコーダ 1 2のレンダラー 6 7は、第 1のコンテンツ受信装置 3におけるリアルタイムストリーミングエンコーダ 1 1の P CR回路 5 1から供給されるクロックリファレンス p e r とデコーダ側のシステムタイムク口ック s t cを同期させた上で、オーディォタイムスタンプ A T S及びビデオタイムスタンプ VTSに従ってォ一ディオフレーム AF 2及びビデオフレーム VF 2をモニタ 1 3へ出力することができるので、リアルタイム性を保持したままライプストリーミング再生を実現することができる。

その上、第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコーダ 1 2のレンダラー 67は、第 1のコンテンツ受信装置 3におけるリアルタィムストリーミングエンコーダ 1 1の PCR回路 5 1から供給されるクロックリファレンス p c rが UDPで再送制御されずに到達しないために、当該クロックリファレンス p c rとシステムタイムクロック s t cとの同期が外れたとしても、システムタイムクロック s t cとビデオタイムスタンプ VT Sとの差分値 D 2 V、システムタイムクロック s t cとオーディオタイムスタンプ AT Sとの差分値 D 2 Aを算出し、当該差分値 D 2 V、 D 2 Aのギャップに応じてビデオフレーム VF 2の出力タイミングを調整することにより、モニタ 1 3へ出力する音声を途切れさせることなく連続性を保ったまま、その音声に対する映像の出力タイミングを調整することができる。 . 以上の構成によれば、第 1のコンテンツ受信装置 3におけるストリーミングデコーダ 9のレンダラー 37及び第 2のコンテンツ受信装置 4におけるリアルタイムストリーミングデコーダ 1 2のレンダラー 6 7は、オーディオフレーム A F 1 、 AF 2の出力タイミングを基準としてビデオフレーム VF 1、 VF 2の出カタィミングを調整することができるので、音声の連続性を保つたまま視聴者であるユーザに違和感を感 Cさせることなくリップシンクさせることができる。

(9) 他の実施の形態

なお上述の実施の形態においては、オーディオフレーム AF 1、 AF 2を基準とした差分値 D 1又は D 2 V、 D 2 Aに応じてリップシンクを調整することによ；りエンコーダ側のクロック周波数とデコーダ側のクロック周波数とのずれを吸収するようにした場合について述べたが、本発明はこれに限らず、クロックジッタ、ネットワークジッタ等によって生じるエンコーダ側のクロック周波数とデコーダ側のク口ック周波数との微妙なずれを吸収するようにしても良い。

また上述の形態においては、コンテンツ提供装置 2と第 1のコンテンツ受信装置 3との間でィンターネット 5を介して接続し、プリェンコーデッドストリーミングを実現するようにした場合について述べたが、本発明はこれに限らず、コンテンッ提供装置 2と第 2のコンテンツ受信装置 4との間でインターネット 5を介して接続.し、プリェンコ一デッドストリーミングを実現するようにしたり、コンテンッ提供装置 2から第 1のコンテンツ受信装置 3を介して第 2のコンテンツ受信装置 4へコンテンツを提供することによりプリェンコ一デッストリーミングを実現するようにしても良い。 '

さらに上述の実施の形態においては、第 1のコンテンツ受信装置 3と'第 2のコンテンッ受信装置 4との間でライブストリーミングを行うようにした場合について述べたが、本発明はこれに限らず、コンテンツ提供装置 2と第 1のコンテンツ受信装置 3との間や、コンテンツ提供装置 2と第 2のコンテンツ受信装置 4との間でライブストリーミングを行うようにしても良い。

さらに上述の実施の形態においては、 Bピクチャをスキップして出力するようにした場合について述べたが、本発明はこれに限らず、 Iピクチャの直前に位置する Pピクチャをスキップして出力するようにしても良い。

これは、 Iピクチャの直前に位置する Pピクチヤであれば、次の Iピクチャを生成する際に当該 Pピクチャが参照されることはなく、スキップしたとしても次の Iピクチャを生成する際に支障を来たすことがなく、画質劣化が生じることもないからである。

さらに上述の実施の形態においては、ビデオフレーム V f 3をデコードせずにスキップしてモユタ 1 0へ出力するようにした場合について述べたが、本発明はこれに限らず、ビデオフレーム V f 3をデコードした後に出力ビデオバッファ 3 9から出力する段階でデコード後のビデオフレーム V f 3をスキップして出力するようにしても良い。

さらに上述の実施の形態においては、ォ一ディオフレーム A F 1 、 A F 2についてはリップシンクの調整を行う際の基準として用いているために、全てのォーディオフレームについて欠けることなくモニタ 1 0、 1 3 へ出力するようにした場合について述べたが、本発明はこれに限らず、例えば無音部分に相当するォーディオフレームがあった場合には、そのオーディオフレームをスキップして出力するようにしても良い。

さらに上述の実施の形態においては、本発明のコンテンツ受信装置を、復号手段としてのオーディオデコーダ 3 5 、 6 4、ビデオデコーダ 3 6 、 6 6と、記憶手段としての入力オーディオバッファ 3 3 、 6 3、出力オーディオバッファ 3 8 、 6 8、入力ビデオパッファ 3 4 、 6 5、出力ビデオバッファ 3 9 、 6 9と、算出手段及ぴタイミング調整手段としてのレンダラー 3 7 , 6 7とによって構成するようにした場合について述べたが、本発明はこれに限らず、その他種々の回路構成でコンテンツ受信装置を形成するようにしても良い。，' 産業上の利用可能性 '

本発明のコンテンツ受信装置、ビデオオーディオ出力タイミング制御方法及ぴコンテンツ提供システムは、例えばサーバから音声付の動画コンテンツをダウン口ドして表示する用途に適用することができる。

Claims

請求の範囲

1 . エンコーダ側の基準クロックに基づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、上記基準クロックに基づくオーディ才タイムスタンプが順次付された複数の符号化ォ一ディオフレームとを上記ヹンコーダ側のコンテンツ提供装置から受信して復号する復号手段と、

. 上記復号手段によって上記符号化ビデオフレーム及ぴ上記符号化オーディオフレームを復号した結果得られる複数のビデオフレーム及び複数のオーディオフレームを蓄積する記憶手段と、

上記エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタィムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手段と、

上記時間差に応じ、記複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として上記複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整するタイミング調整手段と，

を具えることを特徴とするコン

2 . 上記タイミング調整手段は、上記時間差が所定の時間よりも短い場合、上記デコーダ側のシステムタイムクロックの基で上記ビデオタイムスタンプに従い上記ビデオフレームを出力する

ことを特徴とする請求の範囲第 1項に記載のコンテンツ受信装置。

3 . 上記ダイミング調整手段は、上記時間差が所定の時間よりも長く、かつ上記ビデオタイムスタンプが上記オーディオタイムスタンプよりも遅れている場合、 Bピクチャの上記ビデオフレームをスキップして出力する

ことを特徴とする請求の範囲第 1項に記載のコンテンッ受信装置。

4 . 上記タイミング調整手段は、上記時間差が所定の時間よりも長く、かつ上記ビデオタイムスタンプが上記オーディオタイムスタンプよりも遅れている場合、

Iピクチャ直前に位置する Pピクチヤの上記ビデオフレームをスキップして出力する '

ことを特徴とする請求の範囲第 1項に記 '載のコンテンツ受信装置。

5 . 上記タイミング調整手段は、上記時間差が所定の時間よりも長く、かつ上記ビデオタイムスタンプが上記オーディオタイムスタンプよりも進んでいる場合、現ピクチャの上記ビデオフレームを繰り返し出力する

6 . 上記コンテンツ提供装置から U D Pで送信される上記ェンコ一ダ側の基準クロックを受ィ言する受信手段と

を具え、

上記算出手段は、上記ェンコーダ側の基準クロックと上記デコ一ダ側のシステムタイムクロックとを同期させた上で、上記エンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタイムクロックのク口ック周波数とのずれによって生じる時間差を算出する

7 . 復号手段に対して、エンコーダ側の基準クロックに基づくビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、上記基準クロックに基づくオーディォタイムスタンプが帳次付された複数の符号化オーディオフレームとを上記エンコーダ側のコンテンツ提供装置から受信して復号させる復号ステップと記憶手段に対して、上記復号ステップで上記符号化ビデオフレーム及ぴ上記符号化オーディオフレームを復号した結果得られる複数のビデオフレーム及ぴ複数のオーディオフレームを蓄積させる記憶ステップと、

算出手段に対して、上記エンコーダ側の基準クロックのク口ック周波数とデコ一ダ側のシステムタイムクロックのクロック周波数とのずれによって生じる時間差を算出させる差分算出ステップと、

タイミング調整手段に対して、上記時間差に応じ、上記複数のオーディオフレ一ムをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として上記複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整ざせるタイミング調整ステップと .

を具えることを特徴とするビデオオーディ才出力タイミング制御方法。

8 . コンテンツ提供装置とコンテンツ受信装置を有するコンテンツ提供システムであって、

上記コンテンツ提供装置は、

ェンコーダ側の基準クロックに基づくビデオタィムスタンプを付した複数の符号化ビデオフレームと、上記基準ク口ックに基づくオーディオタイムスタンプを付した複数の符号化オーディオフレームとを生成する符号化手段と、

上記複数の符号化ビデオフレーム及び上記複数の符号化オーディオフレームを上記コンテンツ受信装置へ順次送信する送信手段と

を具え、

上記コンテンツ受信装置は、 .

上記ビデオタイムスタンプが順次付された複数の符号化ビデオフレームと、上記オーディオタイムスタンプが順次付された複数の符号化オーディオフレームとを上記エンコーダ側のコンテンツ提供装置から受信して復号する復号手段と、上記復号手段によって上記符号化ビデオフレーム及び上記符号化オーディオフレームを復号した結果得られる複数のビデオフレーム及ぴ複数のオーディオフレームを蓄積する記憶手段と、上記ェンコーダ側の基準クロックのクロック周波数とデコーダ側のシステムタィムクロックのクロック周波数とのずれによって生じる時間差を算出する算出手段と、

上記時間差に応じ、上記複数のオーディオフレームをフレーム単位で順次出力するときのオーディオフレーム出力タイミングを基準として上記複数のビデオフレームをフレーム単位で順次出力するときのビデオフレーム出力タイミングを調整するタイミング調整手段と

を具えることを特徴とするコンテンツ提供システム。