WO2001078398A1

WO2001078398A1 - Transcoding of compressed video

Info

Publication number: WO2001078398A1
Application number: PCT/JP2001/002354
Authority: WO
Inventors: Anthony Vetro; Ajay Divakaran; Huifang Sun
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2000-04-11
Filing date: 2001-03-23
Publication date: 2001-10-18
Also published as: US6574279B1; CN1366775A; JP4650868B2; EP1195992A1

Description

明細書圧縮ビデオのトランスコーディング方法技術分野

本発明は情報配信システムに関し、特に情報をネヅトワークの利用可能なビヅトレートに適用させる配信システムに関する。背景技術

関連出願の相互参照

これは、 Ve t r o等により 2000年 2月 14日に出願された米国特許出願第 09/504， 323号「Object- Based Bitstream Transcode:：」の一部継続米国特許出願、 Ve t r o等により 2000年 2月 2日に出願された米国特許出願第 09/496, 706号「Adaptable Compressed Bitsream Tr anscoder」の一部継続米国特許出願である。発明の背景

近年、符号化された情報を通信するために多数の規格が開発されてきた。ビデオシーケンスに対し、最も広く使用されている規格には、 MPEG— 1 (動画像の格納および検索用）、 MPEG— 2 (デジタルテレビジョン用）および H . 2 6 3力 ^sある。 ISO/IEC JTC1 CD 11172 , MPEG、 ¹ Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s-Part 2： Coding of Moving Pictures Inf ormation」、 1991、LeGall による「MPEG:A Video Compression Standard for Multimedia Applications 」、 Communications of the ACM, Vol.34, No.4, pp.46 - 58, 1991、 ISO/IEC DIS 13818 - 2 ,MPEG-2、「 Inf orrmation Technology-Generic Coding of Moving Pictures and Associated Audio Information-Part 2:Video」、 1994 、 ITU-T SG XV, DRAFT H.263 、「 Video Coding for Low Bitrate Communication 」、 1996 、 ITU-T SG XVI, DRAF 13 H.263+Q15-A-60 rev.0 、「 Video Coding for Low Bitrate Communicationj 、 1 997を参'照のこと。

これらの規格は、本来、ビデオシーケンスの空間旳および時間的圧縮を扱う比較的低レベルの仕様である。共通の特徴として、これら規格は、各フレーム単位で圧縮を実行する。これら規格により、広範囲のアプリケ一シヨンに対し高圧縮率を達成することができる。

M P E G — 4 ( マルチメディアアプリケーション用）等

、 Information Technology-Generic codina of audio/visual ob jects」、 ISO/IEC FDIS 14496-2 (MP E G 4 V i s u a l ) , No v. 1 99 8を参照）、より新しいビデオ符号化規格により、任意形状のオブジェクトを別々のビデオオブジェクトプレーン

(VOP) として符号化し復号化することができる。オブジェクトは、ビジュアル、オーディオ、自然、合成、プリミティブ、複合またはそれらの組合せであってよい。ビデオオブジェクトは、組立てられて複合オブジェクトまたは「シーン（s c e ne) 」を形成する。

新たな MP EG— 4規格は、インタラクティブビデオ等、自然材料と合成材料とが統合されかつアクセスがユニバーサルな、マルチメディァァプリケ一シヨンを可能にすることが意図されている。 MPE G— 4により、コンテントベースのインタラクテイビティが可能になる。例えば、あるビデォから他のビデオに、移動している形またはオブジェクトを「カットァンドペースト」したい場合がある。このタイプのアプリケーションにおいて、マルチメディアコンテントにおけるオブジェクトは、あるタイプの分割プロセスを通して識別されたと推定される。例えば、 L i n等により 1 9 9 9年 6月 4日に出願された米国特許出願第 0 9/3 2 6， 7 5 0号

「Method for Ordering Image Spaces to Search for Object Surfacesj を参照のこと。

ビデオ送信のコンテキストにおいて、これら圧縮規格は、ネットワークによって要求される帯域幅の量（利用可能なビットレート）を低減することが必要とされる。ネットワークは、無線チャネルまたはインタネットを表すことができる。いかなる場合も、ネットワークは容量が制限されており、コンテントが送信される必要のある時、その資源に対する競合は解決されなければならない。

何年にも亙って、装置が、コンテントを頑強に送信することができ利用可能なネットワーク資源に対しコンテン卜の品質を適用させることができるようにする、アーキテクチャおよびプロセスに対し、非常に多くの努力がなされてきた。コンテントが既に符号化されていた場合、ストリームが例えば利用可能なビットレー卜の低減に適応するよう、ネットワークを通して送信される前に既に圧縮されたビットストリームをさらに変換する必要がある場合がある。

ビットストリーム変換、すなわち、「トランスコ一デイング（ t r a n s c o d i n g ) 」は、ビットレート変換、解像度変換および構文変換として分類することができる。ビットレート変換には、固定ビットレート ( C B R ) と可変ビヅトレ一ト（V B R ) との間のビヅトレートスケーリングおよび変換を含む。ビットレートスケーリングの基本機能は、入力ビットストリームを受取り、受信機の新たな負荷制約に合うスケーリングされた出力ビットストリームを生成する、ということである。ビットストリ —ムスケ一ラは、送信側のビットストリームと受信側の負荷とを整合させるトランスコーダまたはフィル夕である。

図 1に示されているように、一般に、スケーリングはトランスコーダ 1 0 0によって実現することができる。ブル一トフオース（b r u t e f o r c e ) の場合、トランスコーダは、デコーダ 1 1 0とエンコーダ 1 2 0とを含む。圧縮入力ビヅトストリ一ム 1 0 1は、入力レート R i nで完全に復号化された後、新たな出力レート R o u t 1 0 2で符号化されることによって出力ビットストリーム 1 0 3となる。通常、出力レートは入力レートより低い。しかしながら、実際には、復号化されたビットストリ一ムの符号化の複雑度が高いため、トランスコーダにおいて完全な復号化および完全な符号化は行われない。

MPEG— 2 トランスコ一ディングに対する初期の研究は、 Sun等により、厂 Architectures for MPEG compressed bitstream scaling」、 IEEE Transactions on Circuits and Systems for Video Technology, April 1996におレヽて発表されてレヽる。そこでは、複雑度およびアーキテクチャが可変であるレート低減の 4つの方法が提示された。

図 2は、一例としての方法を示す。このアーキテクチャにおいて、ビデォビットストリームは部分的にのみ復号化されている。より詳細には、入力ビットストリーム 201のマクロプロヅクが、可変長復号化（VLD) 210される。また、入力ビットストリームは、遅延 220され、逆量子化（I Q) 230されることにより、離散コサイン変換（DCT) 係数をもたらす。所望の出力ビッ卜レートが与えられると、部分的に復号化されたデータが分析 240され、 250では D C Tプロックに対し新たな量子化器のセットが適用される。そして、これら再量子化されたブロックは可変長符号化（VL C) 260され、低いレートの新たな出力ビットストリ —ム 203を形成することができる。この方式は、動きベクトルが再使用され逆 D C T動作が不要であるため、図 1に示す方式よりずつと単純である o

A s s u n c a o等によるより最近の研究は、「A frequency domain video transcoder for dynamic bit-rate reduction of MPEG-2 bitstreams」、 IEEE Transactions on Circuits and Systems for Video Technology , pp .953-957 , December 1 9 9

8において、同じタスクに対する簡略化されたアーキテクチャについて述ベている。彼らは、動き補償（MC) ループを使用して、ドリフト補償を周波数領域において操作する。周波数領域における MCプロックの高速計算のために近似したマトリックスが導出される。トランスコーディングに対する最適な量子化器スケールを計算するために、ラグランジュ最適化が使用される。 S o r i a l 等による他の研究は、「 Joint transcoding of multiple MPEG video bitstreams j、 Proceedings of the International Symposium on Circuits and Systems , C a n

1 9 9 9において、複数の MP EG— 2ビヅトストリームを合同でトランスコードする方法を提示している。 Ve t r o等により 1 9 9 9年 1 0月

1日に出願された米国特許出願第 0 9/4 1 0， 5 5 2号「Estimatin_g Rate-Distortion Characteristics of Binary Shape Dataj また参照のこと。

従来技術による圧縮規格によれば、テクスチャ情報を符号化するために割当てられるビットの数は、量子化パラメ一夕（QP) によって制御される。上記論文は、元のビットストリームに含まれる情報に基づいて QPを変更することでテクスチャビットのレートを低減するという点で、同様である。効率的な実現のために、情報は通常、圧縮領域で直接抽出され、マクロプロックの動きかまたは D C Tプロックの残余エネルギに関連する基準を含むことができる。このタイプの分析は、ビット割当てアナライザにおいて行われる。

場合によってはビヅトストリームを前処理することができるが、それでもトランスコーダがリアルタイムで動作することが重要である。したがつて、ビットストリームに対する大幅な処理遅延を許容することができない。例えば、トランスコーダが 1群のフレームから情報を抽出し、その後先取り情報に基づいてコンテントをトランスコードすることは、実現不可能である。これは、生放送またはビデオ会議に対して作用することができない。より適切にビット割当てすることにより、品質という意味でより適切なトランスコ一ディングの結果を得ることは可能であるが、リアルタイムアブリケ一シヨンに対しかかる実現は実際的でない。

また、トランスコ一ディングの古典的な方法はビットレートを低減する能力が制限されている、ということを留意することもまた重要である。言い換えれば、出力ビデオの Q Pのみが変更される場合、どれくらいレートを低減することができるかに対する制限がある。低減の制限は、考慮されているビットストリームに依存する。 QPを最大値に変更することは、通常、ビットストリームのコンテントを大幅に劣化させることになる。空間的品質を低減する他の代案は、時間的品質を低減する、すなわちフレームをドロップ（dr op) またはスキップすることである。この場合も、多くのフレームをスキップしすぎることによってまた品質が大幅に劣化することになる。両方の低減が考慮される場合、トランスコーダは、空間的対時間的品質のトレードオフに直面する。

また、この空間一時間的トレードオフの概念は、エンコーダにおいても考慮される場合がある。しかしながら、すべてのビデオ符号化規格がフレ一ムスキッピングをサポートするとは限らない。例えば、 MP EG— 1および MP EG— 2では、グループォブピクチャ（Group of P c t u r e (GOP) ) 構造が予め決定されており、すなわち、アンカフレーム間のフレーム内（I nt ra f rame) 期間および距離が固定である。その結果、すべての画像が符号化されなければならない。この時間的制約に対応するために、構文法によりマクロブロックをスキップすることができる。フレームにおいてすベてのマクロブロックがスキップされた場合、そのフレームは本質的にスキップされている。このスキッピングを示すためにフレームにおける各マクロプロックに対し、少なくとも 1ビッ卜が使用される。これは、いくつかのビットレートに対し非効率である可能性がある。

H. 263および MP EG— 4規格により、フレームスキッピングが可能となる。両規格は、基準の指定を可能にする構文法をサポートしている。しかしながら、フレームスキッピングは主に、バッファ制約を満足させるために使用されてきた。言い換えれば、バッファ占有率が高すぎてオーバフローの危険がある場合、エンコーダはフレームをスキップすることにより、ビヅトのフ口一をバッファまで低減し、バッファが適当な時にその現ビットを送出するようにする。

この構文法のより精巧な使用により、非常事態でない時に空間—時間的トレードオフを行う、すなわち、低い空間的品質で多くのフレームを符号化するか、または高い空間的品質で少ないレームを符号化することができる。コンテントの複雑度により、いずれの方法も全体的な品質をよりよくする可能性はある。 MP E G— 4オブジェクトベースエンコーダにおいてこのトレ一ドオフを制御する方法は、 Sun等に対し 1999年 10月 1 9日に発行された米国特許第 5 , 969 , 764号「Adaptive video coding methodj と、 Ve t r o等による「MPEG - 4 rate control for multiple video objects」、 IEEE Trans . on Circuits and Systems for Video Technology, February 1 999と、に.おいて述べられている。ここで、 2つの動作モード、すなわちハイモード（H i ghMode) および口一モード（LowMode) が導入された。出力の時間的解像度によって決定された現動作モードによって、ビッ卜が割当てられた方法において調整が行われた。

上述した研究を除けば、この空間一時間的トレードオフを制御する方法に対し最小限の注意しか払われなかった。さらに、トランスコーダにおいてかかる判断を行うために利用可能な情報は、エンコーダにおける情報と非常に異なっている。以下に、トランスコーダにおいてこのようなトレードオフを行うための方法が述べられている。

結果として、トランスコーダは、利用可能なビットレートの低減に適応するために、ビットストリームに含まれている情報を送信するいくつかの代りの手段を見つけなければならない。

MP E G規格委員会によって行われた最近の標準化の努力は、 MP E G— 7、正式には「マルチメディアコンテントの記述ィン夕フェース（Mu 1 t ime d i a Con ent Descript ion Interf ace)」のそれである。「MPEG— 7 Context, Obj ect ives and Technical Roadmap」、 I SO/IEC N 2861 , Jul y 1999を参照のこと。本質的に、この規格は、種々のタイプのマルチメディアコンテントを記述するために使用することができる記述子の集合および記述方式を組込むよう計画している。記述子および記述方式は、コンテント自体と関連付けられており、特定のユーザに対して重要な材料の高速かつ有効な探索を可能とする。この規格は先行する符号化規格に取って代ることが意図されたものではなく、むしろ、マルチメディアコンテントを種々のオブジェクトに分解することが可能であり、かつ各ォブジェク卜を一意の記述子の集合に割当てることが可能であるため、他の規格表現、特に MP EG— 4表現に基づいている、ということを留意することは重要である。また、この規格は、コンテントが格納される際のフォーマツトとは無関係である。

MPEG- 7の主なアプリケーションは、探索および検索アブリケ一シヨンであることが予想、されている。「 MPEG-7 Applications」、 ISO/IEC N2861 , July 1999を参照のこと。単純なアプリケ一ション環境において、ユーザは特定のオブジェク卜のいくつかの属性を指定することができる。この低レベルの表現において、これら属性は、特定のォブジェクトのテクスチャ、動きおよび形状を記述する記述子を含むことができる。形状を表現し比較する方法は、 L i n等により 1999年 6月 4 日に出願された米国特許出願第 09/326 , 759号「Method for Ordering Image Space to Represent Object Shapesj ίこおレヽて述べられており、動きアクティビティを記述する方法は、 D ivakar an等により 1999年 9月 27日に出願された米国特許出願第 09/4

06， 444号「Activity Descriptor for Video Sequencesj において述べられている。より高レベルの表現を得るために、いくつかの低レベルの記述子を結合するより精巧な記述方式を考慮することができる。事実、これら記述方式は、他の記述方式を含むことさえ可能である。

¹ MPEG - 7 Multimedia Description Schemes WD ( VI .0 ) 」、 ISO/IEC N3113, December 1999および L i n等により 1999年 8月 3 0日に出願された米国特許出願第 0 9 / 3 8 5， 1 6 9号

¹ Method for representing and comparina multimedia contentj を参照のこと。

MP E G— 7規格によって提供されるこれら記述子および記述方式により、トランスコーダによって導出され得ないビデオコンテン卜の特性にァクセスすることが可能になる。例えば、これら特性は、トランスコーダがァクセス不可能であると見なされた先取り情報を表現することができる。トランスコーダがこれら特性にアクセスすることができる唯一の理由は、特性がより早い段階でコンテントから導出されるため、すなわち、コンテントが前処理されその関連するメタデータと共にデ一夕ベースに格納されるためである。

情報自体は、構文的であっても意味論的であってもよい。この場合、構文的情報は、コンテントの物理的および論理的信号面を言い、意味論的情報は、コンテントの概念的意味を言う。ビデオシーケンスに対し、構文的要素は、特定のォブジェクトの色、形状および動きを言うことができる。一方、意味論的要素は、ビデォシーケンスにおけるィベントの時間および場所またはある人の名前等、低レベル記述子から抽出されることができなヽ情報を言うことができる。

トランスコ一ディングの従来の方法に対する背景および M P E G— 7規格の現状を考慮すると、両面からの情報を利用する改良されたトランスコ一ディングシステムを規定する必要がある。発明の開示

圧縮ビデオをトランスコードする方法は、圧縮ビデオを階層レベルに分割し、その階層レベルの各々から特徴を抽出する。階層レベルから抽出された特徴によつて、トランスコーダの多数の変換モードのうちの 1つが選択される。そして、圧縮ビデオは、選択された変換モードにしたがってトランスコ一ドされる。図面の簡単な説明

図 1は、従来技術によるトランスコ一ダのブロック図、

図 2は、従来技術による部分的なデコ一ダ /ェンコーダのブロック図、図 3は、本発明による適応可能なビットストリーム配信システムのブロック図、図 4は、適応可能なトランスコーダおよびトランスコーダマネージャのプロック図、

図 5は、図 4のトランスコーダおよびマネージャによって使用することができるトランスコーディング関数のグラフ、

図 6は、オブジェクトベースのビットストリームスケーリングのブロック図、図 7は、探索空間のグラフ、

図 8は、本発明によるオブジェクトべ一ストランスコーダの細部のブロック図、図 9は、キューレベルによる特徴抽出のブロック図、

図 1 0は、 3段階のビデオコンテントクラシファイアのブロック図、

図 1 1は、記述子方式のブロック図、

図 1 2は、図 1 1 ( a ) の記述子方式によるトランスコーディングのブロック図、

図 1 3は、図 1 1 ( b ) の記述子方式によるトランスコーディングのブロック図、

図 1 4は、コンテントサマリおよびコンテントサマリによるコンテントのバリエーシヨンを生成するシステムのブロック図、

図 1 5は、図 1 4のコンテントサマリおよびコンテントバリエーションに基づくトランスコーディング関数のグラフである。発明を実施するための最良の形態

¾ts冊

圧縮された入力ビットストリームを変換、すなわち「スケーリング」することにより、目標レート、すなわちネットワークの利用可能ビットレート（A B R ) の圧縮された出力ビットストリームにすることができる、ビデォ配信システムについて述べる。また、圧縮された入力ビットストリ一ムのバリエーションを配信する配信システムについて述べる。さらに、ビットストリームの低レベル特徴および識別子方式に基づくトランスコーデイングについて述べる。本発明は、レート品質（rate-quality ( RQ ) ) 特性を最大にしながらトランスコーディングを実行することを目的とする。通常、出力ビットストリームの目標レートは、入力ビットストリームのレートより低い。言い換えれば、本発明によるトランスコーダのタスクは、通常ネットワーク資源またはエンドユーザ装置の受信機負荷における制約のため、ビットストリームをさらに圧縮することである。種々のレベル、すなわち、プログラムレベル、ショットレベル、フレームレベルおよびビデォォブジェクトレベル、並びに下位領域レベルを含む領域のビデオに対する、コンテントベースのトランスコ一ディング技術について述べる。本発明によるシステムは、従来からのトランスコーダの欠点、すなわち、特にリアルタイムアプリケ一シヨンにおけるレート変換の制限を克服することができる。従来からのトランスコ一ディング技術は、十分にレートを低減することができるが、コンテントの品質は通常ひどく劣化する。しばしば、ビットレートが低減されたビットストリームで伝送される情報がまつたく喪失する。従来から、ビットストリーム「品質」は、入力ビットストリームと出力ビットストリームとの間のビット每の差として測定される。ビットストリームのコンテン卜の品質を維持しながら目標レートに達することができるトランスコーディング技術について述べる。連続変換

従来からのフレームベースのトランスコ一ディング技術は、連続変換として定義することができる。従来からの技術は、空間的対時間的品質の最適なトレードオフを連続的に維持するよう試みるため、出力は、常に、入力シーケンスを最もよく表現するフレームのシーケンスである。レートに対する制約に合うために特定のフレームがスキップされると、スキップされたフレーム内に含まれる情報は考慮されない。多くのフレームがスキヅプされる場合、受信されるビットストリームはユーザにとって無意味であるか、または良くても満足のいかないものとなる。品質歪み基準

従来からの連続変換トランスコーダは、空間的および時間的品質のトレ ―ドオフに関してレートー歪みという意味で最適な判断を行う。かかるトランスコーダでは、歪みは通常、ピーク信号対雑音比（P S N R ) 等、何れかの古典的な歪み評価基準となっている。かかる変換において、歪みはビヅトストリームのコンテン卜がいかに適当に伝送されているかの測度ではなく、むしろ元の入力ビットストリームと再構成された出力ビットストリームとの間のビット対ビッ卜の差、すなわち品質の測度であるということは強調されなければならない。

ビットストリームの忠実性

低ビットレ一ト制約の下でのビットストリームシーケンスをトランスコ

—ドする 1つの実施の形態において、フレームの数が少ないビヅトストリームのコンテントを要約する。この場合、品質に焦点を合わせた古典的な歪み評価基準を使用しない。むしろ、「忠実性（f i d e 1 i t y ) 」と呼ぶ新しい評価基準を採用する。忠実性は、コンテントの意味論および構文を考慮する。意味論および構文は、ビットまたは画素を意味せず、例えば語、サウンド、ビデオのユーモアおよびアクションのレベル、ビデオォブジェクト等、ビヅ卜によって表される人間にとって意味のある概念を意味する。

忠実性は、多くの方法で定義することができる。しかしながら、忠実性は、本明細書で定義するように、従来からの量的な品質、例えばビット毎の差に関連していない。むしろ、本発明における忠実性は、元の画像シ一ケンスに含まれる情報、すなわち生のビットではなくコンテントまたは伝送される情報のより高レベルの意味を、 1つのフレームまたは複数のフレームが伝送する程度を測定する。離散サマリトランスコーダ

忠実性は、従来からの歪み評価基準より主観的または意味論的測度である。しかしながら、本発明によるシステムでは、忠実性は、非慣用的なトランスコーダの性能を測定するための有用な測度である。 1つの実施の形態による本発明のトランスコーダの出力は、ビットのシーケンス全体を要約しょうと試みる比較的高品質なフレームの有限なセットであるため、このタイプのトランスコーダを「離散サマリトランスコーダ」と呼ぶ。

例えば、低ビットレートで、ビデオを表現する少数の高品質のフレームを選択する。この場合、ビットストリームの意味論的「意味」が保存される。この離散サマリトランスコーダは、入力ビットストリームの高レベル意味論的サンプリングを実行するが、連続トランスコーダは、空間的および時間的領域において量的に画素をサンプルするのみである、と言うことができる。ここでは、ビットレートが厳密に制限された状態で、ビットストリームにおいて符号化されたコンテン卜の忠実性を保存するために「リツチな（r i c h ) 」フレームをサンプルする。

リツチなフレームを選択的にサンプルするため、ビットストリームにおける 1つの面、すなわち動きを喪失する可能性がある。好ましくは、離散サマリトランスコーディングに頼るのは、連続変換トランスコーダのレート歪み性能が非常に劣化しているか、または目標レートを達成することができない場合のみである。これらの状況では、従来からの連続変換トランスコーダは、情報配信のレートが安定しなくなりユーザを困惑させるほどフレームレートが低速であるため、流動的な動きを喪失する。

従来からの連続変換トランスコ一ディングに対する離散サマリトランスコ一ディングの主な利益は、厳しいレート制約における連続変換トランスコーダが情報の豊かなフレームをドロップする一方、離散サマリトランスコーダが情報の豊かなフレームを選択しょうとする、ということである。いずれのトランスコーダが所定の状況に対して最適であるかを制御するために、コンテントネットワーク装置（C N D ) マネージャについて説明する。 C N Dマネージャの目的は、いずれのトランスコーダを使用するか選択することである。選択は、コンテント、ネットワーク、ユーザ装置特性から取得されるデータに基づく。また、後の配信のためにビットストリームのバリエーションを生成するために、「オフライン（o f f — 1 i n e ) 」モードにおいてこれら装置特性をシミュレートすることも可能である適応可能ビットストリーム配信システム

図 3に示されているように、適応可能ビットストリーム配信システム 3 0 0は、 4つの主な構成要素、すなわち、コンテントクラシファイア（コンテント分類器） 3 1 0、モデルブレディクタ（モデル予測器） 3 2 0、コンテントネットワーク装置マネージャ 3 3 0および切換可能トランスコーダ 3 4 0を含む。

システム 3 0 0の目的は、情報コンテントを含む圧縮ビヅトストリーム 3 0 1をネットワーク 3 5 0を通してユーザ装置 3 6 0に配信することである。ビットストリームのコンテントは、ビジュアル、オーディオ、テキスト、自然、合成、プリミティブ、データ、複合またはそれらの組合せであってよい。ネットワークは、無線、パケット交換、または予測できない動作特性を有する他のネットワークでもよい。ユーザ装置は、ビデオ受信機、据置型または移動型の無線受信機、あるいはビットストリームの高品質受信を困難にする可能性のある内部資源制約がある他の同様のユーザ装置であってよい。

利点として、本システムは、ネットワークおよびユーザ装置特性を満たすためにビットストリームをさらに圧縮する必要がある場合であっても、コンテン卜の意味論的忠実性を維持する。

入力圧縮ビットストリームは、トランスコーダおよびコンテントクラシファイアに向けられる。トランスコーダは、最終的に、ネットワークを介してユーザ装置に向けられる出力圧縮ビットストリ一ム 3 0 9のレートを低減することができる。

コンテントクラシファイア 3 1 0は、マネージャのために入力ビットストリ一ムからコンテント情報（C I ) 3 0 2を抽出する。コンテントクラシファイアの主な機能は、動きアクティビティ、ビデオ変化情報およびテクスチヤ等、コンテント特性の意味論的特徴を、コンテントネットワークマネージャにおいてレート一品質トレ一ドオフを行うために使用される 1 組のパラメ一夕にマッピング（対応付け）することである。このマツピング機能を支援するために、コンテントクラシファイアは、メタデータ情報 3 0 3を受入れることも可能である。メタデータは、低レベルおよび高レベルであってよい。メタデータの例には、新たな M P E G— 7規格で指定される記述子および記述方式が含まれる。

このアーキテクチャにおいて、モデルプレディクタ（モデル予測器） 3 2 0は、ネットワーク 3 5 0のダイナミクスおよびユーザ装置 3 6 0のあり得る制約特性に関するリアルタイムフィードバック 3 2 1を提供する。例えば、プレディクタは、ネットワーク輻輳および利用可能ビットレート ( A B R ) を報告する。また、プレディクタは、ネットワーク内のパケヅト損失率に対するフィードバックを受信し変換する。プレディクタは、現ネットワーク状態と長期ネットワーク予測 3 2 1 とを推定する。典型的に、ユーザ装置は、資源が制限されている可能性がある。例えば、処理電力、メモリおよびディスプレイ制約である。例えば、ユーザ装置が携帯電話である場合、ディスプレイはテキスト情報かまたは低解像度画像に、もしくはより悪いことにはオーディオのみに制約されている可能性がある。また、これら特性は、トランスコーディングモダリティの選択に影響を与える可能性もある。

メタデータ 3 Q 3を受信することに加えて、マネージャ 3 3 0はまた、コンテントクラシファイア 3 1 0およびモデルプレディクタ 3 2 0の両方から入力を受信する。 C N Dは、切換可能トランスコーダ 3 4 0に対して最適なトランスコ一ディング戦略が決定されるように、これら 2つの情報源からの出力データを共に結合する。コンテントクラシファイア

パターン分析および認識の分野において、分類は、種々のレベルのビデォから特徴を抽出することによって達成することができる。例えば、プログラム特徴、ショット特徴、フレーム特徴およびフレーム内の下位領域の特徴である。特徴自体は、高性能の変換または単純な局所演算子を用いて抽出することができる。特徴がいかにして抽出されるかに関わらず、次元 Nの特徴空間が与えられると、各パターンはこの特徴空間の点として表現することができる。

この抽出プロセスに対し入力として種々の異なるトレーニングパターンを与えること、および特徴空間において結果をプロットすることは、慣習的である。特徴セヅトおよびトレーニングパターンが適当であるとすると、「クラス」と呼ばれる点のいくつかのクラス夕を観測する。これらクラスにより、異なるパターンを識別し同様のパターンをグループ化することができ、観測されたクラス間の境界を決定することができる。通常、クラス間の境界が分類誤りに対する損害に密着しており、誤り全体を最小限にするよう i式る。

適当なクラスが識別され、クラス間の適切な境界が引かれた後、ビットストリームにおいて新たなパターンを迅速に分類することができる。問題によって、これは、ニューラルネットワークかまたはサポートベクトルマシン（Support Vector Machine) 等の他の周知の分類技術を用いて達成することができる。 C r i s t i a n i n i 等による「An Introduction to Support Vector Machines , ( and other kernel-based learning methods ) 」、 Cambridge University Press , 2 0 0 0を参照のこと。

コンテントクラシファイア 3 1 0は、 3段階（ I ， I I ， I I I 3 1 1 〜 3 1 3 ) で動作する。第 1に、高レベル意味論を推論することができるようにビットストリームコンテントを分類し、第 2に、分類されたコンテントをネットワークおよびユーザ装置特性に適応させる。

第 1段階（ I ) 3 1 1において、例えば動きァクティビティ、テクスチャまたは D C T係数等の従来からの技術を用いて、圧縮されたビットストリームから多数の低レベル特徴を抽出する。また、 M P E G— 7記述子および記述方式等、メタデータ 3 0 3にアクセスすることも可能である。メ夕デ一夕が入手可能である場合、圧縮されたビットストリームに対して実行される必要のある作業が少なくなる。この第 1段階の最終結果として、予め決められたコンテント特徴のセッ卜が、意味論的クラスかまたは高レベルメタデータの有限セットにマッピングされる。さらに、各意味論的クラス内で、符号化の複雑度に基づいて識別を行う。すなわち、複雑度は、意味論的クラスおよびネットワーク特性と、あり得る装置特性とによって。

このコンテン卜の高レベルな理解は、コンテント情報（ C I ) 3 0 2として C N Dマネージャ 3 3 0に渡される。 C I 3 0 2は、部分的に、切換可能トランスコーダのこの実施の形態の潜在的な性能を特徴付ける。

上記分類は、コンテン卜の理解および最終的に離散サマリトランスコーディングという意味で有用であるが、中間段階の結果としても有用である。本質的に、分類の第 2段階 I I 3 1 2への入力としての役割を果たす新たなクラスのセットがある。分類の第 2段階では、ネットワークおよび装置特性の特徴に本発明の意味論的クラスをマッピングする。これら特徴は、トランスコ一ディング戦略を開発する際にシステムを支援するレ一ト一品質関数の特性を決定する助けとなる。言い換えれば、オブジェクトの移動またはビデオの変化のためにある意味論的クラスが爆発的なデータによつて特徴付けられていると推定できる場合、これは、どれくらいの資源をネットワークが提供すべきであるかを推定する場合に、説明されなければならない。第 3段階 3 1 3は、他の実施の形態に関して後述されている。コンテントネットワーク装置マネージャ

コンテントネットワーク装置（C N D ) マネージャ 3 3 0およびトランスコーダ 3 4 0が、図 4においてより詳細に示されている。 C N Dマネージャは、離散一連続制御 4 3 1 とコンテントネットワーク装置（C N D ) インテグレ一夕 4 3 2とを含む。トランスコーダ 3 4 0は、複数のトランスコーダ 4 4 1〜 4 4 3を含む。

コントロール 4 3 1は、スィヅチ 4 5 0を使用して、入力圧縮ビットストリ一ム 3 0 1がどのようにトランスコードされるべきであるか、例えば離散サマリトランスコーダ 4 4 1によるか、連続変換トランスコーダ 4 4 2によるか、または他のトランスコーダ 4 4 3によるか、を決定する責任がある。また、ネットワークコンテントマネージャは、トランスコーダの目標レートに動的に適応し、ネットワークおよびユーザ装置の特性を制約する資源を考慮する。これら 2つの非常に重要な項目は、コントロール 4 3 1によって決定される。

コントロールがいかに最適な選択決定を行うかをより理解するために、図 5は、レート 5 0 1および品質 5 0 2スケールに関連するレート一品質関数をグラフで示している。連続変換トランスコーダ 4 4 2の 1つのレートー品質関数は、凸関数 5 0 3によって示されている。離散サマリトランスコーダ 4 4 1のレート一品質曲線は、線形関数 5 0 4によって表されている。他のトランスコーダは異なる関数を有している可能性がある。

なお、これら曲線は、例示の目的のためにのみ描かれているということは留意されるべきである。特定のトランスコーダに対する関数の真の形態は、コンテント、コンテントがいかに分類されたか、および可能性としてネットワークおよび装置の制約する特性の現在の状態によって、変化する可能性がある。明らかに、低ビットレートでは、連続変換トランスコーダは、上述した理由で品質が急速に劣化する。最適品質関数 5 0 5は、太線で示されている。この関数は、所定のビットレートおよびユーザ装置に対して達成することができる最適な品質を最もよくモデル化している。

なお、トランスコーディング技術において、レート = T 5 0 6に交差点がある。 Τより大きいレートは、連続変換トランスコーダを使用するために最適であり、 Τより小さいレートは、離散サマリトランスコーダを使用するために最適である。当然ながら、交差点は、コンテントおよびネットワーク特性の変化に伴って動的に変化する。

上述したように、連続変換トランスコーダは、通常、 P S N R等の古典的な歪み評価基準を想定する。かかる測度は、本発明による離散サマリトランスコーダには適用されないため、古典的な歪み評価基準を「忠実性」の測度にマッピングすることがより意味をなす。忠実性は、量的なビット毎の差ではなく、コンテントがいかに適切に意味論的に要約されるかを測定する。同じ品質評価基準が与えられると、最適なトランスコーディング戦略を決定する際にいかなる矛盾の発生をも防止する。コンテントネットワーク装置ィンテグレ一夕

再び図 4を参照すると、 C N Dインテグレ一夕 4 3 2は、コンテントクラシファイア 3 1 0からのコンテント情報 3 0 2とモデルプレディクタからのネットワーク装置予測 3 2 1とを共に結合する C N Dマネージャの一部である。図 5に示されているレートー品質関数としてまたは他の同様の最適化関数として表現されたモデルを生成するのは、マネージャのこの部分である。最適な動作モデル 3 2 1を形成するために、 C N Dインテグレ —夕は、コンテントクラシファイアからのマッピング C I と切換可能トランスコーダ 3 4 0から出力されるビヅトレ一トフイードバック 3 5 1 とを検査する。この情報を用いて、インテグレ一夕は、いくつかのモデルパラメータを有する最適なモデリング関数 5 0 5を選択する。パラメ一夕を動的により精密にするために、レートフィードバック 3 5 1が使用される。ィンテグレー夕は、選択されたモデルが最適でないことが分かった場合、レ一トー品質関数を動的に切替えるよう決定することができる。また、ィンテグレ一夕は、異なるオブジェクトまたは異なるビヅトストリームに対しいくつかの関数を追跡し、別々にまたは一緒にそれら関数を考慮することができる。ネットワーク予測の影響

ネットワーク予測 3 2 1は、何らかの方法で最適曲線 5 0 5のいくつかの部分を調整することにより、これら特性関数に作用することができる。例えば、より高いビットレートが利用可能である場合、最も注意する必要がある。ネットワークモデルにより、特定の瞬間において多数のビットを費やすことができるが、長期の結果によって、輻輳が急速に構築される可能性があることが分かることにより、本システムは、抑制してより低いレートで動作し続けるよう選択することができる。このように、利用可能ビットレートの急降下に関連した問題の発生を防止する。これらタイプの特性は、本発明によるトランスコーダの曲線を調整することによって考慮することができる。装置制約の影響

また、装置特性も考慮される必要がある。移動型装置は据置型装置とは異なる動作特性を有し、例えば、ドッブラ広がりによって高い利用可能ビヅトレートで性能が劣化する可能性がある。このため、低いビットレートが選択されなければならない。装置は、処理、記憶および表示能力が制限されている可能性があり、それらはトランスコーダに影響を与える可能性がある。例えば、ビデオをオーディオのみの装置に配信しても意味がない。事実、切換可能トランスコーダは、話し言葉をテキストに変換するか、またはデータを話し言葉に変換する等、他のトランスコーダ 44 3を含むことができる。重要な点は、本切換可能トランスコーダがビットストリームコンテン卜の意味論および宛先装置を考慮し、大抵の従来技術によるトランスコーダは単に利用可能なビヅトレートを考慮するのみである、ということである。フレームベーストランスコーダ

フレームベースでトランスコ一ディングを行う多数のトランスコーダの詳細は、従来技術において周知である。例えば、以下の米国特許出願、すなわち第 5， 9 9 1 , / 1 6号「Transcoder with prevention of tandem coding of speech」、第 5 ， 9 ^ 0 , 1 3 0号厂 Video transcoder with by-pass transfer of extracted motion compensation data」、第 5 , 7 6 8 , 2 78号「1^ : 1 T r an s c o d e r」、第 5， 7 64 , 2 9 8号「Digital data transcoder with relaxed internal decoder /coder interface frame jitter requirements」、第 5 ， 5 2 6 , 3 9 7号「 Switching transcoder」、第 5 ， 3 3 4 ， 9 7 7 号「 ADPCM transcoder wherein different bit numbers are used in code conversionj 等の特許のいずれかを参照のこと。これらのいずれも、ビットストリームの意味論的コンテントおよびネットワーク特性によって特定のトランスコ一ディング戦略を選択する本発明による技術を述べていない。以下、選択することができるオブジェクトベースのビットストリームトランスコーダについて述べる。この実施の形態の重要さは、実際のトランスコ一ディングがいかに実行されるかではなく、ビットストリームの意味論的コンテン卜の最適な配信を与える、トランスコ一ディング戦略の動的な選択を可能とすることである。

ここまで、連続変換トランスコーダおよび離散サマリトランスコーダを含む切換可能トランスコーダによって行うことができる種々の夕イブのトレードオフについて述べてきた。これらトランスコーダの各々において、最適なレート一品質曲線が推定される。オブジェクトベーストランスコ一ディング

ここで、連続変換トランスコーダのレート一品質曲線がいかにして導出されるか、および Q Pおよびフレームスキップの量等、適切な符号化パラメータがいかにして決定されるかの詳細を述べる。また、この作業を M P E G - 4のコンテキス卜にまで拡張する。利用可能ビットレートおよび各ビデオオブジェクトの複雑度に基づいて、ビデオまたはシーンにおけるォブジェクトを適応可能にトランスコードまたはスケ一リングするフレームワークについて述べる。

本発明による方式は、入力レート対出力レートの率によってレ一トを低減するために種々の技術が採用され得るという点で、適応性がある。本発明の目的は、複雑度が変化するオブジェク卜に対し最適な全体的品質を提供することであるため、各ォブジェク卜の劣化は同じである必要はない。なお、上述したように、本明細書では、フレームではなくオブジェクトをパースする。

本システムの新規性は、複雑度およびサイズが変化する複数のオブジェクトをトランスコードすることができる、ということであるが、より重要なことは、本システムが、ビデオの全体的品質を最適化するために空間一時間的トレードオフを行うことができる、ということである。柔軟性を付加するために、オブジェクトベースのビットストリームに焦点を当てる。また、特定のオブジェク卜の品質を操作するために利用可能な種々の手段について述べる。

留意すべき主な点は、ォブジヱクト自体が均一な品質でトランスコードされる必要はない、ということである。例えば、あるオブジェクトのテクスチヤデータは、その形状情報をそのまま維持して低減することができるが、他のオブジェクトの形状情報は、そのテクスチャ情報をそのまま維持して低減することができる。また、フレームのドロッビングを含む他の多くの組合せを考慮することも可能である。例えば、ニュースクリッブにおいて、前景のニュースキャス夕に関する情報をそのまま維持して、背景に対しテクスチャおよび形状ビットと共にフレームレートを低減することが可能である。オブジェクトベーストランスコ一ディングに対するビットストリームの PP 上述したように、従来からのフレームベーストランスコーダは、ビットレートを十分に低減することができる。しかしながら、コンテントの品質は非常に劣化する可能性があり、ビットレートが低減されたビットストリ —ムで伝送される情報がすべて喪失する可能性がある。慣用的に、ビットストリーム「品質」は、入力ビットストリームと出力ビットストリームとのビット毎の差として測定される。

しかしながら、本発明によるオブジェクトベーストランスコーディングでは、ビデオ全体を操作するように制約されない。意味のあるビデオォブジェクトに分解されたビットストリームをトランスコードする。各ォブジェクトの品質と共に、各オブジェクトの配信は、品質に対し異なる全体的な影響を与える、ということが理解される。本発明によるオブジェク卜べ —ス方式は、このより精細なアクセスレベルを有し、ストリーム全体の品質に大きく影響を与えることなく、 1つのオブジェク卜の空間—時間的品質のレベルを低減することが可能となる。これは、従来からのフレームべーストランスコーダによって使用されたものとはまったく異なる戦略であるコンテン卜に関係なくビデオ全体のビット每の差を測定する従来からのビットストリーム品質とは対照的に、「知覚的ビデオ品質（p e r c e p t u a 1 v i d e o q u a 1 i t y ) 」の概念を導入する。知覚的ビデォ品質は、意図された情報を伝送するビデオにおけるオブジェクトの品質に関連している。例えば、ビデオの背景は、より重要な前景オブジェク卜の知覚的ビデオ品質に影響を与えることなく完全に喪失されることが可能である。オブジェクトベーストランスコ一ディングフレームワーク

図 6は、本発明の代替的な実施の形態によるオブジェクトベーストランスコーダ 6 0 0の高レベルブロック図を示す。トランスコーダ 6 0 0は、デマルチプレクサ 6 0 1、マルチプレクサ 6 0 2および出カバッファ 6 0 3を含む。また、トランスコーダ 6 0 0は、制御情報 6 0 4にしたがってトランスコーディング制御ユニット（T C U ) 6 1 0によって動作される、 1つまたは複数のオブジェクトベーストランスコーダ 8 0 0を含む。ュニット 6 1 0は、形状、テクスチャ、時間的および空間的アナライザ 6 1 1 〜 6 1 4を含む。

トランスコーダ 6 0 0に対する入力圧縮ビットストリーム 6 0 5には、 1つまたは複数のオブジェクトベースの基本ビットストリームが含まれる。オブジェクトベースビヅトストリームは、シリアルであってもパラレルであってもよい。ビットストリーム 6 0 5の合計ビヅ卜レートは、 R _inである。トランスコーダ 6 0 0からの出力圧縮ビヅトストリーム 6 0 6は、 R 。_utく R _inとなるような合計ビヅトレート R。_utを有する。

マルチプレクサ 6 0 1は、オブジェクトベーストランスコーダ 8 0 0の各々に対し 1つまたは複数の基本ビットストリームを提供し、オブジェクトベーストランスコーダ 8 0 0は、 T C U 6 1 0に対しオブジェクトデー夕 6 0 7を提供する。トランスコーダ 8 0 0は、基本ビットストリームをスケ一リングする。スケ一リングされたビットストリームは、出力バッファ 6 0 3に渡される前にマルチプレクサ 6 0 2によって構成され、出カバヅファ 603から受信機に送信される。また、ノッファ 606は、 TCU に対しレートフィードバック情報 608を提供する。

上述したように、トランスコーダ 800の各々に渡される制御情報 60 4は、 T CUによって提供される。図 6に示されているように、 TCUは、時間的および空間的解像度と同様にテクスチャおよび形状データの分析に対して責任がある。これらの新しい自由度すべてにより、オブジェクトべ —ストランスコーディングフレームワークがネットワークアプリケーションに対して非常に一意でありかつ望ましいものとなる。 MPEG— 2および H. 263符号化規格と同様、 MPEG— 4は、動き補償および DCT を使用してビデオの空間一時間的冗長性を活用する。結果として、本発明によるオブジェクトベーストランスコーダ 800の中心は、上述された M PEG— 2 トランスコーダの適応である。主な違いは、ここでは形状情報がビットストリーム内に含まれており、テクスチャ符号化に関連して、ブロック内（ I nt ra b l o cks) の DCおよび ACを予測するためにツールが提供されている、ということである。

また、テクスチャのトランスコーディングが実際に形状データに依存している、ということに留意することも重要である。言い換えれば、形状デ —夕は、単純にパース（par s e) して取除いて無視することができない。すなわち、コンプライアン卜な（c omp l i ant) ビヅトストリームの構文は、復号化された形状デ一夕によって決まる。

明らかに、本発明によるオブジェクトベースの入力および出力ビットストリーム 601、 602は、従来からのフレームベースのビデオプログラムとは完全に異なっている。また、 MPEG— 2は、動的なフレームスキッビングを可能としない。そこでは、通常、 GOP構造および基準フレームが固定されている。テクスチャモデル

エンコーダにおけるレート制御のためのテクスチャモデルの使用は、従来技術において広く述べられてきた。例えば、 V e t r o等による「MPEG-4 rate control for multiple video objectsj 、 I E EE T r an s . o n C i r c u i t s and S s t ems f o r V i d e o T e c hno l o gy, F e b ruar 1 99 9およびその参照文献を参照のこと。

オブジェクトベーストランスコーダ 800で使用されるようなテクスチャモデルにおいて、変数 Rはビデオオブジェクト（V0) のために費やされるテクスチャビットを表し、変数 Qは量子化パラメ一夕 QPを示し、変数（X X₂) は 1次および 2次モデルパラメ一夕であり、変数 Sは差分絶対値和等、符号化複雑度を示す。 Rと Qとの関係は以下の式によって与えられる。

VOに割当てられる目標のビッ卜の量と Sの現在の値が与えられると、 Q の値は、（X X₂) の現在の値によって決まる。 VOが符号化された後、費やされるビットの実際の数が知られ、モデルパラメータを更新することができる。これは、先行する nフレームの結果を使用して線形回帰によつて行うことができる。テクスチャ分析

0., すなわち元の QPのセヅトとビッ卜の実際の数とが既に与えられているという点で、トランスコーディング問題は異なる。また、空間的領域から符号化複雑度 Sを計算するのではなく、新たな D CTベースの複雑度測度 Sを定義しなければならない。この測度は以下のように定義される。

m C msM ι=1 ここで、 B _m ( i ) はブロックの A C係数であり、 mは符号化ブロックの集合 Mにおけるマクロプロック指数であり、 M_cはその集合におけるプロックの数であり、 p ( i ) は周波数依存重みである。複雑度測度は、 A C 係数のエネルギを示し、そこでは高周波数成分の寄与は重み関数によって低減される。この重み関数は、 M P E G量子化マトリクスのそれをまねるように選択することができる。

ビットストリームで送信されるデ一夕と過去のビデオオブジェク卜からのデ一夕とから、モデルパラメ一夕を決定することができ、継続的に更新することができる。実際、トランスコードされた V O P毎に 2回、すなわち、ビットストリームのデ一夕を使用してトランスコードする前に 1回、その後 Q Pの新たな集合 ' でテクスチャを符号化した後に再び、モデルを更新することができる。このようにデータ点の数が増大することにより、モデルパラメータはより頑強でかつより早く収束する。

本発明によるテクスチャ分析の主な目的は、歪みを最小限にしながらレ —ト制約を満足させるを選択することである。しかしながら、最適さはによって決まる、ということを留意することは重要である。したがつて、いかに歪みが量子化されるかに気を付けなければならない。この点から、 _QJこ依存することからこの歪みを条件付き歪みと呼ぶ。

Q.' を決定する 1つの方法は、レート制御問題で使用されるものと同じ方法論を利用することである。この方法では、まず特定の瞬間ですベての V O Pのバジェヅトを推定し、バッファの現在のレベルを考慮するよう目標を調整し、各ォブジヱクトにこのビットの合計を分散させる。これらォブジェクトベースの目標ビットレートが与えられると、本発明によるテクスチヤモデルから Q Pの新たな集合を決定することができる。この方法の主な問題は、ビットの分散が頑強であることをあてにする、ということである。概して、分散は頑強でなく、新たな Q Pは元の Q Pとは無関係に計算されているため、本発明による条件付き歪みを制御する能力が喪失する。条件付き歪みこの問題を克服するため、およびに依存するある方法で:^' を解くことを試みるため、動的プログラミングに基づく方法を説明する。元の品質に可能な限り近い品質を維持するために、各ォブジェクトの Q Pの変化は可能な限り少なくなければならない。これが与えられると、条件付き歪みは以下のように定義することができる。

£>(2'! =∑ cc_k [D(Q_k ) - D(Q_k )]

te

ここで、 kは V O Pの集合 Kにおける V〇 P指数を示し、ひ _kはオブジェクト kの視覚的有意性または優先度を表す。なお、 D ( Q ) は明示的に指定されていないが、 Qに比例することが分かっている。視覚的有意性は、オブジェク卜の相対的なサイズおよび複雑度の関数とすることができる。

Q P探索空間

すべての k >に対して Q ' _k≥Q _kであるということを留意することは重要である。したがって、解空間は、図 7に示されている有効解空間に制限される。図 7において、 X軸は、ビデオオブジェクトを示し、 7 0 1、および y軸は Q Pを示す。また、この図は、有効探索空間 7 1 0、制約された探索空間 7 1 1、有効パス 7 1 2および無効パス 7 1 3を示す。

条件付き歪みに対する上記量子化が与えられると、図 7のトレリスを通して最適パスを探索することにより本問題を解決する。図 7では、有効 Q Pはトレリスのノードであり、各ノードは推定されたレートおよび条件付き歪みに関連している。公式上、問題は次のように示すことができる。

で BUDGET 制約された問題を制約されていない問題に収束することでこの問題が解決する。ここでは、レートおよび歪みが、ラグランジェ乗数人を介して併合される。あらゆる人 0に対し、常に最適な解を見つけることができる。レートに対する制約を満足する人の値を決定するために、周知の 2分探索ァルゴリズムを使用することができる。 Ramc hand r anおよび V e t t e r l i による「 Best wavelet packet bases in the rate-distortion sensej 、 I E E E T r a n s . I ma g e P r o c e s s i ng, Ap r i l 1 993を参照のこと。

考慮された探索空間が、 MP EG— 2 トランスコ一ディングァルゴリズムで見つかるものよりも非常に小さいということを強調することは重要である。そこでは、すべてのマクロブロックに対し量子化の最適な集合を見つける試みがなされる。ここでは対照的に、オブジェクトベースの量子化のみを探索する。このため、本発明による方法は非常に実際的である。時間的分析

概して、フレームをスキップする目的は、バッファオーバフローおよび最終的にはパケットの損失が防止されるようにバッファ占有レベルを低減することである。フレームをスキップする他の理由は、空間的品質と時間的品質とのトレードオフを可能にすることである。この方法では、符号化されるフレームが少なくなるが、それらはより高品質に符号化される。したがって、バッファがオーバフローする危険が無い場合、フレームをスキップするための判断は Q P選択プロセスに組込まれる。

QPの集合に対し有効解空間を探索する、 QP選択のための提案された技術から構築することで、解空間を制約することによりこの空間一時間的トレードオフに達成する。図 7に示されているように、有効パスは、のすべての要素が制約された領域に入るものである。これら要素の 1つがその領域外に出ると、パスは空間的品質のある指定されたレベルを維持していないということで無効である。空間的品質は、条件付き歪みによって暗示される。特定のオブジェク卜の最大 Q Pを決定するために、異なる基準を使用することができる。例えば、最大値は、オブジェクト複雑度の関数または単に入力 Q Pのパーセンテージとすることができる。最大値が複雑度に基づいている場合、トランスコーダは、空間的品質に対するそれらの影響が最も厳密であるため、本質的に高い複雑度を有するそれらオブジェクトをより小さい Q Pに制限する。一方、入力 Q Pに基づく複雑度を制限することは、トランスコーダが最初に符号化されたビットストリームと同様の Q P 分散を維持する、ということを意味する。両方法が有効である。各ォブジェクトに対し Q Pを制限する最適な方法を決定するためのトレードオフは、空間的品質と時間的品質とのトレードオフによって決まる可能性がある。当然ながら、オブジェクトベースデータを扱う利点の 1つは、あるォブジェク卜の空間的品質が他と異なってよい、ということである。この方法では、例えば静止した壁等、背景オブジェクトをスキップすることによりビットを節約することができる。しかしながら、オブジェクトはしばしばばらばらであるため、あるオブジェク卜の時間的解像度を低減することにより、組立てられたビデオに穴がもたらされる可能性がある。すべての V O Pが同じ時間的解像度を有するという制約を課すことにより、この問題を低減することができる。形状分析

ビデオオブジェクトの形状データをトランスコードする際の問題を説明するために、テクスチャ情報がいかにしてトランスコ一ドされるかを想起する。テクスチャのためのレートは、データの部分的復号化によって低減することができる、ということは周知である。大抵の場合、この部分的復号化には、少なくとも可変長復号化（V L D ) 動作の実行が必要である。逆量子化および逆 D C Tは、省略することができる。

しかしながら、形状データに対し、これは当てはまらない。 M P E G— 4において、形状デ一夕は、いわゆるコンテキストベースの算術符号化によって各ブロック単位で符号化される。 B r a d yによる「 MPEG- 4 standardization methods for the compression of arbitrarily shaped objects」、 I EEE Tr an s C i r c u i t s and Sys t ems f o r Vi de o Te chno l o y, De c embe r 1999を参照のこと。このアルゴリズムを用いて、選択されたモードによって、 9ビヅトまたは 10ビヅトの因果 (c aus a l) テンプレートに基づいて、各画素に対するコンテキストが計算される。このコンテキストは、確率ルックアップテーブルにァクセスするために使用され、それによつてプロック内の確率のシーケンスが算術エンコーダを駆動する。

テクスチャとは対照的に、画素領域とビットストリームとの間に中間表現が無いため、形状の部分的復号化は不可能である。したがって、形状デ

—夕の解像度を操作するために、データは完全に復号化されなければならない。復号化後、 Ve t r o等によって 1999年 10月 1日に出願された米国特許出願第 0 9 / 4 1 0 , 5 5 2号「 Estimating Rate- Distortion Characteristics of Binary Shape Dataj 1( ぉレ、て述べられているようなモデルを使用して、形状のレート一歪み特性を評価することができる。空間的分析

レートを低減する他の手段は、サブサンプリングによって解像度を低減することである。 MP E G— 4規格のバージョン 2において、動的解像度変換（DRC) と呼ばれるツールが MP E G— 4規格に採用されている。このツールを用いて、他のより重要なまたは空間的にァクティブなォブジェクトの解像度を維持しながら、あるオブジェクトの解像度、すなわち空間的品質を低減することが可能である。アーキテクチャ

図 8は、本発明によるオブジェクトベーストランスコーダ 800の構成要素を示す。従来技術におけるトランスコーディングアーキテクチャと同様に、符号化規格の構文は、幾分かトランスコーダ 800のァ一キテクチャを述べる。ここで、 MPEG— 4規格を鑑みて本発明によるトランスコーダの主な特徴を述べ、これら特徴を従来からのフレームベースのトランスコーディングと対比させる。

トランスコーダ 800は、 VO L/VOPパーザ 8 1 0、形状スケ一ラ 820、 MBヘッダパーザ 830、動きパ一サ 840およびテクスチャスケ一ラ 85 0を含む。また、トランスコーダは、基本ビットストリーム 8 0 1のあらゆる部分をビヅトストリ一ムメモリ 870に転送するバス 86 0を含む。この大域記憶域から、基本ビットストリーム構成ユニット 88 0は、 MP E G— 4規格に従うレートが低減された圧縮ビットストリームを形成することができる。出力基本ビットストリーム 809は、図 6のマルチプレクサに供給される。

MP EG— 4において、各オブジェクトの基本ビットストリームは、他のビヅトストリームとは無関係である。その結果、各オブジェクトは、ビデォォブジェクトレイヤ（VO L) およびビデオオブジェクトプレーン (VOP) ヘッダに関連している。 V〇Pヘッダは、オブジェクトを符号化するために使用された量子化パラメ一夕（QP) を含む。各ォブジェクトの QPは、後に、テクスチャ情報のモデリングおよび分析に使用される。図 6の出力ビットストリーム 606を構成する時間になるまで、他の全てのビットは、ビットストリームメモリ 870に格納される。

他の規格と最も重大な差は、 MPEG— 4はオブジェクトの形状を符号化することができる、ということである。 VOPレイヤから、 VOPが形状情報（バイナリ）を含むか含まない（矩形） 8 1 2かが分かる。矩形 V 〇Pである場合、オブジェクトは単純に矩形フレームであり、形状ビットをパースする必要はない。バイナリ形状である場合、マクロブロックが透明であるか否かを決定する 8 1 3必要がある。透明なブロックは、ォブジェクトの文字枠内にあるが、オブジェクト境界の外側にあるため、それに関連する動きまたはテクスチャ情報は無い。

形状スケーラ 820は、 3つの下位構成要素、すなわち、形状デコーダ /パーザ 82 1、形状ダウンサンブラ 82 2および形状エンコーダ 823 からなる。ビットストリームの形状情報がスケーリングされていない場合、形状デコーダ/パ一サは、単純に形状バーサである。これは、トランスコーダ制御ュニット 6 1 0の R— D形状分析 6 1 1から受信された制御情報 604によって示される。また、この場合、形状ダウンサンブラ 82 2および形状エンコーダ 823は、デイスエーブルされる。形状情報がスケーリングされている時、形状デコーダ/パーザ 82 1は、まず形状情報を復号化してその画素領域表現にしなければならない。形状のレートを低減するために、ブロックは、形状ダウンサンブラ 822を用いて 2または 4の係数によりダウンサンプルされ、その後形状エンコーダ 8 23を用いて再符号化されることが可能である。変換の割合は、 R— D形状分析 6 1 1によって決定される。形状ビットが単純にパースされたかスケーリングされたかに関わらず、形状スケーラ 820の出力は、ビットストリームバス 8 60を介してビットストリームメモリ 870に転送される。

形状ビットと異なり、 MPE G— 4構文の残りは、いくつかの例外をもつて MP E G— 2のそれと幾分か類似している。マクロブロック（MB) レイヤにおいて、符号化ブロックパターン（CBP) を含むビヅトが存在する。 CBPは、マクロブロックのいずれのブロヅクが少なくとも 1つの AC係数を含むかをデコーダに通知するために使用される。 CBPは、ビヅトストリームの構造に影響を与えるのみでなく、イントラ（ I n t r a) AC/D C予測にも影響を与える。トランスコーダがこのパラメ一夕に関係しなければならない理由は、 C B Pは D C Tブロックの再量子化にしたがって変化するためである。この理由で、ブロックが再量子化された後に CBPを再計算し、すなわち、テクスチャスケ一ラの CBP再計算ュニット 856がこれを達成する。ユニット 856は、ビヅトストリームバス 860を介して可変長符号（VL C) 855をビットストリームメモリ 870に送信することにより、入力ビットストリームに存在したヘッダを置換える。

適切な復号化パラメ一夕を抽出するために基本ビットストリームをパ一スした後、続けてテクスチャブロックを部分的に復号化する 8 5 1。このプロセスの結果は、 D C Tブロック係数である。空間的（リサイズ）分析が可能である場合、オブジェクトは、 2または 4の係数によってダウンサンプルすることができる。ブロックをダウンサンプルする能力は、トランスコーディング制御ュニヅト 6 1 0によって示され、ダウンサンプリング係数は空間分析 6 1 4によって示される。さらに、このダウンサンプリングは、 I D CT/D C T動作を避けることができるように、 D CT領域で実行される。 Bao等に対し 1998年 1 1月 10日に発行された米国特許第 5 , 8 5 5 , 1 5 1 号「 Method and apparatus for down- converting a digital signalj を参照のこと。そして、 D C Tブロックは、係数メモリ 8 5 3に一時的に格納される。このメモリから、プロックは量子化器 854に送信され、量子化器 854は、 R— Dテクスチャ分析 6 12から送信された QPにしたがってプロックを量子化する。それは、新たな目標レートに合うように本発明において述べられている技術を用いる。

オブジェクトをスキップするために、空間的分析 6 1 3は、いずれのビヅ卜が構成され送出されるか、およびいずれのビッ卜がドロップされるベきであるかをビットストリ一ム構成 880ユニットに示す。この方法では、このメモリに書込むことができるビットストリームの部分は、次のビデオオブジェクトのデ一夕により単純に上書きされる。実現および処理

特定の実施の形態に関して、トランスコーダ 800のアーキテクチャは 1つのオブジェクトに対する構成要素を示す、ということは留意されるべきである。極端な場合、図 6に示されるように、複数のトランスコーダにより複数のオブジェクトをスケーリングすることができる。マルチスレヅド実行を考慮するソフトウエア実現では、これは最も有効な方法となり得る。ソフトウェア実現での挑戦は、考慮されている各オブジェクトに対し適当な量の CPU処理を割当てる、ということである。しかしながら、ハードウェア実現に対しては、場合が非常に異なる。ノヽ一ドウエア設計者は、通常、特定の機能性を操作する 1つのロジックを有することを好む。例えば、ハードウェア設計は、受信することができる最大数の Mオブジェクトに対し M個の動きパ一サを実現するのではなく、複数オブジェクトが所定の瞬間にパースされることが可能であるよう、ある速度で動作する 1つの動きパ一サを含む。当然ながら、オブジェクトの数がパーザのスループットを超える場合、並列パーザを使用することも可能である。主な点は、要求されるパーザの数を、受信される総オブジェクトより少なくすることができ、計算が並列パーザ間に分散される、ということである。この概念は、トランスコーダ 800のすベてのサブブロックに対して適用される。階層的キューレベル

ここで、トランスコ一ディングがビデオの種々のレベルから抽出される特徴にしたがつているシステムについて説明する。概して、図 9に示されているように、ビデオは c our s e-t o-f i n e階層 900に分割することができる。ビデオプログラムまたはセヅシヨン 9 10は、階層 9 00の最高レベルであるとみなされる。このレベルは、同報通信ネットヮークからの 30分ニュースプログラムかまたはまる 1日分のプログラミングを表すことができる。プログラム 9 10は、ショット S h o t— 1 , ···, Sho t— n91 1〜9 19のシーケンスを含む。

次のレベル 920は、ショットに分割される。「ショヅト」は、グループォブフレーム（G0F) か、またはグループォブビデオオブジェクトプレーン（GOV) 92 1〜 929とすることができる。このレベルは、力メラが回された時に開始しカメラがオフされるまで続くビデオのより小さいセグメントを表す。いかなる混乱も避けるために、このレベルを単純にショットレベル 920と呼ぶことにする。

ショットは、最も基本の単位、すなわち G〇 Fの場合はフレーム 930、 GO Vの場合はビデオオブジェクトプレーン（V〇P) 931からなる。また、この下に他のレベルを考慮することもでき、それはフレームまたは

V〇 Pの下位領域 9 4 1 〜 9 4 2である。

ビデオプログラム階層 9 0 0の各レベルにおいて、レベルの各々におけるビデオデータに対し特徴抽出プロセス 9 0 1 〜 9 0 4を適用する。当然ながら、各レベルのデータが異なる方法で配置されており、適当な特徴がレベル毎に変化するため、各レベルに異なる特徴抽出技術が適用される。すなわち、プログラムレベルの特徴は、フレームの特徴とは異なる方法で抽出される。

本発明のトランスコーダのコンテキストにおいて、これらの特徴は、トランスコーディングシステムに適用することができる「ヒント」または「キュー」 9 0 5〜 9 0 8を表す。これらヒントは、意味論的であっても構文的であってもよく、高レベルまたは低レベルのメタデータのいずれも表現することができる。

なお、いかなる所定のレベルにおけるトランスコ一ディングに対してもメ夕デ一夕を適用することができる、ということは理解されなければならない。概して、ショットレベル等、より高レベルのデ一夕のメタデ一夕は、その特定のショヅ卜についておよび他のショヅト間での分類、ビット割当ておよびレート一品質を考慮する際に使用される。この場合、メタデータは、トランスコーダに対し使用が限定されているが、全出力コンテン卜間のトランスコーディング戦略を決定する図 3の C N Dマネージャ 3 3 0に対して非常に有用である。対照的に、オブジェクトレベル等、低レベルデ —夕のメタデータは、かかる低レベルで出力コンテントを分類し管理することが困難であるため、動的ビット割当てを支援するために，トランスコーダ 3 4 0自体に対してより有用であることが可能である。

以下、低レベル特徴が、いかにクラス夕化（分類）されレ一トー品質トレードオフに関連する意味のあるパラメ一夕にマッピングされることができるか、について説明する。これらクラスタリング方法を説明する際に、主にコンテントの高レベル分類に焦点を合わせるが，低レベル分類もまた含まれてよい。次に、ハイプリッド離散サマリおよび連続変換トランスコーダについて述べられている。再び、 C N Dマネージャにおいて高レベル (ショットレベル）メタデータを使用することに主に焦点を当てて、本技術が説明されている。しかしながら、離散サマリトランスコーダにおいてかかるメタデ一夕を考慮することも可能である。最後に、メ夕デ一夕を使用していかにトランスコーディングを管理するかについて説明する。述べられているように、これは、管理段階およびトランスコーディング段階の両方に等しく適用可能である。コンテントクラシファイア：段階 I I I

I 3に対し先に述べられているように、コンテントクラシファイア 3 1 0の主な機能は、アクティビティ、ビデオ変化情報およびテクスチャ等、コンテント特性の特徴を、レート一品質トレ一ドオフを行うために使用するパラメータのセヅトにマッピングすることである。このマツピング機能を支援するために、コンテントクラシファイアは、メタデータ情報 3 0 3 もまた受け入れる。メ夕デ一夕の例には、新たな M P E G— 7規格によつて指定される記述子および記述方式（D S ) が含まれる。

コンテントクラシファイア 3 1 0の段階 I I I 3 1 3において、かかる低レベルメタデ一夕は、コンテントのみに依存しているレート一品質特性にマッピングされる。これは、図 1 0に示されている。レート一品質特性は、図 5に示されるレート一品質関数に対し順次影響を与える。

コンテントクラシファイア 3 1 0は、低レベルメタデータ 3 0 3を受信する。段階 I 3 1 1は、高レベルメ夕デ一夕またはクラス 1 0 0 1を抽出する。段階 I I 3 1 2は、予測 3 2 1を使用して、コンテント、ネットヮークおよび装置依存のレート—品質（R— Q ) 特性を決定する。段階 I I I 3 1 3は、低レベルメタデータのみに依存する R— Q特性 1 0 0 3を抽出する。

例として、 M P E G— 7における動きァクティビティ記述子の空間的分散パラメータが、いかにして、プログラムのビデオセグメントの同様な動きァクティビティおよび空間的分散のカテゴリへの分類を可能にするかについて説明する。

ニュースプログラムを考える。ニュースプログラムは、総合司会者およびさらにニュース全体に関係する種々の他のショットを含む。

図 1 1 (&) 〜（1)) 、図12及び図 13に示されている例は、 3つのショット 1 20 1〜 1203、すなわち総合司会者ショヅト、シーン上のリポ一夕ショットおよび警察追跡ショットを含むニュースプログラム 12 00を考慮している。例を簡単にするために、実際に適用する場合はカテゴリの数および種類が異なるということを理解した上で、全ニュースプログラムショットを 3つのみのカテゴリに分類する。

第 1クラス 1 101は、コンテン卜の時間的品質が空間的品質より重要でないショットを表す。第 2クラス 1 102は、コンテントの空間的品質がより重要であるショヅトを表し、第 3クラス 1 103は、ショットの空間的および時間的品質が等しく重要であるショットを表す。

このクラスのセットは、 SET— 1 1 1 10と呼ばれる。かかるクラスは、明らかにレートおよび品質の特性である。コンテントクラシフアイァの段階 I I I 3 13の目的は、低レベル特徴を処理し、これら特徴をこれらクラスの最も適切なものにマッピングすることである。なお、空間的および時間的品質の重要性は、 1〜10の基準かまたは実数間隔 0. 0〜 1. 0で評価することもできる、ということは留意されるべきである。これらレート一品質クラスをさらに説明するために、図 1 1 (b) に示されるような 3つの明確なクラスの他のセットを考慮する。第 1クラス 1 12 1は、ショットが圧縮するために非常に単純である、すなわち、所定の歪みに対し大きい圧縮率を容易に達成することができることを示す。第 3クラス 1 123は、完全に反対、すなわち、ショットのコンテントが大きい/複雑な動きかまたは空間的にァクティブなシーンのいずれかにより、圧縮することが非常に困難であることを示す。第 2クラス 1 122は、第 1クラスと第 3クラスとの間のどこかである。このクラスのセヅトは、 S E T - 2 1 120と呼ばれる。クラスの他のセット 1 1 10と同様、これらクラス 1 120もまた、コンテント分類が、 CNDマネージャ 330 によって行われるレート—品質判断に対して与える可能性のある影響と、切換可能トランスコーダ 3 4 0がいかに動作することができるかと、を示す。上記のように、圧縮困難性は、数値で表す評価基準によって分類することができる。なお、他のタイプのビデオプログラムに対して他のクラスのセットを定義することができる、ということは理解されるべきである。ここまで、レート一品質クラスの 2つの例、すなわち S E T— 1および S E T— 2について説明した。コンテントは、低レベルメタデータ 3 0 3 から抽出される特徴にしたがってこれらのクラスに分類される。以下、これらクラスを動きアクティビティからいかにして導出することができるかについて説明する。

大抵のニュースプログラムに対し、総合司会者ショットすべてを分析することにより、比較的低い動きを暗示する同様の動きァクティビティパラメータが生成される、ということが期待される。このデータが与えられ、 S E T— 1 1 1 1 0を想定すると、かかるコンテントを第 2クラス 1 1 0 2 (空間的品質の重要性 >時間的品質の重要性）に分類することができ. る。さらに、全警察追跡および同様のショヅトすべてが、第 1クラス 1 1 0 1 (時間的品質の重要性〉空間的品質の重要性）に分類されることを期待することができる。最後に、シーン上のリポ一夕の背景アクティビティ次第で、このタイプのショットは、 3つの利用可能なクラスのうちのいずれの 1つにも分類することができる。例の目的のために、このショットは第 3クラスに分類される。

図 1 2は、 S E T— 1の分類に従うトランスコ一ディング戦略を示す。総合司会者ショット 1 2 0 1は、離散サマリトランスコーダ 1 2 1 0を用いてトランスコードされる。図 4のブロック 4 4 1を参照のこと。このトランスコーダは、ショット 1 2 0 1全体を 1つのフレーム 1 2 1 1、すなわち総合司会者の静止画像に低減する。ショットの持続時間、話している総合司会者の全オーディオ部分が提供される。

シーンショット上のリボー夕 1 2 0 2は、見る人に対し背景の動きの意味が失われないように、 5フレーム/秒で 1 2 2 1 フルオーディオで連続的に変換される。

また、警察追跡ショット 1 203は、 30フレーム/秒で 1 23 1連続的に変換される 1 230。

いかなる場合も、コンテントクラシファイアがコンテントを記述したメ夕データにアクセスすることができるか、またはコンテント自体から直接データを導出するかに関わらず、この情報の有用性は、 CNDマネージャが最終的に行わなければならないレート—品質トレードオフを鑑みて直接理解することができる。

上記例と対照的に、代りに同じプログラム 1 2 00と S E T— 2 1 1 20分類を想定した場合、図 1 3に示されるように、分類結果は異なって解釈される可能性がある。 S E T— 2を使用することにより、総合司会者ショット 1 20 1の動きが無いことにより、セグメントは非常に容易に圧縮することができ、そのため、それは S E T— 2の第 1クラス 1 1 2 1に分類される。このシヨットは、 30フレーム/秒で 1 24 1高圧縮率で連続的に変換される 1 240。しかしながら、警察追跡ショヅト 1 203は、高い動きを含み、圧縮がより困難である。したがって、それは、 SE T— 2の第 3クラス 1 1 23に分類される。それは、 7. 5フレーム/秒で 1 26 1連続的に変換される 1 260。再び、シーン上のリポ一夕を含むシヨット 1 202の特性次第で、それは、 3つのクラスのうちのいずれの 1 つにも入ることができる。例の目的のために、それは、第 2クラス 1 1 2 2に割当てられ、 1 5フレーム/秒で 1 2 5 1連続的に変換される 1 2 5 なお、ヒントは、固定かまたは可変レートビットストリーム（CBRまたは VBR) のいずれをも生成することができる、ということは留意されるべきである。例えば、分類が圧縮困難性に基づいている場合（S E T 2 ) 、フレームのシーケンスを圧縮する困難性に対し低フレームレートが課されている場合、 CBRビットストリームが生成されることが可能であり、より多くのビットが割当てられる場合、 VBRビットストリームが生成されることが可能である。以下のパラグラフにおいて、トランスコーディング戦略を生成するためにいかにしてこれら異なる分類を使用することができるかについて述べる。ハイプリヅド連続変換および離散サマリトランスコーディング

各クラスによって意味されるレ一ト一品質マツビングは、特定のアプリケ一シヨンによって広く変更することができる、ということは強調されるべきである。上記例において、空間的および時間的品質は、ビデオを圧縮する困難性か、または空間的および時間的品質に割当てられる優先度のレベルによって影響を受ける可能性がある。両分類は、低レベル特徴から導出された。

C N Dマネージャ 3 3 0に対し、これら分類は、コンテントを操作することができる方法を示唆する。実際には、分類は、考慮するシナリオの数を大幅に低減することができる。例えば、 C N Dマネージャが、所定の瞬間に複数のビットストリーム（フレームまたはオブジェクト）に対しレ一トー品質トレードオフを考慮しなければならない場合、 C N Dマネージャは、連続変換と離散サマリトランスコーディングとの間でトランスコ一デイングの責任を分散させる最適な方法を考慮することができる。また、考慮されているすべてのセグメントに対し 1つの方法を選択するのではなく、ハイプリッド方式を考慮することも可能である。プログラムの優先度か、またはその低レベル特徴による圧縮困難性は、かかる判断を行うために使用することができる有用なパラメ一夕の例である。

図 1 2および図 1 3は、 S E T— 1 1 1 1 0および S E T— 2 1 1 2 0における分類が、いかに C N Dマネージャによって決定される戦略およびトランスコーダが元のデータを操作する方法に影響を与えるかを示している。図 1 2において特に重要なのは、ハイプリッド卜ランスコ一ディング方式が採用されている、ということである。

ニュースプログラム 1 2 0 0の例に戻り、 S E T— 1分類を考慮すると、警察追跡より総合司会者ショッ卜に低い優先度を割当てることができる。オブジェクトベースビデオを扱っている場合、トランスコードする別の方法は、前景の総合司会者よりもショット 1 2 0 1の背景に対しより低い優先度を割当てる、ということである。これはすべて、例えば、オブジェクトレベル動きァクティビティパラメ一夕の分類を通して達成することができる。

ここでは、動きアクティビティを用いてこれら概念を示した。しかしながら、形状パラメ一夕、テクスチャ情報等、他の低レベル特徴または M P E G _ 7記述子もまた用いられることが可能である、ということは理解されるべきである。低レベル特徴は、個々に考慮されるか組合せで考慮されるかに関わらず、ビデオコンテントを C N Dマネージャおよびトラジスコーダを支援する意味のあるパラメ一夕に有効にクラスタ化および分類するために使用することができる。

C N Dクラシファイア 3 1 0および C N Dマネージャ 3 3 0が、図 6の T C U 6 1 0と矛盾するように見えるが、これは事実そうではない。クラシファイアおよび C N Dマネージャは，トランスコーダ 3 4 0に対し最適な戦略を予め選択しょうとする。マネージャからこの戦略および命令が与えられると、トランスコーダは、可能な最適な方法でコンテントを操作する責任がある。結局、トランスコーダは、誤った予測かまたは C N Dマネージャによる選択された戦略により、要求を満たさない場合があり、さらに空間的分析等、かかる状況に対処するためのメカニズムを必要とする。したがって、 T C Uにおいて、メ夕デ一夕がまた使用することができる。しかしながら、 T C Uに対するメタデータの目的は、クラシファイアおよび C N Dマネージャに対するものとは異なっている。トランスコ一ディングに対するメタデータの影響

メ夕デ一夕がトランスコ一ディングに影響を与えることができる 2つの方法がある。両方とも上述されているビット割当て問題に直接関連している。第 1の方法は、戦略、および最終的には離散サマリおよび連続変換トランスコーダ 4 4 1〜4 4 2によって提供される機能をいかに使用するかに対する判断、を導出するためにビット割当てが使用される、 C N Dマネ —ジャ 3 3 0におけるものである。この方法では、判断を行うために図 5 のレート—品質関数が使用される。第 2の方法は、トランスコーダ 3 4 0 自体におけるものである。再び、推定のためにメタデ一夕が使用されるが、戦略の判断を行うのではなく、ビットレー卜の目的を満たすために使用することができる符号化パラメ一夕に対するリアルタイムの判断を行うために、メタデータが使用される。この方法では、トランスコーダが図 5の最適なレート一品質関数を達成するよう、符号化パラメ一夕が選択される。概して、低レベルおよび高レベルメタデータは、離散サマリおよび連続変換トランスコ一ディングを実行するためのヒントを提供する。これらヒントは、 C N Dマネージャとトランスコーダとの両方に対して有用である。例示するために、まず、コンテントに関連する高レベル意味論的情報を考慮する。意味論的情報は、自動的にかまたはマニュアルでの注釈により、コンテントに関連付けられることが可能である。

データベースが多数のビデオプログラムを格納する場合を考える。ビデォは、種々のカテゴリ、例えば「アクション」のレベルにしたがって格付けされる。複数のユーザが種々のショヅトを同時に要求するアプリケーシヨンにおいて、 C N Dマネージャ 3 3 0は、各ショットに対しどれだけのレートが割当てられるかを決定しなければならない。離散サマリトランスコーダ 4 4 1では、このレートは、送信されるフレームの数に対応することができ、連続変換トランスコーダ 4 4 2では、レートは許容可能な目標フレ一ムレ一トに対応することができる。ァクションのレベルが時間的ァクテイビティのあるレベルを示す場合、ビットは、コンテントの記述にしたがってフレームシーケンス毎に割当てることができる。高アクションのショットに対し、 C N Dマネージャは、連続変換トランスコーダでは予め決められたレベルより低いフレームレートが許容不可能であるということと、離散サマリトランスコーダによってコンテントを要約することにより、より良い品質のショットを配信することが可能であるということと、を決定する。

離散サマリトランスコーダ内で、妥当なレベルの知覚的品質に達するために許容可能なフレームの数もまた考慮することができる。低レベル動きァクティビティ記述子に戻ると、低動き強度を意味する関連するァクティビティパラメ一夕を有するビデオシーケンスは、高動き強度を意味するァクテイビティパラメータを有するそれらショットより少ないフレームで要約することができる、ということが推論され得る。これに対する拡張として、かかるビット割当てをォブジェクトレベルで同様に適用することができる、ということが容易に理解される。低レベルメタデータからの高レベルメタデータの生成

低レベルメタデータから高レベルメタデ一夕を生成するプロセスは、メ夕デ一夕符号化として定義することができる。かかる符号化プロセスは，本発明によるトランスコ一ディングシステムのコンテントクラシファイアにおける段階 I 3 1 1において考慮することができる。

さらに、この高レベル生成プロセスは、スタンドアロンシステムにおいて使用することができる。かかるスタンドアロンシステムの例は、 MPE G- 7規格によって指定される記述方式をィンスタンス化するシステムである。かかるシステムを、 MP E G— 7高レベルメ夕デ一夕エンコーダと呼ぶことができる。

現行の MP EG— 7ワーキングドラフトにおいて、種々のタイプのメタデータに対するプレースホルダである高レベル記述方式がある。なお、規格の規範的（no rma t i ve) 部分は、実現に不可欠な要件を明示的に定義し、参考情報（ i nf o rma t i v e) 部分は可能性のある技術かまたは何かを行う 1つの方法を提案するのみである、ということは留意されるべきである。 MPEG— 2において、適切な動きベクトルかまたは量子化パラメータを泱定することは、エンコーダの問題であり、そのため規格の参考情報部分であると考えられる。規格は、動きベクトルのための可変長符号化（VL C) テーブルと量子化パラメ一夕のための 5ビットフィ一ルドとを指定する。これらフィールドがいかにして使用されるかは、厳密にエンコーダの問題であり、規格、ゆえに参考情報部分には関係がなレ ₀ MP E G- 7において、種々の記述方式の規範的フィ一ルドおよび参考情報フィールドは、同様の状況にある。それらフィールドは指定されているが、これらフィ一ルドに対しどのようにデータを生成するかは参考情報である。トランスコーディングおよび要約に対し、追加の記述子方式として、 MP E G— 7ワーキングドラフ卜において指定された種々の記述方式、例えばサマリ（S umma r y ) D S、バリエーション（ V a r i a t i o n) D S、階層的サマリ (H i e r a r c h i c a l Summa r y) D S、ハイライトセグメント（H i gh l i gh t S e gme nt) D S、クラスタ（C l u s t e r) D Sおよびクラシファイア（C l a s s i f i e r ) D Sを考慮する。 I S O/I E C J T C N 3 1 1 3、「MP EG— 7 Mu l t ime d i a D e s c r i p t o r S c heme s WD」、 D e c emb e r 1 999を参照のこと。

例えば、コンテントブラウジングおよびナビゲ一シヨンのために最初に使用されるコンテントの視覚的抽象を指定するために、サマリ D Sが使用され、コンテン卜のバリエーションを指定するためにバリエーション D S が使用される。概して、バリエーションは，多数の方法で生成することができ、元のデータの訂正および操作を反映する。しかしながら、サマリ D Sおよびバリエーション D S等の記述方式は、コンテン卜のバリエーションをいかに要約または生成するかを記述しない。

これら記述方式は、単に、要約されたコンテントまたはバリエーションデータの「特性（p r o p e r t y) 」、「どこで（whe r e) 」コンテントを見つけることができるか、およびそれに対して「何の（wh a t ) 」動作を行うことができたか、等に関する情報をシステムに提供する、情報のタグまたはフィールドを含む。これは、送信に先立ってすべての操作が行われていることを意味する。かかるフィールドが存在する場合、マネージャには、利用可能な要約かまたは関連する特性を有する事前トランスコードされたデータのリストが渡されるため、 C N Dマネージャのタスクは簡略化される。

簡略化された C NDマネージャおよびトランスコーダ等、この情報を利用可能とすることに利点があるが、 2つの主な問題がある。第 1の主な問題は、元のビデオに対するいかなる要求にも先立って、これらバリエーシヨンが生成されなければならない、ということである。その結果、コンテントの複数のバリエーションを生成することに関連する遅延が長過ぎるため、リアルタイム送信はオプションではない。第 2の主な問題は、ネットワーク特性がある期間で変化する可能性がある、ということである。したがって、現ネヅトワーク状態の元である瞬間に特定の事前トランスコードされたバリエーションを選択することは、持続時間全体に亙って持続することができない。

これら欠点にも関わらず、規格は、これら記述方式においてフィールドをいかにして満たすかを指定しない。これらは、 M P E G— 7規格に対するエンコーダ問題である。

非リアル夕ィム送信アプリケ一シヨンを想定し、低レベル記述子を用いて記述方式構文における高レベルフィ一ルドのコンテントを生成するシステムについて述べる。コンテントのバリェ一ション

本質的に、リアルタイムトランスコーディングに対して使用される同じ方法は、特定のビデオのサマリおよびバリエーションを生成するためにも使用することができる。オフラインで、種々のネットワーク状態をシミュレートすることができ、プログラムコンテントを種々のシミュレートされた状態にしたがってトランスコードすることができる。結果として得られるコンテントは、データベースに格納することができる。この事前トランスコーディングを実行する際に、利用可能な帯域幅等、ネットワーク状態のみが留意されるべきではなく、システムは、データが操作される方法もまた留意しなければならない。このタイプの情報は、記述方式のフィ一ルドを占めることになる。ビデオプログラムに対する高レベルヌ夕デ一タエンコーダ対応する記述方式の関連するインスタンス化と共にサマリおよびバリエーションデータを生成するエンコーダの一例が、図 1 4に示されている。エンコーダの構成要素は、図 3の適応可能トランスコ一ディングシステム

3 0 0のそれらと似ている。しかしながら、エンコーダは、トランスコ一ディング中にリアルタイムで送受信するようネットワークに接続されていないという点で異なっている。代りに、エンコーダは、ビデオが格納されるデータベースに接続されている。エンコーダは、後のリアルタイム配信のために、オフラインでビデオの種々のバージョンを生成する。

図 1 3に示されているように、適応可能ビットストリームビデオ配信システム 1 3 0 0は、 5つの主な構成要素、すなわちコンテントクラシファィァ 1 3 1 0、ネットワーク装置（N D ) ジェネレータ 1 3 2 0、 C N D マネージャ 1 3 3 0、切換可能トランスコーダ 1 3 4 0および D Sインス夕ンテイエ一夕 1 3 5 0を含む。システム 1 3 0 0は、データベース 1 3

6 0に接続された入力および出力を有している。また、システム 1 3 0 0 は、ネヅトワークおよびデータベース 1 3 6 0に接続されたセレクタ 1 3

7 0も含んでいる。

配信システム 1 3 0 0の目的は、元の圧縮されたビットストリーム（ビデオイン） 1 3 0 1からバリエーションおよび/またはサマリビヅトストリーム 1 3 0 8を生成することである。ビットストリームのコンテントは、ビジュアル、オーディオ、テキスト、自然、合成、プリミティブ、デ一夕、複合またはそれらの組合せであってよい。

上述されているように、ビデオ配信システム 1 3 0 0は、適応可能トランスコーダシステム 3 0 0に似ている。主な違いは、それが図 3のネヅトワーク 3 5 0を介してユーザ装置 3 6 0に接続されておらず、トランスコーデイングがリアルタイムで実行されない、ということである。 N Dジェネレ一夕 1 3 5 0は、装置およびネットワークの置換えを行う。

本質的に、ジェネレータは、リアルタイム動作に存在するようなネットワークおよび装置（N D ) 制約をシミュレートする責任がある。例えば、 N Dジェネレータは、 6 4 k b p s、 1 2 8 k b p sおよび 5 1 2 k b p sの C B Rチャネルかまたは V B Rチャネルをシミュレートすることができる。さらに、ジェネレータは、利用可能な帯域幅が低減されているチヤネルをシミュレートすることができる。この損失は、線形であっても、方形であっても、非常に鋭利であっても良い。他の多くの典型的な状態を同様に考慮することができ、状態によっては、表示能力の制限等、ユーザ装置の制約に関連することができる。

これら種々の状態の各々は、元の入力ビデオ 1 3 0 1の異なるバリエーシヨンをもたらす可能性がある。本質的に、データベースは、入力ビットストリーム 1 3 0 1の非常に多くのバリエーションを格納することになり、それにより、将来的に、あるリアルタイム動作状態に対するビットストリ —ムがダウンストリームトランスコーダに容易に利用可能となる。ノリエーシヨンビットストリームは、 C B Rと V B Rの両方であることが可能である。

N Dジェネレータ 1 3 2 0の目的は，種々のネットワーク装置状態をシミュレ一卜することと、これら状態にしたがって自動的に元のコンテント

1 3 0 1のバリエーション /ザマリ 1 3 0 8を生成することと、である。これを行っている間、システムは、対応する記述方式 1 3 0 9のインス夕ンス化も行う。記述方式（例えば、バリエーション D Sおよびサマリ D S ) のフィールドが、ノリエ一シヨンビットストリーム 1 3 0 8の特性およびそれを操作するために課された方法によって満たされる必要があるため、 C N Dマネージャは、この情報を D Sインスタンティエー夕 1 3 5 0 に渡さなければならない。バリエーションがインスタンス化された後、対応する記述方式が、例えば上述されているようなリアルタイムトランスコ —ダ 3 0 0により、アクセスされ使用されることが可能となる。レート一品質関数

図 1 5に示されているように、システム 1 3 0 0によって生成されるバリエーシヨンおよび/またはサマリ 1 3 0 8は、最適なレート—品質関数

1 4 0 1に対する点 V ( 1 ) 、 ···、 V ( 5 ) の部分集合である。図 1 5において、有限数の点が示されている。これら点は、特定のバリエーションに対する最適な動作点を表している。各バリエーションは、関連するインスタンス化された記述方式（D S ) 1 3 0 9を有している。バリエ一ションビットストリーム 1 3 0 8とィンスタンス化された記述方式 1 3 0 9は両方とも、元のビデオストリ一ム 1 3 0 1 と共にデータべ一ス 1 3 6 0に格納される。

典型的なアプリケ一シヨンにおいて、システム 1 3 0 0のセレクタ 1 3 7 0は、特定のビデオプログラムに対する要求を受信する。これに応じて、セレクタは、データベース 1 3 6 0に格納された利用可能なバリエ一ションおよび関連する D Sに関する情報を提供する。トランスコーダ 3 0 0の C N Dマネージャは、この事前トランスコ一ドされたデータを利用する。高レベルメタデータにより、トランスコーダは、要求されたビデオの特定のバリエーションに現リアルタイムネットワークおよび装置制約を関連付けることができる。適切な一致が見つかった場合、 C N Dマネージャは、セレクタにより特定のバリエーションがネヅトワーク 3 5 0に亙って送信されるよう要求する。適切な一致が見つかった場合、トランスコーダ 3 4 0はバイパスモードで動作することができる。近似した一致が見つかった場合、トランスコーダ 3 4 0は、より効率的に動作することができる。

産業上の利用可能性

'これは、ただの 1つの実際的な例のアプリケーションである。現ネットワークおよび装置制約との一致を増加させるために、すでに操作されたビットストリーム 1 3 0 8をさらに操作し変更することもまた可能である。これは、最も一般的な状態のいくつかをカバ一するわずかな数の事前トランスコードされたビットストリームを生成することに対する、非常に広範囲の状態をカバ一する多数の事前トランスコードされたビットストリームを生成すること、の問題となる。概して、緩和された時間制約の元での配信システム 1 3 0 0によるトランスコーディングにより、より品質の良いビデオがもたらされるため、各方法から種々のレベルの品質を期待することができる。

本発明は、好ましい実施の形態の例として述べられてきたが、本発明の精神および範囲内で他の種々の適用および変更を行うことが可能である、ということは理解されなければならない。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるバリエーションおよび変更すベてをカバ一することである。

Claims

青求の範囲

1 . 圧縮ビデオをトランスコードする方法であって、

該圧縮ビデオを複数の階層レベルに分割するステップと、

該複数の階層レベルの各々から特徴を抽出するステップと、

該複数の階層レベルの各々から抽出された該特徴によってトランスコーダの複数の変換モードのうちの 1つを選択するステップと、

該選択された変換モードにしたがって前記圧縮ビデオをトランスコードするステツプと

を備えた圧縮ビデオのトランスコーディング方法。

2 . 前記複数の階層レベルは、プログラムレベルと、ショットレベルと、フレ一ムレベルと、下位領域レベルとを含んでいることを特徴とする請求項 1記載の方法。

3 . 前記フレームレベルは、ビデオオブジェクトプレーンを含んでいることを特徴とする請求項 1記載の方法。

4 . 前記特徴は、前記圧縮ビデオの意味論および文章論に依存することを特徴とする請求項 1記載の方法。

5 . 前記圧縮ビデオは、低レベルメ夕デ一夕を含み、

該ビデオのコンテントによつて該低レベルメタデータをレ一トー品質特个生にマヅビングするステップ

をさらに備えていることを特徴とする請求項 1記載の方法。

6 . 前記レート一品質特性は、複数のクラスに分割されることを特徴とする請求項 5記載の方法。

7 . 空間的品質が時間的品質より低い第 1クラスと、空間的品質が時間的品質より高い第 2クラスと、空間的品質が時間的品質と等しい第 3クラスとを備えたことを特徴とする請求項 6記載の方法。

8 . 前記第 1クラスのコンテントは、離散サマリトランスコーダによってトランスコードされ、前記第 2クラスのコンテントは、連続変換トランスコーダによって相対的に低いフレームレートでトランスコードされ、前記第 3クラスのコンテントは、該連続変換トランスコーダによって相対的に高いフレームレートでトランスコードされることを特徴とする請求項 7記載の方法。

9 . 前記相対的に低いフレームレートは、 1 0フレーム/秒より低く、前記相対的に高いフレームレートは、 2 0フレーム/秒より高いことを特徴とする請求項 8記載の方法。

1 0 . コンテントの圧縮が容易である第 1クラスと、コンテントの圧縮が中程度に困難な第 2クラスと、コンテン卜の圧縮が困難である第 3クラスとを含んでいることを特徴とする請求項 6記載の方法。

1 1 . 前記第 1クラスのコンテントは、連続変換トランスコーダによって相対的に高いフレームレートでトランスコ一ドされ、前記第 2クラスのコンテントは、連続変換トランスコーダによって中程度なフレームレートでトランスコードされ、前記第 3クラスのコンテントは、該連続変換トランスコーダによって相対的に低いフレームレートでトランスコードされることを特徴とする請求項 1 0記載の方法。

1 2 . 前記相対的に高いフレームは、 2 0フレーム/秒より高く、前記中程度なフレームレートは、 2 0と 1 0の間のフレーム/秒であり、相対的に低いフレームレートは、 1 0フレーム/秒より低いことを特徴とする請求項 1 1記載の方。

1 3 . 前記低レベルメタデ一夕は、前記ビデオのコンテントの優先度に基づいていることを特徴とする請求項 5記載の方法。

1 4 . 前記低レベルメ夕デ一夕は、前記ビデオのコンテントの形状パラメ一夕に基づいていることを特徴とする請求項 5記載の方法。

1 5 . 前記低レベルメタデ一夕は、前記ビデオのコンテントのテクスチヤに基づいていることを特徴とする請求項 5記載の方法。

1 6 . 前記低レベルメタデ一夕は、前記ビデオのコンテントの動きァクティビティに基づいていることを特徴とする請求項 5記載の方法。

1 7 . 前記低レベルメタデ一夕は、前記ビデオのコンテントの D C T係数に基づいていることを特徴とする請求項 5記載の方法。

18. 高レベルメタデータは、低レベルメタデータから符号化されることを特徴とする請求項 5記載の方法。

19. 前記複数のクラスは、数値評価基準でランク付けされることを特徴とする請求項 6記載の方法。

20. 前記トランスコーディングは、 CBRビットストリームを生成することを特徴とする請求項 1記載の方法。

21. 前記トランスコーディングは、 VBRビットストリームを生成することを特徴とする請求項 1記載の方法。

22. 前記低レベルメタデ一夕から記述子方式を生成するステップと、前記記述子方式にしたがって前記圧縮された入力ビットストリームのバリエ一シヨンを生成するステップと

をさらに備えたことを特徴とする請求項 1記載の方法。

23. 前記トランスコーディングは、前記階層レベルの選択された 1つから抽出される特徴に基づいていることを特徴とする請求項 1記載の方法。

24. 前記特徴は、空間的重要性に依存することを特徴とする請求項 23記載の方法。

25. 前記特徴は、時間的重要性に依存することを特徴とする請求項 23記載の方法。

2 6. 前記特徴は、圧縮困難性に依存することを特徴とする請求項 2 3記載の方法。