WO2001078399A1

WO2001078399A1 - Method and apparatus for transcoding of compressed image

Info

Publication number: WO2001078399A1
Application number: PCT/JP2001/000662
Authority: WO
Inventors: Anthony Vetro; Ajay Divakaran; Huifang Sun
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2000-04-11
Filing date: 2001-01-31
Publication date: 2001-10-18
Also published as: AU3054801A; EP1248466A4; US6490320B1; EP1248466A1

Description

明細書圧縮画像をトランスコード化するための装置及び方法技術分野

この発明は、一般に、情報配信システムに関し、特に、ネットワークで利用可能なビットレートに情報を適応させる配信システムに関する。背景技術

近年、符号化情報を通信するための数多くの規格が開発されてきた。画像シ —ケンスで最も広範囲に用いられている規格としては、 M P E G—1 (動画の格納および取り出し用）、 M P E G— 2 (デジタルテレビ用）、および H . 2 6 3が挙げられる。 ISO/IEC JTC1 CD11172、 MPEGヽ ""Information Technology - Coding of Moving Pictures and Associated Auaio for Digital Storage Media up to about 1.5 Mbit/s - Part2： Coding of Moving Pictures Inform ationj 、 1991年、 LeGall、「MPEG: A Video Compression Standard for Mult imedia Applicationsj 、 Communications of the ACM第 34卷 4号、 46〜58頁、 1991年、 ISO/IEC DIS 13818-2、隱 -2、 r information Technology - Generi c Coding of Moving Pictures and Associated Audio Information - Part2： Video j 、 1994年、 ITU-T SG XV、 DRAFT H.263、「Video Coding for Low Bitr ate Communicationj 1996年、 ITU-T SG XVI、 DRAFT13 H.263+ Q15-A-60 rev. O 、「Video Coding for Low Bitrate Communicationj 、 1997年を参照下さい。これらの規格は、主に画像シーケンスの空間的および時間的圧縮を取り扱う比較的低レベルの仕様である。一般的な特徴として、これらの規格は、フレーム毎の圧縮を行う。これらの規格によると、広範囲な応用で高い圧縮比を成し遂げることができる。

M P E G— 4 (マルチメディア応用）などのさらに新しい画像コーディング規格 ( ^r Information Technology -- Generic coding of audio/visual objec tsj ISO/IEC FDIS 14496-2 (MPEG4 Visual) 、 1998年 11月を参照）では、任意の形状のオブジェクトを個別の画像オブジェクトプレーン（V O P ： Video Object Planes) として符号化および復号化することができる。オブジェクトは、視覚データ、音声デ一夕、自然デ一夕、合成データ、基本データ、複合デ一夕、またはその組み合わせであり得る。画像オブジェクトは、複合オブジェクトまたは「シーン： scenesj を形成するように組み立てられる。

新しく浮上しつつある M P E G— 4規格は、自然ぉよび合成マテリアルが統合され、アクセスが普遍的であるインタラクティブ画像などのマルチメディァ応用を可能にすることを意図している。 M P E G— 4は、コンテンツを基礎とした相互作用を可能にする。

例えば、移動する像またはオブジェクトを 1つの画像から他の画像に「カツトアンドペースト： cut- and-paste」したい場合がある。このタイプの応用では、マルチメディアコンテンツ内のオブジェクトは、何らかのタイプの分割プ口セスを通して識別されてきたと想定される。例えば、 1999年 6月 4日付けで出願された、 Lin等による米国特許出願第 0 9 / 3 2 6 , 7 5 0号「Method for Ordering Image Spaces to Search for Object Surfacesj を参照下さい。画像伝送のコンテクストにおいて、これらの圧縮規格は、ネットワークで必要とされる帯域幅（利用可能なビットレート）の量を減少させるために必要である。ネットワークは、無線チャネルまたはインタ一ネットを表し得る。いずれにせよ、ネットワークは、限定された容量を有し、そのリソースに対するコンテンションは、コンテンツを送信しなければならない場合に解決されなければならない。

長年の間、デバイスにコンテンツをロバストに送信し、コンテンツの品質を利用可能なネットワークリソースに適応させることが可能なアーキテクチャおよびプロセスに対して多大な努力がなされてきた。コンテンツがすでに符号化されている場合、ネットワークを通してストリームが送信される前に、すでに圧縮されたビットストリームをさらに変換し、例えば、利用可能なビットレートを減少させなければならないことがある。

ビットストリーム変換または「トランスコーディング（transcoding) 」は

、ビットレート変換、レゾリューション変換、およびシンタックス変換に分類され得る。ビットレート変換としては、定数ビットレート（ C B R ： constant bit rate) と可変ビットレ一ト（V B R ： variable bit rate) との間のビヅトレートスケ一リングおよび変換が挙げられる。ビットレートスケ一リングの基本的な機能は、入力ビットストリームを受け、受信機の新しい負荷制約に合致するスケーリングされた出力ビットストリームを生成することである。ビットストリームスケーラは、トランスコーダまたはフィル夕であり、ソースビットストリームと受信負荷とを合致させる。

図 1に示すように、通常、スケーリングは、トランスコーダ 1 0 0によって成し遂げられ得る。力任せの場合、トランスコーダは、復号化器 1 1 0および符号化器 1 2 0を有する。圧縮された入力ビットストリーム 1 0 1は、入カレート R i nで完全に復号化され、次いで、新しい出力レート R o u t 1 0 2で符号化され、出力ビットストリーム 1 0 3が生成される。通常、出力レートは入力レートよりも低い。しかし、実際には、復号化されたビットストリームの符号化は非常に複雑であるため、トランスコーダにおける完全な復号化および完全な符号化はなされない。

M P E G - 2 トランスコーディングに関する初期の研究については、 Sim等によって、「Architectures for MPEG compressed bitstream scalingj 、 IEE E Transactions on Circuits and Systems for Video Techno logy 1996年 4月において公開されている。この文献では、複雑度およびアーキテクチャが異なる、レートを低下させるための 4つの方法が示されている。

図 2は、例示的な方法を示している。このアーキテクチャでは、画像ビットストリームは、一部のみが復号化される。具体的には、入力ビットストリーム 2 0 1のマクロブロックは、可変長復号化（V L D ) 2 1 0される。入力ビットストリームはまた遅延され 2 2 0、逆量子化（I Q ) 2 3 0され、離散コサイン変換（D C T ) 係数を形成する。所望の出力ビヅトレ一卜が与えられると、部分的に復号化されたデータは分析され 2 4 0、 2 5 0において新しい集合の量子化器が D C Tブロックに適用される。次に、これらの再量子化されたブロックは、可変長コード化され（V L C ) 2 6 0、より低いレートの新しい出力ビットストリーム 2 0 3が形成され得る。この方式は、図 1に示す方式よりもはるかに簡単である。なぜなら、動きベクトルが再使用され、逆 D C Tオペレーシヨンを必要としないからである。

Assuncao等 ίこよるさら ίこ最近の研究で ίま、「A frequency domain video tra nscoder for dynamic bit-rate reduction of MPEG - 2 bitstreamj IEEE Tra nsactions on Circuits and Systems for Video Techno logy 953〜957頁、 19 98年 12月において、同じタスクに関する簡略化されたアーキテクチャが記載されている。ここでは、ドリフト補償のために周波数ドメインにおいて動作する動き補償（M C ) ループが用いられる。近似マトリクスは、周波数ドメイン内の M Cブロックを迅速に計算するために引き出される。トランスコーディングのための最良の量子化器スケールを計算するためにラグランジュ最適化が用いられる。

Sorial等 ^Γ Joint transcoding of multiple MPEG video bitstreamsj、 Pro ceedings of the International Symposium on Circuits and Systems、 Can 1 999年による他の研究は、多重 M P E G— 2ビヅトストリームを共にトランスコード化する方法を提示している。 Vetro等によって 1999年 10月 1日付けで提出された、米国特許出願第 0 9 4 1 0 , 5 5 2号「Estimating Rate-Distorti on Characteristics of Binary Shape Dataj も参照下さい。

従来の圧縮規格によると、テクスチャ情報を符号化するために割り付けられたビットの数は、定量化パラメ一夕（Q P ： quantization parameter) によつて制御される。上記の文献は、元のビットストリームに含まれる情報に基づいて Q Pを変化させることによってテクスチャビットのレ一トを低下させるという点では同様である。効率的なインプリメンテーションでは、情報は、通常、圧縮されたドメイン内で直接抽出され、 D C Tブロックのマクロブロックまたは残留エネルギーのモーションに関連する測定を含み得る。このタイプの分析は、ビット割り付け分析器において見出され得る。

場合によっては、ビットストリームは予め処理され得るが、トランスコーダがリアルタイムで動作することも重要である。従って、ビットストリームに関する大幅な処理遅延は許容できない。例えば、トランスコーダがフレーム群から情報を抽出し、次いで、このルヅクアヘッド情報に基づいてコンテンツをトランスコード化することは実現可能ではない。これは、生放送またはビデオ会議では作用しない。より良好なビット割り付けにより、品質に関してはより良好なトランスコ一ディングを成し遂げることは可能であるが、このようなリアルタイム応用のィンプリメンテーションは実用的ではない。

従来のトランスコーディング方法では、ビットレートを低下させる能力が限定されていることに留意することも重要である。換言すると、出力画像の Q P のみが変化する場合、どのくらいのレート低下が可能であるかには限界がある。低下は、考慮されているビットストリームに依存して限定される。 Q Pから最大値に変更すると、通常、ビットストリームのコンテンヅは大幅に低下する。空間的品質を低下させるものとしては、この他に、時間的品質の低下、即ちフレームを落したりまたはスキップすることが挙げられる。あまりに多くのフレームをスキップすることも、品質を大幅に低下させることになる。空間的品質および時間的品質の低下が共に考慮される場合、トランスコーダは、空間的品質対時間的品質におけるトレードオフに直面する。

このような空間一時間トレードオフの概念はまた、符号化器においても考慮され得る。しかし、画像コーディング規格のすべてがフレームスキッピングをサポ一トしているわけではない。例えば、 M P E G— 1および M P E G— 2では、グループォブビクチャ（G O P ) 構造は予め決定される。即ち、アンカーフレーム間のフレーム内期間および距離は固定される。この結果、すべてのピクチャが符号化されなければならない。この時間的制約を回避するために、シンタックス（syntax) は、マクロブロックのスキップを可能にする。フレーム内のすべてのマクロプロックがスキップされる場合、そのフレームは実質的にスキップされている。このスキッピングを示すために、フレーム内の各マクロブロックに対して少なくとも 1つのビットが用いられる。これは、いくらかのビットレートについては効率が悪くなり得る。

H . 2 6 3および M P E G— 4規格はフレームスキッピングを可能にする。両規格は、参照の特定を可能にするシンタックスをサポートする。しかし、これらのフレームスキッピングは、主に、バッファ制約を満足させるために用いられている。換言すると、バッファ占有率高すぎ、オーバ一フローの危険がある場合、符号化器は、フレームをスキップして、バッファへのビットの流れを減少させ、バッファにその現在のビットを送信するためのいくらかの時間を与える。

このシンタックスのさらに高性能な使用によって、緊急を要しない状況における空間一時間トレードオフがなされ得る。即ち、より低い空間的品質でより多くのフレームがコード化されるか、またはより高い空間的品質でより少ないフレームがコード化される。コンテンツの複雑度に応じて、いずれかの方策を用いることによって、ともすれば、全体としてより良好な品質となり得る。 M P E G— 4のォブジェクトを基礎とする符号化器におけるこのトレードオフの制御方法は、 1999年 10月 19日付けで発行された、 Sun等の米国特許第 5、 9 6 9、 7 6 4号、「Adaptive video coding methodj 、および Vetro等による「M PEG-4 rate control for multiple video objectsj、 IEEE Trans, on Circui ts and Systems for Video Technology、 1999年 2月に記載されている。ここでは、 2つの動作モード、即ち、高モードおよび低モードが導入された。出力時間レゾリューションによって決定される現在の動作モードに従って、ビットが割り付けられたように調整がなされた。

上記で参照した研究を除くと、この空間一時間トレ一ドオフの制御方法は最小限の注目しか受けていない。さらに、このような決定をするためのトランスコーダ内で利用可能な情報は、符号化器の情報とはかなり異なる。以下では、トランスコーダにおけるこのようなトレードオフをなす方法について記載するこの結果、トランスコーダは、利用可能なビットレートの低下に適応するように、ビットストリームに含まれる情報を送信する何らかの代替手段を見出さなければならない。

M P E G規格委員会によって努力が払われている最近の規格化は、正式には

「マルチメディァコンテンツ記述ィン夕フエ一ス」と呼ばれる M P E G— 7の規格である。「MPEG-7 Contexts Objectives and Technical Roadmapj、 ISO/

IEC N286K 1999年 7月を参照のこと。実質的には、この規格は、記述子集合、および様々なタイプのマルチメディァコンテンツを記述するために用いられ得る記述方式を導入する計画である。記述子および記述方式は、コンテンツ自体と関連し、特定のユーザにとって関心のあるマテリアルの迅速かつ効率的な検索を可能にする。この規格は、以前のコーディング規格の代わりをなすことを意味せず、むしろ、他の規格表示、特に、 M P E G— 4上に構築されることに留意することが重要である。これは、マルチメディアコンテンツが異なるォブジェク卜に分解され、各オブジェク卜には特有の集合の記述子が割り当てられ得るためである。また、規格は、コンテンツが格納されるフォーマットとは独立している。

M P E G— 7の主な応用は、検索および取り出しの応用であると予想される。「MPEG-7 Applicationsj 、 ISO/IEC N2861、 1999年 7月を参照のこと。簡単な応用環境では、ユーザは、特定オブジェクトのいくらかの属性を特定し得る。この低レペルの表示では、これらの属性は、特定オブジェクトのテクスチャ、モーション、および形状を記述する記述子を含み得る。形状を表示かつ比較する方法は、 1999年 6月 4日付けで提出された、 Lin等による米国特許出願第 0 9 / 3 2 6 , 7 5 9号 ^rMethod for Ordering Image Spaces to Represent Ob ject Shapesj に記載され、モーション活動を記述する方法は、 1999年 9月 27日付けで提出された、 Divakaranらによる米国特許出願第 0 9 Z 4 0 6， 4 4 4 号「Activity Descriptor for Video Sequencesj (こ言己載されてヽる。より高いレベルの表示を得るには、いくつかの低レベル記述子を組み合わせたより複雑な記述方式が考えられ得る。事実、これらの記述方式は、他の記述方式をも含み得る。「MPEG-7 Multimedia Description Schemes WD (V1.0)j 、 ISO/IEC N3113、 1999年 12月、および 1999年 8月 30日付けで提出された、 Lin等による「 Method for representing and comparing multimedia content j を参照のこと o

M P E G— 7規格によって提供されるこれらの記述子および記述方式は、トランスコーダによって引き出すことができない画像コンテンツのプロパティへのアクセスを可能にする。例えば、これらのプロパティは、トランスコーダにアクセスできないと推定されたルックアヘッド情報を表示することができる。トランスコーダがこれらのプロパティにアクセスする唯一の理由は、これらのプロパティが初期のコンテンツから引き出されたものであるからである（即ち、コンテンヅは、予め処理され、その関連のメ夕デ一夕と共にデ一夕ベース内に格納されている）。

情報自体は、構文論的または意味論的であり得る。ここで、構文論的情報とは、コンテンツの物理的かつ論理的な信号の局面を指し、意味論的情報とは、コンテンツの概念上の意味を指す。画像シーケンスに関しては、構文論的要素は、特定オブジェクトの色、形状、およびモーションに関連し得る。他方、意味論的要素は、事象の時間および場所、または画像シーケンスにおける人の名前などの、低レベルな記述子から抽出することができない情報を指し得る。従来のトランスコーディング方法の背景、および M P E G— 7規格の現在の状態が与えらた場合、両側から情報を用いる改良されたトランスコーディングシステムを規定する必要がある。発明の開示

圧縮画像をトランスコード化するための装置において、生成器は、ネットヮークの制約およびユーザデバイスの制約をシミュレートする。分類器は、入力圧縮画像および制約を受信するように接続されている。分類器は、入力圧縮画像の特徴からコンテンツ情報を生成する。マネージャは、制約およびコンテンッ情報に応じて複数の変換モードを生成し、トランスコーダは、複数の変換モ ―ドのそれぞれに対して 1つの出力圧縮画像を生成する。図面の簡単な説明

図 1は、従来のトランスコーダのブロック図、

図 2は、従来の部分復号化器/符号化器のプロック図、

図 3は、この発明による適応可能なビットストリーム配信システムのブロック図、

図 4は、適応可能なトランスコーダおよびトランスコーダマネージャのブロック図、

図 5は、図 4のトランスコーダおよびマネージャによって用いられ得るトランスコ一ディング関数のグラフ、

図 6は、オブジェクトを基礎とするビットストリームスケーリングのブロック図、

図 7は、検索空間のグラフ、

図 8は、この発明によるオブジェクトを基礎とするトランスコーダの詳細を示すブロック図、

図 9は、キューレペルによる特徴抽出のブロック図、

図 1 0は、 3つのステージを有する画像コンテンツ分類器のブロック図、図 1 1は、記述子方式のブロック図、

図 1 2は、図 1 1の aに示す記述子方式によるトランスコーディングのプロヅク図、

図 1 3は、図 1 1の bに示す記述子方式によるトランスコ一ディングブ口ック図、

図 1 4は、コンテンツ要約、およびコンテンツ要約に従ったコンテンツの変化を生成するためのシステムのブロック図、

図 1 5は、図 1 4のコンテンツ要約およびコンテンツ変化に基づいたトランスコーディング関数のグラフ、発明を実施するための最良の形態

圧縮された入力ビットストリームを、ターゲットレート（即ち、ネットヮ一クで利用可能なビヅトレート（A B R ： available bit rate) ) で圧縮された出力ビットストリームに変換または「スケ一リング： scalingj することが可能な画像配信システムについて記載する。また、圧縮された入力ビットストリームの変化を配信する配信システムについても記載する。さらに、ビットストリームの低レベル特徴および記述子方式に基づいたトランスコーディングについて記載する。

通常、出力ビットストリームの夕ーゲットレ一トは、入力ビットストリームのレートよりも小さい。換言すると、我々の卜ランスコーダのタスクは、通常

、ネットワークリソースにおける制約またはェンドユーザデバイスにおける受信機負荷のために、ビットストリームをさらに圧縮することである。プログラムレベル、ショットレベル、フレームレベルおよび画像オブジェクトレベル、ならびにサブ領域レベルを含む様々なレベルの画像に関するコンテンヅを基礎としたトランスコーディング技術について記載する。我々の目的は、レート一品質（R Q ) 特性を最大にしながらトランスコーディングを行うことである。我々のシステムは、従来のトランスコーダの欠点、即ち、特にリアルタイム応用におけるレート変換の制限を克服することができる。従来のトランスコ一ディング技術は十分にレートを低下させることができるものの、コンテンツの品質は通常、激しく低下する。大抵の場合、ビットレートが低下したビットストリームで伝達される情報は全く失われてしまう。従来、ビットストリーム「品質」は、入力ビットストリームと出力ビットストリームとの間のビット毎の差として測定されてきた。

ビットストリームのコンテンツの品質を維持すると共に、夕一ゲットレートを成し遂げることができるトランスコーディング技術について記載する。

[連続変換： Continuous Conversion]

従来のフレームを基礎とするトランスコ一ディング技術は、連続変換と定義され得る。従来の技術は、空間対時間的品質において最良のトレードオフを連続して維持することを試みるため、出力は常に、入力シーケンスを最良に表示するフレームのシーケンスである。レート上の制約を満たすため、特定のフレ —ムがスキップされるとき、スキップされたフレーム内に含まれる情報は考慮されない。十分なフレームがスキップされると、受信されるビットストリームは、ユーザにとって意味のないものになるか、良くても満足のいくものではない。

[品質歪みメトリクス： Quality Distortion Metrics]

従来の連続変換卜ランスコーダは、空間および時間的品質におけるトレードオフに関して、レート歪みの観点で最適な決定を下す。このようなトランスコ

—ダでは、歪みは、通常、ノイズ比に対するビーク信号（P S N R ) などの従来の任意の歪みメトリクスとしてとられる。このような変換では、歪みは、ビットストリームのコンテンツがどのくらい良好に伝達されているかの測定ではなく、むしろ元の入力ビットストリームと再構築された出力ビットストリームとの間のビット間の差（即ち、品質）である。

[ビットストリームの忠実度： Fidelity of Bitstream]

低ビットレート制約下でビットシーケンスをトランスコ一ド化するための 1 つの実施の形態では、少数のフレームを有するビットストリームのコンテンツについて要約する。この方法において、我々は品質に焦点を当てた従来の歪みメトリクスを用いない。むしろ、「忠実度（fidelity) 」と呼ばれる新しい測定を採用する。忠実度は、コンテンツの意味論およびシンタックスを考慮する。意味論およびシンタックスは、ビットまたは画素を意味せず、むしろビットで表される人間にとって意味のある概念、例えば、単語、音、ュ一モアおよび画像アクションのレベル、画像オブジェクトなどを意味する。

忠実度は多くの方法で定義され得る。しかし、忠実度は、ここで定義するように、従来の量的な品質、例えば、ビット間の差には関連しない。むしろ、忠実度は、 1つのフレームまたは任意の数のフレームが元の画像シーケンスに含まれる情報を伝達する程度、即ち、伝達される情報のコンテンツまたはより高レベルな意味を測定し、生ビットを測定するのではない。

[離散要約卜ランスコーダ： Discrete-Summary Transcoder]

忠実度は、従来の歪みメ卜リクスに比べ、より主観的または意味論的な測定である。しかし、我々のシステムでは、忠実度は、従来のものではないトランスコーダの性能を評価するための有用な測定である。一実施の形態による我々のトランスコーダの出力は、ビットシーケンス全体の要約を試みる比較的高い品質のフレームの限定された集合であるため、我々は、このタイプのトランスコーダを「離散要約トランスコーダ」と呼ぶ。

例えば、低ビットレートでは、我々は、画像を表示するために少数の高品質なフレームを選択する。このようにして、ビットストリームの意味論上の「意味」が保存される。この離散要約トランスコーダが入力ビットストリームの高レベルな意味論的サンプリングを成し遂げる一方、連続したトランスコーダは、空間および時間ドメインにおいて画素を量的にサンプリングするだけであることに留意されたい。ビットレートがかなり限定されている状況では、我々は、「豊富な（rich) 」フレームをサンプリングし、ビットストリーム内の符号化されたコンテンツの忠実度を保存する。

豊富なフレームを選択的にサンプリングするため、ビットストリームにおける 1つの局面、即ち動画（性能）を失い得る。連続変換トランスコーダのレ一ト歪み性能が激しく低下するか、またはターゲットレートを満足することができない場合にのみ、好ましくは、離散要約トランスコーディングをとる。これらの条件下では、従来の連続変換トランスコーダは、滑らかな動画（性能）を失う。なぜなら、フレームレートが非常に低いため、情報配信レートは画像がぎくしゃくし（jerkyと呼ぶ現象をきたし）ユーザに不快感を与えるからである o

従来の連続変換トランスコーディングに対する離散要約トランスコ一ディングの主な利点は、厳しいレート制約下にある連続変換トランスコーダが、情報が豊富なフレームを落とすのに対して、離散要約トランスコーダは情報が豊富なフレームを選択するよう試みることである。

所定の状況に対してどのトランスコーダが最良であるかを制御するために、コンテンツネットワークデバイス（C N D ) マネージャについて記載する。 C N Dマネージャの目的は、どのトランスコーダを用いるかを選択することである。選択は、コンテンツ、ネットワーク、ユーザデバイス特性から得られるデ一夕に基づいている。我々はまた、「オフライン」モードにおけるこれらのデバイス特性をシミュレートし、ビットストリームを変化させ、後に配信することができる。

[適応可能なビットストリーム配信システム： Adaptable Bitstream Delivery System]

図 3に示すように、適応可能なビットストリーム配信システム 3 0 0は、 4 つの主な構成要素、即ち、コンテンツ分類器 3 1 0、モデル予測器 3 2 0、コンテンツネットワークデバイスマネージャ 3 3 0、および切り換え可能なトランスコーダ 3 4 0を有する。

システム 3 0 0の目標は、圧縮されたビットストリーム 3 0 1を情報コンテンヅと共にネヅトワーク 3 5 0を通してユーザデバイス 3 6 0に配信することである。ビットストリームのコンテンツは、視覚デ一夕、音声デ一夕、テキストデ一夕、自然デ一夕、合成デ一夕、基本デ一夕、複合デ一夕、またはその組み合わせであり得る。ネットワークは、無線、パケット切り換え型であるか、または予測不可能な動作特性を有する他のネットワークであり得る。ユーザデバイスは、画像受信機、固定型または移動型無線受信機、またはビットストリ —ムの品質受信を困難にし得る内部リソース制約を有する同様の他のユーザデパイスであり得る。

利点として、システムは、ビットストリームがネットワークおよびュ一ザデバイス特性を満足するようにさらに圧縮される必要があるときでさえ、コンテンッの意味論的忠実度を維持する。

入力圧縮ビットストリームは、トランスコーダおよびコンテンツ分類器に向けられる。トランスコーダは、最終的には、ネットワークを通してユーザデバイスに向けられる出力圧縮ビットストリーム 3 0 9のレートを低下させ得る。コンテンヅ分類器 3 1 0は、マネージャ用の入力ビットストリームからコンテンッ情報（C I ) 3 0 2を抽出する。コンテンヅ分類器の主な機能は、モーシヨン活動、画像変化情報およびテクスチャなどのコンテンツ特性の意味論的特徴を、コンテンツネットワークマネージャにおいてレート一品質トレ一ドォフをなすために用いられるパラメ一夕の集合にマップすることである。このマッビング機能を補助するために、コンテンツ分類器はまた、メ夕デ一夕情報 3 0 3を受け得る。メタデータは、低レベルおよび高レベルであり得る。メタデ一夕の例としては、新しく浮上しつつある M P E G— 7規格によって特定される記述子および記述方式が含まれる。

このアーキテクチャでは、モデル予測器 3 2 0は、ネットワーク 3 5 0のダイナミックスに関し、恐らくはユーザデバイス 3 6 0の特性を制約するリアルタイムフィードバック 3 2 1を提供する。例えば、予測器は、ネットワーク輻輳および利用可能なビットレート（A B R ) を報告する。予測器はまた、ネヅトワーク内でのパケット損失比に関するフィードバックを受信し、翻訳する。予測器は、現在のネットワーク状態、および長期ネットワーク予測 3 2 1を見積もる。典型的には、ユーザデバイスは、リソースが限定され得る。例えば、処理パワー、メモリ、および表示制約である。例えば、ュ一ザデバイスがセルラー電話である場合、その表示は、テキスト情報または低レゾリューション画像、またはさらに悪い場合には、単なる音声に制約され得る。これらの特性はまた、トランスコーディング様式の選択にも影響を与え得る。

メ夕デ一夕 3 0 3の受信に加えて、マネージャ 3 3 0はまた、コンテンツ分類器 3 1 0およびモデル予測器 3 2 0の両方から入力を受信する。 C N Dは、切り換え可能なトランスコーダ 3 4 0に対して最適なトランスコ一ディング方策が決定されるように、これらの 2つの情報源からの出力デ一夕を組み合わせ o [コンテンツ分類器： Content Classifier]

パターン分析および認識の分野では、分類は、様々なレベルの画像から特徴を抽出することによって成し遂げることができる。例えば、プログラム特徴、ショット特徴、フレーム特徴、およびフレーム内のサブ領域の特徴である。特徴自体は、高性能な変換または簡単口一カルオペレ一夕を用いて抽出され得る。特徴がどのように抽出されるかに関係なく、寸法 Nの特徴空間が与えられると、各パターンは、この特徴空間内のポイントとして表示され得る。

種々の異なるトレーニングパターンを入力としてこの抽出プロセスにかけ、その結果を特徴空間内でプロッ卜することはよく行われている。特徴集合およびトレーニングパターンが適切である場合、「クラス」と呼ばれるいくつかのポイントのクラス夕が観察される。これらのクラスによって、異なるパターンを識別し、同様のパターンをグループ化することができ、観察されたクラス間の境界を画定することができる。通常、クラス間の境界は、分類ミスのためいくらかのコストは免れないが、全体としてのエラ一を最小限にするよう試みる適切なクラスが識別され、クラス間の適切な境界線が引かれると、ビットストリーム内の新しいパターンをすばやく分類することができる。問題によっては、これは、ニューラルネットワークまたはサポートベクトル機械などの他の公知の分類技術 (Cristianiniら、「An Introduction to Support Vector Mac hines (および他の力-ネルを -スとした学習方法）」、 Cambridge University Pr ess、 2000を参照）を用いて成し遂げることができる。

コンテンツ分類器 3 1 0は、 3ステージ（1、 I I、および I I I 3 1 1 〜3 1 3 ) において動作する。第 1に、より高レベルな意味論が推論され得るようにビットストリームコンテンツを分類し、第 2に、分類されたコンテンツをネットワークおよびユーザデバイス特性に適応する。

第 1のステージ（1 ) 3 1 1では、従来の技術を用いて圧縮ビットストリ一ムから多数の低レベルの特徴（例えば、モーション活動、テクスチャ、または D C T係数）を抽出する。また、 MP E G— 7記述子および記述方式などのメ夕データ 3 0 3にもアクセスすることができる。メ夕デ一夕が利用可能である場合、圧縮ビットストリームに対してはそれほどの作用は必要ない。この第 1 のステージの最終結果として、予め決定されたコンテンツ特徴の集合が意味論的クラスまたは高レベルのメ夕デ一夕の限定された集合にマップされる。さらに、各意味論的クラス内で、コーディングの複雑度（即ち、複雑度は、意味論的クラスおよびネットワーク特性、ならびに恐らくはデバイス特性を条件とする）に基づいて区別する。

このコンテンツの高レベルの理解は、コンテンツ情報（C I ) 3 0 2として C N Dマネージャ 3 3 0に渡される。 C I 3 0 2は、切り換え可能なトランスコーダの本実施の形態の潜在的な性能を部分的に特徴づける。

上記の分類は、コンテンヅ理解、および最終的には離散要約トランスコ一デイングの観点から有用であるが、中間ステージの結果としても有用である。本質的には、分類の第 2ステージ I I 3 1 2への入力として作用する新しい集合のクラスを有する。分類の第 2ステージでは、意味論的なクラスをネットヮ

—クの特徴およびデバイス特性にマップする。これらの特徴によって、システムがトランスコーディング方策を開発するのを補助するレ一ト—品質関数の特性を決定するのを助ける。換言すると、特定の意味論的クラスが、オブジェク卜の移動または画像の変化のために、バーストデータによって特徴づけられる可能性がある場合、このことは、どのくらいのリソースをネットワークが提供しなければならないかを見積もる際に考慮されなければならない。第 3のステ —ジ 3 1 3については、他の実施の形態に関して以下に記載する。

[コンテンツネヅトワークデバイスマネージャ： Content-Network-Device Man ager]

コンテンヅネットワークデバイス（C N D ) マネージャ 3 3 0およびトランスコーダ 3 4 0は、図 4にさらに詳細に示される。 C N Dマネージャは、離散連続制御 4 3 1およびコンテンツネットワークデバイス（C N D ) インテグレ一夕 4 3 2を有する。トランスコーダ 3 4 0は、複数のトランスコーダ 4 4 1 ~ 4 4 3を有する。

制御 4 3 1は、スィッチ 4 5 0を用いて、例えば、離散要約トランスコーダ 4 4 1、連続変換トランスコーダ 4 4 2、または何らかの他のトランスコーダ 4 4 3で、入力圧縮ビットストリーム 3 0 1がどのようにトランスコード化されるべきかを決定する機能を有する。ネットワークコンテンツマネージャはまた、トランスコーダに対する夕一ゲヅトレートに動的に適応し、ネットワークおよびユーザデバイスの特性を制約するリソースを考慮する。これらの 2つの非常に重要な項目は、制御 4 3 1によって決定される。

どのように制御が最適な選択決定をなすかをより良く理解するために、図 5 は、複数のレート一品質関数をレート 5 0 1および品質 5 0 2のスケールに関してグラフで示している。連続変換トランスコーダ 4 4 2の 1つのレ一トー品質関数は、凸関数 5 0 3によって示される。離散要約トランスコーダ 4 4 1に対するレ一トー品質曲線は、一次関数 5 0 4によって表される。他のトランスコーダは異なる関数を有し得る。

これらの曲線が単に例示を目的として描かれたものであることに留意されたい。特定のトランスコーダに対する関数の真の形式は、コンテンツ、コンテンヅがどのように分類されたか、および恐らくはネットワークおよび特性を制約するデバイスの現在の状態に応じて変化し得る。明らかに、低ビットレートでは、上記の理由のために、連続変換トランスコーダは品質が急速に劣化する。最適な品質関数 5 0 5は太字で示される。この関数は、所定のビットレートおよびユーザデバイスに対して成し遂げられ得る最適な品質を最良にモデル化する。

我々は、レート = T 5 0 6においてトランスコーディング技術ではクロスォーバが発生することに留意する。 Τよりも大きなレートについては、連続変換トランスコーダを用い、 Τよりも小さいレートについては、離散要約トランスコーダを用いることが最良である。言うまでもなく、クロスオーバポイントは、コンテンツおよびネヅトワーク特性が変化するにつれて動的に変化する。上述したように、連続変換トランスコーダは、通常、 P S N Rなどの従来の歪みメトリクスを想定する。このような測定は、我々の離散要約トランスコーダには適用されないため、従来の歪みメトリクスを「忠実度」の測定にマップすることはより妥当である。忠実度は、コンテンツがどのくらい良好に意味論的に要約されるかを測定し、量的なビット間の差は測定しない。同じ品質メトリクスが与えられると、最適なトランスコ一ディング方策を決定する際の矛盾を避ける。

[コンテンヅネットワークデバイスインテグレ一夕： Content-Network-Device Integrator]

図 4を再び参照すると、 C N Dインテグレー夕 4 3 2は、コンテンツ分類器

3 1 0からのコンテンツ情報 3 0 2と、モデル予測器からのネットワークデバイス予測 3 2 1とを共に組み合わせる C N Dマネージャの部分である。図 5に示されるレート一品質関数、または他の同様の最適化関数として表されるモデルを生成するのはマネージャのこの部分である。最適な動作モデル 3 2 1を形成するために、 C N Dインテグレー夕は、コンテンツ分類器からのマッピング

C Iおよび切り換え可能なトランスコーダ 3 4 0から出力されるビットレートフィードパック 3 5 1を調べる。この情報を用いて、インテグレー夕は、特定のモデルパラメ一夕を有する最適なモデリング関数 5 0 5を選択する。レ一卜フィードバック 3 5 1は、パラメータを動的に改良するために用いられる。ィンテグレー夕が、選択されたモデルが最適でないことを発見する場合、インテグレー夕は、レート一品質関数を動的に切り換える決定をすることができる。また、インテグレ一夕は、異なるオブジェクトまたは異なるビットストリームに対していくつかの関数を追跡し、関数を個別にまたは一緒に考慮し得る。

[ネットワーク予測の影響： Impact of Network Predictions]

ネットワーク予測 3 2 1は、最適曲線 5 0 5の特定部分を一方向または他方向に変調することによってこれらの特性関数に影響を与え得る。例えば、より高いビットレートが利用できる場合、最も注意を払う必要がある。ネットヮ一クモデルによって、特定時間で多数のビットを消費することができるが、長期の影響によって、急速に混雑し易いことが分かるため、我々のシステムは、抑制して、より低いレートで動作を続けることを選択し得る。このようにして、利用可能なビットレートの突然の低下に関する問題を回避する。これらのタイプの特性は、トランスコーダの曲線を変調することによって引き起こされ得る

[デバイス制約の影響： Impact of Device Constrains]

また、デバイス特性を考慮する必要がある。移動型デバイスは、固定型デバイスとは異なる動作特性を有する。例えば、ドップラースプレッドは、利用可能なビットレートが高いほど性能が低下し得る。従って、より低いビットレートを選択しなければならない。デバイスは、トランスコーダに影響を与え得る限定された処理、格納、および表示能力を有し得る。例えば、画像をオーディォのみのデバイスに配信することは意味がない。事実、切り換え可能なトランスコーダは、スピーチからテキストまたはデータからスピーチへの変換などを行う他のトランスコーダ 4 4 3を有し得る。重要な点は、この発明の切り換え可能なトランスコーダがビットストリ一ムコンテンツの意味論および目的地デパイスを考慮するのに対して、多くの従来のトランスコーダは利用可能なビットレ一トを考慮するだけであるということである。 [フレームを基礎とするトランスコーダ： Frame-Based Transcoder]

フレームを基礎とするトランスコーダのトランスコ一ディング数の詳細は、従来技術において公知である。例えば、以下の任意の米国特許第 5， 9 9 1， 7 1 6号（スピーチのタンデムコーティングを防止するトランスコーダ）、第 5， 9 4 0， 1 3 0号（抽出された動き補償データをバイパス転送する画像トランスコーダ）、第 5， 7 6 8 , 2 7 8号（N : l トランスコーダ）、第 5 , 7 6 4 , 2 9 8号（緩和された内部復号化器/コーダイン夕フェースフレームジッ夕要件を有するデジタルデータトランスコーダ）、第 5 , 5 2 6 , 3 9 7 号（切り換えトランスコーダ）、第 5， 3 3 4， 9 7 7号（異なるビヅト数がコード変換に用いられる A D P C Mトランスコーダ）、または他の同様の特許を参照のこと。これらの特許のいずれも、ビヅトストリームの意味論的コンテンッおよびネットワーク特性に応じて特定のトランスコーディング方策を選択する我々の技術を記載していない。以下、選択され得るオブジェクトを基礎とするビヅトストリームトランスコーダについて記載する。

本実施の形態で強調されるのは、ビットストリームの意味論的コンテンツの最良の配信を提供するトランスコ一ディング方策の動的選択を可能にすることであり、実際のトランスコ一ディングがどのように実行されるかではない。これまで、連続変換トランスコーダおよび離散要約トランスコーダを含む切り換え可能なトランスコーダによってなされ得る異なるタイプのトレ一ドオフについて記載してきた。これらのトランスコーダのそれぞれにおいて、最適なレ一トー品質曲線が想定される。

[オブジェクトを基礎とするトランスコ一ディング： Object-Based Transcode r]

ここで、連続変換トランスコーダに対するレート一品質曲線がどのように導き出され、 Q Pおよびフレームスキップ量などの適切な符号化パラメ一夕がどのように決定されるかについて詳細に記載する。また、この研究を M P E G—

4のコンテクストにも広げる。利用可能なビットレ一トおよび各画像オブジェクトの複雑度に基づいて、画像またはシーンにおいて適応するようにオブジェクトをトランスコード化またはスケーリングするフレームワークについて記載する。

我々の方式は、出力レートに対する入力レートの比に応じて、様々な技術を用いてレートを低下させ得る点において適応できる。我々の目標は、複雑度が変化するォブジェクトに対して最良の全体的な品質を提供することであるため、各オブジェクトの劣化は同じである必要はない。上記のように、ここでは、フレームではなく、オブジェクトをパースする点に留意されたい。

我々のシステムの新規性は、複雑度およびサイズが変化する多数のオブジェクトをトランスコード化することが可能なことであるが、さらに重要なことは、我々のシステムが、画像の全体的な品質を最適化するために、空間一時間トレ一ドオフを行うことができる点である。柔軟性が加えられたために、ォブジェクトを基礎とするビットストリームに焦点を当てる。また、特定のオブジェクトの品質を操作するために利用できる様々な手段について記載する。

注目すべき主要な点は、オブジェクト自体が等しい品質でトランスコード化される必要がないことである。例えば、 1つのオブジェクトのテクスチャデー夕は、形状情報に手をつけずに減少され得るのに対して、他のオブジェクトの形状情報はテクスチャ情報に手をつけずに減少される。ド口ッピングフレームを含む他の多くの組み合わせもまた考えられ得る。ニュースクリップでは、例えば、前景のニュースキャス夕一に関連する情報に手をつけずに、背景に関するテクスチャおよび形状ビットと共にフレームレートを低下させることが可能である。

[オブジェクトを基礎とするトランスコ一ディングのためのビヅトストリームの品質： Quality of a Bitstream for Object-Based Transcoder]

上記のように、従来のフレームを基礎とするトランスコーダは、ビットレートを十分に低下させ得る。しかし、コンテンツの品質は激しく劣化し、ビットレートが低下したビットストリームにおいて伝達される情報は全く失われ得る

。従来、ビヅトストリームの「品質」は、入力ビットストリームと出力ビヅトストリームとの間のビット間の差として測定される。しかし、この発明によるオブジェクトを基礎とするトランスコーディングでは、画像全体の操作に対してもはや制約はない。意味のある画像オブジェクトに分解されたビットストリームをトランスコ一ド化する。各ォブジェク卜の配信は、各オブジェクトの品質と共に、全体として異なる影響を品質に与えることが理解される。我々のオブジェクトを基礎とする方式は、このようなより繊細なアクセスレベルを有するため、ス卜リーム全体の品質にあまり影響を与えずに、 1つのオブジェク卜の空間—時間的品質のレベルを減少させることが可能となる。これは、従来のフレームを基礎とするトランスコーダによって用いられるのとは全く異なる方策である。

コンテンツに関係なく画像全体のビット間の差を測定する従来のビットストリーム品質とは対照的に、我々は「知覚画像品質」の概念を導入する。知覚画像品質は、目的の情報を伝達する画像内のオブジェクトの品質に関連する。例えば、画像の背景は、さらに重要な前景オブジェクトの知覚画像品質に影響を与えずに完全に失われ得る。

[オブジェクトを基礎とするトランスコ一ディングフレームワーク： Object- B ased Transcoding Framework]

図 6は、この発明の他の実施の形態によるォブジヱクトを基礎とするトランスコーダ 6 0 0の高レベルブロック図を示す。トランスコーダ 6 0 0は、デマルチプレクサ 6 0 1、マルチプレクサ 6 0 2、および出力バッファ 6 0 3を有する。トランスコーダ 6 0 0はまた、制御情報 6 0 4に従ってトランスコ一デイング制御ユニット（T C U) 6 1 0によって動作する 1つ以上のオブジェクトを基礎とするトランスコーダ 8 0 0を有する。ユニット 6 1 0は、形状、テクスチヤ、時間、および空間分析器 6 1 1〜6 1 4を有する。

トランスコーダ 6 0 0への入力圧縮ビットストリーム 6 0 5は、 1つ以上のオブジェクトを基礎とする基本的なビットストリームを有する。オブジェクトを基礎とするビットストリームは、直列または並列であり得る。ビットストリーム 6 0 5の全ビットレ一トは R i nである。トランスコーダ 6 0 0からの出力圧縮ビットストリーム 6 0 6は R o u t < R i nとなるような全ビヅトレート R o u tを有する。

デマルチプレクサ 601は、 1つ以上の基本的なビットストリームを、ォブジェクトを基礎とするトランスコーダ 800のそれぞれに提供し、オブジェクトを基礎とするトランスコーダ 800は、オブジェクトデ一夕 607を TCU 610に提供する。トランスコーダ 800は、基本的なビットストリームをスケ一リングする。スケーリングされたビットストリームは、出力バッファ 60 3に渡される前にマルチプレクサ 602で構成され、そこから受信機に渡される。バッファ 606はまた、レートフィードバック情報 608を TCUに提供する。

上記のように、トランスコーダ 800のそれぞれに渡される制御情報 604 は、 TCUによって提供される。図 6に示すように、 TCUは、時間および空間レゾリューションだけでなく、テクスチャおよび形状データを分析する機能を有する。これらの新しい自由度はすべて、オブジェクトを基礎とするトランスコ一ディングフレームワークを、ネットワーク応用に対して非常に特有かつ望ましいものにする。 MPEG— 2および H. 263コーディング規格のように、 MPEG— 4は、動き補償および DCTを用いて、空間—時間的な画像の冗長性を利用する。その結果、オブジェクトを基礎とするトランスコーダ 80 0の中核は、上記の MPEG— 2 トランスコーダの適用である。主な相違は、形状情報が、ビットストリーム内に含まれ、テクスチャコーディング関して、ブロック間に対する DCおよび ACを予測するためのツールが設けられている点である。

テクスチャのトランスコーディングが形状データに依存することに注目することも重要である。換言すると、形状デ一夕は、単にパースされ無視されることはない。準拠したビットストリームのシンタックスは、復号化形状データに依存する。

明らかに、我々のオブジェクトを基礎とする入力および出力ビットストリーム 601〜602は、従来のフレームを基礎とする画像プログラムと全く異なる。また、 MPEG— 2は、動的フレームスキッピングを許容しない。ここでは、 GO P構造および参照フレームは通常固定される。 [テクスチャモデル： Texture Models]

符号化器におけるレート制御のためのテクスチャモデルの使用は、従来技術において広範囲に記載されている。例えば、 Vetro等による「MPEG-4 rate con trol for multiple video objectsj 、 IEEE Trans, on Circuits and Systems for Video Technology, 1999年 2月、およびこの中の参考文献を参照のこと。オブジェクトを基礎とするトランスコーダ 8 0 0において用いられるテクスチヤモデルでは、変数 Rは、画像オブジェクト（V O ) に消費されるテクスチャビットを表し、変数 Qは、量子化パラメ一夕 Q Pを示し、変数（X X ₂ ) は、第 1次および第 2次モデルパラメ一夕を示し、変数 Sは、平均絶対差などの符号化複雑度を示す。 Rと Qとの間の関係は、

( X、 χΛ

' ο ο² によって与えられる。 V Oに割り当てられるビットのターゲット量、および S の現在値が当てられると、 Qの値は、（Xい X ₂ ) の現在値に依存する。 V 0が符号化された後、実際に使用されたビットの数は既知であり、モデルパラメ一夕は更新され得る。これは、前回の nフレームの結果を用いて、線形回帰によってなされ得る。

[テクスチャ分析： Texture Analysis]

トランスコーディング問題は、 _g、元の Q Pの集合、および実際のビット数がすでに与えられている点で異なる。また、空間ドメインから符号化複雑度 S を計算するよりも、新しい D C Tを基礎とした複雑度の測定チルダ Sを定義しなければならない。この測定は、

1 63

s - j^ ∑ ∑ ) (/)f として定義される。ここで、 B _m ( i ) は、ブロックの A C係数であり、 mは

、コード化ブロックの集合 Mにおけるマクロブロック指数であり、 M_cは、その集合内のプロックの数であり、 /o ( i ) は、周波数に依存する重み付けである。複雑度測定は、 A C係数のエネルギーを示し、ここで、高周波成分の貢献は、重み付け関数によって減少する。重み付け関数は、 M P E G量子化マトリクスの関数を模倣するように選択され得る。

ビットストリームで送信されるデ一夕および過去の画像ォブジェクトからのデ一夕より、モデルパラメ一夕は決定され、連続して更新され得る。実際、トランスコード化された V O P毎にモデルを 2度更新し得る。一度は、ビットストリーム内のデータを用いてトランスコード化する前、次は、 Q Pの新しい集合である _0_，を有するテクスチャをコード化した後である。このデ一夕ポイン卜の数が増加するにつれて、モデルパラメ一夕はより強力になり、より迅速に集よ o

テクスチャ分析の主な目的は、歪みを最小に抑えながら、レート制約を満足するを選択することである。しかし、最適性は _aに依存することに留意することは重要である。従って、歪みがどのように量子化されるかに注意を払わなければならない。この点から、 ^に対する依存性のために、この歪みを条件付き歪みと呼ぶ。

0.' を決定するための 1つの方法は、レート制御問題で用いたのと同じ方法を用いることである。このように、まず、特定時間定数ですベての V O Pに対する予算を見積もり、ターゲットを調整して、バッファの現在のレベルを考慮し、このビットの合計を各オブジェクトに分配する。これらのオブジェクトを基礎とするターゲットビットレートが与えられると、 Q Pの新しい集合は、テクスチヤモデルから決定され得る。このアプローチの主な問題点は、強力になるビットの分配に依存していることである。一般に、分配は強力ではなく、条件付き歪みを制御する能力は失われてしまう。なぜなら、新しい Q Pは元の Q Pとは独立して計算されたからである。

[条件付き歪み： Conditional Distortion]

この問題を克服し、 _ に依存するを何らかの方法で解決するために、動的プログラミングに基づいた方法について記載する。元の品質にできるだけ近い品質を維持するには、各オブジェクトの Q Pができるだけ変化しないことである。この条件下で、条件付き歪みを

として定義することができる。ここで、 kは V O Pの集合 Κにおける V O P指数を示し、ひ kは、オブジェクト kの視覚的意義または優先度を意味する。 D ( Q ) は明示的に特定されていないが、 Qに比例していることは既知であることに留意されたい。視覚的意義は、サイズおよび複雑度に対するオブジェクトの関数であり得る。

[ Q Pサーチ空間： QP Search Space]

すべての k >に対して Q ' k Q kであることに留意することは重要である。従って、解決空間は、図 7に示される有効な解決空間に限定される。図 7において、 X軸は、画像オブジェクト 7 0 1を示し、 y軸は Q Pを示す。図はまた、有効なサーチ空間 7 1 0、制約されたサーチ空間 7 1 1、有効な経路 7 1 2、および無効な経路 7 1 3を示す。

条件付き歪みに対して上記の数量化が与えられると、図 7のトレリスを通して最良の経路を検索することによって我々の問題を解決する。ここで、有効な

Q Pはトレリス内のノードであり、各ノードは、見積りレートおよび条件付き歪みと関連する。正式には、問題は次のように記載され得る。

mm

subiect to R_T0TAL < R_BUDGET

制約された問題を制約されていない問題に変換することによって、この問題は解決する。ここで、レートおよび歪みは、ラグランジェ乗数人を通して合成される。すべてにえ≥0に対して、最適な解決は常に見出され得る。レート上の制約を満足する人の値を決定するために、周知の二分法（bisection algori thm) が用いられ得る。 Ramchandran and Vetterli、「Best wavelet packet b ases in the rate-distortion sensej、 IEEE Trans. Image Processing 199

3年 4月を参照のこと。

考慮されるサーチ空間が、 M P E G— 2 トランスコ一ディングアルゴリズムにおいて見出されるものよりもはるかに小さいことを強調することは重要である。ここで、マクロプロック毎に量子化器の最良の集合を見出す試みがなされる。対照的に、オブジェクトを基礎とする量子化器のみ検索する。従って、我々のアプローチは非常に実用的である。 [時間分析： Temporal Analysis]

一般に、フレームをスキップする目的は、バッファがオーバ一フローし、最終的にパケットの損失が防止されるように、バッファ占有レベルを減少させることである。フレームをスキップする他の理由は、空間的品質と時間的品質との間のトレードオフを可能にすることである。このように、より少ないフレームがコード化されるが、これらはより高い品質でコード化される。その結果、バッファがォ一バーフ口一の危険がない場合、フレームをスキップする決定は

、 Q P選択プロセスに組み込まれる。

Q Pの集合のための有効な解決空間を検索する、 Q P選択のための提案されている技術からの構築によって、解決空間を制約することによってこの空間— 時間トレードオフを成し遂げる。図 7に示すように、有効な経路は、 ' のすベての要素が制約エリアに入るものである。これらの要素の 1つがエリア外に入る場合、経路は、空間的品質の特定化されたレベルを維持しないという点で無効である。空間的品質は、条件付き歪みによって暗示されている。

特定のォブジェクトに対する最大 Q Pを決定するために異なる規格が用いられ得る。例えば、最大値は、オブジェクトの複雑度の関数であるか、または単に入力 Q Pのパーセントであり得る。最大値が複雑度に基づいている場合、トランスコーダは、より高い複雑度を有するォブジェクトをより小さな Q Pに実質的に限定する。なぜなら、空間的品質に対するそれらの効果は最も深刻であるからである。一方、入力 Q Pに基づいて複雑度を制限することは、トランスコーダが元々符号化されたビットストリームと比較して同様の Q P分配を維持することを意味する。両アプローチは有効である。各オブジェクトに対して Q

Pを限定する最良の方法を決定するトレードオフは、空間的品質と時間的品質との間のトレードオフに依存し得る。

言うまでもなく、オブジェクトを基礎とするデ一夕を取り扱う際の利点の 1 つは、一方のオブジェクトの時間的品質が他方のオブジェクトとは異なり得ることである。このように、背景オブジェクト、例えば、固定壁をスキップすることによって、例えば、ビットを節約することができる。しかし、オブジェクトは大抵の場合解体されるので、 1つのオブジェクトの時間的レゾリユーションを減少させることは、構成された画像に穴をあけ得る。すべての V O Pが同じ時間的レゾリューションを有するように制約を与えることによって、この問題は減少し得る。

[形状分析： Shape Analysis]

画像オブジェク卜の形状データをトランスコード化する際の問題を紹介するために、テクスチャ情報がどのようにしてトランスコ一ド化されるかについて思い出してみょう。テクスチャに対するレートがデ一夕を部分的に復号化することによって低下し得ることは周知である。大抵の場合、この部分的な復号化には、少なくとも可変長復号化（V L D ) 動作が実行されなければならない。逆量子化および逆 D C Tは省略され得る。

しかし、形状デ一夕については、これは当てはまらない。 M P E G— 4では、形状デ一夕は、いわゆるコンテクストを基礎とした数学符号化アルゴリズムによってブロック毎にコード化される。 Brady、「MPEG-4 standardization me thods for the compression of arbitrarily shaped objectsj 、 IEEE Trans Circuits and Systems for Video Techno logy 1999年 12月を参照のこと。このアルゴリズムでは、各画素に対するコンテクストは、選択されたモードに応じて、 9ビットまたは 1 0ビヅトの因果テンプレートに基づいて計算される。このコンテクストは、ブロック内の確率シーケンスが数学的符号化器を駆動するように、確率ルックアップテ一ブルにアクセスするために用いられる。

テクスチャとは対照的に、形状の部分的復号化は可能ではない。なぜなら、画素ドメインとビットストリームとの間の中間表示はないからである。従って

、形状デ一夕のレゾリューションを操作するためには、データは十分に復号化されなければならない。復号化の後、 1999年 10月 1日付けで提出された、 Vetro 等による米国特許出願第 0 9 / 4 1 0 , 5 5 2号「Estimating Rate-Distorti on Characteristics of Binary Shape Dataj ίこ言 E!載されてレヽるようなモデノレが、形状のレート一歪み特性を評価するために用いられ得る。

[空間分析： Spatial Analysis]

レートを低下させる他の手段として、サブサンプリングによってレゾリューシヨンを減少させることが挙げられる。 MP EG— 4規格のバージョン 2では、動的レゾリューション変換（DRC) と呼ばれるツールが MPEG— 4規格に採用されている。このヅ一ルにより、 1つのオブジェクトのレゾリュ一ション（即ち、空間的品質）を減少させると共に、他のより重要なまたは空間的に活発なオブジェクトのレゾリューションを維持することが可能である。

[アーキテクチャ： Architecture]

図 8は、この発明によるオブジェクトを基礎とするトランスコーダ 800の構成要素を示す。従来技術におけるトランスコーディングアーキテクチャのように、符号化規格のシンタックスは、トランスコーダ 800のアーキテクチャをいくぶんか指図する。ここで、 MPEG— 4規格に照らして我々のトランスコーダの主な特徴を記載し、これらの特徴と従来のフレームを基礎とするトランスコ一ディングとを対比させる。

トランスコーダ 800は、 V0L/V0Pパーザ 810、形状スケ一ラ 82 0、 MBヘッダパ一サ 830、モーションパ一サ 840、およびテクスチャスケ一ラ 850を有する。トランスコーダはまた、基本ビットストリーム 801 の様々な部分をビヅトストリームメモリ 870に転送するバス 860を有する。この包括的な格納から、基本ビットストリーム構成ュニット 880は、 MP EG— 4規格に従った、レートが低下した圧縮ビヅトストリームを形成し得る。出力基本ビットストリ一ム 809は図 6のマルチプレクサに与えられる。

MPEG— 4では、各オブジェクトに対する基本ビヅトストリ一ムは、他のビットストリームとは独立している。その結果、各オブジェクトは、画像ォブジェクト層（VOL) および画像オブジェクトプレーン（VOP) ヘッダに関連づけられる。 VOPヘッダは、オブジェクトを符号化するために用いた量子化パラメ一夕（Q P ) を含む。各オブジェクトに対する Q Pは、テクスチャ情報のモデル化および分析において後に用いられる。他のビヅトはすべて、図 6 の出力ビットストリーム 6 0 6を構成する時点まで、ビットストリームメモリ 8 7 0内に格納される。

他の規格との最も著しい差は、 M P E G— 4がオブジェクトの形状をコード化できることである。 V O P層から、 V O Pが形状情報（二進）含んでいるか否か（方形） 8 1 2を見出す。方形 V O Pである場合には、オブジェクトは単に方形フレームであり、形状ビットをパースする必要はない。二進形状である場合には、マクロブロックが透明であるか否かを決定する 8 1 3必要がある。透明なブロックは、オブジェクトの境界ボックス内にあるが、オブジェクトの境界の外側にある。このため、それに関連するモーションまたはテクスチャ情報は存在しない。

形状スケーラ 8 2 0は、 3つのサブ構成要素、即ち、形状復号化器 Zパーザ 8 2 1、形状ダウンサンブラ 8 2 2、および形状符号化器 8 2 3で構成される。ビットストリームの形状情報がスケーリングされていない場合には、形状復号化器 Zパーザは、単に形状パーザである。これは、トランスコーダ制御ュニット 6 1 0の R— D形状分析 6 1 1から受信される制御情報 6 0 4によって示される。また、この場合、形状ダウンサンブラ 8 2 2および形状符号化器 8 2 3はディスェ一ブルされる。形状情報がスケーリングされている場合には、形状復号化器/パーザ 8 2 1は、まず、形状情報を画素ドメイン表示に復号化しなければならない。形状のレートを低下させるために、プロックは形状ダウンサンブラ 8 2 2を用いて 2または 4の係数でダウンサンプリングされ、形状符号化器 8 2 3を用いて再符号化され得る。変換比は、 R— D形状分析 6 1 1によって決定される。形状ビヅ卜が単にパースされているかまたはスケーリングされているかに関係なく、形状スケ一ラ 8 2 0の出力は、ビヅトストリームバス 8 6 0を介してビットストリームメモリ 8 7 0に転送される。

形状ビット以外に、 M P E G— 4シンタックスの残りは、少数の例外はあるものの、 M P E G— 2のそれといくぶんか同様である。マクロブロック（M B

) 層では、コード化されたブロックパターン（C B P ) を有するビットが存在する。 CBPは、マクロブロックのうちのどのブロックが少なくとも 1つの A C係数を含むかを復号化器に信号で合図するために用いられる。 C BPはビットストリームの構造に影響を与えるだけでなく、 CBPはまた AC · DC内予測にも影響を与える。トランスコーダがこのパラメ一夕に関連していなければならない理由は、 CBPが DCTブロックの再量子化に応じて変化するからである。このため、ブロックが再量子化された後に CBPを再計算する。テクスチヤスケ一ラの CBP再計算ュニヅト 856はこれを成し遂げる。ュニヅト 8 56は、可変長コード（VLC) 855を、ビットストリームバス 860を介してビットストリームメモリ 870に送信し、入力ビットストリーム内に存在していたヘッダを置き換える。

基本ビヅトストリームをパースし、関連の復号化パラメ一夕を抽出した後、テクスチャブロック 851を部分的に復号化する。このプロセスの結果は、 D CTブロック係数である。空間（再サイズ）分析がイネ一ブルされると、ォブジェクトは 2または 4の係数でダウンサンプリングされ得る。プロックをダウンサンプリングする能力は、トランスコーディング制御ユニット 610、および空間分析 614によるダウンサンプリング係数によって示される。さらに、このダウンサンプリングは、 I D CTZD CT動作を避けることができるように、 DCTドメイン内で実行される。 1998年 11月 10日付けで提出された、 Bao らの米国特許第 5, 855, 151号「Method and apparatus for down-conv erting a digital signal」を参照のこと。次に、 DCTブロックは、係数メモリ 853に一時的に格納される。このメモリから、ブロックは量子化器 85 4に送信される。量子化器 854は、新しいターゲットレートに合致するこの発明に記載の技術を用いて、 R— Dテクスチャ分析 612から送信される QP に従ってブロックを量子化する。

オブジェクトをスキップするために、時間的分析 613は、どのビッ卜が構成および送信され、どのビットを落とすべきかをビットストリーム構成 880 に示す。このように、このメモリに書き込まれたビットストリームの部分は、次の画像オブジェクトのデ一夕によって単に上書きされる。 [ィンプリメンテーシヨンおよび処理： Implementation & Processing] 特定の実施の形態に関して、トランスコーダ 8 0 0のアーキテクチャが単一のォブジェク卜に対する構成要素を例示することに留意されたい。極端な場合、多数のオブジェクトは、図 6に示すように、多数のトランスコーダでスケーリングされ得る。多重スレッド実行を考慮するソフトウェアインプリメンテ一シヨンでは、これは最も効率的な方法になり得る。ソフトウェアインプリメンテーシヨンにおける課題は、考慮される各ォブジヱクトに対して適切な量の C P U処理を割り付けることである。

しかし、ハードウェアインプリメンテーションでは、事情は大変異なる。ノヽ —ドウエア設計者は、通常、特定の機能性を取り扱う 1ピースの論理を有することを好む。例えば、受信され得る Mオブジェクトの最大数に対して Mモ一シヨンバーサを実行するのではなく、ハードウェア設計は、多数のオブジェクトが所定時間にパースされ得るように、特定の速度で動作する単一のモーションパ一サを有する。言うまでもなく、オブジェクトの数がパ一サのスループットを上回っている場合、並列パーザは、まだ使用できる。主要な点は、必要なパ一ザの数が受信されるオブジェクトの合計よりも少なくてよく、計算が並列パ —サ間で分配されることである。この概念は、トランスコーダ 8 0 0のすベてのサブブロックに適用される。 [階層的キュレべノレ： Hierarchical Cue Levels]

ここで、トランスコ一ディングが様々なレベルの画像から抽出される特徴に従うシステムについて記載する。一般に、画像は、図 9に示すように、粗から微細への階層 9 0 0に仕切られ得る。画像プログラムまたはセッション 9 1 0 は、階層 9 0 0の最も高いレベルであると考えられる。このレベルは、 3 0分間のニュースプログラムまたは放送ネットワークからの全日のプログラミングを表し得る。プログラム 9 1 0は、ショット S h 0 t— 1、 . . . 、 S h o t

- n 9 1 1一 9 1 9のシーケンスを含む。

次のレベル 9 2 0はショットに仕切られる。「ショット」は、フレームのグループ（G 0 F ) 、または画像オブジェクトプレーンのグループ（G O V) 9 2 1— 9 2 9であり得る。このレベルは、カメラがオンになった時点で開始し、カメラがオフになるまで継続するより小さな画像のセグメントを表す。混乱を避けるため、このレベルを単にショットレベル 9 2 0と呼ぶ。

ショットは、 0 0 ?フレーム9 3 0、および G O Vまたは画像オブジェクトプレーン（V O P ) 9 3 1の最も基本的なユニットで構成される。また、これより低い他のレベルも考慮することができる。これは、フレームまたは V O P のサブ領域 9 4 1〜9 4 2を指す。

画像プログラム階層 9 0 0における各レベルでは、レベルのそれぞれにおいて、特徴抽出プロセス 9 0 1〜9 0 4を画像デ一夕に適用する。言うまでもなく、各レベルでのデ一夕は異なる様式で配置され、関連の特徴はレベル毎に変化するため、異なる特徴抽出技術が各レベルに適用される。即ち、プログラムレベルの特徴は、フレームの特徴とは異なる様式で抽出される。

我々のトランスコーダの文脈では、これらの特徴は、トランスコーディングシステムに適用され得る「ヒント」または「キュー」 9 0 5〜9 0 8を表す。これらのヒントは、意味論的または構文論的であり、高レベルまたは低レベルのメタデ一夕の何れかを表し得る。

言うまでもなく、メ夕デ一夕が任意の所定のレベルにおいてトランスコ一デイングに適用され得る。一般に、ショットレベルなどのより高レベルなデ一夕に対するメ夕デ一夕は、分類、ビット割り付け、ならびにその特定のショットに対するおよび他のショット間でのレート—品質考慮に用いられる。この場合

、メ夕デ一夕は、トランスコーダへの使用に限定されるが、すべての出力コンテンヅの中でトランスコ一ディング方策を決定する図 3の C N Dマネージャ 3

3 0に非常に有用である。対照的に、オブジェクトレベルなどのより低いレべルのデ一夕に対するメ夕デ一夕は、動的ビット割り付けを助ける点でトランスコーダ 3 4 0自体により有用であり得る。なぜなら、このような低レベルで出力コンテンツを分類かつ管理することは困難であるからである。

以下、低レベル特徴がどのように群をなし（分類され）、レート一品質トレ

―ドオフに関連する意味のあるパラメ一夕にマップされるかについて記載する

。これらの群形成方法の記載において、主にコンテンツのより高いレベルの分類に焦点を当てるが、低レベルの分類もまた含まれ得る。次に、ハイブリッド離散要約および連続変換トランスコーダについて記載する。再び、 C N Dマネ —ジャにおいて高レベル（ショットレベル）のメ夕デ一夕を用いることに主に焦点を当てた技術について記載する。しかし、離散要約トランスコーダにおけるこのようなメタデ一夕も考慮し得る。最後に、メ夕デ一夕を用いてトランスコーディングをどのように導くかについて記載する。上記のように、これは、管理ステージおよびトランスコーディングステージの両方に等しく適用可能である。 [コンテンヅ分類器（Content Classifier) ：ステージ III (Stagelll) ] 図 3を参照しながら上述したように、コンテンツ分類器 3 1 0の主な機能は、活動、画像変化情報、およびテクスチャなどのコンテンツ特性の特徴を、レ —トー品質トレードオフをなすために用いられるパラメ一夕の集合にマップすることである。このマッピング機能を補助するために、コンテンツ分類器はまた、メタデータ情報 3 0 3を受け入れる。メ夕デ一夕の例としては、新たに浮上しつつある M P E G— 7規格によつて特定される記述子および記述方式（ D S ) が挙げられる。

コンテンツ分類器 3 1 0のステージ I I I 3 1 3では、このような低レべルのメ夕データは、コンテンツのみに依存するレート—品質特性にマップされる。図 1 0にこれを例示する。レート一品質特性は、図 5に示すレート一品質関数に影響を与える。

コンテンツ分類器 3 1 0は、低レベルメ夕デ一夕 3 0 3を受信する。ステ一ジ I 3 1 1は、高レベルのメタデータまたはクラス 1 0 0 1を抽出する。ステ一ジ I I 3 1 2は、予測 3 2 1を用いて、コンテンツ、ネヅトワーク、およびデバイスに依存するレ一トー品質（R— Q ) 特性を決定する。ステージ I I I 3 1 3は、低レベルのメ夕デ一夕のみに依存する R— Q特性 1 0 0 3を抽出する。

一例として、 M P E G— 7におけるモーション活動記述子の空間分布パラメ一夕が、どのようにプログラムの画像セグメントを同様のモーション活動および空間分布のカテゴリ一に分類することができるのかについて記載する。ニュースプログラムについて検討する。ニュースプログラムは、総合司会者のいくつかのショット、およびさらにニューススト一リ一全体に関連する様々な他のショットを含む。

図 1 1および図 1 2と図 1 3に示す例は、 3つのシヨット 1 2 0 1〜 1 2 0 3、即ち、総合司会者のショット、現場レポ一夕のショット、および警察の追跡ショットを有するニュースプログラム 1 2 0 0について検討する。例を簡単にするため、すべてのニュースプログラムショヅトを 3つのカテゴリ一のみに分類するが、言うまでもなく、実際の応用では、カテゴリ一は数も種類も異なる。

第 1のクラス 1 1 0 1は、コンテンツの時間的品質が、空間的品質ほど重要でないショットを示す。第 2のクラス 1 1 0 2は、コンテンヅの空間的品質がより重要であるショットを示し、第 3のクラス 1 1 0 3は、ショットの空間および時間的品質が同様に重要であるショッ卜を示す。

このクラスの集合を S E T— 1 1 1 1 0と呼ぶ。このようなクラスは、明らかに、レートおよび品質に特徴がある。コンテンツ分類器のステージ I I I 3 1 3の目的は、低レベル特徴を処理し、これらの特徴をこれらのクラスの中で最も適切なものにマップすることである。空間および時間的品質の重要性もまた、 1から 1 0のスケール、または実数イン夕一パル 0 . 0から 1 . 0で評価され得ることに留意されたい。

これらのレート一品質クラスをさらに例示するために、図 1 1の bに示すような 3つの別個のクラスの他の集合について検討する。第 1のクラス 1 1 2 1 は、ショットが非常に簡単に圧縮できる、即ち、大きな圧縮比が所定の歪みに対して簡単に成し遂げられ得ることを示す。第 3のクラス 1 1 2 3は、全く反対のものを表す。即ち、犬/複合モーション、または空間的に活発なシーンのために、ショットのコンテンツの圧縮が非常に困難であることを示す。第 2のクラス 1 1 2 2は、第 1のクラスと第 3のクラスとの中間あたりである。このクラスの集合を、 S E T— 2 1 1 2 0と呼ぶ。クラス 1 1 1 0の他の集合に関しては、これらのクラス 1 1 2 0はまた、 C N Dマネージャ 3 3 0によってなされるレート—品質決定にコンテンヅ分類が与え得る影響、および切り換え可能なトランスコーダ 3 4 0がどのように動作し得るかについても例示する。上記のように、圧縮困難さは、数値によって分類され得る。言うまでもなく、他のクラスの集合は他のタイプの画像プログラムに対して規定され得る。

これまで、レート一品質クラスの 2つの例、 3 £丁ー 1ぉょび3 £ 1—2について記載してきた。コンテンツは、低レベルメ夕デ一夕 3 0 3から抽出される特徴に従って、これらのクラスに分類される。以下では、これらのクラスがどのようにモーション活性から取り出され得るかについて記載する。

大部分のニュースプログラムでは、総合司会者のすべてのショヅ卜の分析が、比較的低いモーションを推論する、同様のモーション活性パラメ一夕を生成することが予想される。このデータが与えられ、 S E T— 1 1 1 1 0を想定すると、このようなコンテンツを第 2のクラス 1 1 0 2 (空間的品質 >時間的- 品質の重要性）に分類することができる。さらに、すべての警察追跡、およびそれと同様のショットは、第 1のクラス 1 1 0 1 (時間的品質 >空間的品質の重要性）に分類ざれる。最後に、現場レポ一夕の背景活動に従って、このタイプのショットは、 3つの利用可能なクラスの任意の 1つに分類され得る。例示を目的として、このショットは第 3のクラスに分類される。

図 1 2は、 S E T— 1の分類によるトランスコーディング方策を例示する。総合司会者ショット 1 2 0 1は、離散要約トランスコーダ 1 2 1 0を用いてトランスコード化される。図 4のブロック 4 4 1を参照のこと。このトランスコ —ダは、ショット 1 2 0 1全体を単一のフレーム 1 2 1 1 (即ち、総合司会者の静止像）に低減させる。ショットが持続している間、話をしている総合司会者の全音声部分が提供される。

現場レポ一夕のショット 1 2 0 2は、 1秒当たり 5フレーム 1 2 2 1で完全な音声を有して連続的に変換され、視聴者に対していくらかの背景のモ一ション感覚を保持する。

警察追跡ショヅト 1 2 0 3はまた、 1秒当たり 3 0フレーム 1 2 3 1で連続して変換される 1 2 3 0。

何れの場合においても、コンテンツ分類器がコンテンツを記載したメタデー夕へのアクセスを与えられるか、または分類器がコンテンツ自体から直接デー夕を得るかどうかに関係なく、この情報の有用性は、 CNDマネージャが最終的に行わなければならないレート一品質トレードオフを考慮して直接理解され得る。

上記の例とは対照的に、代わりに同じプログラム 1200および SET— 2 1120分類を想定すると、分類結果は、図 13に示すのとは異なって解釈され得る。 SET— 2では、総合司会者のショヅト 1201におけるモーションの欠落によって、セグメントは非常に簡単に圧縮されるので、 Set— 2の第 1のクラス 1121に分類される。このショットは、 1秒当たり 30フレーム 1241で、高圧縮で連続して変換される 1240。しかし、警察追跡ショット 1203は、高モーションを含むため、圧縮がより困難である。従って、警察追跡ショット 1203は、 Set— 2の第 3のクラス 1123に分類される。警察追跡ショット 1203は、 1秒当たり 7. 5フレーム 1261で連続して変換される 1260。再び、現場レポ一タを有するショット 1202の特性によると、 3つのクラスのいずれかに入り得る。例示目的のため、現場レポ —夕ショット 1202は、第 2のクラス 1122に割り当てられ、 1秒当たり 15フレーム 1251で連続して変換される 1250。

ヒントは、定数レートビットストリームおよび可変レートビットストリーム (CBRまたは VBR) のいずれかを生成し得ることに留意されたい。例えば、分類が圧縮困難さ（SET 2) に基づく場合、 CBRビットストリームは、低フレームレートが圧縮の困難なフレームシーケンスに与えられるとき生成され、 VBRビットストリームは、より多くのビットが割り付けられるときに生成され得る。

以下の段落では、トランスコーディング方策を生成するために、これらの異なる分類がどのように用いられ得るかについて記載する。

[ハイプリッド連続変換および離散要約トランスコーディング： Hybrid Conti mious - Conversion and Discrete-Summary Transcoding]

各クラスによって暗示されているレート一品質マッピングが、特定の応用に応じて大幅に変化し得ることが強調されるべきである。上記の実施例では、空間および時間的品質が、画像の圧縮困難性、または空間および時間的品質に割り当てられる優先度のレベルによって影響され得ることを記載した。両分類を低レベル特徴から得た。

C NDマネージャ 3 3 0に対して、これらの分類は、コンテンヅが操作され得る方法を示唆する。事実、分類によって、考慮されるシナリオの数は大幅に減少し得る。例えば、 C N Dマネージャが、所定時間における多数のビットストリ一ム（フレームまたはオブジェクト）に対するレート一品質トレードオフを考慮しなければならない場合、 C N Dマネージャは、連続変換と離散要約トランスコーディングとの間のトランスコ一ディング責任を分配する最良の方法を考慮することができる。考慮中のすべてのセグメントに対して 1つの方法を選択するのではなく、ハイブリッド方式を考慮することも可能である。プログラムの優先度、またはその低レベル特徴による圧縮困難さは、このような決定をするために用いられ得る有用なパラメ一夕の例である。

図 1 2および図 1 3は、 S E T— 1 1 1 1 0および S E T— 2 1 1 2 0 における分類が、 C N Dマネージャによって決定される方策にどのように影響を与えるか、およびトランスコーダが元のデ一夕を操作する方法について例示している。図 1 2において特に興味深いのは、ハイブリッドトランスコーディング方式が用いられることである。

ニュースプログラム 1 2 0 0の例に戻り、 S E T— 1分類について考慮する。総合司会者シヨットに警察追跡よりも低い優先度を割り当てることができる。オブジェクトを基礎とする画像を取り扱つている場合、他のトランスコード化方法として、ショット 1 2 0 1の背景に、前景における総合司会者よりも低い優先度を割り当てることが挙げられる。これはすべて、例えば、オブジェクトレベルのモーション活動パラメ一夕の分類（単数または複数）を通して成し遂げることができる。

これらの概念を例示するためにモーション活動を用いた。しかし、言うまでもなく、形状パラメ一夕、テクスチャ情報などの他の低レベル特徴または M P

E G - 7記述子も使用され得る。低レベル特徴が個別に考慮されるかまたは組み合わせて考慮されるかに関係なく、低レベル特徴は、画像コンテンツを、 C NDマネージャおよびトランスコーダを補助する意味のあるパラメ一夕に効果的に集め、分類するために用いることができる。

CND分類器 310および CNDマネージャ 330は、図 6の TCU610 と矛盾しているようであるが、そうではない。分類器および CNDマネージャは、トランスコーダ 340にとつて最良の方策を予め選択しょうとする。この方策および命令がマネージャから与えられると、トランスコーダは、可能な限り最良の方法でコンテンツを操作する機能を有する。トランスコーダが、誤つた予測または CNDマネージャによって選択された方策のために、リクエストを満足することができない場合、トランスコーダは、このような状況に対処するためのメカニズム（例えば、時間分析）を必要とする。従って、メ夕デ一夕はまた、 T CUにおいても用いることができる。しかし、 TCUに対するメタデ一夕の目的は、分類器および CNDマネージャに対するものとは異なる。 [トランスコーディングに対するメ夕デ一夕の影響： Effects of Meta-Data o n Transcoding]

メ夕デ一夕がトランスコ一ディングに影響を与え得る方法としては 2つある。これらの方法は共に、上記のビット割り付け問題に直接関連する。第 1の方法は、 CNDマネージャ 330において行われ、ビット割り付けが方策および最終的には離散要約および連続変換トランスコーダ 441〜442によって提供される関数をどのように用いるかの決定を引き出すために用いられる。このように、図 5のレ一トー品質関数は、決定を下すために用いられる。第 2の方法は、トランスコーダ 340自体において行われる。再び、メ夕デ一夕は、見積もりのために用いられるが、方策を決定するよりもむしろ、ビットレート目的に合致するように用いられ得るコーディングパラメ一夕に対してリアルタイムの決定をするために用いられる。このように、コーディングパラメ一夕は、トランスコーダが図 5の最適なレート―品質関数を成し遂げるように選択され

■O o

一般に、低レベルおよび高レベルのメ夕デ一夕は、離散要約および連続変換トランスコーディングを実行するためのヒントを提供する。これらのヒントは

、 C N Dマネージャおよびトランスコーダの両方に有用である。例示のため、まず、コンテンツに関連する高レベルの意味論的情報について検討する。意味論的情報は、コンテンツと自動的にまたは手動の注釈によって関連づけられ得る。

データベースが多数の画像プログラムを格納する場合について考えよう。画像は、様々なカテゴリー（例えば、「アクション」のレベル）に応じて評価されてきた。多数のユーザが様々なショットを同時にリクエストする応用においては、 C N Dマネージャ 3 3 0は、各ショットにどのくらいのレートを割り付けるかを決定しなければならない。離散要約トランスコーダ 4 4 1では、このレートは、送信されるフレームの数に対応し得るのに対して、連続変換トランスコーダ 4 4 2では、レートは、許容可能な夕一ゲットフレームレートに対応し得る。アクションのレベルが特定レベルの時間活動を示す場合、ビットは、コンテンツの記述に従って、フレームシーケンス毎に割り付けられ得る。高ァクシヨンを有するショットに対しては、 C N Dマネージャは、所定レベルよりも低いフレームレートが連続変換トランスコーダには許容されず、より良好な品質のショッ卜がコンテンツを離散要約トランスコーダで要約することによつて配信され得ることを決定する。

離散要約トランスコーダ内では、妥当なレベルの知覚品質を成し遂げるように許容できるフレームの数を考慮することができる。低レベルモーション活性記述子に戻る。低モーション強度を暗示する関連の活性パラメ一夕を有する画像シーケンスは、高モーション強度を暗示する活性パラメ一夕を有するショヅトよりも少ないフレームで要約され得ることはもつともであり得る。この延長として、このようなビット割り付けが、どのようにオブジェクトレベルで適用され得るかは容易に理解され得る。

[低レベルメ夕デ一夕からの高レペルメ夕デ一夕の生成： Generating High-Le vel Meta-Data from Low-Level Meta - Dataj

低レベルメ夕デ一夕から高レベルメタデータを生成するプロセスは、メ夕デ —夕符号化として定義され得る。このような符号化プロセスは、トランスコーデイングシステムのコンテンツ分類器において、ステージ I 311で考慮され得る。

さらに、この高レベル生成プロセスは、独立型システムにおいて用いられ得る。このような独立型システムの例としては、 MPEG— 7規格によって特定される記述方式を例示するシステムが挙げられる。このようなシステムは、 M P E G— 7高レベルメタデ一夕符号化器と呼ぶことができる。

現在の M P E G— 7の研究案には、様々なタイプのメ夕デ一夕用のプレースホルダである高レベル記述方式がある。この規格の規範的部分は、インプリメンテ一シヨンに重要な要件を明示的に規定し、報知的部分は単に潜在的な技術または何かをおこなう 1つの方法を示唆しているに過ぎないことに留意されたレヽ。 MP EG— 2において、適切な動きベクトルまたは量子化パラメ一夕の決定は、符号化器の問題、即ち、規格の報知的部分と見なされる。規格は、動きベクトル用の可変長コーディング（VLC) テーブル、および量子化パラメ一夕用の 5ビットフィールドを特定している。これらのフィールドがどのように用いられるかは全く符号化器の問題であり、規格、即ち報知的部分には関係しない。

MPEG-7において、様々な記述方式の規範的および報知的フィ一ルドは、同様の状況にある。フィールドは特定されているが、これらのフィールドに対するデータをどのように生成するかは報知的である。トランスコーディングおよび要約について、 MPEG— 7 Working Draf t、例えば、 SummaryDS、 Var iat ionDS、 Hierarchi calS ummaryDS、 Highl ight SegmentDS Clust er D S、および C 1 a s s i f i e r D Sにおいて特定されている様々な記述方式について考える。さらなる記述子方式に関しては、 ISO/IEC JTC N3113、「M

PEG - 7 Multimedia Descriptor Schemes WDj、 1999年 12月を参照のこと。

例えば、 SummaryDSは、主としてコンテンツ検索およびナビゲ一シヨンのために用いられるコンテンツの視覚アブストラクトを特定するために用いられる。 Var i a t i onDSは、コンテンツの変化を指定するために用いられる。一般に、変化は多数の方法で形成され、元のデータの改訂および操作を反映し得る。しかし、 S u mm a r y D Sおよび V a r i a t i 0 n D S などの記述方式は、コンテンツの変化をどのように要約または生成するかについては記載していない。

これらの記述方式は、単に、コンテンツが「どこで」見出されるか、および「どの」動作がコンテンツに対して実施されたかなどの、要約コンテンツまたは変形デ一夕の「プロパティ」に関する情報をシステムに提供する情報のタグまたはフィールドを含む。これは、すべての操作が送信前に行われたことを喑示する。このようなフィールドが存在する場合には、 C N Dマネージャの夕スクは、簡略化される。なぜなら、マネージャには、関連のプロパティを有する

、利用可能な要約または予めトランスコード化されたデ一夕のリス卜が渡されているからである。

この情報が得られることに対する利点（簡略化された C N Dマネージャおよびトランスコーダなど）はあるが、 2つの大きな問題がある。第 1の大きな問題は、これらの変化が、元の画像に対するあらゆるリクエストの前に生成されていなければならないことである。この結果、リアルタイム送信はオプションではない。なぜなら、コンテンツの多数の変化をもたらすことに関連する遅延は長すぎるからである。第 2の大きな問題は、ネッワーク特性が経時的に変化する傾向にあることである。従って、現在のネットワーク条件下で、特定の予めトランスコード化された変化を一度に選択することは、全持続時間には適用できない。

これらの欠点にもかかわらず、規格は、これらの記述方式におけるフィ一ルドをどのように満たすかについて特定しない。これらは、 M P E G— 7の規格に対する符号化器の問題である。

非リアルタイム送信応用を想定して、低レベル記述子を用いた記述方式シン夕ヅクスにおける高レベルフィ一ルドのコンテンツを生成するためのシステムについて記載する。

[コンテンツの変ィ匕： Variations of Content] 本質的に、リアルタイムトランスコーディングに用いられるのと同じ方法はまた、特定の画像の要約および変化を生成するためにも用いられ得る。オフラィンの様々なネットワーク条件がシミュレートされ、プログラムコンテンヅは、シミュレートされた様々な条件に従ってトランスコード化され得る。結果として得られるコンテンヅは、データベース内に格納され得る。この予備トランスコーディングを実行するにあたって、利用可能な帯域幅などのネットワーク条件に留意するだけでなく、データが操作される様式についても、システムは留意されるべきである。このタイプの情報は、記述方式のフィールドを占有す

•S3。

[画像プログラムのための高レベルメ夕デ一夕符号化器： High-Level Meta-Da ta Encoder for Video Program]

図 1 4は、対応する記述方式の関連インス夕ンシェ一シヨンと共に、要約および変化データを生成するこのような符号化器を示す。符号化器の構成要素は、図 3の適応可能なトランスコーディングシステム 3 0 0の構成要素に類似する。しかし、符号化器は、トランスコーディング中にリアルタイムで受信および送信するためにネットワークに接続されない点で異なる。その代わり、符号化器は、画像が格納されるデータベースに接続される。符号化器は、後にリアルタイム配信するための、オフラインの様々な画像バージョンを生成する。図 1 4に示すように、適応可能なビットストリーム画像配信システム 1 3 0 0は、 5つの主な構成要素、即ち、コンテンツ分類器 1 3 1 0、ネットワークデバイス（N D ) 生成器 1 3 2 0、 C N Dマネージャ 1 3 3 0、切り換え可能なトランスコーダ 1 3 4 0、および D Sインスタンシェ一夕 1 3 5 0を有する。システム 1 3 0 0は、その入力および出力がデータベース 1 3 6 0に接続されている。システム 1 3 0 0はまた、ネットワークおよびデ一夕ベース 1 3 6

0に接続されたセレクタ 1 3 7 0を有する。

配信システム 1 3 0 0の目的は、元の圧縮ビヅトストリ一ム（V i d e 0 I n ) 1 3 0 1から変化および/または要約ビットストリーム 1 3 0 8を生成することである。ビットストリームのコンテンツは、視覚デ一夕、音声デ一夕、テクスチャデ一夕、自然データ、合成デ一夕、基本データ、複合デ一夕、またはその組み合わせであり得る。

上述したように、画像配信システム 1300は、適応可能なトランスコーダシステム 300と類似する。主な相違は、図 3のネットワーク 350を介してユーザデバイス 360に接続されていないこと、およびトランスコーディングがリアルタイムで実施されないことである。 ND生成器 1350は、デバイスおよびネットワークにとって代わる。

本質的に、生成器は、リアルタイム動作において存在するであろうネットヮークおよびデバイス（ND)制約をシミュレートする機能を有する。例えば、 ND生成器は、 64kbps、 128 k b p s、および 512 k b p sを有する CBRチャネル、または VBRチャネルをシミュレートし得る。さらに、生成器は、利用可能な帯域幅の減少に遭遇しているチャネルをシミュレ一トし得る。この損失は一次、二次、または非常に急峻（sharp) である。他の多くの典型的な条件も考慮され得るが、その中には、表示能力の限定などのユーザデバイス制約に関連し得るものもある。

これらの異なる条件のそれぞれは、元の入力画像 1301の異なる変化をもたらし得る。本質的には、デ一夕べ一スは、多数の入力ビットストリームの変ィ匕 1301を格納するため、何らかのリアルタイム動作条件に対するビットストリ一ムは、将来、下流トランスコーダで容易に利用できるであろう。変化ビットストリームは CBRおよび VBRの両方であり得る。

ND生成器 1320の目的は、様々なネットワークデバイス条件をシミュレートし、これらの条件に従って、自動的にで元のコンテンツ 1301の変化 Z 要約 1308を生成することである。これを行っている間、システムはまた、対応の記述方式 1309を例示する。記述方式（例えば、 Variat ion D Sおよび S umma r yD S) のフィールドは変化ビットストリーム 130

8およびそれを操作するための方法のプロパティで満たされる必要があるため

、 CNDマネージャは、この情報を D Sインスタンシェ一夕 1350に渡さなければならない。変化が例示された後、例えば、上記のようにリアルタイムトランスコーダ 300によって、対応の記述方式はアクセスされ、用いられ得る [レート一品質関数： Rate-Quality functions]

図 1 5に示すように、システム 1 3 0 0によって作成される変化および/要約 1 3 0 8は、最適レート—品質関数 1 4 0 1上でのボイント V ( 1 ) 、 . . . 、 V ( 5 ) のサブ集合である。図 1 5において、ポイントの限定数が示される。これらのポイントは、特定の変化に対する最適動作ポイントを示す。各変化は、関連の例示された記述方式（D S ) 1 3 0 9を有する。変化ビットストリーム 1 3 0 8および例示された記述方式 1 3 0 9は共に、元の画像ストリーム 1 3 0 1と共に、データベース 1 3 6 0内に格納される。

典型的な応用では、システム 1 3 0 0のセレクタ 1 3 7 0は、特定の画像プログラムに対するリクエストを受信する。これに応答して、セレクタは、デ一夕ペース 1 3 6 0内に格納された利用可能な変化および関連の D Sに関する情報を提供する。トランスコーダ 3 0 0の C NDマネージャは、この予めトランスコード化されたデ一夕を利用する。高レベルメタデータによって、トランスコーダは、リクエストされた画像の特定の変化と、現在のリアルタイムネットワークおよびデバイスの制約とを関連づけることができる。適切な一致が見出されると、 C N Dマネージャは、特定の変化がセレクタによってネットワーク 3 5 0にわたつて送信されることを要求する。適切な一致が見出されると、トランスコーダ 3 4 0はバイパスモードで動作することができる。近接な一致が見出されると、トランスコーダ 3 4 0はさらに効率的に動作し得る。

これは、実際の応用例のほんの 1つに過ぎない。すでに操作されたビットストリ一ム 1 3 0 8をさらに操作および変更し、現在のネットワークおよびデバイス制約との適合を増加させることも可能である。これは、非常に広範囲な条件をカバ一する多数の予めトランスコード化されたビットストリームの生成、対、最も一般的な条件のいくらかをカバーする少数の予めトランスコ一ド化されたビヅトストリームの生成の問題となる。異なるレベルの品質は、各ァプローチから予測できる。なぜなら、緩和された時間制約下での配信システム 1 3

0 0によるトランスコーディングは、一般に、より良好な品質の画像となるからである。

この発明を好ましい実施の形態の実施例により記載したが、他の様々な適応および改変は、この発明の精神および範囲内であり得ることを理解されたい。従って、添付の請求の範囲の目的は、このような変更および改変のすべてをこの発明の真の精神および範囲内でカバ一することである。

Claims

請求の範囲

1 . 圧縮画像をトランスコード化するための装置であって、

ネットワークの複数の制約およびユーザデノィスの制約をシミュレートするように構成された生成器と、

入力圧縮画像および前記複数の制約を受信するように接続され、前記入力圧縮画像の特徴からコンテンヅ情報を生成するように構成された分類器と、前記分類器および前記生成器に接続され、前記制約およびコンテンッ情報に応じて、複数の変換モードを生成するように構成されたマネージャと、前記分類器および前記マネージャに接続され、前記複数の変換モードのそれそれに対して 1つずつ複数の出力圧縮画像を生成するように構成されたトランスコーダと

を備えた装置。

2 . 前記圧縮画像のコンテンツは、視覚データ、音声デ一夕、テキストデータ、自然デ一夕、合成データ、基本データ、複合データ、およびその組み合わせからなる群から選択される請求項 1に記載の装置。

3 . 前記入力圧縮画像および前記複数の出力圧縮画像を格納するためのデータベースをさらに備えた請求項 1に記載の装置。

4 . 前記マネージャに接続され、前記複数の出力圧縮画像のそれぞれに対して記述子方式を生成するように構成されたィンスタシェ一夕をさらに備えた請求項 1に記載の装置。

5 . 前記ネットワークおよび前記データベースに接続され、リクエストに応答して、前記出力圧縮画像の特定の 1つを選択するように構成されたセレクタをさらに備えた請求項 1に記載の装置。

6 . 前記複数の出力圧縮画像は、 C B Rビットストリームおよび V B R ビットストリームを含む請求項 1に記載の装置。

7 . 前記圧縮された画像を複数の階層レベルに仕切る手段と、前記複数の階層レベルのそれぞれから特徴を抽出するように構成された特徴抽出器と

をさらに備え、前記特徴が前記記述子方式のそれぞれと組み合わせられる請求項 4に記載の装置。

8 . 圧縮画像をトランスコード化するための方法であって、

ネットワークの複数の制約およびユーザデノ、'イスの制約をシミュレートするステップと、

入力圧縮画像の特徴からコンテンヅ情報を生成するステツプと、

前記制約およびコンテンツ情報に応じて、複数の変換モードを生成するステップと、

前記複数の変換モードのそれぞれに対して出力圧縮画像を生成するステップとを含む方法。