WO2001091467A1

WO2001091467A1 - Method and device for encoding image

Info

Publication number: WO2001091467A1
Application number: PCT/JP2001/001828
Authority: WO
Inventors: Anthony Vetro; Huifang Sun
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2000-05-26
Filing date: 2001-03-08
Publication date: 2001-11-29
Also published as: EP1289301A1; US6650705B1; JP4786114B2; CN1386376A; EP1289301A4; CN1199467C; EP1289301B1

Description

明細書映像をコード化するための方法及び装置技術分野

この発明は、一般に、多重映像オブジェクトを符号化およびトランスコード化することに関し、特に、可変時間解像度を用いた多重映像オブジェクトの符号化およびトランスコード化を制御するシステムに関するものである。背景技術

近年、符号化された情報を通信するための多数の基準が開発されてきた。映像シーケンスについては、最も広範囲に用いられている基準として、 M P E G— 1 (動画の格納および取り出し用）、 M P E G— 2 (デジタルテレビ用）、および H . 2 6 3が挙げられる。『ISO/IEC JTC1 CD 11172、MPEG、「Information Tecnnology- Coding oi Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s-Part2:Coding of Moving Pictures Informationj 1 9 9 1年、 LeGall、「MPEG:A Video Compression Standard for Multimedia Applicationsj Communications of the ACM、 3 4卷 4号、 4 6 から 5 8頁、 1 9 9 1年、 ISO/IEC DIS 13818-2、 MPEG-2、「Information Technology- Generic Coding of Moving Pictures and Associated Audio

Information-Part2:Videoj 1 9 9 4年、 ITU-T SGXV、 DRAFT H.263、「Video Coding for Low Bitrate Communicationj 1 9 9 6年、 ITU-T SGXVI、

DRAFT13 H.263+Q15-A-60rev.O, 「 Video Coding for Low Bitrate

Communicationj 1 9 9 7年』を参照のこと。これらの基準は、映像シーケンスの空間および時間圧縮を主として取り扱う比較的低レベルの規格である。共通の特徴として、これらの基準は、フレーム毎の圧縮を行う。これらの基準を用いることによって、広範囲な応用に対して高圧縮比を成し遂げることができる。 M P E G— 4 (マルチメディア応用）などの新しい映像コーディング基準（「丄 niormation Technology Generic coding of auctio/visual objectsj ISO/IEC

FDIS 14496-2 (MPEG4 Visual) 、 1 9 9 8年 1 1月を参照）では、任意の形状のオブジェクトを別個の映像オブジェクト面（V O P ) として符号化および復号化することが可能である。オブジェクトは、視覚、音声、自然、合成、プリミティブ、複合、またはその組み合わせであり得る。映像オブジェクトは、複合ォブジェクトまたは「シーン」を形成するように構成される。新しく浮上しつつある M P E G— 4基準は、自然および合成材料が統合され、アクセスが普遍的である、イン夕ラクティブ映像などのマルチメディア応用を可能にすることを意図している。 M P E G— 4は、コンテンツに基づいた相互作用を考慮している。例えば、 1つの映像から他の映像に動く人物またはオブジェクトを「切貼り」したい場合がある。このタイプの応用では、マルチメディアコンテンヅにおけるオブジェクトは、何らかのタイプのセグメンテ一シヨンプロセスを用いて識別されていると想定される。例えば、リン（Lin) らによって 1 9 9 9年 6月 4日に提出された米国特許出願第 0 9 Z 3 2 6 , 7 5 0号、「Method tor Ordering Image Spaces to Search lor Object Surtaces」を参,照のこと。映像送信では、これらの圧縮基準は、ネットワークによって必要とされる帯域幅（利用可能なビットレート）の量を低減するために必要である。ネットワークは、無線チャネルまたはインタ一ネットを表し得る。いずれにせよ、ネットヮ一クは、コンテンツを送信する必要があるときにリソースが分解されなければならないため、容量およびコンテンションが限定される。長年にわたって、デバイスが映像コンテンツを安定して送信し、コンテンツの品質を利用可能なネットワークリソースに適用することを可能にするァ一キテクチヤおよびプロセスに多大な努力が払われてきた。コーディング時間毎のビット' 数を割り付けるためにレート制御が用いられる。レート制御は、符号化器によつて生成されるビヅトストリームがバッファ制約を満足することを確実にする。レート制御プロセスは、符号化された信号の品質を最大にすることを試みると共に、一定のビットレートを提供する。 M P E G— 2などのフレームに基づいた符号化については、 1 9 9 8年 1 2月 8日付けでゥズ（Uz) らに発行された米国特 S午第 5 , 8 4 7 , 7 6 1号「Method for performing rate control in a video encoder which, provides a bit budget for each frame while employing virtual buffers and virtual buffer verifiersj を参照のこと。 M P E G— 4などのォブジェクトに基づいた符号化については、 1 9 9 9年 1 0月 1 9日付けでサン（Sun ) およびべト口（Vetro) に発行された米国特許第 5 , 9 6 9 , 7 6 4号「

Adaptive video coding methodj を参照、のこと。コンテンヅがすでに符号化されている場合、ストリームが、例えば、利用可能なビットレートの減少に対処するためにネヅトワークを通して送信される前に、すでに圧縮されたビットストリームをさらに変換する必要がある場合もある。ビヅトストリーム変換または「トランスコーディング」は、ビットレ一ト変換、解像度変換、およびシンタックス変換に分類することができる。ビットレート変換には、一定のビットレ一ト（C B R ) と可変ビットレート（V B R ) との間のビヅトレ一トスケーリングおよび変換が含まれる。ビヅトレートスケ一リングの基本的な機能は、入力ビヅトストリームを受け、受信機の新しい負荷制約に合致するスケーリングされた出力ビヅトストリームを生成することである。ビヅトストリームスケ一ラは、ソースビヅトストリームと受信負荷とを一致させるトランスコーダ、またはフィル夕である。図 7に示すように、通常、スケーリングは、トランスコーダ 1 0 0によって成し遂げられ得る。力ずくの場合、トランスコーダは、復号化器 1 1 0および符号化器 1 2 0を有する。圧縮された入力ビヅトストリーム 1 0 1は、入力レート R i nで完全に復号化され、新しい出力レート R o u t 1 0 2で符号化され、出力ビットストリーム 1 0 3を生成する。通常、出力レートは入カレ一卜よりも低い

。しかし、実際には、復号化されたビットストリームを符号化するのは非常に複雑であるため、トランスコーダにおける完全な復号化および完全な符号化は行われず、その代わりに圧縮されたまたは部分的に復号化されたビットストリームに対してトランスコ一ディングが行われる。

M P E G— 2に対する初期の研究は、「 Architectures for MPEG compressed bitstream scalingj 、 IEEE Transactions on Circuits and Systems for Video Technology, 1 9 9 6年 4月においてサン（Sun) らによって公開されている。この文献では、複雑さおよびアーキテクチャを変化させた 4つのレート低減方法が示されている。図 8は、例示的な方法を示している。このアーキテクチャでは、映像ビヅトストリームは単に部分的に復号化されている。具体的には、入力ビットストリーム 2 0 1のマクロブロックは、可変長復号化（V L D ) 2 1 0される。入力ビヅトストリームはまた、遅延 2 2 0され、逆量子化（I Q ) 2 3 0され、離散コサイン変換（D C T ) 係数を生成する。所望の出力ビットレートが与えられると、部分的に復号化されたデ一夕は分析 2 4 0され、新しい量子化器のセットは符号 2 5 0で D C Tマクロブロックに適用される。これらの再量子化されたマクロブロヅクは、次に、可変長コード化（V L C ) 2 6 0され、より低いレートの新しい出力ビットストリーム 2 0 3が形成され得る。この方式は図 7に示す方式よりもはるかに簡単である。なぜなら、運動ベクトルが再使用され、逆 D C T操作の必要がないからである。ァサンカオ（Assuncao) らのさらに最近の研究では、「A frequency domain video transcoder lor dynamic bit-rate reduction of MPEG-2 bitstreamsj IEEE Transactions on Circuits and Systems for Video Technology、 9 5 3から

9 5 7頁、 1 9 9 8年 1 2月において、同じタスクに対する簡略化されたァーキテクチヤについて記載している。ァサンカオ（Assuncao) らは、ドリフト補償のために周波数ドメインにおいて動作するモーション補償（M C ) ループを用いている。近似マトリクスは、周波数ドメイン内の M Cマクロブロックの迅速な計算のために得られる。ラグランジュ最適化は、トランスコーディングのための最良の量子化器スケールを計算するために用いられる。ソリアル（Sorial) らの他の研究、「 Joint transcoding of multiple MPEG video bitstreams」Proceedings of the International Symposium on Circuits and Systems, 1999年 5月は、多重 MPEG— 2ビヅトストリームを共同でトランスコードする方法を示している。ペトロ（Vetro) らによって 1999年 10月 1日付けで提出された米国特許出願第 09/410,552号「

Estimating Rate-Distortion Characteristics oi Binary Shape Dataj も参照のこと。従来の圧縮基準によると、テクスチャ情報を符号化するために割り付けられるビットの数は、量子化パラメ一夕（QP) によって制御される。上記の文献も同様である。元のビットストリームに含まれる情報に基づいて QPを変更することによって、テクスチャビットのレートは低減される。効率的な実施のために、情報は、通常、圧縮されたドメイン内で直接抽出され、マクロブロックの運動または D CTマクロブロックの残留エネルギーに関連する測度を含み得る。このタイプの分析は、図 8のビット割り付け分析器 240において見出すことができる。上記の従来のトランスコ一ディング法に加えて、新しいトランスコーディング法がいくつか記載されている。例えば、 2000年 2月 14日にベトロ（Vetro ) らによって提出された米国特許出願第 09/504,323号「Object-Based Bitstream Transcoderj を参照のこと。この文献では、従来のトランスコーディングシステムの制限を克服する情報搬送システムについて記載されている。従来のシステムは、低減可能なレートの量においていくぶんか拘束される。従来のシステムはまた、全体的な知覚品質を考慮せず、むしろ、 PSNRなどの客観的測度が支配していた。ベトロ（Vetro) らによって記載されているシステムでは、変換はより柔軟で、品質の測定は、従来のビット毎の相違から逸脱している。ベトロ（Vetro) は、非常に特有な方法で映像コンテンツをまとめている。ォブジェクトに基づいたフレーム構造内で、個々の映像オブジェクトは異なる品質でトランスコードされる。品質の相違は、空間品質または時間解像度（品質）のいずれかに関連し得る。時間解像度がシーン内のオブジェクト間で変化する場合、すべてのオブジェク卜が互いに何らかのタイプの時間同期を維持することが重要である。時間同期が維持されると、受信機は、再構築されたシーン内のすべての画素が規定されるようにォブジェクトを構成し得る。シーン内で規定されていない画素は、背景および前景ォブジェクトから生じ得る。あるいは、重複するオブジェクトは、異なる時間解像度でサンプリングされ、再構成されたシーン内で「ホール（h o 1 e s ) 」が現れる。従って、符号化またはトランスコーディング中の多重ォプジェクトの時間解像度を変化させる場合、同期が維持されることは重要であった。この点をさらに例示するために、比較的静止した背景オブジェクト（例えば、空白の壁）および動いている人などのさらに活動的な前景オブジェク卜があるシ —ンについて考えよう。背景は、比較的低い時間解像度（例えば、 1秒当たり 1 0フレーム）で符号化され得る。前景オブジェクトは、 1秒当たり 3 0フレームのより高い時間解像度で符号化される。これは、前景オブジェクトがあまり動かない限り良好である。しかし、万一前景オブジェクトが背景に対して動くと、「ホール」が背景の部分に現れ、前景オブジェクトによって塞ぐことはできない。本発明の目的は、上記の問題を解決し、可変時間解像度を用いて多重オブジェクトの符号化およびトランスコ一ディングを可能にすることである。 MPE G基準委員会によつて行われている最近の基準化に向けての取り組みは、正式には「Multimedia Content Description Interfacej と呼ばれる MP EG 一 7である。「MPEG-7 Context；、 Objectives and Tec inical Roadmapj 、 ISO/IEC N2861, 1999年 7月を参照のこと。実質的には、この基準は、様々なタイプのマルチメディアコンテンツを記述するために用いられ得る記述子のセットおよび記述方式を導入することを計画している。記述子および記述方式は、コンテンヅ自体と関連し、特定のュ一ザに関心のあるマテリアルの迅速かつ効率的な検索を考慮する。この基準は、以前のコーディング基準に置き換わるものではなく、むしろ、他の基準表現（特に、 MPEG— 4) の上に構築されることに留意することが重要である。これは、マルチメディアコンテンツが異なるォブジヱク卜に分解され、各ォプジヱクトには特有の記述子のセットが割り当てられるからである。また、この基準は、コンテンヅが保存される形式とは独立している

MPEG- 7の主な応用は、検索および取得の応用であることが期待される。「MPEG-7 Applicationsj ISO/IEC N2861、 1999年 7月を参照のこと。簡単な応用では、ュ一ザは特定オブジェクトのいくつかの属性を指定する。この低レベルの表現では、これらの属性は、特定オブジェクトのテクスチャ、モ一シヨン、および形状を記述する記述子を含み得る。形状を表現し、比較する方法は、リン（Lin) らによって 1999年 6月 4日付けで提出された米国特許出願第 09 / 326, 759号「Method for Ordering Image Spaces to Represent Object Shapes」に記載され、モーションアクティビティを記述する方法は、デバカラン（Divakaran) らによって 1999年 9月 27日付けで提出された米国特許出願第 09/406，444号（"Activity Descriptor for Video Sequencesj に記載されている。より高いレベルの表現を得るためには、いくつかの低レベルの記述子を組み合わせるさらに複雑な記述方式を考慮することができる。事実、これらの記述方式は、他の記述方式を含み得る。「MPEG-7 Multimedia Description Schemes WD(V1.0)」 ISO/IEC N3113、 1999年 12月およびリン（Lin) らによって 1999年 8月 30日付けで提出された米国特許出願第 09 385, 1 6 9号「Method for representing and comparing multimedia contentj を参照のこと。これらの記述子および記述方式によって、ユーザは、符号化器またはトランスコーダによって従来では得られなかった映像コンテンヅの特性にアクセスすることができる。例えば、これらの特性は、トランスコーダがアクセスできないと想定されていたルックァへッド倩報を表し得る。符号化器またはトランスコーダがこれらの特性にアクセスするのは、これらの特性が初期にコンテンツから得られる、即ち、コンテンツが予め処理され、関連するメ夕デ一夕を有するデ一夕べ一スに格納される場合だけである。情報自体は、シンタックスまたはセマンティックスのいずれかであり得る。シンタックス情報とは、コンテンヅの物理的および論理的信号局面を指し、セマンティヅクス情報とは、コンテンツの概念的な意味を指す。映像シーケンスについては、シンタックス要素は、特定オブジェクトの色、形状、およびモーションに関連し得る。他方、セマンティックス要素は、事象の時間および場所、映像シーケンス内の人名などの、低レベル記述子から抽出することができない情報を指し得る。可変時間解像度を有するシーンにおける映像オブジェクトのためのオブジェクトに基づいた符号化器またはトランスコーダにおける同期を維持することが望まれる。さらに、このような変化は、映像コンテンツメ夕デ一夕を用いて識別されることが望まれる。発明の開示

本発明は、映像のコーディング装置および方法を提供する。本発明によるコ一デイングは、符号化器または卜ランスコーダによって成し遂げられ得る。映像は、まず、映像オブジェクトに分割される。符号化器の場合、この分割は、セグメンテ一シヨン面を用いて行われ、トランスコーダの場合にはデマルチプレクサが用いられる。経時的に、形状特徴は、各オブジェクトから抽出される。形状特徴は、各オブジェクトの形状が絰時的にどのように展開するかを測定することによつて得ることができる。ハミングまたはハウスドルフ距離測定が用いられ得る。抽出された形状特徴はレートまたはトランスコ一ダ制御ュニットで組み合わされ、各ォブジェクトに対して経時的に時間解像度が決定される。時間解像度は、様々な映像オブジェクトを符号化するために用いられる。必要に応じて、モ一ション特徴およびコ一ディング複雑さはまた、時間解像度決定におけるトレードオフを行うと共に考慮され得る。映像が圧縮されていないデ一夕である場合、分割、組み合わせ、およびコーデイングは符号化器において行われる。圧縮された映像については、デマルチプレクシング、組み合わせ、およびコーディングがトランスコーダにおいて行われる。後者の場合、圧縮映像におけるオブジェクトの境界ブロックは、形状特徴を抽出するために用いられる。本発明の 1つの態様では、異なるオブジェクトは、異なる時間解像度またはフレームレートを有し得る。図面の簡単な説明

図 1は、 2つの映像オブジェクトら再構築されたシーンのブロック図、図 2は、異なる時間解像度を有する 2つの映像オブジェクトから再構築されたシーンのブロヅク図、

図 3は、本発明による符号化器のプロック図、

図 4は、本発明によるトランスコーダのブロック図、

図 5は、本発明による符号化法のフロ一チャート、

図 6は、図 5の方法によって用いられる例示的な符号化法のフローチャート、図 7は、従来のトランスコーダのブロック図、

図 8は、従来の部分復号化器/符号化器のプロック図である。発明を実施するための最良の形態

可変時間解像度符号化およびトランスコーディングに関する概説本発明は、シーンにおける多重映像オブジェクトを符号化およびトランスコーディングしながら時間解像度を制御するための方法および装置を提供する。時間解像度コントローラは、可変時間解像度および異なる時間解像度を有するォプジェクトの符号化、トランスコーディング、および再構築を可能にする。オブジェクトに基づいたコ一ディング方式の主な利点の 1つは、オブジェクトの空間および時間解像度の両方が独立して変化し得ることである。人間の顔などのさらに興味深いォブジェクトにより高い空間品質を提供することが望まれる。同じことは時間解像度にも当てはまる。しかし、時間解像度では、重大な微妙さが存在する。即ち、シーン内でのオブジェクト間の同期は、再構築されたシーン内のすべての画素が規定されるように維持されなければならない。圧縮映像の映像再構築が大部分の映像基準 (M P E G - 1 / 2 /4 ) の規範部分によって規定され、従来の復号化器によって処理されることに留意されたい。従って、復号化器については、本明細書には記載しない。本明細書に記載する方法および装置は、オブジェクトに基づいた符号化およびトランスコーディングシステム、ならびに非リアルタイムおよびリアルタイム応用に適用可能である。入力映像は、符号化中には圧縮されず、トランスコ一ディング中には圧縮される。出力映像は、符号化中およびトランスコーディング中に圧縮される。本明細書で記載する機構および手法は、従来のデバイスのァ一キテクチャにシ一ムレスに統合され得る。

図 1は、 2つの映像オブジェクト、即ち、前景オブジェクト 3 0 1および背景オブジェクト 3 0 2に分割されたシーン 3 0 3を示す。シーンは、 2つのォブジェクトを組み合わせることによって再構築され得る。この簡単な例では、前景ォブジェクトは、動く人であり、背景オブジェクトは、静止した壁である。前景および背景オブジェクトの画素は、初期のフレームにおいて、シーン内のすべての画素を規定することに留意されたい。これらの 2つのオブジェクトが同じ時間解像度で符号化され場合、受信機内での画像再構築中にはォブジェクト構成には問題はない。再構築されたシーン 3 0 3内の画素はすべて規定されている。しかし、オブジェク卜が異なる時間解像度で符号化される場合に問題が生じる。例えば、背景は 1 5 H zのフレームレートで符号化され、前景は、第 1のレートの 2倍の 3 0 H zのフレームレートで符号化される。一般に、 2つのオブジェクトは、独立したモーションを有し、それぞれに関連する画素は各フレームにおいて変化する。さらに、前景オブジェクトはまた比較的静止し得るが、背景ォプジェク卜よりも高い内部モーションを有することに留意されたい。例えば、前景はテクスチャが豊富であり、動く目、唇、および他の動く顔の特徴部を有するのに対して、背景は空白の壁である。従って、背景よりも前景をより高い空間および時間解像度で符号化することが望まれる。本実施例では、図 2のシーケンスに示すように、前景オブジェクトは、背景に対して動いている。シーケンス 4 0 1から 4 0 3では、時間は左から右へと経過する。ここで、シーケンス 4 0 1は、比較的低い時間解像度で符号化された背景オブジェクトであり、シーケンス 4 0 2は、比較的高い解像度で符号化された前景オブジェクトであり、シーケンス 4 0 3は、再構築されたシーンである。シ一ケンス 4 0 3には、 1つ置きのフレームにホール 4 0 4が生じる。これらのホールは、隣接したオブジェクトまたは重複したオブジェクトを更新しない場合に、 1つのオブジェクトの移動によって発生する。ホールは、いずれのオブジェクトとも関連し得ないシーンのカバ一されていない領域であり、画素は規定されていない。ホールはオブジェクトが（例えば、フレーム置きに）再同期されると消える。形状歪みメトリクス本発明によるォブジヱク卜の時間解像度についての決定を制御および行うための方法および装置は、シーンにおける形状変化（歪み）量を示す。本明細書では

、この目的のために抽出され得る多数の形状特徴について記載する。例えば、 1 つの形状特徴は、絰時的なオブジェクトの形状差を測定する。様々なォブジェクトの形状特徴が抽出および比較された後、符号化器は、符号化またはトランスコ —ディング中に各オブジェク卜に対して用いられる時間解像度の量を決定し得る

各オブジェクトについての形状差は、経時的に測定される。形状差は、ォブジェクト間の時間解像度における変動量と逆比例する。固定時間量では、小さな差は、より大きな変動を示すのに対して、大きな差は、より小さな変動を示す。ォブジェクトが再同期される間の持続時間がより大きくなれば、保存されているビットは、より良好な品質を必要とするオブジェク卜に割り付けられ得る。時間メトリクスオブジェクトを最適に合成する方法は以下のように動作する。映像を定期的にサンプリングし、各ォブジェクトの形状間の差を経時的に見出す。オブジェクトの形状差が経時的に小さい場合には、差を測定するためのサンプリング期間を増加させる。差が所定の閾値 Dよりも大きくなるまでサンプリング期間を増加し続ける。この時点で、フレームを出力して、その差を有する映像オブジェクトを再同期させるか、またはオブジェクトが合成されるべき新しい周波数を決定する。周波数は、同期フレーム間の平均、最小、または中間時間間隔に基づき得る。この周波数は、様々な映像ォブジェク卜のそれぞれに対する最適な時間レ一トを决定するために用いられ得る。差に基づいた形状特徴簡単のため、 2つのシーンのみの間、即ち、 1つのフレームから次のフレームへの形状特徴における差を考える。しかし、このような形状特徴はまた、様々なキューレペルでのシーンに関連し得る。キューレペルは、 2 0 0 0年 4月 1 1日付けでベトロ（Vetro) らによって提出された、米国特許出願第 0 9 / 5 4 6，7 1 7号、「Adap table Bitstream Video Delivery Systemj において定義されている。この文献を本願では参照することで援用する。形状特徴が抽出されるキューレペルによって、時間コントローラは、シーン内のオブジェク卜の時間解像度を成し遂げるための様々な方法を提供し得る。これらの方法は、符号化器およびトランスコーダの両方に適用可能である。ハミング距離本願で考慮する第 1の差は、周知のハミング距離である。ハミング距離は、 2 つの形状間の差である画素数を測定する。まず、バイナリ形状、即ち、セグメンテーシヨン（アルファ一ひ）値が単にゼロまたは 1であり得る場合について考える。ここで、ゼロはセグメンテーション面における透明画素を指し、 1はセグメンテ一シヨン面における不透明画素を指す。この場合、ハミング距離 dは、以下の式で定義され、

ここで、ひ i (m, n) および α ₂ (m, n) は、異なる時間における対応するセグメンテ一シヨン面である。ハウスドルフ距離他の広範囲に用いられている形状差測定は、ハウスドルフ距離である。ハウスドルフ距離は、 2つの画素セット間の最大関数として定義される。

h (A , B ) =m a x {m i n { d ( a , b ) } }

ここで、 aおよび bは、 2つの映像オブジェクトのセット Aおよび Bのそれぞれの画素であり、 d (a, b) は、これらの画素間のユークリッド距離である。上記のメトリヅクは、セヅト Bにおける最近似画素までのセット Aにおける画素の最大距離を示す。なぜなら、このメトリックは対称ではないからである。即ち、 h (A, B) は、 h (B, A) とは等しくなく、より一般的な定義は、以下の式によって表される。

H (A, B) =max {h (A, B) , h (B, A) } これらの差の測定は、画素一ドメイン内で計算されるとき最も正確であるが、圧縮ドメインからの近似デ一夕もまた上記の計算において用いられ得ることに留意されたい。画素一ドメインデ一夕は、符号化器において容易に得られるが、トランスコーダについては、形状デ一夕を復号化することは計算上実現できない。その代わりに、デ一夕は何らかの計算上効率的な方法で近似され得る。マクロプロヅクに基づいた形状特徴例えば、 MPEG— 4において、形状は、様々に異なるモ一ドでコード化され、マクロブロックレベルで行われる。例えば、モ一ド内では、形状マクロプロヅクは、不透明マクロプロック、透明マクロブロック、または境界マクロブロックとしてコード化される。言うまでもなく、境界ブロックは、オブジェクトの形状を規定する。これらのコーディングモードは、バイナリ形状のマクロブロックレベルシルエットを再構築するために用いられ得る。言うまでもなく、画素レベルのメトリックほどは正確ではないが、複雑さの観点では全く実現可能である。符号化器の構造図 3は、本発明によるオブジェク卜に基づいた符号化器 500を示す。符号化器は、スィツチ 510、形状コーダ 520、モーション推定器 530、モ一ション補償器 540、モーションコーダ 550、テクスチャコーダ 560、 VOPメモリ 570、マルチプレクサ（MUX) 580、出力バッファ 590、およびメ夕デ一夕格納ユニット 591を有する。符号化器はまた、 QPテクスチャ分析器、時間分析器、形状分析器、及びメ夕デ一夕分析器 593〜596を行うためのレート制御ユニット（RCU) 592を有する。符号化器 500への入力はォプジェクトに基づいた映像（入力） 501である。映像は、画像シーケンスデータ、及び各映像オブジェクトの境界（形状）を規定するセグメンテーション（アルファ）面で構成される。符号化器の動作形状コーダ 520は、各ォブジェクトの形状を処理し、形状コ一ディングの結果を MUX 580およびバッファ 590を介して出力ビヅトストリーム（出力） 509に書き込む。形状データはまた、モーション推定器 530、モ一シヨン補償器 540、およびテクスチャコーダ 560に対しても用いられ得る。特に形状デ一夕は、各オブジェクトについての形状特徴を抽出するために用いられる。ォブジェクト、ならびに関連する形状およびモーション特徴は、 0卩メモリ 57 0に格納される。モーション推定器 530では、モーションべクトルが各マクロプロックについて決定される。モーションベクトルはまたコード化され、 MUXおよびバッファを介して出力ビットストリームに書き込まれる。モーション推定から得られるモーシヨンべクトルを用いて、モーションが補償された予測は VOPメモリ 570 に格納されている映像オブジェクトデータから形成される。この予測は、入カオブジェクトから減算 541され、残留マクロプロックのセヅトを生成する。これらの残留マクロブロックは、テクスチャコーダ 560にかけられ、対応するデ一夕は出力ビットストリームに書き込まれる。テクスチャコーディングは、 RCU によって提供される QP制御信号に従う。

RCU 592の量子化パラメ一夕（QP) は、各映像オブジェクトに対して適切な量子化パラメ一夕 QPを選択することに関与する。これは、モデルを用いて、割り当てられたレートバジェヅトに従って対応する量子化パラメ一夕 Q Pを推定することによって行われる。時間分析を以下に詳細に記載する。簡単に言うと、時間分析は、コーディングおよびトランスコーディング中に各オブジェクトの時間解像度を制御することに関与する。従来技術では、図 8を参照しながら上述したように、構成問題を避けるために、すべての映像オブジェクトの時間解像度は同一である。従って、従来技術では、様々なォブジェクトについての時間解像度は独立して考慮されていなかった。また従来技術では、時間分析は、出力バッファがオーバフローの危険がある場合にすベての映像オブジェクトをスキップするための信号を提供していた。本発明は、さらに良好な解決法を提供する。例えば、比較的静止しているオブジェクトは、より速い動くオブジェクトよりも遅いフレームレ一トで符号化され、ビットレート全体を低減し得る。本発明では、可変時間品質を考慮する。本発明では、可変時間解像度を用いて映像オブジェクトの符号化およびトランスコ一ディングを可能にする。形状分析 5 9 5は、時間分析によって用いられる形状特徴を抽出し、可変時間解像度が問題を生じずに成し遂げられ得るかどうか、即ち、様々なオブジェクトの時間符号化レートが異なる場合でもホールを避けることができるかどうかを決定することに関与する。形状分析は、リアルタイム符号化モードにおいて作用し得る。ここで、データは、 V O Pメモリ 5 7 0から取得される。しかし、符号化器がまた形状特徴（即ち、すでに存在するコンテンヅの記述）に関連するメ夕デ一夕格納ュニット 5 9 1からメ夕デ一夕を受信する場合、このようなメ夕デ一夕は、 V O Pメモリ 5 7 0からの形状デ一夕の代わりに、または形状デ一夕と共に用いられ得る。メ夕デ一夕は、メ夕デ一夕分析によって扱われ、形状分析と同様に、メ夕デ一夕は、各映像オブジェクトに対する最適な時間解像度を決定する際の時間分析を助ける。トランスコーダの構造図 4は、本発明の他の実施の形態によるォブジェクトに基づいたトランスコ一ダ 600の高レベルブロック図を示す。ここで、入力映像はすでに圧縮されている。トランスコーダ 600は、デマルチプレクサ（DE— MUX) 601、マルチプレクサ（MUX) 602、および出力バッファ 603を有する。トランスコ —ダ 600はまた、制御情報 604に従ってトランスコ一ディング制御ュニヅト (TCU) 610によって作動される 1つまたはそれ以上のオブジェクトに基づいたトランスコーダ 630を有する。ユニット TCUは、形状分析器、 QOテクスチヤ分析器、時間分析器、およびメ夕デ一夕分析器 611〜614を有する。圧縮された入力ビヅトストリーム 605は、デマルチプレクサによって 1つまたはそれ以上のォプジヱクトに基づいた基本ビヅトストリームに分割される。ォブジェクトに基づいたビットストリームは、直列または並列であり得る。ビットストリーム 605の全ビヅト一レートは R_inである。トランスコーダ 600からの圧縮された出力ビットストリーム 606は全ビヅトレ一卜 R。_utを有し、 R 。ut<Rinである。デマルチプレクサ 601は、オブジェクトに基づいたトランスコーダ 630のそれぞれに 1つまたはそれ以上の基本ピヅトストリームを提供し、オブジェクトに基づいたトランスコーダは、オブジェクトデ一夕 607を T CU610に与える。トランスコーダは、基本ビットストリームをスケーリングする。スケーリングされたビヅトストリームは、出力バッファ 603に渡される前にマルチプレクサ 602によって構成され、そこから受信機に渡される。出力バッファ 603はまた、レートフィードバヅク情報 608を TCUに与える。上記のように、トランスコーダのそれぞれに渡される制御情報 604は、 TC

Uによって提供される。図 4に示すように、 TCUは、形状データおよびテクスチヤの分析 611、 612に関与する。分析中、 TCUはまたネットワークデ一夕 6 0 9を用いることができる。 T C Uはまた、メ夕デ一夕分析 6 1 4を行う。時間品質の分析によって、可変時間解像度を用いたトランスコ一ディングが可能になる。符号化/トランスコ一ディング方法図 5は、本発明による映像入力 7 0 1を符号化およびトランスコード化するための方法 7 0 0のステップを示す。この方法で用いられる映像入力 7 0 1は、符号化器 5 0 0の場合には、圧縮されていない映像であり、トランスコーダ 6 0 0 の場合には、圧縮された映像である。ステップ 7 1 0において、映像入力 7 0 1 はォブジェクト 7 1 1に分割される。ステップ 7 2 0において、各ォブジェクトから形状特徴 7 2 1が経時的に抽出される。形状抽出は、上記のように、距離またはマクロブロックに基づき得る。ステップ 7 3 0において、モ一シヨン特徴が経時的に各オブジェクトから選択的に抽出される。最適な時間解像度を決定するために抽出され、考慮され得る他の特徴には、コーディング複雑さ、例えば、空間複雑さ、 D C T複雑さ、テクスチャ複雑さなどが含まれる。ステヅプ 7 4 0では、抽出された特徴が組み合わせられ、ステップ 7 5 0において様々なオブジェクト 7 1 1を符号化またはトランスコード化している間に、用いられる時間解像度 7 4 1が決定される。例示的な符号化シナリオ図 6は、映像オブジェクトの展開形状を経時的に分析することに基づいた例示的な符号化シナリオをいくつか示す。ここでは、入力は、第 1および第 2の抽出されたオブジェクトシ一ケンス 8 0 1〜8 0 2である。グラフ 8 1 0および 8 2

0は、形状特徴、例えば、経時的（t ) な形状差（Δ ) をプロッ卜している。時間 t と ₂との間のォプジェクト形状は比較的一定していることに留意されたい。グラフ 8 1 1および 8 2 1は、経時的な各ォフジエクトの内部モーション特徴を選択的にプロヅトしている。第 1のォブジェクトは内部モーションが非常に少ないのに対して、第 2のォブジェクトの内部モーションは非常に高いことに留意されたい。結合器 850 (RCU592または TCU610) は、恐らく、最大、合計、比較、または他の組み合わせ関数を用いて抽出された特徴を考慮し、得られるビヅトを実際のコ一ディング中にどのようにして最良に様々なオブジェク卜にわたって分配するのかを決定する。シナリオ 831において、イン夕一バル [t t ₂] では第 1のォブジェクトは全くコード化されず、得られるすべてのビヅトは第 2のォブジェクトに割り付けられる。これは、時間 t および t₂において映像の品質が観察できるほど顕著に突然変化するという効果を有し得る。より良好なシナリオ 832では、ィン夕一バル [t^ 1₂] 中により低い時間解像度を用い得るか、またより良好には解像度は次第に減少し、その後次第に増加する。シナリオ 833では、時間ィン夕一バル [t ₀、 t J と [t ₂、 t _end] 中にさらに多くのビヅ卜が第 2のオブジェクトに割り付けられ、次いで、イン夕一バル [t^ t ₂] 中に第 2のオブジェク卜のより高い内部モーションを反映する。上記の新しい自由度はすべて、オブジェクトに基づいたトランスコ一ディングフレームワークをネットワーク応用に関して非常に特有かつ望ましいものにする。 MPEG— 2および H. 263コーディング基準のように、 MPEG— 4は、モーション補償および DC Tを用いて映像の空間—時間冗長を活用する。その結果、本発明のオブジェクトに基づいたトランスコーダの核心は、上記の MPEG 一 2トランスコーダの適応である。主な相違は、形状情報がビヅトストリーム内に含まれ、テクスチャコーディングに関しては、ブロック内についての D Cおよび ACを予測するためにヅ一ルが設けられていることである。テクスチャのトランスコ一ディングが実際には形状デ一夕に依存していることに留意することも重要である。換言すれば、形状データを単に解析し、無視することはできない。規格ビットストリームのシンタックスは、復号化形状デ一夕に依存する。明らかに、本発明のォブジェクトに基づいた入力および出力ビヅトストリーム

6 0 5、 6 0 6は、従来のフレームに基づいた映像プログラムとは全く異なる。また、 M P E G— 2は、動的なフレ一ムスキッピングを可能にしない。 M P E G - 2では、 G 0 P構造および基準フレームが通常固定されている。非リアルタイムシナリオの場合、コンテンツ 6 5 1および対応するコンテンツ記述子 6 5 2はデ一夕ペース 6 5 0に格納される。コンテンツ記述子は特徴抽出器 6 4 0から生成され、この特徴抽出器 6 4 0は、入力オブジェクトに基づいたビットストリーム 6 0 5を受け取る。コンテンヅを送信する時間になると、入力ビットストリームは、上記のように、デマルチプレクサ 6 0 1およびトランスコ —ダに与えられる。メ夕デ一夕は、 T C U内でメ夕デ一夕分析器 6 1 4に送信される。時間分析の機能性オブジェクトに基づいた符号化器またはトランスコーダにおける時間コント口ーラの主な目的は、図 2を参照しながら上述した構成問題を避けながら、受信機側での構成シーンの品質を最大にすることである。これらの制約下で品質を最大にするためには、信号内の時間冗長をできるだけ活用する必要がある。大部分の映像コ一ディング方式によると、モーション補償プロセスにおいて、時間冗長は除去される。しかし、すべてのコーディングユニットまたはマクロブロックに対してモーションべクトルを特定することは、実際に必要とされている以上のことであり得る。モーションベクトルに対するビットに加えて、モーション補償差の残りもコード化されなければならない。重要な点は、品質を最大にするために、すべてのオブジェクトを時間毎にコード化する必要はないことである。このように、これらの保存ビットは、異なる時間において、さらに他の重要なオブジェクトに用いられ得る。非リアルタイムシナリオでは、時間コントローラは、形状歪みメトリクスを用いて、シーン内の形状における移動量を示す。この測定は、米国特許出願第 0 9 / 5 4 6 , 7 1 7号に規定されているような様々なキューレペルでのシーンに関連し得る。この特徴（または測定）が抽出されるキューレベルに応じて、時間コントロ一ラは、シーン内のォプジヱクトの時間解像度に衝撃を与える様々な方法を提供し得る。これらの方法は、符号化器およびトランスコーダに適用可能である。リアルタイムシナリオでは、時間コントローラは同様に作用する。しかし、潜在制約のために観察は限定されているため、因果デ一夕のみ考慮される。従って、時間コーディング決定は、即座に行われる。上記のように、形状歪みメトリックの抽出は、画素または圧縮ドメインのいずれかにおいて行われ得る。歪み情報がどこから抽出されるかに関係なく、時間制御の決定プロセスには許容誤差が導入され得ることに留意されたい。換言すると、規定領域における利得がかなりのものである場合には、応用によっては、少量の規定されていない領域を許容し得るものもある。この場合、 [ 0 , 1 ] 間の重み付けが規定される。ここで、 0は、形状境界に動きがないことを意味し、 1は、形状境界が全く異なっていることを意味する。重み付けは、先に規定された形状歪みメトリクスの関数であり、百分率または正規化値に対応し得る。他方、構成問題を全く考慮しない応用では、この重み付けは、存在しない。むしろ、過剰重み付け（即ち、 0または 1 ) のみが有効である

ある許容可能な量の規定されていない画素が受信される状況では、簡単な処理後補間技術またはエラ一隠匿に基づいた他の技術を用いてこれらの画素を回収することが可能である。可変時間解像度符号化の効果および利点本発明による時間コントローラは以下の効果および利点を提供する。オブジェクトが可変時間解像度を用いて符号化またはトランスコード化され得る瞬間を決定する。固定された不均一なフレームレートを映像セグメントのォブジェクトに割り当てる。キーフレームを抽出または見出し、コンテンツの要約を可能にする。ビット割り付けを向上させるか、またはオブジェク卜の形状の変化が大きい映像の部分（フレーム）に対してビットを保存する。このようなフレームは、形状情報について必要とされるよりもさらにビットを要求する。テクスチャ情報の品質を維持するためにさらなるビットが必要とされ得る。上記実施の形態を例示することによって本発明を説明したが、言うまでもなく、様々な適応および改変は、本発明の精神および範囲内でなされ得る。従って、添付の請求の範囲の目的は、本発明の真の精神および範囲内にあるこのようなすベての変形および改変を網羅することである。

Claims

請求の範囲

1 . 映像をコード化するための方法であって、

前記映像を複数のオブジェクトに分割するステップと、

各オブジェク卜から形状特徴を経時的に抽出するステップと、

前記形状特徴を経時的に組み合わせて、各ォブジェクトについての時間解像度を経時的に決定するステップと、

前記オブジェクトの対応する時間解像度に応じて各ォブジェクトをコード化するステップと

を含む映像をコード化するための方法。

2 . 前記映像は、圧縮されていないデ一夕であり、

前記分割、組み合わせ、及びコード化は、符号化器において行われる請求項 1記載の映像をコ一ド化するための方法。

3 . 前記映像は、圧縮されたデ一夕であり、

前記分割、組み合わせ、及びコード化は、トランスコーダにおいて行われる請求項 1記載の映像をコ一ド化するための方法。

4 . 少なくとも 2つのオブジェクトは、異なる対応の時間解像度に従ってコード化される

請求項 1記載の映像をコ一ド化するための方法。

5 . 各オブジェクトの形状差を経時的に測定し、各オブジェク卜の形状特徴を抽出するステップ

をさらに含む請求項 1記載の映像をコード化するための方法。

6 . コード化されたオブジェクトの時間解像度は、前記コード化されたォブジェク卜に関連する形状差と比例する請求項 5記載の映像をコード化するための方法。

7 . 前記形状差は、前記オブジェクト間の差である画素数を測定するハミング距離である

請求項 5記載の映像をコ―ド化するための方法。

8 . 前記分割されたオブジェクトは、バイナリ形状を有し、ハミング距離 dは以下の式で定義され、 d 二

ここで、ひ i (m， n) およびひ ₂ (m, n) は、異なる時間における対応するセグメンテーション面である

請求項 3記載の映像をコード化するための方法。

9 . 前記形状差は、前記オブジェク卜に関連する画素のセット間の最大関数として定義されるハウスドルフ距離である

請求項 5記載の映像をコ一ド化するための方法。

1 0 . 前記最大関数は、

h (A, B ) =m a x {m ι n {d a , b ) } }

であり、ここで、 a及び bは、第 1及び第 2のオブジェクトのセット A及び Bのそれぞれの画素であり、 d ( a , b ) は、前記画素間のユークリッド距離である請求項 9記載の映像をコ一ド化するための方法。

1 1 . 前記映像は、複数のフレ一ムを含み、各フレームは、複数のマクロプロックを含み、前記マクロプロヅクは、不透明ブロヅク、透明プロック、及び境界ブロヅクとしてコード化される

請求項 1記載の映像をコード化するための方法。

1 2 . 前記オブジェクトの形状特徴をメ夕デ一夕としてコード化するステップをさらに含む請求項 1記載の映像をコード化するための方法。

1 3 . 各オブジェクトからのモーション特徴を経時的に抽出するステップと、前記モーション特徴と前記形状特徴とを絰時的に組み合わせて、各オブジェクトについての時間角军像度を絰時的に決定するステップと

をさらに含む請求項 1記載の映像をコ一ド化するための方法。

1 . 各ォブジェクトからコ一ディング複雑さを経時的に抽出するステップと前記コ一ディング複雑さと前記形状特徴とを組み合わせて、各ォブジェクトについての時間解像度を経時的に決定するステップと

1 5 . 前記オブジェクトの前記形状特徴は、前記映像の複数のキューレペルから抽出される

請求項 1記載の映像をコード化するための方法。

1 6 . 映像をコード化するための装置であって、

前記映像を複数のオブジェクトに分割する手段と、

各オブジェク卜から形状特徴を経時的に抽出する手段と、

前記形状特徴を絰時的に組み合わせて、各オブジェクトについての時間解像度を経時的に決定する手段と、

前記オブジェクトの対応する時間解像度に応じて各オブジェクトをコード化する手段と

を備えた映像をコード化するための装置。

1 7 . 前記分割及び抽出する手段は、形状コーダ、モーション推定器、モ一シヨン補償器、及びテクスチャコーダを有する請求項 1 6記載の映像をコード化するための装置。 8 . 前記オブジェクト及び形状特徴は、メモリ内に格納される請求項 1 6記載の映像をコード化するための装置。 9 . 前記映像は、圧縮されず、

前記組み合わせる手段は、レート制御ユニットである

請求項 1 6記載の映像をコ一ド化するための装置。 0 . 前記映像は、圧縮され、

前記組み合わせる手段は、トランスコーディング制御ュニヅトである請求項; 6記載の映像をコード化するための装置。