TW201342926A

TW201342926A - 基於模型的視訊編碼和解碼

Info

Publication number: TW201342926A
Application number: TW102107461A
Authority: TW
Inventors: Nigel Lee; Renato Pizzorni; Darin Deforest; Charles P Pace
Original assignee: Euclid Discoveries Llc
Priority date: 2012-03-26
Filing date: 2013-03-04
Publication date: 2013-10-16
Also published as: EP2815572A2; CA2868448A1; WO2013148002A2; JP2015515806A; WO2013148002A3

Abstract

一種基於模型的壓縮編碼解碼器應用較高階的模型化來產生比透過傳統基於區塊的移動估計及補償可得到的較佳預測。基於電腦視覺的特徵與物件檢測演算法識別在整個視訊資料立方體的關注區域。經檢測的特徵與物件是以一個小型組的參數來模型化，且類似的特徵/物件實例是跨框而相關聯。關聯的特徵/物件被形成成為軌跡且為與待編碼的視訊資料的特定區塊有關。追蹤資訊被用來產生對於資料的彼等區塊之基於模型的預測，致能比典型為透過傳統的移動估計方法可達成之預測搜尋空間的更有效率的導航。一種混合架構致能資料以多重保真度來模型化且選擇對於視訊資料的各個部分之適當階層的模型化。

Description

基於模型的視訊編碼和解碼

本發明係關於用於處理視訊資料的方法及編碼解碼器。

此件申請案主張在西元2012年3月26日所提出的美國臨時申請案第61/615,795號與在西元2012年9月28日所提出的美國臨時申請案第61/707,650號的利益。此件申請案還主張對於在西元2012年12月21日所提出的美國發明申請案第13/725,940號的優先權。在西元2012年12月21日所提出的美國申請案第13/725,940號亦為在西元2009年10月6日所提出的美國專利申請案第13/121,904號的一件部分接續案，美國專利申請案第13/121,904號是在西元2009年10月6日所提出的PCT/US2009/059653的一件美國國家階段申請案，PCT/US2009/059653主張在西元2008年10月7日所提出的美國臨時申請案第61/103,362號的利益。該件'904號申請案亦為在西元2008年1月4日所提出的美國專利申請案第12/522,322號的一件部分接續案，美國專利申請案第12/522,322號主張在西元2007年1月23日所提出的美國臨時申請案第60/881,966號的利益、有關於在西元2006年6月8日所提出的美國臨時申請案第60/811,890號、且為在西元2006年3月31日所提出的美國申請案第11/396,010號(現為美國專利第7,457,472號)的一件部分接續案，美國申請案第11/396,010號是在西元2006年1月20日所提出的美國申請案第11/336,366號(現為美國專利第7,436,981號)的一件部分接續案，美國申請案第11/336,366 號是在西元2005年11月16日所提出的美國申請案第11/280,625號(現為美國專利第7,457,435號)的一件部分接續案，美國申請案第11/280,625號是在西元2005年9月20日所提出的美國申請案第11/230,686號(現為美國專利第7,426,285號)的一件部分接續案，美國申請案第11/230,686號是在西元2005年7月28日所提出的美國申請案第11/191,562號(現為美國專利第7,158,680號)的一件部分接續案。美國申請案第11/396,010號還主張對於在西元2005年3月31日所提出的美國臨時申請案第60/667,532號與在西元2005年4月13日所提出的美國臨時申請案第60/670,951號的優先權。此件申請案亦為有關於在西元2012年3月27日所提出的美國臨時申請案第61/616,334號。

上述申請案與專利之整體的揭示內容是以參照方式而納入本文。

視訊壓縮可被視為以其儲存或傳送時而使用較少的位元之一種形式來代表數位視訊資料的處理。視訊壓縮演算法可藉由利用在視訊資料中的冗餘性與不相干性來達成壓縮，無論是在空間上、在時間上、或在色彩空間上。視訊壓縮演算法典型為將視訊資料分割成部分，諸如：框(frame)群與圖素(pel)群，以識別其可用比原始視訊資料為少的位元來代表之在視訊內的冗餘區。當在資料中的此等冗餘性被降低，可達成較大的壓縮。編碼器可被用來將視訊資料轉變成為編碼後的格式，而解碼器可被用來將編碼後的視訊轉變回到可比得上原始視訊資料的一種形式。該種編碼器/解碼器之實施被稱為一種編碼解碼器。

標準的編碼器將一個既定的視訊框分成非重疊的編碼單元或巨集區塊(相連圖素的矩形區域)以供編碼。巨集區塊典型為以在框中的左到右及頂部到底部的遍歷順序來處理。當巨集區塊是使用先前編碼的資料來預測及編碼時，壓縮可被達成。使用在相同框內的先前編碼巨集區塊之空間相鄰取樣來將巨集區塊編碼之處理被稱為一種內部(intra-)預測。內部預測企圖利用在資料中的空間冗餘性。使用來自先前編碼框的類似區域且連同一種移動估計模型之巨集區塊編碼被稱為一種中間(inter-)預測。中間預測企圖利用在資料中的時間冗餘性。

編碼器可測量在待編碼的資料與預測之間的差異以產生一個剩餘值。該剩餘值可提供在一個預測的巨集區塊與原始的巨集區塊之間的差異。編碼器可產生移動向量資訊，其指明例如在參考框中的一個巨集區塊相對於正在編碼或解碼的一個巨集區塊之位置。該等預測、(用於中間預測的)移動向量、剩餘值、以及相關資料可與諸如空間變換、量化器、熵編碼器、以及迴路濾波器的其他處理作結合來產生視訊資料的一種有效率編碼。已經量化及變換後的剩餘值可經處理及相加回到該種預測、被組合成為解碼後的框、且被儲存在一種框儲存器中。用於視訊的此類編碼技術之細節將對於熟習此技藝人士而言為熟悉。

H.264/MPEG-4進階視訊編碼(AVC,advanced video coding)(在下文被稱為H.264)是一種用於視訊壓縮的編碼解碼器標準，其利用基於區塊的移動估計及補償且以相當低的位元率來達成高品質的視訊代表。此標準是使用於藍光光碟製作的編碼選項中的一者且在主要視訊分佈通道之內，主要視訊分佈通道包括在網際網路上的視訊串流、視訊會議、有線電視與直播衛星電視。用於H.264的基本編碼單位是16x16個巨集區塊。H.264是最近在視訊壓縮中被廣為接受的標準。

基本的MPEG標準是基於在框中的巨集區塊如何被編碼而定義三種型式的框(或圖像)。一種I框(內部編碼的圖像)是僅使用存在該框其本身中的資料來作編碼。概括而言，當編碼器接收視訊訊號資料，編碼器先產生I框且將視訊框資料切割成為巨集區塊，其各者使用內部預測來作編碼。因此，一個I框是僅由內部預測的巨集區塊(或“內部巨集區塊”)所組成。要將I框編碼可能為代價高，由於該編碼是在沒有來自先前解碼框的資訊之裨益的情況下而作成。一種P框(預測的圖像)是經由正向預測所編碼，使用來自先前解碼的I框或P框(亦習稱為參考框)之資料。P框可含有內部的巨集區塊或(正向)預測的巨集區塊。一種B框(雙預測的圖像)是經由雙向預測所編碼，使用來自先前與後續的框之資料。B框可含有內部、(正向)預測、或雙預測的巨集區塊。

如上文所提到，傳統的中間預測是基於一種基於區塊的移動估計及補償(BBMEC,block-based motion estimation and compensation)。該種BBMEC處理是在目標巨集區塊(被編碼的目前巨集區塊)與先前解碼的參考框內的類似尺寸區域之間搜尋最佳匹配。當一個最佳匹配被找到時，編碼器可傳送一個移動向量。該移動向量可包括對於最佳匹配的框位置之一個指標以及關於在最佳匹配與對應目標巨集區塊之間的差異的資訊。可思及用此種方式來實行在整個“資料立方體(datacube)”(高度x寬度x框索引)的徹底搜尋以找出對於各個巨集區塊的最佳可能匹配，但徹底搜尋通常計算過多。結果，BBMEC搜尋處理是在時間及空間上而均為受限，在時間上是就搜尋的參考框而論，在空間上是就搜尋的相鄰區域而論。此意指“最佳可能”匹配並非總能找到，尤其是關於快速改變的資料。

一個特定組的參考框被稱為一個圖像群(GOP,Group of Pictures)。該GOP僅含有在各個參考框內的解碼圖素且不包括關於該等巨集區塊或框其本身在原始為如何編碼(I-框、B-框、或P-框)的資訊。諸如MPEG-2之較早期的視訊壓縮標準使用一個參考框(先前框)來預測P-框且使用二個參考框(一個過去者、一個未來者)來預測B-框。對照而言，H.264標準允許多個參考框之用於P-框與B-框預測。儘管該等參考框典型為在時間上相鄰於目前框，亦有對於在該組的時間相鄰框之外的參考框的規格之調適。

傳統壓縮考慮到出自多個框的多個匹配之混合以預測目前框的區域。該種混合經常為線性、或該等匹配的一種對數標度的線性組合。此種雙預測方法何時為有效的一個範例是當逐個影像隨著時間經過而漸弱時。漸弱過程是二個影像的一種線性混合，且該過程可有時為使用雙預測來有效模型化。諸如MPEG-2內插模式的一些過去標準編碼器有考慮到線性參數的內插以合成關於多個框的雙預測模型。

H.264標準還藉由將框分割成為其稱作切片之一或多個鄰接巨集區塊的空間區別區域而提出附加的編碼彈性。在一個框中的各個切片是無關於其他切片而被編碼(且可因此被解碼)。I-切片、P-切片、與B-切片是接著以類似於上述的框型式之一種方式來定義，且一個框可由多個切片型式所組成。此外，典型在該種編碼器如何安排所處理的切片為有彈性，故解碼器可用如同切片到達該解碼器之任意的順序來處理該等切片。

儘管H.264標準允許編碼解碼器以比諸如MPEG-2與MPEG-4進階簡單設定檔(ASP,advanced simple profile)的先前標準為低的檔案大小來提供較佳品質的視訊，實施H.264標準的“傳統”壓縮編碼解碼器典型為已經努力跟上對於操作在有限頻寬網路上的記憶體受限裝置(諸如：智慧型手機與其他行動裝置)之較大視訊品質與解析度的要求。視訊品質與解析度經常被折衷以達成在此等裝置上的適當播放。再者，隨著視訊解析度提高，檔案大小增大，使得在此等裝置上及離開此等裝置之視訊儲存為潛在的關切。

本發明認知在傳統編碼解碼器之中間預測處理的基本限制且應用較高階的模型化來克服彼等限制以提供改良的中間預測，而且維持如同傳統編碼解碼器之相同的概括處理流程與框架。

在本發明中，較高階的模型化提供一種有效率的方式來操縱較多預測搜尋空間(視訊資料立方體)以產生比透過傳統基於區塊的移動估計及補償所可得到者為較佳的預測。首先，基於電腦視覺的特徵與物件檢測演算法識別在整個視訊資料立方體中的關注區域。該種檢測演算法可為出自非參數特徵檢測演算法的類別。其次，經檢測的特徵與物件是以一個小型組的參數來模型化，且類似特徵/物件實例是跨框而相關聯。本發明接著從該等關聯的特徵/物件而形成軌跡，使該等軌跡與待編碼的視訊資料的特定區塊相關，且使用追蹤資訊以產生對於資料的彼等區塊之基於模型的預測。

在實施例中，待編碼的資料的特定區塊可為巨集區塊。形成的軌跡是使特徵與個別的巨集區塊相關。

特徵/物件追蹤將附加的上下文提供到傳統編碼/解碼處理。此外，以一個小型組的參數之特徵/物件的模型化致使關於該等特徵/物件的資訊能夠被有效率儲存在記憶體中，不同於參考框，要儲存其圖素的總數為代價很高。因此，在不需要過高量的附加計算或記憶體之情況下，特徵/物件模型可被用以搜尋更多的視訊資料立方體。造成之基於模型的預測是優於傳統的中間預測，因為基於模型的預測是從更大的預測搜尋空間所導出。

在一些實施例中，該小型組的參數包括關於該特徵/物件的資訊且此組被儲存在記憶體中。對於一個特徵而言，個別參數包括該特徵的一個特徵描述符號向量與位置。個別參數是當個別特徵被檢測時而產生。

在使跨框的特徵/物件實例有關聯之後，還可將有關聯實例聚集成為總體矩陣(來代替形成特徵/物件軌跡)。在此情形，本發明形成此類的總體矩陣，使用重要向量的子空間來總結該等矩陣，且使用向量子空間來作為有關聯的特徵/物件之參數模型。此可當彼等特定的特徵/物件出現在資料中而造成特別有效率的編碼。

用於處理視訊資料之基於電腦的方法、編碼解碼器、及其他電腦系統和裝置可實現本發明的上述原理。

10-1、10-2、…、10-n‧‧‧檢測的特徵實例

20-1、20-2、…、20-n‧‧‧視訊框

30-1、30-2、…、30-n‧‧‧特徵區域

40‧‧‧總體矩陣

50‧‧‧先前檢測的特徵

60-1、60-2、…、60-n‧‧‧特徵

70‧‧‧特徵追蹤器

80‧‧‧特徵檢測器

90‧‧‧目前框

100~160‧‧‧在圖1C之中的步驟

200‧‧‧“巨集區塊”層

202‧‧‧“如同特徵的巨集區塊”層

204‧‧‧“特徵”層

206‧‧‧“物件”層

208‧‧‧複雜現象

210‧‧‧合成

212‧‧‧預測

214‧‧‧模型

216‧‧‧解碼資料

220~232‧‧‧在圖2B之中的步驟

240~270‧‧‧在圖2C之中的步驟

310‧‧‧視訊輸入

312‧‧‧編碼器

314‧‧‧內部預測模組

316‧‧‧中間預測模組

318‧‧‧移動補償模組

320‧‧‧框儲存模組

322‧‧‧移動估計模組

324‧‧‧變換模組

326‧‧‧量化模組

328‧‧‧熵編碼模組

330‧‧‧反量化模組

332‧‧‧反變換模組

334‧‧‧迴路濾波器

336‧‧‧內部預測資料的解碼

338‧‧‧中間預測資料的解碼

340‧‧‧解碼器

342‧‧‧反變換

344‧‧‧反量化器

346‧‧‧熵解碼器

348‧‧‧快取記憶體/緩衝器

350‧‧‧中間預測模組

352‧‧‧框儲存器

354‧‧‧移動補償

356‧‧‧移動估計

360‧‧‧編碼解碼器

362~386‧‧‧在圖3D之中的步驟

400‧‧‧解碼器

402~418‧‧‧在圖4之中的步驟

500‧‧‧狀態隔離處理

502‧‧‧特徵實例

504‧‧‧圖像群(GOP)

506‧‧‧切片參數

508‧‧‧熵狀態

600‧‧‧編碼解碼器

610‧‧‧適應性移動補償預測

612‧‧‧適應性移動向量預測

614‧‧‧適應性變換處理

616‧‧‧適應性熵編碼

618‧‧‧參考框

620‧‧‧變形變化模型

622‧‧‧外觀變化模型

624‧‧‧參數範圍/標度分析

626‧‧‧移動向量偏移

628‧‧‧適應性量化

630‧‧‧巨集區塊補充資料

634‧‧‧基於參數模型的適應性編碼器

634-1‧‧‧適應性編碼器

634-2‧‧‧附加轉返能力

636~646‧‧‧在圖6B之中的步驟

668‧‧‧移動補償預測處理

670~684‧‧‧在圖6C之中的步驟

710‧‧‧決策處理

710-1‧‧‧快取存取架構

712‧‧‧局部快取存取

714‧‧‧遠距快取存取

716~732‧‧‧在圖7A之中的步驟

734‧‧‧局部快取

736~746‧‧‧在圖7B之中的步驟

748‧‧‧遠距(非局部)快取

750~766‧‧‧在圖7C之中的步驟

810‧‧‧客戶端電腦/裝置

812‧‧‧雲端(伺服器電腦)

814‧‧‧電腦程式傳播訊號產品

816‧‧‧通訊網路

818‧‧‧I/O裝置介面

820‧‧‧中央處理器單元

822‧‧‧網路介面

824‧‧‧電腦軟體指令

826‧‧‧OS程式

828‧‧‧資料

830‧‧‧記憶體

832‧‧‧磁碟儲存器

834‧‧‧系統匯流排

840‧‧‧圖8C的螢幕截圖

842‧‧‧特徵

844‧‧‧框

846‧‧‧特徵組

848‧‧‧特徵構件(特徵實例)

850‧‧‧指示

852‧‧‧特徵頻寬

860-1‧‧‧圖8D的螢幕截圖

860-2‧‧‧圖8E的螢幕截圖

862‧‧‧編號

864‧‧‧臉部

前文將由本發明的範例實施例之以下的更特定描述而為顯明，如在伴隨圖式所示，其中，同樣的參考符號是指在不同視圖中的相同部分。該等圖式無須為依比例來繪製，而是強調在於說明本發明的實施例。

圖1A是描繪根據本發明的一個實施例之特徵模型化的方塊圖。

圖1B是描繪根據本發明的一個實施例之特徵追蹤的方塊圖。

圖1C是說明根據本發明的一個實施例之使特徵相關於附近巨集區塊且使用彼等特徵軌跡以產生對於彼等巨集區塊的良好預測之步驟的方塊圖。

圖2A是說明根據本發明的一個實施例之以多個保真度的資料模型化來提供有效率編碼的示意圖。

圖2B是說明根據本發明的一個實施例之透過特徵模型相關聯及聚集的物件識別的方塊圖。

圖2C是說明根據本發明的一個實施例之經由附近特徵以及附近巨集區塊的聚集的物件識別的方塊圖。

圖3A是根據本發明的一個實施例之一種範例基於變換的編碼解碼器的組態的示意圖。

圖3B是根據本發明的一個實施例之用於內部預測巨集區塊的一種範例解碼器的方塊圖。

圖3C是根據本發明的一個實施例之用於中間預測巨集區塊的一種範例解碼器的方塊圖。

圖3D是根據本發明的一個實施例之運用基於特徵的預測之一種範例基於變換的編碼解碼器的組態的示意圖。

圖4是根據本發明的一個實施例之基於特徵的預測框架內的一種範例解碼器的方塊圖。

圖5是說明根據本發明的一個實施例之特徵實例的狀態隔離處理的方塊圖。

圖6A是說明根據本發明的一個實施例之運用參數模型化的一種編碼解碼器的範例元件的方塊圖。

圖6B是說明根據本發明的一個實施例之基於參數模型的適應性編碼器的範例元件的方塊圖。

圖6C是說明根據本發明的一個實施例之經由特徵模型參數內插的特徵移動補償預測的方塊圖。

圖7A是說明根據本發明的一個實施例之範例快取架構的概觀的方塊圖。

圖7B是說明根據本發明的一個實施例之在利用局部(近距)快取資料所涉及的處理的方塊圖。

圖7C是說明根據本發明的一個實施例之在利用遠距快取資料所涉及的處理的方塊圖。

圖8A是實施例被部署在其中之一種電腦網路環境的示意圖。

圖8B是在圖8A之網路中的電腦節點的方塊圖。

圖8C是根據範例實施之一種基於特徵的壓縮工具的螢幕截圖。

圖8D是顯示根據本發明的一個實施例之用對於臉部以及非臉部特徵的編號所標示的特徵的螢幕截圖。

圖8E是顯示根據本發明的一個實施例之由圖8D的臉部追蹤器所標示的臉部的螢幕截圖。

在本文引用的所有專利、公開申請案與參考文獻之揭示內容是以參照方式而將其整體納入。本發明的範例實施例之描述如後。

本發明可被應用到種種的標準編碼與編碼單元。在下文中，除非是另外指明，術語“傳統”與“標準”(有時為連同“壓縮”、“編碼解碼器”、“編碼”、或“編碼器”一起使用)將有關於H.264，且“巨集區塊”將在沒有損及概括性的情況下而被稱為基本H.264編碼單元。

基於特徵的模型化特徵的定義

本發明的範例元素可包括視訊壓縮及解壓縮處理，其可最佳代表當被儲存或傳送時的數位視訊資料。該等處理可包括視訊壓縮/編碼演算法或與其介面連接，以利用在視訊資料中的冗餘性與不相干性，無論是在空間上、在時間上、或在頻譜上。此利用可透過基於特徵的模型/參數之使用與保留而作成。進一步來說，術語“特徵(feature)”與“物件(object)”可被互換使用。在沒有損及概括性的情況下，物件可被定義為“大的特徵”。特徵與物件均可被用來將資料模型化。

特徵是展示資料複雜度之緊鄰的圖素群。資料複雜度可經由種種準則來作檢測，如下文所詳述，但從壓縮的觀點而言，資料複雜度的根本特性是“代價高的編碼”，指出藉由傳統視訊壓縮之圖素的編碼超過其將被視為“有效率的編碼”之臨限。當傳統的編碼器將不相稱量的頻寬分配給某些區域(因為傳統的框間搜尋無法在傳統的參考框內找到對於其的良好匹配)，變得更有可能的是該區域為“富含特徵”，且一種基於特徵模型的壓縮方法將顯著改良在彼等區域中的壓縮。

特徵檢測

圖1A描繪一個特徵，其實例10-1、10-2、…、10-n已經在視訊的一或多個框20-1、20-2、…、20-n之中被檢測。典型而言，此類的特徵可基於其指出傳統壓縮利用不相稱量的頻寬來將特徵區域編碼之圖素與複雜度準則所得出的結構資訊而使用數種準則來檢測。各個特徵實例可由圖1A所示為“區域”30-1、30-2、…、30-n的對應空間範圍或周邊而空間上在其框20-1、20-2、…、20-n之中被進一步識別。此等特徵區域30-1、30-2、…、30-n可被取出例如為圖素資料的簡單矩形區域。在本發明的一個實施例中，該等特徵區域為尺寸16x16，如同H.264巨集區塊的相同尺寸。

諸多的演算法已經被提出在用於基於圖素其本身的結構而檢測特徵之文獻中，包括其對於圖素資料的不同變換為強健(robust)之一個類別的非參數特徵檢測演算法。舉例來說，標度不變特徵變換(SIFT,scale invariant feature transform)[Lowe,David，西元2004年，“來自標度不變重點的獨特影像特徵”，電腦視覺的國際刊物，60(2)：91-110]使用關於影像的高斯(Gaussian)函數差的捲積來檢測團狀的特徵。加速強健特徵(SURF,speeded-up robust features)演算法[Bay,Herbert等人，西元2008年，“SURF：加速強健特徵”，電腦視覺及影像瞭解，110(3)：346-359]使用赫士(Hessian)運算子的行列式而同樣來檢測團狀的特徵。在本發明的一個實施例中，SURF演算法被使用以檢測特徵。

在另一個實施例中，其為以參照方式而整體納入本文之西元2009年10月6日所提出的美國申請案第13/121,904號所完整論述，特徵可基於傳統編碼器所遇到的編碼複雜度(頻寬)而被檢測。舉例來說，編碼複雜度可透過傳統壓縮(例如：H.264)所需要來將特徵出現在其中的區域編碼的頻寬(位元數)之分析而確定。再次敘述，不同檢測演算法以不同方式操作，但各者是在實施例中透過整體視訊資料被應用到諸框的整體視訊序列。就一個非限制的範例而言，用H.264編碼器的第一遍的編碼動作被作成且產生一個“頻寬映圖”。此接著定義或用其他方式來確定在各個框中H.264編碼成本為最高之處。

典型而言，諸如H.264的傳統編碼器將視訊框分割成為以非重疊型態所配置的均勻磚(tile)(例如：16x16巨集區塊與其子磚(subtile))。在一個實施例中，各個磚可作為一個潛在的特徵而被分析，基於H.264將該磚編碼所需要的相對頻寬。舉例來說，經由H.264將一個磚編碼所需要的頻寬可與一個固定臨限來比較，且若該頻寬超過臨限，則該磚可被宣告為一個“特徵”。該臨限可為一個預先設定值。該預先設定值可被儲存在資料庫以供在特徵檢測期間的容易存取。該臨限可為其設定為對於先前編碼特徵所分配的平均頻寬量的一個值。同理，該臨限可為其設定為對於先前編碼特徵所分配的中間頻寬量的一個值。替代而言，可計算跨過整個框(或整個視訊)的磚頻寬的累計分佈函數且將其頻寬為在所有磚頻寬之中的最高百分位數的任何磚宣告為“特徵”。

在另一個實施例中，視訊框可被分割成為重疊磚。重疊取樣可經偏移使得重疊磚的中心存在於每四個放在下面的磚的稜角之相交處。此種在上方的完整分割是意指提高一個初始取樣位置將產生一個經檢測的特徵之可能性。其他(可能較為複雜)的拓撲分割方法亦為可行。

經檢測為特徵的小空間區域可被分析以確定其是否可基於一些連貫性準則而被組合成為較大的空間區域。空間區域可在尺寸為從小群的圖素而變化到其可能對應於實際物件或部分物件之較大的區域。然而，重要指出的是，經檢測的特徵不必對應於諸如物件或子物件之獨特且可分開的實體。單一個特徵可含有二或多個物件的元素或完全不含有任何物件元素。就本發明而言，一個特徵的關鍵特性是在於構成該特徵之該組的圖素可相對於傳統方法而藉由基於特徵模型的壓縮技術被有效率壓縮。

用於將小區域組合成為較大區域的連貫性準則可包括：移動的類似性、在移動補償之後的外觀的類似性、以及編碼複雜度的類似性。連貫移動可透過較高階的移動模型而被發現。在一個實施例中，對於各個各別小區域的平移移動可被整合成為一個仿射移動模型，其能夠模擬對於該等小區域中的各者的移動模型。若對於一組小區域的移動可基於一致性而被整合成為聚集模型，此意味著在該等區域之間的相依性，該相依性可指出其可透過一個聚集特徵模型所利用之在該等小區域間的連貫性。

特徵模型形成

在特徵已經於一個視訊的多個框中被檢測之後，重要的是，相同特徵的多個實例被相關連在一起。此處理被習稱為特徵關聯(association)且為用於特徵追蹤(隨著時間而確定特定特徵的位置)的基礎，如下文所述。然而，為了有效，特徵關聯處理必須先定義其可被用來區別類似特徵實例和相異者的一個特徵模型。

在一個實施例中，特徵圖素其本身可被用來將一個特徵模型化。特徵圖素區域(其為二維)可被向量化且類似的特徵可藉由使得均方誤差(MSE,mean-squared error)為最小化或使得在不同特徵圖素向量之間的內乘積為最大化而被識別。關於此的問題是在於，特徵圖素向量是對於諸如特徵的平移、旋轉、調整比例、與改變照度之在特徵中的小變化為敏感。特徵經常是以此等方式而在整個視訊中改變，故使用特徵圖素向量其本身來將特徵模型化及相關聯需要對於此等改變的一些考量。在一個實施例中，本發明是以最簡單方式來考量此類的特徵改變，藉由應用在傳統編碼解碼器(例如：H.264)中所見到的標準移動估計及補償演算法，其考量特徵的平移移動。在其他實施例中，更為複雜的技術可被使用來考量在逐個框之特徵的旋轉、調整比例、與改變照度。

在一個替代實施例中，特徵模型是特徵其本身的小型代表(“小型(compact)”意指比原始特徵圖素向量為低的維度)，其對於特徵的小旋轉、平移、調整比例、與可能照度改變為無變化(當某型式的變換被應用時而維持不變)，意指的是，若特徵在逐個框而稍微改變，該種特徵模型將維持相當固定。此型式的一個小型特徵模型經常被稱為一個“描述符號(descriptor)”。在本發明的一個實施例中，舉例來說，SURF特徵描述符號具有長度64(相較於長度256的特徵圖素向量)且基於哈爾霧(Haar)小波變換響應的總和。在另一個實施例中，具有5個筐(bin)的彩色直方圖是由特徵圖素的一個彩色圖所構成，且此5構成元素的直方圖是作用為特徵描述符號。在一個替代實施例中，特徵區域是經由2-D DCT而作變換。該等2-D DCT係數是接著在係數矩陣的上三角與下三角部分作總計。此等總和接著包含一個邊緣特徵空間且作用為特徵描述符號。

當特徵描述符號被使用來將特徵模型化，類似的特徵可藉由使得MSE為最小化或使得在特徵描述符號之間(替代在特徵圖素向量之間)的內乘積為最大化而被識別。

特徵關聯

一旦特徵已經被檢測及模型化，下一個步驟是在多個框而將類似特徵相關聯。出現在多個框中的一個特徵的各個實例是該特徵之出現的取樣，且跨框為相關聯的多個特徵實例被視為“屬於”同個特徵。一旦被關聯時，屬於同個特徵的多個特徵實例可被聚集形成一個特徵軌跡或被收集成為一個總體矩陣40(圖1A)。

一個特徵軌跡(feature track)被定義為一個特徵的(x,y)位置，其作為在視訊中的框之函數。一個實施例是將新近檢測的特徵實例與先前追蹤的特徵(或就視訊的第一個框而言為與先前檢測的特徵)相關聯來作為基礎以供確定在目前框中的哪些特徵實例為其先前建立的特徵軌跡之延伸者。用先前建立的特徵軌跡(或就第一個視訊框而言為用先前檢測的特徵)而在目前框中的一個特徵實例之識別構成該特徵之追蹤。

圖1B展示一種特徵追蹤器70之使用以追蹤特徵60-1、60-2、…、60-n。一種特徵檢測器80(例如：SIFT或SURF)被使用以識別在目前框中的特徵。在目前框90中的檢測特徵實例被匹配到先前檢測(或追蹤)的特徵50。在一個實施例中，在關聯步驟之前，在目前框中的該組的候選特徵檢測可使用一種自動相關分析(ACA,auto-correlation analysis)度量來分類，該種ACA度量是基於該特徵的自動相關矩陣而測量特徵強度，此測量使用高斯濾波器的導數來計算在自動相關矩陣中的影像梯度，如在哈里斯-史提芬(Harris-Stephens)隅角檢測演算法[Harris,Chris與Mike Stephens，西元1988年，“組合式隅角與邊緣檢測器”，在第4屆Alvey視覺會議會刊，第147-151頁]所見到。具有高ACA值的特徵實例是優先作為用於追蹤延伸的候選者。在一個實施例中，在ACA分類表中較低的特徵實例是從該組的候選特徵被刪除，若其為在該表中較高的一個特徵實例之某個距離(例如：一個圖素)內。

在不同實施例中，特徵描述符號(例如：SURF描述符號)或特徵圖素向量其本身可作為特徵模型。在一個實施例中，在圖1B之中描繪為區域60-1、60-2、…、60-n之先前追蹤的特徵是對於來自在目前框90之中的新檢測特徵間的追蹤延伸者而一次測試一個。在一個實施例中，對於各個特徵追蹤的最近特徵實例是作為在搜尋目前框中的追蹤延伸者之一個焦點(或“目標特徵”)。在目標特徵位置的某個距離(例如：16個圖素)內之目前框中的所有候選特徵檢測被測試，且具有關於目標特徵的最小MSE之候選者被選取作為該特徵軌跡的延伸。在另一個實施例中，一個候選特徵是不合格為軌跡延伸，若其關於目標特徵的MSE為大於某個臨限。

在再一個實施例中，若在目前框中並無候選特徵檢測為合格用於一個既定特徵追蹤的延伸者，對於在目前框中的一個匹配區域之有限搜尋是運用在H.264之內的移動補償預測(MCP,motion compensated prediction)演算法或一種概括移動估計與補償(MEC,motion estimation and compensation)演算法而進行。MCP與MEC均進行對於在目前框中的匹配區域之一種梯度下降搜尋，使得關於在前個框中的目標特徵之MSE為最小化(且滿足MSE臨限)。若對於在目前框中的目標特徵而言為找不到匹配，無論由候選特徵檢測或是由MCP/MEC搜尋處理，則對應的特徵軌跡被宣告為或“失效”或“終止”。

在再一個實施例中，若二或多個特徵軌跡具有其重合為超過某臨限(例如：70%重疊)之在目前框中的特徵實例，除了該等特徵軌跡中的一者以外是全部從進一步的考慮中被刪除、或去除。該種刪除處理保持其具有最長歷史且具有在所有特徵實例所總和的最大總計ACA之特徵軌跡。

上述步驟的以下組合是在此後稱作為特徵點分析(FPA,feature point analysis)追蹤器且作為本發明的一個實施例：SURF特徵檢測、候選特徵之基於ACA的分類、以及藉由MCP/MEC搜尋所補充而經由出自候選特徵間的MSE的最小化之特徵關聯。

在本發明的另一個實施例中，在視訊框中的巨集區塊被視為特徵，特徵/巨集區塊的登錄是透過在H.264所存在的MCP引擎來作成，且特徵/巨集區塊是使用H.264的框間預測度量(諸如：絕對變換差的總和(SATD,sum of absolute transform differences))而相關聯；此種組合被稱為巨集區塊快取(MBC,macroblock cache)追蹤器。MBC追蹤器是與標準的框間預測有差異，因為某些參數為不同(例如：搜尋邊界為失能而使得MBC追蹤器進行對於匹配之較廣的搜尋)且因為匹配處理的某些層面為不同。在第三個實施例中，SURF檢測是關於附近的巨集區塊，且該等巨集區塊是使用H.264的MCP與框間預測引擎而被相關聯且追蹤；此種組合被稱為SURF追蹤器。

在一個替代實施例中，多個特徵實例可被聚集成為一個總體矩陣以供進一步的模型化。在圖1A，描繪為30-1、30-2、…、30-n的特徵實例已經被相關聯且被識別為代表相同特徵。來自該等區域的圖素資料可接著被向量化且置放成為一個總體矩陣40，整個總體代表該特徵。當充分數目的此等取樣被聚集成為一個總體，該等取樣可被用以將該特徵在彼等框中而且在特徵未被取樣的其他框中的外觀模型化。此種特徵外觀模型是如同該特徵的相同維度者且為不同於上述的特徵描述符號模型。

區域的總體可被空間正規化(藉由移除變化來源而成為符合標準)朝向在總體中的一個關鍵區域。在一個實施例中，最接近總體之幾何質心的區域被選擇作為關鍵區域。在另一個實施例中，總體中的最早特徵實例被選擇作為關鍵區域。實行此等正規化所需要的變形被聚集成為一個變形總體，且造成的正規化影像被聚集成為一個修正外觀總體，如在均為本案受讓人之美國專利第7,508,990號、第7,457,472號、第7,457,435號、第7,426,285號、第7,158,680號、第7,424,157號與第7,436,981號以及美國申請案第12/522,322號與第13/121,904號所述。以上列出的專利與申請案之整體內容是以參照方式而納入本文。

在以上的實施例中，外觀總體被處理以產生一個外觀模型，且變形總體被處理以產生一個變形模型。外觀與變形模型結合成為對於該特徵的特徵模型。特徵模型可被使用以一個小型組的參數來代表該特徵。在一個實施例中，該種模型形成方法是總體矩陣之奇異值分解(SVD,singular value decomposition)且隨後為秩(rank)約化，其中僅有一個子集的奇異向量與其對應的奇異值被保留。在再一個實施例中，用於秩約化的準則是要保留剛好足夠的主奇異向量(與對應的奇異值)使得總體矩陣之約化秩的重建為在基於總體矩陣的2-範數(2-norm)之一個誤差臨限內而近似完整總體矩陣。在一個替代實施例中，該種模型形成方法是正交匹配追逐(OMP,orthogonal matching pursuit)[Pati,Y.C.等人，西元1993年，“正交匹配追逐：關於對於小波分解的應用之遞迴函數近似”，在第27屆Asilomar會議會刊，第40-44頁]，其中該總體被視為經反覆搜尋以使得重建精密度最大化的一個型樣字典。再者，剛好足夠的總體向量(與對應OMP加權)被保留以使得該種OMP重建滿足基於總體矩陣的2-範數之一個誤差臨限。一旦形成時，該特徵的外觀與變形模型可被使用在基於特徵的壓縮，如將在下文所述。

特徵總體可藉由將總體構成要素彼此比較而為精確。在一個實施例中，該總體是藉由將各個取樣區域(總體向量)相較於每個其他的取樣區域而為精確。此比較是由二個磚登錄所構成。一個登錄是第一個區域對第二個區域的比較。第二個登錄是第二個區域對第一個區域的比較。各個登錄被實行在其個別影像中的區域之位置。造成的登錄偏移且連同對應的位置偏移一起被保留且稱為相關性。該等相關性被分析以確定是否該多個登錄指出一個取樣區域的位置應為精確。若在來源框中的精確位置產生對於一或多個其他區域的較低誤差匹配，則該區域位置被調整到精確位置。在來源框中的區域之精確位置是透過其時間跨越在來源框中的區域之其他區域對應的位置之線性內插而被確定。

基於特徵的壓縮

特徵模型化(或概括為資料模型化)可被使用來改良關於標準編碼解碼器的壓縮。標準的框間預測使用基於區塊的移動估計及補償以從先前解碼的參考框之中的一個有限搜尋空間來找到對於各個編碼單元(巨集區塊)的預測。在所有過去的參考框中徹底搜尋良好的預測是在計算上過多。藉由遍及整個視訊來檢測及追蹤特徵，特徵模型化提供一種導航預測搜尋空間的方式以在沒有過多計算的情況下而產生改良的預測。在下文中，術語“基於特徵”與“基於模型”可被互換使用，正如特徵是一個特定型式的模型。

在本發明的一個實施例中，特徵軌跡被使用來使特徵與巨集區塊有關連。對此的概括步驟被描繪在圖1C之中。一個既定特徵軌跡指出一個特徵跨框的位置，且具有該特徵跨框的關聯移動。使用特徵在目前框之前的二個最接近框中的位置，可將該特徵的位置投射在目前框之中。此投射的特徵位置於是具有一個關聯的最接近的巨集區塊，其被定義為具有最大重疊於投射特徵位置的巨集區塊。此巨集區塊(現為正在被編碼的目標巨集區塊)已經關聯到其在目前框中的投射位置為在該巨集區塊附近的一個特定特徵軌跡(在圖1C之中的步驟100)。

下一個步驟是計算在目標巨集區塊與目前框中的投射特徵位置之間的偏移(步驟110)。此偏移可接著被用以產生對於目標巨集區塊的預測，運用在關聯特徵軌跡之中的稍早特徵實例。此等稍早特徵實例使用一個局部快取(步驟120)或一個遠距快取(步驟140)，局部快取是由特徵出現處的新近參考框所構成，遠距快取是由特徵出現處的“較久”參考框(步驟150)所構成。對於目標巨集區塊的預測可藉由找到具有如同在目標巨集區塊與目前框中的投射特徵位置之間的偏移(步驟130、160)而來自稍早特徵實例的相同偏移之在參考框中的區域所產生。

產生基於模型的主要和次要預測

在本發明的一個實施例中，基於特徵的預測被實施如後：(1)對於各個框而檢測該等特徵；(2)將該等檢測的特徵模型化；(3)使在不同框中的特徵有關聯以產生特徵軌跡；(4)使用特徵軌跡以預測在被編碼的“目前”框中的特徵位置；(5)使在預測特徵位置附近之目前框中的巨集區塊有關聯；(6)基於沿著其關聯特徵的該等特徵軌跡的過去位置來產生對於在步驟5之中的巨集區塊的預測。

在一個實施例中，特徵是使用SURF演算法來檢測且其使用FPA演算法來作關聯及追蹤，如在先前段落所詳述。一旦特徵已經被檢測、關聯、及追蹤，特徵軌跡可被用來使各個特徵軌跡與一個最近的巨集區塊有關聯，如上文所詳述。對於單一個巨集區塊而言，可能與多個特徵為有關聯，故一個實施例選擇其具有與該巨集區塊的最大重疊之特徵作為對於該巨集區塊的關聯特徵。

既定一個目標巨集區塊(被編碼的目前巨集區塊)、其關聯的特徵、以及對於該特徵的特徵軌跡，則對於該目標巨集區塊的主要或關鍵預測可被產生。對於關鍵預測的資料(圖素)是來自特徵出現處之最近的框(在目前框之前)，此後被稱為關鍵框。該關鍵預測是在選擇一個移動模型與一個圖素取樣方案之後而被產生。在本發明的一個實施例中，移動模型可為“第0階”或“第1階”，“第0階”假設該特徵是在關鍵框與目前框之間為靜止，第1階”假設特徵移動是在第2最近的參考框、關鍵框、與目前框之間為線性。在任一個情形中，特徵移動被應用(朝向後時間方向)到在目前框中的關聯巨集區塊以得到對於在關鍵框中的巨集區塊的預測。在本發明的一個實施例中，圖素取樣方案可為“直接”或“間接”，在該“直接”取樣方案中，移動向量被捨入到最接近的整數且對於關鍵預測的圖素是直接從關鍵框所取得，在該“間接”取樣方案中，來自諸如H.264的傳統壓縮之內插法方案被用以導出一種移動補償後的關鍵預測。因此，本發明可具有四個不同型式的關鍵預測，視該移動模型(第0階或第1階)與取樣方案(直接或間接)而定。

關鍵預測可透過子磚(subtiling)處理來將局部變形模型化而為精確。在子磚處理中，不同移動向量是對於巨集區塊的不同局部部分而被計算。在一個實施例中，子磚可藉由將16x16巨集區塊分割為8x8個象限且分別對於各者來計算預測而作成。在另一個實施例中，子磚可藉由分別計算對於Y、U、與V色彩通道的預測而被實現在Y/U/V色空間域。

除了對於目標巨集區塊的主要/關鍵預測之外，還可基於在關鍵框之前的參考框中的關聯特徵的位置而產生次要預測。在一個實施例中，從目標巨集區塊到在目前框中的關聯特徵的(投射)位置之偏移代表一個移動向量，其可被用以從在過去參考框中的特徵位置來找出次要預測。以此方式，大量的次要預測可針對於具有一個關聯特徵的既定目標巨集區塊而被產生(一者為對於在該特徵先前已經出現之處的各個框)。在一個實施例中，次要預測的數目可藉由將搜尋限制到某個合理數目(例如：25個)的過去參考框而受限。

複合預測

一旦主要(關鍵)和次要預測已經針對於一個目標巨集區塊所產生，該目標巨集區塊的整體重建可基於此等預測來計算。在一個實施例中，遵循傳統的編碼解碼器，該種重建是基於僅有關鍵預測，此後稱為僅有關鍵(KO,key-only)重建。

在另一個實施例中，該種重建是基於一種複合預測，其總計該關鍵預測與該等次要預測中的一者的加權型式。此後稱為輕型PCA(PCA-L,PCA-Lite)的此種演算法涉及以下步驟：

1.產生該目標巨集區塊與關鍵預測的向量化(1-D)形式。此等者可接著被標示為目標向量t與關鍵向量k。

2.從該目標向量相減該關鍵向量以計算一個剩餘向量r。

3.使該組次要預測為向量化以形成向量s_i(在沒有損及概括性的情況下，假設此等次要向量具有單位範數)。接著，從所有次要向量相減該關鍵向量以形成減去關鍵組s_i-k。此具有從該等次要向量拋開該關鍵向量的近似效應。

4.針對於各個次要向量，計算一個加權c=r^T(s_i-k)。

5.針對於各個次要向量，計算該複合預測為t^=k+c．(s_i-k)。

概括而言，在輕型PCA演算法之中的步驟近似於眾所周知的正交匹配追蹤演算法[Pati,1993]中的作業，該複合預測意指具有來自主要與次要預測的非冗餘作用。在另一個實施例中，上述的輕型PCA演算法被修改使得在以上步驟3-5之中的關鍵向量為由該關鍵與次要向量的平均所取代。此修改後的演算法在此後被稱為平均輕型PCA(PCA-Lite-Mean)。

輕型PCA演算法提供不同於在某些標準編碼解碼器中可見(且在上述【先前技術】段落所述)的雙預測演算法之一種型式的複合預測。標準的雙預測演算法是基於對於個別預測的參考框到目前框的暫時距離而運用多個預測的一種混合。對照而言，輕型PCA是基於個別預測的內容而將多個預測混合成為一種複合預測。

注意，上述複合預測之形成不需要基於特徵的模型化；複合預測可由對於既定目標巨集區塊之任何組的多個預測所形成。然而，基於特徵的模型化提供對於既定目標巨集區塊之一個自然關聯組的多個預測，且複合預測提供一種有效率的方式以結合來自彼等多個預測的資訊。

多重保真度資料模型化

本發明為了基於模型的壓縮而提供能力以多重保真度來使資料模型化。關於此的一個實施例被說明在圖2A之中，其顯示四層的模型化。此等四層被總結在以下表格中且更為詳細論述在下文中。

在圖2A之中的底層200被稱為“巨集區塊”(MB,Macroblock)層且代表傳統壓縮，其將框分割成為非重疊的巨集區塊、尺寸16x16的磚、或一個有限組的子磚。傳統壓縮(例如：H.264)本質為未運用任何的模型化；反而，其使用基於區塊的移動估計及補償(BBMEC)從在先前解碼後的參考框中之一個有限搜尋空間來找出對於各個磚的預測212。在解碼器，該等預測212是與巨集區塊(或子磚)的剩餘編碼作結合以合成(在210)原始資料之重建。

在圖2A之中的第二層202被稱為“如同特徵的巨集區塊”(MBF,Macroblocks as Features)層且代表其基於上述的MBC追蹤器且被表示在圖2A之中的216的壓縮。在此，巨集區塊(或巨集區塊的子磚)被看作為特徵，透過傳統BBMEC搜尋之遞迴施加遍及先前編碼後的框。BBMEC之第一個應用是同於MB層者，從在216之最近的參考框來找出對於目標巨集區塊的一種傳統預測。然而，BBMEC之第二個應用是藉由搜尋在216之第二最近的框來找出對於第一預測的一種傳統預測。BBMEC之反覆應用遍及在216之逐漸較久的框將產生對於目標巨集區塊的一個“追蹤”，即使就其本身而言並未被識別為一個特徵。MBC追蹤產生一個模型214，模型214產生一種預測212，其在解碼器為與巨集區塊(或子磚)的剩餘編碼作結合以合成(在210)原始資料之重建。

在圖2A之中的第三層204被稱為“特徵”層且代表如上述之基於特徵的壓縮。作為複習而言，特徵是無關於巨集區塊柵格(grid)而被檢測及追蹤，但特徵是關聯於重疊的巨集區塊且特徵軌跡被用來導航先前解碼後的參考框216以找出對於彼等重疊巨集區塊之較佳的匹配。若多個特徵重疊一個既定目標巨集區塊，具有最大重疊的特徵被選擇在214將該目標巨集區塊模型化。在一個替代實施例中，在未將特徵相關於巨集區塊的情況下，編碼解碼器可直接將該等特徵編碼及解碼，且使用例如MB層的傳統壓縮來分開處理“非特徵”的背景。基於特徵的模型214產生一種預測212，其在解碼器為與關聯巨集區塊(或子磚)的剩餘編碼作結合以合成(在210)原始資料之重建。

在圖2A之中的頂層206被稱為“物件”層且代表基於物件的壓縮。物件本質為大的特徵，其可涵蓋多個巨集區塊且可代表具有實際意義(例如：臉部、球、或手機)或複雜現象208的某件事物。物件模型化是經常為參數式，其所預期的是，一個物件將為某種型式(例如：臉部)，使得專用的基礎功能可被用於模型化214。當物件涵蓋或重疊多個巨集區塊，單一個移動向量212可針對於與物件216關聯的所有巨集區塊而作計算，此可造成在計算與編碼尺寸方面的節省。基於物件的模型214產生一種預測212，其在解碼器為與關聯巨集區塊(或子磚)的剩餘編碼作結合以合成(在210)原始資料之重建。

在一個替代實施例中，物件還可藉由相關及聚集附近的特徵模型214而被識別。圖2B是說明經由特徵模型聚集之此種型式的非參數或經驗式物件檢測的方塊圖。一個特定型式的物件被檢測220，藉由識別哪些特徵具有該物件型式的特性、或顯示“物件偏壓”222。接著，確定在222之中的該組特徵是否顯示模型狀態的剛性224，即：對於待相關的該等特徵與其狀態隨著時間經過的傾向。若該等個別特徵模型被確定為相關(該情形中，一個物件檢測被確定(在226))，則可形成一個具有伴隨參數的複合外觀模型(在228)以及一個具有伴隨參數的複合變形模型(在230)。複合外觀模型以及變形模型之形成引起出自集體的個別外觀模型以及變形模型之自然的參數減少(在232)。

圖2C說明在圖2A之中的“物件”層206的第三個實施例，其均運用到參數與非參數的基於物件的模型化。在240，一個參數模型化的物件被檢測。在250，經檢測的物件(240)可被處理以確定是否有任何重疊的特徵。在260，該組的重疊特徵可接著被測試以確定其是否可如上所述被聚集。若該等重疊特徵之聚集失效，則處理回復到測試其重疊經檢測的物件(240)的巨集區塊，在270，以確定其是否可被有效聚集來共用一個共同移動向量，如上文所提到。

一種多重保真度的處理架構可使用層200、202、204、206的任何組合以達成最有利的處理。在一個實施例中，在圖2A之中的所有層是以一種“競爭”被檢驗以確定哪些層產生對於待編碼的各個巨集區塊之最佳(最小)編碼。關於此種“競爭”如何被進行的更多細節是隨後在下文。

在另一個實施例中，在圖2A之中的諸層可從底層(最簡單) 到頂層(最複雜)而依序被檢驗。若較低層的解法被視為令人滿意，較高層的解法無須被檢驗。用於確定一個既定解法是否可被視為“夠好”之度量是在下文被更詳細描述。

基於模型的壓縮編碼解碼器標準的編碼解碼器處理

編碼處理可將視訊資料轉換成為一種壓縮或編碼後的格式。同理，解壓縮處理或解碼處理可將經壓縮的視訊轉換回到一種未經壓縮或未處理的格式。視訊壓縮與解壓縮處理可被實施為一個編碼器/解碼器對，其通稱為一種編碼解碼器。

圖3A是一種標準的編碼器312的方塊圖。在圖3A之中的編碼器可被實施在軟體或硬體環境、或其組合中。該範例的編碼器之構件可被實施為可執行碼，其經儲存在諸如圖8A與8B所示者的一種儲存媒體上且經組態以供由一或多個處理器820之執行。編碼器312可包括其包括而不受限於內部預測模組314、中間預測模組316、變換模組324、量化模組326、熵編碼模組328與迴路濾波器334之構件的任何組合。中間預測模組316可包括移動補償模組318、框儲存模組320、與移動估計模組322。編碼器312可更包括反量化模組330、與反變換模組332。在圖3A所示的編碼器312的各個構件之功能是對於一般技藝人士而言為眾所周知。

在圖3A之中的熵編碼演算法328可為基於其測量經量化的變換係數的不同值的可能性之機率分佈。目前編碼單元(例如：巨集區塊)的編碼尺寸是取決於目前編碼狀態(待編碼的不同量的值)與該狀態對於該機率分佈的相對符合性。如下文所述，對於此編碼狀態的任何改變可能會影響在後續框中的編碼單元的編碼尺寸。為了充分使得視訊的編碼最佳化，一種徹底搜尋可能在視訊可經編碼的所有可能路徑(即：所有可能編碼狀態)進行，但此舉為計算過多。在本發明的一個實施例中，編碼器312經組態以聚焦在目前(目標)巨集區塊，使得最佳化被局部應用，而非考慮較大的範疇(例如：在一個切片、一個框、或一組框之上)。

圖3B與3C是分別提供內部預測資料的解碼336與中間預測資料的解碼338之一種標準的解碼器340的方塊圖。解碼器340可被實施在軟體或硬體環境、或其組合中。參考圖3A、3B、與3C，編碼器312典型為接收來自一個內部或外部來源的視訊輸入310，將資料編碼，且將編碼後的資料儲存在解碼器的快取記憶體/緩衝器348之中。解碼器340是從快取記憶體/緩衝器348擷取經編碼後的資料以供解碼及傳輸。該種解碼器可從諸如系統匯流排或網路介面的任何可用元件而得到對於解碼後的資料之存取。解碼器340可經組態以將視訊資料解碼來將預測的框與關鍵框(概括為在圖2A之中的210)解壓縮。快取記憶體/緩衝器348可接收有關於壓縮視訊序列/位元流的資料且使得資訊為可用於熵解碼器346。熵解碼器346處理該位元流以產生對於在圖3A的內部預測或在圖3B的剩餘訊號之量化變換係數的估計。反量化器344實行一種重新定標作業以產生估計變換係數，且反變換342被接著應用到該等估計變換係數以建立在圖3A的原始視訊資料圖素的內部預測或在圖3B的剩餘訊號之一個合成。在圖3B，合成後的剩餘訊號被相加回到目標巨集區塊的中間預測以產生目標巨集區塊的完全重建。利用移動估計356與移動補償354被施加到在框儲存352所含有的參考框，中間預測模組350是在該種解碼器複製由編碼器所產生的中間預測。該種解碼器的中間預測模組350對應在圖3A之編碼器的中間預測模組316，其具有移動估計322、移動補償318、與框儲存320之構件。

實施基於模型的預測之混合編碼解碼器

圖3D是根據本發明的一個實施例之一種範例的編碼解碼器的示意圖，該種編碼解碼器實施基於模型的預測。在362，編碼解碼器360可被組態以將一個目前的(目標)框編碼。在364，在該框中的各個巨集區塊可被編碼，俾使在366，一個標準H.264編碼處理被使用來定義其產生H.264編碼解法的基礎(基本)編碼。在一個較佳實施例中，編碼器366是一個H.264編碼器，其能夠。再者，H.264編碼器較佳為可組態，使得其可應用不同方法來將各個框內的圖素編碼，即：框內與框間的預測，該框間的預測能夠在多個參考框中搜尋對於被編碼的巨集區塊之良好匹配。較佳而言，在原始巨集區塊資料與預測之間的誤差被變換、量化、以及熵編碼。

較佳而言，編碼器360是在382利用CABAC熵編碼演算法來提供一種用於上下文(context)模型化的上下文有關、適應性元件。上下文模型化可被應用到諸如區塊型式、移動向量與量化係數之視訊資料的語法元素的一種二進制化序列，該二進制化處理運用預定義的元件。各個元素接著使用適應性或固定的機率模型而被編碼。上下文值可被用於機率模型的適當適應性。

競爭模式

在圖3D之中，在368，H.264巨集區塊編碼被分析。在368，若巨集區塊之H.264編碼被判斷為“有效率”，則H.264解法被視為接近理想，並無更進一步的分析被實行，且該種H.264編碼解法被目標巨集區塊所接受。在一個實施例中，H.264編碼的效率可藉由將H.264編碼尺寸(按位元計)與一個臨限比較而被判斷，該臨限可從先前編碼視訊或從稍早在同個視訊中的百分位數統計所導出。在另一個實施例中，H.264編碼的效率可藉由確定一個H.264編碼器是否已經宣告該目標巨集區塊為一個“跨越(skip)”巨集區塊而被判斷，其中在該目標巨集區塊之中及附近的資料是足夠均勻使得該目標巨集區塊實質為不需要任何附加編碼。

在368，若H.264巨集區塊解法並未被視為有效率，則附加分析被實行，且該種編碼器進入競爭模式380。在此模式中，基於多個模型378，數個不同的預測是針對於目標巨集區塊而產生。該等模型378是從在先前框374所檢測及追蹤的特徵376之識別而建立。注意，隨著各個新框362被處理(被編碼且接著被解碼及置放在框儲存器中)，該等特徵模型必須被更新以說明在新框362之中的新特徵檢測與關聯的特徵追蹤延伸。該等基於模型的解法382是基於其編碼尺寸384、連同先前取得的H.264解法而被排序。因為其使用一種基本編碼(H.264解法)或基於模型的編碼以將既定巨集區塊編碼之彈性，本發明被稱為一種混合編碼解碼器。

舉例來說，在競爭模式中，一種H.264編碼是對於目標巨集區塊所產生以將其壓縮效率(用較少數量的位元來將資料編碼之能力)相對於其他模式來比較。接著，對於使用在競爭模式中的各個編碼演算法而言，以下的步驟被執行：(1)基於使用的編碼解碼器模式/演算法來產生預測；(2)從目標巨集區塊相減該預測來產生一個剩餘訊號；(3)使用2-D基於區塊DCT之近似來變換該剩餘訊號(目標減預測)；(4)使用一個熵編碼器來將變換係數編碼。

在某些方面，基準H.264(框間)預測可被視為基於一種相當簡單、有限的模型(H.264是在競爭模式中所使用的演算法之一者)。然而，編碼器360的預測可為基於較複雜的模型(其為基於特徵或基於物件)、以及彼等模型的對應追蹤。若顯出資料複雜度的一個巨集區塊被檢測，編碼器360是在基於特徵的壓縮可實行得較傳統壓縮為佳之假設下而操作。

在競爭模式中之基於特徵的預測之使用

如上所述，對於各個目標巨集區塊，H.264解法(預測)是否對於該目標巨集區塊而言為有效率(“足夠良好”)之一個初始的確定被作成。若答案為否定，則進入競爭模式。

在圖3D，對於競爭模式380而言，進入競爭的“項目”是由對於上述的基於特徵的預測之種種處理選取所確定。各個項目包含對於目標巨集區塊的一個不同預測。本發明的基於特徵的預測之完整描述需要以下處理選取的規格：

- 追蹤器型式(FPA、MBC、SURF)

- 用於關鍵預測的移動模型(第0階或第1階)

- 用於關鍵預測的取樣方案(直接或間接)

- 用於關鍵預測的加副標題方案(無副標題、象限、Y/U/V)

- 重建演算法(KO或PCA-L)

- 用於次要預測(用於PCA-L)的參考框

對於一個既定目標巨集區塊的解法搜尋空間是由上文代表之所有本發明的基於特徵的預測、加上H.264解法(出自H.264的“最佳”框間預測)所構成。在一個實施例中，競爭模式包括上文所指出的處理選取 (追蹤器型式、用於關鍵預測的移動模型與取樣方案、加副標題方案、以及重建演算法)之所有可能組合。在另一個實施例中，競爭模式中的處理選取為可組態且可受限於一個合理的子集合之可能處理組合以省去計算。

對於競爭的潛在解法是藉由先前所指出的以下四個步驟而一次來評估一者：(1)產生預測；(2)從目標巨集區塊相減該預測來產生一個剩餘訊號；(3)變換該剩餘者；(4)使用一個熵編碼器來將變換係數編碼。在圖3D，上一個步驟的輸出382是與一個既定解法有關聯的若干個位元384。在各個解法已經評估之後，該種編碼器被轉回到其在該評估之前的狀態，使得下一個解法可被評估。在一個實施例中，在所有的解法已經被評估之後，對於競爭的一個“獲勝者”是藉由選擇具有最小編碼尺寸之一者而被選取370。獲勝的解法被接著再次送到編碼器372而作為對於目標巨集區塊的最終編碼。如上文所提到，此獲勝的解法是一個局部最佳的解法，由於其僅對於目標巨集區塊為最佳。在一個替代實施例中，最佳解法的選擇是免於大規模的編碼權衡折衷，其包括而不受限於在未來框中的上下文框內預測反饋與剩餘誤差效應。

關於獲勝解法的資訊被保存到編碼流386且被傳送/儲存以供未來的解碼。此資訊可包括而不受限於用於基於特徵的預測之上文提到的處理選取(例如：追蹤器型式、關鍵計算、加副標題方案、重建演算法、等等)。

在一些情形中，編碼器360可確定該目標巨集區塊並未由H.264來有效率編碼，而且亦沒有與該巨集區塊重疊的檢測特徵。在此情形中，最後辦法是編碼器不論以何種方式使用H.264來將該巨集區塊編碼。在一個替代實施例中，出自特徵追蹤器的軌跡可被延伸以產生一個擬特徵，其可重疊該巨集區塊且因此產生基於特徵的預測。

在一個實施例中，在圖2A之中的該四層間的移動是由競爭模式所管理。

使用基於特徵的預測之解碼

圖4是根據本發明的一個實施例之一種範例的解碼器的示意圖，該種解碼器是在本案受讓人的歐幾里得視覺(Euclid Vision)編碼解碼器內而實施基於模型的預測。解碼器400將編碼後的視訊位元流解碼以合成其產生框編碼402之輸入視訊框的一個近似者。框編碼402包括一組參數，其由解碼器400所使用以重建其對應視訊框418。

解碼器400是以編碼器所使用的相同切片定序而越過各個框，且該解碼器是以編碼器所使用的相同巨集區塊定序而越過各個切片。對於各個巨集區塊(在404)，解碼器依循如同編碼器的相同處理，確定(在406)是否要以傳統式來將巨集區塊解碼(在408)或是否要利用特徵模型與參數來將巨集區塊解碼(在416)。若一個巨集區塊是經由本發明之基於模型的預測來編碼，解碼器400取出要複製對於該解法的預測所需要的無論什麼特徵資訊(特徵軌跡、特徵參考框[GOP]、特徵移動向量)(在418)。該解碼器是在解碼期間來更新特徵模型(在410、412、414)，故其對於正被處理的特定框/切片/巨集區塊而言為與編碼器特徵狀態同步。

注意，因為記憶體限制，傳統的編碼解碼器典型為未將對於解碼框的整個預測上下文保留在圖3C的框儲存器352與快取記憶體348之中，而是僅為框(圖素)其本身。對照而言，本發明藉由按優先順序處理基於特徵的模型與參數之保留而延伸其儲存在圖3C的框儲存器352與快取記憶體348之中的預測上下文。

描述一個特徵模型的全組參數被習稱為該特徵的狀態，且此狀態必須被隔離以有效保留特徵模型。圖5是說明根據本發明的一個實施例之特徵實例的狀態隔離處理500的方塊圖。此狀態隔離資訊可為與一個目標巨集區塊有關聯且包括與相關特徵實例502有關聯的參數，其可有助於目標巨集區塊的編碼。狀態隔離資訊還可被使用以將預測的特徵插入在未來的視訊框中。各個各別的特徵實例具有一個關聯的GOP 504。各個GOP包括關於例如個別邊界資訊的個別狀態資訊。一個特徵實例的個別狀態隔離資訊可更包括關於任何相關的關聯物件、其個別切片參數506、及其個別熵狀態508的狀態資訊。以此種方式，狀態資訊提供關於特徵實例的GOP/切片/熵參數的邊界及其進入到新狀態與狀態上下文的對應延伸之指令。狀態資訊506、508可被使用以預測且將一個預測特徵的狀態插入到未來框中。

出自關聯特徵的巨集區塊資料(圖素)與狀態隔離資訊一起形成一個延伸的預測上下文。出自多個特徵實例的延伸上下文與其先前解碼的相鄰者可經結合。對於在圖3A的編碼器312以及在圖3B與3C的解碼器340之延伸的預測上下文可包括而不受限於：(1)一或多個巨集區塊；(2)一或多個相鄰巨集區塊；(3)切片資訊；(4)參考框[GOP]；(5)一或多個特徵實例；(6)物件/結構資訊。

基於參數模型的壓縮參數模型化之整合到編碼解碼器架構中

對照於上述的混合編碼解碼器實施，其中特徵模型被隱含式使用以對編碼器暗示何處找到對於巨集區塊的良好預測，特徵模型可被外顯式使用在編碼解碼器架構中。在目標框中的特定區域可由某些型式的模型(例如：臉部模型)所代表，且該代表是取決於在模型中的參數。此型式的外顯模型化是在此後被稱為參數模型化，而在以上段落所述的編碼解碼器實施使用非參數或經驗式的模型化。因為參數模型化預料到某些型式的特徵或物件(例如：臉部)，該模型化通常為由跨越該型式的所有可能特徵/物件之空間的一組基本向量所組成，且模型參數是目標區域在基本函數上的投射。

圖6A是說明根據本發明的一個替代實施例而實施參數模型化之一種編碼解碼器600的範例元件的方塊圖。在圖6A的編碼解碼器600可包括模組，用以實行適應性移動補償預測610、適應性移動向量預測612、適應性變換處理614、及/或適應性熵編碼616。

適應性移動補償模組610可經組態以基於具有特徵實例的框來選擇參考框618。若該等特徵的模型提供改良的壓縮效率，則彼等模型為出自其所導出的該等框可被選擇作為參考框，且一個關聯的圖像群可被產生。移動向量偏移626之內插可基於出自檢測特徵的參數而被實行。以此方式，對於一個預測特徵實例的新資料圖素可基於先前檢測特徵在一個離散組的已知資料點之範圍內而被構成。在傳統編碼器中的子磚分割處理612決策是藉由變形變化模型620的限制來作補充。變換處理614可為適以利用外觀變化模型622來限制外觀變化參數。熵編碼處理616可藉由本發明的編碼解碼器600之中的參數範圍/標度分析624與適應性量化628來作補充。造成的巨集區塊補充資料630是由編碼解碼器600所輸出。

使用參數模型化以經由適應性編碼來改良混合編碼解碼器

在一個替代實施例中，參數模型化可被使用來改良由上述的原始混合編碼解碼器所提供的預測。在一個實施例中，一個參數模型的元素被應用到現存的目標巨集區塊預測(諸如例如：上述競爭模式的輸出)以確定該預測是否可被改良。

圖6B說明基於參數模型的適應性編碼器634的一個應用。適應性編碼器634-1可經組態以補充其將被實行在諸如H.264的傳統編碼解碼器或在諸如上述者的一種混合編碼解碼器的編碼。由傳統移動補償預測處理所造成的圖素剩餘者636被分析638以確定該剩餘者的變形與外觀變化是否可藉由一種參數特徵模型而更有效率模型化642。在一個實施例中，可藉由測量在預測剩餘636與參數模型638之間的絕對變換差的總和(SATD)640的減小來確定參數模型的相對效率。若該參數模型被確定為一個有效率的代表，目標區域(巨集區塊)被投射到特徵模型(外觀與變形基礎)，產生其作為該剩餘訊號之編碼的特徵參數。

附加轉返能力634-2是由此實施例所提供以測試替代的剩餘模型化在目前GOP、切片、與熵狀態內的適用性。舉例來說，對於串列中之被編碼的目前框而言在視訊框序列中為遠距的參考框644、GOP、與特徵(切片)646可被考慮作為在預測中的參考，而此將對於傳統編碼為不實用。再者，亦為可能的是，轉返可來自其他的視訊資料，諸如：其他視訊檔案，若出自彼等其他視訊檔案的特徵模型提供改良的壓縮。

經由參數式模型參數的內插之基於特徵的預測

當一個特徵的多個實例出現在視訊流中，合意為將該特徵模型的不變構件保存，不變構件被定義為並未逐個框而改變的構件。就參數式的特徵模型化而言，不變構件是特徵模型的某些參數(例如：代表不同基礎函數之加權的係數)。就非參數式(經驗式)的特徵模型化而言，不變構件是典型為特徵圖素其本身。不變模型構件之保存可作為針對於特徵移動估計與補償如何被實行的一種指導原則(此後稱為“不變原則”)。

圖6C是說明根據本發明的一個實施例之由不變性原理所指導而經由特徵模型參數內插的特徵移動補償預測的方塊圖。在圖6C，移動補償預測處理668是藉由將出自數個特徵實例的模型參數調整為朝向該等參數的一個不變實例而開始，即：其習稱為正規化的一種處理。特徵實例(“經匹配的巨集區塊”)之聚集(670)可被使用來產生(672)數個型式的內插函數(674、676、678、與680)以將該等實例正規化朝向不變實例。該等模型參數的不變實例682可被定義為在關鍵框中之該組的模型參數值。於是，該不變實例是代表在基於特徵的模型中之大部分(若非全部)的預測/型樣。該不變實例是在概念上類似於由該等實例的外觀參數之向量化形式所構成的一個向量空間的質心。

不變實例682可接著作為在其上使用該等內插函數(674、676、678、與680)的一者來外推該目標的位置684之關鍵型樣。此種內插/外推處理可被使用來預測該特徵在目標框中的框位置、外觀變化、與變形變化。該等特徵的不變代表以及該等特徵實例的小型參數形式之組合代表相較於傳統壓縮而在快取來源參考框中含有的特徵之外觀與變形所需要的記憶體量的顯著減少。換言之，對於壓縮而言為相關且有用之框中的資料被簡潔地捕捉在該等特徵模型中。

在一個替代實施例中，假定該等特徵實例出現處的參考框與目前(目標)框之間的已知時間間隔，出自二或多個特徵實例的特徵模型參數可被用來預測目標區域的狀態。在此情形，依循不變原則，假定時間步進的二或多個特徵參數之外推，一個狀態模型可被用來預測對於目標區域的特徵參數。該種狀態模型可為線性或較高階(例如：一種延伸式卡爾曼(Kalman)濾波器)。

特徵模型資訊之快取組織及存取

在產生特徵模型過程期間，經常的情形是在於，特定特徵的多個實例是在一個既定視訊中被找到。在此情形，特徵模型資訊可藉由在快取之前組織該模型資訊而被有效率儲存或快取。此技術可被應用到參數式以及非參數式的基於模型的壓縮方案。

在圖3C，舉例來說，若確定的是，基於特徵的模型化預測上下文資訊之使用改良了壓縮效率，則快取記憶體348(包括框儲存器352)可經組態以包括基於特徵的模型化預測上下文資訊。要存取未快取的基於特徵的預測上下文資料之嘗試可能會產生使系統的響應性與決定性降低之負擔。此負擔可藉由提早快取預先處理的基於特徵的編碼預測上下文而為最小化。此舉提供一種方式，藉其可避免大量重覆存取與基於特徵的預測上下文有關的資料。

編碼器312/解碼器340(圖3A、3C)可使用例如一種快取記憶體來組態，該快取記憶體為適以提高視訊處理的執行速度與效率。該視訊處理的效能可取決於能夠將基於特徵的編碼預測資料儲存在快取記憶體中以使得其在快取記憶體中為接近於關聯的編碼視訊資料，即使該編碼視訊資料並未在空間上接近於該等基於特徵的編碼預測資料為自其原始導出之框。快取記憶體的鄰近度是與對於該資料的存取潛伏期、作業延遲、傳輸時間有關聯。舉例來說，若來自多個框的特徵資料被容納在少量的實際記憶體中且以該種形式來存取，此舉比起存取彼等特徵為在持續儲存裝置上自其導出之框而言為更有效率許多。編碼器312/解碼器340(圖3A、3C)可包括一種組態器，其將預測資料儲存在快取記憶體中以確保當一個巨集區塊或框被解碼時，基於特徵的預測上下文資訊可易於從快取記憶體/緩衝器/框儲存器所存取。

本發明的某些實施例可將快取延伸，藉由首先在先前解碼框中來定義二個類型的特徵相關，即：用於快取之局部與非局部的先前解碼資料。局部快取可為一組先前解碼框，其可為成批、或成群的框而存取，但構成彼等群的特定框是由檢測的特徵所確定。局部快取是由在目前框中檢測的特徵所驅動。局部快取是當對於目前框/巨集區塊有相當少的“強”特徵模型(具有長歷史的模型)時而大為使用。局部快取處理是基於批次移動補償的預測，且成群的框被儲存在參考框緩衝器中。圖7A是說明根據本發明的一個實施例之範例的快取架構710-1的概觀的方塊圖。快取存取架構710-1包括用於局部快取存取712(716、718、720、722、與724)以及遠距快取存取714(726、728、730、與732)的決策處理710。若特徵主要為局部712(例如：對於目前框/巨集區塊有相當少的強特徵模型)，則局部快取處理718被提供。

圖7B是說明在利用局部(近距)快取資料734所涉及的處理的方塊圖。局部快取可為一組先前解碼框，其可為成批、或成群的框而存取，但構成彼等群的特定框是由檢測的特徵所確定。在圖7B的局部快取734 僅為群組“短歷史”的特徵，即：其軌跡僅包含少數個框的彼等者。由短歷史特徵所涵蓋之聚集組的框確定對於彼等特徵的一個聯合框組738。在該聯合框組738之中的諸框可基於在個別框中的特徵軌跡的複雜度而按優先順序處理740。在一個實施例中，複雜度可由於諸如H.264的一種基本編碼處理之特徵編碼成本所確定。參考圖3B、3C、7A、與7B，局部快取可被儲存在框儲存器352或在快取緩衝器348之中。在720，局部快取的框被利用。在722，基於檢測特徵實例的GOP/批次742可接著被形成。在724，基於檢測特徵實例的GOP/批次可被測試，作為用於移動補償預測處理的參考框744。以此方式所作成的移動補償預測可被稱為“偏(biased)”向特徵追蹤資訊，因為用於移動估計的參考框是具有先前檢測特徵實例的諸框。在746，附加轉返能力被提供以測試剩餘模型化在GOP/批次、切片、與熵狀態內的適用性。以此方式，對於被編碼的目前框而言在視訊框序列中為遠距的參考框可更有效率地被評估。

因此，本發明的某些實施例是能夠將分析應用到過去框以確定其將具有最高機率來提供對於目前框的匹配之該等框。此外，參考框的數目可相較於在傳統的壓縮所見到之典型1到16的參考框最大值而為更大許多。視系統資源而定，參考框可為總數達到系統記憶體的極限，假設在彼等框之中有充分數目的有用匹配。再者，由本發明所產生的資料之中間形式可減少用於儲存相同數目的參考框所需要的記憶體量。

當圖7A之中的該等特徵具有延伸歷史726，特徵是位在其主要為非局部/遠距快取的儲存器之中。非局部快取是基於二種不同的快取存取方法，即：框以及保留。非局部快取中的框存取是直接存取框以產生其接著被利用來將目前框編碼的特徵模型。保留模式不直接存取先前解碼的資料，而是利用其已經保留如同從彼等先前解碼框所導出的資料之特徵模型(在彼等框中的特徵模型與特徵模型實例的參數)且因而可被用以合成該相同資料。在728，用於特徵實例的模型被存取。在730，參考框被存取，且在732，最佳的參考框與模型之組合被標明以供使用。關於最佳化的準則是基於對於在各個參考框中的特徵模型的中間特徵資訊，其包括特徵強度與特徵頻寬。

遠距快取714可為較佳在解碼器狀態中可存取的任何先前解碼資料(或編碼資料)。該快取可包括例如參考框/GOP，其概括為在被編碼的目前框之前的若干個框。該種解碼器快取考慮到先前解碼框的其他組合為可用來將目前框解碼。

圖7C是說明在利用遠距快取資料所涉及的處理的方塊圖。遠距(非局部)快取748說明較長範圍的快取架構。遠距快取是從局部快取而初始化750，此響應於檢測特徵具有延伸歷史之確定752，該延伸歷史是就與彼等特徵有關聯的對應模型的再次出現實例以及重複應用性而論。該種處理接著確定哪個保留模式754被使用。非局部快取的二個模式是保留760與非保留756。非保留756是一種傳統的移動補償預測處理，其增加有基於特徵模型的預測(類似於上述用於混合編碼解碼器的隱含模型化之使用)。非保留模式756因此存取參考框758以得到可行的預測。保留模式是類似於非保留模式，但是使用其明顯來自特徵模型其本身的預測762、766。該保留模式必須將預測搜尋限制在針對於該特徵模型能夠合成其模型化的特徵之資料。再者，特徵模型可含有實例參數化，針對於在先前框中的特徵實例，其將為等效於在彼等先前框中所含有的圖素。描述彼等參數的函數之內插法亦可被使用來提供對於移動補償預測處理的預測以利於框合成764。

運用特徵總體之本發明的一些實施例說明快取特徵資訊之使用以供編碼。在此等實施例中，一個子集的特徵總體被用以代表(模型化)整個總體。如上文所提到，此類子集可使用例如SVD來作選擇。一旦選擇時，一個子集的特徵實例作為對於該總體的基礎且可經快取及使用以每當對應的特徵出現在該視訊的後續框中(或在其他視訊中)而將其編碼。此子集的特徵實例使特徵為緊密且準確地模型化。

數位處理環境和通訊網路

本發明的範例實施可在軟體、韌體、或硬體環境中被實施。在一個實施例中，圖8A說明一個此類的環境。客戶端電腦/裝置810與雲端812(或其伺服器電腦或叢集)提供處理、儲存、及輸入/輸出裝置以執行應用程式與類似者。客戶端電腦/裝置810還可透過通訊網路816而被連結到其他計算裝置，其包括其他客戶端裝置/處理810與伺服器電腦812。通訊網路816可為部分的遠端存取網路、總體網路(例如：網際網路)、全球聚集的電腦、區域或廣域網路、及閘道，其目前使用個別協定(TCP/IP、藍牙(Bluetooth)、等等)來彼此通訊。其他的電子裝置/電腦網路架構亦為合適。

圖8B是在圖8A的處理環境中之一個電腦/計算節點(例如：客戶端處理器/裝置810或伺服器電腦812)的內部結構的示意圖。各個電腦810、812含有系統匯流排834，其中，一個匯流排是一組的實際或虛擬硬體線路，其用於在一個電腦或處理系統的構件之間的資料轉移。匯流排834 本質為其連接一個電腦系統的不同元件(例如：處理器、磁碟儲存器、記憶體、輸入/輸出埠、等等)之一種共用的管道，其致能在該等元件之間的資訊轉移。用於將種種輸入與輸出裝置(例如：鍵盤、滑鼠、顯示器、印表機、喇叭、等等)連接到電腦810、812的I/O裝置介面818被附接到系統匯流排834。網路介面822允許電腦連接到其附接到一個網路(例如：在圖8A的816所示的網路)的種種其他裝置。記憶體830提供對於用以實施本發明的一個實施例(例如：編碼解碼器、視訊編碼器/解碼器編碼)之電腦軟體指令824與資料828的依電性儲存。磁碟儲存器832提供對於用以實施本發明的一個實施例之電腦軟體指令824(等效而言"OS程式" 826)與資料828的非依電性儲存；其還可經使用以壓縮格式來儲存視訊而供長期的儲存。中央處理器單元820亦被附接到系統匯流排834且提供電腦指令之執行。注意，"電腦軟體指令"與"OS程式"在本文中為等效。

在一個實施例中，處理器常式824與資料828是一個電腦程式產品(概括參照為824)，其包括能被儲存在儲存裝置828之上的電腦可讀媒體，其提供用於本發明系統之至少一部分的軟體指令。電腦程式產品824可藉由任何適合的軟體安裝程式所安裝，如在此技藝中眾所周知者。在另一個實施例中，至少一部分的軟體指令亦可為透過纜線、通訊、及/或無線連接所下載。在其他實施例中，本發明程式是一種實施在傳播媒體上的傳播訊號(例如：透過諸如網際網路的總體網路、或其他網路所傳播的無線電波、紅外線波、雷射波、聲波、或電波)之電腦程式傳播訊號產品814(在圖8A中)。此類的載波媒體或訊號提供用於本發明常式/程式824、826之至少一部分的軟體指令。

在替代實施例中，傳播訊號是承載在傳播媒體上的類比載波或數位訊號。舉例來說，傳播訊號可能是透過總體網路(例如：網際網路)、電訊網路、或其他網路所傳播的數位化訊號。在一個實施例中，傳播訊號是在一段時間期間透過傳播媒體所播送，諸如：用於軟體應用程式的指令是在毫秒、秒、分、或更長的一段期間透過網路以封包所傳送。在另一個實施例中，電腦程式產品824的電腦可讀媒體是電腦系統810可接收且讀取的一種傳播媒體，諸如：藉由接收該傳播媒體且識別在該傳播媒體所實施的傳播訊號，如對於電腦程式傳播訊號產品之上文所述。

基於特徵的顯示工具

圖8C是根據範例的實施之一種基於特徵的顯示工具的螢幕截圖840。螢幕截圖840顯示一個視訊框，其具有以方框842所識別的特徵。對於該框的視訊框序列上下文是在844所識別。特徵842是透過框844所追蹤，產生其經表示在顯示器部分846的數個特徵組。在一個特定的特徵組846之內，有複數個特徵構件(特徵實例)848。一個資料區顯示特徵頻寬852，即：傳統壓縮要將特徵編碼所需要的位元數目。此種特徵檢測處理的一個指示850亦被顯示在該資料區中。該種工具顯示其在主題視訊中所識別的所有特徵與特徵軌跡。

經偏壓到臉部的一種臉部追蹤器可被使用以利於臉部檢測。臉部檢測可被使用以將特徵群組在一起。圖8E是顯示由臉部追蹤器所標示的一個臉部864的螢幕截圖860-2。圖8D是顯示用對於臉部以及非臉部特徵的編號862所標示的特徵的螢幕截圖860-1。在此範例中，圖8D所示的編號代表透過框之該等特徵的追蹤長度。藉由基於臉部偏壓來將特徵群組在一起，可建立一個模型，其可被使用來將重疊各個臉部的多個巨集區塊編碼。

在一個關注區域內的所有圖素/像素可使用臉部模型來代替僅僅使用一種H.264編碼器處理而作編碼。由於臉部模型的直接應用，偏壓為不必要，且H.264未被使用來選擇先前的參考框。該臉部是基於特徵對應模型所產生，且接著較低層的處理被使用以將剩餘者編碼。

數位權利管理

在一些實施例中，本發明的模型可被使用作為控制對於編碼數位視訊的存取之一種方式。舉例來說，在沒有相關模型的情況下，使用者將無法播放視訊檔。此種方式的一個範例實施是論述在西元2008年1月4日所提出的美國申請案第12/522,357號，其整體揭示內容是以參照方式而納入本文。該等模型可被用以“鎖定”視訊或被使用作為存取視訊資料的關鍵。用於編碼視訊資料的播放作業可視該等模型而定。此種方式使得該編碼視訊資料在沒有對於該等模型之存取的情況下為不可讀取。

藉由控制對於該等模型之存取，對於內容的播放之存取可被控制。此方案可提供一種容易使用、容易開發且有效率的解決方式來限制對於視訊內容之存取。

此外，該等模型可漸進開啟內容。用該等模型的某個版本，一種編碼可能僅解碼到某個程度；接著用漸進更為完整的模型，整個視訊將被開啟。初始開啟可能致使視訊的縮圖能夠被開啟，讓使用者能夠確定其是否想要完整視訊。想要標準定義版本的使用者將取得該等模型的下個遞增版本。再者，需要高畫質或電影品質的使用者將下載該等模型的更加完整版本。該等模型是在沒有冗贅性的情況下以如同利於其與編碼尺寸及品質相稱的視訊品質之漸進實現的一種方式而被編碼。

彈性的巨集區塊定序與可擴充的視訊編碼

為了改良編碼處理且產生壓縮裨益，本發明的範例實施例可延伸傳統的編碼/解碼處理。在一個實施例中，本發明可用彈性的巨集區塊定序(FMO,flexible macroblock ordering)與可擴充的視訊編碼(SVC,scalable video coding)來作應用，其本身為對於基本H.264標準的延伸。

FMO將在一個編碼框中的巨集區塊分配到數個型式的切片群中的一者。該分配是由一個巨集區塊分配映圖所確定，且在一個切片群內的巨集區塊不必為相連。FMO可對於誤差彈性為有用，因為切片群被獨立解碼：若一個切片群是在位元流的傳輸期間喪失，在該切片群中的巨集區塊可由在其他切片中的相鄰巨集區塊所重建。在本發明的一個實施例中，基於特徵的壓縮可被整合為在一種FMO實施中的“前景與背景”巨集區塊分配映圖型式。與特徵關聯的巨集區塊包含前景切片群，且其他巨集區塊(未與特徵關聯的彼等者)包含背景切片群。

SVC是以不同的位元率來提供視訊資料的多種編碼。一個底層是以低的位元率來編碼，且一或多個加強層是以較高的位元率來編碼。SVC位元流之解碼可涉及僅為底層(用於低的位元率/低品質應用)或是一些或所有的加強層(用於較高的位元率/較高品質應用)。因為SVC位元流的子位元流其本身為有效的位元流，SVC之使用是在不同應用方案中提供提高的彈性，不同應用方案包括藉由多個裝置(取決於裝置能力以不同品質)之SVC位元流的解碼以及在諸如網際網路串流之具有變動通道通量的環境中的解碼。

在SVC處理之中有三種常見型式的可擴充性：時間、空間、品質。在本發明的一個實施例中，基於特徵的壓縮可被整合為一種品質可擴充性的實施，藉由在底層中包括主要的基於特徵的預測(參閱：關於基於模型的主要與次要預測之上述段落)。在底層中的編碼框可接著作為用於在加強層中之編碼的參考框，在加強層，次要的基於特徵的預測可被使用。以此方式，出自基於特徵的預測之資訊可被遞增而非一次全部加到編碼。在一個替代實施例中，所有(主要與次要)的基於特徵的預測可被移動到加強層，而僅有傳統的預測被使用在底層中。

應被指明的是，雖然本文所述的圖式說明範例的資料/執行路徑與構件，熟習此技藝人士將瞭解的是，往返於彼等個別構件的資料之作業、配置、與流程可取決於被壓縮的視訊資料之實施與型式而改變。因此，可使用資料模組/資料路徑的任何配置。

儘管本發明已經特別關於其範例的實施例所顯示且描述，將為熟習此技藝人士所瞭解的是，在沒有脫離由隨附申請專利範圍所涵蓋的本發明範疇之情況下，可在其中作出於形式與細節上的種種變化。

10-1、10-2、…、10-n‧‧‧檢測的特徵實例

20-1、20-2、…、20-n‧‧‧視訊框

30-1、30-2、…、30-n‧‧‧特徵區域

40‧‧‧總體矩陣

Claims

一種用於處理視訊資料的方法，其包含：在至少一個框中使用一種檢測演算法來檢測在關注區域中的一個特徵與一個物件之中的至少一者；使用一組參數來將該特徵與該物件之中的經檢測的至少一者模型化；跨框而使該特徵與該物件之中的該至少一者的任何實例有關聯；形成該等關聯實例的至少一個軌跡；使該至少一個軌跡與待編碼的視訊資料中的至少一個特定區塊相關；及使用該相關軌跡資訊來產生對於視訊資料中的該至少一個特定區塊之基於模型的預測，該產生包括將該基於模型的預測儲存為經處理的視訊資料。
如申請專利範圍第1項之方法，其中該檢測演算法是一個類別的非參數特徵檢測演算法。
如申請專利範圍第1項之方法，其中該組參數包括關於該特徵與該物件之中的該至少一者的資訊且被儲存在記憶體中。
如申請專利範圍第3項之方法，其中該個別特徵的個別參數包括該個別特徵的一個特徵描述符號向量與一個位置。
如申請專利範圍第4項之方法，其中該個別參數是當該個別特徵被檢測時而產生。
如申請專利範圍第1項之方法，其中視訊資料中的該至少一個特定區塊是一個巨集區塊，該至少一個軌跡使特徵與該巨集區塊相關。
一種用於處理視訊資料的方法，其包含：檢測在關注區域中的一個特徵與一個物件之中的至少一者；使用一組參數來將該特徵與該物件之中的該至少一者模型化；跨框而使該特徵與該物件之中的該至少一者的任何實例有關聯；形成該等關聯實例的至少一個矩陣；使該至少一個矩陣與待編碼的視訊資料中的至少一個特定區塊相關；及使用該相關矩陣資訊來產生對於視訊資料中的該至少一個特定區塊之基於模型的預測，該產生將該基於模型的預測儲存為經處理的視訊資料。
如申請專利範圍第7項之方法，其中該組參數包括關於該特徵與該物件之中的該至少一者的資訊且被儲存在記憶體中。
如申請專利範圍第8項之方法，其中該個別特徵的個別參數包括該個別特徵的一個特徵描述符號向量與一個位置。
如申請專利範圍第9項之方法，其中該個別參數是當該個別特徵被檢測時而產生。
如申請專利範圍第7項之方法，其更包含：使用某個向量空間的至少一個子空間來將該至少一個矩陣總結作為該特徵與該物件之中的該關聯至少一者的一個參數模型。
一種用於處理視訊資料的編碼解碼器，其包含：基於特徵的檢測器，其被組態以識別在至少二個視訊框中的一個特徵的實例，其中各個經識別的特徵實例包括複數個像素來呈現相對於在該一或多個視訊框中的其他像素的資料複雜性；模型化器，其被運作耦合到該基於特徵的檢測器，且被組態以建立基於特徵的對應模型，其將在二或多個視訊框中的特徵實例的對應者模型化；及快取記憶體，若經確定該等特徵實例使用該等基於特徵的對應模型之編碼是相對於該等特徵實例使用第一視訊編碼處理之編碼而提供改良的壓縮效率，該快取記憶體被組態以按優先順序處理該等基於特徵的對應模型之使用。
如申請專利範圍第12項之編碼解碼器，其中該資料複雜性是當藉由傳統視訊壓縮技術之該等像素的編碼超過一個預定臨限而被確定。
如申請專利範圍第12項之編碼解碼器，其中該資料複雜性是當藉由傳統視訊壓縮技術將該特徵編碼所分配的頻寬量超過一個預定臨限而被確定。
如申請專利範圍第14項之編碼解碼器，其中該預定臨限是下列中的至少一者：預設值、經儲存在資料庫中的預設值、設定為對於先前編碼特徵所分配的平均頻寬量的值、以及設定為對於先前編碼特徵所分配的中間頻寬量的值。
如申請專利範圍第12項之編碼解碼器，其中該第一視訊編碼處理包括一種移動補償預測處理。
如申請專利範圍第12項之編碼解碼器，其中使用之按優先順序處理是由對於在競爭模式內的各個潛在解法的編碼成本之比較所確定，潛在解法包含追蹤器、關鍵預測移動模型、關鍵預測取樣方案、子磚方案、重建演算法、以及(可能)次要預測方案。
如申請專利範圍第17項之編碼解碼器，其中該基於特徵的模型化之使用之按優先順序處理啟動該特徵實例之資料複雜性程度的使用來作為臨限值，俾使若一個特徵實例呈現如同該臨限值之相同或更高程度的資料複雜性，則該編碼器自動確定啟動使用基於特徵的壓縮在未來的特徵實例。
如申請專利範圍第12項之編碼解碼器，其中該特徵檢測器利用FPA追蹤器、MBC追蹤器、與SURF追蹤器之中的一者。
一種用於處理視訊資料的編碼解碼器，其包含：基於特徵的檢測器，用以識別在至少二個視訊框中的一個特徵的一個實例，經識別的特徵實例包括複數個像素來呈現相對於在該至少二個視訊框之至少一者中的其他像素的資料複雜性；模型化器，其被運作耦合到該基於特徵的檢測器，其中該模型化器建立一個基於特徵的對應模型，其將在該至少二個視訊框中之個別經識別的特徵實例的對應者模型化；及記憶體，其中對於複數個基於特徵的對應模型，若該經識別的特徵實例之改良壓縮效率被確定，該記憶體按優先順序處理個別的基於特徵的對應模型之使用。
如申請專利範圍第20項之編碼解碼器，其中該經識別的特徵實例之改良壓縮效率是藉由相對於下列中的一者來比較該經識別的特徵之壓縮效率而確定：該特徵實例使用第一視訊編碼處理之編碼以及經儲存在資料庫中的預定壓縮效率值。
一種用於處理視訊資料的方法，其包含：藉由將一個特徵圖素與一個特徵描述符號之中的至少一者向量化來使一個特徵模型化；藉由下列中的至少一者來識別類似的特徵：(a)使均方誤差(MSE)為最小化以及(b)使在不同的特徵圖素向量或特徵描述符號之間的內乘積為最大化；及應用一種標準的移動估計及補償演算法以導致該特徵的平移移動，造成經處理的視訊資料。
一種用於處理視訊資料的方法，其包含：藉由組態一個編碼解碼器以將目標框編碼來實施基於模型的預測；使用傳統編碼處理來將該目標框中的一個巨集區塊編碼；分析該巨集區塊編碼，其中該巨集區塊之傳統編碼被視作為有效率與無效率之中的至少一者；其中若該傳統編碼被視作無效率，該編碼器是藉由基於多個模型而產生對於該巨集區塊的數個預測來分析；且其中該巨集區塊的數個預測之評估是基於一個編碼尺寸；及用該傳統編碼後的巨集區塊來將該巨集區塊的預測排序。
如申請專利範圍第23項之方法，其中若編碼尺寸是小於預定的臨限尺寸，該巨集區塊之傳統編碼為有效率。
如申請專利範圍第23項之方法，其中若該目標巨集區塊是一個跨越巨集區塊，該巨集區塊之傳統編碼為有效率。
如申請專利範圍第23項之方法，其中若編碼尺寸是大於一個臨限，該巨集區塊之傳統編碼為無效率。
如申請專利範圍第23項之方法，其中若該巨集區塊之傳統編碼被視作無效率，對於該巨集區塊之競爭模式編碼被產生來比較其相對的壓縮效率。
如申請專利範圍第27項之方法，其中該用於競爭模式的編碼演算法包括：從該巨集區塊相減該預測來產生一個剩餘訊號；使用2-D基於區塊DCT之近似來變換該剩餘訊號；及使用一個熵編碼器來將變換係數編碼。
如申請專利範圍第23項之方法，其中該編碼器為藉由產生數個預測來分析是包括產生其總計一個主要預測與一個次要預測的加權者之一個複合預測。
一種用於處理視訊資料的方法，其包含：以多重保真度來將資料模型化用於基於模型的壓縮，該多重保真度包括一個巨集區塊層、一個如同特徵的巨集區塊層、一個特徵層、與一個物件層之中的至少一者；其中該巨集區塊層使用基於區塊的移動估計及補償(BBMEC)應用以從在先前解碼的參考框中之一個有限搜尋空間來找到對於各個磚的預測；其中該如同特徵的巨集區塊層(i)使用相同於該巨集區塊層之第一個BBMEC應用以從一個最近的參考框來找到對於一個目標巨集區塊的第一個預測，(ii)使用第二個BBMEC應用以藉由在第二個最近的框中搜尋來找出對於該第一個預測的第二個預測，且(iii)藉由將BBMEC應用施加在逐漸較久的框中而建立對於該目標巨集區塊的一個軌跡；其中該特徵層是無關於該巨集區塊柵格而檢測及追蹤特徵且使該等特徵與重疊的巨集區塊有關聯，俾使特徵軌跡被用來導航先前解碼的參考框以找到對於該等重疊的巨集區塊之較佳匹配；且當多個特徵重疊一個既定的目標巨集區塊，具有最大重疊的特徵被選擇來將該目標巨集區塊模型化；且其中在該物件層，一個物件涵蓋或重疊多個巨集區塊，單一個移動向量可對於與該物件有關聯的所有巨集區塊而作計算以造成在計算與編碼尺寸的節省。
如申請專利範圍第30項之方法，其中該多個保真度被依序檢驗。
如申請專利範圍第30項之方法，其中該多個保真度是在競爭模式中被檢驗。
一種電腦程式產品，其包含程式碼元件，當被載入到電腦時，控制該電腦來實行如申請專利範圍第1項之方法。
一種電腦程式產品，其包含程式碼元件，當被載入到電腦時，控制該電腦來實行如申請專利範圍第7項之方法。
一種電腦程式產品，其包含程式碼元件，當被載入到電腦時，控制該電腦來實行如申請專利範圍第22項之方法。
一種電腦程式產品，其包含程式碼元件，當被載入到電腦時，控制該電腦來實行如申請專利範圍第23項之方法。
一種電腦程式產品，其包含程式碼元件，當被載入到電腦時，控制該電腦來實行如申請專利範圍第30項之方法。