TWI423167B

TWI423167B - 壓縮視訊源之多圖框移動外推技術

Info

Publication number: TWI423167B
Application number: TW097107011A
Authority: TW
Inventors: Richard W Webb
Original assignee: Dolby Lab Licensing Corp
Priority date: 2007-03-09
Filing date: 2008-02-29
Publication date: 2014-01-11
Also published as: WO2008112072A3; JP2010521118A; WO2008112072A2; CN101641956A; CN101641956B; US20100202532A1; TW200844902A; EP2123054A2

Description

壓縮視訊源之多圖框移動外推技術

發明領域

本發明一般是關於視訊信號處理，且較特別地，是關於導出有關由一視訊信號中的視訊資料的一圖像或圖框序列表示的影像中的視運動的資訊的信號處理。

發明背景

各種視訊信號處理應用依賴於能夠檢測由一視訊信號中的一圖像或圖框序列表示的影像中的視運動。這些應用中的兩個範例是資料壓縮及雜訊降低。

資料壓縮的一些形式依賴於能夠檢測兩圖像或圖框之間的運動，藉此視訊資料的一圖框可以被框間編碼視訊資料，或者相對於另一圖框中的一相應部分的資料，表示資料的一圖框的至少一部分的資料較有效地表示。使用運動檢測的視訊資料壓縮的一範例是MPEG－2壓縮，其被描述於名為“Generic Coding of Moving Pictures and Associated Audio Information：Video”的國際標準ISO/IEC 13818－2以及名為“Guide to the Use of the ATSC Digital Television Standard”的高階電視標準委員會(ATSC)第A/54號文件中。MPEG－2技術透過空間編碼技術來壓縮視訊資料的一些圖框而不參考視訊資料的任何其他圖框以產生獨立視訊資料或框內編碼視訊資料的各個I－圖框。其他圖框被使用運動檢測及預測的時間編碼技術壓縮。向前預測被用以產生框間編碼視訊資料的各個P－圖框或預測圖框，而向前與向後預測被用以產生框間編碼視訊資料的各個B－圖框或雙向圖框。順應MPEG－2的應用可以根據一固定排程，如每隔15個圖框，來選擇圖框進行框內編碼，或者它們可以根據一適應性排程來選擇圖框。一適應性排程可以基於與檢測相鄰圖框間的運動或者內容中的差異(如果需要的話)有關的準則。

一些雜訊降低技術依賴於能夠識別一影像中發生運動的部分，或者可選擇地，沒有發生運動的部分。用於降低雜訊的一系統使用運動檢測來控制一時間低通濾波器到一圖框序列中的各個圖框中的對應圖像元素或“像素”中的應用。藉由僅將其低通濾波器應用於該影像中未檢測到運動的那些區域，這種形式的雜訊降低避免了使移動物件的出現變模糊。該低通濾波器的一實施為一圖框序列中的對應像素計算一移動平均值以及用該平均值替代該目前圖框中的各個像素。

MPEG－2壓縮將一運動向量用於框間編碼以表示視訊資料的兩圖框之間的運動。該MPEG－2運動向量表示兩不同圖像或圖框之間的一圖像的一區域的水平或垂直位移。

這裏提到的壓縮應用及雜訊降低應用的效能一般隨著一給定的圖框序列的運動向量數目的增加而改善。

數種方法已被開發以透過檢測圖框間的差異來導出運動向量。一種眾所周知的方法使用了一項被稱為區塊匹配的技術，該項技術將視訊資料的一“目前”圖框中的視訊資料與資料的一“參考”圖框中的視訊資料做比較。一目前圖框中的資料被分成一區塊陣列，例如，16×16像素或8×8像素的區塊，以及該目前圖框中的各個區塊的內容被與該參考圖框中的一搜尋區域內的像素陣列做比較。如果該目前圖框中的一區塊與該參考圖框的一區域之間找到一匹配，則該區塊所表示的影像的該部分的運動可被視為已發生。

該搜尋區域通常是該參考圖框的一矩形區域，其具有一特定高度及寬度且位居各個區塊的對應位置的中部。該搜尋區域的高度及寬度可以是固定的或適應性的。一方面，一較大的搜尋區域允許對應於較高移動速度的較大量的位移被檢測到。另一方面，一較大的搜尋區域增加了被需要用以執行區塊匹配的計算資源。

一範例可能有助於說明可能需要用於區塊匹配的計算資源的大小。在此範例中，視訊資料的每一圖框由一個1080×1920像素的陣列表示，以及每一圖框被分成8×8像素的區塊。因此，每一圖框被分成一個32400＝135×240區塊的陣列。該搜尋區域被中置於要被匹配的各個區塊的位置上且高為64個像素及寬為48個像素。在一實施中，一區塊中的每一像素被與該搜尋區域之所有8×8子區域中的各個像素做比較。在此範例中，不在影像的邊緣處的區塊的搜尋區域具有2240＝56×48個子區域；因此，143K以上的像素比較被需要用以檢查單個區塊的運動。對位在該影像的邊緣處或其附近的區塊，只需要較少的比較，因為該搜尋區域受該影像的邊緣限制。然而，幾乎需要對每一圖框進行 4.5×10⁹ 次像素比較。如果該圖框是以每秒60個圖框的一速率呈現資料的一視訊資料流的一部分，則每秒必須執行267×10⁹ 次以上的像素比較以僅僅比較相鄰圖框中的像素。

對應較大數目的比較被需要，如果要對包括彼此不相鄰而是被較大的時間距離分隔開的圖框對的較大數目的圖框執行區塊匹配的話。一些系統的實施將處理硬體與管線架構合併來為較低的成本獲得較高的處理能力，但即便如此，這些較低的成本對於許多應用而言仍然太高。最佳化技術已被提議以降低區塊匹配的計算需求，但這些技術還沒有像期望的那樣有效，因為它們需要中斷具有一管線架構的處理器中的處理流程的條件邏輯。

發明概要

本發明的一目的在於提供一種有效的方法以獲取被安排在一圖像或圖框序列中的視訊資料的大量運動向量。

在此內文中以及在此揭露內容的其餘部分中，“運動向量”這一用語指的是可被框間編碼用以相對於另一圖框中的一相應部分的資料，表示資料的一圖框的至少一部分的任何資料構造，其通常表示視訊資料的兩圖框之間的運動。該用語未被限制於上述MPEG－2中提及的精確構造。例如，該用語“運動向量”包括ISO/IEC 14496標準的第10部分中所提及的區塊大小可變的運動補償資料構造，ISO/IEC 14496標準也稱為MPEG－4先進視訊編碼(AVC)或ITU－T H.264標準。MPEG－2標準確實為此揭露內容提供了一有用的範例。MPEG－2標準中所定義的運動向量指定一影像的一來源區域、一第二影像中的一目的地區域，以及自該來源區域到該目的地區域的水平及垂直位移。額外的資訊可被包括在一運動向量中或者與其相關聯。例如，MPEG－2標準提到一資料構造，該資料構造具有可能與一運動向量相關聯的該來源區域中的部分影像與該目的地區域中的部分影像之間的差異或預測誤差。

本發明的一層面教示了接收傳送視訊資訊之一圖框序列的一或多個信號，其中該視訊資訊包括框內編碼視訊資料及表示一影像序列的框間編碼視訊資料；分析該等圖框中的一或多個中的框間編碼視訊資料以導出新的框間編碼視訊資料；以及將一處理應用於該視訊資訊中的至少一些以產生表示該影像序列之至少一部分的已修改的視訊資訊，其中該處理依據該新的框間編碼資料來調適其操作。本發明的這個層面在下面被較詳細地描述。

藉由參考下列討論及附圖，本發明的各種特徵及其較佳實施例可被較好地理解。下列討論的內容及該等附圖僅作為範例被說明而不應該被理解為是表示對本發明之範圍的限制。

圖式簡單說明

第1圖是合併本發明之各種層面的一基本系統的一示意方塊圖。

第2圖是一順應MPEG－2的編碼視訊資料流中的視訊資料的一圖像或圖框序列的一概要說明。

第3圖是視訊資料的兩圖框的一示意圖。

第4A－4B圖是具有原始及新運動向量的視訊資料的3個圖框的概要說明。

第5圖是具有原始及新運動向量的圖框的一概要說明。

第6圖是一GOP中具有原始運動向量的圖框的一概要說明。

第7圖是可以利用向量反轉技術自原始運動向量中被導出的新運動向量的一概要說明。

第8圖是原始運動向量以及對一GOP中的圖框導出的新運動向量的一概要說明。

第9圖是可被用以實現本發明之各種層面的一裝置的一示意方塊圖。

較佳實施例之詳細說明 A.序言

第1圖是合併本發明之各種層面的一基本系統10的一示意方塊圖，該基本系統10自一編碼視訊資料流中已存在的“原始”運動向量中導出“新”運動向量。運動向量處理器(MVP)2自信號路徑1接收在一編碼視訊資料流中傳送的視訊資訊，分析該資料流中存在的原始運動向量以導出該串流中不存在的新運動向量，沿著路徑3傳遞該等新運動向量以及(如果想要的話)也可以沿著該路徑3傳遞該等原始運動向量。視訊信號處理器(VSP)4自該路徑1接收該編碼視訊資料流，自該路徑3接收該等新運動向量，自該路徑1或該路徑3接收該等原始運動向量，以及將信號處理應用到該編碼視訊資料流中傳送的該視訊資訊中的至少一些中以產生被沿著信號路徑5傳遞的一已處理的信號。該VSP 4依據該等新運動向量來調適其信號處理。較佳地，該VSP 4依據該等原始運動向量以及該等新運動向量來調適其信號處理。實質上，任何類型的信號處理可以如可能期望的那樣被應用。信號處理的範例包括雜訊降低、影像解析度增強以及資料壓縮。沒有任何特定過程是必要的。

藉由將現存的運動向量用作其處理的基礎，本發明能夠非常有效地導出新運動向量。此過程是有效的，足以允許導出遠遠多於使用已知方法所獲得的運動向量的運動向量。

本發明可以處理一順應MPEG－2的串流中的運動向量以，例如，導出被稱為圖像組(GOP)的視訊圖框序列中的每對圖框的運動向量。I－圖框以及彼此不相鄰的圖框對的運動向量可被導出。一不同GOP中的圖框的運動向量也可被導出。

本發明的實施易於自我最佳化，因為較多的處理被應用於較可能實現較大利益的那些視訊圖框中。較少的計算資源被用於額外的運動向量較不可能提供許多利益的情況中。這是因為較多處理被需要用於具有較多原始運動向量的圖框，對於檢測到較多運動的那些圖框對而言存在較多原始運動向量，以及對於發生較多運動的圖框而言，一般會實現較大利益。

B.運動向量反轉

第2圖是一順應MPEG－2的編碼視訊資料流中的視訊資料的一圖像或圖框序列的一概要說明。此特定序列包括2個I－圖框33、39以及5個介入的P－圖框34至38。每一P－圖框中的已編碼資料可以包括該圖框中的像素區塊的一或多個運動向量，該等運動向量是基於前一圖框中對應的像素陣列或者被從中預測出。例如，該P－圖框34可以包括一或多個表示該I－圖框33與該P－圖框34之間的運動中的區塊的運動向量。該P－圖框35可以包括一或多個表示該P－圖框34與該P－圖框35之間的運動中的區塊的運動向量。

被呈現在此編碼視訊資料流中的所有運動向量被限制於表示自一I－圖框或一P－圖框到後接著的一相鄰P－圖框的運動。此特定的圖框序列不具有任何表示自任一圖框到一後續I－圖框的、自任一圖框到一之前圖框的，或者彼此不相鄰的任何兩圖框間的運動向量。

合併本發明之層面的系統與方法能夠導出如前段所述的那些在現有編碼資料流中不存在的運動向量。這可以利用兩種在此被稱為運動向量反轉以及運動向量追蹤的技術來執行。該運動向量反轉技術被首先描述。

第3圖是一圖框序列內的視訊資料的兩圖框的一示意圖。在此範例中，圖框A是一順應MPEG－2的資料流中的一I－圖框而圖框B是其中的一P－圖框。如所說明的，圖框B包括表示自圖框A中的一來源區域41到圖框B中的一目的地區域42發生的運動的一原始運動向量。此運動向量被表示為mv(A,B)，這表示運動的量值與方向以及已移動的影像的區域。例如，在一順應MPEG－2的資料流中，運動的量值與方向由表示水平及垂直位移的數字代表，而運動區域由圖框B中的該目的地區域指定，該目的地區域是多數個位於圖框B中的一已定義的格子上的像素區塊中的一個。如上所述，運動向量的此特定資料構造對於本發明而言不是必要的。

圖框B可能具有一個以上表示發生在多個區域中的從圖框A到圖框B的運動的運動向量。所有這些運動向量在此被共同表示為MV(A,B)。

該資料流中沒有任何圖框具有表示從圖框B到圖框A的運動的被表示為mv(B,A)的一運動向量，但藉由利用以下事實：當定義自圖框A中的一區域到圖框B中的一區域的一關係的一運動向量mv(A,B)存在時，自圖框B中的該區域到圖框A中的該區域存在一互補或反轉關係，本發明能夠向相反方嚮導出一運動向量。自圖框B到圖框A的運動與自圖框A到圖框B的運動相反，其可被表示為：mv(B,A)＝Reverse[mv(A,B)] (1)

一圖框的所有運動向量的集合的反轉可被表示為：MV(B,A)＝Reverse[MV(A,B)] (2)

記號Reverse[]被用以表示自一個別運動向量中導出另一運動向量的一功能或操作，該另一運動向量表示相同的運動量值但方向相反。每一運動向量的運動區域可以如期望的那樣被指定。對於此特定範例而言，由新運動向量表示的運動區域是圖框A中的目的地區域。這可以由相對於圖框A中的影像的左上角的該區域的左上角的水平及垂直像素偏移表示。分數像素偏移可被指定，如果想要的話。沒有任何特定表示對於本發明而言是必要的。

C.運動向量追蹤

藉由追蹤穿過多個圖框的運動，額外的運動向量可被導出。此技術允許導出彼此不相鄰的圖框的運動向量。

第4A圖是一圖框序列內的視訊資料的3個圖框的一示意圖。此圖所示的範例將圖框C添加到第3圖所示的範例上。圖框C是一P－圖框。如所說明的，圖框C包括一原始運動向量，該原始運動向量表示自圖框B中的一來源區域43到圖框C中的一目的地區域44發生的運動。此運動向量被表示為mv(B,C)。如果一運動向量mv(B,C)在圖框B中的來源區域與一運動向量mv(A,B)的一目的地區域重疊，則表示自圖框A到圖框C的運動的一新運動向量mv(A,C)可被導出。這個新運動向量在第4B圖中被概要地說明且由下列式子表示： mv(A,C)＝mv(A,B)♁mv(B,C) (3)

對一對圖框的所有運動向量的集合的向量追蹤被表示為； MV(A,C)＝MV(A,B)♁MV(B,C) (4)

該符號♁被用以表示將兩運動向量組合以表示該兩個個別向量的位移之向量總和以及識別該組合的正確的來源及目的地區域的一功能或操作。

該新運動向量mv(A,C)在圖框A中的來源區域40可能只是該對應運動向量mv(A,B)的來源區域41的一部分。類似地，該新運動向量mv(A,C)的目的地區域45可能只是該對應運動向量mv(B,C)的目的地區域44的一部分。這兩個來源區域40、41以及這兩個目的地區域44、45的重疊程度由運動向量mv(A,B)的目的地區域42與運動向量mv(B,C)的來源區域43的重疊程度控制。如果運動向量mv(A,B)的目的地區域42與運動向量mv(B,C)的來源區域43相同，則運動向量mv(A,B)的來源區域41將與運動向量mv(A,C)的來源區域40相同而運動向量mv(A,C)的目的地區域45將與運動向量mv(B,C)的目的地區域44相同。

一種可以實現該向量追蹤技術的方法就是識別最終的目的地圖框(在此範例中為圖框C)，以及沿著該圖框的所有運動向量mv(B,C)向後行進。這藉由識別每一運動向量mv(B,C)在圖框B中的來源區域而被執行。接著圖框B的每一運動向量mv(A,B)被分析以決定其是否具有與該運動向量mv(B,C)的任何來源區域重疊的一目的地區域。如果一運動向量mv(A,B)的一重疊被找到，則該向量被向後追蹤至其來源圖框。此過程持續進行，直到到達一期望的來源圖框或者直到沒有任何具有重疊來源及目的地區域的運動向量被找到。

前段中所討論的對區域重疊的搜尋過程實質上可以透過使用任何習知的樹狀或列表式分類演算法，將該等運動向量MV(B,C)放到一資料結構中來實現，在該資料結構中，該等向量被根據其來源區域進行排列。可被有利地用於許多應用中的一資料結構是被稱為四元樹的一特定二維樹結構。此類型的資料結構允許有效地執行對與MV(A,B)目的地區域的重疊的搜尋。

視訊資料與透過向量追蹤導出的一新運動向量的來源及目的地區域相鄰，如果想要的話，該視訊資料的各部分可被分析以決定該來源區域及該目的地區域是否應該被擴展或被縮小。在許多實例中，自我進行的向量追蹤可以獲得一新導出的運動向量的適當的來源及目的地區域；然而，在其他實例中，透過向量追蹤獲得的來源及目的地區域可能不是最佳的。

例如，假定一圖框序列中的原始運動向量表示從左走到右的一個人。所有臨時圖框可能都具有這個人的頭及軀幹的運動向量，但一些圖框可能不具有這個人的左臂的運動向量，當它消失在軀幹後面時。沿著此運動向量序列的向量追蹤可以導出頭及軀幹的新運動向量但不能導出左臂的新運動向量，即便該手臂在向量追蹤所跨越的該序列的第一及最後一圖框中是可見的。藉由對與頭及軀幹的運動向量之來源及目的地區域相鄰的影像之區域執行區塊匹配，該等區域可被擴展或者可添加左臂的額外的運動向量。此過程可被有效地執行，因為該等區塊匹配搜尋區域可被限制於緊鄰該等新運動向量之來源及目的地區域的區域。

運動向量追蹤可以與運動向量反轉組合在一起以導出一圖框序列中的每一圖框之間的新運動向量。這在第5圖中被概要地說明，其中每一運動向量由指向目的地圖框的一箭頭表示。例如，向量反轉可被用以導出表示從P－圖框36到P－圖框35、從P－圖框35到P－圖框34，以及從P－圖框34到I－圖框33的運動的運動向量。向量追蹤可被用於這3個新運動向量以導出一個表示從P－圖框36到I－圖框33的運動的運動向量。此特定範例可被表示為： MV(36,33)＝Reverse[MV(35,36)]♁Reverse[MV(34,35)]♁Reverse[MV(33,34)]

其中mv(x,y)表示從圖框x到圖框y的一運動向量；以及x、y是第5圖中所說明的該等圖框的參考符號。

D.GOP遍曆

遵從MPEG－2標準的系統可以將圖框排列成被稱為圖像組(GOP)的獨立片段。一通用方法是將視訊資料分為15個圖框一組。每一GOP以緊接在一I－圖框之前的兩B－圖框開始。這3個圖框後面接著4個序列，每一序列具有後面緊接著一P－圖框的兩B－圖框。此特定的GOP排列在第6圖－第8圖中被概要地顯示為以B－圖框51開始以及以P－圖框58結束的圖框序列。之前的GOP以P－圖框50結束而後續的GOP以B－圖框59開始。此圖以及其他圖中所示的圖框是被根據呈現順序而不是它們在一資料流中出現的順序來排列。一順應MPEG－2的資料流中的圖框被重新排序以有助於自I－圖框及P－圖框中發現B－圖框；然而，理解這個實施細節不是理解本發明的原理所必要的。

如果一GOP從其圖框中的至少一些包括指向另一GOP中的圖框的原始運動向量這一意義上來看是“開放的”，則本發明可以導出同樣跨越GOP之間的邊界的新運動向量。開放式GOP的範例被顯示於第6圖－第8圖中。參見第6圖，每一箭頭表示一原始運動向量。每一箭頭的前端指向其各自的目的地圖框。例如，該等原始運動向量中的一些表示自I－圖框53到B－圖框54、55以及到P－圖框56的運動。該等原始運動向量中的另一些表示自該P－圖框56到該等B－圖框54、55的運動。該P－圖框50中跨越該GOP邊界且表示自該P－圖框50到該兩B－圖框51、52的兩運動向量被允許，因為該所說明的GOP是開放的。藉由將該向量反轉及向量追蹤技術應用於該等B－圖框中的雙向運動向量，本發明可被用以導出跨越GOP邊界的新運動向量。這被顯示於第7圖及第8圖中。

第7圖是可以利用該向量反轉技術自該等原始運動向量中被導出的新運動向量的一概要說明。例如，表示自該等B－圖框51、52中的每一個到該P－圖框50的運動的新運動向量可被導出。這兩運動向量以及指向該P－圖框58的新運動向量中的兩個是新導出的跨越一GOP邊界的運動向量的範例。

第8圖只是一些額外的運動向量的一概要說明，該等額外的運動向量藉由將該向量追蹤技術應用於第6圖及第7圖中所示之該等原始及新運動向量而可以被導出。每一箭頭是雙向的。可被導出的新運動向量的有效數目是容易明白的。該圖中所示之指向該I－圖框53及自該I－圖框53指出以及指向該B－圖框59與後續圖框及自該B－圖框59與後續圖框指出的向量是新導出的跨越一GOP邊界的運動向量的範例。

E.實施

合併本發明之各種層面的裝置可以以各種方式來實現，包括由一電腦或其他包括較專業的元件(如被耦接到與一通用電腦中所發現的元件類似的元件的數位信號處理器(DSP)電路)的裝置執行的軟體。第9圖是可被用以實現本發明之層面的一裝置70的一示意方塊圖。處理器72提供計算資源。RAM 73是該處理器72用以進行處理的系統隨機存取記憶體(RAM)。ROM 74表示某種形式的永久儲存器，如唯讀記憶體(ROM)，用於儲存被需要用以操作該裝置70的程式以及可能用於實現本發明之各種層面。I/O控制75表示藉由通訊通道76、77接收與發送信號的介面電路。在所示的該實施例中，所有主要的系統元件都連接到匯流排71，該匯流排71可以表示一個以上的實體或邏輯匯流排；然而，一匯流排架構不需要用於實現本發明。

在一通用電腦系統實現的實施例中，額外的元件可被包括用於與裝置(如鍵盤或滑鼠及顯示器)進行介面連接，以及用於控制具有一儲存媒體(如磁帶或磁碟，或者光媒體)的一儲存裝置78。該儲存媒體可被用以記錄作業系統、公用程式及應用程式的指令的程式，以及可以包括實現本發明之各種層面的程式。

實現本發明之各種層面所需的功能可以由以各種方式實現的元件執行，包括離散邏輯元件、積體電路、一或多個ASIC以及/或者程式控制式處理器。這些元件被實現的方式對於本發明而言並不重要。

本發明的軟體實施可以由各種機器可讀媒體或者儲存媒體來傳送，該等機器可讀媒體有如在從超音頻到紫外線頻率的整個頻譜中的基頻或調變通訊路徑而該等儲存媒體實質上使用任何記錄技術來傳遞資訊，包括磁帶、磁卡或磁碟，光卡或光碟，以及媒體(包括紙)上的可檢測標示。

1‧‧‧信號路徑

2‧‧‧運動向量處理器

3‧‧‧路徑

4‧‧‧視訊信號處理器

5‧‧‧信號路徑

10‧‧‧基本系統

33、39‧‧‧I－圖框

34－38‧‧‧P－圖框

40、41‧‧‧來源區域

42‧‧‧目的地區域

43‧‧‧來源區域

44、45‧‧‧目的地區域

50‧‧‧P－圖框

51、52‧‧‧B－圖框

53‧‧‧I－圖框

54、55‧‧‧B－圖框

56‧‧‧P－圖框

58‧‧‧P－圖框

59‧‧‧B－圖框

70‧‧‧裝置

71‧‧‧匯流排

72‧‧‧處理器

73‧‧‧RAM

74‧‧‧ROM

75‧‧‧I/O控制

76、77‧‧‧通訊通道

78‧‧‧儲存裝置