TW526657B

TW526657B - Global elimination algorithm for motion estimation and the hardware structure

Info

Publication number: TW526657B
Application number: TW91107442A
Authority: TW
Inventors: Liang-Ji Chen; Yu-Wen Huang; Shau-Yi Jian
Original assignee: Univ Nat Taiwan
Priority date: 2002-04-12
Filing date: 2002-04-12
Publication date: 2003-04-01
Also published as: KR20030080958A; JP2003319396A

Description

526657 五、發明說明（1) 發明領域：本發明係有關一種區塊比對移動估計（B丨〇ck Matching Motion Estimation)方法，特別是關於一種高效率之全域消除演算法（Global Eliminati〇n Alg〇rithm )及其硬體架構，以去除視訊序列上的多餘性，達到視訊壓縮之目的者。發明背景：按’隨著科技產業的快速發展，在視訊序列（v i de〇 sequence )傳輸中視訊資料的流量及品質益顯重要，而所謂視訊序列就是由一連續時間上的一連串影像所組成。對視訊序列而言，由於視訊序列需要的儲存空間非常龐大，所以對於空間有限的儲存設備或傳輸頻寬而言，都希望能夠減少視訊序列所需要佔用的儲存空間，故須將視訊序列加以壓縮，因此需要視訊壓縮的技術。視訊壓縮通常係利用去除視訊資料中的多餘性（r e d u n d a n c y )來達到壓縮的目的；而移動估計（motion estimation)則是為了去除視訊序列中的時間多餘性（tempora 1 redundancy )之一個壓縮技巧。所謂的移動估計即在描述如何在視訊序列中，在兩個相鄰時間軸的晝面上，找到與現在處理區塊最為近似的區塊。在許多移動估計演算法中，最常採用的是全搜尋區塊比對演算法（Full-Search Block Matching Algorithm) ，但其運算量十分龐大，對即時性應用而言，遠超過現今一般微處理器的能力。由於全搜尋區塊比對演算法的資料

526657 五、發明說明（2) -- /瓜十刀規律δ午多平行化' 多管線（P i p e 1 i n e d )硬體架構已被提出’但在這些架構中，一維陣列的運算速度太慢 ’對於大晝面與大搜尋範圍的應用，其操作頻率必須大幅增加；二維陣列的運算速度較快，但其邏輯閘的數量過於魔大’成本過高；數狀架構雖然速度與面積的表現十分良好’但其所需要的記憶體位元寬度（以t —Width )太大，使其可行性大幅減低。而為了可以減少全搜尋區塊比對演算法的高運算量，遂發展出一種連續消除演算法（Successive EHminati〇n A 1 gor 1 thm )，其係可得到和全搜尋區塊比對演算法相同的結果’使它比其他許多必須犧牲峰值信號雜訊比（psNR) 的快速搜尋演算法，例如三步搜尋（Three-Step Search) 、鑽石搜寻（Diamond Search)或二維對數搜尋（2D Log Search )等演算法，運算效果更佳。該連續消除演算法之演算流程如第一圖所示，首先，如步驟S 1 〇所示在計算出每個搜尋位置的連續消除演算值s e a (m，η)之後，如步驟 S12比較該連續消除演算值sea(m，η)是否大於最小的絕對差值總和SADmin( Sum of Absolute Differences，SAD)，若sea(m，n) > SADmin，如步驟S14省略搜尋位置（m，n)，直接進行步驟S 2 2 ;若s e a (m，η ) < SA Dmin，則如步驟S 1 6繼續計算每個搜尋位置的絕對差值總和SAD(m，n)。在取得SAD (m，η)之後，再如步驟S1 8比較SAD(m，η)是否大於SADmin，若SAD(m，n)> SADmin，直接進行步驟S22 ;相反地，若SAD (m，η) < SADmin，則進行步驟S20，更新最小的絕對差值總

526657 、發明說明（3) /一 _ ’然後才進行步驟S22。步驟S22係判斷是否為最技号位置’若是最後一個（m，η )’表示找到具有最 t SAD值胃的搜尋位置，如步驟S26所示，此即為估算出來的私動向里MV，結束整個過程；若步驟S22之（m，η)尚有搜尋 :喊到，則如步驟S 2 4更新下一次的搜尋位置（m，η) ’並繼續回到步驟S 1 Ο，重複上述步驟。 $述在計算每個搜尋位置的s e a值後，程序出現了分支’使資料流十分不規則且無法提前被預測，故無法採用心脈式跳動（Systolic )陣列架構來設計硬體架構。而後來才發展出來的多階層連續消除演算法（Multi-Level Successive Elimination Algorithm)亦仍然存有相同之問題。再者’連續消除演算法必須對移動向量MV ( Mot ion V e c 1: o r )有一個很好的初始猜測，才能有效地降低運算量 ’這對影像中不規則移動的區域而言是十分困難的；此外 ’若真正的移動向量超出搜尋範圍，連續消除演算法對搜尋位置的省略比率甚至有可能會低到使該移動向量之運算時間比全搜尋區塊比對演算法還久；再則，為了增加省略計算SAD的次數，連續消除演算法往往以螺旋狀掃瞄 (Spiral Scan)來決定搜尋位置之先後順序，這對硬體所要付出的代價高於傳統光柵掃瞄（Raster Scan )。因此’本發明即在針對上述之困擾，提出一種全域消除次异法及其對應的硬體架構，以改善習知連續消除演算法的缺點。

526657 五、發明說明（4) 發明目的與概述：本發明之主要目的係在提出一種用於移動估計的全域消除演算法及其硬體架構，其係將連續消除演算法資料流的分支做適當的移除，使資料流更加規律、順暢，且更適合於硬體架構實現，以大幅改善連續消除演算法之缺失者本發消除演算結果有很 (PSNR ) 性。本發消除演算法架構設最南’且則為最低本發消除演算式之優點為達括·在視以較少點搜尋粗特該參考區明之另一目的係在提出一種用於移動估計的全域法，其搜尋結果與全搜尋區塊比對演算法的搜尋高的相似度，有時亦具有更佳的峰值信號雜訊比，使得本發明之全域消除演算法具有很高的可靠明之再一目的係在提出一種用於移動估計的全域法之硬體架構，與其它許多全搜尋區塊比對演算計比較，其所使用的每個邏輯閘之運算能力係為在相同的移動向量生產率下邏輯閘所消耗的功率〇明之又一目的係在提出一種用於移動估計的全域法及其硬體架構，其係具有易於支援先進預測模者。到上述之目的，本發明全域消除演算法之步驟包訊序列中將參考區塊與每個搜尋位置的候選區塊數的粗特徵表不’並比對兩者之粗特徵，接者再徵與該參考區塊最相似的Μ個候選區塊，再比對塊與該Μ個候選區塊的細特徵；以及在該Μ個候選

第8頁 526657 五、發明說明（5) 區塊中選出最小細特徵差異的候選區塊，即可結束整個演算過程。本發明用於移動估計的硬體架構則包括：一用以平行計算複數區塊中的每個粗特徵的心脈式跳動模組；一樹狀加法器，其係比對參考區塊及候選區塊的每個粗特徵，且可重複使用來比對該參考區塊與候選區塊的細特徵；並利用至少一樹狀比較器來平行搜尋該粗特徵與該參考區塊最相似的Μ個候選區塊；且該心脈式跳動模組、該樹狀加法器及該樹狀比較器之作動係由一控制裝置所控制；以及至少一組用以儲存該參考區塊與候選區塊所有資料的記憶體。底下藉由具體實施例配合所附的圖式詳加說明，當更容易瞭解本發明之目的、技術内容、特點及其所達成之功效。圖號說明： 10 心脈式跳動模組 12 平行樹狀加法器 14 平行樹狀比較器 16、 16 ，記憶體 18 控制單元 20 多工器 22 第一多工器網路 24 第二多工器網路 26 暫存器詳細說明：移動估計是視訊壓縮中最關鍵的技術，可應用於數位攝影機等視訊產品上，本發明即針對移動估計提出一種全域消除演算法及其硬體架構，其係將運算資料流的分支做

526657 五、發明說明（6) 適當的移除，使得資料流更規律、更適合硬體實現，並具有可靠、快速及高效率之特性，以大幅改善習知（多階層 )連續消除演算法的缺點。第二圖為本發明之全域消除演算法的流程示意圖，如圖所示，全域消除演算法係包括下列步驟：首先，在視訊序列中，計算出每個搜尋位置（候選區塊）之多階層連續消除演算值m s e a (m，η)，如步驟S 3 0所示；然後如步驟S 3 2所示判斷搜尋位置（m，η)是否為最後一個，若搜尋位置（m，η) 不是最後一個，則如步驟S 3 4，更新下一個搜尋位置（m，η ) ，然後再回到步驟S30繼續重複上述步驟；在步驟S34中，搜尋位置更新的順序可為任意，且不會影響最後結果，因此採用傳統之光柵掃瞄即可；若搜尋位置（m，η)為最後一個，則直接進行步驟S36。以-ρ〜ρ-1代表搜尋範圍，步驟 S36為找出Μ個搜尋位置，其msea(m，n)值為在全部的（2ρ)2 個搜尋位置中最小的Μ個，然後忽略其它（2ρ)2-Μ個搜尋位置。在完成步驟S 3 6之後，如步驟S 3 8計算該Μ個搜尋位置各自之絕對差值總和S A D (m，η)值；最後如步驟S 4 0所示，在步驟S38計算出的Μ個搜尋位置的SAD (m，η)值中，選擇一個最小的SAD值，該最小SAD值的搜尋位置為全域消除演算法所估計出來的移動向量MV。該步驟S 3 2即為將演算法命名為全域消除的原因，它並不像（多階層）連續消除演算法是把搜尋位置逐一檢查能否省略，而是在計算完所有搜尋位置的m s e a值（多階層連續消除演算值）後，才決定何者將被省略。由於在計算

第10頁 526657 五、發明說明（7) 每個搜尋位置的m s e a值之過程中，流程只會走右邊的分支，資料流是連續有規律的，因此，這一部份的硬體設計就可以採用心脈式跳動陣列架構。其中，Μ值的選擇為速度和編碼效率的取捨，Μ值之較佳者係介於多階層連續消除演算值，通常是介於1〜6 3之間。一般而言，Μ越大速度越慢，但編碼效率較高；Μ越小可以省較多的運算，但編碼效率較低。無論採用的Μ值為何，現在每個移動向量所需要的處理時間均為固定且可預測的，這對以硬體實現之編碼系統的工作排程將更有幫助〇雖然全域消除演算法不能像（多階層）連續消除演算法一樣可保證搜尋結果百分之百與全搜尋區塊比對演算法相同，但全域消除演算法仍是非常可靠的。本發明對常見的兩種情況做了許多測試，第一種情況（a )為QC I F (1 7 6 X 1 44 )晝面、1 6 X 1 6區塊、-1 6〜+ 1 5搜尋範圍、第三階層連續消除之m s e a值及Μ = 7，省略S A D計算之搜尋位置比率為 99.31%;第二情況（b)為 CIF(352x 288)畫面、16x 16 區塊、-3 2〜+ 31搜尋範圍、第三階層連續消除之msea值及Μ二7 ，省略SAD計算之搜尋位置比率為9 9. 8 3%。測試結果如表一所示，此驗證過程實驗了許多標準測試視訊序列，全域消除演算法所補償回來的晝面其平均峰值信號雜訊比與全搜尋區塊比對演算法的結果非常相近，最大的差別為Ha 1 1 Mon i tor C IF，只比全搜尋區塊比對演算法低了 0. 08 dB ; 此外，有時候全域消除演算法所補償回來的畫面，其峰值

第11頁 526657 五、發明說明（8) 信號雜訊比會比全搜尋區塊比對演算法所得到的結果還要高，如Foreman QCIF 、 Silent QCIF與Table Tennis QCIF 則可看出此現象。一般認為，全搜尋區塊比對演算法的峰值信號雜訊比會最高是不正確的，因為最小的SAD值（Sum 〇 f A b s ο 1 u t e D i f f e r e n c e，絕對差值總和）並不能保證最小的平均平方差（Mean Square Error)，例如：1 + 9 < 5 + 6，但I2 + 92 > 5 2 + 6 2。在大部份時候，全域消除演算法的結果和全搜尋區塊比對演算法所非常接近，第三圖及第四圖即可說明此事，第三圖所示是Mobile Calendar C I F視訊中，全域消除演算法的移動向量Μ V和全搜尋區塊比對演算法相同的百分比，在三百張畫面中，平均有高達 9 8 . 1 %的移動向量是相同的；第四圖所示則是在Mob i 1 e C a 1 e n d a r C I F視訊中，全域消除演算法的峰值信號雜訊比曲線以及全搜尋區塊比對演算法的峰值信號雜訊比曲線，由於兩條曲線實在非常接近，因此要分辨它們並不太容易。因此，藉由以上數據可以顯示，本發明所提出的全域消除演算法具有很高的可靠性。

第12頁 526657 五、發明說明（9) 表一 (a) -—— (bP^^η 全搜尋區塊全域消除演 1搜尋ϊϊ 標準視訊序列比對演算法算法比對演算法算法 Coastguard 32.93 32.93 31^59" ~3L55 Container 43.11 43.11 38.53 ~38^3^ Foreman 32.21 32.22 32.85 Hall Monitor 32.98 32.97 34.90 ΊίδΓ' Mobile Calendar 26.15 26.15 25.20 25J6~ Silent 35.14 35.16 36.12 ~36Λ)~ Stefan 24.71 24.67 25.73 ~2571 ~ Table Tennis 32.10 32.11 33.03 32.96 Weather 38.42 38.42 37.45 3745~

在說明本發明之全域消除演算法之後，接著將詳細說明其相對應之硬體架構，底下將以1 6 X 1 6的區塊大小，第三階層連續消除之msea值以及Μ = 7為例子，並以第五圖為主配合各部份架構來解釋本發明，以使熟習此項技術者將可參酌此實施例之描述而獲得足夠的知識而據以實施。如第五圖所示，用於移動估計的該硬體架構係包括：心脈式跳動模組（s y s t 〇 1 i c m 〇 d u 1 e ) 1 0、平行樹狀加法器 (Parallel adder tree) 12、平行樹狀比較器 (Parallel comparator tree) 14、用以控制各元件作動

第13頁 526657 五、發明說明（ίο) 之控制裝置，以及儲存參考區塊資料的記憶體丨6與搜尋區域資料的記憶體1 6 ’；其中’該控制裝置包含控制單元 (CONTROL UNIT) 18以及由多工器（MUX) 2〇與多工器網路（MUX NETWORK 1， 2 ) 22、24組成的检制電路。口口、如第五圖所示，該心脈式跳動模組1 〇負責在同一個時脈循環（C 1 〇 c k C y c 1 e )中計算十六個4 X 4大小的子區塊内之像素強度和’即粗特徵’並平行輸出十六個子區塊的結果。請同時參考第六圖所示，其係顯示心脈式跳動模組的資料流，其中chk與slsk分別代表參考區塊資料c(k i) 與搜尋區域資料s(k， 1) ’長方形則代表轉移暫存哭’ (Shift Register) 26，搜尋範圍是以、16〜+1 5為&例子。區塊資料係以一欄一欄的方式平行載入心邮々二 ^ &一、脈式跳動模組1 0 ’ ^t = 〇〜15時，參考區塊資料被載入，太 ^ ^ 长丄b X 1 6大小的參考區塊中之十六個4x 4子區塊’其各自的像素強度和（即圖六.中之sum。。〜sum33，表示為csumQ()〜c 、又 …L ^bUm33 )在 t = 1 5 時被計算出來，並在t = 1 6時脈的正緣被耷 ^ + 叉舄入至十六個十二位元暫存器中；接著，換搜尋區塊資料以一 .q λα ^ ^ ^ ^ ^ 獨1 一欄的方式平仃載入心脈式跳動模組1 〇，當t = 1 6〜62時，在搜尋位置 (- 1 6，- 1 6 )〜（+ 1 5，- 1 6 )的候選區塊資料被載入，搜f位置 (-16，-16)〜（ + 15, -16)所對應的候選區塊中之十山個子區塊像素強度和（即圖六中之sumGG〜 sum33，表示為rsum。。〜 rSU11133)分別在t = 3l〜62時被計算出來；同理，下一列:搜尋區域資料也是以相同的方式運作，搜尋位置（—1 6，_丨5 ) 〜（+ 1 5，〜1 5 )的候選區塊資料在t = 6 3〜1 〇 9時被載入，搜尋

526657 五、發明說明（π) 位置（-1 6，- 1 5 )〜（+ 1 5，- 1 5 )所對應的候選區塊中之十六個子區塊像素強度和分別在t = 7 8〜1 〇 9時被計算出來。由上述内容可知，每一列搜尋位置需要（2 p + N - 1 )個時脈，2 p列搜尋位置則需要2p(2p + N-l )個時脈，再加上一開始仍需要 N個日守脈來載入參考區塊貧料’故此模組1 〇總共需要n + 2 p (2 p + N - 1 )個時脈來計算所有區塊中的子區塊像素強度和（粗特徵）。由心脈式跳動模組1 0計算出來的子區塊像素強度和等資料將被傳送至該平行樹狀加法器1 2，請同時參閱第六圖及第七圖所示，平行樹狀加法器1 2之目的係在利用下列公式計算出msea值， N-\ N-\ SAD{m,n) = Y^\ c{i, j)-s{i + mj + n)\ i=0 j=0 > Kq-SBq(m,n) | ξ msea{m,n) L-l

q=0 AM AM

AM AM 4ΣΣ办力-ΣΣ s(i + m^j+n)\=\K- SB(m, n) |= sea(my n) i=0 j=0 i=0 j=0 在上式中，K代表參考區塊之像素和，SB(m，n)代表在搜尋位置（m，η)的候選區塊之像素和，K與SB之絕對差值 (Absolute Difference)即為sea值，亦可稱為第一階層連續消除之msea值；若將一個區塊切分成L個子區塊，Kq 代表參考區塊之第Q個子區塊的像素和，SBq(m，η)代表在搜尋位置（m，η)的候選區塊之第q個子區塊的像素和，再將

第15頁 526657 五、發明說明（12) L個1^和SBq之絕對差值加起來即可得到^⑼值；若一個區塊被分成4LeveH個大小相同的子區塊，則將其稱為第Levei 階層連續消除；在所舉的例子中，第三階層連續消除則是把一個16x 16區塊分成16個4x 4子區塊。第七圖中所示之 ADxx係負責計算參考區塊之子區塊像素強度和csumxx與搜尋區塊之子區塊像素強度和rsunixx之間的絕對差值，樹狀加法器1 2係將A D 0 0〜A D 3 3之結果相加起來，以得到m s e a值〇在依序取得各區塊之m s e a值之後，旋即進入平行樹狀比較益1 4 ’其目的是要找出具有最小m s e a值的Μ個搜尋位置’其做法是將目前最小的Μ個m s e a值與其對應之移動向量存在暫存器中’若輸入的msea值比這^個㈣⑸值其中一個或更多個還小，就把這Μ個msea值中最大的那一個換成現在輸入的msea值；若這Μ個msea值中有兩者以上同為最大值’只選擇其中一個換成現在輸入的msea值。第八圖為本發明之平行樹狀比較器的電路示意圖，圖中有「一reg」的符號代表暫存器，MAX代表比較器。在（a) 圖部份中的電路必須在第一個來自平行樹狀加法器1 2的有效msea值來臨前，先適當地將暫存器mSeal_reg〜 msea7一reg初始設定為OxFFFF ( 6 5 5 3 5 )，此部份的電路會計异出 msea_in一reg與mseal—reg 〜msea7_reg中的 mesa最大值msea — max，且比較器MAX會將兩個輸入中較大者輸出。（b)圖部份的電路是判斷mseal_reg〜msea7 一 reg有沒有等於最大值msea —max ;其中EQUx負責比較mseax_reg，X二1

第16頁 526657

’ CHECK電路則是當有兩個以上的mseax — reg為最大值 msea — max時，僅選擇其中一個，也就是說，取代信號 replacex為主動（active)，代表 mseax —reg 與 mvxjeg 應該分別被msea—in —1^§與鮮_;[]：1 —reg所取代，且最多只會有一個rep lac ex信號為主動。（c)圖部份的電路就是負責執行取代的動作’ MUX為受取代信號r ep 1 ac ex控制的多工器 (Multiplexer) 。口口

如此一來，目前最小的％個msea值與其對應之移動向量就隨時儲存在暫存器中，直到所有的搜尋位置（候選區塊）的msea值皆輸入平行樹狀比較器14後，暫存器中就會有在（2pj2搜尋位置為最小的^個msea值與其對應之移動向量，，續再去計算這Μ個搜尋位置的搜尋區域資料SAD值，找出最小者’輸出移動向量，全域消去演算法就完成了一個移動向量的估計。特別要注意的是，在每一列搜尋位置之攔位資料輸入心脈式跳動模組1 0時，其前N- 1個時脈透過平行樹狀加法器12所產生出來的msea值是無效的，此時輸入平行樹狀比較器1 4的m s e a值必須被替換成Q x F F F F (6 5 5 3 5 )，如此才能得到正確的結果。

其中，為了平行輸出區塊的欄位資料，作法如下所述 :在搜尋範圍中的資料，總共有（2 p + Ν -1 )列，本發明將列資料（Row Data )編號為〇〜（2ρ + Ν-2)，編號除以Ν後餘數為0的列資料就放置在記憶體丨6之RAM0 〇，餘數為i的列資料就放置在RAM0 1，如第五圖所示，依此類推；參考區塊資料則是放在另外一個寬度為1 2 8位元的記憶體i 6，中；

526657 五、發明說明（14) " 使參考區塊和候選區塊的攔位資料皆可被平行輸出。區塊的棚位資料平行輸出後，在進入心脈式跳動模組1 〇前，必須先經過第一多工器網路（Μυχ NETW0RK } ) 22，使其進入正$的子區塊，在N = 1 6與第三階層m s e a下，其係為1 6個對1之八位元夕工為（4 —七〇一 1 8一 bit Multiplexer)，在不同列的搜尋伋置上，控制第一多工器網路22的控制訊號必須做適當的改變。 ^樣地’最後在計算M個搜尋位置的SAD值時，候選區 t ^貝料必須先經過第二多工器網路（MUX NETWORK 2)24 M =平行樹狀加法器1 2，其為1 6個1 6對1之位元多工器 #糾t 8 —blt MultipleXer);在不同列的搜尋位置，二，=夕工為網路2 4的控制訊號亦得做適當的改變。因的Μ個#^明係需要N + 2P(2P + N_1)時脈找出擁有最小rasea值 Γ個；“位置’然後接著要計算這Μ個搜尋位置之SAD值可重複利用平行樹狀加法器12的資源，·每個搜尋位 I MM彳in i值需要N個時脈來計算，M個搜尋位置之SAD值則需時脈來計算。綜合以上所述，以N=丨6與第三階層 ΖΓί 本發明所提出的硬體架構需要n+2p(2P+n-u + ΜΝ個時脈來計算一個移動向量。至此，本發明之精神已說明完畢，以下特以一具體實來驗證說明上述之原理及功效。為了分析本發明所知出來之硬體架構的效能，本發明提出來的與基於，區塊比對演算法之硬體架構做比車交，：：：象是從參考文獻[1]〜[7]中提出來的，結果顯示在表二與表三

第18頁 526657 五、發明說明（15) 中’其中，表二是在16x 16區塊、-16〜+15搜尋範圍、第三階層連續消除以及M = 7之條件下，不同架構之比較；表三則是在1 6 X 1 6區塊、-3 2〜+ 3 1搜尋範圍、第三階層連續消除以及Μ = 7之條件下，不同架構之比較。本發明比較的是各架構之處理元素（Processing Element )陣列的部份，控制電路只佔很小的部份，所以並沒有將它以硬體實現出來。每種架構之處理元素陣列是以 SYNOPSYS Design Analyzer所合成，並採用 AVANT! 〇 · 3 5 // m Cell Library，所下的最短路徑限制（Critical Path Constraint)為20 ns，也就是電路可達之工作頻率至少為50 MHz。在表二和表三中有*號標記的架構除了處理元素之外，尚需要許多額外的邏輯電路，大多為轉移暫存器（S h i f t R e g i s t e r )，以增加資料的重複使用性，因此，這些架構實際上在邏輯電路方面的閘數（Gate Count )與消耗功率會比模擬的結果還要高不少。在表二和表三中，本發明除了記憶體、第二多工器網路與控制單元未實現，其它皆有在模擬中考慮到，此外，本發明在模擬時切了 3級管線（pipelines)。為了要更公平地比較這些架構，必須在相同的位移向量生產率（T h r 〇 u g h p u t 〇 f Μ 〇 t i ο η V e c t 〇 r s，N 0 · 〇 f Motion Vectors / Sec·)之下才行。因此，我們定義了「正常化每邏輯閘之處理能力」（Normalized Processing Capability per Gate ， NPCPG)與「正常化功率消耗」（Normalized Power， NP):

第19頁 526657 五、發明說明（16) 一 1

[(Re quired Freq. for CIF 30 Jps) / (Gate Count @ 50MHz)] for XXX NPCPGxxx =-^^-

[(Re quired Freq. for CIF 30 Jps) / (Gate Count @ 50MHz)] for GEA

[(Power @ 50MHz) x (Re quired Freq. for CIF 30 fps / 50MHz)] for XXX NPXXX =

[(Power @ 50MHz) x (Re quired Freq. for CIF 30 fps / 50MHz)] for GEA 一般而言，一維陣列架構的處理速度不夠快，對於大畫面與大搜尋範圍的應用，其操作頻率必須大幅增加。二維陣列架構的運算速度較快，但其邏輯閘的數量過於龐大力

^成本過高；參考文獻[6 ]的架構雖然屬於一維陣列，但匕疋採用資料交錯（Data-Interlacing)與二維資料重複引用（2-D Data Reuse )，所以它的問題與二維陣列架構 =同，也就是邏輯閘太多。數狀架構雖然速度與面積的表，十分良好，但其所需要的記憶體位元寬度太大，使其可 =陡大幅減低。本發明所提出的硬體架構，其運算速度大上只比二維陣列架構與樹狀架構慢一些（架構[3 ]比本 1明所提出的架構還慢），但邏輯閘數目遠比它們小；一 '「'車列架構的運异速度遠低於本發明所提出的架構，架構的邏μ輯閘數目甚至在較大搜尋範圍時比本發明所提出士木構還大。因此，本發明在「正常化每邏輯閘之處理能與「正常化功率消耗」之表現比其它架構好很多。

第20頁 526657 五、發明說明（17)

Architec tune Etesaiption No. cf FE Cycles per MV Required IVfemDiy VO Required &eq.forOF 30 φΒ Gate Cbut MOKj Gat^ Le\el Pcmct @0Mt [1] Yarg 1-Dserri- systolic 32 8192 24 hits 97.32 28. CK Q13 26.0 _ 299 [2]AB1 1-D systolic 16 24064 256 bits 285.88 Mfe 3.8K 0.32 11.7nM/ 3.95 [2]AB2 2-D systolic 256 1504 128 hits 17.87 嫩 95. IK 020 27.8 nW 4.82 [3] Bieh* 2-D systolic 256 2209 8 bits 26.24 100.¾ 0.13 147.2 副 4.57 [4] Tree TB*ee stmdune 256 1024 2048 bits 1217· 56. IK Q51 179.5 _ 259 [5]Yeo 2-Dseni- systolic 1024 256 24 bits 3.(ΆΜί 447« Q26 10526 mW 3.79 [6\Im 1-Dseni- systolic 1024 256 24 bits 3g7.« Q30 糾5.6ni\ 3m [7]SA* 2-D systolic 256 1024 16 hits 12.17Mt 126.5K Q23 258.0_ 3.72 [7] SSA* 2-Dserri- systolic 256 1024 16 hits 12.17Mt 106. CK Q27 280.1 nM/ 4.0i Ouis Based on GEA 16 1635 256bits 19.42 Mt 17.5K 1.00 43.4 福 1.00

liilill 第21頁 526657 五、發明說明（18)

Architec tue Etesaiption No.cf FE Cycle per MV Required MfetiOry VO Required Req.forOF 30 ¢6 Gate Cbut NPCPG Gate· Le\el Pov^er NP [l]Yar® 1-Dserri- systolic 32 16384 24 bits M.64 嫩 56. CK Q10 52.0 谓 3.78 [2]AB1 1-D systolic 16 808¾ 256 bits 3.8K Q30 117湯 4.20 [2]AB2 2-D systolic 256 5056 128 bits 60.07 Mt 95. IK Q19 227.8 _ 5.12 [3] ffieh* 2-D systolic 256 6241 8hits 74.14· 100.6K 0.15 147.2 _ 4.08 [4] Tree Tree structure 256 4096 2048 bits 48.65 Mi 56ΛΚ Q40 179.5 3.27 [5]Ye〇 2-Dserri- systolic 1024 256 24 bits 3.04 1790. CK Q20 4210.3 ϊήΝ 4.79 [6] Lai 1-Dsmi- systolic 1024 256 24hts 3.WMfe 1550.4K 0.23 33824 3.84 [7]SA* 2-D systolic 256 4096 16 bits 48.66 126.5K 0.18 258.0— 4.69 [7] SSA* 2-Dsem- systolic 256 4096 16 bits 48.66 Mt 106. (K 0.21 280.1 5.09 Ours Based on GEA 16 5187 256fcits 61.62 Mt 17.SK 1.00 43.4 湯 1.00

在新一代的視訊壓縮標準中，如H· 2 6 3 +、MPEG-4等等，提供了其它類型之移動估計模式，所採用的區塊大小不再限定是傳統的1 6 X 1 6大小’而是在原本1 6 X 1 6區塊中以

第22頁 526657 五、發明說明（19) 四個8 X 8大小的區適當地判斷該採用移動估計模式稱為 Prediction Mode ) 四組平行樹狀比較如第九圖所不。若四階層m s e a來設計因此，本發明體架構實現，以大時兼具有可靠性高向量生產率下邏輯以上所述之實點，其目的在使熟容並據以實施，當凡依本發明所揭示蓋在本發明之專利塊產生四組移動向量，若壓縮演算法能何者，μ '、、扁碼效果可以有顯著提升，此種「先進預測模式」（Advanced σ。本發明所提出的硬體架構只要增加 ☆’就可以輕易地支援先進預測模式，要以本架構支援先進預測模式，採用第電路’可以得到比較好的編碼效果。使資料流更加規律、順暢，更適合於硬幅改善連續消除演算法之缺失者，並同 ’邏輯閘運算能力高，且在相同的移動閘消耗的功率為最低等之特性。施例僅係為說明本發明之技術思想及特習此項技藝之人士能夠瞭解本發明之内不能以之限定本發明之專利範圍，即大之精神所作之均等變化或修飾，仍應涵範圍内。參考文獻： [1]K.M. Yang, M.T. Sun, and L. Wu, M A family of VLSI designs for the motion compensation block-matching algorithm,丨，IEEE Trans, on Circuits and Systems, vol. 36，no. 2，pp· 1 3 1 7- 1 3 5 8，Oct· 1 9 8 9.

第23頁 526657 五、發明說明（20) [2] T. Komarek and P. Pirsch， "Array architectures for block matching algorithms," IEEE Trans, on Circuits and Systems, vol. 36， no. 2， pp. 1301-1308, Oct. 1989· [3] C.H. Hsieh and T.P. Lin, "VLSI architecture for block-matching motion estimation algorithm, M IEEE Trans, on Circuits and Systems for Video Technology， vol· 2， no. 2， pp· 169-175， Jun. 1992· [4] Y. S. Jehng，L. G. Chen and T. D. Chiueh，丨,An efficient and simple VLSI tree architecture for motion estimation algorithms, n IEEE Trans. on Signal Processing， vol. 41， no. 2， pp. 88 9-9 0 0，

Feb. 1993.

[5] H. Yeo and Y. H. Hu,丨’A novel modular systolic array architecture for full-search block matching motion estimation，" IEEE Trans. on Circuits and Systems for Video Technology， vol. 5， no. 5， pp. 407-416， Oct. 1995.

[6] Y.K. Lai and L.G. Chen, n A data-interlacing architecture with two-dimensional data-reuse for

第24頁 526657 五、發明說明（21) full-search block-matching algorithm, M IEEE Trans. on Circuits and Systems for Video Technology， vol. 8， no. 2， pp. 124-127， Apr. 1998.

[7] Υ·Η· Yeh and C.Y· Lee， nCost-effective VLSI architectures and buffer size optimization for full-search block matching algorithms，” IEEE Trans, on VLSI Systems, vol. 7， no. 3， pp. 345-358, Sep. 1999·

第25頁 526657 圖式簡單說明第一圖為習知連續消除演算法之流程示意圖。第二圖為本發明之全域消除演算法的流程示意圖。第三圖為本發明與全搜尋區塊比對演算法的移動向量相同之百分比曲線圖。第四圖為本發明與全搜尋區塊比對演算法的峰值信號雜訊比之曲線圖。第五圖為本發明之整體硬體架構示意圖。第六圖為本發明之心脈式跳動模組的架構示意圖。第七圖為本發明之樹狀加法器的架構示意圖。第八圖為本發明之平行樹狀比較器的架構示意圖。第九圖為本發明支援先進預測模式之架構示意圖。

第26頁

Claims

526657 六、申請專利範圍 1 · 一種用於移動估計的全域消除演算法，包括下列步驟在視訊序列中將參考區塊與每個搜尋位置的候選區塊以較少點數的粗特徵表示；比對該參考區塊與所有該候選區塊的粗特徵；搜尋粗特徵與該參考區塊最相近的Μ個候選區塊，再比對該參考區塊與該Μ個候選區塊的細特徵；以及在該Μ個候選區塊中選出最小細特徵差異的候選區塊，即可結束整個演算過程。 2 ·如申請專利範圍第1項所述之用於移動估計的全域消 φ 除演算法，其中該Μ值係介於1〜6 3之間。 3 ·如申請專利範圍第1項所述之用於移動估計的全域消除演算法，其中該最小細特徵差異的候選區塊所對應之移動向量係為估計出來的移動向量。 4 ·如申請專利範圍第1項所述之用於移動估計的全域消除演算法，其中該粗特徵係為連續消除演算值及多階層連續消除演算值其中之一者。 5 ·如申請專利範圍第1項所述之用於移動估計的全域消除演算法，其中該細特徵差異係為絕對差值總和。 6 ·如申請專利範圍第1項所述之用於移動估計的全域消籲除演算法，其中該Μ個候選區塊係為具有最小粗特徵的Μ個搜尋位置。 7 · —種用於移動估計的全域消除演算法之硬體架構，包括：

第27頁 526657 六、申請專利範圍一心脈式跳動模組，其係平行計算每個子區塊中的粗特徵；一樹狀加法器，用以平行比對參考區塊及候選區塊的每個粗特徵，且可重複使用來比對該參考區塊與候選區塊的細特徵，至少一樹狀比較器，用以平行搜尋該粗特徵與該參考區塊最相似的Μ個候選區塊；一控制裝置，其係控制該心脈式跳動模組、該樹狀加法器及該樹狀比較器之作動；以及至少一記憶體，用以儲存該參考區塊與候選區塊的所翁有資料。 8 ·如申請專利範圍第7項所述之硬體架構，其中該心脈式跳動模組内的每個處理單元係負責計算該區塊中的一個粗特徵。 9 ·如申請專利範圍第7項所述之硬體架構，其中該樹狀比較器係將粗特徵與該參考區塊最相似的Μ個候選區塊之相似度與其對應的移動向量記錄在暫存器中，再比較輸入之候選區塊的相似度與該Μ個候選區塊之相似度，找出此（Μ+ 1 )個候選區塊中與該參考區塊最不相似者；若該最不相似者屬於該暫存器中的某一個籲候選區塊，則將其替換成該輸入之候選區塊；若有超過一個於該暫存器中的候選區塊同時與該參考區塊最不相似，則只選擇其中一者，將其替換成該輸入之候選區塊。

第28頁 526657 六、申請專利範圍 1 〇 ·如申請中該Μ 1 1 ·如申請該樹狀制單元 12 ·如申請徵係為 13 14 之一者如申請徵差異如申請候選區

專利範圍第7項或第9項所述之硬體架構，其值係介於1〜6 3之間。專利範圍第7項所述之硬體架構，其中更可在加法器後再加上四個樹狀比較器，以及在該控方面做微小更動，即可支援先進預測模式。專利範圍第7項所述之硬體架構，其中該粗特連續消除演算值及多階層連續消除演算值其中〇專利範圍第7項所述之硬體架構，其中該細特係為絕對差值總和。專利範圍第7項所述之硬體架構，其中該Μ個塊係為具有最小粗特徵的Μ個搜尋位置。

第29頁