TW526657B - Global elimination algorithm for motion estimation and the hardware structure - Google Patents

Global elimination algorithm for motion estimation and the hardware structure Download PDF

Info

Publication number
TW526657B
TW526657B TW91107442A TW91107442A TW526657B TW 526657 B TW526657 B TW 526657B TW 91107442 A TW91107442 A TW 91107442A TW 91107442 A TW91107442 A TW 91107442A TW 526657 B TW526657 B TW 526657B
Authority
TW
Taiwan
Prior art keywords
block
candidate
scope
item
algorithm
Prior art date
Application number
TW91107442A
Other languages
English (en)
Inventor
Liang-Ji Chen
Yu-Wen Huang
Shau-Yi Jian
Original Assignee
Univ Nat Taiwan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Taiwan filed Critical Univ Nat Taiwan
Priority to TW91107442A priority Critical patent/TW526657B/zh
Priority to JP2002165518A priority patent/JP2003319396A/ja
Priority to KR1020020035608A priority patent/KR20030080958A/ko
Application granted granted Critical
Publication of TW526657B publication Critical patent/TW526657B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/57Motion estimation characterised by a search window with variable size or shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/43Hardware specially adapted for motion estimation or compensation

Description

526657 五、發明說明(1) 發明領域: 本發明係有關一種區塊比對移動估計(B丨〇ck Matching Motion Estimation)方法,特別是關於一種高 效率之全域消除演算法(Global Eliminati〇n Alg〇rithm )及其硬體架構,以去除視訊序列上的多餘性,達到視訊 壓縮之目的者。 發明背景: 按’隨著科技產業的快速發展,在視訊序列(v i de〇 sequence )傳輸中視訊資料的流量及品質益顯重要,而所 謂視訊序列就是由一連續時間上的一連串影像所組成。對 視訊序列而言,由於視訊序列需要的儲存空間非常龐大, 所以對於空間有限的儲存設備或傳輸頻寬而言,都希望能 夠減少視訊序列所需要佔用的儲存空間,故須將視訊序列 加以壓縮,因此需要視訊壓縮的技術。視訊壓縮通常係利 用去除視訊資料中的多餘性(r e d u n d a n c y )來達到壓縮的 目的;而移動估計(motion estimation)則是為了去除 視訊序列中的時間多餘性(tempora 1 redundancy )之一 個壓縮技巧。 所謂的移動估計即在描述如何在視訊序列中,在兩個 相鄰時間軸的晝面上,找到與現在處理區塊最為近似的區 塊。在許多移動估計演算法中,最常採用的是全搜尋區塊 比對演算法(Full-Search Block Matching Algorithm) ,但其運算量十分龐大,對即時性應用而言,遠超過現今 一般微處理器的能力。由於全搜尋區塊比對演算法的資料
526657 五、發明說明(2) -- /瓜十刀規律δ午多平行化' 多管線(P i p e 1 i n e d )硬體架 構已被提出’但在這些架構中,一維陣列的運算速度太慢 ’對於大晝面與大搜尋範圍的應用,其操作頻率必須大幅 增加;二維陣列的運算速度較快,但其邏輯閘的數量過於 魔大’成本過高;數狀架構雖然速度與面積的表現十分良 好’但其所需要的記憶體位元寬度(以t —Width )太大, 使其可行性大幅減低。 而為了可以減少全搜尋區塊比對演算法的高運算量, 遂發展出一種連續消除演算法(Successive EHminati〇n A 1 gor 1 thm ),其係可得到和全搜尋區塊比對演算法相同 的結果’使它比其他許多必須犧牲峰值信號雜訊比(psNR) 的快速搜尋演算法,例如三步搜尋(Three-Step Search) 、鑽石搜寻(Diamond Search)或二維對數搜尋(2D Log Search )等演算法,運算效果更佳。該連續消除演算法之 演算流程如第一圖所示,首先,如步驟S 1 〇所示在計算出 每個搜尋位置的連續消除演算值s e a (m,η)之後,如步驟 S12比較該連續消除演算值sea(m,η)是否大於最小的絕對 差值總和SADmin( Sum of Absolute Differences,SAD), 若sea(m,n) > SADmin,如步驟S14省略搜尋位置(m,n),直 接進行步驟S 2 2 ;若s e a (m,η ) < SA Dmin,則如步驟S 1 6繼續 計算每個搜尋位置的絕對差值總和SAD(m,n)。在取得SAD (m,η)之後,再如步驟S1 8比較SAD(m,η)是否大於SADmin, 若SAD(m,n)> SADmin,直接進行步驟S22 ;相反地,若SAD (m,η) < SADmin,則進行步驟S20,更新最小的絕對差值總
526657 、發明說明(3) /一 _ ’然後才進行步驟S22。步驟S22係判斷是否為最 技号位置’若是最後一個(m,η )’表示找到具有最 t SAD值胃的搜尋位置,如步驟S26所示,此即為估算出來的 私動向里MV,結束整個過程;若步驟S22之(m,η)尚有搜尋 :喊到,則如步驟S 2 4更新下一次的搜尋位置(m,η) ’並繼續回到步驟S 1 Ο,重複上述步驟。 $述在計算每個搜尋位置的s e a值後,程序出現了分 支’使資料流十分不規則且無法提前被預測,故無法採用 心脈式跳動(Systolic )陣列架構來設計硬體架構。而後 來才發展出來的多階層連續消除演算法(Multi-Level Successive Elimination Algorithm)亦仍然存有相同之 問題。 再者’連續消除演算法必須對移動向量MV ( Mot ion V e c 1: o r )有一個很好的初始猜測,才能有效地降低運算量 ’這對影像中不規則移動的區域而言是十分困難的;此外 ’若真正的移動向量超出搜尋範圍,連續消除演算法對搜 尋位置的省略比率甚至有可能會低到使該移動向量之運算 時間比全搜尋區塊比對演算法還久;再則,為了增加省略 計算SAD的次數,連續消除演算法往往以螺旋狀掃瞄 (Spiral Scan)來決定搜尋位置之先後順序,這對硬體 所要付出的代價高於傳統光柵掃瞄(Raster Scan )。 因此’本發明即在針對上述之困擾,提出一種全域消 除次异法及其對應的硬體架構,以改善習知連續消除演算 法的缺點。
526657 五、發明說明(4) 發明目的與概述: 本發明之主要目的係在提出一種用於移動估計的全域 消除演算法及其硬體架構,其係將連續消除演算法資料流 的分支做適當的移除,使資料流更加規律、順暢,且更適 合於硬體架構實現,以大幅改善連續消除演算法之缺失者 本發 消除演算 結果有很 (PSNR ) 性。 本發 消除演算 法架構設 最南’且 則為最低 本發 消除演算 式之優點 為達 括·在視 以較少點 搜尋粗特 該參考區 明之另一目的係在提出一種用於移動估計的全域 法,其搜尋結果與全搜尋區塊比對演算法的搜尋 高的相似度,有時亦具有更佳的峰值信號雜訊比 ,使得本發明之全域消除演算法具有很高的可靠 明之再一目的係在提出一種用於移動估計的全域 法之硬體架構,與其它許多全搜尋區塊比對演算 計比較,其所使用的每個邏輯閘之運算能力係為 在相同的移動向量生產率下邏輯閘所消耗的功率 〇 明之又一目的係在提出一種用於移動估計的全域 法及其硬體架構,其係具有易於支援先進預測模 者。 到上述之目的,本發明全域消除演算法之步驟包 訊序列中將參考區塊與每個搜尋位置的候選區塊 數的粗特徵表不’並比對兩者之粗特徵,接者再 徵與該參考區塊最相似的Μ個候選區塊,再比對 塊與該Μ個候選區塊的細特徵;以及在該Μ個候選
第8頁 526657 五、發明說明(5) 區塊中選出最小細特徵差異的候選區塊,即可結束整個演 算過程。 本發明用於移動估計的硬體架構則包括:一用以平行 計算複數區塊中的每個粗特徵的心脈式跳動模組;一樹狀 加法器,其係比對參考區塊及候選區塊的每個粗特徵,且 可重複使用來比對該參考區塊與候選區塊的細特徵;並利 用至少一樹狀比較器來平行搜尋該粗特徵與該參考區塊最 相似的Μ個候選區塊;且該心脈式跳動模組、該樹狀加法 器及該樹狀比較器之作動係由一控制裝置所控制;以及至 少一組用以儲存該參考區塊與候選區塊所有資料的記憶 體。 底下藉由具體實施例配合所附的圖式詳加說明,當更 容易瞭解本發明之目的、技術内容、特點及其所達成之功 效。 圖號說明: 10 心 脈 式 跳 動 模 組 12 平 行 樹 狀 加 法 器 14 平 行 樹 狀 比 較 器 16、 16 , 記 憶 體 18 控 制 單 元 20 多 工 器 22 第 一 多 工 器 網 路 24 第 二 多 工 器 網 路 26 暫 存 器 詳細說明: 移動估計是視訊壓縮中最關鍵的技術,可應用於數位 攝影機等視訊產品上,本發明即針對移動估計提出一種全 域消除演算法及其硬體架構,其係將運算資料流的分支做
526657 五、發明說明(6) 適當的移除,使得資料流更規律、更適合硬體實現,並具 有可靠、快速及高效率之特性,以大幅改善習知(多階層 )連續消除演算法的缺點。 第二圖為本發明之全域消除演算法的流程示意圖,如 圖所示,全域消除演算法係包括下列步驟:首先,在視訊 序列中,計算出每個搜尋位置(候選區塊)之多階層連續消 除演算值m s e a (m,η),如步驟S 3 0所示;然後如步驟S 3 2所 示判斷搜尋位置(m,η)是否為最後一個,若搜尋位置(m,η) 不是最後一個,則如步驟S 3 4,更新下一個搜尋位置(m,η ) ,然後再回到步驟S30繼續重複上述步驟;在步驟S34中, 搜尋位置更新的順序可為任意,且不會影響最後結果,因 此採用傳統之光柵掃瞄即可;若搜尋位置(m,η)為最後一 個,則直接進行步驟S36。以-ρ〜ρ-1代表搜尋範圍,步驟 S36為找出Μ個搜尋位置,其msea(m,n)值為在全部的(2ρ)2 個搜尋位置中最小的Μ個,然後忽略其它(2ρ)2-Μ個搜尋位 置。在完成步驟S 3 6之後,如步驟S 3 8計算該Μ個搜尋位置 各自之絕對差值總和S A D (m,η)值;最後如步驟S 4 0所示, 在步驟S38計算出的Μ個搜尋位置的SAD (m,η)值中,選擇 一個最小的SAD值,該最小SAD值的搜尋位置為全域消除演 算法所估計出來的移動向量MV。 該步驟S 3 2即為將演算法命名為全域消除的原因,它 並不像(多階層)連續消除演算法是把搜尋位置逐一檢查 能否省略,而是在計算完所有搜尋位置的m s e a值(多階層 連續消除演算值)後,才決定何者將被省略。由於在計算
第10頁 526657 五、發明說明(7) 每個搜尋位置的m s e a值之過程中,流程只會走右邊的分支 ,資料流是連續有規律的,因此,這一部份的硬體設計就 可以採用心脈式跳動陣列架構。 其中,Μ值的選擇為速度和編碼效率的取捨,Μ值之較 佳者係介於多階層連續消除演算值,通常是介於1〜6 3之 間。一般而言,Μ越大速度越慢,但編碼效率較高;Μ越小 可以省較多的運算,但編碼效率較低。無論採用的Μ值為 何,現在每個移動向量所需要的處理時間均為固定且可預 測的,這對以硬體實現之編碼系統的工作排程將更有幫助 〇 雖然全域消除演算法不能像(多階層)連續消除演算法 一樣可保證搜尋結果百分之百與全搜尋區塊比對演算法相 同,但全域消除演算法仍是非常可靠的。本發明對常見的 兩種情況做了許多測試,第一種情況(a )為QC I F (1 7 6 X 1 44 )晝面、1 6 X 1 6區塊、-1 6〜+ 1 5搜尋範圍、第三階層連續 消除之m s e a值及Μ = 7,省略S A D計算之搜尋位置比率為 99.31%;第二情況(b)為 CIF(352x 288)畫面、16x 16 區塊 、-3 2〜+ 31搜尋範圍、第三階層連續消除之msea值及Μ二7 ,省略SAD計算之搜尋位置比率為9 9. 8 3%。測試結果如表 一所示,此驗證過程實驗了許多標準測試視訊序列,全域 消除演算法所補償回來的晝面其平均峰值信號雜訊比與全 搜尋區塊比對演算法的結果非常相近,最大的差別為Ha 1 1 Mon i tor C IF,只比全搜尋區塊比對演算法低了 0. 08 dB ; 此外,有時候全域消除演算法所補償回來的畫面,其峰值
第11頁 526657 五、發明說明(8) 信號雜訊比會比全搜尋區塊比對演算法所得到的結果還要 高,如Foreman QCIF 、 Silent QCIF與Table Tennis QCIF 則可看出此現象。一般認為,全搜尋區塊比對演算法的峰 值信號雜訊比會最高是不正確的,因為最小的SAD值(Sum 〇 f A b s ο 1 u t e D i f f e r e n c e,絕對差值總和)並不能保證最 小的平均平方差(Mean Square Error),例如:1 + 9 < 5 + 6,但I2 + 92 > 5 2 + 6 2。在大部份時候,全域消除演 算法的結果和全搜尋區塊比對演算法所非常接近,第三圖 及第四圖即可說明此事,第三圖所示是Mobile Calendar C I F視訊中,全域消除演算法的移動向量Μ V和全搜尋區塊 比對演算法相同的百分比,在三百張畫面中,平均有高達 9 8 . 1 %的移動向量是相同的;第四圖所示則是在Mob i 1 e C a 1 e n d a r C I F視訊中,全域消除演算法的峰值信號雜訊比 曲線以及全搜尋區塊比對演算法的峰值信號雜訊比曲線, 由於兩條曲線實在非常接近,因此要分辨它們並不太容易 。因此,藉由以上數據可以顯示,本發明所提出的全域消 除演算法具有很高的可靠性。
第12頁 526657 五、發明說明(9) 表一 (a) -—— (bP^^η 全搜尋區塊 全域消除演 1搜尋ϊϊ 標準視訊序列 比對演算法 算法 比對演算法 算法 Coastguard 32.93 32.93 31^59" ~3L55 Container 43.11 43.11 38.53 ~38^3^ Foreman 32.21 32.22 32.85 Hall Monitor 32.98 32.97 34.90 ΊίδΓ' Mobile Calendar 26.15 26.15 25.20 25J6~ Silent 35.14 35.16 36.12 ~36Λ)~ Stefan 24.71 24.67 25.73 ~2571 ~ Table Tennis 32.10 32.11 33.03 32.96 Weather 38.42 38.42 37.45 3745~
在說明本發明之全域消除演算法之後,接著將詳細說 明其相對應之硬體架構,底下將以1 6 X 1 6的區塊大小,第 三階層連續消除之msea值以及Μ = 7為例子,並以第五圖為 主配合各部份架構來解釋本發明,以使熟習此項技術者將 可參酌此實施例之描述而獲得足夠的知識而據以實施。如 第五圖所示,用於移動估計的該硬體架構係包括:心脈式 跳動模組(s y s t 〇 1 i c m 〇 d u 1 e ) 1 0、平行樹狀加法器 (Parallel adder tree) 12、平行樹狀比較器 (Parallel comparator tree) 14、用以控制各元件作動
第13頁 526657 五、發明說明(ίο) 之控制裝置,以及儲存參考區塊資料的記憶體丨6與搜尋區 域資料的記憶體1 6 ’;其中’該控制裝置包含控制單元 (CONTROL UNIT) 18以及由多工器(MUX) 2〇與多工器網 路(MUX NETWORK 1, 2 ) 22、24組成的检制電路。口口、 如第五圖所示,該心脈式跳動模組1 〇負責在同一個時 脈循環(C 1 〇 c k C y c 1 e )中計算十六個4 X 4大小的子區塊 内之像素強度和’即粗特徵’並平行輸出十六個子區塊的 結果。請同時參考第六圖所示,其係顯示心脈式跳動模組 的資料流,其中chk與slsk分別代表參考區塊資料c(k i) 與搜尋區域資料s(k, 1) ’長方形則代表轉移暫存哭’ (Shift Register) 26,搜尋範圍是以、16〜+1 5為&例子。 區塊資料係以一欄一欄的方式平行載入心邮々 二 ^ &一 、脈式跳動模組1 0 ’ ^t = 〇〜15時,參考區塊資料被載入,太 ^ ^ 长丄b X 1 6大小的 參考區塊中之十六個4x 4子區塊’其各自的像素強度和( 即圖六.中之sum。。〜sum33,表示為csumQ()〜c 、 又 …L ^bUm33 )在 t = 1 5 時被計算出來,並在t = 1 6時脈的正緣被耷 ^ + 叉舄入至十六個十二 位元暫存器中;接著,換搜尋區塊資料以一 .q λα ^ ^ ^ ^ ^ 獨1 一欄的方式 平仃載入心脈式跳動模組1 〇,當t = 1 6〜62時,在搜尋位置 (- 1 6,- 1 6 )〜(+ 1 5,- 1 6 )的候選區塊資料被載入,搜f位置 (-16,-16)〜( + 15, -16)所對應的候選區塊中之十山個子區 塊像素強度和(即圖六中之sumGG〜 sum33,表示為rsum。。〜 rSU11133)分別在t = 3l〜62時被計算出來;同理,下一列:搜 尋區域資料也是以相同的方式運作,搜尋位置(—1 6,_丨5 ) 〜(+ 1 5,〜1 5 )的候選區塊資料在t = 6 3〜1 〇 9時被載入,搜尋
526657 五、發明說明(π) 位置(-1 6,- 1 5 )〜(+ 1 5,- 1 5 )所對應的候選區塊中之十六個 子區塊像素強度和分別在t = 7 8〜1 〇 9時被計算出來。由上 述内容可知,每一列搜尋位置需要(2 p + N - 1 )個時脈,2 p列 搜尋位置則需要2p(2p + N-l )個時脈,再加上一開始仍需要 N個日守脈來載入參考區塊貧料’故此模組1 〇總共需要n + 2 p (2 p + N - 1 )個時脈來計算所有區塊中的子區塊像素強度和( 粗特徵)。 由心脈式跳動模組1 0計算出來的子區塊像素強度和等 資料將被傳送至該平行樹狀加法器1 2,請同時參閱第六圖 及第七圖所示,平行樹狀加法器1 2之目的係在利用下列公 式計算出msea值, N-\ N-\ SAD{m,n) = Y^\ c{i, j)-s{i + mj + n)\ i=0 j=0 > Kq-SBq(m,n) | ξ msea{m,n) L-l
q=0 AM AM
AM AM 4ΣΣ办力-ΣΣ s(i + m^j+n)\=\K- SB(m, n) |= sea(my n) i=0 j=0 i=0 j=0 在上式中,K代表參考區塊之像素和,SB(m,n)代表在搜尋 位置(m,η)的候選區塊之像素和,K與SB之絕對差值 (Absolute Difference)即為sea值,亦可稱為第一階層 連續消除之msea值;若將一個區塊切分成L個子區塊,Kq 代表參考區塊之第Q個子區塊的像素和,SBq(m,η)代表在 搜尋位置(m,η)的候選區塊之第q個子區塊的像素和,再將
第15頁 526657 五、發明說明(12) L個1^和SBq之絕對差值加起來即可得到^⑼值;若一個區 塊被分成4LeveH個大小相同的子區塊,則將其稱為第Levei 階層連續消除;在所舉的例子中,第三階層連續消除則是 把一個16x 16區塊分成16個4x 4子區塊。第七圖中所示之 ADxx係負責計算參考區塊之子區塊像素強度和csumxx與搜 尋區塊之子區塊像素強度和rsunixx之間的絕對差值,樹狀 加法器1 2係將A D 0 0〜A D 3 3之結果相加起來,以得到m s e a值 〇 在依序取得各區塊之m s e a值之後,旋即進入平行樹狀 比較益1 4 ’其目的是要找出具有最小m s e a值的Μ個搜尋位 置’其做法是將目前最小的Μ個m s e a值與其對應之移動向 量存在暫存器中’若輸入的msea值比這^個㈣⑸值其中一 個或更多個還小,就把這Μ個msea值中最大的那一個換成 現在輸入的msea值;若這Μ個msea值中有兩者以上同為最 大值’只選擇其中一個換成現在輸入的msea值。 第八圖為本發明之平行樹狀比較器的電路示意圖,圖 中有「一reg」的符號代表暫存器,MAX代表比較器。在(a) 圖部份中的電路必須在第一個來自平行樹狀加法器1 2的有 效msea值來臨前,先適當地將暫存器mSeal_reg〜 msea7一reg初始設定為OxFFFF ( 6 5 5 3 5 ),此部份的電路會 計异出 msea_in一reg與mseal—reg 〜msea7_reg中的 mesa最 大值msea — max,且比較器MAX會將兩個輸入中較大者輸出 。(b)圖部份的電路是判斷mseal_reg〜msea7 一 reg有沒有 等於最大值msea —max ;其中EQUx負責比較mseax_reg,X二1
第16頁 526657
’ CHECK電路則是當有兩個以上的mseax — reg為最大值 msea — max時,僅選擇其中一個,也就是說,取代信號 replacex為主動(active),代表 mseax —reg 與 mvxjeg 應 該分別被msea—in —1^§與鮮_;[]:1 —reg所取代,且最多只會有 一個rep lac ex信號為主動。(c)圖部份的電路就是負責執 行取代的動作’ MUX為受取代信號r ep 1 ac ex控制的多工器 (Multiplexer) 。 口口
如此一來,目前最小的%個msea值與其對應之移動向 量就隨時儲存在暫存器中,直到所有的搜尋位置(候選區 塊)的msea值皆輸入平行樹狀比較器14後,暫存器中就會 有在(2pj2搜尋位置為最小的^個msea值與其對應之移動向 量,,續再去計算這Μ個搜尋位置的搜尋區域資料SAD值, 找出最小者’輸出移動向量,全域消去演算法就完成了一 個移動向量的估計。特別要注意的是,在每一列搜尋位置 之攔位資料輸入心脈式跳動模組1 0時,其前N- 1個時脈透 過平行樹狀加法器12所產生出來的msea值是無效的,此時 輸入平行樹狀比較器1 4的m s e a值必須被替換成Q x F F F F (6 5 5 3 5 ),如此才能得到正確的結果。
其中,為了平行輸出區塊的欄位資料,作法如下所述 :在搜尋範圍中的資料,總共有(2 p + Ν -1 )列,本發明將 列資料(Row Data )編號為〇〜(2ρ + Ν-2),編號除以Ν後餘 數為0的列資料就放置在記憶體丨6之RAM0 〇,餘數為i的列 資料就放置在RAM0 1,如第五圖所示,依此類推;參考區 塊資料則是放在另外一個寬度為1 2 8位元的記憶體i 6,中;
526657 五、發明說明(14) " 使參考區塊和候選區塊的攔位資料皆可被平行輸出。區塊 的棚位資料平行輸出後,在進入心脈式跳動模組1 〇前,必 須先經過第一多工器網路(Μυχ NETW0RK } ) 22,使其進 入正$的子區塊,在N = 1 6與第三階層m s e a下,其係為1 6個 對1之八位元夕工為(4 —七〇一 1 8一 bit Multiplexer),在 不同列的搜尋伋置上,控制第一多工器網路22的控制訊號 必須做適當的改變。 ^樣地’最後在計算M個搜尋位置的SAD值時,候選區 t ^貝料必須先經過第二多工器網路(MUX NETWORK 2)24 M =平行樹狀加法器1 2,其為1 6個1 6對1之位元多工器 #糾t 8 —blt MultipleXer);在不同列的搜尋位置, 二,=夕工為網路2 4的控制訊號亦得做適當的改變。因 的Μ個#^明係需要N + 2P(2P + N_1)時脈找出擁有最小rasea值 Γ個;“位置’然後接著要計算這Μ個搜尋位置之SAD值 可重複利用平行樹狀加法器12的資源,·每個搜尋位 I MM彳in i值需要N個時脈來計算,M個搜尋位置之SAD值則需 時脈來計算。綜合以上所述,以N=丨6與第三階層 ΖΓί 本發明所提出的硬體架構需要n+2p(2P+n-u + ΜΝ個時脈來計算一個移動向量。 至此,本發明之精神已說明完畢,以下特以一具體實 來驗證說明上述之原理及功效。為了分析本發明所 知出來之硬體架構的效能,本發明提出來的與基 於,區塊比對演算法之硬體架構做比車交,:::象是 從參考文獻[1]〜[7]中提出來的,結果顯示在表二與表三
第18頁 526657 五、發明說明(15) 中’其中,表二是在16x 16區塊、-16〜+15搜尋範圍、第 三階層連續消除以及M = 7之條件下,不同架構之比較;表 三則是在1 6 X 1 6區塊、-3 2〜+ 3 1搜尋範圍、第三階層連續 消除以及Μ = 7之條件下,不同架構之比較。 本發明比較的是各架構之處理元素(Processing Element )陣列的部份,控制電路只佔很小的部份,所以 並沒有將它以硬體實現出來。每種架構之處理元素陣列是 以 SYNOPSYS Design Analyzer所合成,並採用 AVANT! 〇 · 3 5 // m Cell Library,所下的最短路徑限制(Critical Path Constraint)為20 ns,也就是電路可達之工作頻率 至少為50 MHz。在表二和表三中有*號標記的架構除了處 理元素之外,尚需要許多額外的邏輯電路,大多為轉移暫 存器(S h i f t R e g i s t e r ),以增加資料的重複使用性,因 此,這些架構實際上在邏輯電路方面的閘數(Gate Count )與消耗功率會比模擬的結果還要高不少。在表二和表三 中,本發明除了記憶體、第二多工器網路與控制單元未實 現,其它皆有在模擬中考慮到,此外,本發明在模擬時切 了 3級管線(pipelines)。 為了要更公平地比較這些架構,必須在相同的位移向 量生產率(T h r 〇 u g h p u t 〇 f Μ 〇 t i ο η V e c t 〇 r s,N 0 · 〇 f Motion Vectors / Sec·)之下才行。因此,我們定義了 「正常化每邏輯閘之處理能力」(Normalized Processing Capability per Gate , NPCPG)與「正常化 功率消耗」(Normalized Power, NP):
第19頁 526657 五、發明說明(16) 一 1
[(Re quired Freq. for CIF 30 Jps) / (Gate Count @ 50MHz)] for XXX NPCPGxxx =-^^-
[(Re quired Freq. for CIF 30 Jps) / (Gate Count @ 50MHz)] for GEA
[(Power @ 50MHz) x (Re quired Freq. for CIF 30 fps / 50MHz)] for XXX NPXXX =
[(Power @ 50MHz) x (Re quired Freq. for CIF 30 fps / 50MHz)] for GEA 一般而言,一維陣列架構的處理速度不夠快,對於大 畫面與大搜尋範圍的應用,其操作頻率必須大幅增加。二 維陣列架構的運算速度較快,但其邏輯閘的數量過於龐大 力
^成本過高;參考文獻[6 ]的架構雖然屬於一維陣列,但 匕疋採用資料交錯(Data-Interlacing)與二維資料重複 引用(2-D Data Reuse ),所以它的問題與二維陣列架構 =同,也就是邏輯閘太多。數狀架構雖然速度與面積的表 ,十分良好,但其所需要的記憶體位元寬度太大,使其可 =陡大幅減低。本發明所提出的硬體架構,其運算速度大 上只比二維陣列架構與樹狀架構慢一些(架構[3 ]比本 1明所提出的架構還慢),但邏輯閘數目遠比它們小;一 '「'車列架構的運异速度遠低於本發明所提出的架構,架構 的邏μ輯閘數目甚至在較大搜尋範圍時比本發明所提出 士木構還大。因此,本發明在「正常化每邏輯閘之處理能 與「正常化功率消耗」之表現比其它架構好很多。
第20頁 526657 五、發明說明(17)
Architec tune Etesaiption No. cf FE Cycles per MV Required IVfemDiy VO Required &eq.forOF 30 φΒ Gate Cbut MOKj Gat^ Le\el Pcmct @0Mt [1] Yarg 1-Dserri- systolic 32 8192 24 hits 97.32 28. CK Q13 26.0 _ 299 [2]AB1 1-D systolic 16 24064 256 bits 285.88 Mfe 3.8K 0.32 11.7nM/ 3.95 [2]AB2 2-D systolic 256 1504 128 hits 17.87 嫩 95. IK 020 27.8 nW 4.82 [3] Bieh* 2-D systolic 256 2209 8 bits 26.24 100.¾ 0.13 147.2 副 4.57 [4] Tree TB*ee stmdune 256 1024 2048 bits 1217· 56. IK Q51 179.5 _ 259 [5]Yeo 2-Dseni- systolic 1024 256 24 bits 3.(ΆΜί 447« Q26 10526 mW 3.79 [6\Im 1-Dseni- systolic 1024 256 24 bits 3g7.« Q30 糾5.6ni\ 3m [7]SA* 2-D systolic 256 1024 16 hits 12.17Mt 126.5K Q23 258.0_ 3.72 [7] SSA* 2-Dserri- systolic 256 1024 16 hits 12.17Mt 106. CK Q27 280.1 nM/ 4.0i Ouis Based on GEA 16 1635 256bits 19.42 Mt 17.5K 1.00 43.4 福 1.00
liilill 第21頁 526657 五、發明說明(18)
Architec tue Etesaiption No.cf FE Cycle per MV Required MfetiOry VO Required Req.forOF 30 ¢6 Gate Cbut NPCPG Gate· Le\el Pov^er NP [l]Yar® 1-Dserri- systolic 32 16384 24 bits M.64 嫩 56. CK Q10 52.0 谓 3.78 [2]AB1 1-D systolic 16 808¾ 256 bits 3.8K Q30 117湯 4.20 [2]AB2 2-D systolic 256 5056 128 bits 60.07 Mt 95. IK Q19 227.8 _ 5.12 [3] ffieh* 2-D systolic 256 6241 8hits 74.14· 100.6K 0.15 147.2 _ 4.08 [4] Tree Tree structure 256 4096 2048 bits 48.65 Mi 56ΛΚ Q40 179.5 3.27 [5]Ye〇 2-Dserri- systolic 1024 256 24 bits 3.04 1790. CK Q20 4210.3 ϊήΝ 4.79 [6] Lai 1-Dsmi- systolic 1024 256 24hts 3.WMfe 1550.4K 0.23 33824 3.84 [7]SA* 2-D systolic 256 4096 16 bits 48.66 126.5K 0.18 258.0— 4.69 [7] SSA* 2-Dsem- systolic 256 4096 16 bits 48.66 Mt 106. (K 0.21 280.1 5.09 Ours Based on GEA 16 5187 256fcits 61.62 Mt 17.SK 1.00 43.4 湯 1.00
在新一代的視訊壓縮標準中,如H· 2 6 3 +、MPEG-4等等 ,提供了其它類型之移動估計模式,所採用的區塊大小不 再限定是傳統的1 6 X 1 6大小’而是在原本1 6 X 1 6區塊中以
第22頁 526657 五、發明說明(19) 四個8 X 8大小的區 適當地判斷該採用 移動估計模式稱為 Prediction Mode ) 四組平行樹狀比較 如第九圖所不。若 四階層m s e a來設計 因此,本發明 體架構實現,以大 時兼具有可靠性高 向量生產率下邏輯 以上所述之實 點,其目的在使熟 容並據以實施,當 凡依本發明所揭示 蓋在本發明之專利 塊產生四組移動向量,若壓縮演算法能 何者,μ '、、扁碼效果可以有顯著提升,此種 「先進預測模式」(Advanced σ。本發明所提出的硬體架構只要增加 ☆’就可以輕易地支援先進預測模式, 要以本架構支援先進預測模式,採用第 電路’可以得到比較好的編碼效果。 使資料流更加規律、順暢,更適合於硬 幅改善連續消除演算法之缺失者,並同 ’邏輯閘運算能力高,且在相同的移動 閘消耗的功率為最低等之特性。 施例僅係為說明本發明之技術思想及特 習此項技藝之人士能夠瞭解本發明之内 不能以之限定本發明之專利範圍,即大 之精神所作之均等變化或修飾,仍應涵 範圍内。 參考文獻: [1]K.M. Yang, M.T. Sun, and L. Wu, M A family of VLSI designs for the motion compensation block-matching algorithm,丨,IEEE Trans, on Circuits and Systems, vol. 36,no. 2,pp· 1 3 1 7- 1 3 5 8,Oct· 1 9 8 9.
第23頁 526657 五、發明說明(20) [2] T. Komarek and P. Pirsch, "Array architectures for block matching algorithms," IEEE Trans, on Circuits and Systems, vol. 36, no. 2, pp. 1301-1308, Oct. 1989· [3] C.H. Hsieh and T.P. Lin, "VLSI architecture for block-matching motion estimation algorithm, M IEEE Trans, on Circuits and Systems for Video Technology, vol· 2, no. 2, pp· 169-175, Jun. 1992· [4] Y. S. Jehng,L. G. Chen and T. D. Chiueh,丨,An efficient and simple VLSI tree architecture for motion estimation algorithms, n IEEE Trans. on Signal Processing, vol. 41, no. 2, pp. 88 9-9 0 0,
Feb. 1993.
[5] H. Yeo and Y. H. Hu,丨’A novel modular systolic array architecture for full-search block matching motion estimation," IEEE Trans. on Circuits and Systems for Video Technology, vol. 5, no. 5, pp. 407-416, Oct. 1995.
[6] Y.K. Lai and L.G. Chen, n A data-interlacing architecture with two-dimensional data-reuse for
第24頁 526657 五、發明說明(21) full-search block-matching algorithm, M IEEE Trans. on Circuits and Systems for Video Technology, vol. 8, no. 2, pp. 124-127, Apr. 1998.
[7] Υ·Η· Yeh and C.Y· Lee, nCost-effective VLSI architectures and buffer size optimization for full-search block matching algorithms,” IEEE Trans, on VLSI Systems, vol. 7, no. 3, pp. 345-358, Sep. 1999·
第25頁 526657 圖式簡單說明 第一圖為習知連續消除演算法之流程示意圖。 第二圖為本發明之全域消除演算法的流程示意圖。 第三圖為本發明與全搜尋區塊比對演算法的移動向量相同 之百分比曲線圖。 第四圖為本發明與全搜尋區塊比對演算法的峰值信號雜訊 比之曲線圖。 第五圖為本發明之整體硬體架構示意圖。 第六圖為本發明之心脈式跳動模組的架構示意圖。 第七圖為本發明之樹狀加法器的架構示意圖。 第八圖為本發明之平行樹狀比較器的架構示意圖。 第九圖為本發明支援先進預測模式之架構示意圖。
第26頁

Claims (1)

  1. 526657 六、申請專利範圍 1 · 一種用於移動估計的全域消除演算法,包括下列步驟 在視訊序列中將參考區塊與每個搜尋位置的候選區塊 以較少點數的粗特徵表示; 比對該參考區塊與所有該候選區塊的粗特徵; 搜尋粗特徵與該參考區塊最相近的Μ個候選區塊,再 比對該參考區塊與該Μ個候選區塊的細特徵;以及 在該Μ個候選區塊中選出最小細特徵差異的候選區塊 ,即可結束整個演算過程。 2 ·如申請專利範圍第1項所述之用於移動估計的全域消 φ 除演算法,其中該Μ值係介於1〜6 3之間。 3 ·如申請專利範圍第1項所述之用於移動估計的全域消 除演算法,其中該最小細特徵差異的候選區塊所對應 之移動向量係為估計出來的移動向量。 4 ·如申請專利範圍第1項所述之用於移動估計的全域消 除演算法,其中該粗特徵係為連續消除演算值及多階 層連續消除演算值其中之一者。 5 ·如申請專利範圍第1項所述之用於移動估計的全域消 除演算法,其中該細特徵差異係為絕對差值總和。 6 ·如申請專利範圍第1項所述之用於移動估計的全域消 籲 除演算法,其中該Μ個候選區塊係為具有最小粗特徵 的Μ個搜尋位置。 7 · —種用於移動估計的全域消除演算法之硬體架構,包 括:
    第27頁 526657 六、申請專利範圍 一心脈式跳動模組,其係平行計算每個子區塊中的粗 特徵; 一樹狀加法器,用以平行比對參考區塊及候選區塊的 每個粗特徵,且可重複使用來比對該參考區塊與候 選區塊的細特徵, 至少一樹狀比較器,用以平行搜尋該粗特徵與該參考 區塊最相似的Μ個候選區塊; 一控制裝置,其係控制該心脈式跳動模組、該樹狀加 法器及該樹狀比較器之作動;以及 至少一記憶體,用以儲存該參考區塊與候選區塊的所 翁 有資料。 8 ·如申請專利範圍第7項所述之硬體架構,其中該心脈 式跳動模組内的每個處理單元係負責計算該區塊中的 一個粗特徵。 9 ·如申請專利範圍第7項所述之硬體架構,其中該樹狀 比較器係將粗特徵與該參考區塊最相似的Μ個候選區 塊之相似度與其對應的移動向量記錄在暫存器中,再 比較輸入之候選區塊的相似度與該Μ個候選區塊之相 似度,找出此(Μ+ 1 )個候選區塊中與該參考區塊最 不相似者;若該最不相似者屬於該暫存器中的某一個 籲 候選區塊,則將其替換成該輸入之候選區塊;若有超 過一個於該暫存器中的候選區塊同時與該參考區塊最 不相似,則只選擇其中一者,將其替換成該輸入之候 選區塊。
    第28頁 526657 六、申請專利範圍 1 〇 ·如申請 中該Μ 1 1 ·如申請 該樹狀 制單元 12 ·如申請 徵係為 13 14 之一者 如申請 徵差異 如申請 候選區
    專利範圍第7項或第9項所述之硬體架構,其 值係介於1〜6 3之間。 專利範圍第7項所述之硬體架構,其中更可在 加法器後再加上四個樹狀比較器,以及在該控 方面做微小更動,即可支援先進預測模式。 專利範圍第7項所述之硬體架構,其中該粗特 連續消除演算值及多階層連續消除演算值其中 〇 專利範圍第7項所述之硬體架構,其中該細特 係為絕對差值總和。 專利範圍第7項所述之硬體架構,其中該Μ個 塊係為具有最小粗特徵的Μ個搜尋位置。
    第29頁
TW91107442A 2002-04-12 2002-04-12 Global elimination algorithm for motion estimation and the hardware structure TW526657B (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW91107442A TW526657B (en) 2002-04-12 2002-04-12 Global elimination algorithm for motion estimation and the hardware structure
JP2002165518A JP2003319396A (ja) 2002-04-12 2002-06-06 動き予測のための全域消去法及びそのハードウェア構造
KR1020020035608A KR20030080958A (ko) 2002-04-12 2002-06-25 움직임 예측용 글로벌 소거 알고리즘 및 그 하드웨어 구조

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW91107442A TW526657B (en) 2002-04-12 2002-04-12 Global elimination algorithm for motion estimation and the hardware structure

Publications (1)

Publication Number Publication Date
TW526657B true TW526657B (en) 2003-04-01

Family

ID=28451405

Family Applications (1)

Application Number Title Priority Date Filing Date
TW91107442A TW526657B (en) 2002-04-12 2002-04-12 Global elimination algorithm for motion estimation and the hardware structure

Country Status (3)

Country Link
JP (1) JP2003319396A (zh)
KR (1) KR20030080958A (zh)
TW (1) TW526657B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940844B2 (en) * 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
US8462850B2 (en) * 2004-07-02 2013-06-11 Qualcomm Incorporated Motion estimation in video compression systems
JP5195674B2 (ja) * 2009-07-13 2013-05-08 富士通株式会社 画像符号化装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014181A (en) * 1997-10-13 2000-01-11 Sharp Laboratories Of America, Inc. Adaptive step-size motion estimation based on statistical sum of absolute differences

Also Published As

Publication number Publication date
KR20030080958A (ko) 2003-10-17
JP2003319396A (ja) 2003-11-07

Similar Documents

Publication Publication Date Title
KR101235132B1 (ko) 비디오 코딩을 위한 효율적인 변환 기술들
US7486733B2 (en) Method for performing motion estimation in video encoding, a video encoding system and a video encoding device
US7782957B2 (en) Motion estimation circuit and operating method thereof
KR101578052B1 (ko) 움직임 추정 장치 및 이를 구비하는 동영상 부호화 장치
JP2010509850A (ja) 映像符号化における参照フレームのサーチを軽減する装置及び方法
Lin et al. Low-power parallel tree architecture for full search block-matching motion estimation
US20030198295A1 (en) Global elimination algorithm for motion estimation and the hardware architecture thereof
Elgamel et al. A comparative analysis for low power motion estimation VLSI architectures
TW526657B (en) Global elimination algorithm for motion estimation and the hardware structure
Aysu et al. A low energy adaptive hardware for H. 264 multiple reference frame motion estimation
Moshnyaga A new computationally adaptive formulation of block-matching motion estimation
AlQaralleh et al. Low-complexity motion estimation design using modified XOR function
Guevorkian et al. Architectures for the sum of absolute differences operation
Mukherjee et al. Fast adaptive motion estimation algorithm and its efficient VLSI system for high definition videos
Chen A cost-effective three-step hierarchical search block-matching chip for motion estimation
Mukherjee et al. High performance VLSI architecture for three-step search algorithm
Liu et al. A frame-level FSBM motion estimation architecture with large search range
Mukherjee et al. Efficient VLSI design of adaptive rood pattern search algorithm for motion estimation of high definition videos
Li et al. A VLSI architecture design of an edge based fast intra prediction mode decision algorithm for H. 264/AVC
Miyakoshi et al. A low-power systolic array architecture for block-matching motion estimation
Muralidhar et al. Efficient architecture for variable block size motion estimation in H. 264/AVC
Mukherjee et al. Speed-area optimized VLSI architecture of hexagonal search algorithm for Motion Estimation of 512 * 512 512× 512 frames
Song et al. An adaptive motion estimation architecture for H. 264/AVC
Yeo et al. A novel architecture and processor-level design based on a new matching criterion for video compression
Moshnyaga A new architecture for computationally adaptive full-search block-matching motion estimation

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent