TWI402771B

TWI402771B - 應用於多核心處理器之快速整數離散餘弦轉換方法

Info

Publication number: TWI402771B
Application number: TW098144700A
Authority: TW
Inventors: Tsung Han Tsai; Huang Chun Lin; Yu Hsuan Lee
Original assignee: Univ Nat Central
Priority date: 2009-12-24
Filing date: 2009-12-24
Publication date: 2013-07-21
Also published as: US20110157190A1; TW201123084A

Description

應用於多核心處理器之快速整數離散餘弦轉換方法

本發明係關於影像編碼及解碼之技術領域，尤指一種應用於多核心處理器之快速整數離散餘弦轉換方法。

由於高壓縮率的多媒體影像壓縮技術需求和越來越高解析度的趨勢，為了要達到即時編碼/解碼的目標，一個更快的編解壓縮模組廣泛地被需要。在一個多媒體系統中，整數的離散轉換是一個關鍵的壓縮工具，其被廣泛的應用於許多的多媒體系統如H.264/AVC、H.264/SVC、H.264/MVC和AVS等等。

現今流行的視訊編解碼系統，如H.264/AVC、H.264/SVC、MPEG4等，一般都會利用整數離散餘弦轉換單元(Integer DCT)130來移除影像資訊的冗餘，其將資訊集中至低頻，並經由移除高頻資訊的冗餘以產生壓縮過的視訊資訊。圖1係一習知的編解碼系統的架構之示意圖，如圖1所示，整數離散餘弦轉換單元(Integer DCT)130位於運動估測單元(ME)110和運動補償單元(MC)120之後，且因為在編碼器端需要一個解碼過後的前一張影像Fn-1’來做壓縮影片的參考。故在對當前圖框Fn編碼後須再經由解碼，再經由反整數離散餘弦轉換單元(Inverse Integer DCT)140來轉換獲得重建圖框Fn’。因此，一個編碼器必須執行許多的離散餘弦轉換。而在高解析度的視訊壓縮中，離散餘弦轉換的運算也會多出許多，例如：一個CIF的視訊比QCIF須做出約四倍的離散餘弦轉換。而在H.264/SVC中，要壓縮QCIF和CIF的視訊影片則必須做出更多的離散餘弦轉換。

在多媒體的應用中，除了使用一般的特定積體電路(ASIC)的方式來實現整數離散餘弦轉換以外，也有使用嵌入式系統處理器或多核心處理器的方式來實現整數離散餘弦轉換。

在使用嵌入式系統處理器或多核心處理器的影音平台中，目前許多人使用德州儀器(Texas Instruments)所開發的VIDEO/IMAGE加速函式庫，以加速離散餘弦轉換演算法開發。該VIDEO/IMAGE加速函式庫雖然有著良好的執行效率和方便應用的特性，但由於其在離散餘弦轉換只支援8x8大小的區塊離散餘弦轉換，與現今視訊壓縮所制定的規格不盡相同，且此種加速函式庫只適用於TI系列的數位訊號處理器，不適用於市場上的多核心處理器。

同時，在4x4區塊的離散餘弦轉換有許多研究者也提出用單指令多筆資料處理(Single Instruction,Multiple Data,SIMD)的方法來達到最佳化。該SIMD方法使用一連串的乘加指令(Multi-add instruction)來簡化運算，然而乘法運算在CPU的應用中是一個極耗費時間的運算，雖然提升了效能，但卻忽略了CPU硬體單元的使用率。因此，習知整數離散餘弦轉換的技術仍有改善的空間。

本發明之目的主要係應用於多核心處理器之快速整數離散餘弦轉換方法，可降低處理器執行離散餘弦轉換時的負載，且離散轉換可以在更短的循環內完成。

依據本發明之一特色，本發明提出一種應用於多核心處理器之快速整數離散餘弦轉換方法，其係運用於一影像壓縮及解壓縮系統以將一影像之像素進行整數離散餘弦轉換，該系統具有一記憶體及一數位訊號處理器，該數位訊號處理器具有一暫存器檔案(Register File)及二個任務引擎，該快速整數離散餘弦轉換方法包含：(A)由該記憶體中將像素資料讀取至該暫存器檔案中；(B)依據一整數離散餘弦轉換公式，分配任務引擎的運算範圍，其依據該數位訊號處理器之任務引擎數目，將運算流程分為兩組，並分配每一任務引擎的運算範圍；(C)對該暫存器檔案中的暫存器的像素資料進行先處理，以產生不同加權的像素資料；(D)對該不同加權的像素資料計算共同項，其係依據整數離散餘弦轉換係數的轉置矩陣之特性，以計算共同項(Common Term)；(E)依據共同項以計算暫時項；(F)重覆步驟(C)至步驟(E)，以計算第二暫時項；(G)重覆步驟(C)至步驟(F)，以完成整數離散餘弦轉換；其中，於步驟(G)時，係依據整數離散餘弦轉換係數的特性，以計算共同項。

本發明技術係以德州儀器(Texas Instruments)公司的C64+數位訊號處理器為例，以說明本案之技術，其非用於限制本發明之權利範圍，本發明之權利範圍應以申請專利範圍所載為依據，先予敘明。

本發明之一種應用於多核心處理器之快速整數離散餘弦轉換方法係運用於一影像壓縮及解壓縮系統中，以將一影像之像素進行整數離散餘弦轉換。圖2係該影像壓縮及解壓縮系統之部分方塊圖，該系統具有一記憶體210及一數位訊號處理器220，該數位訊號處理器220具有一暫存器檔案(Register File)221及二個任務引擎223。每一任務引擎具有4個處理單元(圖未示)。

圖3係本發明之一種應用於多核心處理器之快速整數離散餘弦轉換方法之流程圖。本發明之快速整數離散餘弦轉換方法係有效率且快速執行一整數離散餘弦轉換公式，以獲得整數離散餘弦轉換之結果。圖4係離散餘弦轉換之矩陣運算的示意圖。該整數離散餘弦轉換公式為X =A ^T YA ，當中，Y 為像素資料，且像素資料為4X4矩陣，且每一矩陣元素為16位元，A 為整數離散餘弦轉換係數，A ^T 為A 之轉置矩陣(Transport Matrix)，X 為所得之整數離散餘弦轉換。

首先，於步驟(A)中，由該記憶體210中將像素資料讀取至該暫存器檔案221中。於步驟(A)中係以該數位訊號處理器C64+的載入指令(Load instruction)LDDW將該記憶體210中將像素資料讀取至該暫存器檔案221中。其使用該載入指令LDDW之次數係依據該像素資料之位元數、該記憶體210資料匯流排的寬度、及該暫存器檔案(Register File)221中的暫存器的位元數而定。例如：圖5係本發明LDDW指令寫入暫存器的示意圖。如圖5所示，像素資料之位元數為16位元、該記憶體210資料匯流排的寬度為128位元、暫存器檔案(Register File)221中的暫存器的位元數為32位元，則需執行4次載入指令LDDW，以將c ₀₀ ~c ₃₁ 的像素資料寫入暫存器A0、A1、B0、B1中。

於步驟(A)中的讀取記憶體資料至暫存器的法則需要盡量在較少循環內盡量塞滿記憶體210跟暫存器之間的頻寬，傳送元素至暫存器也需要注意是否已塞滿暫存器的空間，例如一個像素資料為16位元的資料，所以一個32位元的處理器需要在一個暫存器中存入兩個像素資料。

於步驟(B)中，依據該整數離散餘弦轉換公式，分配任務引擎的運算範圍，其依據該數位訊號處理器之任務引擎數目，將運算流程分為兩組，並分配每一任務引擎的運算範圍。圖6係本發明重新排列數離散餘弦轉換公式之示意圖。如圖6所示，該暫時結果A ^T Y 係以矩陣Z 表示。像素資料c ₀₀ 、c ₁₀ 、c ₂₀ 、c ₃₀ 係載入暫存器A0、A1中，因此矩陣Z 的第一行為：

由公式(1)可知，Z ₀₀ 與Z ₃₀ 可由兩個共同項(c ₀₀ +c ₂₀ )及組成，而Z ₁₀ 與Z ₂₀ 可由另外兩個共同項(c ₀₀ -c ₂₀ )及組成，因此可將矩陣Z 的第一行及第四行交由第一個任務引擎處理，矩陣Z 的第二行及第三行交由第二個任務引擎處理。

於步驟(C)中，對該暫存器檔案(Register File)中的暫存器的像素資料進行先處理，以產生不同加權的像素資料。由公式(1)可知，共同項(c ₀₀ +c ₂₀ )、、(c ₀₀ -c ₂₀ )及中，像素資料c ₀₀ 、c ₁₀ 、c ₂₀ 、c ₃₀ 具有不同的權重，因此於步驟(C)中係使用該數位訊號處理器的AND指令來遮罩需要的位元，並使用SHR或SHVR指令來位移位元。

圖7係本發明暫存器的像素資料進行先處理之示意圖。指令「AND A0[H],0000FFFF,A2」先由暫存器A0的高字組(High word)取出c ₀₀ 並進行遮罩運算，再將結果放入暫存器A2中。

指令「SHR A0[L],1,A4」先由暫存器A0的低字組(Low word)取出c ₁₀ 並進行向右移位1位元運算，再將結果放入暫存器A4中，亦即在暫存器A4存放。

指令「PACK A2,A4,A2」先由暫存器A2的低字組與暫存器A4的低字組組合，再將結果放入暫存器A2中，亦即在暫存器A2的高字組存放c ₀₀ ，暫存器A2的低字組存放。

於步驟(D)中，對該不同加權的像素資料計算共同項，其係依據整數離散餘弦轉換係數的轉置矩陣之特性，以計算共同項(c ₀₀ +c ₂₀ )、、(c ₀₀ -c ₂₀ )及。其係使用該數位訊號處理器的ADD2及SUB2指令來處理該暫存器檔案(Register File)中的暫存器的像素資料，並係使用該數位訊號處理器的SWAP2對一個暫存器做兩個元素交換位置的運算，以產生該共同項。

圖8係本發明計算共同項之示意圖。指令「ADD2 A0,A3,A4」先由暫存器A0的低字組取出c ₁₀ ，暫存器A3的低字組取出，相加後再將結果放入暫存器A4中，亦即在暫存器A4的低字存放。並由暫存器A0的高字組取出c ₀₀ ，暫存器A3的高字組取出c ₂₀ ，相加後再將結果放入暫存器A4中，亦即在暫存器A4的高字組存放(c ₀₀ +c ₂₀ )。

於步驟(E)中，依據共同項以計算第一暫時項Z₀₀ 、Z ₁₀ 、Z ₂₀ 與Z ₃₀ 。圖9係本發明計算暫時項之示意圖。指令「SWAP A4,A6」先由暫存器A4的低字組取出，並存入暫存器A6的高字組，並由暫存器A4的高字組取出c ₁₀ +c ₂₀ ，並存入暫存器A6的低字組。

指令「ADDSUB2A4,A6,A6」先由暫存器A4的低字組與暫存器A6的低字組相加，將相加結果存入暫存器A6的低字組，並由由暫存器A4的高字組與暫存器A6的高字組相減，將相減結果存入暫存器A6的高字組。

由前述步驟(A)~(E)即可產生Z ₀₀ 、Z ₁₀ 、Z ₂₀ 與Z ₃₀ ，由於該數位訊號處理器220具有二個任務引擎223。每一任務引擎具有4個處理單元(TE_L,TE_S,TE_M,TE_D)，因此第一個任務引擎可執行前述步驟(A)~(E)以產生Z ₀₀ 、Z ₁₀ 、Z ₂₀ 與Z ₃₀ ，第二個任務引擎也可執行前述步驟(A)~(E)以產生Z ₀₃ 、Z ₁₃ 、Z ₂₃ 與Z ₃₃ 。圖10係本發明任務引擎執行時指令之配置的示意圖。

於步驟(F)中，重覆步驟(C)至步驟(E)，以計算第二暫時項。重覆前述步驟，以產生Z ₀₁ 、Z ₁₁ 、Z ₂₁ 、Z ₃₁ 、Z ₀₂ 、Z ₁₂ 、Z ₂₂ 、與Z ₃₂ ，藉此求出Z (=A ^T Y )。

於步驟(G)中，重覆步驟(A)~步驟(F)，以產生整數離散餘弦轉換X (=ZA )，此時，步驟(D)時係依據整數離散餘弦轉換係數A 的特性，以計算共同項。

由前述說明可知，步驟(A)~步驟(F)係計算A ^T 與Y 之矩陣乘積，以產生該暫時項，步驟(G)係計算A ^T Y 與A 之矩陣乘積，以產生該整數離散餘弦轉換X 。

同時，為增加每一任務引擎223的硬體執行效率，本發明將該數位訊號處理器220執行的指令之分配具有規律性及對稱性，因此共同項顯示對稱的數學運算。同時，在本發明中，對稱的指令亦經妥善安排，以使任務引擎223能平行化處理指令，以能有效地降低處理器執行離散餘弦轉換時的負載，並快速產生離散餘弦轉換。

在開發多媒體系統時，為了要降低處理器執行離散餘弦轉換時的負載，本發明提出了適合於多核心處理器的快速整數離散餘弦轉換方法來提升效能。該快速整數離散餘弦轉換方法考慮了記憶體210對暫存器檔案221的存取頻寬、數位訊號處理器220之運算單元的使用率和暫存器檔案221的使用率來達到優異的表現且符合各種視訊壓縮所制定出來的標準。

為了要有效的利用多核心數位訊號處理器220的特殊架構來達到有效率的快速離散轉換，本發明利用該數位訊號處理器220的特殊架構與指令集來構成一個快速整數離散餘弦轉換方法。此快速整數離散餘弦轉換方法一開始考慮該數位訊號處理器220最大可存取量來存取記憶體210中的資料，並且妥善利用管線化的技術來使得資料可以順利的讀取到暫存器中。在處理資料的機制中，本發明運用了該數位訊號處理器220架構中多核心架構和SIMD指令集組成一個特別的快速整數離散餘弦轉換方法來使得多核心該數位訊號處理器220在一個循環中可以處理多筆資料。在本發明的快速整數離散餘弦轉換方法下，一個4x4像素構成的區塊離散轉換可以在更短的循環內完成，在這個高效率的最佳化方法下，一個H.264/SVC的4CIF與CIF的影像壓縮位元串流可以在TI DM6437順利的在30fps被以極低的處理器負載下被實現。本發明之整數離散餘弦轉換方法可以應用在現今的諸多多媒體系統中的編解碼端例如H.264/AVC、H.264/SVC、H.264/MVC和AVS等等，並且依舊符合數位影像壓縮技術的標準制定規範。在本發明的善加利用下，一個4x4 block的離散餘弦轉換可以十分有效率的被實現出來。

由上述可知，本發明無論就目的、手段及功效，在在均顯示其迥異於習知技術之特徵，極具實用價值。惟應注意的是，上述諸多實施例僅係為了便於說明而舉例而已，本發明所主張之權利範圍自應以申請專利範圍所述為準，而非僅限於上述實施例。

110‧‧‧運動估測單元

120‧‧‧運動補償單元

130‧‧‧整數離散餘弦轉換單元

140‧‧‧反整數離散餘弦轉換單元

210‧‧‧記憶體

220‧‧‧數位訊號處理器

221‧‧‧暫存器檔案

223‧‧‧任務引擎

步驟(A)~步驟(G)

圖1係一習知的編解碼系統的架構之示意圖。

圖2係本發明影像壓縮及解壓縮系統之部分方塊圖。

圖3係本發明之應用於多核心處理器之快速整數離散餘弦轉換方法之流程圖。

圖4係離散餘弦轉換之矩陣運算的示意圖。

圖5係本發明LDDW指令寫入暫存器的示意圖。

圖6係本發明重新排列數離散餘弦轉換公式之示意圖。

圖7係本發明暫存器的像素資料進行先處理之示意圖。

圖8係本發明計算共同項之示意圖。

圖9係本發明計算暫時項之示意圖。

圖10係本發明任務引擎執行時指令之配置的示意圖。

步驟(A)~步驟(G)

Claims

一種應用於多核心處理器之快速整數離散餘弦轉換方法，其係運用於一影像壓縮及解壓縮系統以將一影像之像素進行整數離散餘弦轉換，該系統具有一記憶體及一數位訊號處理器，該數位訊號處理器具有一暫存器檔案(Register File)及二個任務引擎，該快速整數離散餘弦轉換方法包含：(A)由該記憶體中將像素資料讀取至該暫存器檔案中，其中，於步驟(A)中係以該數位訊號處理器的載入指令(Load instruction)將該記憶體中將像素資料讀取至該暫存器檔案中；(B)依據一整數離散餘弦轉換公式，分配任務引擎的運算範圍，其依據該數位訊號處理器之任務引擎數目，將運算流程分為兩組，並分配每一任務引擎的運算範圍，其中，整數離散餘弦轉換公式為X =A ^T YA ，當中，Y 為像素資料，A 為整數離散餘弦轉換係數，A ^T 為A 之轉置矩陣(Transport Matrix)，X 為步驟(G)所得之整數離散餘弦轉換；(C)對該暫存器檔案(Register File)中的暫存器的像素資料進行先處理，以產生不同加權的像素資料，其中，於步驟(C)中係使用該數位訊號處理器的AND指令來遮罩該暫存器的高字組，並使用SHR或SHVR指令來位移位元； (D)對該不同加權的像素資料計算共同項，其係依據整數離散餘弦轉換係數的轉置矩陣之特性，以計算共同項(Common Term)；(E)依據共同項以計算第一暫時項；以及(F)重覆步驟(C)至步驟(E)，以計算第二暫時項；(G)重覆步驟(C)至步驟(F)，以完成整數離散餘弦轉換；其中，於步驟(G)時，係依據整數離散餘弦轉換係數的特性，以計算共同項，步驟(A)~步驟(F)係計算A ^T 與Y 之矩陣乘積，以產生該第二暫時項，步驟(G)係計算A ^T Y 與A 之矩陣乘積，以產生該整數離散餘弦轉換X 。
如申請專利範圍第1項所述之快速整數離散餘弦轉換方法，其中，於步驟(D)中係使用該數位訊號處理器的ADD2及SUB2指令來處理該暫存器檔案(Register File)中的暫存器的像素資料，並係使用該數位訊號處理器的SWAP2對一個暫存器做兩個元素交換位置的運算，以產生該共同項。
如申請專利範圍第2項所述之快速整數離散餘弦轉換方法，其中，於步驟(A)中使用該載入指令(Load instruction)之次數係依據該像素資料之位元數、該記憶體資料匯流排的寬度、及該暫存器檔案(Register File)中的暫存器的位元數而定。
如申請專利範圍第3項所述之快速整數離散餘弦轉換方法，其中，Y 為像素資料為4X4矩陣，且每一矩陣元素為16位元。
如申請專利範圍第4項所述之快速整數離散餘弦轉換方法，其中，該數位訊號處理器為Ti C64+處理器。
如申請專利範圍第5項所述之快速整數離散餘弦轉換方法，其中，每一任務引擎具有4個處理單元。