TWI243332B

TWI243332B - Registers for 2-D matrix processing

Info

Publication number: TWI243332B
Application number: TW089112946A
Authority: TW
Inventors: George K Chen
Original assignee: Intel Corp
Priority date: 1999-07-26
Filing date: 2000-06-30
Publication date: 2005-11-11
Also published as: EP1212677A1; CN1365463A; CN1532686B; JP2012009055A; US6625721B1; AU5640400A; JP4979169B2; JP5466211B2; HK1043850B; CN1160621C; HK1043850A1; DE60022206D1; JP2003505786A; DE60022206T2; CN1532686A; EP1212677B1; WO2001008005A1

Description

1243332 A7 B7 五、發明説明（彳）發明背景 1 .發明範疇本發明一般來說與電腦系統有關，尤其是與處理器結構有關。 2.說明某些處理器設計成可對其用於多媒體運作的指令集結構 (ISA)提供延伸，例如：由位於加州聖塔克拉拉的英特爾公司（Intel Corporation)生產的 Pentium® II、Pentium® III 以及Celeron™處理器所支援之MMX™指令便實施許多對於多媒體應用非常有用的功能，像是數位訊號處理、聲音以及影像處理。這些_旨令支援在多媒體以及通訊資料類型上的「單一指令多重資料」（SIMD)運作。雖然使用這些指令在執行已知功能方面要比之前存在的指令集合還要有改進，並且獨立的MMX™指令在某些處理方面較有效率，但是現實上仍舊存在許多對加快多媒體處理的阻礙。例如：許多區塊式影像與視訊處理演算法（像是聯合圖像專業團體 (JPEG)以及移動圖片專業團體（MPEG)方法）的實施都會產生資料，儲存在一組暫存器内當成MMX™指令可存取的運算體，在矩陣數學運算期間經過置換。在暫存器之間置換資料會遭致顯著的額外負擔，因此會減慢整體處理器處理多媒體的處理量。因此在處理器界内，許多避免這些延遲或將其減至最低的技術就有長足的進步。發明總結本發明的具體實施例是一種處理器，其具有第一組用於 _^_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐）

1243332 A7

儲存貝料矩陣的暫存器、耦合至第一矩陣置換副本的第二組暫存器。組並且用於儲存資料 _本發明的其他具體實施例是-種使用兩組暫存器供處理為進行矩陣處理之用的方法。該方法包含：將資料矩陣存 ^第一組暫存器，第一組暫存器擁有第一數量的暫存器，每個暫存器具有第-數量的儲存單元，每個儲存單元儲存〜個矩陣元素；以及將資料矩陣置換放入第二組暫存器，苐、、且來存器擁有第二數量的暫存器，每個暫存器具有第一數量的儲存單元。該方法也包含參考第一組暫存器之一以便在一列資料矩陣上運作，以及參考第二組暫存器之一以便在資料矩陣的一欄上運作。圖式之簡單說明從下列本發明的詳細說明中將會對本發明的特色與優點有通盤的了解，其中圖1為依照先前技藝的一組Μ Μ X ™暫存器圖式；圖2為孩組MMXtm暫存器儲存了 8像素乘上8像素影像資料區塊之圖式；圖3為孩組MMXtm暫存器儲存了置換過的8像素乘上8像素影像資料區塊之圖式；圖4為依照本發明具體實施例連接至μμχτμ暫存器集的虛擬MMX™暫存器集之圖式；圖5為該組虛擬MMX™暫存器儲存了置換過的8像素乘上 8像素影像資料區塊之圖式；以及圖6為一系統圖式，其擁有一處理器，而該處理器具有依 ______-5- 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐） 1243332 A7 B7 五、發明説明（3 照本發明具體實施例的MMX TM暫存器集以及虛擬ΜΜχ tm 暫存器集。詳細說明本發明的具體實施例包含一種延伸Μ Μ X ΤΜ暫存器讓其在二維（2-D)矩陣運算中更有效率的方法與裝置。規格書内參考本發明的「一個具體實施例」或「具體實施例」意味著，與該具體實施例有關連所說明的特定功能、結構或特性包含在本發明的至少一個具體實施例内。因此，出現在整個規格書内許多地方的「在一個具體實施例内」一詞並不一定全都參照到同一個具體實施例。在執行指令時，，處理器通常會參考一個（含）以上的暫存器運算體，對於MMX™指令而言，該暫存器運算體可為一個（含）以上稱為MMX™暫存器的一組特殊暫存器。圖依照先前技藝的一組MMXtm暫存器圖式。在圖丨顯示的暫存器集ίο内，其中有八個標示為mm0 12到mm7 14的 MMX™暫存器。在其他具體實施例内，暫存器的數量可高於或低於八個。每個暫存器都包含許多資料單元，其如圖式般從低單元1 6排列到高單元1 8。在一個具體實施例内，一個單元包含一個位元組。在其他具體實施例内，一個單元可包含一個字元、一個雙字元或其他儲存單元。在至少一個已知的系統内，每個MMX™暫存器的單元（即是位元組）數量為八個，而在其他系統内則可使用其他數量的單元。欲使用ΜΜΧτμ暫存器以有效實施SIMd多媒體處理，欲處理的資料都應該以將許多相關資料項目配置於單一 -6 -

1243332 五、發明説明（4 ) MMX™暫存器内這種方法來校準。例如：假設要將$個像素乘上8個像素的影像資料區塊如圖2所示般排列於 MMX™暫存器内，—個單元内代表—個像素值叩⑴並且整，，存器代表一個矩陣。該8個像素乘上8個像素的區塊可能是較大影像的一部分。在此範例中，區塊影像資料的，一列儲存在第一MMX™暫存器11^〇 12内，而第一列的第一攔儲存在mm0的低單元内，並且第一列的最後一欄則儲存在mm〇的高單元内，影像資料的第二列儲存在第二 MM/™暫存器麵12()内，第二列的第—欄儲存在随㈤低單元内，並且第二列的最後一欄則儲存在mml的高單元内，以此類推。一旦資料如圖式般儲存在MMX™暫存器内，處理器就可執行指令以在一個8 x 8矩陣的列上有效地運算。這種處理通常用於區塊式成像應用程式以及其他應用程式中。例如：所有列〇的資料都可使用下列所示的單一 ΜΜχτΜ指令新增到列3的資料内。 PADDB MMO, MM3 ;將列0新增到列3並且將結果儲存在列0内。不過，若要一次在一個8 X 8矩陣的欄位上運算就會出問題，因為每個行的資料都由八個MMXtm暫存器所共有。例如·第一欄的資料分別屬於mmO 12到mm7 14的低單元，而最後一攔的資料則分別屬於mm0到mm7的高單元。為了能夠持續獲得使用MMX™ SIMD處理的好處，有必要如圖3 所示來置換8x8矩陣，矩陣置換是很普遍的數學運算。在 1243332 A7

1243332 A7 ___ B7 五、發明説明（6 ) MMX™暫存器集的置換過矩陣資料，並且不管何時在 MMX™集内任何暫存器的任何單元遭到修改後邏輯23就會自動更新。因此，載入一％ΜΜχτΜ暫存器集 10會自動載入一攔VMX暫存器集22。例如：來自第一 MMX™暫存器111111〇 12•的資料會自動儲存在暫存器 VM0至VM7的低單元内，來自第二ΜΜχτΜ暫存器^ 2〇的資料會自動儲存在VMX暫存器的第二低單元内，以此類推。回頭參閱圖2，若如圖示般MMXTM暫存器會載入標示為 Ρ〇,〇至Ρ7,7的8x8矩陣，然後暫存器更新邏輯會如圖5内所示將至換過的矩陣載入VMX暫存器内。為了在矩陣的列元件上運算’程式會簡單參考囊心暫存^至 mm7 14之一（含）以上。不過若要在矩陣的攔元件上運算，則用參考VMX暫存器vm0 24至¥1117 26的程式代替。因為 Μ Μ X ™暫存器在處理器硬體内有鏡射的v % X暫存器，所以並沒有不一致的問題。需要時參考適當的暫存器，便可使用暫存器集來運算所有ΜΜΧΤΜ指令。程式内並不需要改變指令集，只需要改變運算體參考即可。本發明具體實施例超過現有冑理器架構的優點在於，本發明對於矩阵運算提供較大的平行度，這可藉由避免耗費成本的欄運算置換來達成，其中該運算要透過許多封包盘解封包指令的執行來完成。〃有一本發明如何實施的範例是，在許多影像處理法則内用於處理8像素乘上8像素區塊的「離散餘弦轉換」（dc 丁） 1243332

演算法。目前欲執行8x8 DCT處理時，包含先執行lx8攔轉換、置換8 X 8矩陣、執行另一個丨χ 8欄轉換，然後再次置換〜果以取得DCT係數。目前在Pentium⑧等級處理器上執行的最佳DCT大約耗用300個處理週期。在此量之中，大約有100個週期用於執行8χ8矩陣的置換運算。因此，實施本發明可改善大約30%的DCT處理。反向DCTs也可達成類似的效能進步。雖然在此討論DCT範例，不過本發明的具體實施例對於任何矩陣運算都很有用，包含那些用於許多影像與視訊壓縮演算法内的演算。雖然上面以二維（2_D)矩陣來探討本發明，但此概念可修改適用於三維或多維。例如：處理器的設計可包含第三暫存器集，用於儲存其他矩陣資料的置換。圖6為一系統圖式，其擁有一處理器，而該處理器具有依照本發明具體實施例的ΜΜχτΜ暫存器集以及虛擬ΜΜχτΜ 暫存器集。系統5 0包含耦合至記憶體5 4的處理器5 2 ,處理器52包含許多業界内已知的元件，為了清晰起見，圖6内已經省略的許多元件。指令記憶體5 6儲存著會參考一個（含）以上ΜΜΧτμ暫存器丨〇或一個（含）以上vmx暫存器22的指令。暫存器更新邏輯23會在ΜΜΧ™暫存器改變時協調 VMX暫存器22的自動更新。多工器（mUX)58選擇來自 MMXtm暫存器*VMX暫存器的資料，輸入到演算邏輯單元（ALU)60，而ALU則產生資料給資料記憶體62。本發明讓MMXtm暫存器可用更直觀的方法來操縱。加上鏡射暫存器集後，任何區塊式演算法的實施都可簡化並且 _7·· 丨一丨1 __ - | υ - 本紙張尺度適财®國家標準(CNS) Α4規格(21()Χ297公董） 1243332 A7 B7 五、發明説明（8 ) 提昇效能。某些可從本發明中獲致好處的應用範例包含：用於視訊壓縮演算法的離散餘弦轉換（DCT)、三維（3-D)圖形演算法内的矩陣轉換等等。本發明雖然以實例具體實施例來做說明，但此說明並沒有限制之意。對於精通此技藝的人士而言，許多實例具體實施例的修改以及本發明的其他具體實施例都在本發明的精神與領域之内。圖示代表符號說明 10 MMX™暫存器集 12, 14, 20 MMXtm暫存器 16 低單元Low unit 18 高單元High unit 22 VMX暫存器集 23 暫存器更新邏輯 24, 26 VMX暫存器 50 系統 52 處理器 54 記憶體 56 指令記憶體 58 多工器 60 演算邏輯單元 62 資料記憶體 -11 - 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐）

訂

Claims

1243332 第089112946號專利申請案中文申請專利範圍替換本(94年6 ^ 申請專利範園 1 · 一種二維矩陣處理器，包含·· 一第一組暫存器’儲存_:資料矩陣；以及一第二組暫存器’儲存—資料矩陣之轉置；以及自動修：該第二組暫存器之邏輯，以維護儲存於該第 -組暫存器中之資料矩陣與儲存於該第二組暫資料矩陣轉置之間之關 P 、4匕人關係，以響應修改該第-組暫存器 < 一扣令。 2弋申，範圍第〗項之處理器，其中第一組暫存器内資置對應搁的修改/導^二組暫存器内資料㈣轉 3. 青專利範圍第丨項之處理器，其中該第—組暫存器勺 5一弟一數量的暫存器，每暫 ^ 存單元，該第二組暫存器包含-第：；量：暫=的鍺包含—第二數量的儲存單元，並且量：存單兀大於或等於第一數量的暫存器。 I的儲 4. 如申請專利範圍第3項之處理器。等於第二數量的暫存器。中弟數里的暫存器 5. 如申請專利範圍第4項之處理器，並含MMX™暫存器，該第 :組暫存器包影像資料。 ^為八’並且資料矩陣包含 6·如申請專利範圍第！項之處理器，其中該處理考第一組暫存器之一以便在一次 α執仃一參人，以及勃一与义广貝料矩陣上運算之沪襴資料 " 及執仃一參考弟二組暫存器之一以# / 才曰矩陣上運算之指令。在本紙張尺度通用中國國家標準(CNS) A#規格(21〇Χ297公釐） 1243332 A8 B8 C8

-第一數量的暫存組暫存器包含單元’每儲存單元储存―:陣存二"-數量的儲存二組暫存器，該第二 ;; 予單::數I的暫存器’每暫存器包含-第二數量的自動修改該第二知w 存器中之資料料*儲=、’、=維護儲存於該第一組暫陣轉置之間之關係岸之資料矩令；曰I乜改孩罘一組暫存器之一指參考第一組暫存考> 以及參考第二組暫存考—以」更在—列資料矩陣上運算，算。 σ又以便在一欄資料矩陣上運 8·如申請專利範圍第存器内的資料矩陣列万法，進一步包含修改第-組暫丁兜Ρ皁列’以及自動修料矩陣轉置的對應欄。 /弟一、、且4存裔内資 9. =請第7项之方法，進一步包 -内储存的欄資料上、且$存 10. 如申請專利範圍第9項第二組暫存器之—内其中執行轉換運算包含在運算。儲存的欄資料上執行離散餘弦轉換 11 ·如申請專利範圍第7 Jg 、大於或等於該第量= 中該第二數量的暫存器数里的暫存器。 1243332

~----一六、申請專利範圍六丁成牙？等於弟一數量的暫存器。 η·=青專利範圍第7，之方 MMX™暫存器，該、仔詻包含像資料。數I為八’並且資料姐陣包含影 14· 一種二維矩陣處理系統，包含：一記憶體； ° ’置該記憶體的處理器，該處理器包含： -弟-組暫存器，儲存—資料矩陣； 7Π組暫存器，儲存資料矩陣之轉置;以* 第-組暫存器中之㈣邏輯，以維㈣存於該之資料矩陣轉置之二t與儲存於該第二組暫存器中 W且 < 间 < 關係，器之一指令。 Λ曰應帖改咸罘一組暫存 15·如申請專利範圍第1 4項乏系料矩陣列的修改會自動導f:第-组暫存器内資置對應欄的修改。導致弟二組暫存器内資料矩陣轉 16·如申請專利範圍第14項之系統，各一篦一勣县认批士 /、宁，茨乐一組暫存器包。弟數里的暫存器，每暫存器包本匕存單元’該第二組暫存器包含—第一：旦… 儲暫存器包含-第二數量㈣Hi㈣存11 ’每双f的诸存早元，並存單元大於或等於第-數量”料數里的儲 Π.如申請專利範圍第16項之系統° 器等於第二數量的暫存器。 4 數I的暫存本紙張尺度適用中國國豕標準(CNS) A4規格(210X 297公麓） 1243332

18.如申請專利範圍第”項之系統，其中該第一組暫存器包含暫存器，該第一數量為八，並且資料矩陣包含影像資料。口 =Μ專利範圍第1 4項之系統，其中該處理器執行一參 2第一組暫存器之一以便在一列資料矩陣上運算之指令，以及執行一參考第二組暫存器之一以便在一矩陣上運算之指令。 ^ 2〇· —種由處理器使用兩組暫存器用於影像資料矩陣的離散餘弦轉換（DCT)處理之方法，包含：將矩陣儲存於第一組暫存器内，該第一組暫存器包含 -第-數量的暫存器，每暫存器包含一第一數量的儲；早7C，每儲存單元儲存一矩陣元件；將矩陣轉置至苐二組暫存器内，該第二組暫存器包含二第二數量的暫存器，每暫存器包含一第二數量的儲二早7L , 自動修改該第二組暫存器，以維護儲存於該第一組暫存器中之資料矩陣與儲存於該第二組暫存器中之資料矩陣轉置之間之關係，以響應修改該第一組暫存器之一指令；以及利用參考第二組暫存器之一在矩陣欄上運算，以執行至少部份DCT處理。 21.如申請專利範圍第2〇項之方法，進一步包含修改第一組暫存器内的資料矩陣列，以及自動修改第二組暫存器内資料矩陣轉置的對應欄。 ° ______ -4- ^紙張尺度適财®國轉準(CNS) 裝訂線