TWI230869B

TWI230869B - SIMD processor with scalar arithmetic logic units

Info

Publication number: TWI230869B
Application number: TW093100869A
Authority: TW
Inventors: Boris Prokopenko; Timour Paltashev; Derek Gladding
Original assignee: Via Tech Inc
Priority date: 2003-01-29
Filing date: 2004-01-14
Publication date: 2005-04-11
Also published as: CN1519704A; CN1272705C; TW200413946A; US7146486B1

Description

1230869 五、發明說明（1) 發明所屬之技術領域本發明有關於圖形向量（vector )處理機，特別有關一種包括純量（scalar)算術邏輯單元（arithmetic logic units; ALUs)的圖形處理機，可用在處理圖形向量資料。先前技術

圖形資料可利用幾何（XYZW)資訊或像素值（RGBA)資訊為成分，以向量形式組合來表示。通常用來處理這些向量的幾何計算機（geometry engine)會將所有的資訊組合成分在同一時間處理，因而需要複雜的内部構造，並且資料輸入與輸出之間也需要較長的時間才能完成圖形資料的處理。一般幾何計算機是任何現代圖形加速器（g r a p h i c s accelerator )中重要的前端部分。幾何計算機處理資料的速度會影響圖形加速器結構整體的效率。最近圖形AP I發展必須要支持特殊指示，並且規定硬體處理幾何與像素值向量的能力。由於這些高標準實施規定’現在的圖形計算機（graphics engine)都被實施成能接收複雜輸入資料與内部資料閃（c r 0 s s b a r s)，以平行方式處理全部向量之組合成分的一個單元。再者，為了達到這些實施規定，圖形計算機利用額外硬體與額外時間，在單指令多資料（Single Instruct ion, Multiple Data; SIMD)或多指令多資料（Mult i pie Instruction，Multi pi e

Data; MIMD)的架構中使用多向量單元。因此導致需要槌e 長指令（Very Long Instruction Word; VLIW)的架構，其中包括複雜的控制與同步單元以支持多線執行、

1230869

(multithreaded execution)的程式。請參閱第1圖’第1圖顯示習知技術之向量處理的資料流程1 0。圖形向量1 2之組合成分X丨、γ i、7 = 輸入至緩衝記憶體14。每一個圖形向量丨2從緩衝記憶^ι4 ，序讀出到向量ALU 16。單一向量ALU 16同一時間平行運算向量12的每一個組合成分。向量Au 16包括一個執g 殊運作的特殊功能單元18。ALU 16需要大而複雜的内部結構以便同時執行向量1 2之四個組合成分（即X i、γ i。以及Wi)的運算。此外，ALU 16的内部協定以及通气1因運算的平行性質而更複雜。向量ALU 16產生最終輪出向量 20 ’其中包括的組合成分有X〇ut、Y〇ut、z〇ut、以及 Wout。習知的向量處理單元同時處理各向量12的所有組合成分’因此這樣的向量處理單元之架構為平行（全向量或橫向）向量成分流。請參閱第2圖，第2圖顯示習知的向量處理機處理一組資料的資料途徑圖。第2圖的例子中，”正規化差額”的函數顯示如下： vector Normalized一Difference(vector VI， vector V2)V1 ->r0.xyzwV2 ->rl.xyzw (xyzw為圖形資料的組合成分）該函數對應的指令如下： SUB r2, rO，rl//subtraction of all components DP3 r3·x， r2, r2//dot product of 3 components (x，y，z) with result in x_component

1230869 五、發明說明（3) RSQ r3. X, r3,x//reciprocal square root of result in x-component MUL r2， r2, r3.x//scaling all components with RSQ result 請參閱第2圖，其中第一行指令週期（i)將r〇與ri相減’並產生各組合成分x、y、z、w的輸出向量r2。第二行指令週期（2)將r2與本身點積（dot product)，只有在X組合成分如r3· X所得到的答案。第三行指令週期（3)中，計算出r 3 · X的平方根倒數。如第2圖所示，第三行指令週期 (3 )中’只有在向量的χ組合成分上運算。第四行指令週期 (jO中’ r2的組合成分於是按照χ組合成分（即r3· χ)的比例 =整’以產生正規化向量差r2。使用習知技術處理四組的資料，程式會重複四次，也就是一共會花費執行十六行指令週期的時間。習知量的組合間成為處要較大的理的多位匯流排，的向量處本發個使用純處理單元技術之向量處理單元，由於要同時（平行）處理向成分’結構必須為非常複雜。也因此潛伏延遲時 f過程中極大的問題。習知的向量處理單元也需才曰令形式’可以包括控制向量組合成分選路及處元。習知的向量處理單元並需要複雜的輸入資料以^持圖形API所需要的功能。最後，使用習知理單元的硬體或軟體必須要偵查資料相依性。明針對上述習知的向量處理單元的缺點，提供一量ALU的向量處理單元。本發明提供的SIMD純量，因此會比習知的單元更小而簡單。本發明更因

1230869 五、發明說明（4) 提供一種系統，系統的指令組比習知簡單，並降低所需的潛伏延遲時間。㈣里處理單元更發明内容有鐘於此，本發明提供S IMD純量處理單；^ 兩個由多成分組合而成的向量。s丨MD純量處地理至少 f少-個可運作的純量算術邏輯單元，從輸：：更包括 2收向量的組合成分。純量算術邏輯單元=緩衝器 ! ϊ ΐ i執行函數運作，以判斷結果。simd純量：：ί組 ι括輸出轉換器，可從算術邏輯單 ^70 aUel vector c〇mponent flow)。 S I MD純量處理單元更包括與純量訊的特殊功能單元。特4〗ί邏輯早70相互通仃某些特殊運算，俜纯詈笪欣刀上執 SIMD純詈卢^ H里异術邏輯早70無法做到的運算。輯單元接：Jri。括多工器’多工器從各純量算術邏 C成☆’並為特殊功能單元選擇-個組口咸刀執仃特殊運算。常向量會有i個組合成分，純量處理單元於是會包 '個純量算術邏輯單元(scalar arithmetic 1〇仏“ u^nts，SCU)。每一個純量算術邏輯單元係一個連接至另遲至3令傳送至第一個純量算術邏輯單元後會先被延雄f被傳送至隨後的純量算術邏術邏輯單元至少有一平凡母1U也里异個連接的純量算：存$ ’以延遲傳給下-里异術邏輯早兀的指令。下一個純量算術邏輯

1230869 五、發明說明（5) 單元的位址與控制訊號也可因此被延遲。次純量算術邏輯單元更包括一個為要運算向量組合成分的貝料路徑區’以及一個運算資料路徑區的控制與位址模組。純量算術邏輯單元也可包括至少一個延遲共用資料至下個連接的純量算術邏輯單元的資料延遲暫存器。

依照本發明提供一種方法，以SIMD純量處理單元，處理至J兩個由多成分組合而成的向量。本發明之方法最初 1 =輸入資料緩衝器，先將向量的組合成分從平行向量成为^重新排列成連續向量成分流（sequential vect〇r component f l〇w)。接著，以一各自的純量算術邏輯單元 Ab二_個向篁組合成分的運算，並產生運算結果。特殊功 :::土可在組合成分上執行運算。最後運算結果的各組、：“會被輸出至轉換器，以重新排列成平行向量成分按純量處可被連元。純資料路組合成區。依括一個量組合路徑區照本發理單元續連接量算術徑區。分到下據本發暫存器成分。的位址明提供的上處理向到另一個邏輯單元純量算術一個連接明，純量，用來延純量算術與控制模量組合成向量處理有一個執邏輯單元的純量算算術邏輯遲每個通邏輯單元組。純量邏輯單元，分。各純量單元的純量行向量組合更有一個延術邏輯單元單元的延遲過純量算術更包括一個可用在SIMD 算術邏輯單元算術邏輯單成分之運算的遲發佈向量的的延遲暫存器暫存器區可包邏輯單元的向用來控制資料算術邏輯單元的一個位址

1230869 五、發明說明（6) _ 與控制延遲暫存器可延遲傳位址與控制訊號的純量算術邏輯單元所需要的時間。純旦瞀下個連接可包括-個共用資料延遲暫存器，用來：：2單元更至資料路徑區的時間。寻&用資料依照本發明，可提似聽處理單元，用 X、y、z、w組合成分的向量。各個χ、y、ζ έ人栝有多個值。SIMD處理單元有一個正交存取記合成分都 (orthogonal access memory)，將各也人土、八

量成分流排列成連續向量成分流處中理T 算術邏輯單元，分別用來執行；正 = 殊功能單元’與這排純量算術邏輯單元相；更 =殊=此早兀執行從其中一個純量算術邏輯單元傳理ΐ:更if 送回原本的純量算術邏輯單元。SIM“ ===將從純量處理機得到的結果，*新排列成實施方式爽妒Γ之目的只在於解釋本發明之最佳實施例，並非用 ^ 發明。第3圖描述依據本發明建造的SI MD向量處 =。圖形向量12輸人至SIMD處理單元3〇的輸人資料緩資二雄i使圖形向量1 2可被重新安排成適當的順序。輸入〆緩衝器32具體來說是四組正交存取記憶體，可將組合 0608-l〇426twf(ni)；S3U〇2_〇〇〇2；KAREN.ptd 第11頁 1230869 五、發明說明（7) *--- 成刀以j縯（垂直）向量成分流的方式輸出。如同第3圖所 :，向量的組合成分被重新排列而使每一個向量的χ組合 ^分同時被輸出。因此，分量向量（component VeCt〇r)33 的組合成分會是被同時輸出的XI、X2、X3、以及X4。接著 ^向量的Y組合成分（即Υ1、Υ2、Υ3、γ4)會同時被輸出。 =樣的輸出程序也同樣會發生在2以及w組合成分上。藉由 ^種輸出程序，向量被輸入資料緩衝器3 流轉換成連續向量成分流。氚' 分量向量（comP〇nent vector)33接著會被輸入至純量处理機42，純量處理機42中有一排四個純量 34a〜34d，以及一個特殊功能單元（Special Functi〇n U曰nit; SFU)36。每一個ALU 34a〜34d與SFU 36都為分量向量（component vector)33的組合成分執行運算。分量向量 (component vector)33 的組合成分會被純量ALU 34a~34d 以平行方式處理，下面會有較詳細的說明。純量處理機42 產生一個純量輸出向量40，並將此純量輪出向量4〇輸入至一個輸出正父轉換器3 8。純量輸出向量4 〇必須被重新排列，才可產生輸出向量20。轉換器38是一個垂直暫存器，有能力同時處理向量12的所有組合成分。為了產生輸出向量20，轉換器38會將純量處理機12輸出的向量組合成分重新排列至正確的平行向量成分流。輸出正交轉換器38的運作在本發明申請人的另一份專利，，同步定期正交資料轉換器π說明書中有更詳細的解說。請參閱第4圖，此圖顯示純量處理機42的實體組織。

第12頁 1230869 五、發明說明（8) 處理機42有四個一樣的純量ALU(SCU)34a〜34d以及一個特殊功能單元36。每一個純量ALU 34a〜34d都有四個輸入 10〜13，以及四個輸出〇〇〜〇3。每一個純量ALU 34a〜34d也有一個記憶體位址輸入MA、一個共用資料輸入C、一個記憶體位址輸出M0、以及一個共用資料輸出c〇。每一個純量 ALU 34a〜34d更有一個轉送輸出FWD，與一個特殊功能單元輸入SC。每個分量向量（(：〇叩〇1^111：¥6(：1:〇1')33中各有1^位元的組合成分，會分別輸入至純量ALU 34a〜34d輸入10〜13的其中特定的一個輸入。例如，分量向量（c〇mp〇nent vect〇r) φ 33包括X組合成分（即Χ1、Χ2、χ3、χ4)，第一個χ組合成分 (即XI)的Μ位元先被輸入至純量ALlI 34a的10。同樣地，第二個X組合成分（即X2)的Μ位元被輸入至第二個純量alu 34b的II，第三個χ組合成分（即Χ3)的μ位元被輸入至第三個純量ALU 34c的I 2，第四個χ組合成分（即χ4)的丛位元被輸入至第四個純量ALU 34d的13。每一個純量alu 34a〜34d 剩下的輸入會連接到純量ALU 34a〜3 4d的一個輸出。例如，第一個純量ALU 34a中，輸出00被連接至輸入13，輸出02被連接至輸入II，輸出03被連接至輸入12。輸出〇1是最終的輸出，用來產生純量ALU輸出向量4〇的第一個乂組合籲成分。依照第4圖所示，其他純量ALU 34b〜34d也會將各自剩下來的輸出連接至各自的其他輪入。各純量ALU 34a〜34d個別將輸入1〇〜13以及輸出〇〇〜〇3連接，這樣的方式使各純篁ALU依據第5圖的指示圖中每一個指示週期作個

1230869 五、發明說明（9) 別運作。純量ALU 34b在輸出02產生純量ALU輸出向量40的第一個組合成分，同樣地，純量A L U 3 4 c在輸出〇 3產生純量ALU輸出向量40的第三個組合成分，純量alu 34d在輸出 00產生純量ALU輸出向量40的第四個組合成分。這裡補充前面的敘述，每一個純量ALU 34a〜34d的轉送輸出FWD連接於一個多工器44。多工器44的輸出連接到 SFU 36，SFU 36是用來運算特殊的功能，例如i/χ、 1/sqrt、sqrt、l〇g、exp、等等。SFU 36的輸出連接到每一個純量ALU 34a〜34d的SC輸入。當純量ALU 34a〜34d執行到無法運算的指令時，SFU 36會幫忙執行運算，並將運算結果傳回到適當的純量ALU 34a〜34d。每一個純量ALU 34a〜34d的輸入MA用來接收位址與控制訊號。在經過一段適當的延遲時間後，每一個純量A L U 3 4a〜34d的輸出M0轉送這些位址與控制訊號到下一個純量 ALU 34a〜34d。適當的延遲使得每一個接下來的純量ALU 34a〜34d可以在正確的週期處理指令，以支持分量向量 (component vector)33的平行處理方式。同樣地，從記憶體傳來共用資料的Μ位元會輸入至每一個純量ALU 34a〜34d 的輸入C，並在適當的一段延遲時間後，藉由輸出c〇轉送到下一個純量A L ϋ 3 4 a〜3 4 d。位址與控制訊號因此會從一個純量ALU 34到另一個純量ALU 34，間隔適當的延遲時間，一個接著一個的發佈。輸入資料（向量組合成分）直接分發到各純量ALU 34 —個合適的輸入丨〇〜丨3，因此提供處理隨後的時鐘週期所需要的延遲時間。如第4圖所示，

0608-10426twf(nl);S3U02-0002;KAREN.ptd 第 14 頁 1230869 、發明說明（10) ，置處理機42只有三種單元：純量ALU 34a〜34d、特殊功能單元（SFU) 36、以及多工器44，因此在實施上是非常簡單的。

請參閱第4、5、6圖，其中包括一個純量處理機4 2以及指令週期計時的例子。在第一個指令執行週期（丨）中，第一個純量ALU 34a在第一個純量ALU 34a的輸入10接收到第一個組合成分33a，並對第一個組合成分33a作運算。第 ~個純量ALU 34 a從微碼（mi croc ode)單元接收控制與位址資料，並從記憶體接收共用資料。參閱第6圖，控制與共用資料在控制與共用延遲暫存器68與70中被延遲一個指令執行週期，並以連續順序轉送至下一個純量ALU 34b，以在下一個指令執行週期作運算。同樣地，純量單元34b、 3 4 c、以及3 4 d會用相同的方法，彼此依序延遲並轉送對應的控制與共用資料。相反的，如第4圖所示，輸入向量成分資料33b將被傳送到第二個純量ALU 34b的輸入II。如第 4與第6圖所示，輸入向量成分資料33b會被暫存器72延遲’直到下一個指令週期，然後再從〇 1轉送至同一個純量 ALU 34b的輸入10。其他的純量ALU 34c以及34d會分別從

輸入12、13接收此輸入資料，為各向量組合成分Me、33d 提供所需的延遲時間。在第二個指令執行週期（2)中，第二個純量ALU 34b對第一組合成分3 3 b作運算，並在延遲後將控制與共用資料轉送至第三個純量ALU 34c。當第二純量ALU 34b在作運算的同一時間’第一個純量ALU 34a的輸出，與其他向量輸

0608-104261wf(η1);S3U02-0002;KAREN.p td 第15頁 1230869

入向量組合成分33c、33d將會被純量ALU 34a、34c、及 3 4d的内部延遲暫存器延遲。同樣地，在第三個指令週期 (3)中’第三個純量ALU 34c在其他訊號被延遲的時候，對第三組合成分33c作運算。在第四個指令週期（4)中，第四個純量ALU 3 4d在其他訊號被延遲的時候，對第四組合成分33d作運真。由此所見’各純量alu 34a〜34d分別對向量的一個組合成分作相同指令的運算，只不過是發生在不同的時間。延遲輸入及輸出向量組合成分的内部延遲暫存器在最終的處理週期會將輸出資料對齊，使得每週期提供的執行指令可以產生正確的運算結果。 ^ 藉由在每個指令週期延遲訊號，以及交錯各純量 34a〜34d的運算，可以只利用一個特殊功能單元來執行純量運算。如第5圖所示，各純量ALU 34a〜34d的輸出更可跳至多工器44的輸入（即第4圖所示的Fwd輸出）。藉由跳過延遲程序’ SFU 36可以在適當的執行指令週期執行其特殊功能。SFU 36的輸出會輸入至各純量AU 34a〜34d的輸入 SC。就這一點，純量處理機42可以只使用單個SFU 36作殊運算。 ' 請參閱第6圖’第6圖顯示各純量ALU 34a〜34d的内部結構。各純篁ALU 34的構造並不取決於該純量aLu 34在處理機42中的位置。埠連接的差別是由處理機34中純量 34的位置規定的。純量ALU 34有資料路徑區46，包括7χ4 多工器48。7x4多工器48其中一個輸入為埠1〇。了以多工器 48的其他輸入為共用資料、從内部暫存器檔案8〇來的已登

1230869 五、發明說明（12) 記資料、寫回暫存器62、累加器64、以及負載 ^料^區46更包括乘法器5〇，與多工㈣的兩個輸連 f。乘法器50也與7x4多工器48的其中一個輸出連：。出連法器50的另一個輸入與乘法累加器（Multipiy

AcCUmulat〇r; MACC)60的輸出連接。乘法器5〇的輸 =器52的輸出與加法器54的輸入連接。加法器54:輸“ 連接至乘法累加器60以及進位傳播加法器（Carq 、

Propagation Adder; CPA)56。乘法器5〇、加法器54盥 56,成ALU 34的算術計算單元。⑽56的輸出㈣接至回（Wnte Back; ffB)暫存器62，產生輸出〇〇，以及將暫= W2連接至7x4多工器48的輸入與暫存器檔案8〇。資料路徑區46更包括第二個2χ1多工器58，多工器“ 2巧二與CPA 56的輸出訊號，以及從特殊功元的資料訊號SC連接。多工罘沾於山& #、丄Μ ^ ^ w 器64的輸出接者被輸進累加器暫存器ACCxT 64，累加暫存器64中運作的每一個引線 thread)。累加器暫存器64的輸出被連接於多工器μ 的輸入。 σ純量ALU 34更包括暫存器區66，包括延遲與處理暫存器更具體來說’暫存器66有位址與控制延遲暫存器68與 ^用二貝料延遲暫存器7〇 ’用來提供位址/控制訊號提供所需要的延遲時μ，並如先前第5圖的描述，用作共用資料訊號的延遲。冑存器區66也包括負載暫存器（L〇ad Register; LR)7 8，從7x4多工器48載計算出的結果。暫存器區66也有三個輸入延遲暫存器72、74、及76，如第5圖第17頁 0608-10426twf(nl);S3U02-0002；KAREN.ptd 1230869 、發明說明（13) ~ 中所示，這些輸入延遲暫存器是用來延遲輸入訊號η、、及 13 〇請參閱第6圖，在記憶體區79中，純量ALU 3乜有一個暫時的SR AM記憶體80 ’大小為N乘Μ個位元，為7χ4多工器 48提供讀出輸出訊號RD0與RD1。記憶體80被控制區84的控制與位址模組82所控制，從埠ΜΑ接收位址與控制資料，以產生適合的位址與控制訊號到多工器4 8、乘法器5 〇、及多工器52，以及累加器64與負載暫存器78。下文與第7 a〜7 b圖為本發明之指令週期的範例。這些指令的功能與之前所述之第2圖範例相同，為，，正規化差額”的函數。

Vector Normal ized_Di fference(vector VI，vector V2) VI ->r0.xyzw=r0[0], rO[l], r0[2], r0[3] V2 ->rl.xyzw=rl[0], rl[l], rl[2], rl[3] (x，y，z，w-圖形資料向量的組合成本，r[〇-3]為分別的純量）對於此函數在純量處理機30中對應的指令為： Repl(j<3)SUBR2[j], rO[j], rl[j]//subtraction of all components

Repl(j<3)MAC Null, r2[j], r2[j]//dot product of all components with result in x-component, implements as multiply-accumulate RSQ ACC, FWD//rec iprocal square root of result

0608-104261wf(n1);S3U02-0002;KAREN.p t d 第18頁 1230869 五、發明說明（14)

in x-component forwarded to Special Function Unit, paired with MAC rzL J」，Aiu//scai ing

Repl(j<3)MUL r2[j], r2[j], _ all components with the RSQ result (Repl( j<3)為相同指令的複製前置）第7a〜7b圖顯示每一個純量alU 34a〜34d執行先前描述的函數vector Normalized—Difference(vector VI， vector

V2)的運算。在第一行指令週期（1)中，第一個純量ALU 34a將第一個x組合成分執行減法。之後在第二個指令週期 (j)中，純量ALU 34a將第二個y組合成分執行減法。在第三個指令週期（3)中，純量ALU 34a將第三個z組合成分執行減法。在第四個指令週期（4)的一開始，純量AU 3“利用乘法累加運算，開始將所有組合成分執行點乘。在第四個指令週期⑷巾，“且合成分會被乘。在第五個指令週期 )中，y組合成分會被乘，以及在第六個指令週期（6) 中，z組合成分會被乘，以計算出點乘的結果。七個指令週期（7 )中，點乘结果會祐鏟译丨 36，P如ρΛ 會被轉送到特殊功能單元 U:執，平方根倒數(rsq)。如同先前所描述的，特殊功此早兀36用來執行ALU 34a無法運算的 ^ ^ ^ log^ :元36執行RSQ運算時，純量ALU 3“保；=力： J將計算出的運算結果放入累加器(Acc)中狀八 7週期（8)中，累加器（ACC)的結果與 / 才曰按照比例放大。同樣地，在第九個指令週^

1230869

器的結果與y組合成分相乘，以及在第十個指令週期（丨〇 )

中，累加器的結果與z組合成分相乘。如此，第一純量 34a的結果在第十個指令週期就會計算好，也就是純量alu 34會有九個指令週期忙碌，只有一個指令週期是閒置的。第二、第三、及第四個純量ALU 34b、34c、34d分別在延遲過後，對一個向量組合成分執行與第一個純量uu 3 “ 相同的指令。如第7a〜7b圖所示，第二個純量AUj 34b在延遲一個指令週期後，執行與第一個純量ALU 34a相同的指 ^於第二組的組合成分。第三個純量ALU 34c在第二個純篁ALU 3 4b執行指令之後的一個指令週期開始運算，而第四個純量ALU 34d在第三個純量Alu 34c執行指令之後的一個指令週期開始運算。

藉由將每一個ALU 34a〜34d執行指令的時間依序延遲個週期，在純量處理機4 2中，只使用一個特殊功能單元 36是可行的。如第7a〜7b圖所示的函數運算中，第七個指令週期（7)，特殊功能單元36會為第第一個純量uu 3“的指令引線計算平方根倒數（RSQ)。而在第八個指令週期（8) 中^特殊功能單元36會為第二個純量ALu 34b的指令引線計算平方根倒數（RSQ)。第三個純量ALU 34c的平方根倒數 (RSQ)會在第九個指令週期（9)被計算，第四個純量Ru 3 4 d的平方根倒數（r s q )則會在第十個指令週期（1 〇 )被計 SIMD純量處理單元30可以與每一個純量AU 3“〜34d 同時處理四組圖案資料。如第7a〜7b圖所示。與習知的圖

1230869 五、發明說明（16) 形處理機需要十六指令週期比 ^ 需十三個指令週期（事實 70整的執行運算總共只 ALU 34a〜34d只用了九個指令週期2週=)。每個純量週期時間㈣用特殊功能單元36。運异’並在一個指令的令週期，，可得到-組圖形資料二:ίϊΓί十t指量的尺)寸广舉===的效率隨 ---- 週期。乂督使用“口處理機之架構所需的十六個 ηΐΓΖΪ供基本純量AU 34a〜34d，在SIMD模式下可二這樣的架構可藉由高密度微碼增強效能以 =化基本指彳。此外’本發明因簡化編輯程序以及減少才曰々個數，可提供比習知技術較低負擔的多引線支持硬體熟知此技藝之人士除了可以將該純量處理機42應用為圖形處理機，更可應用在處理其他環境種類上。热習此技藝者’更可對本發明做額外的修改及改進，像是以多於四個ALU 34處理各種更大的向量。也就是說 ALU 34的個數可被變更，以提供更大的效率。上述實施例中描述的特定元件組合只代表本發明某種實施並非用以限疋在本發明精神與範圍内另外的實施裝置，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

1230869 圖式簡單說明為了讓本發明之上述和其他特徵能更明顯易懂，下面附圖示以作詳細說明：第1圖為習知向量處理單元的資料流程圖；第2圖為習知向量處理單元處理一組資料的路徑表示圖；第3圖為本發明之向量SIMD處理單元；第4圖為本發明之純量S I MD處理機的實體組織圖；第5圖為使用本發明之向量S I MD處理單元的指令計時圖，第6圖為第4圖之純量算術與邏輯單元（SCU)的内部結構的電路圖；第7a〜7b圖為本發明之向量處理單元處理一組資料的路徑表示圖。符號說明 1 0〜習知技術之向量處理機單元的資料流程； 1 2〜圖形向量； 1 4〜輸入緩衝記憶體； 16〜向量ALU ; 1 8〜特殊功能單元； 2 0〜輸出向量； 30〜SIMD處理單元； 32〜輸入資料緩衝器； 33 〜分量向量（component vector)；

0608-10426twf(η1);S3U02-0002;KAREN·ptd 第22頁 1230869 圖式簡單說明 34a〜34d〜純量ALU 1〜4 ; 3 6〜特殊功能單元； 38〜輸出正交轉換器； 40〜純量輸出向量； 4 2〜純量處理機； 44〜多工器； 4 6〜資料路徑區； 48〜7x4多工器； 5 0〜乘法器；

52〜多工器； 54〜加法器； 5 6〜進位傳播加法器（C P A ); 58〜2x1多工器； 6 0〜乘法累加器； 62〜寫回暫存器； 64〜累加暫存器； 66〜暫存器區；

68 、 70 、 72 、 74 、 76 〜暫存器； 78〜負載暫存器； 7 9〜記憶體區； 80〜暫存器檔案； 8 2〜控制與位址模組； 8 4〜控制區。

0608-104261w f(η1);S3U02-0002;KAREN.ρ t d 第23頁

Claims

1230869 六、申請專利範圍 1· 一種SIMD純量處理單元，用來處理至少兩個包括多個組合成分的向量，該s丨MD純量處理單元包括：一輸入資料緩衝器，將該等向量的該等組合成分重新組合，從一平行向量成分流排成/連續向量成分流；至少一個純量算術邏輯單元，從該輸入資料緩衝器接收該等向量的該等組合成分，該純量算術邏輯單元對該等向量的該等組合成分執行一運算，以測定一結果；以及一輸出轉換器，從該純量算術邏輯單元接收該結果，該輸出轉換器將該結果的該等組合成分從新組合，從該連續向量成分流排成該平行向量成分流。 2 ·如申請專利範圍第1項所述之純量處理單元，更包括一特殊功能單元，與該純量算術邏輯單元互相通訊，該特殊功能單元用在對該等向量組合成分執行運算。 3 ·如申請專利範圍第2項所述之純量處理單元，更包括一多工器，從該純量算術邏輯單元接收複數向量組合成分，並選擇一組合成分給該特殊功能單元處理。 4.如申請專利範圍第1項所述之純量處理單元，其中包括i個純量算術邏輯單元，各向量有i個組合成分。 5 ·如申請專利範圍第4項所述之純量處理單元，其中該等純量算術邏輯單元以一連續結構連接，各純量算術邏輯單元從前一個純量算術邏輯單元被延遲一指令後執行運算。 6 ·如申請專利範圍第5項所述之純量處理單元，其中各純量算術邏輯單元為隨後的一純量算術邏輯單元設定延

0608-10426twf(nl);S3U02-0002;KAREN.ptd 第24頁 1230869

至少一連續結一資算；以及一個指令構連接的料路徑區一控制與位址 8 ·如申請專利各純量算術邏輯單遲傳送資料至下一 9 · 一種處理至法’包括一SIMD純器、至少一個純量方法包括以下步驟純量算術邏輯單元。固以 ’對該等向量的該等組合成分執行運模組，操作該資料路徑區。範圍第7項所述之純量處理單元，其中元更包括至少一個資料延遲暫存澠，個連續連接的純量算術邏輯單元。^ 少兩個包括多個組合成分的向量的方量處理單元，其中有一輸入資料緩衝算術邏輯單元、以及一輸出轉換器，該々（1)利用該輸入資料緩衝器，重新組合該等向量的該等組合成分’從一平行向量成分流排成一連續向量成分流； (2 )利用一特定的純量算術邏輯單元，將從該輸入資料緩衝器接收的每一個組合成分，分別執行一運算，以產生一結果；以及 (3 )利用一輸出轉換器，將該結果的該等組合成分從新組合成該平行向量成分流。 1 0 ·如申請專利範圍第9項所述之處理方法，其中該

0608-10426twf(nl);S3U02-0002;KAREN.ptd 第25頁 1230869 特殊功能單元，以及步對各組合成分執行該邏輯單用該多給該特殊六、申請專利範圍 SIMD純量處理單更包〗括利ctr元 1 ·如申凊專利範 S—IMD純量處理單元更包括一几接收複數向量組合成分，工器選擇從該純量算術邏輯功能單元運算。 1 2 ·如申凊專利範圍第9 純量算術邏輯單元以一連續方式連接，以及該方法更包術邏輯單元。 1 3 ·如申請專利範圍第9 純量算術邏輯單元彼此連續複數向量組合成分至下一個元。驟（2) 運算。 0項所述之處理方法，其° 多工器，從各純量算術中以及步驟（2)更包括利單元計算的該結果，項所述之處理方法，其_ 位址、控制與資料訊號八Λ等括延遲一指令至隨後的布的无的一個算項所述之處理方法，其中上連接，以及該方法更包括该等連續連接著的複數算術邏輯^ 曰μ 1 4 ·如申請專利範圍第9項所述之處理方法，其里算術邏輯單το包括一資料路徑區，並且步驟更包使用該路徑資料區執行該運算。曰μ 1 5 ·如申凊專利範圍第9項所述之處理方法，其中各純置算術邏輯單元有一控制與位址模組，並且步驟（2 )更包括利用該控制與位址模組控制該資料路徑區的該運算。 16· —種SIMD純量處理單元，用來處理複數向量的複數組合成分，該SIMD純量處理單元包括：一種轉換該等向量的該等組合成分的裝置，從一平行

1230869 向量f分流重新排成—連續向量成分流；人〇、γ ί ^以該連續向量成分流排列的該等向量之該等組 •、心弁的裝置’並產生複數向量組合成分的一結、、種將该結果從該連續向量成分流轉換為一平行向量成分流的裝置。 1 7 ·如申請專利範圍第1 6項所述之s IMD純量處理單元，其中：

轉換該等向量的該等組合成分，從一平行向量成分流重新排成了連續向量成分流的裝置為一輸入資料緩衝器；對該等向量之該等組合成分執行運算的裝置為至少一個純量算術邏輯單元；以及 f複，組合成分的該結果從該連續向量成分流轉換為該平订向量成分流的襞置為一正交轉換器。、1 8 · —曰種給一純量處理單元的算術邏輯單元，用來處理複數向量成&，該算術邏輯單^可與另-算術邏輯單处元連接成連續結構，該算術邏輯單元包括：負料路桉區，執行該等向量成分的運算；以及

一資料延遲暫存器區，延遲該等向量成分傳至以一連續結構連接的算術邏輯單元。 1 9 ·如申請專利範圍第1 8項所述之算術邏輯單元，包括一位址與控制模組，用在該資料路徑區的控制。， 20 ·如申請專利範圍第1 9項所述之算術邏輯單元包括一位址與控制延遲暫存器，用來延遲位址與控制訊1虎

0608-104261wf(η1);S3U02-0002;KAREN.p t d

1230869 六、申請專利範圍的計時。 2 1 ·如申請專利範圍第2 〇項所述之算術邏輯單元，更包括一共用資料延遲暫存器，用來延遲遞送共用資料至接下來算術邏輯單元的該資料路徑區。 ^ 、算術邏輯單元，其在通過該純量算術 2 2 ·如申請專利範圍第2 1項所述之中該延遲暫存區包括一延遲暫存器，用邏輯單元的向量成分之輸入或輸出。 23· —種SIMD純量處理單元，用來處理一包括X、、 z、與Z的組合成分的向量，每一個該等χ、y、=、x鱼^且合成分中有多個值，該純量處理單元包括· ^ 口 -正交存取記憶體’用來將各成分合’從-平行向量成分流排成一連續向量成分：董新，、且一純量處理機，與該正交存取記憶體相2相該純量處理機包括：祁通Λ ^ .....〜|〜分州1异術邏輯單元用來執行一運算於從該正交存取記憶體傳來的該成分值上，並產生一結果；以及 U 一特殊功能單元，與該組純量算術邏輯單元互相通訊，該特殊功能單元在從一純量算術邏輯的結果執行一運算，並將該結果傳回該算術邏輯單元；以及單元相速互相元傳來的該結一輸出正交轉換器，與該純量處理通訊，該輸出正交轉換器將從該純量處理單果重新組合成一平行向量成分流。