TWI331300B

TWI331300B - System and method for processing thread groups in a simd architecture

Info

Publication number: TWI331300B
Application number: TW095144756A
Authority: TW
Inventors: Brett W Coon; John Erik Lindholm
Original assignee: Nvidia Corp
Priority date: 2005-12-02
Filing date: 2006-12-01
Publication date: 2010-10-01
Also published as: JP4292197B2; TW200809615A; CN1983165A; US20070130447A1; US7836276B2; JP2007157154A; CN100538628C

Description

1331300 九、發明說明：【發明所屬之技術領域】本發明之實施例大體而言係關於單一指令多重資料 (SIMD)處理’且更特定言之，係關於一種在幻腳處理器中用於處理線串群組之系統及方法。【先前技術】 SIMD處理益將單—指令與多重資料路徑相關聯以使硬體有效地執行資料並行算法。SIMD處理器實施之一般優點得自管線控制硬體及指令處理上之降低，此為在鎖步中執行多重資料路徑之結果。般而5，增加SIMD處理器中之資料路徑之數目將允許並灯處理更多資料，且將導致效能改良。然而，處理器大小約束限制資料路徑之數目不能超過某一數目。而且，若資料路徑之數目過大，則可存在硬體資源之利用不足。【發明内容】本發明提供-種具有-改良之SIMD架構之處理器，其有效利用其硬體資源以達成更高之資料處理通量。根據本發明之一實施例，藉由以資料處理側之速率的若干分之一來決定-SIMD處理單元之指令處理側之時脈，使該§細處理單元之有效寬度擴展至實際硬體寬度的數倍。根據本發明之另一實施例，藉由提供多個執行管線來擴展一 WMD處理單元之有效寬度。藉由使用不同時脈速率且提供多個執行管線，可根據下式將大量線串在—起分組為一線串運送隊.運送隊_大小（eQ_y_size)=(執行管線之數 116834.doc 目）X (在各執行管線中之資料 _ #t 偟之數目）χ(資料處理侧之時脈速率與指令處理側之時脈速率的比率）。一種根據本發明之_眘a U之^例之SIMD處理單元包含一以第-時脈速率操作之指令處理部分及1 率操作之諸處理部分，1巾 -夺脈逮 -時脈速率。較佳地，該第：=:時脈速率不同於該第 3* rr ... 第—時脈速率至少兩倍於該第— 時脈速率。該指令處理部分發ώ Λ 執行之指令，且收集待在執在«料處理部分中元。收集多組該等運算元。〜出之指令中使用的運算線。二第“77包合至少第—執行管線及第二執行管線…執行管線係經組態 / 例如’乘與加(MAD)，而該類…曰令’ -第二類型之指令，例如執订官線係經组態以執行，諸如倒數、指數、if叙笙+ & 殊函數指令（SFU)e各執數祕專之特令同等μ態之資料路徑。m多個根據該發出之指將在該指令處理部分料路徑中之-者。將έ:集之各组運算元供應至該等資應至該第一執行管Γ中3:_指令相關聯之運算元供與-㈣指令相關心該專資料路捏中之一者。將一組該等資料路徑中之1者運异70供應至該第二執行管線中之第針U出之指令收集之運算元組的數目較佳等於.，時脈速率與第=:::::，::徑之數— 脈迷率與該*-時脈迷率…:：二 Π 6834.doc 1331300 令所收集之運算元組的數目應為：2x(該第—及該第二執行管線中之資料路徑之數目）根據本發明之實施例，無需以資料處理速率之每一週期發出一新指令以保持該資料處理部分之完全利用。此允許該指令處理部分以一更適於指令處理之降低的時脈_ 操作，且結果降低對於該指令處理部分之硬體要求。【實施方式】圖1為一實施一具有一介面單元122之圖形處理單元 (gpu)120之電腦系統100的簡化方土鬼圖，該介面單元122係耗接至複數個SIMD處理器124]，124_2，，124_N。該等 SIMD處理器124可經由―記憶體控制器126存取一區域圖形記憶體13〇。該GPU 120及該區域圖形記憶體13〇代表— 圖形子系、统’該圖形子系統可藉由電腦系心⑼之一中央處理單坏PU)11G使用—儲存在—系統記憶體ιΐ2中之驅動程式來存取。本發明可應用於具有-或多個SIMD處理器124之任何處理單元。因此’N可為大於或等於】之任何整數。而且，包含s麵處理器124之處理單元可為cpu、Gpu或任何其他類型之處理單元。。。圖2更詳細地說明根據本發明之—實施例之8麵處理裔。如圖所不’可為圖1中所示之SIMD處理器124中之任一者的SIMD處理器包含-指令處理部分2H)及-資料處理部分220。該指令處理部分21〇以該資料處理部分咖之時脈速率之—半的時脈速率來操作。為方便起見，將用 116834.doc 於指令處理部分21G之時脈在下文中稱為T時脈，而將用於貧料處理部分220之時脈在下文中稱為Η時脈。、指令處理部分210包含：一指令調度單元212，其用於發出—待由該SJMD處理器200執行之指令，·一暫存器檔^ 214，其儲存用於執行該指令之運算元；及一對運算元收集，元216、218。該運算元收集單元216麵接至_第—執仃官線222且收集待供應至該第—執行管線加之運算元。〜運”几收集單兀218耦接至一第二執行管線224且收集供應至該第二執行管線224 八心逆·^兀。在本文中所說明之本發明之實施例中，該第-執行管線係經組態以執行一第 -類型之指令，例如乘與加(Mad)，而該 f組態以執行-第二類型之指令，例如，諸如倒= 、對數等之特殊函數指令（SFU)。某些指令可在執行管 222、22Γ中4中之任一者中執行。舉例而言，可在執行管線中之任一者中執行指令MOV及FMUL。該等管線222、224中之每一。亥4執仃料路徑。、、有8個並行且同等组態之資. 當指令調度單元212發f指令時，該指令調度單元212 =管線組態信號發送至兩個執行管線如、⑵中之乂才日V為MAD型，則將管線組態信號發送至第一執行其線222。若該指令為咖型，則將管線組態信號發送心二執行管線224。 u货适至第 :發出一指令時，則指令調度單元η 該遮罩對應於與所發出之指令相關聯之一（在本文=之 116834.doc 貫施例中，尨3 MAD型，則運算元：：，:線串運送隊。若發出之指令為該線串運送隊相關聯的暫早暫存曜214内之與串，收集執行發出之指令所需的十對運送隊中之每-線算元可包含-或多個運算元“通的常'=元。-單-組運聯的—組運算元包含兩個或：個運=MAD型之指令相關令相關跔Μ , 飞—個運异兀，且與SFU型之指 :關聯的-組運算元包含-個運算元。右發出之指令為SFU型，存器槽案214内之盘貝1運t凡收集單元218讀取暫運逆隊中串運送隊相關聯的暫存器，且針對心〇之各線串’㈣執行發出之 ^ 几。對Τ時脈之各週期而…"的、，且運异之每-者能夠收隼咐運V 收集單元216、218中八組之速車供廄、、’介兀。將此等組以每骑脈週期 =率供應至執行管線222、22[因此，以兩心時 =錢四個Η時脈週期來處理與料運送隊相關聯⑽ ，，且連异元。對累加益226、228中收集來自執行管線222 ' 224之订'。果。該累加器226收集來自執行管線M2之執行結 ’而累加器228收集來自執行管線224之執行結果。該等 22行管二222 ' 224與該等累加器226、228為資料處理部分 220之部分，且以兩倍於指令處理部分210之時脈速率的時：速率來操作。因暫存器檔案214以Τ時脈週期操作，因此尔加态226、228每兩個Η時脈週期或每_ τ時脈週期將執行結果回寫至該暫存器檔案214。因此，在執行結果回寫至暫存器檔案214之前，累加器226、228中之每—者收 116834.doc 1331300 集16組執行結果。

由於在執行官線222、224中進行之操作類型主要為數學運算，因此將Η時脈組態為快速時脈。然而，針對數學運 t之有效運异速度通常不同於用於指令處理及用於暫存器檔案214之有效運算速度。指令處理及暫存器檔案214使用較慢之時脈將更有效地運算。因此，使SIMD處理器2〇〇組態有兩個時脈域中以τ時脈速率進行指令處理，且以等於T時脈速率兩倍之η時脈速率進行資料處理。

圖3為指令處理部分21〇之指令調度單元212的功能方塊圖。該指令調度單元212包含—具有複數個槽之指令緩衝器310(每線串運送隊一個槽）。在此例示性實施例中，槽之數目為24個’且各槽可保❹達兩個來自—對應線串^送隊的指令。若該等槽中之任—槽具有—用於另—指令的空間’則自記憶體進行-提取312至—指令快取記憶體314 中。在將儲存於指令快取記憶體314中之指令添加至追蹤 "處於飛行狀態（in fHght)"指令（亦即，已發出但尚未完成之指令）的計分板322中且置放於指令緩衝器31〇之空閒空間之前’言亥指令經歷解碼316。在解碼指令時，可對該指令是否為MAD型或為SFU型進行判定。該指令調度單元212進一步包含—發出邏輯咖。該發出邏輯320檢查該計分板322，且將自指令緩衝器31〇發出一不依賴該等"處於飛行狀態”指令中之任一指令的指令“士合自指令緩衝器31〇之發出，發出邏輯似將管線組態信號發送給合適之執行管線，且傳輸—對應於__與發出之指令 116834.doc 相關聯的線串運送隊的遮罩。該遮罩指示在該運送隊中之線串中之何者係有效的，亦即，應由發出之指令實現。圖4進-步詳細說明指令緩衝器31()。如圖所示，該指令緩衝器310具有24個槽。在指令緩衝器中之各槽可保持多達兩個來自-（32個-群組）線串運送隊的指令。在所展示之實例中’具有職110之程式計數器之來自線串運送隊 (το至Τ31)的兩個指令儲存在指令緩衝器31〇之槽〇中。此等指令將為MAD型或SFU型。若一指令為MAD型且自指令緩衝器31〇發出’則將在運算元收集單元216中收集與料運送隊（T0至T31)相關聯之32組運算元且供應至執行管線 222。在另—方面，若—指令為卿型且自指令緩衝器31〇發出’則將在運算元收集單元218中收集與線串運送隊（τ〇至T31)相關聯之32組運算元且供應至執行管線224。圖5A-SD說明線串運送隊⑽至叫）經由執行管線⑵之選定處理狀態，該執行管線222係經組態以執行自指令緩衝器3Π)發出之MAD指令，例如指令A。圖仏展示在已經過-個Η時脈週期後，執行管線如之狀態。如圖所示，在一個Η時脈週期之後，分別與線串τ〇、τι、τ2、τ3、τ4、 Τ5、Τ6、Τ7相關聯之標識為〇、】、2、3、4、5、6、7的8 組運算元進人執行管線222中，且由指令A之第—管級對其操作》在下-Η時脈週期中，8組運算元之―新群組將進人執行管線222中’且將由指令八之^級對其操作，且8 組運算元之初始群組將已向 ^问下推進一個管級，且將進一步由指令Α之第二管級對装握从 . ^ 丁八梯作。在四個Η時脈週期之後， 116834.doc 1331300 與一線串運送隊相關聯之所有組運算元將已進入執行管線 222中。因此，指令a之各管級將有效四個H時脈週期。在第五個Η時脈週期上，其將根據新發出《ΜΑΙ)型的指八組態。 θ 7來圖5B展示在與一線串運送隊相關聯之所有組運算元已進入執行管線222中且已由指令A之少數管線對其操作之後，執行官線222之狀態。圖5 C展示在任何組運算元正要離開執行管線222之前，執行管線222之狀態。圖5;〇展示在圖 5C中展示之狀態之後3個1^時脈週期上時，執行管線的狀態。在經過一或多個Η時脈週期之後，與線串運送隊相關聯之所有組運算元已離開執行管線222。在一較佳實施例中，當自指令缓衝器3 1〇發出指令時，發出邏輯320在MAD型指令與SFU型指令之間交替。以此方式，執行管線222、224兩者皆可完全保持，，忙碌若指令緩衝器3 10僅含有單個類型之指令，則可允許連續發出 MAD型指令或SFU型指令。然而，32個線串之運送隊要求執行2個T時脈或4個η時脈，且因此，可至多每隔一個τ時脈發生同一類型指令之連續發出（例如，MAD MaD4Sfu· SFU)。在另一方面，將不同類型之指令交替發出至兩個管線允許每丁時脈發出一指令’且提供更高之效能。編譯器可幫助私令之排程以確保不同類型之指令儲存於指令緩衝裔3 1 0中。在程式中，使不同運送隊稍微分開可亦改良效能。圖6為說明當執行一根據本發明之一實施例之用於一線 116834.doc 1331300 串運送隊的指令時，由SIMD處理器2〇〇進行之處理步驟的流程圖。在步驟610中，自指令緩衝器3 1〇發出指令。然後’自暫存器檔案214讀出多組運算元，且對應於發出之

指令的類型，在運算元收集單元216或218中收集該等組運算凡（步驟612)。在步驟614中，對應於發出之指令的類型的執行管線222或224經組態以執行發出之指令。在步驟 6 16中’使收集之運算元沿執行管線向下推進，且由發出之指令的多個管級對其進行操作。連續進行步驟614^步驟616，直至在步驟612中收集之所有運算元已離開執行管線為止。當進行步驟614及616時，累加器226、228收集離

開執行管線222、224之運算元，且每隔一個Η時脈將該等運算元向回寫入至暫存器檔案216中（亦即，一次半個運送隊）。當在步額2中收集之所有運算元已離開執行管線時 (步驟620)，針對在步驟610中發出之指令的_〇處理結束。在圖5Α至圖5D中所展示之實例中’在圖％中所展示之執行管線的狀態之後的兩個Η時脈後，入至暫存器檀案216，且在圖5C中所展卞態之後的四個Η時脈後，發生最終向回寫 216。發生初始向回寫之執行管線的狀入至暫存器檔案藉由上文所描述之本發明之實施 0 ，增加了經由一 SIMD處理器處理之資料的量而不拇 ' 執行管線之實體資料寬度。結果，增加了 SIMD處理哭+丄益之有效指令處理速年0 此外’本發明提供-種對線串進行分組的靈活方式β在 H6834.doc 14 1331300 上述本發明之實施例中，根據下式，將—運送隊組雜為一 32個線串之群組：運送i大小=(執行管線之數目㈣在各執行管線中之資料路徑之數目）χ(料脈速率與了時脈速率之比率）=2χ8χ2=32。本發明所提供之靈活性在於：可調整運送隊大小。舉例而言，t在執行f線之間交替時，藉由在每第四個T時脈上或每隔―射時脈將指令發出至純管線，運送隊大小可增加至64。

具有較大之運送隊大小之優點為：在圖形處理中，許多執行之指令為諸如紋理的記憶體存取。若#在大群組之相關記憶體存取而非小群組之記憶體存取，貝,】由記憶體系統更有效地執行此等指令。藉由將線串叢集在_起或運送，本發明提供更大之記憶體效率。使用過大之運送隊的不足為：諸如分支之物導致在—運送隊中之某些線串執行愈在同一運送隊中之其他線申執行之不同的指令。在該情況下’由於在同-運送隊内之所有線串—次僅可執行一個指令，因此將降低效能。雖然上述針對本發明之實施例，但可設計本發明之其他及進-步實施例而不偏離其基本範疇。本發明之範疇以下申請專利範圍確定。【圖式簡單說明】圖1為實施具有複數個8麵處理器之GPU之電腦系統的簡化方塊圖。為根據本發明之一實施例之SIMD處理器的方塊圖。圖3為圖2中所示以_處理器之指令調度翠元的方塊 116834.doc •15· 1331300 圖圖4為展示指令緩衝器之内容的概念圖。圖5A-5D說明經由81厘!)執行管線對線串群組的處理。圖6為成明當執行用於綠虫 „ 線串群組的指令時，由SIMD處理益進行之處理步驟的流程圖。【主要元件符號說明】 100

110 112 120 122

電腦系統中央處理單元系統記憶體圖形處理單元介面單元 SIMD處理器記憶體控制器區域圖形記憶體 SIMD處理器指令處理部分指令調度單元暫存器檔案運算元收集單元運算元收集單元資料處理部分第一執行管線第二執行管線累加器 !24-1} 124-2, ..., 124-Kf 126 130 200 210 212 214 216 218 220 222 224 226 116834.doc 1331300 228 累加器 310 指令緩衝器 314 指令快取記憶體 320 發出邏輯 322 計分板

116834.doc 17-

Claims

、申請專利範圍：一種經由複數個執行其包括以下步驟：來處理電腦程式指令之方法，發出-用於-多個線串群组的指令；以一第一時脈迷元；及叹果夕組與該指令相關聯之運算執行管脈:率將該等所㈣之運算元供應至該等其中在該群組中之多行管線中㈣供串的數目等於在該複數個執率叙1宽β,Β.、’仫的總數目乘以該第二時脈速千興該第一時脈速率之比率。如請求項1之方法，其中 —沪八4 Μ第一時脈速率序列地發出速率收集多組運算心中之每-者’以該第-時脈如請求項2之方法，Α 4 „ 少兩種猫'、進—步包括將該等指令分類為至類51中之一者的步驟，1 千浐八八中將與—第一類型之若干礼7相關聯的若干運算元將ik — # 應至該第一執行管線，且、與-第二類型之若干指令相該第二執行管線。 +運异兀供應至如請求項3之方法，其中將— nt μ 第一類型之一指令供應至該第-執行管線及該第：執㈣線中之—者。如請求項1之方法，其中該第速率的至少兩^ 彳脈料相第-時脈如青长項1之方法，其中該指一匕括在-序列將由該 834.doc 1331300 線串群組執行之指令中的指令，且該等多組運算元中之每一組對應於在該群組中之該等線串中的一者。 7.如請求項6之方法，其中該發出之步驟包含自一包括複數個指令之指令缓衝器選擇一指令的步驟。 116834.doc