TW200809615A

TW200809615A - System and method for processing thread groups in a SIMD architecture

Info

Publication number: TW200809615A
Application number: TW095144756A
Authority: TW
Inventors: Brett W Coon; John Erik Lindholm
Original assignee: Nvidia Corp
Priority date: 2005-12-02
Filing date: 2006-12-01
Publication date: 2008-02-16
Also published as: JP2007157154A; TWI331300B; US20070130447A1; US7836276B2; CN100538628C; JP4292197B2; CN1983165A

Description

200809615 九、發明說明：【發明所屬之技術領域】本發明之f # μ i _ 〈貝知例大體而言係關於單一指令多重資料 ()處理，且更特定言之，係關於一種在SIMD處理器中用於處理線串群組之系統及方法。【先前技術】 MD處理將單—指令與多重資料路徑相關聯以使硬體f效|也執行資料並行算法。SIMD處理器實施之一般優 ',、π s線L制硬體及指令處理上之降低，此為在鎖步中執行多重資料路徑之結果。一般而言’增mSIMD處理器中之資料路徑之數目將允許並行處理更多資料，且將導致效能改良。然而，處理器大小約束限制資料路徑之數目不能超過某—數目。而且，若資料路徑之數目過大，則可存在硬體資源之利用不足。【發明内容】本發明提供-種具有-改良之SIMD架構之處理器，其有效利用其硬體資源以達成更高之資料處理通量。根據本發明之一實施例，藉由以資料處理側之速率的若干分之一來決定-SIMD處理單元之指令處理側之時脈，使該$咖處理單元之有效寬度擴展至實際硬體寬度的數倍。根據本發明之另一實施例，藉由提供多個執行管線來擴展一 SIMD處理單元之有效寬度。藉由使用不同時脈速率且提供多個執行管線，可根據下式將大量線串在一起分組為一線串運送隊：運送隊—大小（convoy_size)=(執行管線之數 116834.doc 200809615 目)χ(在各執行管線中之f料路徑之數目）x(f料處理時脈速率與指令處理側之時脈速率的比率）。一種根據本發明之一奋 y … 月轭例之SIMD處理單元包含一時脈速率操作之指令處理部分及_ = 率#作之資料處理部分，’脈速 -時脈速率。較佳地，二時脈速率不同於該第時脈速率。該指人户理Γ時脈速率至少兩倍於該第— 執彳ΐa &彳77發丨—待在該資料處理部分中執仃之心令’且收集待在執丨刀中元。收集多組該等運算元。出之“中使用的運算該資料處理部分包含至線。該第—執行管線係經^_執行管線及第二執行管例如，乘與力•綱，而第：類型之指令，一第二類型之指令，例 \ 仃官線係經組態以執行例如’諸如铜金殊函數指令（SFU)。各執行 '心數、對數等之特令同等組態之資料路#。 e〜、彳多個根據該發出之指將在該指令處理部分中料路徑中之—者運算元供應至該等資應至該第—執行管線中之該等=相關聯之運算元供與- SFU指令相關聯之運算元供貞=之—者。將—組該等資料路裎中之一者。〃…至該第二執行管線中之 /十對-發出之指令收集之 4 弟-及該第二執行管線中之實^、、且的數目較佳等於··該 ::速率與第—時脈速率之比；徑：數目乘以第二羊…亥弟—時脈速率之比田。亥弟-時 116834.doc 時針對-發出之指 200809615 應為:2X(該第-及㈣二執根據本發明之實施例，益兩恭山, …、而乂貝料處理速率之每一调划 ”八Γ 亥資料處理部分之完全利用。此允呼该私令處理部分以一更谪此兄汗操作，且結果降低對於卿二…里之降低的時脈速率來【實施方式】 ⑻日令處理部分之硬體要求。圖1為一實施一具有一一 f 面 I22之圖形處理單元 (GPU)120之電腦系統1〇〇間化方塊圖，該介面單元122係耦接至複數個SIMD處理器124-1,丨 ’ 2，···’ 124-N。該等 8細處理器124可經由—記憶體控制器126存取―區_ 形C憶體13〇。該咖㈣及該區域圖形記憶體⑽代表— 圖形：系、統，該圖形子系統可藉由電腦系統1〇〇之一中央处單元（CPU) 110使用一儲存在一系統記憶體i i 2中之驅動程式來存取。本务明可應用於具有一或多個SIMD處理器124之任何處理單元。因此，N可為大於或等於〗之任何整數。而且，包含SIMD處理器124之處理單元可為cpu、Gpu或任何其他類型之處理單元。圖2更詳細地說明根據本發明之一實施例之simd處理器。如圖所示，可為圖1中所示iSIMD處理器124中之任一者的SIMD處理器200包含一指令處理部分210及一資料處理部分220。該指令處理部分2 1 〇以該資料處理部分220 之時脈速率之一半的時脈速率來操作。為方便起見，將用 116834.doc 200809615 :指令處理部分210之時脈在下文中稱為τ時脈，而將用於資料處理部分220之時脈在下文中稱為Η時脈。指令處理部分21〇包含··一指令調度單元212，其用於發出-待由該SIMD處理器200執行之指令；一暫存器檔案 214,其儲存用於執行該指令之運算元；及一對運；：收集單元。6、218。該運算元收集單元2_接至一第—執行管線222且收集待供應至該第—執行管線如之運曾元該運算元收集翠元接至一第二執行管線以且㈣ Γ應至該第二執行管線224之運算元。在本文中所說明之本發明之實施例中，該第一執行管線係經組態以執行一第 -類型之指令，例如乘與加(MAD)，而該第二呈組態以執行一第二類型之指令，例如，諸如倒數：指數、對數荨之特殊函數指令 ⑽、以中之任-者^ 某些指令可在執行管 222 994 Φ 仃。舉例而言，可在執行管線、中之任一者中執行指令MOV及FMUL。該等管線222、224中之每_去仏曰 Θ等執仃料路徑。者均具有8個並行且同等組態之資當指令調度單元212發出—指令時將管線組態信號發送至兩個執行管線222 早一：2 t該指令為MAD型’則將管線組態信號發送至第-執^ 線222。若該指令為SFu 吕二執行管線224。 ’則將管線組態信號發送至第當發出一指令時，則和該遮罩對應於與所發出二：度單元212亦傳輸-遮罩， .9令相關聯之一（在本文說明之 116834.doc 200809615 實施例中，為Μ個一祕型，則運算元收集單元216=隊。若發出之指令為該線串運送隊相關聯的暫存器/子讀案214内之與串，收集執行發出之指令所需的隊中^每—線算元可包含-或多個運算元μ -早-組運聯的一組運算元包人巾’與MAD型之指令相關入相關n έ 個運算元，且與SFU型之指 7相關聯的一組運算元包含一個運算元。（才曰若發出之指令為SFU型，則運算=华存器檔案214内之盥線_ n 茱早凡218項取暫，軍… "運达隊相關聯的暫存器，且針對一运隊中之各線串’收集執行發出之指令時脈之各週期而言，運算元收集單元216二 ^者月匕夠收集16組運算元。將此等組以每Η時脈週期 ^組之速率供應至執行管線222、224。因此，以兩個丁時 ==四個Η時脈週期來處理與線串運送隊相關聯㈣在一對累加器226、228中收集來自執行管線222、咖之執行結果。該累加器226收集來自執行管線如之執行社果’而累加㈣8收集來自執行管線以之執行結果。該等執行管線222、224與該等累加器咖、咖為資料處理部分 220之-部分，且以兩倍於指令處理部分21()之時脈速率的時脈速率來操作。因暫存器檔案214以丁時脈週期操作，因此累加器226、228每兩個η時脈週期或每—τ時脈週期將執行結果回寫至該暫存器檔案214。因此，在執行結果回寫至暫存器檔案214之前，累加器226、228中之每—者收 116834.doc -10- 200809615 集16組執行結果。、=於在執行管線222、224中進行之操作類型主要為數學運异，因此將Η時脈組態為快速時脈。然而，針對數學運 $之有效運算速度通常不同於用於指令處理及用於暫存器 ^ 214之有效運算速度。指令處理及暫存器檔案214使用之時脈將更有效地運算。因此，使Μ·處理器細組態有兩個時脈域，纟中以了時脈速率進行指令處理，且以等於T時脈速率兩倍之H時脈速率進行資料處理。圖3為指令處理部分21〇之指令調度單元212的功能方塊 ^該指令調度單元212包含-具有複數個槽之指令緩衝益31〇(每線串運送隊—個槽）。在此例示性實施例中，槽之數目為24個’且各槽可保持多達兩個來自—對應線串運送隊的指令。若該等槽中之任一槽具有—用於另一指令的空間’則自記憶體進行-提取312至一指令快取記憶體314 中。在將儲存於指令快取記憶體314中之指令添加至追縱，，處於飛行狀態（inflight)"指令（亦即，已發出但尚未完成之指令）的計分板322中且置放於指令緩衝器训之空閒空間之前，該指令經歷解碼316。在解碼指令時，可對該^ 令是否為MAD型或為SFU型進行判定。該指令調度單元212進一步包含—發出邏輯32〇。該發出邏輯320檢查該計分板322，且將自指令緩衝器31〇發出_ 不依賴該等，，處於飛行狀態”指令中之任一指令的指令“士合自指令緩衝器3H)之發出’發出邏輯咖將管線組態信號 —對應於—與發出之指令 I16834.doc -II - 200809615 相關聯的線串運送隊的遮 °亥遮罩私不在該運送隊中線串中之何者係有效的，亦即，應由發出之指令實現。圖4進-步詳細說明指令緩衝器31〇。如圖所示，具有24個槽。在指令緩衝㈣之各槽可達兩個來自-（32個一群組）線串運送隊的指令。在之實例中’具有Η)2及11G之程式計數器之來自線串運送: (Τ0至Τ31)的兩個指令儲存在指令緩衝器之槽〇中。此等指令將為MAD型或SFU型。若一指令為mad型且自扑人緩衝器31G發出，則將在運算元收集單元216中收集血= 運送隊（το至T31)相關聯之32組運算元且供應至執行管線 222。在另-方面，若—指令為SFU型且自指令緩衝器㈣發出，則將在運算元收集單元218中收集與線串運送隊⑽ 至丁31)相關聯之32組運算元且供應至執行管線224。圖5A-5D說明線串運送隊（丁〇至丁31)經由執行管線η]之選定處理狀態，該執行管線222係經組態以執行自指令緩衝器310發出之MAD指令，例如指令a。圖5A展示在已經過一個Η時脈週期後，執行管線222之狀態。如圖所示，在一個Η時脈週期之後，分別與線串τ〇、Τ1、χ2、Τ3、τ4、 Τ5、Τ6、Τ7相關聯之標識為〇、組運算兀進入執行管線222中，且由指令a之第一管級對其操作。在下一Η時脈週期中，8組運算元之一新群組將進入執行管線222中，且將由指令Α之第一管級對其操作，且8 組運异元之初始群組將已向下推進一個管級，且將進一步由指令Α之第二官級對其操作。在四個Η時脈週期之後， 116834.doc -12- 200809615 與一線串運送隊相關聯之所有組運算元將已進人執行管線 ^22中。因此，指令A之各管級將有效四個Η時脈週期。在第五個Η時脈週期上，其將根據新發出之mad型的指組態。 7 圖5 B展示在與一線串運送隊相關聯之所有組運算元已進入執行管線222中且已由指令A之少數管線對其操：之後，執行管線222之狀態。圖⑽示在任何組運算元正要離開執行管線222之前，執行管線222之狀態。圖⑺展示在圖 %中展示之狀態之後3個11時脈週期上時，執行管線a?的狀態。在經過-或多個Η時脈週期之後，與線串運送隊相關聯之所有組運算元已離開執行管線222。在一較佳實施例中，當自指令緩衝器310發出指令時，發出邏輯320在MAD型指令與SFU型指令之間交替。以此方式，執仃官線222、224兩者皆可完全保持"忙碌"。若指令緩衝器31G僅含有單個類型之指令，則可允許連續發出日 MAD型指令或SFU型指令。然而’ 32個線串之運送隊要求執行2個T時脈或4個η時脈，且因此，可至多每隔一個丁時脈發生同一類型指令之連續發出(例如，mad_mad或咖_ SFU)。在另—方面，將不同類型之指令交替發出至兩個管線允許每T時脈發出—指令，且提供更高之效能。編以可幫助指令之排程以確保不同類型之指令儲存於指令緩衝 :31〇中。在程式中，使不同運送隊稱微分開可亦改良效圖6為說明當執行一根據本發明之一實施例之用於一線 116834.doc -13 - 200809615 :運适隊的指令時’由SIMD處理器進行之處理步驟的 "“王圖。在步驟610中’自指令緩衝器31〇發出指令。然 =自暫存器樓案214讀出多組運算元，且對應於發出： ^令的類型，在運算元收集單仏16或218中收集該等組運 -兀(步驟612)。在步驟614中’對應於發出之指令的類型的執仃管線222或224經組態以執行發出之指令。在步驟 616中，使收集之運算元沿執行管線向下推進，且由發出之指令的多個管級對其進行操作。連續進行步驟“々及步驟616 ’直至在步驟612中收集之所有運算元已離開執行管線為止。當進行步驟614及616時，累加器226、228收集離開二行管線222、224之運算元，且每隔—個_脈將該等運异兀向回寫入至暫存器檔案216中（亦即，—次半個運送隊）。當在步驟612中收集之所有運算元已離開執行管線時 (步驟620)，針對在步驟61〇中發出之指令㈣助處理結束。在圖5A至圖5D中所展示之實例中，在圖^中所展示之執行管線的狀態之後的兩個Η時脈後，發生初始向回寫 =至暫存器檔案216，且在圖5C中所展示之執行管線的狀態之後的四個Η時脈後，發生最終向回寫入至暫存器檔案 216。。田 / 藉由上文所描述之本發明之實施例，增加了經由一處理器處理之資料的量而不增加執行管線之實體資料寬度。結果，增加了_處理器之有效指令處理速率〇此外，本發明提供-種對線串進行分組的靈活方式。在 116834.doc -14- 200809615 上述本發明之實施例中’根據下 32個線串之群組：運送隊—大小，」 4組態為— 執行管線中之資料路徑之數：“之數目)x(在各之比率㈣㈣。本dtr物Taf脈逮率 Θ所知供之靈活性在於·· 大小。舉例而言’當在執行管線之間交替時，：由 2弟四個T時脈上或每隔_射時脈將指令發出至各= 吕線，運送隊大小可增加至64 0 具有較大之運送隊大小之優點為：在圖形處理中，執仃之指令為諸如紋理的記憶體存取。若存在大群組之相關記憶體存取而非小群組之記憶體存取，則由記憶體系统更有效地執行此等指令。藉由將線串叢集在—起或運送，本發明提供更大之記憶體效率。使用過大之運送隊的不足為：諸如分支之物導致在-運送隊中之某些線串執行與在同-運送隊中之其他線串執行之不同的指令。在該情況下’由於在同-運送隊内之所有線串一次僅可執行一個指令，因此將降低效能。雖然上述針對本發明之實施例，但可設計本發明之其他及進-步實施例而不偏離其基本料。本發明之範嗜係由以下申請專利範圍確定。【圖式簡單說明】圖1為實施具有複數個SIMD處理器之GPU之電腦系統的簡化方塊圖。圖2為根據本發明之一實施例之SIMD處理器的方塊圖。圖3為圖2中所示之SIMD處理器之指令調度單元的方塊 116834.doc -15- 200809615 圖。圖4為展示指令緩衝器之内容的概念圖。圖5A-5D說明經由SIMD執行管線對 '線串群組的處理。 …圖6為說明當執行用於線串群組的指令時，由謝d處理 ^進行之處理步驟的流程圖。【主要元件符號說明】電腦系統中央處理單元系統記憶體圖形處理單元介面單元 simd處理器記憶體控制器區域圖形記憶體 SIMD處理器指令處理部分指令調度單元暫存器檔案運算元收集單元運算元收集單元資料處理部分第一執行管線第二執行管線累加器 100 110 112 120 122 124-1，124-2,…，124-N 126 130 200 210 212 214 216 218 220 222 224 226 116834.doc -16- 200809615 228 累加器 310 指令緩衝器 314 指令快取記憶體 320 發出邏輯 322 計分板 116834.doc - 17 -

Claims

200809615 十、申清專利範圍·· L :=由複數個執行管線來處理電其包括以下步驟·· 曰7 I万凌，發二用於-多個線串群組的指令；元；及夺脈速率收集多組與該指令相關聯之運算以一第二時脈速率將執行管線中之_者，+所收集之運^凡供應至該等其中在該群矣且φ 行其绩由夕個線串的數目等於在該複數個執仃吕線中所提供之資執率叙Μ 士料L的總數目乘以該第二時脈速羊與5亥弟一時脈速率之比率。 2 ·如δ月求項1之方法， W /、中以該第一時脈速率彳列地發出才曰7流，且針對該等指令田速率收集多組運算元。者’以該第-時脈 3·如請求項2之方法，其進少兩種類型中之—者的牛驟=將該^日令分類為至的步驟’其中將與一第—類型之若將ill第目J的若干運算元供應至該第-執行管線，且該第二執若干指令相關聯的若干運算元供應至 4.如請求項3之方法，其中將一該=執行管線及該第二執行管之者一指令供應至 I :::Γ:之方法’其中該第二時脈速率為該第-時脈疋千的至少兩倍。 I如睛求項1之方法，其中該指令包括一在皮， 7匕祜在一序列將由該 116834.doc 200809615 線串群組執行之指令中的指令，且該等多組運算元中之每一組對應於在該群組中之該等線串中的一者。 7.如請求項6之方法，其中該發出之步驟包含自一包括複數個指令之指令緩衝器選擇一指令的步驟。 116834.doc