TW200529071A

TW200529071A - Across-thread out of order instruction dispatch in a multithreaded microprocessor

Info

Publication number: TW200529071A
Application number: TW093138921A
Authority: TW
Inventors: Simon S Moy; John Erik Lindholm
Original assignee: Nvidia Corp
Priority date: 2003-12-18
Filing date: 2004-12-15
Publication date: 2005-09-01
Also published as: EP1555610A1; TWI425418B; EP1555610B1; US20100122067A1; US20050138328A1; SG112989A1; US7310722B2; JP2005182825A; US7676657B2; US20070214343A1; DE602004026819D1

Description

200529071 九、發明說明：【發明所屬之技術領域】本發明係大致有關於多執行緒的微處理器，並且疋有關於在不考慮執行緒之間的順序下分 - 微處理器甲執行之指令。 “夕執订緒的【先前技術】為了迎合電玩遊戲者、模擬程式創造者以及式設計者的需求，複雜的洽匕的私雑的％圖協同處理器（已經針對各種的雷聪▲处、“B Processor) -般目的之，1\ 開出來。這些通常是運作在产理m、处理早70或其它的主控處理器的控制下之處理裔典型地係被最佳化的俊+，、執仃％ "、貧料的轉換成為影像 '、μ衫像可被顯示在桿準的氺恤, 顯示裝置上。在一種常見的的：栅(一)為基礎之何二豪枓” _ ' &圖處理器係被提供“幾 =’：幾何資料通常包含'…在一個將被描緣的其它多邊形）以及額外的資料 -角形或疋類似者。繪圖處理哭係在二如，紋理、光照模型與口处里。°係在成何貧料上執行模型建立、視點' 透視、光照與類似的轉換（此 ·' ._ . ±;fe 、（匕、.及通吊被稱為“頂點，，處理）。在廷些轉換之後，“像素，，虛 # n ” 係開始。在像素處理期間，成何貝枓係被轉換成光柵資料， ^ ^ , /、奴係包含在一個對應方；了見的區域之陣列中的每個樣本位置的色彩值與直它資訊，進一步的轉換可被施 ' 人沏P 4 尤柵貝枓，其係包含紋理混 =?過遽一—)(減少樣 £在頒示裳置中之像素的數目）。最終結果是-組可被 200529071 提供至顯示裝置的色彩值。為了=暢的動晝與即時的響應，被要未以最小大約3㈣的速率完成—個新㈣料的該些運算。隨著影像具有貝 ^ ^ 更細的紋理、箄寺^成更加真貫，對讀圖處理器的效能為了幫助符合這此要屯甘曰曰加。二要求’某些現有的繪理把一種利用平行操作的多執 DD係貝點處理划門，抖认—7 者之木構。舉例而言，在頂』處理期間#於母個頂點通常是執行相、地，在像素處理期間，對於每個樣本位置或:，類似常是執行相同的運算。在I —疋象素位置通向是獨立於在其它了;Pf ”）上的運算傾 (像素）可被處理為執行一彳，，母個頂點，通的程式係提供一個指令序列給 :::者: 心内的執行單元；在某個特。。之執订核是在程式的序列中之不同點之處。行绪可能間（在此被稱為延遲彡τ & ' s令的執行時早兀-般是以管線化的方式被做成，執仃所有在前的指令# # 一個4β令可在 7子日7凡成之前就被發出不需要尚未完成的+ β /、要5亥弟二個指令並凡成的丸令之執行所產生的在此種處理器中，執行核心通常是被 … 式（亦即，一個央 ^ 〇又汁以循環的方二執行緒的招A、分，，，接者一個來自第 m、“ 7 “匕類推）來提取將4 了不同的有1郝灯緒而被執行之指今，勺}个1】的有政執現給-個發出控制：地將母個提取出的指令呈 ^路。錢出控”㈣保持該提取出 200529071 !指令’直到其來源資料可利用且執行單元備妥為止，接么出该提取出的指令至該些執行單元。由於該些執行 f疋獨立的’因此循環的發出係降低-個指令將會依賴-:::然在執行的指令之結果的可能性。因此，在一個執行 7之延遲可藉由從另—個執行緒提取並且發出— 二令而被隱藏。譬如’-個典型的指令可能有2。個時 °勺I遲’此在該核心支援20個執行緒時可被隱藏。 ^％的發出並非總是能夠隱藏該延遲。例如， a :、處理程式經常包含從系統記憶體提取紋理資料的指 :脈令可能具有非常長的延遲(例如，超過100個二。在第-執行緒的-個紋理提取指令被發出之 W制電路可以繼續發出指令 ==之不依賴該紋理提取指令之後續的指令)，直到工制電路來到-個來自該第-執行緒的需要該纹理法被發出。於是一 =令完成之前，此指令無其係在開二Λ _電路係停止發出指令，並且 #问％丹度發出指今成。因此，“氣、、包，>/ 提取指令被完行單元夕„ 一現在該執行管線中，此係造成執早-之閒置的時間，並且在該處理器中導一種降低此種無效率的方式是藉由增加可同羊 :執行的執行緒數目。然而，這是-種昂貴的解ϋ核因為每個執行緒都需要額外的電路。例二 ==，在此平仃設計中之頻繁的執行緒執里^生設置有其本身專用的資料暫存器組。增力:=緒-般都曰加執仃緒的數目係 200529071 增加所需的暫存器數目，一此了月b顯者地增加處理器晶片的。又彳的稷雜度以及整體晶片的面積。其它用於多個執行緒的電路，例如，各又板母個執仃緒都維持一個程式計數為之程式計數器控制邏輯亦得更複雜且佔用更多的面積者執…數目增加而變氣、、包==一種有效率且有效地降低在執行管線中的 η X @在晶片面積上並不需要心架構將會是所期望的。曰加之執仃核【發明内容】本發明的實施例係提供在一個多執行緒的微處理 :=如=圖處理器）中分派指令之系統及方法，其係以取到-= Γ = 執行^之間的順序。指令係被提自每個執二+ ’該指令緩衝器係被配置以儲存來自母個執仃緒的一個指一绣徐哭由aa 個刀派電路係判斷在該指令緩衝為中的哪些指令係妥的指令；來自住彳、未執仃，並且可以發出任何備行绪W八任何一個執行緒的指令可在來自另一個執订緒的指令之前被於屮，緩f哭由又不論哪個指令是先被提取到該、戍衡态中。一旦夾一出，寺疋的執行緒之一個指令已被發出，則该提取電路可以用 1¾ ,,.. 爪自该執行緒的下一個指令填入豕飞利用的緩衝器位置中。根據本發明的一項的孚γ w 一種被配置用於一些執行緒的千仃處理之微處理器一個於八& 、，、破k出，其中每個執行緒係包含令缓彳M % 係包含一個執行模組、一個指 7、、友衝杰、一個提取乂及一個分派電路。該執行模組 200529071 行所有的執行緒之指令。該指令緩衝器係包置’每個儲存位置係與—個別的執行緒相關 ==:係被配置以至少部分是根據在該指令缓衝扞緒中夕一m罝疋否為可利用的，來選擇該些執的執—绪2订緒’並且提取在該些執行緒中之該所選 :==7的下—個指令到該指令緩衝器中。該分二:=!:判斷在該指令緩衝器所館存的指令中之那二:：…可執行的，並且選擇該些備妥的指令中之以被發出至該執行單元。該提取電路可用第一順 t提Γ指令到該指令緩衝器中，並且該分派電路可用不同於❹-順序的第二順序來選擇備妥的指令。在某些實施例中，該微處存指令的指令快取記憶體，並且該提二儲置以精由傳送-個包含—程式計數咬、乂被配快取記憶體來提取該下-個指令。^取2求至該指令計數器邏輯、-個選擇邏輯電路以及 =:裁路電可路包一式計數器邏輯係被配置以對於每個執行 ^路。該程程式計數器的值。該選擇邏輯電個候選的根據判斷在該指令緩衝器中的哪一Ύ至f部分是的，來選擇該些執行緒中之一個執行緒t:置擇：;利用置以提供—個對應的選擇信號。該係破配置以接收該選擇信號，並且傳送對裁電路㈣之候選的程式計數器的值至該指令快取記μ選的執外的實施例中，該些執行緒可包含-個具有第::行:： 200529071 型的第-執行緒群組以及一個具有第二執行緒類型的第二 ^丁緒群組。該選擇邏輯電路可進—步被配置以至少部分 =根據每個執行緒之個別的執行緒類型來選擇：中之一個執行緒。一 $ 儲存㈣例中，該微處理器亦可包含-個被配置以 = ::iT緒的資料之暫存器檑，其係包含藉由該板(sh所產生的結果資料。該分派電路可包含—個記分路==)電路、一個排程器電路以及—個發出器電且被配置以產：路係耦接至該指令緩衝器與暫存器檔，並令，其令給ΐ:::備妥信號給該指令緩衝器"每個指 ^ 9令的備妥信號至少部分是栌撼兮扣 -個來源運算元U存在於々的致能。該被耦拯v 孖时榀中而被致能或不被 A 7刀板與指令緩衝器的排程哭電$ # # 配置以選擇在該指令缥n ^ 卩担的電路係被妥信號係被致能：二：：：令中之-個指令，其備個對應的許可信號：I 要务出的指令，並且傳送- 至該指令緩衝器指令緩衝器。該發出器電路係㈣應於該許可信號係進-步破配置以回發出器電路。該於 ^王裔電路所選出的指令至該該所選的指令之來源：：路係被配置以從該暫存器檔收集源運算元至該執扞γ π70，並且傳送該所選的指令與來路係進一步被=r組。在另外的實施例中，該排程器電該指令緩衝器中的日±至少刀疋根據每個指令已被儲存在根據本發明^間長度來選擇下一個要發出的指令。找乃的另一 Μ 、、” ’，一種用於在一個被配置用 10 200529071 於多個執行緒的同時執行之微處理器中處被提出。來自該此勃γ & 万去係二執仃緒中之第一執行緒的第一提取到一個指令緩徐哭+ ?日7係被來自每個執行緒的_個以…友衝^被配置以健存中之第二執行緒的第接著’“該複數個執行緒該第1令係被提取到該指令緩衝器中。備妥以執行，、並二；中之一或多個指令係被判斷是否為指令係被發出以用於热 > 個備文的該第一指令尚未两文乂執仃’而擇…，八執行的情形中’該第二指令係在選擇4弟一私々之前被選出。 k 以下的詳細說明的本質請的圖式將會提供對於本發明貝/、k點之更佳的理解。【實施方式】本發明的實施例係提供用於在—個多執益（例如是繪圖處理哭A t 俽處理 W Θ ρ° )中致能指令分派之系統及方法，甘亚非疋根據執行错的 /、緩衝器中，該而定。指令係被提取到-個指令的一個指Α。二：緩衝益係被配置以儲存來自每個執行緒些指令係：妥來：Γ電路係判斷在該指令緩衝器中的哪自任何-個執，π亚且可以發出任何備妥的指令；來前被發出，而仃緒的指令可在來自另-個執行緒的指令之旦來1主論哪個指令是先被提取到該緩衝器中。- ^ 疋的執行緒之—個指令已被發出，則哼提& π 路係用來自兮舢/ I 只】4知取電器位置中。因\的下「個指令以填入該可利用的緩衝，在孩執行管線中由於被阻塞的執行緒所 11 200529071 造成的閒置時間可誠& 辟 _ 、間了被鈿紐。譬如，若該些執行緒中之一個 ,:緒：阻塞(因為其下一個指令是根據一個尚未完成的 "而疋）’該處理器可以在該段時間繼續發出來其它的執行緒之任何數目的指令。弟1圖是根據本發明的—個實施例之電腦系統⑽的方塊圖。電腦系統1〇〇係包含中央處理單元(㈣1〇2以系統記憶體104,其係經由匯流排1〇6而連通。使用者輪入係從-或多個叙接至匯流# 1〇6的使用者輸入裳置 (例士鍵釦、滑鼠)來加以接收。可見的輸出係被提供在以像素為基礎的顯示裝£ 11〇上(例如，習知的⑽ 或=LCD為基礎的監視器）’其係在純至系統匯流排⑽ =繪圖處理子系統112的控制下操作。系統碟>{ 128與其它組件’例如’―或多個可卸除的儲存裝置129(例如，、軟式磁碟機、光碟⑽機以及/或是議光碟機），亦可被耦接至系統匯流排106。系統匯流排106可利用包含PCI (週邊組件互連）、AGP(加速繪圖埠）以及/或是高速pci(pci_E) 的各種匯流排協定中之一或多種協定來做成，·例如是習知的北橋與南僑（未顯示）之適當的“橋接，，晶片可被設置以互連各種組件及/或匯流排。纟f圖處理子系統π 2係包含繪圖處理單元（GPU)丨丨4、、曰圖圯fe體11 6以及掃描輸出（scan〇ut)控制邏輯12〇，例 =，其可利用一或多個例如是可程式化的處理器以及/或是特殊用途的積體電路（ASIC)的積體電路元件而被實施。 GPU 114 T被配置以執行各種的工作’包含從系統匯流排 12 200529071 與繪圖記憶體i i 6 。GPU 114之相關 1 0 6所供應的繪圖資料產生像素資料、互動以儲存及更新像素資料、與類似者的特點係在以下進一步被描述。 π袖楓出控 •、、日间（傯體11 6 (或县Α甘些實施例中為從系統記憶體104)讀彳在某 ::料至顯示裝…被顯示。在=二：二固定的更新速率(例如，Ηζ)來發生；該更新速 ^ 用者可選的參數。掃描輪出控制邏輯12〇 '、η以執行其它運算，例如，調整色务# · 4 1 扣π特疋的顯不硬體之李二 :：像素資料與例如是從緣圖記憶體U6、 /、、◊先。己fe to 1 04或其它的資料來視訊或是游浐舌田旦/庙斗原（未顯不）所獲得之一個 ”：：似者的資料來產生合成的榮幕於.等等數位像素f料成為供顯示|置使用的類比信的。配置脖Ιΐ體認到的是，_處理子系統112之特定 -己置對於本發明而言並非是重點。在=:00的運算期間’ CPU102係執行各種的程式， = 業糸統⑽程式與應用程式以及用於繪圖處理子 -如動程式。這些程式可以是-般的習知設計。面二圖丨驅動程式可以實施一或多個標準的應用程式介 ,1 ；"J">〇pen GL'^^^-ca^D3D,. 處理子系、請通訊；任意數目的Αρι或是Αρι 式可皮支援’並且在某些實施例中，個別的驅動程式係實施不同的API。作業系統程式及/或應用程手、錯由若周用（__)適當的API函數呼 13 200529071 驅動程式經由系統匯流排⑽來傳輸繞圖資料或像素資料至緣圖處理子系統112,以調用GPU114的各種财函數、等等。藉由繪圖驅動程式回應於一個API函數呼叫所傳送料圖處理H統m之特定的命令及/或資料可能會^ 著GPU 114的做法而變化’並且該繪圖驅動程式亦可能：傳送實施不受作業系統或應用程式控制之額外的功能^ 如’特殊的視覺效果）之命令及/或資料。根據本發明的一個實施例，Gpu 114係被配置以用於大量的執行緒之同時處理，其中每個執行緒係對應於一個獨;立的處理指令之序列。GPU 114可以在任何時點執行來自忒些執行緒中之任一個執行緒的下一個指令。例如’影像的每個頂點可利用一個別的執行緒理’其中同時的執行緒係在影像之不同的資料上執行相同的處理程式；在-個特定的時間點，不同的執行緒可能θ 在該程式中之不同的點之處。在某些實施例中，可妒有Τ 種執行緒類型，其中一種類型之所有的執行緒係執二目= 的處理程式，而不同類型的執行緒係執行不同的處理程式。例如，可能有一種“頂點，，執行緒類型，其處理程心包含幾何與光照轉換，以及一種“像素，，執行緒類型，复产理程式：包含紋理混合以及過度取樣的資料之縮減過濾广在第1圖的實施例中，GPU 114係包含—些獨立的 =核心118，每個執行核心U8係被配置以處理從一些打緒(未顯示)所收到的指令。Gp(J 114所支援之同時行緒之最大數目是核心118的數目乘上每個核心之執行緒 14 200529071 的數目；譬如，在一個實施例中有八個核心、】i8，每個核心ns最高可以支援16個執行緒，總數為128個同時執行的執行緒。核心的數目以及執行緒的數目可以改變；例如’可以有八個核心，每個核心支援24自執行緒（總數為 192個執行緒）；十個核心’每個核心支援24個執行緒(總數為2 4 0個執行緒）、等等。每個執行核心118係、包含指令快取記憶體132、指令，取電路W、緩衝器138、分派電路14〇、包含一組執行二兀（未顯示）的執行模組142、以及暫存器檔144。可以是-般習知的設計之指令快取記憶體（1以心）132係儲存可執行的指令’該些指令例如是從繪圖記憶體ιΐ6而被獲得。在以士⑶中的每個指令可利用一個程式計數器⑽ 值來加以識別。提取電路136係從Icache 132提取由執㈣心U8所處歡所有㈣行緒之指令，其係維持在每個執行緒之内依序的程式順序，並且供應提取出的指令至在㈣時脈㈣’分派^⑷係從緩衝器 13k擇-個將被發出至執行模組⑷的指令。行緒Πγ:例t ’緩衝器138係被配置以對於每個執順子(個▲令’亚且維持每個執行緒之依序的程 i二：個時脈週期，分派電請係從緩衝器⑽ 、擇違些指令甲的一個推八得來源、軍f - 、、7用灰執行，從暫存器播144獲、^几，並且傳送該指令與運算元至執行模袓 ^用於執行。分派電路140有利的是根據在緩衝器】之那個指令的夹源】蛋f ^運异70已經是在暫存器檔】44中為可利 15 200529071 用的，來選擇下一個要執行的指八個執行緒是該所選的指令之來源1: ’擇且可以在無關於哪係監視緩衝器138,並且在提取電從緩衝器m被發出之後，其係丁、，者之一“已令。於是，對於某-個特定的時脈緒的下一個指式曰鉍女从士脈週期而言，來自大部分或疋所有的有效執行緒之指令 θ 刀利用的4f n V 了月匕疋在緩衝器138中可利用的，並且分派電路14〇 ^ 以璉擇來自任意執行緒的一個私令，而不論哪個是上次被 136、键福一 1。。、擇的執行緒。提取電路、友“态138以及分派電路14〇以下被描述。之特疋的貫施例係在執行模組142可以是一船羽4 立鉍s — 7 、白知的设計，並且可包含任思數目之個別的執行單元。邱拙可、士 ^ 二執订早疋中的某些或是全 ;破配置以用於該項技術已知的單一指合多重資 ⑻MD)的運算。執行模 &、^貝枓 #入月甘十、、 Z係攸y刀派電路140接收一個元i 源$ r兀，根據該指令來處理該些來源運箕兀，亚且儲存結果資料在暫存器槽14 - 有利的是對於藉由#_ μ 曰仔叩榀144 別勺八了早兀118所處理的每個執行緒都分匕3個別的暫存器組，_ 从错此避免在攸一個執行緒切換存=4Bff要㈣暫存器地交換資料。被寫入暫曾Γ \ 4的貧料係變成可利用作為後續的指令之來源運异兀。該4匕扣八π各u ^ 來源運管-、曰7 ^ 4性上變化，並且可包含任意數目的 ’、$开兀以及任意的結果資料量及/或種類。 ' 7叙都具有某段與其相闕的延遲；換t之，執行模組j42沾為―时俠口之、轨行早tl需要某個數目的時脈週期（其可 16 200529071 能是一或多個時脈週期} 石私士；木處理該指令並且寫入紝耍次u 至暫存器請。不同的指令可、、、。果_貝料一個簡單的向量加法運算可以僅攻。例如， m ^ . 僅僅在一或二個時脈週期内 :° ’ 1〇0或更多個週期)。執行模組142的執行單= !的是以管線化的架構被做成，因而儘管有該延遲二有

::，？然可:分！:個指令；此種架構是該項技術Γ: ，不同的執仃早疋(或是執行單元群組配於處理特定的指令疋特別適 ^ , 亥項技術中已知者，並且八、V 電路140可以在執行模組且刀派元(或是執行單元群组)以處理：：擇一個適當的執行單 1*、且j Μ爽理一個特定的指令。一個執行緒的指令可能具有之資料的相依性；換+之，^亥執订緒的其它指令的…姓個指令可能會使用-個先前的才日々之結果資料作為且夹柯好人— 异X。—個具有資料相依二“在其所依賴的指令之結果資料於暫存器播！44中成^可利用的之前是無法執行的。若某一特定的執行緒之 :一:指令是一個具有此種資料相依性的指令時，則該執 2心被阻I。根據本發明的_個實施例，分派電路1⑼ J個叉阻塞的執行緒，並且從緩衝器138選擇一们，：的執仃緒(其可以是任何不受阻塞的執行緒)之下一 6 7 2接著被發出，而不是等待該受阻塞的執行緒變成不^卩基的。以此種方式，在一個執行緒内之延遲可藉由執行另-個執行緒而被隱藏起來，因❿Gpu 114的效率係被改善。 17 200529071 除了執行核心11 8之外，GPU 114亦可包含其它未展不在第1圖中的特點，例如，用於接收及響應於經由系統匯流排1 06所接收的命令之電路；此種電路可被配置以適當地開始及/或終止在執行核心118中的執行緒。各種的控制暫存器、狀態暫存器、資料快取記憶體與類似者都可以是以全域、每個核心或是每個執行緒地被設置。此種特點是該項技術中已知的，因而詳細的說明係被省略，因為其對於理解本發明而言並非是重點。、 ^,體認到的是，在此所述的系統是例示性的，並且變化與修改是可能的。例如，繪圖處理器可利用任何適當的2術而被實施為一或多個積體電路元件。繪圖處理器可被安裝在一個擴充卡（其可包含一或多個此種處理器）之上、或是被整合到一個系統晶片組中（例如，被整入到北橋晶片幻。冑圖處理子系統可包含任意數量的專用输圖仏體（某些實施方式可能沒有專用的繪圖記憶體），並且可使用任意組合的系統記憶體與專用的繪圖記憶體。 a圖處理a中之執行核心、的數目是依據實施方式而並二最佳的選擇—般是依據效能與成本之間的取捨二:母：執打核心都可支援一或多種執行緒類型之同中置有多個核心的情形i在相同的處理器 e . y 次疋不同地被配置。該些核心有利的疋被做成不會共用執行另〜一侗诂山早兀之獨立的千處理器，並且在核心中執行一個特定的執行緒。在—個特定的核心中之執行緒的數目亦可以根據特定 18 200529071 的實施方式與要被隱藏的延遲量來加以變化。以此種關係，應能意到的是在某些實施例中，指令排序亦可被利用來隱藏某些延遲。例如，如同該項必貝技術中已知者，用於繪圖處理器碼之編譯器可被最佳化、々文辨私式的指令，使得若有產生資料的第一指令以及利久〜用该貧料的第二指令柃，則一或多個其它並不利用由該第— ^ 扣令所產生之資球斗的指令係被設置在該第一與第二指、 ^ y ^ 之間。此係容許一個執行緒的處理在該第—指令正在 ^ 现订^仍然能夠繼續。同樣在该項技術中已知的是，耵於具有長延遲的指令而言，在產生者與利用者之間設置足夠多兮狂、严、s Α θ ^ 、蜀立指令來完全隱藏该延遲通常是不實際的。在決取卜，K 妻旦L 母個核心的執行緒數目上了以考置此種最佳化之可丨田γ ,,., 之了利用性（或是欠缺此種最佳化），例如，一個核心所支取1 ^ , λΑ 机仃、、者數目可以根據任何才日令之取大的延遲以及一個 A U ^ hh yv 、 9、為泽态可被預期在一個取大之攻的私令與其第一個依附的 ^ e I -V' ft , * V曰々之間會提供的平均 (或疋取小或敢大的)指令數目而被決定。用於一個執行核心的指令緒之間共用、或可以是實際上二：體可以在該些執行體可包含對應於每—種執行緒類=中：該指令快取記憶是邏輯的分割’並且每個分割可進η::貫際的以及/或之個別的執行緒之間 4所要地在錢型门、、、田刀（或是不細分）。用於一個執行核心的暫包含一組暫存哭、，子的杈有利的是每個執行緒都一亚且可具有任意數目的讀取及/或寫入 19 200529071 埠。此外，可對於不同的執行緒設置實際上及/或邏輯上個別的暫存器檔。 4 “疋取電路136、綾衝器138與分派電路的配置也可被改變’但是現在將會描述特定的例子。第2圖是根據本發明的一個實施例料—個執行核心、⑴的提取 -路140與緩衝器138之簡化的方塊圖。在此實施例中，執行核心118係被配置以同時處理達到最大數目购執行緒，儘管將瞭解到的是，在任一特定的時間點個執行緒中的某些或是全部執行緒可能是閒置或是無作用的。提取電路136係、包含數目⑺個程式計數器邏輯區塊 202以及一個由選擇邏輯雷伴1科私路206所控制的仲裁單元204。 (在此’類似的物體之多個例子係利用識別該物體的元件符號=及識別所需的例子之括號内的數字來表示。）每個程式計數器邏輯區塊202均對於在該#個執行绪中之-個別的執行緒之下—個順序的指令產生一個數器（PO值。程式計數器邏輯區塊2G2可以是—般用於更新程式計數器之習知設計’並且可包含遞增的計數器、分支檢測邏輯以及其它對於本發明而言並非重點的特點。由PC邏輯區塊202所產生的Pc值係提出給仲裁單元 204’該仲裁單元204係響應於一個由選擇區塊2〇6(在以下敘述）所提供的選擇信號SEL/，以從該些執行緒中之一個執行緒（在此表示為執行緒7以作為參照）選擇該些代信號PCK其巾〇^η—υ。該所選的信號pc/係被傳送至 Icache 132 ’該Icache 132係傳回對應的指令至緩衝器 20 200529071 138，並且對應的執行緒之識別符u)係被 138。、芏、友衝斋緩衝器138係包含#個儲存位置2〇8(例如，其暫存器而被做成），-個儲存位置m係對應於該^執行緒之-個執行緒，並且一個陣列21〇被配置以儲存^個有效的位w每個暫存器有—個有效的位元）。緩衝器⑽ 係從Icache 132接收指令（INST)a及從仲裁單元=4接收對應的執行緒之執行緒識別符（/)，並且直係令順至對應於執行緒/的―個位置m。當該指令= 存t在陣歹j 21 0中之對應的有效位元係被設定 (例如，“1”）。 /、緩衝器138有利的是被配置成使得分派電路140可從任何-個儲存位置208選擇一個將被發出的指I，因而來自不同的執行緒之指令可以任何順序被發出。分派電路140 係在以下被描述；現在應該注意到的A，當一個特定的執打緒之指令被發出日寺’在陣列210中之對應的有效位元有利的是被設定為邏輯偽(例如，“〇”）。如同在此所用者，一個“有效的執行緒，，是-個在儲存位f m中具有一個有效的指令之執行緒，[個“無效的執行緒，，是-個在儲存位置208中沒有有效的指令之執行緒。如同在第2圖中所示’選擇邏輯電路206係從緩衝器 138接收陣列210之有效位元。選擇邏輯電路2〇6在選擇一则旨令將被提取的執行緒j上係使用每個執行緒的有效或疋…效仓J如’ 4擇邏輯電路2〇6可被配置成僅選擇無 21 200529071 效的執行緒；在多個執路206可選擇已〜… 效的十月形中，選擇邏輯電執行绪之門評：最久的執行緒、或是可根據該些二:Γ:㈣級來選擇—個執行緒，其中該優先選擇邏輯電路206二心脈週期時改變。可被選出的頻率之規則'、：3 一項限制-特定的執行緒成比例地佔用資/ /以便於避免一個執行绪不 guf —項規料規I特定的執行，，者疋無貝格再次被選的，直到從它上-大祐.登遛, 過#個時脈週期為止，1 、、可桃涂♦ -中#疋某個固定的數目（例如，# J被建立成處理器之一久— 規則的情形中，可能有一此*疋、，）。在貫施有此種 b 一二牯脈週期是沒有執行緒滿足該 k擇規則的（例如，唯一無效 .„ ^ 订"有疋在少於#個週期之w被選擇的）。在此情形 _ 细 t、力 … 中裁早兀204在該時脈週尥^又、送PC/值至1cache 132;下一個PC/值係在 Λ到一個滿足條件的執杆 ,、執後績的週期期間被傳送。在個/、中母個時脈週期都選出一個執行中，#係被設定成一個不…執订緒的此種貫施例有ί 固特定的時間被預期是有放的執订緒之隶小齡曰 , 胃此降低發生其中沒有執行緒被選出的時脈週期之可能性。執第3圖是根據本發明的一個實施例之實施執行緒選擇規則的選擇邏輯電路3〇〇 ,nn . _ , 川之間化的方塊圖。選擇邏輯電路〇嶋含-個優先權編碼器302以及一個相位 (token))計數器 304。；u 。母個執仃緒之有效的信號都藉由一個別的反相态3 0 6來加以反相，並且且所產生的/valid信號 22 200529071 係被提供至優先權編碼器302。可利用習知的數位邏輯電路而被做成的優先權編碼器302係選擇其/valid信號被致能的最高優先權的執行緒（亦即，最高優先權的無效的執行緒），其中该些執行緒之間的優先權等級是根據一個由相位計數器304所提供的控制信號（CTL)來加以決定的。相位計數器304是-個模數水的計數器，其係在每個時脈週期加1 ;該控制信號CTL係對應於相位計數器3〇4之目前的值。在此實施例中，控制信號CTL係決定最高優先權的執行緒之執行緒號碼，並且優先權編碼器3〇2係以的（或是下降的）執行緒號碼做模數#運算之餘的執行緒之等級。个辨以具因為相位計數器304是在每個時脈週期加卜 :“：優先柘等級是隨著不同的時脈週期同二在弟一時脈週期期間，目前的執行緒計數器二1 值〇，亚且優先權編碼器3〇2給執行緒〇最 ” 換言之，在該第一時脈週期期間：：核。則優先權編碼器'302係產生—個選擇執^疋無效的，號之狀態。若執…是有效的，：:;:：？㈣信考慮的執行緒，依此類推，直到找到丁疋下—個被是最大數目個執行緒(其可能是小於]一:無效的執行緒或慮過為止。在下-個時脈週期期間、，=:)都已經被考 304具有幻，並且優先權編碼器：的執行緒計數器優先權，若執行_ 1 H 、'°執行緒1最高的 … 的則給執行緒2,依此： -執仃緒變成無效的，則其類推。符热效的，直到其 23 200529071 下則曰令被提取為止。因不保證在任何料定μ ± s、擇邏輯電路300並 < 1干且在任打特疋的時脈週期緒會被選出，但是將會體認到：：：間無效的執行會在變成無效的K固時财、請 I，，、效的執行緒都將中，優先權編碼器：週:：内被選出。在某些實施例緒之最大數目…：：广脈週期期間所考慮的執行 "係避免-連—:二:執行⑽^ 而在-個執行緒能夠被再次選二 =期都，選：，因期數目可藉由調整C的則有的取小時脈週 C可以來加心制°(在某些實施财，了以疋糸統的一個可設定的參數。）將會體認到的是，在卜則係例示性的，並且多種料邏輯電㈣選擇規上且夕種鉍化與修女 β 述的各種電路組件都可利用習知的數7月匕白、。在此所術而被實施。不同的邏輯電路亦可 ==;路設計Μ 賴目I丨7丨， J被做成支杈不同的選擇例中：先Γ個時脈週期可提取超過-個指令的實施用：;;斷要=:除了優先權編碼器之外的裝置也可被利路可以唯持無效的執行緒。譬如，該選擇邏輯電 ▽aUd)，，位元攔位：：效的(IeaSt recentiy 在Γ 谓測到其令一個有效的位元 3=嫩態之間的轉變時被更新。仍然是在其執歹°十數益或類似的電路可被利用來判斷從一個成無效的開始所經過的時間以及/或是從一個執、-人被心開始所經過的時間；在計數器值上運算的 24 200529071 :較邏輯可被設置以識別出-個最不是近來有效的執行緒0 現在=二7:擇广時點與一個執行緒對應的指令出 ^ 的時點之間，該選擇邏輯可包含另外的 -电路以禁止選擇該執行 ώ，. ,, .、如在1cache 未命中（miss) 的'丨月形中，從主要的指令儲取得指令並且提供該指令I緩衝写^要的快取記憶體） m处“ 7至、、友衝為138可能會花費數個週〜貝鈀例中，禁止在此間隔期間再度選擇該執行 =是所期望的，例如，以避免在一個執行緒：内：令被提供至緩衝器138 ’曰出或疋不按照其程式順序被發式的疋，因為提取電路136並不以循環的方式运擇執行緒，因此者林中的勃—你4 田不止k取一個遭遇到icache未命取至緩衝哭、ns、，緒的指令可繼續被提取至，讀S 138亚且被m此，在例可i辟❖ T p k , 丨〜曰7呆些貫施 M he未命中的情形中之管線氣泡與I效率。在支援多種執行緒類型的情形中，;、效革要地考量或不考量執杆㈣W 亥遠擇邏輯可隨所亏里執仃、、者頜型。例如，在第2圖衝，有關執行緒類型的資訊短？ 2〇e。第4 m η # a 促1芏、擇邏軏電路回疋根據本發明的一個替代實施例之考量緒類型的提取電路4〇〇考里執仃的万塊圖。在此實施例中，核心亦支援#個執行緒，其可 5亥執仃的執行緒以及多遠夕達’個弟—類型（“A”）夕違個弟二類型（“B”）的執行緒。 W A的仲裁單元4()2係從有效的類型a的了茶A?、之目的而欲& n 丁、、者（為、.扁娩為0至/-υ接收程式計數器信號，並 25 200529071 广、里B的仲裁單凡404係從有效的類型B的執行緒（為了參照之目的而編號為{至肸υ接收程式計數器信號。類里Α的仲裁單兀4〇2係回應於一個 :;!信號來選擇其中-個類型識行緒，並且類：: 早凡404係回應於一個來自選擇邏輯電路4〇8的信號來選擇其卜個類U執行緒。在—個實中1 :固選擇邏輯電…的配置係大致類似於以上參：且伽^所述者，因而每個選擇邏輯電路406、408係選擇別：颌型中已經變成無效最久的執行緒；將會體認到 ^擇規Γ配置與選擇規則亦可被利用。如上所述，根 “擇規則，可能有時脈週期是仲裁單元4〇2、4〇個仲裁單元（或是兩者）並不選擇任何執行緒。 :應於來自選擇邏輯電路4〇6、4。8的選擇信 A的仲裁單元402與類型B的仙井選的程式計數器的值 410。仲裁單元402、404同樣有的仲裁單元的個別執行緒（5,幻。全域的仲裁…疋:別出已經被選擇由執行緒類型的優先權電路：10 : 口應灰-個 (，而在一一二擇所產生之類型選擇信號 :行緒類型的優先權…12可用各種方式被配置，緒類型…之間界定所要之相對的優先權。在給予ΓΓΓ執行緒類型的優先權電路化可被配置以期上：相寺的k先柄’例如’其係藉由在交替的時脈週 /、月上埯擇PC<3與PQ。 ^ 在另一貫施例中，執行緒類型的優 26 200529071 =路412可以選擇該兩個候選的執行來有效的執行緒。之取不疋近仍是在另一個實施例中，執行緒類型係根據靜態或是動態的“重要性，，標準來队/先權電路412 類型優先權。各種的標準都可被運用。=中：：個執行緒緒類型係對應於像素執行緒與頂點執行緒^亥專執行行緒優先權可能是所期望的(例如，因為:：：頂點執可能在相關的頂點執行緒之處：二像素執行緒的)。因此，-項選擇規則可：：：=，被起始選擇頂點執行緒。另一項選擇規:二亍緒來頂點接著某些個數的像素之反覆〜、-固數的接著一個彳11 θ _ j (例如，兩個頂點括來…、戈疋三個頂點接著兩個像素、或是，更概二;個頂點…個像素，…為任意的整數)。 ^亦可1動態地被定義，例如，其係依據目前有定用^ 處理的頂點及/或像素執行緒的數目而、订緒類型的優先權電路412之選擇規則可被做佳:設定的’以便支援對於一特定的系統做法之最 4的仲裁單％ 41 G係根據類型選擇信號Α/β來在心吳似之間做選擇，並且其係實質上如同以上所述地提供 =的程式計數器的值（標示為p⑺至匕如】32。在某只她例中’麵型選擇信號Α/β可以偶爾在—個其中沒 '、尘Α(Β)的執行緒被該特定類型的仲裁器Μ2(4〇4)選出的^•脈週期期間指明執行緒類㉟取是β)。全域的仲 27 200529071 裁單元110可被配置以在此事件中選擇似⑽）、或是不選擇任何執行緒（亦即，沒有Pc/被傳送至Icache 將會體認到的是，在此所述的提一，代^包路與緩衝器係例不性的，亚且夕種變化與修改都是可能的。在不同的财緒(或是不同的執行緒類型)具有實際上或是邏輯上分開：指令快取記憶體之情形中，該提取電路可被配置以導= 所選的PC值至適當的快取記憶體，或是提供一個可制用以選擇適當的快取記憶體之執行緒（或是執行緒類型）識別符。該緩衝器可提供每個執行緒儲存超過一個指 ^其係藉由提供每個執行緒_個F⑽暫存器，:且該提取包路可根據在母個FIF0令之無效的或是未使用的項目之數目來選擇下一個要提取的執行緒。、在某些實施例中，該提取電路在指令發出 :該緩衝：至任意特定的程度並非是必要的。取而代之：疋’由方“曰令的發出偶爾會因為資料相依係而跳過-些時脈週期， …員似者的關埴入；… u此錢衝裔可能傾向於自然地填入。该&取電路的執行绪 μΜ利的是被配置成只間用於儲存來自-執行緒的指令 …擇5亥執行緒，藉此避免了緩衝器溢位。第5圖是根據本發 _ 簡化的方塊圖。分派電路4{)個/施例之分派電路140之程器及二:(係包含記分板電路5〇2、排毛出电路（或是發出器）506。可以是一般的習知设权記分板電路5G2係讀取在緩衝 (有效的）指令。對於每個扣八《中的母個、们私々，記分板電路502係檢查暫 28 200529071 存器檔144以判斷來源運算元是可利路5 η ? #太丄 β板電一 ^生一組備妥信號（例如，每個執行緒兀）’其係指出在緩衝器、138中的哪些指令是備妥：行的，亦即，哪些指令是具有在暫存器播144中皮執來源運算元。排程器504係從記分板5〇2接收該 2 號以及從緩衝哭】Μ技必吁此士一 1有'^ 派的下-舒i 有效㈣號，並且選擇要分個心令。該所選的指令係被分派至發出器5ηβ =出器506係藉由將該指令傳送至執行模组M2來發出二=:選的指令所屬之執行緒的執行緒識物可被傳达至發出器506及/或執行模組U2，以例如是使得Ζ =來源運异疋與結果資料來選擇適當的暫存器成為可行排程器504有利的是被配置成在很少或是沒有限制之一’根據在執行緒之間的一種順序以在緩衝器 =令之間做選擇。例如，排程器5〇4可選：者38上Γ等待（有效）最久的備妥的指令，而不論該執行緒上次被選擇是何時。 ^ 第6 =内含在排程器5G4中用於選擇一個將從緩 2 138被分派的執行緒之選擇邏輯電路_之簡化的方鬼二。選擇邏輯電路_係包含優先權編碼器6〇2與相位疋6G4。每個執行緒之有效的信號與備妥 ^係被k供作為-個別的電路6〇6之輸入。優先權 =碼f⑽係從働電路_接收輸出”，亦即，⑭ 仃緒的仏虎’其係在該執行緒的指令是在緩衝器⑶中 29 200529071 為有效的並且備妥以被執行時被致能。（在某些實施例中，執行緒的備妥信號在該執行緒是無效時並未被致能，因而 and電路606可被省略。）可利用羽 J才J用白知的數位邏輯電路而被做成的優先權編碼器6〇2 # $接 η 一 Ζ係4擇備女與有效的信號都被致月匕之最高優先權的執行緒（亦即，最古得春rΑ & — 1 取冋優先柘之備女的執 7 丨中忒些執行緒之間的優先權等級係根據一個由相料” 6G4所提供的控制信號（gtl2)來加以決定。相 :立二數二6G4是—個模數#的計數器，其係在每個時脈週 1，該控制信號CTL2係對應於計數器剛在此實施例中，抻岳，丨# % m#u m2係判斷最高優先權的執行曰炎无袓、·扁碼為6 0 2係以上升的（哎疋下降的）執行緒號碼做模數 #,,, 义耦數#運异之順序來排列其餘的執订诸之寺級。相位計翁 4可具有和第3圖之目前的執订、、者计數器304相同器可被奋於_ 相位（右為所要的話，兩個計數右 ^目同的计數器），或是相位計數器β〇4可且有一個不同的相位。 ” 優先權編碼器β 〇 2的動作孫* ^ ^ „ 作係類似於以上針對第3圖的優先核編碼器3〇2 .^ Rr 厅此之動作，並且因為相位計數器6〇4 在母個時脈週期加 π ,, B±0r 1因而執行緒的優先權等級係隨著不冋的時脈週期而古％丁 n ^ r B y 5。例如，在第一時脈週期期間，目刚的執行緒計數哭6〇4呈古括Λ 給埶杆接η η /、有值〇，亚且優先權編碼器602 、口轨订、，者〇最高 ;S - ^ . k先核（亦即，若執行緒0是備妥的，則4擇執行緒0)， }，依丁、、者13並未備妥時，則是給執行緒 1仅此X員推，古丨直到找到一個備妥的執行緒或是考量過最 30 200529071 大數目的執行绪盍 u 為在下一個時脈週期行緒計數器_具有值】，並且優先權間，目前的執緒1最高的優先權，若執行緒i並未借、.碼:、6〇2給執行緒2，依此類推。女¥，則是給執行旦一個執行緒變成借專的的二直到該執行緒的指令被分派為I::緒備妥輯電路600並不保證在任何特定的時 $官選擇邏時間備妥的執行緒會被選出，但是：;已經是最長之内被選出。在某些實施例中；成免f個時脈週期 ::期都被選出可能是所期望的;優先權編J 60; 週期期間所考慮的執行：以……執订緒的總“之數目。（此最大的數目亦可疋糸、、先的一個可設定的參數。） ^會體認到的是，在此所述的選擇邏輯電路與選擇規、、、歹1不&的，亚且多種變化與修改都是可能的。在此所二的各種電路組件都可利用習知的數位邏輯電路設計與技術而被貫施。不同的邏輯電路亦可被做成支援不同的選擇規則。在超純量(superscalar)的實施例中(其中每個時脈、、可^出起過-個指令），該選擇邏輯可被配置以在每㈣脈週期選擇多個指令。再者，除了優先權編碼器之外的岌置也可被利用於判斷要選擇哪個備妥的執行緒。譬如’該選擇邏輯電路可以維持一個‘‘最不是近來無效的，，位凡攔位，泫攔位是在偵測到其中一個有效的位元在邏輯真 31 200529071 與邏輯偽狀態之間的轉來選擇已經是有效田 "斤’此位元攔位可被利用例中，計數器可::用^ 備妥的)開始所經過的；：断攸-二執行緒變成有效的(或選出開始所經過的時 ^及/或是從—個執行緒上次被被設置，以識別出、古彳數态值上運算的比較邏輯可在其它實久之備妥的執行緒。如，選擇可以曰邱八〃類的選擇規則可被實施。譬部份根據要執行的運瞀：::二擇邏輯)。選擇亦可以是呼叫運算、加法運㈡=(例如，'給予乘法運算、可考量執行模組的狀能在h優先杻）。此外’選擇係包含專用的執行單二亍模組142 被導弓丨至不同的執杆…執仃“u，其中不同的運算術的執行單-早兀*，例如，可以有一個執行浮點算個執及另—個執行整數算術的執行單元。若一自不備妥的指令所需之執行單元正被佔用，則來定的時間二令可被選出°譬如’假設在一個特則具有H緣正被佔用’而整數管線是空閒的。浮點指入2整數算術的指令之執行緒可被給予高於具有 7的執行緒之優先權。於:再-人荼考第5圖，回應於來自排程器、504的許可作在一個每σσ 138中被請求的指令係被分派至發出器506 0 及緩徐M e例中，發出器506係包含運算元收集器508以 ' 緩衝為51 0係接收該被分派的指令，而運 32 200529071 昇疋收集器508係從暫存器標144收集用於該指令的來源運算元在緩衝器51"。根據暫存器檔144的配置，來源運算元的收集可能需要多個時脈週期，並且在給定一特定，暫存器檔配置之下，運算元收集器508可實施各種用於取佳化暫存器檔存取的技術，以用於有效率的運算元收集；此種技術的例子是在該項技術中已知的。缓衝器51〇有利的是被配置以-起健存收集到的運算元和其指令，而同：正在收集該指令的其它運算元。在某些實施例中，發出盗506係被配置以在指令的運算元已經收集到之後，立 2發出該指令至執行單元142。發出器咖並不必要以指 ^皮分派的順序來發出該些指令。例如，在緩衝器5ι〇中广可用一個對應於它們被分派的順序之序列而被儲 :—並且發出& 5Q6在每個時脈週期可選擇最早取得其運 p的指令’其係藉由逐步通過該序列（開始於最不是近找:=的指直到一個取得其所有的運算元之指令被的指令被係被發出’並且該序列中在該指令之後蠕被“移動；最新分派的指令被加到該序列的末二:…亥序列可藉由在緩衝器51"之' 位置來加以維持’其中當在前的指令被移除時，其、曰令係被移動到不同的位置中。唯拉Γ個實施例中’已經被分派至發出器、5。6的指令作 ::在:衝器138中，直到該指令被發出至執行模組： h派之後’該指令有利的是被維持在—個有效、文的狀悲中（例如，一個被分派的指令之有效位元 33 200529071 21 0可保持在邏I耳真狀態中，直到該指令被發出為止）會體雜…在發出器' 506可以不依照分派順序發出指令的實施例中，士絲曰 b種配置可有助於避免來自相同的執行之夕個指令同時存在方《绥 σΐ7 、仔在方、、友衝态51 0中，藉此保有在一個行緒之内的指令之順序。個執在”匕灵知例中，發出器506並不執行運算元的收集。 :二當指令被收到並且通知暫存器請來提供適當的二异^至執行模組142(或是執行模組142之特定的執 1丁^ k ’發出11 5G6可發出該指令至執行模組U2(或疋執行模組1 4 2之拉令Μ Μ / α 一管 Ζ之特疋的執行單元）。在此實施例中，運斤几收集器5 0 8金·衡哭ς ! η π 1 ^ ^ 一衝态510可被省略。將會體認到的是，發出器506之特定的配署太财狄疋的配置在對於理解本發明上並非重要

口、J 將會體認到的是，尤卩、，在此所述的分派電路係例示性的，亚且夕種變化與修改帝踗μ夂括ρ 疋了此的。在此所述用於該排程器技術而被1 ^ m 白知的數位邏輯電路設計與议何向被貝知。不同的邏摆招曰,^ W ^路亦可被做成支援不同的選擇規則。該排程亦可包含膏 3貝轭頜外的選擇規則（例如，在一個執行緒可再次被選擇來调翻私、 Χ出之刖所必須經過之最少的之J數目）以及/或是不同的 y 、擇規則（例如，給予一種執仃、·、；漠里優先於另一種執行輯雷败鍤牺L 有頰型之優先榷）之各種的邏铒％路種類。此種規則可利敗々批一賴似於先刖在用於該提取電路之執仃緒選擇的背景φ所每γ μ 述的那些邏輯電路與技術而被 34 200529071 u官本發明已經相關杏疋的貝施例而被描述，熟習此員技術者將會體認到許多 0乜改都疋可能的。譬如，儘管在此所边的實施例係針對指八的、里（亦即，母個時脈週期一個） gp . ,π , 疋$代的貫施例可支援超純量（亦 P 母個脈週期超過一個）於八實施例中，在一個特定/ 的發出。在一個超純量種的執Γ缺、立勺4脈週期中所發出的指令可從各丁、’以任思所要的組合被取出（例如，苹此實例可限制發出為每個時脈週系二貝她例它垂f、功疋母個執行緒一個指令，而其 ^ Ur, ^ 孰订、、者之夕個私令在相同的時脈週期中被發出）。在超相门白" 取雷踗朮V^ 、里1 ^疋純里）貫施例中，該提此將㈣·“成每個時脈週期提取超過-個指令。因的;一是，本發明係包含每個週期提取任咅數目⑺ 的指令以及發出任咅t 心數目 B ,, D W數目的指令（户）之實施例，1中續此數目/與户可以用任何 /、中名> 間。本發明的實施例、工刀配在多個執行緒之適配用於非同步的處理器中。此外，右為所要的話， τ 令發出可被實施，例如，其:藉效的窗，，之内的任何備妥的指令之心的一自: 的非循序的發出技術。 χ 、：又目的之處理器在此所述的執；2 乂、並不限於任何特定的口一目或配置。例如，客伽丸仃早凡數定的指令，不同的執行。單元可共同合作來處理一個特是具有不同資料之理具有固定或是可辦、等等。執仃單凡可以處才曰令，並且可被管線化以名 35 200529071 每個時脈週期、或是更大致而言，在由、％印示囚疋數目個時脈週期所構成的間隔來接收新的指令。如上所指出者，可以支援任何數目的執行緒以數目的執行緒類型，其中每個執行緒類型係對應於一個^ 被執行之程式化的指令序列。程式指令可以用各種方式被提供，其係包含儲存在繪圖處理器或是其它的繪圖處理子糸統組件的非依電性記憶體中之内建驅動程式在系統初始化以及/或是執行時所供應二圖以及/或是應用程式供應的程式碼(例如，在可程式化的迷影Is (shader)的情形中）。可用术、 ^ ^ ; 了以用適當的南階語言（例如， C' Cg或類似者）產生程式，並且利用程式語言以及該將被執行於其上的給_卢田 ^ 的、'曰圖處理益之適當的編譯器來編譯該程 W將輸人指令翻譯成—個相容於執行單元之不同的格式二疋不同的&令集）可在執行核心内、在緣圖處理器的其匕組件内、或是在電腦系統中的別處被提供。在此所述的繪圖處理考了以在廣大的計鼻裝置中被實軛為協同處理器，其係包叙目的之桌上型、膝上型及 /或平板笔腦；各種的手持 ⑽)、行動電話、等箄例如，個人數位助理 ^ °寺寺，特殊目的之電腦系統，例如，電玩主機；與類似者。亦將會體認到的是全 u g本發明已經參考繪圖處理器而被描述，作县尤Μ 疋在此所返的系統與方法亦可被實施在其它多執行緒的微處理器中。因此’儘管本發明已經相關特定的實施例而被描述， 36 200529071 ::將會體認到本發明係欲涵蓋在以下的申請專利範圍的範彆内之所有的修改與等同項。【圖式簡單說明】一弟1圖是根據本發明的一個實施例之電腦系統的簡化的高階方塊圖；圖疋根據本發明的一個實施指令緩衝器之簡化的方塊圖；

第3圖疋根據本發明的_個實施例之用於選擇將要4 取勺#個‘令之選擇邏輯電路之簡化的方塊圖； :目π根據本發明的另-個實施例之指令提取電]i 之間化的方塊圖；的一個實施例之指令分派電路之第5圖是根據本發明間化的方塊圖；並且出圖是根據本發明的一個實施例之選擇的指令之選擇邏輯之簡化的方塊圖。【主要元件符號說明】 10()電腦系統 102中央處理單元（CPU) 10 4系統記憶體

10 6匯流排 I 08輪入裝置 II ϋ顯示裝置 11 2繪圖處理子系統 114繪圖處理單元（GPU) 37 200529071 11 6繪圖記憶體 11 8執行核心 1 2 0掃描輸出控制邏輯 128系統碟片 129儲存裝置 132指令快取記憶體（Icache) 136指令提取電路 138緩衝器 14 0分派電路 142執行模組 144暫存器檔 202程式計數器邏輯區塊 2 0 4仲裁單元 206選擇邏輯電路 208儲存位置 21 0陣列 300選擇邏輯電路 302優先權編碼器 304相位計數器 306反相器 400提取電路 402類型A的仲裁單元 404類型B的仲裁單元 406、408選擇邏輯電路 200529071 41 0全域的仲裁單元 412優先權電路 5 0 2記分板電路 504排程器 506發出器 508運算元收集器 510缓衝器 600選擇邏輯電路 602優先權編碼器 604相位計數器 606 AND電路

Claims

200529071 十、申請專利範圍： ^ 一種被配置用於複數個執行緒的平行處理之微處理〃中每個執仃緒係包含—個指令序列，該微處理器包括：一個之指令；執行模組，其係被配置以執行所有複數個執行緒存位:=:=執其係包含複數個儲存位置，每個儲 -個提取電路，其執，l 令緩衝器中之相關連 b b疋根據在該指該複數個執行绪中、：子立置是否為可利用的，來選擇行緒中之兮所ί 個執行緒’並且提取在該複數個執緩衝器中ΓΓ執行緒之序列中的下-個指令到該指令一個分派電路，复孫诎m 儲存的指令中之哪些指令是備判斷在該指令緩衝器所備妥的指令中 7疋文可執行的，並且選擇該些 2.…專；;個指令以被發出至該執行模組。 T W專利範楚路係以第-順序提取指令到處理器，其中該提取電電路係以不同於 °^曰7綾衝器中，並且該分派令。、…順序的第二順序來選擇備妥的指被配置以储存項之微處理器’其更包括一個進-步被配置以_ 、取。己隐體’其中該提取電路係求至該指令快取：:來送：包含， L'體來提取該下-個指令。 40 200529071 4.如申請專利範圍第3 路係包含：、Λ处王益，其中該提取電程式計數器邏輯，其係的每個執行緒產生-個候選的程式計數對器 =數個執行緒一個選擇邏輯電路，並，斷在該指令緩衝器中的哪部分是剛該複數個執行緒中之—個執行緒，该選=利:的來選擇步被配置以提供-個對應的選擇信號’·、以及…路係進— -個仲裁電路’其係被配傳送對應於該所選的執行绪之信、=收㈣擇w，並且指令快取記憶體。”候、的程式計數器的值至該輯電利範圍第4項之微處理器，其中該選擇邏一個優先權編碼器，苴孫妯#亜間的-個優先#^ /… 根據該些執行緒之指令以η ^擇該複數個執行緒中之一個在該 ^ 令的執行緒’該優先權等級 Τ、根據一個優先權控制信號來加以決定；以及號，一個相位計數器，其係被配置以產生該優先權控制信 =在不同的時間點’該優先權控制信號係將不同的寺級給予該些執行緒中之不同的執行緒。輯-路1申：專利乾圍第4項之微處理器，其中該選擇邏車耳电路係進一步被配置以只有在從先前發生的選擇一個第執行緒開始而經過—段最小的時間之後，才會選擇該第 41 200529071 一執行緒。 7·如申請專利範圍第 ^ 執行緒係包含一個具有一# 、之微處理器，其中該複數個組以及一個具有一第_ Ζ第—執行緒類型的第一執行緒群且其中該選擇.羅ρ + 仃緒類型的第二執行緒群組，並 &擇邏輯電路係進一+ 卫該複數個執行緒的每個執行配置以至少部分是根據該複數個執行緒中 _ 、個別的執行緒類型來選擇、、爷τ之一個執行緒。 8 ·如申請專利範圍 ^ 輯電路係進—牛、員之微處理器，其中該選擇邏乂孤配置以谐裡之第-候選的執行緒以及—摘具有該第-執行緒類型二候選的執行块、具有邊第二執行緒類型之第 -候選的執二第並且Γ據其個別的執行緒類型來在該第被配置以儲==…之微處理器，其更包括-個器標，該資料係包含=緒:㈣執行緒之資料的暫存 1〇.如申請專利範圍第二產生的結果資料。路係包含：圍弟9項之微處理器’其中該分派電一個記分板電路，1係檔，並且其係被㈣ “令緩衝器與暫存器產生m 對於在該指令緩衝器中的每個指令根據該指令的_個/ 則"的備妥信號至少部分是被致能或不被致^源運算元是否存在於該暫存器禮中而一個排程哭φ4 該排程器電路=配^仙接至該記分板與指令緩衝器， ' -置以選擇在該指令緩衝器中的一個指 42 200529071 令，該指令的備在> ^ 11唬被致能以作与令，亚且該排裎哭恭μ 為下—個要發出的指令緩衝器；以及對應的許可信號至該指一個發出哭帝狄 ^ 口口包路’其係福接至今批八^ 指令緩衝器係進省丸令緩衝器，其令該夕被配置以回應於兮由該排程器電路所選的：…可信號來傳送藉路係被配置以從該暫存器播收：：出、器電路，該發出器電元並且傳送該所選人、:"所$的指令之來源運算 lh如中請專利及來源運算元至該執行模组。乾圍弟〗〇項之料卢器電路係進—步被、之铽處理益，其中該排程存在該指令緩衝器中的一段時二：據母個指令已經儲的指令。、、又來選擇下一個要發出 12·如申請專利範器電路係包含：弟10項之微處理器’其中該排程一個優先權編碼器，且緒中之一個執行緒，今執1'块/ 4擇該複數個執行個t備妥m A 仃緒#、在該指令緩衝器中具有- 八備文化唬被致能的指入 n y 7 ，其中該些執行緒中之一個執灯、、者係根據該些執行緒〃、之間的一個優先權等級而被選出， μ 4先權等級係根據一個個仏先柘控制信號來加以決定；以及號一個相位計數器，其係被配置以產生該優先權控制信 ’、中在不同的犄間點，該優先權控制信號係將不同的優先權等級給予該些執行緒中之不同的執行緒。 43 200529071 ㈣13.如巾請專利範㈣1G項之微處理器，A中今複數個執行緒係包含一個具有-中4復數群組以及—個具有、’ '聖的苐-執行緒並且其中該排丄弟：執仃緒類型的第二執行緒群組，該複數個執行緒的每進步被配置以至少部分是根據 η 母個執仃緒之個別的執行緒類型來潠摆該複數個執行緒R —純行緒。 ^末遥擇。。予14.如中請專利範圍第1()項之微處理器，其中該皮配置以至少部分是根據與該些執:緒: 執仃、、者之個別的指令相關之運算之間的先杻來選擇該複數個執行緒中之一個執行緒。 " 模组1 係5·勺如人申請專利範圍第1〇項之微處理器，其中該執行被配置Γ3複數個執行管線，並且該排程器電路係進一步哪一個：至少部分是根據-項對於該複數個執行管線中的線不是忙碌的判斷來選擇該複數個執行緒中理之二種用於在一個被配置用於複數個執行緒的平行處理之1 處理器中處理指令之方法，該方法係包括：二该複數個執行緒中之一個第一執行緒提取一個第一指令緩衝器t，該指令緩衝器係被配置以儲存 X歿數個執订緒的每個執行緒之一個指令； :著從該複數個執行緒中之一個第二執行緒提取一個弟一耘令到該指令緩衝器中；妥二 =:指令與第二指令中之一或多個指令是否備 44 200529071 發出該第一指令與第—如執行弟—私令中之一個備妥的指令用於其中在該第二指令是備妥一供/ & 文以執仃，而該第一指令並未備女以執行的情形中，％笛一 …D亥弟-指令係在發出該第-指令之則被發出。 1 7 ·如申請專利範圍第1 6 ,^ 員之方法，其更包括動作有： 4出的動作之後’判斷該被發出的指令是針對該乐—執行緒或是該第二執行緒而被提取的；以及八，一個第三指令到該指令緩衝器中，其中該 ▽是在對應於該被發出的指令一曰 7之執仃緒中的下一個指令。 18·如申請專利範圍第u i匕人貝之方法，其中提取該第_ 才曰令的動作係包含動作有：弟從該複數個執行緒的每個計數器的值；執仃緒接收-個候選.的程式 =-個優先權等級給該複數個執、，者，其中該優先權等級在不同的時間點是不同的；以及執订 :該第-執行緒是其指令並未之取高優先權的執行緒之情讀-中擇該第一執行緒，攸忒複數個執行緒中選其中該第一指令係回應於取。 &擇该弟一執仃緒而被提 1 9.如申請專利範圍第1 8 在怂庄义&丄貝之方法，其更包括動作有：在攸先削發生選擇該第一執於_曰丨+ 矾仃、、者開始而經過的一段時間小、取小的時間之情形中，荦止撰摁》_ ^ 止、擇该弟一執行緒的動 45 200529071 作。 20·如申請專利範圍第i6項之行緒係包含一個具有_ ^ 一 : 在，其中該複數個執以及-個具有_第 /執仃相型的第-執行緒群組匀弟—執行緒類型的第-# / 該第-執行緒是該第—執行緒群组中緒群組，其中中提取該第—指令的動作係包含動作有執行緒，並且其從該複數個執行緒的每個執行緒計數器的值；個候4的程式指定一個優先權等級給該第一緒，其中該優先權耸你+ 仃、.者群組的母個執行〒及俊先私寻級在不同的時間點是不同的· 在該第-執行緒是該第一執行緒群組中之其扑儲存在該指令緩衝琴中署古 7、’未友衝裔中之取同優先權的執行緒之從該第一執行緒群組中選擇該第一執行緒； / ，從該第二執行緒群組中選擇一個至少部分是根據該第-執行緒與第三執執=者之：；執行緒類型來選擇該第一執行緒與第三執行緒中之—^的緒， ~執行其中該第一指令是在該選擇的動作導致選擇該第行緒的情形中被提取。 Λ乐—執作係包含動作有： ’的動判斷該第一指令的一個來源運算元是否為可 .如申請專利範圍第16項之方法，其中該判街以及利用的；判斷該第二指令的一個來源運算元是否為』刊用的 46 200529071 22.如申請專利範圍第16項之方法，复更勺括. 指定：個優先權等級給該複數個執行緒；;每誇— 緒，其中5亥優先推寻級在不同的時間點是不同的订其中在該第一指令與第二指令兩者’ 情形中，選擇該第一指令與第二指令中之―：妥二：的動作係包含判斷該第—執行緒與第二執行：：之緒擁有較高的優先權之動作。卩们執仃 23.如申請專利範圍第16項之方法緒係具有-個第-執行緒類型，而該第二執行：:：：行個第二執行緒類型，並且其中在該第—扑…、糸-有-者都備妥以祐勃—仏卜主曰々與苐二指令兩的指令之動作係包含？少部八曰^甘弟—指令之—備妥來在該第-指令盘第二二疋根據其個別的執行緒類型 ?日7舁弟一指令之間做選擇。 24. 一種繪圖處理系統，其係包括： -個包含複數個執行核心的繪圖處理器個-冑耦接至該繪圖處理器的繪圖記憶體，1中H 们執行核心的每個執行核心係包含: ,、中该硬數一個執行模組，J：伤祜献里、，& 執行緒之指令； a ” _〖執仃所有該複數個一個指令緩衝哭，甘個儲存位置传血含複數個儲存位置，每連; 與_數個執行緒中之—個別的執行緒相闕一個提取電路，i M 4 該指令緩衝器中之相關㈣^配置以至少部分是根據在之相闕達㈣存位置是否為可利用的，來 47 選擇該複數個執行緒中— 個執行緒中之該之—個執行緒，並且提取在該複數 X k的一個執杆姓 + + 到該指令緩衝器中· γ 、、’ 序列中的下一個指令及一個分派器中之哪個所儲存取出的指令中之一 -路’其係被配置以判斷在該指令緩衝的指令係備妥以執行，並且選擇該些讀個指令以被發出至該執行模組。

十一、圖式：如次頁

48