TWI423162B

TWI423162B - 在繪圖處理單元中處理資料的無死結管線化方法與處理器群組

Info

Publication number: TWI423162B
Application number: TW099110703A
Authority: TW
Inventors: Michael Toksvig; Erik Lindholm
Original assignee: Nvidia Corp
Priority date: 2009-04-08
Filing date: 2010-04-07
Publication date: 2014-01-11
Also published as: CN101859257B; KR20100112099A; US20100259536A1; CN101859257A; TW201044311A; JP2010244529A; KR101226817B1; US20140092114A1; JP5240588B2; US9928639B2; US8698823B2

Description

在繪圖處理單元中處理資料的無死結管線化方法與處理器群組

本發明具體實施例一般有關繪圖處理單元(GPU)上的指令處理。

隨著電腦系統的進展，繪圖處理單元(GPU)也越來越進步。例如，GPU包括多個執行單元，且為了確保GPU整體高效能，使執行單元維持忙碌成為越來越重要的工作。

GPU通常包括紋理單元，以實行紋理化操作。紋理單元需要存取記憶體中儲存的紋理資料，以實行紋理操作。相對於GPU執行單元的速度，記憶體存取通常花費相對較長時間。對應地，在給定時間內核發若干紋理請求。在一些習用的GPU中，每個紋理請求指定一暫存器以獲得參數，因而相同的暫存器通常也用於紋理操作結果。

可惜的是，對於紋理管線可在運行中的所有紋理操作，暫存器檔案(register file)儲存器相當於大量的記憶體儲存器。儲存上的限制因而對可以核發的請求的數量造成限制，且因此對一次可處理的像素造成限制。一個解決方案是將紋理操作結果寫回含有紋理請求的儲存位置。然而，此解決方案仍然留有分配給紋理請求的儲存結果空間，也就是說，在任何給定時間內可在管線中處理的像素的數量受到限制，而無法使執行單元保持忙碌，因而影響GPU整體效能。

另一個解決方案是讓每個執行緒具有多個未完成的紋理請求，因為這表示需要較少執行緒以涵蓋紋理等待時間。可惜的是，每個執行緒也需要更多暫存器，才能應付同時儲存中間結果。這增加了所需要的暫存器檔案大小。有利的是每個執行緒能夠核發多個紋理指令，同時不需要對應地較大暫存器檔案。以此方式，可使用所省下的可用暫存器檔案大小(如，未分配給紋理操作)，核發更多執行緒。

因此，所需要的是一種能夠針對繪圖執行緒處理，減少儲存器需求及防止死結的系統。本發明具體實施例提供執行單元管線結果的儲存器(如，紋理管線結果緩衝器)。具體實施例另外提供藉由限制每個執行緒的請求的數量，及確保除非有資源可用於完成一組請求中的所有請求，否則不核發或開始該組請求，而防止死結。本發明具體實施例因此提供無死結的增加效能。

更明確地說，本發明具體實施例允許增加使用每個具有多個未完成紋理請求的執行緒，而不需要較大的暫存器檔案儲存器，因為紋理操作結果係儲存在管線緩衝器中。紋理指令分成兩個部分，一個是對紋理單元的核發紋理請求，另一個是從紋理單元讀回結果的操作。此結果被放進管線緩衝器單元，而非暫存器檔案。為避免死結，除非緩衝器可容納所有請求，否則執行緒可不核發其請求。這可避免因為請求資料不在緩衝器中，而無法滿足請求的情況。為了避免因為所有結果槽被佔用而拖延管線，必須讀取緩衝結果。藉由需要較少暫存器檔案儲存器，可同時處理更多執行緒，藉此增加GPU的平行處理，因而增加GPU的效能。

在一項具體實施例中，本發明為一種電腦實施方法，用於防止繪圖處理單元(GPU)的死結。該方法包括決定屬於管線部分(如，紋理管線的一部分或紋理單元的緩衝器)的可用管線緩衝器資源數量，及基於第一執行緒的一或多個紋理請求，決定所請求的資源數量。如果請求的資源的數量少於緩衝器中可用資源的數量，則將對應於一或多個請求的資源分配於緩衝器中，否則不分配。該方法另外包括調整(如，遞減)可用資源的數量及核發一或多個請求。在由其他操作讀出緩衝器的內容後，接著調整(如，遞增)資源的數量。

在另一具體實施例中，本發明係實施為一種用於繪圖處理的系統，其中紋理操作被分成紋理請求操作與紋理讀回操作，且另外其中將紋理操作的結果儲存於與紋理管線相關聯的緩衝器而非暫存器檔案中。該系統包括選擇要執行之執行緒的排程模組，以及決定執行緒之多個紋理請求的請求追蹤模組。每個紋理請求可對應於執行管線的資源(如，紋理管線槽或紋理單元的緩衝器槽)。該系統另外包括決定執行管線之可用緩衝器資源數量的資源監控模組，以及基於可用資源(如，紋理單元中的槽)的數量，決定是否執行請求的執行模組，以防止死結及分配執行管線的資源。

以此方式，本發明具體實施例一般促進增加利用，因而也促進增加繪圖處理單元(GPU)的效能。具體實施例提供紋理管線儲存結果的儲存器(如，緩衝器)，藉此釋放暫存器檔案中的儲存空間。暫存器檔案中增加的可用空間有利地允許執行單元同時間處理更多執行緒。本發明具體實施例另外藉由控制基於可用緩衝器資源可核發的紋理請求的數量，致使永遠達到執行緒中讀取結果的點，以防止死結。本發明具體實施例因此提供無死結的效能提昇。

在另一具體實施例中，本發明係實施為一種防止系統中計算死結的方法，該系統儲存紋理結果於管線緩衝器而非暫存器檔案中，且該系統將紋理指令分成兩個操作，包括紋理請求與紋理讀回操作。該方法包括存取執行單元設定檔(如，紋理單元的執行單元設定檔)。執行單元設定檔可包括每個時脈週期所處理的單元數量以及管線資源數量。管線資源數量可包括管線深度與緩衝器大小。該方法另外包括決定每執行緒與若干執行緒可無死結而執行的請求數量，且在就那麼多的執行緒上同時間操作。

接著將詳細參考本發明的較佳具體實施例，其範例以附圖解說。儘管本發明將結合較佳具體實施例加以說明，但應明白，這些具體實施例並非用來限制本發明於其中。相反地，本發明旨在涵蓋替代方案、修改、及等效物，這些均包括在如隨附申請專利範圍所界定的本發明精神及範疇中。再者，在以下本發明具體實施例的詳細說明中，提出許多特定細節以徹底瞭解本發明。然而，一般技術者應明白，在沒有這些特定細節的情況下，亦可實施本發明。在其他實例中，為避免不必要地模糊本發明具體實施例的各方面，未詳細描述已知的方法、過程、組件、及電路。

[標記與命名]：

以下「實施方式」的某些部分就電腦記憶體內資料位元操作的過程、步驟、邏輯區塊、處理、及其他符號表示法提出討論。這些說明及表示法係熟習資料處理技術者所使用的方法，以最有效的方式將其運作本質傳達給其他熟習本技術者。過程、電腦執行步驟、邏輯區塊、程序等在此且大致上被設想為造成所要結果之步驟或指令的自相一致序列。此等步驟是需要物理量之物理操控的步驟。這些物理量通常(但並非一定)採取的形式是可在電腦系統中加以儲存、傳送、結合、比較、及以其他方式操控的電信號或磁信號。已證實有時很方便的是(主要為了一般的使用)將這些信號稱為位元、值、元件、符號、字元、條件項、數字、或其類似物。

然而，應明白，所有這些用語及相似用語係為了和相應物理量相關聯，且只是應用於這些物理量的便利標記。除非另外明確說明為明顯不同於以下論述，應明白，在本發明所有方面，利用諸如「處理」或「存取」或「執行」或「儲存」或「呈現」等用語的論述，是指積體電路(如，圖1的計算系統100)或類似電子計算裝置的動作與程序，積體電路或類似電子計算裝置操控電腦系統暫存器與記憶體中表示為物理(電子)量的資料，及將其轉換為電腦系統記憶體或暫存器或其他此類資訊儲存器、傳送或顯示裝置中同樣表示為物理量的其他資料。

[電腦系統平台]：

圖1顯示根據本發明之一項具體實施例的電腦系統100。電腦系統100描繪根據本發明具體實施例之基本電腦系統的組件，該電腦系統提供特定基於硬體與基於軟體之功能性的執行平台。一般而言，電腦系統100包含至少一個CPU 101、系統記憶體115、及至少一個繪圖處理器單元(GPU) 110。CPU 101可經由橋接組件/記憶體控制器(未顯示)耦合至系統記憶體115，或可經由CPU 101內部的記憶體控制器(未顯示)直接耦合至系統記憶體115。GPU 110耦合至顯示器112。一或多個附加GPU可視情況耦合至系統100，以進一步提高其計算能力。GPU 110耦合至CPU 101與系統記憶體115。GPU 110可實施為離散組件、設計經由連接器(如，AGP插槽、PCI-Express插槽等)耦合至電腦系統100的離散繪圖卡、離散積體電路晶粒(如，直接安裝在主機板上)，或可實施為包括於電腦系統晶片組組件(未顯示)之積體電路晶粒內的整合GPU。另外，可包括用於GPU 110的本機繪圖記憶體114，以進行高頻寬繪圖資料儲存。

CPU 101與GPU 110亦可整合成單一積體電路晶粒，且CPU與GPU可共用各種資源，諸如指令邏輯、緩衝器、功能單元等，或可針對繪圖與通用操作提供個別資源。GPU可另外整合至核心邏輯組件中。因此，此處說明為與GPU 110相關聯的任何或所有電路及/或功能性亦可實施於適當裝配的CPU 101中，並可由CPU 101實行。另外，儘管此處具體實施例涉及GPU，但注意，所說明的電路及/或功能性亦可實施為其他類型的處理器(如，通用或其他專用共處理器)或實施於CPU內。

系統100可實施為例如桌上型電腦系統或伺服器電腦系統，具有耦合至專用繪圖呈現GPU 110的強大通用CPU 101。在此一具體實施例中，可包括添加週邊匯流排、專業音訊/視訊組件、IO裝置等的組件。同樣地，系統100可實施為手持裝置(如，行動電話等)、直接廣播衛星(DBS)/地面機上盒，或機上視訊遊戲機裝置，諸如：Xbox，可購自華盛頓州Redmond的微軟公司，或PlayStation3，可購自日本東京的索尼電腦娛樂股份有限公司。系統100亦可實施為「系統晶片」，其中計算裝置的電子零件(如，組件101、115、110、114等)全部含在單一積體電路晶粒內。範例包括具有顯示器的手持器具、汽車導航系統、手提娛樂系統等。

本發明具體實施例一般促進GPU之增加的繪圖處理利用，因而也促進繪圖處理單元(GPU)之增加的效能。具體實施例提供儲存紋理結果的紋理管線緩衝器，藉此釋放往常使用之暫存器檔案的儲存空間。暫存器檔案中增加的可用空間允許執行單元同時間處理更多執行緒。本發明具體實施例另外藉由控制可核發給管線之多個紋理請求的數量，致使永遠達到且執行每個執行緒中讀回結果的點，以防止管線死結。本發明具體實施例因此提供無死結之增加的處理器效能。

圖2顯示根據本發明一項具體實施例之GPU之示範性執行單元的方塊圖。執行單元200包括紋理單元202、數學單元220、排程器230、及暫存器檔案240。應明白，GPU(如，GPU 110)可具有多個實質類似於執行單元200的執行單元，以平行執行多個執行緒。例如，GPU可具有8個處理器群組，每個群組有2個執行單元。具體實施例因此支援單一指令多重資料(SIMD)執行(如，一個指令平行用於16個像素)。在一項具體實施例中，此處說明的執行緒為影像或視訊訊框的個別像素，如熟此技藝者所知。

紋理單元202包括紋理管線204與管線緩衝器210。紋理管線204具有N個槽或管線位置206-208。紋理管線204將結果寫入管線緩衝器210。紋理操作通常需要移至記憶體，而這將花費相對較長的時間(如，300個時脈週期)。紋理管線204因此可為300個槽或元件的長度，以因應此延遲。例如，紋理管線204的每個槽可操作以每時脈週期接收四個像素，以藉由分析相鄰像素，及決定紋理中的每個像素相距多遠，而計算精細度(Level of details、LOD)計算。為了使紋理管線204以足夠的工作負載保持忙碌，300個槽的深度(slots of depth)且每槽4個像素的紋理單元需要1200個像素或工作執行緒。其他執行緒工作可繼續進行，同時由紋理管線204實行紋理操作。對於背對背(back to back)核發多個紋理操作的執行緒，需要較少執行緒使管線保持全滿。例如，對於背對背(back to back)核發兩個紋理操作的執行緒，僅需要一半數量的執行緒使管線保持全滿。

數學單元220包括數學管線222，具有槽224-226。在執行緒等待紋理請求完成的同時，數學請求可核發至數學單元220。在一項具體實施例中，數學單元220從暫存器檔案240獲得來源資料，並將結果目的地資料傳回暫存器檔案240。例如，如果數學單元220每時脈可處理16個像素並花費5個時脈傳回結果，則只要指令彼此獨立且每個執行緒一次具有一個未完成指令，80個執行緒將使數學單元保持忙碌。如另一範例，其中每個執行緒能夠核發一個數學指令，每個週期將需要16個執行緒使管線保持忙碌。參考以上範例，1280個執行緒將使紋理單元202與數學單元220保持忙碌。如果1280個執行緒不可獲得，將使執行單元沒有任何工作，導致無處理活動的氣泡(bubble)或時期。應明白，除非管線已經負載，否則不希望執行單元出現氣泡。

所希望的是透過管線處理更多執行緒，以提高效能。因此，使用具有多個紋理操作的執行緒，將允許同時處理多個增加的紋理執行緒。本發明具體實施例提供管線緩衝器210作為提供紋理儲存的有利構件，而不需要對應地較大暫存器檔案，習用技術中通常需要較大暫存器檔案，以容納同時處理之增加數量的執行緒。

暫存器檔案240儲存執行緒資訊。每個工作單元具有與工作單元相關聯的狀態資訊，以處理執行緒。例如，對於像素而言，狀態資訊可包括X、Y、及紋理座標。暫存器檔案240的大小可基於紋理單元與數學單元的寬度(如，每時脈的像素)與深度(如，時脈週期)。也就是說，暫存器的數量控制了未完成狀態中，可駐存於執行單元200的像素的數量或執行緒。在一項具體實施例中，使用紋理管線204與管線緩衝器210作為紋理資料的儲存器，可減少暫存器檔案240處理相同數量執行緒的必要資源，或者，相同大小的暫存器檔案可同時處理增加數量的執行緒，藉此提高效能而勝於習用的單元。

在一項具體實施例中，排程器230將紋理操作的座標寫入紋理單元202。在暫存器檔案240中，不需要儲存位置對應於寫入紋理單元202的座標。在一項具體實施例中，紋理單元202可具有緩衝器(未顯示)，以在進入紋理管線204前儲存紋理操作請求。在進入紋理管線204前儲存紋理操作的緩衝器因此允許在紋理管線204前，在緩衝器中產生紋理座標，藉此釋放原本用來緩衝紋理座標的暫存器。

管線緩衝器210可用以儲存從紋理管線204輸出的結果。在管線因每個槽被未讀取結果佔用而拖延之前，執行緒自紋理管線讀取紋理操作結果。管線緩衝器210包括N個槽或儲存位置212-214。在必須從管線緩衝器210讀取結果前，管線緩衝器210允許特定的時間量，以避免拖延管線。應明白，在核發請求至紋理管線204時，且在由紋理管線204處理紋理請求的同時，管線緩衝器210允許核發紋理請求至紋理管線204，而不需要在暫存器檔案240中分配空間給結果。因此，只要在管線緩衝器210中的結果成為可用，即可動態分配從管線緩衝器210讀取結果的儲存器。因為紋理操作不使用暫存器檔案，根據本發明具體實施例，每個紋理操作又分成兩個操作：對紋理單元的請求(紋理請求)與從紋理單元讀回結果的操作。

在一項具體實施例中，將紋理請求核發至紋理管線204的槽後，指派管線緩衝器210的槽儲存紋理請求的結果。管線緩衝器210可以屬於各種儲存器類型，包括但不限於：先進先出(FIFO)緩衝器。應明白，可以不按順序的方式，從管線緩衝器210讀取結果。例如，對於具有16個槽的緩衝器而言，每第16個核發的請求將被指派相同槽。另外，對於具有16個槽的緩衝器而言，來自紋理管線的每個結果要在16時脈週期內讀取，以免因所有緩衝器槽不可用(如，具有未讀取結果)而拖延管線。緩衝器槽可基於指令進入紋理管線的週期。

一些紋理化操作可能需要比其他紋理化操作實質上更多的儲存器。例如，紋理化操作可能需要取樣16個樣本的紋理並平均結果。在習用的紋理管線下，每個位置需要16個樣本才能平均。習用紋理管線之暫存器檔案中增加的儲存器因而限制了給定時間內能夠處理的執行緒數量。本發明具體實施例可核發16個請求至紋理管線，然後一次讀出一個結果，再將結果添加至結果中，因此大大減少或消除在暫存器檔案240中需要16個樣本的空間。另應明白，在紋理管線緩衝器210中接收結果後，決定何時需要將資料儲存於暫存器檔案或計算資料時，將需要編譯器。

使用管線緩衝器210允許使用較小暫存器檔案，因為可在儲存位置需用於結果之前核發請求。例如，可核發16個請求，然後將對應於暫存器檔案中座標的空間再分配給額外的執行緒。參考其中平均紋理結果的以上範例，其結果不需要分配空間，因為這些結果可在單一暫存器中組合。管線緩衝器210因此促進在給定時間內處理更多執行緒，藉此使執行單元保持忙碌。更明確地說，管線緩衝器210允許有效使用紋理管線204作為儲存器，因為暫存器檔案240儲存寫入紋理管線204之座標或其他資料的部分現在可用於儲存其他執行緒的資料。應明白，管線緩衝器210另外藉由允許在給定時間內處理更多執行緒而防止氣泡。

使用管線緩衝器210允許模擬來源與目的地指令。在一項具體實施例中，排程器230的狀態機將紋理請求寫入紋理單元202，並從管線緩衝器210讀取結果，而不使用暫存器檔案240作為結果的儲存器。例如，在暫存器R0-R3的資料寫入紋理管線204，並從管線緩衝器210讀取結果且將其儲存於暫存器R0-R3時，可執行儲存於暫存器R0-R3之座標之紋理操作的指令(如，“text R0-R3”)。應明白，來源與目的地指令可以變成兩個指令：1)將紋理指令寫入紋理管線，及2)從紋理單元讀取結果至緩衝器。

圖3顯示根據本發明一項具體實施例之允許多個紋理操作之示範性執行緒的圖式。示範性執行緒300包括請求A 304、請求B 306、請求C 308、請求D 310、MADD 312、讀取結果A 314、讀取結果B 316、讀取結果C 318、及讀取結果D 320。應明白，MADD指令(如，MADD 312)不相依於紋理結果，因而不必等待紋理結果。在一項具體實施例中，執行緒300係由GPU執行單元(如，執行單元200)執行。應明白，執行緒300可包括更多請求、MADD、及讀取結果。請求304-310、MADD 312、及讀取結果314-320可已由編譯器配置過。

程式計數器302於請求A 304開始執行緒300的執行。在一項具體實施例中，決定請求的數量，在此例中，有四個紋理請求304-310。檢查可用資源(如，包括管線槽與緩衝器儲存位置的紋理單元槽)的數量，查看是否有四個紋理單元資源可用。如果有四個紋理資源可用，則將資源分配計數器遞增四，四對應於核發至管線204的請求304-310。分配四個紋理資源給執行緒300確保在完成紋理操作時，保證結果314-320為可讀取(如，從管線緩衝器210讀取)，以防止死結。在一項具體實施例中，檢查資源及分配資源屬於原子性操作。

如果沒有四個紋理資源可用，可使執行緒300進入睡眠，直到有四個紋理資源可用為止。如果有足夠的資源可以執行另一執行緒，則執行該執行緒。隨著紋理操作在紋理管線中向下移動，及從管線緩衝器讀取紋理處理結果，紋理資源變成可用。根據各具體實施例，僅允許執行緒將所有紋理請求放到管線上或什麼都不放。如此可防止死結，因為執行緒不能再核發任何其紋理提取，直到其到達執行緒可從管線緩衝器讀取紋理處理結果的點為止。當結果緩衝器已滿時，管線將停止，直到某內容被讀取為止。如果預期讀取紋理結果的執行緒正等著核發其他紋理請求，即發生死結。此外，如果這些執行緒採取通過著色器(shader)程式的路徑，無法讀取紋理結果，即發生死結。

在一項具體實施例中，隨著程式計數器302移至請求306-308上，資源分配計數器可不針對請求306-308的核發進行變更。在核發每個讀取請求314-320後，資源分配計數器可遞減一，一對應於管線緩衝器(如，管線緩衝器210)隨著實行每個讀取請求314-320變成清空的槽。

應明白，可以各種方式實行資源追蹤。例如，將資源分配計數器初始化為紋理單元中閒置或可用資源的數量，及每次核發一組請求時，以請求的數量減少計數器。隨著從紋理單元讀取每個結果，遞增計數器(如，隨著讀取每個結果314-320，遞增計數器)。這代表了動態分配結構。

應明白，亦可使用靜態分配以防止死結。在此具體實施例中，已知系統能掌握(hold)多少處(spot)。例如，如果在紋理管線中有400個資源可用，且每個執行緒需要四個紋理操作，則排程器230在任何時間允許僅100個並行的執行緒，以防止死結。在此例中，不需要使用計數器。

另外，應明白，可由編譯器配置或排序執行緒指令，使執行最佳化。例如，當紋理請求不相依於數學請求時，可將紋理請求移至數學請求(如，MADD 312)之前，致使在處理紋理請求的同時，完成數學請求。此重新配置指令允許執行緒佔用較少空間，因指令係同時間執行，且紋理請求資訊儲存於紋理單元(如，紋理單元202)中。編譯器可另外配置指令以維持預期的工作負載比例(如，四個數學請求對於每個紋理請求)。應明白，工作負載比例可以是設計硬體單元的因數，並按著該比例使工作平衡可確保使工作負載中的氣泡降到最低。

圖4解說本發明各種具體實施例使用的範例組件。雖然在系統400中揭露特定組件，但應明白，此類組件只是範例。也就是說，本發明具體實施例也很適於具有各種其他組件或系統400中所提組件的變化。應明白，系統400中的組件可用所提組件以外的其他組件操作，且並非需要使用系統400的所有組件才能達成系統400的目標。

圖4顯示根據本發明之一項具體實施例之示範性系統的方塊圖。可以硬體或軟體實施系統400。在一項具體實施例中，系統400促進處理繪圖指令，以在顯示器上呈現影像或視訊。系統400連通及/或控制為GPU之一部分的執行單元410。系統400包括排程模組402、請求追蹤模組404、資源監控模組406、及執行模組408。

排程模組402選擇要執行的執行緒。排程模組402可選擇要執行的執行緒及排程執行緒之一部分的執行(如，一或多個紋理請求與一或多個數學請求)。排程模組402可選擇要執行的下一個執行緒或其一部分。

請求追蹤模組404決定紋理請求的數量。在一項具體實施例中，請求可核發至紋理單元412或數學單元414的執行管線。更明確地說，請求的數量可以是在讀取紋理結果之前，對紋理管線之紋理請求的數量。在一項具體實施例中，紋理單元412的紋理管線包括緩衝器，用於儲存紋理單元412之紋理管線的結果。如此處說明的，請求可已由編譯器配置過。

資源監控模組406決定執行管線(如，紋理管線與管線緩衝器)的可用資源的數量。在一項具體實施例中，資源監控模組406決定紋理單元412之執行管線的可用資源的數量。在另一具體實施例中，資源監控模組406基於對應於可用(如，未分配)資源數量的計數器，決定可用資源的數量，如，動態架構。在又另一具體實施例中，資源監控模組406藉由檢查對應於可在給定時間內進展之執行緒最大數量的數量，決定可用資源的數量，如，靜態架構。

執行模組408基於可用資源的數量，決定是否執行請求，及分配執行管線的資源。如果適當資源不可用於儲存請求的資料，則不核發請求或請求群組。在一項具體實施例中，執行模組408決定是否執行請求及分配管線資源如原子性操作，藉此避免在指派相同資源給二或多個執行緒時的平行執行緒執行問題。

執行模組408決定是否執行請求及分配資源，可防止死結。執行模組408確保執行緒部分(具有請求)永遠可進行至讀出結果的部分。換言之，管線內容僅在讀出後才清空。如果執行緒因為管線已滿而永遠無法到達讀出其內容的點，即發生死結。本發明具體實施例允許在核發一組請求之前，完全分配資源，或不核發任何請求。此舉防止死結，因為在檢查程式是否能夠進行至從紋理單元讀取結果的部分之前，不核發所有紋理請求。一般而言，對於具有X個紋理請求的執行緒，在核發X個紋理請求之前，保留或分配紋理單元中的X個槽。

例如，在紋理管線具有300個槽且緩衝器具有16個槽或儲存位置時，可進行316個紋理請求而沒有任何管線暫停。對每個請求保留群組中的槽，直到讀取結果為止。例如，如果執行緒包括四個紋理請求，則可連同對應於這些請求之所分配紋理單元的四個槽，核發這四個紋理請求(只要有四個槽可用)。因此，只要有足夠的資源確保執行緒將到達從紋理單元412讀取結果的點，每個執行緒均可核發請求。

應明白，一旦針對該執行緒分配紋理單元資源，即可利用排程模組402核發紋理請求，因為分配資源給該執行緒可確保請求被執行。由於紋理請求完成所花費的時間，可利用排程模組402使執行緒進入睡眠，直到可從紋理單元讀取結果為止，或直到完成其他非紋理操作為止。例如，等待紋理結果的執行緒亦可以有核發至數學單元(如，數學單元414)的數學請求。

參考圖5-6，流程圖500與600解說本發明各種具體實施例所使用的範例功能。雖然在流程圖500與600中揭露特定功能區塊(「區塊」)，但此類步驟只是範例。也就是說，各具體實施例也適於實行各種其他區塊或流程圖500與600中所提區塊的變化。應明白，可按不同於所提的順序實行流程圖500與600中的區塊，及流程圖500與600中所有區塊並非都要實行。

圖5顯示示範性電腦控制程序防止繪圖處理單元(GPU)之功能管線死結的流程圖，GPU使用管線緩衝器儲存各種執行緒的執行結果。流程圖500的方法因不需要使用暫存器檔案儲存器處理執行緒的紋理操作，進一步促進有效使用GPU的處理資源。應明白，流程圖500的程序可以是防止死結的動態程序。

在區塊502，決定管線緩衝器及/或管線的可用資源的數量。如此處說明的，可用資源可包含功能管線(如，紋理管線)之管線緩衝器的一部分、或紋理管線的緩衝器部分。如此處說明的，可基於追蹤可用資源的數量的計數器，決定可用資源的數量。

在區塊504，基於第一執行緒的一或多個紋理請求，決定請求的資源的數量。對於以群組形成的紋理請求，所請求的數量是群組中的所有請求。

在區塊506，因應請求的資源的數量少於可用資源的數量，將對應於一或多個請求的資源分配給管線。如此處說明的，決定可用資源的數量及分配對應於請求的資源的數量的資源可以是原子性操作。

在區塊508，調整可用資源的數量以應付核發的請求。如此處說明的，此調整可包括遞增追蹤可用資源的數量。應明白，可基於追蹤資源的數量與執行單元之資源相比的方式，使資源的數量遞增或遞減。

在區塊510，核發一或多個請求。如此處說明的，請求可以是紋理請求。以此方式，核發此組紋理請求致使在執行對應讀取相同執行緒時，保證資料在緩衝器中。

在區塊512，調整可用資源的數量。如此處說明的，此調整可包括遞減可用資源的數量。如果還有具有請求的額外執行緒，可實行區塊516，及存取第二執行緒。在實行區塊516後，可針對第二執行緒實行區塊502。如果一或多個請求結果可用，則可實行區塊514。

在區塊514，因應一或多個請求，讀取一或多個結果。如此處說明的，從紋理單元的管線緩衝器讀取結果。接著可實行區塊516，及選擇第二執行緒。

圖6根據本發明之一項具體實施例，顯示示範性電腦控制程序防止系統中死結的流程圖，其中將功能管線的結果資料寫入管線緩衝器而非暫存器檔案。在一項具體實施例中，可由編譯器實行流程圖600的方法。應明白，流程圖600的程序可以是防止死結的靜態程序。

在區塊602，存取GPU的執行單元設定檔。執行單元可包括紋理單元與數學單元。在一項具體實施例中，執行單元設定檔包括每時脈週期處理之單元(如，像素)的數量與管線資源數量。管線資源數量可包括管線深度與緩衝器大小。在一項具體實施例中，緩衝器大小對應於紋理管線結果緩衝器的大小。

在區塊604，決定每執行緒與若干執行緒可無死結而執行之紋理請求的數量。如此處說明的，每執行緒與若干執行緒的請求的數量可基於需要在讀取紋理請求結果前核發之紋理請求的數量。例如，如果紋理管線與管線緩衝器具有400個槽，且在需要讀取前每執行緒有四個紋理請求，在此系統中，可限制並行執行緒的數量為100個，以防止死結。在一項具體實施例中，執行緒數量係基於影像塊，致使空間塊的所有執行緒在處理下一塊之前完成。例如，一個塊的若干執行緒可一起排程，以利用駐存於處理器中的多塊。應明白，這可利用任何快取記憶體局部性。塊因此被處理以完成紋理請求與紋理傳回序列，不會因為缺少資源而發生紋理管線拖延的情形。

在區塊606，基於每執行緒可執行而無死結的請求的數量，重新配置執行緒指令。如此處說明的，編譯器重新配置指令以確保在執行緒讀取結果之前，核發限定數量的請求。

已為了解說及說明而提出本發明具體實施例的以上描述。以上描述的目的不在詳盡窮舉或限制本發明於所揭示的精確形式，並可按照以上教示進行許多修改及變化。具體實施例的選擇與說明係為了對本發明的原理及實際應用提出最好的解說，藉此讓熟習本技術者以適於所想特定用途的各種修改，充分利用本發明及各種具體實施例。預期本發明範疇係由本文隨附申請專利範圍及其等效物所定義。

100．．．電腦系統

101．．．CPU

110．．．GPU

112．．．顯示器

114．．．本機繪圖記憶體

115．．．系統記憶體

200、410．．．執行單元

202、412．．．紋理單元

204．．．紋理管線

206-208、212-214、224-226．．．槽

210．．．管線緩衝器

220、414．．．數學單元

222．．．數學管線

230．．．排程器

240．．．暫存器檔案

300．．．執行緒

302．．．程式計數器

304-310．．．請求

312．．．MADD

314-320．．．讀取結果

400．．．系統

402．．．排程模組

404．．．請求追蹤模組

406．．．資源監控模組

408．．．執行模組

本發明藉由舉例而非限制，以附圖的各個圖式進行解說，圖中相似參考數字代表相似元件。

圖1顯示根據本發明之一項具體實施例的示範性電腦系統。

圖2顯示根據本發明之一項具體實施例之示範性執行單元的方塊圖。

圖3顯示根據本發明之一項具體實施例之示範性執行緒的圖式。

圖4顯示根據本發明之一項具體實施例之示範性系統的方塊圖。

圖5顯示防止繪圖處理單元(GPU)之死結之示範性電腦控制程序的流程圖。

圖6顯示根據本發明之一項具體實施例防止死結之示範性電腦控制程序的流程圖。

Claims

一種在一繪圖處理單元中處理資料的方法，該方法包含：維持一管線緩衝器之空的記憶體資源的一計數，該管線緩衝器耦合以從該繪圖處理單元的一執行單元接收結果；決定一執行緒之該執行單元的多個請求(a number of requests)，其中該多個請求包含多個請求操作，在一讀回操作出現在該執行緒中之前，該多個請求操作出現在該執行緒中；假如該管線緩衝器有足夠空的記憶體資源以容納該多個請求的全部，則核發該多個請求至該執行單元，否則不核發該多個請求之任一者至該執行單元；及該執行單元在其執行後，將所核發請求的結果寫入該管線緩衝器。
如申請專利範圍第1項所述之方法，其中該維持該管線緩衝器之空的記憶體資源之該計數包含：因應該核發該多個請求至該執行單元，減少該管線緩衝器之該等空的記憶體資源之該計數。
如申請專利範圍第2項所述之方法，另外包含：該執行緒從對應於核發請求的該管線緩衝器執行讀回操作至該執行單元，及其中該維持該管線緩衝器之空的記憶體資源之該計數另外包含：因應該執行緒執行該讀回操作，增加該管線緩衝器之該等空的記憶體資源之該計數。
如申請專利範圍第1項所述之方法，其中該執行單元係該繪圖處理單元內之一紋理單元，及其中該紋理單元的每個紋理操作包含：該紋理單元之一紋理請求操作及從該管線緩衝器之一紋理讀回操作。
如申請專利範圍第4項所述之方法，其中該核發及該不核發防止該紋理單元的死結，其係藉由核發僅在該管線緩衝器中已分配結果空間的這些分組的紋理請求操作，其中分組的紋理請求操作係一執行緒內所有未核發的連續紋理請求操作，而該執行緒內該所有未核發的連續紋理請求操作係在該執行緒之一第一未核發紋理讀回操作之前。
如申請專利範圍第1項所述之方法，進一步包含：該執行緒核發一數學運算至該繪圖處理器的一數學功能單元；及該數學功能單元從一暫存器檔案的來源暫存器獲得該數學運算的來源運算元，及將該數學運算執行的結果傳回該暫存器檔案的目的地暫存器。
如申請專利範圍第6項所述之方法，其中該執行單元係一紋理單元，及其中該暫存器檔案不接收執行該紋理單元的結果。
一種在一繪圖處理單元中處理資料的方法，該方法包含：決定一管線緩衝器之一大小，該管線緩衝器耦合以從該繪圖處理單元的一執行單元接收結果；基於每個執行緒內多個請求操作(a number of request operations)，及基於該管線緩衝器之該大小，決定可允許與該執行單元同時間操作的多個執行緒(a number of thread)；允許不超過與該執行單元同時間操作的該多個執行緒，以防止其死結；該多個執行緒核發請求操作至該執行單元；及該執行單元在其執行後，將該等請求操作的結果寫入該管線緩衝器。
如申請專利範圍第8項所述之方法，其中該決定多個執行緒包含：將該管線緩衝器之該大小除以每個執行緒中的該多個請求操作的數量。
如申請專利範圍第8項所述之方法，另外包含：該多個執行緒從對應於核發之該等請求操作的該管線緩衝器執行讀回操作至該執行單元。
如申請專利範圍第8項所述之方法，其中該執行單元係該繪圖處理單元內之一紋理單元，及其中該紋理單元的每個紋理操作包含一紋理請求操作及從該管線緩衝器之一紋理讀回操作。
如申請專利範圍第11項所述之方法，其中藉由保證該多個執行緒中所有紋理讀回操作將具有一執行機會，該允許不超過與該執行單元同時間操作的該多個執行緒，以防止死結。
如申請專利範圍第8項所述之方法，進一步包含：該多個執行緒核發數學運算至該繪圖處理器的一數學功能單元；及該數學功能單元從一暫存器檔案的來源暫存器獲得該等數學運算的來源運算元，及將該等數學運算執行的結果傳回該暫存器檔案的目的地暫存器。
如申請專利範圍第13項所述之方法，其中該功能單元係一紋理單元，及其中該暫存器檔案不接收執行該紋理單元的結果。
一種一繪圖處理單元的處理器群組，該處理器群組包含複數個處理器，其中至少一處理器包含：一暫存器檔案，儲存有關在該處理器群組內可同時間操作之複數個執行緒的資料；一紋理單元，處理該複數個執行緒的紋理操作，其中每個紋理操作包含一請求紋理操作與一對應的紋理讀回操作；一管線緩衝器，耦合至該紋理單元，以從該紋理單元接收及儲存結果；一用於該紋理單元內防止死結的電路，該用於防止死結的電路更包含：一用於決定一執行緒之該紋理單元的多個紋理請求操作(a number of texture request operations)的電路，其中該多個紋理請求操作包含在一紋理讀回操作出現在該執行緒之前，出現在該執行緒內之多個紋理請求操作；及一用於如果該管線緩衝器與該紋理單元有足夠的空記憶體資源以容納該多個紋理請求之全部，則核發該多個請求至該紋理單元，否則不核發該多個紋理請求之任一者至該紋理單元的電路。
如申請專利範圍第15項所述之處理器群組，該處理器另外包含一數學功能單元，處理該複數個執行緒的數學運算，其中該數學功能單元耦合以從該暫存器檔案接收來源運算元，且亦耦合以儲存結果至該暫存器檔案。
如申請專利範圍第15項所述之處理器群組，該處理器另外包含一計數器，維持該管線緩衝器與該紋理單元之空的記憶體資源之一計數。
如申請專利範圍第15項所述之處理器群組，其中該用於該紋理單元內防止死結的電路，其係藉由允許不超過與該紋理單元同時間操作之多個預定執行緒，其中該多個預定執行緒的數量係基於每個執行緒中的一紋理請求操作數量，及基於該管線緩衝器與該紋理單元之一大小。
如申請專利範圍第18項所述之處理器群組，其中藉由將該管線緩衝器之該大小與該紋理單元之該大小除以每個執行緒中該多個紋理請求操作之數量，計算該預定執行緒的數量。