TW201443783A

TW201443783A - 在單一指令多執行緒處理器上以函數呼叫編譯或執行時間執行一分叉－會合資料平行程式的系統及方法

Info

Publication number: TW201443783A
Application number: TW102140064A
Authority: TW
Inventors: Yuan Lin; Gautam Chakrabarti; Jaydeep Marathe; O-Kwan Kwon; Amit Sabne
Original assignee: Nvidia Corp
Priority date: 2012-11-05
Filing date: 2013-11-05
Publication date: 2014-11-16
Also published as: US9710275B2; US20140129812A1; US9436475B2; TWI510919B; US20140130021A1; TW201443639A; CN103885751A; CN103809963A; US20140129783A1; US9727338B2; US9747107B2; TWI494853B; US20140130052A1; TW201439907A; CN103809964B; TW201439905A; CN103809964A; TWI488111B; CN103809936A

Abstract

以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的系統及方法。在一具體實施例中，系統包含：(1)一分割器，可操作以將群組分割為一主群組及至少一背景工作群組，以及(2)一執行緒指示器，關聯於分割器且可操作以從主群組僅指定一個執行緒供執行並指定在至少一背景工作群組中的所有執行緒供執行。

Description

單一指令多執行緒處理器上以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的系統及方法

【相關申請案】

本申請案係主張美國專利臨時申請案案號61/722,661之優先權，其由Lin等人於2012年11月5日提出申請，標題為「使用一群組的執行緒執行循序碼(EXECUTING SEQUENTIAL CODE USING A GROUP OF THREADS)」，以及主張美國專利申請案案號13/724,359之優先權，其由Lin等人於2012年12月21日提出申請，標題為「在單一指令多執行緒處理器上以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的系統及方法(SYSTEM AND METHOD FOR COMPILING OR RUNTIME EXECUTING A FORK-JOIN DATA PARALLEL PROGRAM WITH FUNCTION CALLS ON A SINGLE-INSTRUCTION-MULTIPLE-THREAD PROCESSOR)」，兩案皆與本申請案共同讓與且併入本文作為參考。

本發明一般係有關平行處理器，特別是關於用以在單一指令多執行緒(SIMT)處理器上以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的系統及方法。

如熟此技藝者所知，應用程式或程式可並行地執行以增加其效能。資料平行應用程式同時地對不同資料完成相同的程序。任務平行應用程式同時地對相同的資料完成不同的程序。靜態平行應用程式為具有在其執行前可被判定之平行度的應用程式。相反地，動態平行應用程式可達成的平行化僅可在其執行時被判定。不論應用程式為資料或任務平行、或是靜態或動態平行，其可在通常為用於圖形程式之情況的管線中被執行。

SIMT處理器特別擅長執行資料平行應用程式。SIMT處理器中的控制單元產生執行的執行緒群組並將其排程供執行，在其過程中，群組中的所有執行緒同時地執行相同的指令。在一特定的處理器中，每一群組或「執行包(warp)」具有32個執行緒，對應SIMT處理器中的32個執行管線或通道。

分叉-會合(fork-join)資料平行程式開始於單一執行緒主程式。程式在此階段係在循序狀態或區域中。在主程式之執行過程中的某一點，主(main或「master」)執行緒遇到一序列的平行狀態或區域。每一平行區域具有獨立的資料組且可由多個執行緒同時地執行。當平行區域開始且在平行區域期間沒有改變，判定在每一平行區域中之同時任務的數量。當遇到一平行區域，主執行緒將一組執行緒(稱作背景工作執行緒)分叉以平行地執行平行區域。接著程式進入平行區域。若一背景工作執行緒遇到新的平行區域，新的平行區域將被序列化，即平行區域將由遇到的背景工作執行緒本身所執行。主執行緒等候直到平行區域結束。一旦離開平行區域，背景工作執行緒與主執行緒會合，其接著恢復主程式的執行，在此時程式進入循序區域。

以下的表格1提出分叉-會合資料平行程式的範例。

為了理解表格1及本發明揭露內容的其餘部份，術語「foo」及「bar」為函數的任意名稱。因此，任何函數可代替「foo」或「bar」。

分叉-會合資料平行模型通常用於平行程式化中。舉例來說，OpenMP標準採用此模型作為其基本執行緒執行模型。OpenACC標準使用此模型用於在稱作「集體(gang)」之一群組中的背景工作執行緒。

一態樣提供一種以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的系統。在一具體實施例中，系統包含：(1)一分割器，可操作以將執行包(warps)分割為一主執行包及至少一背景工作執行包，以及(2)一執行緒指示器，關聯於分割器且可操作以從主執行包僅指定一個執行緒供執行並指定在至少一背景工作執行包中的所有執行緒供執行。

另一態樣提供一種以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式的方法。在一具體實施例中，方法包含：(1)將執行包分割為一主執行包及至少一背景工作執行包，以及(2)從主執行包僅指定一個執行緒供執行並指定在至少一背景工作執行包中的所有執行緒供執行。

100‧‧‧SIMT處理器

102‧‧‧執行緒區塊

104-1~104-J‧‧‧執行緒群組

106‧‧‧核心

106-1~106-K‧‧‧核心

108‧‧‧管線控制單元

110‧‧‧共享記憶體

112-1~112-J‧‧‧本地記憶體

114‧‧‧資料匯流排

116‧‧‧記憶體匯流排

118-1~118-J‧‧‧本地匯流排

200‧‧‧系統

202‧‧‧分割器

204‧‧‧執行緒指示器

206‧‧‧執行緒排程器

208‧‧‧函數處理器

210‧‧‧程式

212‧‧‧入口函數

214‧‧‧非入口函數

216‧‧‧外部函數

218‧‧‧裝置執行時間程式庫

現在將參照以下描述並連同所附隨圖式，其中：圖1為可操作以包含或實現以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式之系統或方法的SIMT處理器的方塊圖；圖2為以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式之系統具體實施例的方塊圖；以及圖3為以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式之方法具體實施例的流程圖。

在一SIMT處理器中，執行的多個執行緒係劃分為群組。在群組中的所有執行緒在相同時間執行相同指令。在來自加州聖塔克拉拉之Nvidia公司的市售圖形處理單元(GPUs)中(其為SIMT處理器的一種類型)，群組係稱作「執行包(warps)」，且其以區塊為單位執行。

SIMT處理器的管線控制單元產生、管理、排程、執行及提供一機制以同步化群組。Nvidia GPUs提供bar.sync指令以同步化群組。Nvidia GPUs也支援「發散」條件分支由一群組的執行；群組的某些執行緒需採用分支(因為分支條件判定評估為「真」)，且其他執行緒需落到下一指令(因為分支條件判定評估為「假」)。管線控制單元追蹤群組中的有效執行緒。其首先執行其中一路徑(採用的分支或未採用的分支)並接著執行另一路徑；在每一路徑致能適當的執行緒。

本文中將理解到，在一GPU執行緒區塊內的所有執行緒開始於相同的程式位址，管線控制單元將從軟體機制中獲益以將執行緒劃分並排程為主執行緒及背景工作執行緒，使得其可在分叉-會合模型中執行。

更將理解到，軟體機制的某些具體實施例應按群組來管理並同步化執行緒，因為管線控制單元係按群組來管理執行緒。

更將理解到，由於主程式在分叉-會合模型中為單一線程執行，軟體機制的某些具體實施例應達成循序區域語意而不引入副作用。引起副作用之指令的範例為使用共享資源者，例如共享記憶體讀取或寫入或可能引起共享異常處理程序(例如分割)的任何程式碼操作。

更將理解到，軟體機制的某些具體實施例應支援可在循序區域內及在平行區域內呼叫的函數。此外，這類函數本身可包含平行結構。更將理解到，軟體機制的某些具體實施例應支援可分叉-會合平行區域的函數呼叫。

更將理解到，軟體機制的某些具體實施例應支援外部函數，即未由相同編譯器編譯為程式的函數。舉例來說，現存GPU數學程式庫中的數學函數、以及像是malloc、free及print的系統函數。在某些具體實施例中，循序區域中的主執行緒及平行區域中的背景工作執行緒兩者皆應能夠呼叫一外部函數。

因此，本文描述在一SIMT處理器(如GPU)上以函數呼叫編譯或執行時間執行分叉-會合資料平行程式之系統及方法的各種具體實施例。

在描述系統及方法的特定具體實施例之前，將描述可操作以含有或實現以函數呼叫編譯或執行時間執行分叉-會合資料平行程式的系統或方法的SIMT處理器。

圖1為SIMT處理器100的方塊圖。SIMT處理器100包含多個執行緒處理器或核心106，其組織為執行緒群組104或「執行包(warps)」。SIMT處理器100包含J個執行緒群組104-1到104-J，其每一者具有K個核心106-1到106-K。在某些具體實施例中，執行緒群組104-1到104-J可更組織為一或多個執行緒區塊102。某些具體實施例的每一執行緒群組104有三十二個核心106。其他具體實施例可包含少至四個核心於一執行緒群組中以及多達數萬個。某些具體實施例將核心106組織為單一執行緒群組104，而其他具體實施例可具有數百甚至數千個執行緒群組104。SIMT處理器100的其他具體實施例可僅將核心106組織為執行緒群組104，省略了執行緒區塊組織等級。

SIMT處理器100更包含管線控制單元108、區塊共享記憶體110、及關聯於執行緒群組104-1到104-J的本地記憶體112-1到112-J之陣列。管線控制單元108經由資料匯流排114將任務分配給不同的執行緒群組104-1到104-J。一執行緒群組106-j內的核心106係彼此平行的執行。執行緒群組104-1到104-J經由記憶體匯流排116與區塊共享記憶體110通訊。執行緒群組104-1到104-J經由本地匯流排118-1到118-J分別與本地記憶體112-1到112-J通訊。舉例來說，執行緒群組104-J藉由經本地匯流排118-J通訊而利用本地記憶體112-J。SIMT處理器100的某些具體實施例分配區塊共享記憶體110的共享部份給每一執行緒區塊102並允許執行緒區塊102內的所有執行緒群組104對區塊共享記憶體110的共享部份進行存取。某些具體實施例包含僅使用本地記憶體112的執行緒群組104。許多其他具體實施例包含平衡本地記憶體112及區塊共享記憶體110之使用的執行緒群組104。

圖1的具體實施例包含主執行緒群組104-1。剩餘執行緒群組104-2到104-J的每一者係視為「背景工作(worker)」執行緒群組。主執行緒群組104-1包含許多核心，其中一者為主核心106-1，其基本上執行主執行緒。在SIMT處理器100上執行的程式係建構為一序列的核(kernels)。一般而言，每一核在下一核開始前完成執行。在某些具體實施例中，SIMT處理器 100可平行地執行多個核，其取決於核的尺寸。每一核係組織為在要核心106上執行之執行緒的一階層。

已經描述了可包含或實現本文所介紹之系統或方法於其中的SIMT處理器，將描述系統及方法的各種具體實施例。

本文所介紹之系統的一具體實施例包含一編譯器及一裝置執行時間程式庫。裝置執行時間程式庫實現了執行緒及群組管理功能。編譯器將分叉-會合資料平行程式轉譯為主執行緒程式及一組概括函數，其每一對應至一平行結構。轉譯的程式碼呼叫在裝置執行時間程式庫中的函數以進行執行緒及群組管理。

以下的表格2描述一範例程式以描述編譯器轉譯及裝置執行時間實施。

表格2之main()程式的流程開始於單一主執行緒。主執行緒呼叫函數foo()，其具有此編譯器可見的本體且由此編譯器所編譯。主執行緒接著呼叫函數ext()，其為具有此編譯器不可見之本體的外在或外部函數。對外部函數的呼叫係依現況轉譯，沒有由編譯器做任何特別的處理。主執行緒接著遇到第一平行區域。背景工作執行緒將執行平行區域，而主執行緒等待其完成。在平行區域內，每一背景工作執行緒呼叫函數foo()及bar()。函數bar()包含另一平行區域；然而bar()已經在平行區域內部。因為bar()已經在平行區域內部，所以在bar()內部的平行區域將由每一背景工作執行緒依序執行。

在第一平行區域後，主執行緒遇到第二平行區域。在第二平行區域內，每一背景工作執行緒呼叫外在的外部函數ext()。在第二平行區域後，主執行緒呼叫函數bar()。在bar()內，主執行緒遇到第三平行區域，其將再次由背景工作執行緒所執行。

函數main()已知為入口函數，因為其為程式開始處。函數如foo()及bar()為非入口函數。

針對一入口函數，編譯器首先做出一複製的複本，其命名為main_core()。複製的複本接著處理為一非入口函數，如下述。針對main()函數，編譯器產生如以下表格3所示的程式碼，其中groupID()傳回含有執行敘述之一執行緒之執行緒群組的ID。threadID()傳回執行緒的ID。Init()、signal_done()及scheduler()為在裝置執行時間程式庫中的函數。

當一GPU執行緒區塊開始，區塊內的所有執行緒執行main()；然而，其採取不同路徑。執行緒0為主執行緒且執行init()、main_core()及signal_done()。群組0內的其他執行緒直接到main()函數的終點並在那裡等候。剩餘群組中的執行緒執行scheduler()。

針對一非入口函數，如foo()、bar()及main_core()，編譯器轉譯程式碼如同無平行結構存在。若非入口函數含有一平行結構，則針對每一平行結構，編譯器產生含有平行結構之本體的一函數(一概括函數)，並接著產生檢查執行的執行緒是否為主執行緒的條件分支。在假分支中，編譯器插入執行迴圈的程式碼。在真分支中，編譯器插入呼叫到裝置執行時間程式庫以分配任務、喚醒背景工作執行緒、並執行一阻障。當非入口函數在平行區域之外被呼叫，條件為真。當非入口函數在平行區域內被呼叫，條件為假，在此情況中平行迴圈係由執行的執行緒依序地執行。

舉例來說，函數bar()的轉譯程式碼係顯示於以下的表格4中。

Signal_task()及barrier()為裝置執行時間程式庫中的函數。bar_par_frunc()為對應原始函數bar()中之平行結構的概括函數。

在此具體實施例中，裝置執行時間程式庫包含以下等函數：init()、scheduler()、signal_task()、signal_done()、及barrier()。程式庫亦執行以下函數供內部使用：signal()、wait()、及fetch_task().

所有背景工作執行緒執行scheduler()函數。背景工作執行緒經歷休眠-喚醒-執行循環，直到被指示離開。

布林變數「exit_flag」係放入區塊共享記憶體中且可由執行緒區塊內的所有執行緒所存取。其係由主執行緒使用以對背景工作執行緒傳達其是否應全部退出執行。「exit_flag」在init()函數中係設定為假，且在signal_done()函數中係設定為真。兩個函數係由主執行緒呼叫。

區塊共享記憶體的另一部份係用以通訊當前任務。當前任務係由在signal_task()函數中的主執行緒所設定，並由在fetch_task()函數中的背景工作執行緒所提取。區塊共享記憶體包含到對應平行結構之概括函數的指標。

因為平行區域在執行緒區塊內依序執行，所以任何時候都只有一個任務為有效。若平行區域可非同步地執行，一般來說需要更複雜的資料結構(如堆疊、佇列或樹狀結構)以儲存有效任務。

Barrier()、signal()及wait()函數係使用一硬體阻障實施。

圖2為以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式210之系統200的一具體實施例的方塊圖。程式210包含入口函數212、非入口函數214及外部函數216。系統200包含分割器202、執行緒指示器204、執行緒排程器206、函數處理器208、裝置執行時間程式庫218及圖1的SIMT處理器100。

SIMT處理器100包含圖1的管線控制單元108、資料匯流排114、本地匯流排118-1及118-1及共享記憶體110。在圖2的具體實施例中，SIMT處理器100係描述為具有包含兩個執行緒群組的單一執行緒區塊：主執行緒群組104-1及背景工作執行緒群組104-2。執行緒群組104-1及104-2之每一者包含執行緒106。

分割器202指定執行緒群組104-1為主執行緒群組並指定剩餘的執行緒群組為背景工作執行緒群組。在圖2的具體實施例中，描述單一背景工作執行緒群組104-2。在其他具體實施例中，可使用許多背景工作執行緒群組。執行緒指示器204係指定主執行緒群組104-1的主執行緒106-1。在主執行緒群組104-1中的所有其他執行緒係有效地閒置。執行緒指示器204也指定背景工作執行緒群組104-2中的每一執行緒106為背景工作執行緒。

執行緒排程器206轉譯程式210，使得管線控制單元108適當地控制主執行緒106-1及背景工作執行緒群組104-2中的各個背景工作執行緒的執行。執行緒排程器206轉譯程式210，使得當主執行緒執行開始時，去能程式離開旗標。執行緒排程器206排程主執行緒106-1以執行直到到達一平行區域或程式210的終點。當到達程式210的平行區域，執行緒排程器206設定一平行任務且背景工作執行緒群組104-2中的背景工作執行緒開始執行。執行緒排程器206也針對每一個背景工作執行緒設定一阻障，使得當進入阻障時，主執行緒106-1執行將恢復。當到達程式210的終點，程式離開旗標係致能，使得所有背景工作執行緒停止執行。

函數處理器208在程式210的函數上操作。處理入口函數212包含產生入口函數的一複製複本，且接著處理為一非入口函數。原始入口函數係處理使得主執行緒106-1除了其他呼叫之外將執行複製複本，且背景工作執行緒將執行休眠、喚醒、提取及執行由執行緒排程器206所設定之平行任務的循環。

函數處理器208以兩種方式轉譯非入口函數214。若無平行結構存在於非入口函數中，則函數係僅依現況處理。當平行結構存在時，則產生含有平行結構之本體的一概括函數。函數處理器208接著產生一分支條件，其將循序地執行平行結構或使用裝置執行時間程式庫218以分配任務、喚醒背景工作執行緒並執行一阻障，如前述。喚醒及休眠功能係藉由使用裝置執行時間程式庫218的硬體阻障函數而實現。在阻障的執行緒並未被排程供硬體執行，因此其不會浪費執行循環。在主執行緒群組104-1內，只有主執行緒106-1參與在阻障中。之所以如此是因為硬體阻障係基於群組。若群組內有任何執行緒位於阻障，則該群組係視為位於阻障。

類似於處理不具平行結構的非入口函數，外部函數216係由函數處理器208依現況處理。

分叉-會合資料平行程式係分割為一主程式及一組平行任務。主程式為將由主執行緒所執行的程式。平行任務對應由背景工作執行緒所執行的平行區域。主程式包含排程點，其中主執行緒將分配平行任務、喚醒背景工作執行緒、並等待背景工作執行緒完成。

在專用主群組中的專用主執行緒將執行程式的循序區域。

另外，當群組中的所有執行緒在執行程式碼時，可在循序區域中模仿單一執行緒行為。然而，模仿方式具有效能及工程複雜度的限制，使其較不實用。必要的預測及同步化將造成執行負載。此外，可從循序區域及平行區域兩者呼叫的所有函數需以不同的方式複製及編譯。

給定執行緒及群組分割，背景工作執行緒及主執行緒係假設以下的生命週期：背景工作執行緒的一具體實施例在一生命週期中經歷以下階段：1)執行緒區塊開始；2)休眠直到被主執行緒喚醒；3)若程式離開旗標設定為真則離開；4)提取及執行主執行緒所分配的任務；5)進入阻障；以及6)回到階段2。

主執行緒的一具體實施例在一生命週期中經歷以下階段：1)執行緒區塊開始；2)設定程式離開旗標為假；3)執行主程式直到到達平行區域或到達主程式的終點；4)在平行區域的起點；a.設定一平行任務，b.喚醒背景工作執行緒， c.進入一阻障，以及d.恢復主程式(階段3)；以及5)在主程式的終點：a.設定程式離開旗標為真，b.喚醒背景工作執行緒，以及c.離開。

在主群組中的其他執行緒基本上係在程式的終點等待，閒置。程式由主執行緒及背景工作執行緒交錯執行。這導致良好的指令快取覆蓋區，其比由主執行緒及背景工作執行緒兩者皆為有效且執行不同程式碼路徑的方法所產生之覆蓋區更佳。

圖3為以函數呼叫編譯或執行時間執行一分叉-會合資料平行程式之方法具體實施例的流程圖。方法開始於開始步驟310。在步驟320，在一執行緒區塊內的執行緒群組係分割為一主執行緒群組及至少一背景工作執行緒群組。在步驟330，主執行緒群組中的一執行緒係指定為主執行緒。主群組中的剩餘執行緒在整個執行過程中基本上是閒置的。同樣在步驟330，在至少一背景工作執行緒群組中的所有執行緒係指定為背景工作執行緒。方法結束於結束步驟340。

熟習本申請案相關技藝者將理解到，可對所述具體實施例做出其他及更多添加、刪減、替換或修改。