TW201439907A

TW201439907A - 轉譯程式函數以正確處理本地範圍變數的系統及方法和應用其之計算系統

Info

Publication number: TW201439907A
Application number: TW102140063A
Authority: TW
Inventors: Yuan Lin; Gautam Chakrabarti; Jaydeep Marathe; O-Kwan Kwon; Amit Sabne
Original assignee: Nvidia Corp
Priority date: 2012-11-05
Filing date: 2013-11-05
Publication date: 2014-10-16
Also published as: TW201439905A; CN103885751A; US20140130021A1; US9436475B2; TW201443639A; US20140129812A1; TWI488111B; CN103809936A; US9710275B2; US20140130052A1; CN103809964A; TWI510919B; US20140129783A1; US9747107B2; TWI494853B; CN103809963A; US9727338B2; TW201443783A; CN103809964B

Abstract

用以轉譯一程式之函數的系統及方法。在一具體實施例中，系統包含：(1)一本地範圍變數識別符，可操作以識別在函數之至少某些部份中所使用的本地範圍變數為執行緒共享本地範圍變數或執行緒私用本地範圍變數，以及(2)一函數轉譯器，關聯於本地範圍變數識別符且可操作以轉譯函數之至少某些部份，使得執行緒共享記憶體用以儲存執行緒共享本地範圍變數且執行緒私用記憶體用以儲存執行緒私用本地範圍變數。

Description

轉譯程式函數以正確處理本地範圍變數的系統及方法和應用其之計算系統

【相關申請案】

本申請案係主張美國專利臨時申請案案號61/722,661之優先權，其由Lin等人於2012年11月5日提出申請，標題為「使用一群組的執行緒執行循序碼(EXECUTING SEQUENTIAL CODE USING A GROUP OF THREADS)」，以及主張美國專利申請案案號13/724,202之優先權，其由Lin等人於2012年12月21日提出申請，標題為「轉譯程式函數以正確處理本地範圍變數的系統及方法和應用其之計算系統(SYSTEM AND METHOD FOR TRANSLATING PROGRAM FUNCTIONS FOR CORRECT HANDLING OF LOCAL-SCOPE VARIABLES AND COMPUTING SYSTEM INCORPORATING THE SAME)」，兩案皆與本申請案共同讓與且併入本文作為參考。

本發明一般係有關計算系統，特別是關於用以轉譯程式碼函數以正確處理本地範圍變數的系統及方法和應用其之計算系統。

如熟此技藝者所熟知，軟體程式利用變數，為此需分配儲存空間於記憶體中。儲存空間通常以堆疊的形式分配。

某些程式將其變數組織為層級以簡化其資料結構。舉例來說，某些變數(稱作本地範圍變數)可僅用於程式的一函數中(函數範圍)或一敘述區塊中(區塊範圍)。其他變數(稱作通用範圍變數)可由全部程式所使用。舉例來說，以下的表格1提出描述本地範圍變數之兩層級的偽碼：陣列a[]為函數範圍變數，而陣列b[]為區塊範圍變數。

為了理解表格1及本發明揭露內容的其餘部份，術語「foo」及「bar」為函數的任意名稱。因此，任何函數可代替「foo」或「bar」。

某些程式為平行程式，其能夠在平行處理器中平行地執行，例如圖形處理單元(GPU)。平行程式具有無法在執行緒中平行執行之程式碼的循序區域以及可以在執行緒中平行執行之程式碼的平行區域。在平行程式中，多個執行緒需要獲得對某些本地範圍變數(其由程式化模組根據所開發的程式而定義)的存取。OpenMP及OpenACC為用以開發平行程式之傳統程式化模組的兩個範例。以下的表格2及3提出分別描述OpenMP及OpenACC範例的偽碼。

一態樣提供一種用以轉譯一程式之函數的系統。在一具體實施例中，系統包含：(1)一本地範圍變數識別符，可操作以識別在函數之至少某些部份中所使用的本地範圍變數為執行緒共享本地範圍變數或執行緒私用本地範圍變數，以及(2)一函數轉譯器，關聯於本地範圍變數識別符且可操作以轉譯函數之至少某些部份，使得執行緒共享記憶體用以儲存執行緒共享本地範圍變數且執行緒私用記憶體用以儲存執行緒私用本地範圍變數

另一態樣提供一種用以轉譯一程式之函數的方法。在一具體實施例中，方法包含：(1)識別函數之至少某些部份為在程式的循序區域期間執行或在程式的平行區域期間執行，(2)識別在函數之至少某些部份中所使用的本地範圍變數為執行緒共享本地範圍變數或執行緒私用本地範圍變數，以及(3)分配執行緒私用記憶體用於在程式之平行區域期間執行之函數中所使用之執行緒私用本地範圍變數及執行緒共享本地範圍變數的儲存，以及分配執行緒共享記憶體用於在程式之循序區域期間執行之函數中所使用之執行緒共享本地範圍變數的儲存。

在另一具體實施例中，方法包含：(1)產生函數之至少某些部份之對應的共享複製及私用複製，以及(2)在程式之循序區域的執行過程中引用共享複製以代替對應函數以及在程式之平行區域的執行過程中引用私用複製以代替對應函數。

100‧‧‧計算系統

102‧‧‧執行緒區塊

104-1~104-J‧‧‧執行緒群組

106-1~106-K‧‧‧核心

108‧‧‧管線控制單元

110‧‧‧共享記憶體

112-1~112-J‧‧‧本地記憶體

114‧‧‧資料匯流排

116‧‧‧記憶體匯流排

118-J‧‧‧本地匯流排

200‧‧‧系統

202‧‧‧本地範圍變數識別符

204‧‧‧執行緒共享本地範圍變數識別符

206‧‧‧執行緒私用本地範圍變數識別符

208‧‧‧函數轉譯器

210‧‧‧程式

212‧‧‧函數

214‧‧‧循序區域

216‧‧‧平行區域

218‧‧‧程式核

220‧‧‧計算系統

222‧‧‧處理器核心

224‧‧‧執行緒私用記憶體

226‧‧‧執行緒共享記憶體

現在將參照以下描述並連同所附隨圖式，其中：圖1為能夠平行處理且可操作以包含或實現用以轉譯函數以正確處理本地範圍變數之系統及方法的一計算系統的方塊圖；圖2為用以轉譯函數以正確處理本地範圍變數之系統的一具體實施例的方塊圖；圖3為用以轉譯函數以正確處理本地範圍變數之方法的一具體實施例的流程圖；以及圖4為用以轉譯函數以正確處理本地範圍變數之方法的另一具體實施例的流程圖。

某些計算架構(包含以通用中央處理單元(CPUs)為中心者) 一般提供一記憶體結構，其係預設為由全部的給定程式所共享，使得程式中的所有區塊、及區塊中的所有函數具有對所有變數的存取。在此架構中分配儲存空間很簡單；其係分配在共享記憶體結構中。

然而，某些計算系統(如GPUs)使用階層型的記憶體架構，其中某些記憶體為執行緒私用(僅可由一給定的執行緒存取)，而其他記憶體為執行緒共享(可由在例如程式的一給定區塊或其整體中的多個執行緒存取)。

將理解到，在某些程式中所定義的本地範圍變數係專用於一執行緒中，而其他的則需在執行緒之間共享。然而，更將理解到，在許多程式化模型(例如OpenMP或OpenACC)中的程式並不區別執行緒私用及執行緒共享本地範圍變數。

一個保守但簡單的解決方法可能為針對所有的本地範圍變數而分配執行緒共享記憶體中的儲存空間。然而本文中將理解到，執行緒共享記憶體通常太小而無法包含所有的本地範圍變數。另一方法可能為針對所有的本地範圍變數而分配執行緒私用記憶體中的儲存空間。然而，本地範圍變數接著將無法以簡單的方式在執行緒之間共享。相反地，本地範圍變數將必須在執行緒私用記憶體之間複製以實現共享，其係冗長且將減慢程式執行。另一方法可能為重寫程式本體，以將所呼叫函數併入對其呼叫的函數中，此技術稱作插入(inlining)。然而，這將模糊化程式的結構，使其難以理解及修改。另一方法可能為手動地分析程式，手動地指定本地範圍變數儲存於執行緒私用或執行緒共享記憶體中。然而，此方法費力且容易出錯。

本文中將理解到，需要自動機制用以轉譯程式的函數，以識別需要執行緒共享記憶體的本地範圍變數(執行緒共享本地範圍變數)。一旦識別，可接著正確地處理本地範圍變數。更特別地，執行緒共享記憶體中的儲存空間可針對執行緒共享本地範圍變數而分配，而執行緒本地記憶體中的儲存空間可針對不需要共享記憶體的本地範圍變數(執行緒私用本地範圍變數)而分配。

因此，本文介紹用以轉譯函數以正確處理在執行緒共享及私用前後文中之本地範圍變數之系統及方法的各種具體實施例。一般而言，系統及方法具體實施例識別本地範圍變數為執行緒共享本地範圍變數或執行緒私用本地範圍變數，並基於其識別及使用其之函數所被執行的區域(循序區域或平行區域)而分配執行緒私用或執行緒共享記憶體用以儲存本地範圍變數。

在更詳細地描述新穎系統及方法之各種具體實施例之前，現在將描述代表性的計算系統。

圖1為可實施本發明一或多個態樣於其中之計算系統100的方塊圖。計算系統100包含多個執行緒處理器或核心106，其組織為執行緒群組104或「執行包(warps)」。計算系統100包含J個執行緒群組104-1到104-J，其每一者具有K個核心106-1到106-K。在某些具體實施例中，執行緒群組104-1到104-J可更組織為一或多個執行緒區塊102。在一特定具體實施例中，每一執行緒群組104具有三十二個核心106。其他具體實施例可包含少至四個核心於一執行緒群組中以及多達數萬個。某些具體實施例將核心106組織為單一執行緒群組104，而其他具體實施例可具有數百甚至數千個執行緒群組104。計算系統100的其他具體實施例可僅將核心106組織為執行緒群組104，省略了執行緒區塊組織等級。

計算系統100更包含管線控制單元108、共享記憶體110、及關聯於執行緒群組104-1到104-J的本地記憶體112-1到112-J之陣列。管線控制單元108經由資料匯流排114將任務分配給不同的執行緒群組104-1到104-J。管線控制單元108產生、管理、排程、執行、並提供一機制以同步化執行緒群組104-1到104-J。

一執行緒群組內的核心106係彼此平行的執行。執行緒群組104-1到104-J經由記憶體匯流排116與共享記憶體110通訊。執行緒群組104-1到104-J經由本地匯流排118-1到118-J分別與本地記憶體112-1到112-J通訊。舉例來說，執行緒群組104-J藉由經本地匯流排118-J通訊而利用本地記憶體112-J。計算系統100的某些具體實施例分配共享記憶體110的共享部份給每一執行緒區塊102並允許執行緒區塊102內的所有執行緒群組104對共享記憶體110的共享部份進行存取。某些具體實施例包含僅使用本地記憶體112的執行緒群組104。許多其他具體實施例包含平衡本地記憶體112及共享記憶體110之使用的執行緒群組104。

圖1的具體實施例包含主執行緒群組104-1。剩餘執行緒群組104-2到104-J的每一者係視為「背景工作(worker)」執行緒群組。主執行緒群組104-1包含許多核心，其中一者為主核心106-1，其基本上執行主執行緒。在計算系統100上執行的程式係建構為一序列的核(kernels)。一般而言，每一核在下一核開始前完成執行。在某些具體實施例中，計算系統100可平行地執行多個核，其取決於核的尺寸。每一核係組織為在要核心106上執行之執行緒的一階層。

已描述了代表性的計算系統，現在將更詳細地描述用以轉譯函數以正確處理在執行緒共享及私用前後文中之本地範圍變數的新穎系統及方法的各種具體實施例。

圖2為用以轉譯函數以正確處理本地範圍變數之系統200的一具體實施例的方塊圖。系統200包含本地範圍變數識別符202及函數轉譯器208。程式210的函數212由本地範圍變數識別符202及函數轉譯器208所處理以產生可在計算系統220上執行的程式核218。計算系統220包含處理器核心222、執行緒私用記憶體224及執行緒共享記憶體226。所有處理器核心222可獲得對執行緒共享記憶體226的存取。每一處理器核心222可獲得其對執行緒私用記憶體224之相關區塊的存取。

程式210可分配為循序區域214及平行區域216。程式210內的函數212可從循序區域214及平行區域216的任一者執行，且通常在程式210之序列中不同點從兩者執行。函數212使用有關函數212之一特定函數的通用範圍或本地範圍變數。特定函數內的本地範圍變數有執行緒共享及執行緒私用變數。執行緒共享本地範圍變數可由程式核218內的所有平行執行緒所存取且在計算系統220上執行。執行緒私用本地範圍變數僅可由將變數實例化的執行緒所存取。

本地範圍變數識別符202包含執行緒共享本地範圍變數識別符204及執行緒私用本地範圍變數識別符206。執行緒共享本地範圍變數識別符204藉由判定以下而在函數212的單一函數上操作：(1)單一函數是否含有平行結構，其中平行結構內的不同執行緒可具有對本地範圍變數的存取，或(2)單一函數內的本地範圍變數是否脫離至執行的其他執行緒(在脫離分析下)。若這些條件的任一者為真，本地範圍變數為一執行緒共享本地範圍變數。否則，執行緒私用本地範圍變數識別符206係識別本地範圍變數為執行緒私用本地範圍。

函數轉譯器208藉由在程式核218中產生有關應如何針對在單一函數中的每一本地範圍變數分配記憶體之指令而在函數212的單一函數上操作。針對執行緒共享本地範圍變數，分配執行緒共享記憶體226的區塊。針對執行緒私用本地範圍變數，分配執行緒私用記憶體224的區塊。當程式核218在計算系統220內的處理器核心222上執行時，即在執行時間，針對變數而分配記憶體的程序將根據由函數轉譯器208所產生的指令而開始。

本文實現用以轉譯一函數的兩種方法，使得本地範圍變數選擇性地分配在執行緒共享記憶體或執行緒私用記憶體。本文所實現的方法並不需要「插入(inlining)」所有函數呼叫或整體程式分析。本文所實現的方法為通用且支援個別的編譯與鏈接，其為建立大型模組軟體的基礎。

本文所述的兩個方法利用平行程式化模型(如OpenMP及OpenACC)的兩個特性。第一為不是所有本地範圍變數都需要被共享。本文所實現的方法承認此事實且識別必要的執行緒共享本地範圍變數。第二個特性為當一函數在程式的平行區域內被呼叫，執行緒無法獲得對其他執行緒之本地範圍變數的存取。本文所實現的方法係認定當函數內實例化在程式的平行區域內被呼叫，本地範圍變數不需被共享。

本文中所揭露之兩方法中的第一者的一特定具體實施例包含以下程序：

1.執行緒共享記憶體的區塊係針對一共享堆疊而預先分配。執行緒私用記憶體的區塊係針對關聯於每一執行緒的私用堆疊而預先分配。

2.函數內的執行緒共享本地範圍變數及執行緒私用本地範圍變數係識別如下：

a.若函數包含平行結構且平行結構內的不同執行緒可根據程式化模型而具有對本地範圍變數的存取，則本地範圍變數係識別為一執行緒共享本地範圍變數。

b.若本地範圍變數脫離，則變數係識別為一執行緒共享本地範圍變數。

c.所有其他的本地範圍變數係識別為執行緒私用本地範圍變數。

3.函數foo()係複製為兩個額外的函數：共享複製foo_shared()及私用複製foo_private()。

a.在foo_shared()中，

i.在程序2中所識別的執行緒共享本地範圍變數係分配於執行緒共享記憶體中。在程序2中所識別的執行緒私用本地範圍變數係分配於執行緒私用記憶體中。

ii.若foo()含有對另一函數bar()的直接呼叫且bar()在平行結構內被呼叫，則對bar()的呼叫係轉譯為對在foo_shared()中之bar_private()的呼叫。若bar()在平行結構外被呼叫，則對bar()的呼叫係轉譯為對在foo_shared()中之bar_shared()的呼叫。

iii.若foo()不含有任何平行區域，則對另一函數bar()的直接呼叫係轉譯為對在foo_shared()中之bar_shared()的呼叫。

b.在foo_private()中，

i.所有本地範圍變數(不論其在程序2中被識別為什麼)係分配於執行緒私用記憶體中。

ii.對另一函數bar()的呼叫係轉譯為對其私用複製bar_private()的呼叫，因為私用複製將僅從平行區域內被呼叫。

4.原始函數foo()係轉譯為以下形式：

其中「in_parallel_flag」為以下程序6中所描述的每一執行緒旗標。當定址函數，將使用轉譯形式的位址。

5.在程序3及4之後，只有私用複製直接在任何平行區域內呼叫。只有共享複製直接在任何平行區域外呼叫。對來自程序4的轉譯版本做出間接呼叫。只有執行緒共享或可能的執行緒共享本地範圍變被放入執行緒共享記憶體中。

6.每一執行緒旗標係用以標示執行緒的狀態。旗標的數值為「真」或「假」。當執行緒進入平行區域，旗標設定為「真」。當執行緒離開平行區域，旗標設定為「假」。

圖3為用以轉譯函數以正確處理本地範圍變數之方法的一具體實施例的流程圖。方法開始於開始步驟310。在步驟320中，執行緒共享記憶體及執行緒私用記憶體係針對本地範圍變數而預先分配。在一具體實施例中，執行緒共享記憶體為區塊範圍記憶體。

在步驟330中，產生函數之至少某些部份的對應共享複製及私用複製。在步驟340中，在函數中所使用的本地範圍變數係識別為執行緒共享本地範圍變數或執行緒私用本地範圍變數。在步驟350中，針對共享複製之其中至少一者，分配執行緒共享記憶體用於執行緒共享本地範圍變數的儲存以及分配執行緒私用記憶體用於執行緒私用本地範圍變數的儲存。在步驟360中，針對私用複製之其中至少一者，分配執行緒私用記憶體用於所有本地範圍變數的儲存。在判斷步驟370中，判定程式的平行區域是否被執行。若是，在步驟380中，在執行過程中引用私用複製以代替對應的函數。若否，在步驟390中，引用共享複製以代替對應的函數。

在一具體實施例中，步驟380、390的引用係藉由以下而實現：(1)在共享複製的至少一者中，(1a)將在平行結構中所做出之函數的呼叫轉譯為函數之私用複製的呼叫，以及(1b)將在循序結構中所做出之函數的呼叫轉譯為函數之共享複製的呼叫，以及(2)在私用複製的至少一者中，將函數的呼叫轉譯為函數之私用複製的呼叫。在一相關的具體實施例中，步驟 380、390的引用係藉由使用在執行程式中之函數的至少某些部份的位址而實現。在另一相關的具體實施例中，步驟380、390的引用係藉由轉譯函數的至少某些部份以使引用被執行而實現。在一相關的具體實施例中，分配包含使用一旗標，其在循序區域的執行過程中具有第一狀態且在平行區域的執行過程中具有第二狀態。方法結束於結束步驟395。

本文中所揭露之兩方法中的第二者的一特定具體實施例包含以下程序：

3.在一函數foo()中，在程序2中所識別的所有執行緒私用本地範圍變數係分配於執行緒私用記憶體中。在程序2中所識別的執行緒共享本地範圍變數的每一者係基於函數是否在串行或平行前後文內被呼叫而有條件地分配。

4.每一執行緒旗標係用以標示執行緒的狀態。旗標的數值為「真」或「假」。當執行緒進入平行區域，旗標設定為「真」。當執行緒離開平行區域，旗標設定為「假」。

圖4為用以轉譯函數以正確處理本地範圍變數之方法的另一具體實施例的流程圖。方法開始於開始步驟410。在步驟420中，執行緒共享記憶體及執行緒私用記憶體係針對本地範圍變數的儲存而預先分配。在一具體實施例中，執行緒共享記憶體為區塊範圍記憶體。

在步驟430中，函數之至少某些部份係識別為在程式的循序區域期間執行或在程式的平行區域期間執行。在步驟440中，在函數之至少某些部份中所使用的本地範圍變數係識別為執行緒共享本地範圍變數或執行緒私用本地範圍變數。在一具體實施例中，識別本地範圍變數包含：若一函數包含一平行結構且多個執行緒可根據一程式化模型獲得對平行結構內之本地範圍變數的存取或本地範圍變數脫離函數時，識別一本地範圍變數為一執行緒共享本地範圍變數，且識別剩餘的本地範圍變數為執行緒私用本地範圍變數。

在步驟450中，執行緒私用記憶體係分配為用於在程式之平行區域期間執行之函數中所使用之執行緒私用本地範圍變數及執行緒共享本地範圍變數的儲存。在步驟460中，執行緒共享記憶體係分配為用於在程式之循序區域期間執行之函數中所使用之執行緒共享本地範圍變數的儲存。在一具體實施例中，轉譯函數的至少某些部份，以使分配被執行。在一相關的具體實施例中，分配包含使用一旗標，其在循序區域的執行過程中具有第一狀態且在平行區域的執行過程中具有第二狀態。方法結束於結束步驟470。

熟習本申請案相關技藝者將理解到，可對所述具體實施例做出其他及更多添加、刪減、替換或修改。