TWI518592B

TWI518592B - 在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器

Info

Publication number: TWI518592B
Application number: TW102146864A
Authority: TW
Inventors: 麥克辛拿奧姆; 夏拉揚榭路爾; 簡龍昇; 羅伯史特卓卡; 飛利浦凡登美史屈
Original assignee: 輝達公司
Priority date: 2013-01-09
Filing date: 2013-12-18
Publication date: 2016-01-21
Also published as: DE102013020608A1; US9170836B2; US20140196043A1; CN103914433B; CN103914433A; TW201443780A

Description

在平行處理器上將方矩陣重新分解為低與高三角形矩陣的系統與處理器

本案概略關於平行處理器(即具有至少兩個能夠合作來實施平行處理的處理器之電腦)，更特定而言，係關於一種在平行處理器上將方矩陣重新分解為低與高三角形矩陣的系統與方法。

假設平行處理器(例如圖形處理單元(GPU，Graphics processing unit)可被有效地程式化，其有可能非常善於處理數值演算法，特別是用於直接求解大型稀疏線性系統的演算法。

稀疏線性(sparse linear)系統為具有稀疏係數矩陣的線性方程式之系統。這些系統常用於計算機械力學、地球物理學、生物學、電路模擬，以及許多其它計算科學與工程學領域中的應用。

最常見用來求解一稀疏線性系統的一般性與直接的技術為分解其係數矩陣為一低三角形矩陣L與一高三角形矩陣U的乘積，此程序稱之為「分解」(factorization)。然後可使用習用的向前與向後取代技術來求解具有L與U三角形矩陣的線性系統，藉此得到該稀疏線性系統的解。

本發明一種態樣係提供一種用於在一平行處理器上重新分解一方輸入矩陣的系統。在一具體實施例中，該系統包括：(1)一矩陣產生器，用於藉由嵌入該輸入矩陣的一排列(permuted)型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸(pivoting)策略，以產生一中間矩陣，及(2)一關聯於該矩陣產生器的重新分解器，用於使用平行執行緒來將具有零填入(ILU0)的一未完成-LU分解應用到該中間矩陣。

本發明另一種態樣係提供一種用於在一平行處理器上重新分解一方輸入矩陣的方法。在一具體實施例中，該方法包括：(1)藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略，以產生一中間矩陣，及(2)使用平行執行緒來應用一ILU0在該中間矩陣。

本發明又另一種態樣提供一SIMD處理器。在一具體實施例中，該SIMD處理器包括：(1)通道(lanes)，用於處理平行執行緒，(2)一管線控制單元系統，用於控制在該等通道中的執行緒處理，及(3)一種用於利用該等通道與該管線控制單元來重新分解一方輸入矩陣的系統，其具有：(3a)一矩陣產生器，用於藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略，以產生一中間矩陣，及(3b)一關聯於該矩陣產生器的重新分解器，用於傳送平行執行緒到該管線控制單元，以將一ILU0應用到該中間矩陣。

100‧‧‧SIMD處理器

102‧‧‧執行緒方塊

104‧‧‧執行緒群組

104-1~104-J‧‧‧執行緒群組

106‧‧‧核心

106-1~106-K‧‧‧核心

108‧‧‧管線控制單元

110‧‧‧共用記憶體

112‧‧‧本地記憶體

112-1~112-J‧‧‧本地記憶體

114‧‧‧資料匯流排

116‧‧‧記憶體匯流排

118-1~118-J‧‧‧本地匯流排

210‧‧‧分解器

220‧‧‧矩陣產生器

230‧‧‧重新分解器

現在請參照配合該等附屬圖式所做的以下說明，其中：圖1為一SIMD處理器的方塊圖，其用於包含或實施一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統與方法；圖2為一種用於在一平行處理器上將一方矩陣重新分解(re-factoring)為低與高三角形矩陣的系統之一具體實施例的流程圖；及圖3為一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的方法之一具體實施例的方塊圖。

如前述，最常見用來求解一稀疏線性系統的一般性技術為分解其係數矩陣分別成為低與高三角形矩陣L與U的乘積。在此可瞭解到既有的技術無法良好地適用於利用到一平行處理器架構，例如GPU。

因此，此處介紹的是一種用於將一方矩陣重新分解為低與高三角形矩陣的系統與方法之多種具體實施例。概言之，該等多種具體實施例係用於加速求解一組一稀疏線性系統之應用，其型式如下：A_i x_i=f_i for i=1,…,k，其中係數矩陣，該等右側，與該等解。

一種系統與方法之某些具體實施例可應用當該分解期間所使用的(1)該等係數矩陣A_i之該稀疏性樣式，(2)該重新排序來最小化填入，及(3)該繞軸(pivoting)策略可橫跨所有該等線性系統皆相同。在此例中，針對每一個該等線性系統之所得到的低(L_i)與高(U_i)三角形因子的該稀疏性樣式亦保持相同。這些狀況經常在使用熟知的以積體電路為重點的模擬程式(SPICE，Simulation Program with Integrated Circuit Emphasis)的積體電路模擬中出現。

在某些這些具體實施例中，LU分解僅需要在第一次時執行 (對於i=1)。然後，(對於i=2,...,k)僅需要執行LU重新分解。因為應用該LU分解到L_i與U_i因子的該稀疏性樣式不會產生額外的填入，該重新分解需要的該記憶體可被靜態地分配。因此，LU重新分解一般會遠快於該LU分解。在一些具體實施例中，重新分解在一現今的SIMD處理器上會進行數十秒或數分鐘，而分解可能需要數小時。

因此，在此可瞭解到對於i=2,...,k，該係數矩陣A_i可被嵌入到由該第一(i=1)分解所得到的該等歸零之低與高三角形因子的該稀疏性樣式中，即：M_i=L₁ ^(z)+U₁ ^(z)+A_i，其中L₁ ^(z)=L₁與U₁ ^(z)=U₁填入零。因為將LU分解應用在該等矩陣L_i與U_i不會產生額外的填入，在此可瞭解到ILU0即可被應用到此新產生的中間矩陣M_i，以產生該係數矩陣A_i的LU重新分解。

在某些具體實施例中，該重新排序來最小化填入與繞軸可藉由嵌入該經排列的矩陣P^T*A_i*Q，而非由該係數矩陣A_i來達到，使得：M_i=L₁ ^(z)+U₁ ^(z)+P^T*A_i*Q，其中P^T與Q為對應於該重新排序來最小化在該第一(i=1)LU分解中的填入與繞軸之該等排列矩陣。

因此該係數矩陣A_i之LU重新分解的問題已經因為該中間矩陣M_i的一ILU0來重算，其中i=2,...,k。要瞭解到後者可在一平行處理器上有效地執行，例如GPU。在更為詳細地說明該創新性系統與方法之前，現在將說明包含一GPU的一代表性運算系統。

圖1為一SIMD處理器100的方塊圖，其用於包含或實施一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統與方法；SIMD處理器100包括被組織成執行緒群組104或「包繞」(warp)的多個執行緒處理器或核心106。SIMD處理器100包含J個執行緒群組104-1到104-J，其每一者具有K個核心106-1到106-K。在某些具體實施例中，執行緒群組104-1到104-J另可被組織成一或多個執行緒方塊102。一特定具體實施例中每個執行緒群組104具有32個核心106。其它具體實施例中在一執行緒群組中可能僅包括4個核心，最多到數萬個核心。某些具體實施例將核心106組織成一單一執行緒群組104，而其它具體實施例可能具有數百或甚至數千個執行緒群組104。SIMD處理器100的其它具體實施例可僅將核心106組織成執行緒群組104，省略了該執行緒方塊組織層級。

SIMD處理器100另包括一管線控制單元108、共用記憶體110與關聯於執行緒群組104-1到104-J的一本地記憶體112-1到112-J的陣列。管線控制單元108在一資料匯流排114之上分散工作到多個執行緒群組104-1到104-J。在一執行緒群組內的核心106彼此平行地執行。執行緒群組104-1到104-J於一記憶體匯流排116之上連接於共用記憶體110。執行緒群組104-1到104-J在本地匯流排118-1到118-J之上連接於本地記憶體112-1到112-J。例如，一執行緒群組104-J藉由在一本地匯流排118-J上的通訊來利用本地記憶體112-J。SIMD處理器100的某些具體實施例分配共用記憶體110的一共用部份給每一個執行緒方塊102，並允許在一執行緒方塊102內的所有執行緒群組104皆可存取到共用記憶體110的共用部份。某些具體實施例包括只使用本地記憶體112的執行緒群組104。許多其它具體實施例包括有平衡地使用本地記憶體112與共用記憶體110的執行緒群組104。

已經說明包含一GPU的代表性運算系統之後，現在將更為詳細地說明該創新性系統與方法的多種具體實施例。該系統與方法的多種具體實施例利用了多種創新技術。

圖2為一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統之一具體實施例的方塊圖。一分解器(factorizer)210並非該系統之許多該等具體實施例中的一部份，其係用於接收該方矩陣A₁做為一輸入矩陣，並執行該矩陣的一LU分解來得到一低三角形矩陣L₁與一高三角形矩陣U₁，以及重新排序來最小化在該分解中使用到的填入與繞軸排列P與Q。

矩陣產生器220係關聯於分解器210，並用於i=2,...,k，藉由將該經排列的輸入矩陣P^T*A_i*Q嵌入在由該第一LU分解所得到的低與高三角形矩陣的組合L₁ ^(z)+U₁ ^(z)之一歸零的稀疏性樣式中來產生該中間矩陣M_i。重新分解器230關聯於矩陣產生器220，並用於i=2,...,k，以使用平行執行緒來應用一ILU0在該產生的中間矩陣M_i上。

在此可瞭解到列更新本質上為高斯消去法的一步驟，其中一參考(中心點)列由一倍數(multiplier)按比例增加，並被加入到該目前列，藉以產生在該主對角線之下的零。該等倍數經過計算，並儲存來取代此次更新所產生的零。在該創新性系統與方法的一些具體實施例中，為了探究可使用的平行度，行(columns)被群組成層級(levels)，而非使用列(rows)。在此可瞭解到該習用的群組化列成為層級的技術不僅更為直覺，亦可使得找出資料相依性的程序更為直接。但是，此處可瞭解到群組化列成為層級實質上會妨礙到處理速度。應特別瞭解到靠近該矩陣底部的列傾向會比其它列具有更多非零的元素，使得那些列的更新進行相對較慢。相反地，群組化行成為層級通常允許我們藉由更多均勻地分佈關聯於橫跨多個行的該等底部列之運算而達到更佳的工作負載平衡。群組化行成為層級可造成處理速度的顯著改善，可能會有好幾個等級的改善。

群組化行成為層級亦產生另一個可能的好處。該矩陣的右下方角落可被包裝成密集儲存，並可利用密集LU分解(不需要繞軸)來處理它。在一具體實施例中，該包裝僅在當該右下角落的每一列包含足夠元素來確認在該密集格式下的額外運算是合理時才發生。但是，此處可瞭解到實際上經常是如此。

在本系統與方法的其它具體實施例中，該矩陣被保持在一合併壓縮稀疏列/壓縮稀疏行(CRS-CSC，Compressed Sparse Row/Compressed Sparse Column)格式。該合併CSR-CSC格式同時由標準的CSR與CSC格式所構成。該CSR格式在其中經常使用，並包含一矩陣數值的陣列。該CSC格式也常用，除了該等實際的矩陣數值之外，其包含指向到包含在該CSR格式中該等數值的指標(pointer)。該合併CSR-CSC格式允許在該ILU0期間發生的該更新可相對於在該CSR格式中該等數值的單一陣列發生在適當地方。該等CSC格式指標不需要更新。

在該系統與方法的其它具體實施例中，該分析階段針對每一層級計算個別的格點(grid)與方塊(block)發起參數，因為在該矩陣M_i中每一列的元素數目早晚會有很大的差異。

在該系統與方法的其它具體實施例中，該分析可以每個層級排程有兩個核心發起，而非使用一單一核心發起來處理一層級(在每一列的x-維度中有一單一執行緒方塊)。如果發起兩個核心，該第一核心可更新該等倍數(在每一列的x-維度中具有一單一執行緒方塊)，而該第二核心可以更新在一列中該等剩餘的元素(在每一列的x-維度中具有多個執行緒方塊)。

在某些具體實施例中，於在該LU重新分解中該列更新期間，進行搜尋在該目前列中該參考(中心點(pivot))列的該等元素，而非搜尋在該參考(中心點)列中該目前列的元素。依此方式的搜尋產生兩個可能的好處。第一個是當在該參考(中心點)列中的元素數目為「n」，而該目前列為「m」時，則在M_i的結構下mn。因此，前者與後者的方法分別包含O(m*log(n))與O(n*log(m))個步驟。因此，後者的方法包含較少的步驟，因此運算成本較低。同時，藉由M_i的結構。該參考(中心點)列的該等元素已知可永遠存在於該目前列中，此可將執行緒的發散性最小化。

圖3為一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的方法之一具體實施例的流程圖。該方法開始於一開始步驟310。在步驟320，該輸入矩陣A₁被LU分解而產生一低三角形矩陣L₁與一高三角形矩陣U₁，以及該重新排序來最小化在該分解中使用的填入與繞軸排列(permutations)P與Q。在步驟330，對於i=2,...,k，藉由將該輸入矩陣P^T*A_i*Q的一經排列(permuted)的型式嵌入在由該先前LU分解所得到的低與高三角形矩陣的一組合L₁ ^(z)+U₁ ^(z)的一歸零的稀疏性樣式中來產生。在步驟340，使用平行執行緒來應用一ILU0在該產生的中間矩陣M_i上。該方法結束於一結束步驟350。

與本申請案相關的熟此技藝者將可瞭解到可能對該等描述的具體實施例進行其它與進一步的加入、刪除、取代和修改。

210‧‧‧分解器

220‧‧‧矩陣產生器

230‧‧‧重新分解器

Claims

一種用於在一平行處理器上重新分解一方輸入矩陣的系統，其包含：一矩陣產生器，其用於產生一中間矩陣，該中間矩陣的產生係藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中，並重新排序來最小化對於該輸入矩陣的填入，與繞軸的策略；及一重新分解器，其關聯於該矩陣產生器，並用於使用平行執行緒來應用具有零填入的一未完成LU分解到該中間矩陣。
如申請專利範圍第1項之系統，其中該中間矩陣產生器用於將該排列型式嵌入在該稀疏性樣式中。
如申請專利範圍第1項之系統，其中該重新分解器另用於對該輸入矩陣執行一符號分析，以將代表其行(columns)的獨立節點群組化成為代表該等節點之間資料相依性的層級(levels)。
如申請專利範圍第1項之系統，其中該重新分解器另用於利用一合併壓縮稀疏列-壓縮稀疏行格式來實施具有零填入的該未完成-LU分解。
如申請專利範圍第1項之系統，其中該重新分解器另用於在定義該等平行執行緒的一組態時計算每一層級所特定的格點與方塊發起參數。
如申請專利範圍第1項之系統，其中該重新分解器另用於發起該等平行執行緒作為該後續矩陣的每一層級有兩個並行核心，該等核心之一者用於更新在該層級中的倍數，而該等核心之另一者用於更新在該層級中其餘的元素。
如申請專利範圍第6項之系統，其中該重新分解器另與一SIMD處理器配合用於發起該等平行執行緒。
一種SIMD處理器，其包含：通道，用於處理平行執行緒；一管線控制單元系統，用於控制在該等通道中的執行緒處理；及一用於利用該等通道與該管線控制單元來重新分解一方輸入矩陣的系統，其包括：一矩陣產生器，其用於產生一中間矩陣，該中間矩陣的產生係藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略，及一重新分解器，其關聯於該矩陣產生器，並用於傳送平行執行緒到該管線控制單元，以應用具有零填入的一未完成LU分解到該中間矩陣。
如申請專利範圍第8項之處理器，其中該中間矩陣產生器用於將該排列型式嵌入在該稀疏性樣式中。
如申請專利範圍第8項之處理器，其中該重新分解器另用於對該方矩陣執行一符號分析，以將代表其行的獨立節點群組化成為代表該等節點之間資料相依性的層級。