TWI518592B - 在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器 - Google Patents

在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器 Download PDF

Info

Publication number
TWI518592B
TWI518592B TW102146864A TW102146864A TWI518592B TW I518592 B TWI518592 B TW I518592B TW 102146864 A TW102146864 A TW 102146864A TW 102146864 A TW102146864 A TW 102146864A TW I518592 B TWI518592 B TW I518592B
Authority
TW
Taiwan
Prior art keywords
matrix
pattern
processor
decomposition
disassembler
Prior art date
Application number
TW102146864A
Other languages
English (en)
Other versions
TW201443780A (zh
Inventor
麥克辛 拿奧姆
夏拉揚 榭路爾
簡龍昇
羅伯 史特卓卡
飛利浦 凡登美史屈
Original Assignee
輝達公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 輝達公司 filed Critical 輝達公司
Publication of TW201443780A publication Critical patent/TW201443780A/zh
Application granted granted Critical
Publication of TWI518592B publication Critical patent/TWI518592B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Advance Control (AREA)

Description

在平行處理器上將方矩陣重新分解為低與高三角形矩陣的系統與處理器
本案概略關於平行處理器(即具有至少兩個能夠合作來實施平行處理的處理器之電腦),更特定而言,係關於一種在平行處理器上將方矩陣重新分解為低與高三角形矩陣的系統與方法。
假設平行處理器(例如圖形處理單元(GPU,Graphics processing unit)可被有效地程式化,其有可能非常善於處理數值演算法,特別是用於直接求解大型稀疏線性系統的演算法。
稀疏線性(sparse linear)系統為具有稀疏係數矩陣的線性方程式之系統。這些系統常用於計算機械力學、地球物理學、生物學、電路模擬,以及許多其它計算科學與工程學領域中的應用。
最常見用來求解一稀疏線性系統的一般性與直接的技術為分解其係數矩陣為一低三角形矩陣L與一高三角形矩陣U的乘積,此程序稱之為「分解」(factorization)。然後可使用習用的向前與向後取代技術來求解具有L與U三角形矩陣的線性系統,藉此得到該稀疏線性系統的解。
本發明一種態樣係提供一種用於在一平行處理器上重新分 解一方輸入矩陣的系統。在一具體實施例中,該系統包括:(1)一矩陣產生器,用於藉由嵌入該輸入矩陣的一排列(permuted)型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸(pivoting)策略,以產生一中間矩陣,及(2)一關聯於該矩陣產生器的重新分解器,用於使用平行執行緒來將具有零填入(ILU0)的一未完成-LU分解應用到該中間矩陣。
本發明另一種態樣係提供一種用於在一平行處理器上重新 分解一方輸入矩陣的方法。在一具體實施例中,該方法包括:(1)藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略,以產生一中間矩陣,及(2)使用平行執行緒來應用一ILU0在該中間矩陣。
本發明又另一種態樣提供一SIMD處理器。在一具體實施例 中,該SIMD處理器包括:(1)通道(lanes),用於處理平行執行緒,(2)一管線控制單元系統,用於控制在該等通道中的執行緒處理,及(3)一種用於利用該等通道與該管線控制單元來重新分解一方輸入矩陣的系統,其具有:(3a)一矩陣產生器,用於藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略,以產生一中間矩陣,及(3b)一關聯於該矩陣產生器的重新分解器,用於傳送平行執行緒到該管線控制單元,以將一ILU0應用到該中間矩陣。
100‧‧‧SIMD處理器
102‧‧‧執行緒方塊
104‧‧‧執行緒群組
104-1~104-J‧‧‧執行緒群組
106‧‧‧核心
106-1~106-K‧‧‧核心
108‧‧‧管線控制單元
110‧‧‧共用記憶體
112‧‧‧本地記憶體
112-1~112-J‧‧‧本地記憶體
114‧‧‧資料匯流排
116‧‧‧記憶體匯流排
118-1~118-J‧‧‧本地匯流排
210‧‧‧分解器
220‧‧‧矩陣產生器
230‧‧‧重新分解器
現在請參照配合該等附屬圖式所做的以下說明,其中:圖1為一SIMD處理器的方塊圖,其用於包含或實施一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統與方法;圖2為一種用於在一平行處理器上將一方矩陣重新分解(re-factoring)為低與高三角形矩陣的系統之一具體實施例的流程圖;及圖3為一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的方法之一具體實施例的方塊圖。
如前述,最常見用來求解一稀疏線性系統的一般性技術為分解其係數矩陣分別成為低與高三角形矩陣L與U的乘積。在此可瞭解到既有的技術無法良好地適用於利用到一平行處理器架構,例如GPU。
因此,此處介紹的是一種用於將一方矩陣重新分解為低與高三角形矩陣的系統與方法之多種具體實施例。概言之,該等多種具體實施例係用於加速求解一組一稀疏線性系統之應用,其型式如下:Ai xi=fi for i=1,…,k,其中係數矩陣,該等右側,與該等解
一種系統與方法之某些具體實施例可應用當該分解期間所使用的(1)該等係數矩陣Ai之該稀疏性樣式,(2)該重新排序來最小化填入,及(3)該繞軸(pivoting)策略可橫跨所有該等線性系統皆相同。在此例中,針對每一個該等線性系統之所得到的低(Li)與高(Ui)三角形因子的該稀疏性樣式亦保持相同。這些狀況經常在使用熟知的以積體電路為重點的模擬程式(SPICE,Simulation Program with Integrated Circuit Emphasis)的積體電路模擬中出現。
在某些這些具體實施例中,LU分解僅需要在第一次時執行 (對於i=1)。然後,(對於i=2,...,k)僅需要執行LU重新分解。因為應用該LU分解到Li與Ui因子的該稀疏性樣式不會產生額外的填入,該重新分解需要的該記憶體可被靜態地分配。因此,LU重新分解一般會遠快於該LU分解。在一些具體實施例中,重新分解在一現今的SIMD處理器上會進行數十秒或數分鐘,而分解可能需要數小時。
因此,在此可瞭解到對於i=2,...,k,該係數矩陣Ai可被嵌入到由該第一(i=1)分解所得到的該等歸零之低與高三角形因子的該稀疏性樣式中,即:Mi=L1 (z)+U1 (z)+Ai,其中L1 (z)=L1與U1 (z)=U1填入零。因為將LU分解應用在該等矩陣Li與Ui不會產生額外的填入,在此可瞭解到ILU0即可被應用到此新產生的中間矩陣Mi,以產生該係數矩陣Ai的LU重新分解。
在某些具體實施例中,該重新排序來最小化填入與繞軸可藉由嵌入該經排列的矩陣PT*Ai*Q,而非由該係數矩陣Ai來達到,使得:Mi=L1 (z)+U1 (z)+PT*Ai*Q,其中PT與Q為對應於該重新排序來最小化在該第一(i=1)LU分解中的填入與繞軸之該等排列矩陣。
因此該係數矩陣Ai之LU重新分解的問題已經因為該中間矩陣Mi的一ILU0來重算,其中i=2,...,k。要瞭解到後者可在一平行處理器上有效地執行,例如GPU。在更為詳細地說明該創新性系統與方法之前,現在將說明包含一GPU的一代表性運算系統。
圖1為一SIMD處理器100的方塊圖,其用於包含或實施一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統與方法;SIMD處理器100包括被組織成執行緒群組104或「包繞」(warp)的多個執行緒處理器或核心106。SIMD處理器100包含J個執行緒群組104-1到104-J,其每一者具有K個核心106-1到106-K。在某些具體實施 例中,執行緒群組104-1到104-J另可被組織成一或多個執行緒方塊102。一特定具體實施例中每個執行緒群組104具有32個核心106。其它具體實施例中在一執行緒群組中可能僅包括4個核心,最多到數萬個核心。某些具體實施例將核心106組織成一單一執行緒群組104,而其它具體實施例可能具有數百或甚至數千個執行緒群組104。SIMD處理器100的其它具體實施例可僅將核心106組織成執行緒群組104,省略了該執行緒方塊組織層級。
SIMD處理器100另包括一管線控制單元108、共用記憶體110與關聯於執行緒群組104-1到104-J的一本地記憶體112-1到112-J的陣列。管線控制單元108在一資料匯流排114之上分散工作到多個執行緒群組104-1到104-J。在一執行緒群組內的核心106彼此平行地執行。執行緒群組104-1到104-J於一記憶體匯流排116之上連接於共用記憶體110。執行緒群組104-1到104-J在本地匯流排118-1到118-J之上連接於本地記憶體112-1到112-J。例如,一執行緒群組104-J藉由在一本地匯流排118-J上的通訊來利用本地記憶體112-J。SIMD處理器100的某些具體實施例分配共用記憶體110的一共用部份給每一個執行緒方塊102,並允許在一執行緒方塊102內的所有執行緒群組104皆可存取到共用記憶體110的共用部份。某些具體實施例包括只使用本地記憶體112的執行緒群組104。許多其它具體實施例包括有平衡地使用本地記憶體112與共用記憶體110的執行緒群組104。
已經說明包含一GPU的代表性運算系統之後,現在將更為詳細地說明該創新性系統與方法的多種具體實施例。該系統與方法的多種具體實施例利用了多種創新技術。
圖2為一種用於在一平行處理器上將一方矩陣重新分解為低與高三角形矩陣的系統之一具體實施例的方塊圖。一分解器(factorizer)210並非該系統之許多該等具體實施例中的一部份,其係用於接收該方矩陣A1做為一輸入矩陣,並執行該矩陣的一LU分解來得到一低三 角形矩陣L1與一高三角形矩陣U1,以及重新排序來最小化在該分解中使用到的填入與繞軸排列P與Q。
矩陣產生器220係關聯於分解器210,並用於i=2,...,k,藉 由將該經排列的輸入矩陣PT*Ai*Q嵌入在由該第一LU分解所得到的低與高三角形矩陣的組合L1 (z)+U1 (z)之一歸零的稀疏性樣式中來產生該中間矩陣Mi。重新分解器230關聯於矩陣產生器220,並用於i=2,...,k,以使用平行執行緒來應用一ILU0在該產生的中間矩陣Mi上。
在此可瞭解到列更新本質上為高斯消去法的一步驟,其中一 參考(中心點)列由一倍數(multiplier)按比例增加,並被加入到該目前列,藉以產生在該主對角線之下的零。該等倍數經過計算,並儲存來取代此次更新所產生的零。在該創新性系統與方法的一些具體實施例中,為了探究可使用的平行度,行(columns)被群組成層級(levels),而非使用列(rows)。在此可瞭解到該習用的群組化列成為層級的技術不僅更為直覺,亦可使得找出資料相依性的程序更為直接。但是,此處可瞭解到群組化列成為層級實質上會妨礙到處理速度。應特別瞭解到靠近該矩陣底部的列傾向會比其它列具有更多非零的元素,使得那些列的更新進行相對較慢。相反地,群組化行成為層級通常允許我們藉由更多均勻地分佈關聯於橫跨多個行的該等底部列之運算而達到更佳的工作負載平衡。群組化行成為層級可造成處理速度的顯著改善,可能會有好幾個等級的改善。
群組化行成為層級亦產生另一個可能的好處。該矩陣的右下 方角落可被包裝成密集儲存,並可利用密集LU分解(不需要繞軸)來處理它。在一具體實施例中,該包裝僅在當該右下角落的每一列包含足夠元素來確認在該密集格式下的額外運算是合理時才發生。但是,此處可瞭解到實際上經常是如此。
在本系統與方法的其它具體實施例中,該矩陣被保持在一合併壓縮稀疏列/壓縮稀疏行(CRS-CSC,Compressed Sparse Row/Compressed Sparse Column)格式。該合併CSR-CSC格式同時由標準的CSR與CSC格式所構成。該CSR格式在其中經常使用,並包含一矩陣數值的陣列。該CSC格式也常用,除了該等實際的矩陣數值之外,其包含指向到包含在該CSR格式中該等數值的指標(pointer)。該合併CSR-CSC格式允許在該ILU0期間發生的該更新可相對於在該CSR格式中該等數值的單一陣列發生在適當地方。該等CSC格式指標不需要更新。
在該系統與方法的其它具體實施例中,該分析階段針對每一 層級計算個別的格點(grid)與方塊(block)發起參數,因為在該矩陣Mi中每一列的元素數目早晚會有很大的差異。
在該系統與方法的其它具體實施例中,該分析可以每個層級 排程有兩個核心發起,而非使用一單一核心發起來處理一層級(在每一列的x-維度中有一單一執行緒方塊)。如果發起兩個核心,該第一核心可更新該等倍數(在每一列的x-維度中具有一單一執行緒方塊),而該第二核心可以更新在一列中該等剩餘的元素(在每一列的x-維度中具有多個執行緒方塊)。
在某些具體實施例中,於在該LU重新分解中該列更新期 間,進行搜尋在該目前列中該參考(中心點(pivot))列的該等元素,而非搜尋在該參考(中心點)列中該目前列的元素。依此方式的搜尋產生兩個可能的好處。第一個是當在該參考(中心點)列中的元素數目為「n」,而該目前列為「m」時,則在Mi的結構下mn。因此,前者與後者的方法分別包含O(m*log(n))與O(n*log(m))個步驟。因此,後者的方法包含較少的步驟,因此運算成本較低。同時,藉由Mi的結構。該參考(中心點)列的該等元素已知可永遠存在於該目前列中,此可將執行緒的發散性最小化。
圖3為一種用於在一平行處理器上將一方矩陣重新分解為 低與高三角形矩陣的方法之一具體實施例的流程圖。該方法開始於一開始步驟310。在步驟320,該輸入矩陣A1被LU分解而產生一低三角形矩陣L1與一高三角形矩陣U1,以及該重新排序來最小化在該分解中使用的填入 與繞軸排列(permutations)P與Q。在步驟330,對於i=2,...,k,藉由將該輸入矩陣PT*Ai*Q的一經排列(permuted)的型式嵌入在由該先前LU分解所得到的低與高三角形矩陣的一組合L1 (z)+U1 (z)的一歸零的稀疏性樣式中來產生。在步驟340,使用平行執行緒來應用一ILU0在該產生的中間矩陣Mi上。該方法結束於一結束步驟350。
與本申請案相關的熟此技藝者將可瞭解到可能對該等描述的具體實施例進行其它與進一步的加入、刪除、取代和修改。
210‧‧‧分解器
220‧‧‧矩陣產生器
230‧‧‧重新分解器

Claims (10)

  1. 一種用於在一平行處理器上重新分解一方輸入矩陣的系統,其包含:一矩陣產生器,其用於產生一中間矩陣,該中間矩陣的產生係藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中,並重新排序來最小化對於該輸入矩陣的填入,與繞軸的策略;及一重新分解器,其關聯於該矩陣產生器,並用於使用平行執行緒來應用具有零填入的一未完成LU分解到該中間矩陣。
  2. 如申請專利範圍第1項之系統,其中該中間矩陣產生器用於將該排列型式嵌入在該稀疏性樣式中。
  3. 如申請專利範圍第1項之系統,其中該重新分解器另用於對該輸入矩陣執行一符號分析,以將代表其行(columns)的獨立節點群組化成為代表該等節點之間資料相依性的層級(levels)。
  4. 如申請專利範圍第1項之系統,其中該重新分解器另用於利用一合併壓縮稀疏列-壓縮稀疏行格式來實施具有零填入的該未完成-LU分解。
  5. 如申請專利範圍第1項之系統,其中該重新分解器另用於在定義該等平行執行緒的一組態時計算每一層級所特定的格點與方塊發起參數。
  6. 如申請專利範圍第1項之系統,其中該重新分解器另用於發起該等平行執行緒作為該後續矩陣的每一層級有兩個並行核心,該等核心之一 者用於更新在該層級中的倍數,而該等核心之另一者用於更新在該層級中其餘的元素。
  7. 如申請專利範圍第6項之系統,其中該重新分解器另與一SIMD處理器配合用於發起該等平行執行緒。
  8. 一種SIMD處理器,其包含:通道,用於處理平行執行緒;一管線控制單元系統,用於控制在該等通道中的執行緒處理;及一用於利用該等通道與該管線控制單元來重新分解一方輸入矩陣的系統,其包括:一矩陣產生器,其用於產生一中間矩陣,該中間矩陣的產生係藉由嵌入該輸入矩陣的一排列型式在由具有一相同稀疏性樣式的一先前矩陣的一LU分解所得到的低與高三角形矩陣之一組合的一歸零稀疏性樣式當中並重新排序來最小化對於該輸入矩陣的填入與繞軸的策略,及一重新分解器,其關聯於該矩陣產生器,並用於傳送平行執行緒到該管線控制單元,以應用具有零填入的一未完成LU分解到該中間矩陣。
  9. 如申請專利範圍第8項之處理器,其中該中間矩陣產生器用於將該排列型式嵌入在該稀疏性樣式中。
  10. 如申請專利範圍第8項之處理器,其中該重新分解器另用於對該方矩陣執行一符號分析,以將代表其行的獨立節點群組化成為代表該等節點之間資料相依性的層級。
TW102146864A 2013-01-09 2013-12-18 在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器 TWI518592B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/737,287 US9170836B2 (en) 2013-01-09 2013-01-09 System and method for re-factorizing a square matrix into lower and upper triangular matrices on a parallel processor

Publications (2)

Publication Number Publication Date
TW201443780A TW201443780A (zh) 2014-11-16
TWI518592B true TWI518592B (zh) 2016-01-21

Family

ID=51019128

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102146864A TWI518592B (zh) 2013-01-09 2013-12-18 在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器

Country Status (4)

Country Link
US (1) US9170836B2 (zh)
CN (1) CN103914433B (zh)
DE (1) DE102013020608A1 (zh)
TW (1) TWI518592B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9805001B2 (en) 2016-02-05 2017-10-31 Google Inc. Matrix processing apparatus
US10394930B2 (en) * 2016-10-01 2019-08-27 Intel Corporation Binary vector factorization
CN109359247B (zh) * 2018-12-07 2021-07-06 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN111338695B (zh) * 2018-12-19 2022-05-17 中科寒武纪科技股份有限公司 基于流水线技术的数据处理方法及相关产品
CN110704023B (zh) * 2019-09-26 2021-10-22 北京华大九天科技股份有限公司 一种基于拓扑排序的矩阵分块划分方法及装置
CN114854309B (zh) * 2021-08-20 2023-06-13 广东省水利水电第三工程局有限公司 一种管道防腐材料
CN115396065B (zh) * 2022-10-26 2023-04-28 南京邮电大学 一种稀疏随机线性网络编码的低时延解码方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7822590B2 (en) 2002-12-17 2010-10-26 Cadence Design Systems, Inc. Method and system for implementing, controlling, and interfacing with circuit simulators
US7181384B1 (en) 2004-08-16 2007-02-20 Altera Corporation Method and apparatus for simulating a hybrid system with registered and concurrent nodes
US20060265445A1 (en) * 2005-05-20 2006-11-23 International Business Machines Corporation Method and structure for improving processing efficiency in parallel processing machines for rectangular and triangular matrix routines
US7783465B2 (en) 2005-12-19 2010-08-24 Synopsys, Inc. Parallel multi-rate circuit simulation
CN102138146A (zh) * 2008-09-30 2011-07-27 埃克森美孚上游研究公司 使用并行多级不完全因式分解求解储层模拟矩阵方程的方法
US8156457B2 (en) 2009-09-24 2012-04-10 Synopsys, Inc. Concurrent simulation of hardware designs with behavioral characteristics
US8738349B2 (en) 2010-04-20 2014-05-27 The Regents Of The University Of Michigan Gate-level logic simulator using multiple processor architectures
US8903694B2 (en) * 2011-02-24 2014-12-02 Chevron U.S.A. Inc. System and method for performing reservoir simulation using preconditioning
US20130226535A1 (en) * 2012-02-24 2013-08-29 Jeh-Fu Tuan Concurrent simulation system using graphic processing units (gpu) and method thereof

Also Published As

Publication number Publication date
DE102013020608A1 (de) 2014-07-10
US9170836B2 (en) 2015-10-27
US20140196043A1 (en) 2014-07-10
CN103914433B (zh) 2017-07-21
CN103914433A (zh) 2014-07-09
TW201443780A (zh) 2014-11-16

Similar Documents

Publication Publication Date Title
TWI518592B (zh) 在平行處理器上將方矩陣重新分解爲低與高三角形矩陣的系統與處理器
KR20130090147A (ko) 신경망 컴퓨팅 장치 및 시스템과 그 방법
US9117284B2 (en) Asynchronous compute integrated into large-scale data rendering using dedicated, separate computing and rendering clusters
Choquette Nvidia hopper h100 gpu: Scaling performance
TW388921B (en) Semiconductor process device simulation method and storage medium storing simulation program
JP5059928B2 (ja) Gpuを用いた乱数生成処理の並列化
CN108984483B (zh) 基于dag及矩阵重排的电力系统稀疏矩阵求解方法和系统
US20130207983A1 (en) Central processing unit, gpu simulation method thereof, and computing system including the same
US20180357534A1 (en) Multi-directional Reduction in Large Scale Deep-Learning
CN113569511A (zh) 一种量子电路的模拟方法及装置
EP3839834A1 (en) Topological scheduling
Singh et al. Accurate and efficient solution of bivariate population balance equations using unstructured grids
CN111091912A (zh) 一种基于gpu的心脏电生理模拟方法
Tomim et al. Extending the Multi-Area Thévenin Equivalents method for parallel solutions of bulk power systems
Fujisawa et al. SDPA PROJECT: SOLVING LARGE-SCALE SEMIDEFINITE PROGRAMS (< Special Issue> the 50th Anniversary of the Operations Research Society of Japan)
Iserte et al. An study of the effect of process malleability in the energy efficiency on GPU-based clusters
CN104376047B (zh) 一种基于HBase的大表join方法
Aslam et al. Performance comparison of gpu-based jacobi solvers using cuda provided synchronization methods
CN110119375A (zh) 一种将多个标量核链接为单核向量处理阵列的控制方法
Diéguez et al. Tree partitioning reduction: A new parallel partition method for solving tridiagonal systems
CN108599173B (zh) 一种批量潮流的求解方法及装置
Kuźnik et al. Graph grammar-based multi-frontal parallel direct solver for two-dimensional isogeometric analysis
CN108985622B (zh) 一种基于dag的电力系统稀疏矩阵并行求解方法和系统
Appelhans et al. Leveraging NVLINK and asynchronous data transfer to scale beyond the memory capacity of GPUs
CN114428936A (zh) 针对矩阵-矩阵乘法分配处理线程