TWI501149B - 具平行處理架構之多維波數位濾波網路模型系統 - Google Patents
具平行處理架構之多維波數位濾波網路模型系統 Download PDFInfo
- Publication number
- TWI501149B TWI501149B TW102137207A TW102137207A TWI501149B TW I501149 B TWI501149 B TW I501149B TW 102137207 A TW102137207 A TW 102137207A TW 102137207 A TW102137207 A TW 102137207A TW I501149 B TWI501149 B TW I501149B
- Authority
- TW
- Taiwan
- Prior art keywords
- processing unit
- digital filtering
- dimensional
- parallel
- wave digital
- Prior art date
Links
Landscapes
- Image Processing (AREA)
- Multi Processors (AREA)
Description
本發明係有關於一種具平行處理架構之多維波數位濾波網路模型系統,尤其是指一種在多維波數位濾波(Multidimensional Wave Digital Filtering,簡稱MDWDF)網路模型之充分平行運算過程中,藉由連續性多維時間分配(Chained Multidimensional Retiming)技術來執行IBM Cell寬頻引擎(Broadband Engine),並藉此提升其運作性能者。
按,近年來由於數值模式模擬的盛行,平行運算的架構也就越來越重要,數值模擬係以大量的物理理論為基礎所開發出來的計算公式,亦即在我們的日常生活中存在許多大自然現象,大量的物理科學家投入這方面的研究,企圖藉由物理系統來探討與說明這些自然現象,例如:天文、地理、水下聲學,以及海洋科學等,都是利用這種數值模擬加以運算,以了解箇中的奧妙,不過,由於這些數值模擬都是很大型的程式運算,所消耗的運算時間很長,如果單純使用一顆CPU進行程式運算,不論這顆CPU的頻率與效能有多高,還是得要運算好幾個鐘頭,甚至更久;然
而,如果將這個程式運算同時分配給多顆CPU,也就是讓多顆CPU同時進行這個程式的運算,將可大大的減低運算時間的耗損。
近年來,由於單核心處理器發展遭遇到瓶頸,例如高耗能與高廢熱等缺點,加上人們對於處理器效能的要求越來越高,以及半導體製程技術的突飛猛進,能夠將更多的電路整合進單一晶片內,以致於在單一晶片內放置多個處理器便成為可能的選項,而多核心處理器便因這股熱潮而誕生,由於多核心處理器有較優越的數值運算效能,能有效地處理大量而複雜的應用與計算,例如多媒體影像處理、資料加解密處理、精密人臉辨識,以及運算效能加速等等,因此,多核心處理器儼然已成為當今個人電腦市場的應用主流,而除了個人電腦市場外,目前的次世代遊戲機,例如XBOX360與PlayStation3等,亦是採用多核心架構之處理器以進行高解析的圖形模擬與精密動作分解。
由於多核心處理器帶動高效能計算(High Performance Computing)領域的發展,此領域為了因應日趨複雜的程式運算,使用多核心處理器架構是一個直接而有效的解決辦法,但仍需軟體方面的配合才能有效的發揮多核心潛力,IBM Cell寬頻引擎即為一種異質多核心處理器(Heterogeneous Multi-Core Processor),所謂異質多核心處理器意指將不同型態的處理器(如GPU、DSP及一般通用處理器等)整合進同一顆晶片內,並彼此共享相同的主記憶體的處理器設計架構,其與一般傳統上的同質多核心處理器(Homogeneous Multi-Core Processor)有著顯著的不同,主要差別在於異質多核心處
理器由一個主要處理核心控制其他協同處理核心,而這兩種不同架構的核心各自擅長不同的工作,它不像同質多核心處理器,每個核心皆屬相同架構且功能都相同,並無較擅長之工作,因此異質多核心處理器通常是為了特定應用而開發,雖然IBM Cell寬頻引擎最初開發的目的是為了作為索尼(SONY)遊戲機PlayStation3的運算核心,但由於它優異的運算效能與硬體可程式化等優點,漸漸地也被拿來處理較複雜或運算量較多的計算。
隨著多核心處理器的問世,消費者普遍期待處理器的效能也能隨著單一晶片上的核心數增加而呈線性比例增加,然而,事實上卻不如我們所預期,這是因為多核心處理器存在一些潛在性問題,例如各核心間之通訊方式、各核心的工作量負載,以及應用程式的平行化程度等,因此,改善多核心系統效能的關鍵就在於合理且適當的工作分割與溝通方式,亦即適當而有效的平行化計算環境,由於演算法之複雜度或工程問題的運算量越來越高,所以利用多核心處理器是必然的,但除了硬體上的支援外,當然也必須藉由軟體的配合才能達到有效的結果呈現,因此在多核心的程式設計方面,程式設計師便扮演一個相當重要的角色,必須理解其硬體平台特性與演算法或各種應用之流程,然後適當的規劃出一套適用於核心系統的平行化與溝通方法,如此才能真正發揮多核心系統的效能,使得欲藉由IBM Cell寬頻引擎達到利用多核心架構且能避免嚴重系統效能瓶頸,進而有效平衡核心間的計算負載,仍是系統開發業者或程式設計師需持續努力克服與解決之課題。
今,發明人即是鑑於上述現有的多核心處理器因存在核心間之通訊、工作量負載,以及相關應用程式的平行化程度不足等缺失,於是乃一本孜孜不倦之精神,並藉由其豐富之專業知識及多年之實務經驗所輔佐,而加以改善,並據此研創出本發明。
本發明主要目的為提供一種具平行處理架構之多維波數位濾波網路模型系統,特別是一種在多維波數位濾波網路模型之充分平行運算過程中,藉由連續性多維時間分配技術來執行並優化IBM Cell寬頻引擎,並藉此提升其運作之性能者。
為了達到上述實施目的,本發明人提出一種具平行處理架構之多維波數位濾波網路模型系統,其包括有一能量處理單元(Power Processor Element,簡稱PPE)、八個協同處理單元(Synergistic Processor Elements,簡稱SPEs),以及一多維波數位濾波單元;能量處理單元係一64位元精簡指令集(Reduced Instruction Set Computer,簡稱RISC)架構之高效率數據處理器,以運行作業系統與管理系統資源;協同處理單元,係電性連接該能量處理單元,接收該能量處理單元傳送之資料並執行主要運算作業,其中,每一協同處理單元係為具有128位元之精簡指令集架構,包含有一256KB本地儲存記憶體(Local Store,簡稱LS)、一負責指令控制和執行的協同處理模組(Synergistic Processing Unit,簡稱SPU),以及提供一介面予協同處理模組與外界交換資料之記憶體流量控制器(Memory Flow Controller,簡稱
MFC);多維波數位濾波單元,係電性連接該能量處理單元與該協同處理單元,內建有一元件互連匯流排(Element Interconnect Bus,簡稱EIS),係接收該能量處理單元與該協同處理單元之訊號傳遞至系統主記憶體與輸入輸出元件之連接介面,該多維波數位濾波單元係以連續性多維時間分配技術達到改變多維數據流量圖(Multidimensional Data Flow Graph,簡稱MDFG)之延遲時間以完成平行運算,其中,該多維數據流量圖係可以下列關係式定義:
其中,S
為多維數據流量圖之排定空間(Scheduling Subspace),s
為排定元素(Scheduling Element);其特徵在於:該能量處理單元係結合該等協同處理單元完成充分並行模型之動態負載平衡效率,該多維數據流圖之左循環體係需要至多5個平行處理器同時執行操作D2、D3、E2、E3、F23、G23、H2、H3等運算點的運算式,而該多維數據流圖之右循環體係至多需要7個平行處理器同時執行操作D1、D4、E1、E4、EF1、EF2、Gc1、Gc2、F1、F4、G1、G4、H1、H4等運算點的運算式,其中該多維數據流圖之循環體包含執行的開端和結果流程以提供並行循環必要的數據,分配該多維數據流圖減少必要之週期數量,以提升運作性能。
在本發明的一實施例中,其中該延遲時間係由以下之方程式定義:
其中,r
(u
)係一時間分配向量,r
(u
)=(K n
-i
).r
。
在本發明的一實施例中,其中當該排定元素向量s S +
,S +
係正方向的排定空間,其定義如下列方程式:
在本發明的一實施例中,其中該具多維波數位濾波網路模型架構之平行處理系統之效能超越傳統式非平行化模組有4倍之運作速度。
藉此,本發明係針對一個在流體力學上非常重要的三維度已線性化數位濾波模型之偏微分方程式(Partial Differential Equations,PDEs)線性淺水波(Linearized Shallow Water,LSWE)系統,有效提升充分並行運算的加速效率;在多維波數位濾波網路模型之充分平行運算過程中,使用連續性多維時間分配技術來執行IBM Cell寬頻引擎,並藉此提升其運作效能;該IBM Cell寬頻引擎非常適合多維波數位濾波網路模型架構之時間疊代運算,具有8個處理器的並行化模型,以連續性多維時間分配技術達到改變多維數據流量圖之延遲時間以完成平行運算之效能,其性能表現可超越非平行化模組達4倍以上的運作速度。
(1)‧‧‧能量處理單元
(2)‧‧‧協同處理單元
(201)‧‧‧第一協同處理單元
(202)‧‧‧第二協同處理單元
(203)‧‧‧第三協同處理單元
(204)‧‧‧第四協同處理單元
(205)‧‧‧第五協同處理單元
(206)‧‧‧第六協同處理單元
(207)‧‧‧第七協同處理單元
(208)‧‧‧第八協同處理單元
(21)‧‧‧本地儲存記憶體
(22)‧‧‧協同處理模組
(23)‧‧‧記憶體流量控制器
(3)‧‧‧多維波數位濾波單元
(31)‧‧‧元件互連匯流排
(4)‧‧‧系統主記憶體
(5)‧‧‧輸入輸出元件
第一圖:本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之模組配置方塊圖
第二圖:本發明具平行處理架構之多維波數位濾波網路模型
系統其一較佳實施例之多維波數位濾波網路示意圖
第三圖:本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之多維波數位濾波網路相關循環體示意圖
第四圖:本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之多維波數位濾波網路以網格51×51運算之運作速度性能圖
第五圖:傳統式非平行化模組以網格51×51運算之運作速度性能圖
第六圖:本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之多維波數位濾波網路以網格201×201運算之運作速度性能圖
第七圖:傳統式非平行化模組以網格201×201運算之運作速度性能圖
第八圖:傳統1BM Cell寬頻引擎之系統架構示意圖
第九圖:本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之系統運作示意圖
本發明之目的及其電路設計功能上的優點,將依據以下圖面所示之電路圖,配合具體實施例予以說明,俾使審查委員能對本發明有更深入且具體之瞭解。
首先,為了更瞭解本發明,將簡要地說明IBM Cell寬頻引擎之基本概念,IBM Cell寬頻引擎是一個極為複雜的處理
器架構,係由SONY、東芝(Toshiba)和IBM共同開發的異質多核心處理器,係內建有2.5億個電晶體的複雜晶片,其最初的目的是為遊戲機應用相關所開發,但除了PlayStation3外,它也被應用在SONY的高解析電視與IBM的刀鋒型伺服器(Blade Server)上;IBM Cell寬頻引擎是一款單晶片(Single-chip)異質多核心處理器,時脈為3.2GHz,理論上的峰值效能之單精度為204.8Gflop/s,倍精度為14.64Gflop/s,請參閱第八圖所示,為傳統IBM Cell寬頻引擎之系統架構示意圖,其主要由九個處理器所構成,包含一個能量處理器元素(PPE)與八個協同處理器元素(SPE),這九個處理器和一些其他周邊裝置皆是由一元件互連匯流排(EIS)所連接;接著,由於本發明係藉由多維波數位濾波網路模型架構,達到有效提升IBM Cell寬頻引擎之運行效能,請參閱第一圖所示,為本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之模組配置方塊圖,係包括有:一能量處理單元(1),係一64位元精簡指令集架構之高效率數據處理器,以運行作業系統與管理系統資源;八個協同處理單元(2),係電性連接能量處理單元(1),接收能量處理單元(1)傳送之資料並執行主要運算作業,其中,每一協同處理單元(2)係具有128位元之精簡指令集架構,包含有一256KB本地儲存記憶體(21)、一負責指令控制和執行的協同處理模組(22),以及提供一介面予協同處理模組(22)與外界交換資料之記憶體流量控制器(23),由於在IBM Cell寬頻引擎中已有1個協同處理
單元(2)被SONY鎖定而無法更改,因此只會有7個協同處理單元(2)進行平行運算,而每個協同處理單元(2)都能執行單指令多資料流(Single Instruction Multiple Data,簡稱SIMD)指令集,係一種採用一個控制器來控制多個處理器,同時對一組資料中的每一個分別執行相同的操作從而實作空間上的並列性技術;以及一多維波數位濾波單元(3),係電性連接能量處理單元(1)與協同處理單元(2),多維波數位濾波單元(3)內建有一元件互連匯流排(31),係接收能量處理單元(1)與協同處理單元(2)之訊號傳遞至系統主記憶體(4)與輸入輸出元件(5)之連接介面,多維波數位濾波單元(3)係以連續性多維時間分配技術達到改變多維數據流量圖之延遲時間以完成平行運算,其中該多維數據流量圖係以下列關係式定義:
其中,S
為多維數據流量圖之排定空間,s
為排定元素。
該多維波數位濾波單元(3)係架構在流體力學上非常重要之三維度已線性化數位濾波模型之偏微分方程式線性淺水波系統,其線性淺水波系統之特性可由下列方程式表示:
其中,η
係為表面位移量(Surface Displacement),v 1
與v 2
係沿著x
與y
方向之速度,此外,h
之總水深係由不受干擾水深(U
ndisturbed Water Depth)H
與由不受干擾表面往上量測之自由表面升高η
之總和,亦即h
=H
+η
,g
係為重力加速度與科里奧利參數(Coriolos Parameter)f
皆為定值,其中,f
是地球自轉角速度率Ω的2倍乘以緯度φ
的正弦值,f
=2Ωsinφ
。
此外,該延遲時間係由以下之方程式定義:
其中,r
(u
)係一時間分配向量,r
(u
)=(K n
-i
).r
,當向量s S +
,則S +
是正方向的排定空間,其定義如下列方程式:
請參閱第二~三圖所示,為本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之多維波數位濾波網路示意圖與相關循環體示意圖,係以連續性多維時間分配技術達到充分並行運算之目標;請一併參閱第九圖所示,為本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之系統運作示意圖,其中第九圖係顯示以第二、三圖之時間分配多維數據流量圖(retimed MDFG)為基礎完成的8個處理器,亦即1個能量處理單元(1)與第一協同處理單元(201)至第七協同處理單元(207)等7個協同處理單元(2)的充分並行模型的動態負載平衡效率,其中第一協同處理單元(201)係執行對應第二圖之D1、D2、D3、D4四個運算點,第二協同處理單元(202)係執行E1、E2、E3、E4四個運算點,第三協同處理單元(203)係執行EF1、EF2、F23三個運算點,第四協同處
理單元(204)係執行Gc1、Gc2、G23三個運算點,第五協同處理單元(205)係執行F1、F4、H2、H3四個運算點,第六協同處理單元(206)係執行G1、G4這兩個個運算點,以及第七協同處理單元(207)係執行H1、H4這兩個個運算點,而第八協同處理單元(208)被SONY鎖定而無法更改;請一併參閱第三圖所示,為了實行充分並行運算,顯然地,左循環體(left loop body)需要最多5個平行處理器(P1~P5)以同時執行D2、D3、E2、E3、F23、G23、H2、H3等運算點的運算式,而右循環體(right loop body)則最多需要7個平行處理器(P1~P7)以同時執行D1、D4、E1、E4、EF1、EF2、Gc1、Gc2、F1、F4、G1、G4、H1、H4等運算點的運算式,第三圖中所述時間分配多維數據流量圖的循環體包含執行的開端和結尾流程以提供並行循環必要的數據,分配多維數據流量圖顯著減少必要的週期數量,以藉此提升運作性能。
此外,請參閱第四~五圖所示,為本發明具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例網格51x51之運作速度性能圖與傳統式非平行化模組之運作速度性能圖,該運算之執行係以網格(grid)51×51之能力處理,其中網格計算依歐洲核子研究組織(European Organization for Nuclear Research,簡稱CERN)係定義為透過網際網路來分享強大的計算能力和資料儲存能力;第五圖中之P0
係指單以1個能量處理單元(1)進行運算,而第四圖中之P0
~P7
係以1個能量處理單元(1)與7個協同
處理單元(2)進行充分平行運算,由第四圖和第五圖中運作速度結果可知,其具多維波數位濾波網路模型架構之平行處理系統之運行效能,可超越傳統式非平行化模組有4倍以上之運作速度。
再者,請參閱第六~七圖所示,為具平行處理架構之多維波數位濾波網路模型系統其一較佳實施例之多維波數位濾波網路以網格201×201運算之運作速度性能圖與傳統式非平行化模組之運作速度性能圖,該運算之執行係以運算複雜度增加16倍之網格201×201能力處理;其中第七圖中之P0
亦是以1個能量處理單元(1)進行運算,而第六圖中之P0
~P7
亦是以1個能量處理單元(1)與7個協同處理單元(2)進行充分平行運算,由第六圖和第七圖中運作速度結果可知,其具多維波數位濾波網路模型架構之平行處理系統之運行效能,可超越傳統式非平行化模組有6倍以上之運作速度。
由上述之具平行處理架構之多維波數位濾波網路模型系統之實施說明可知,本發明具有以下優點:
1.本發明之具平行處理架構之多維波數位濾波網路模型系統係藉由流體力學上非常重要的三維度已線性化數位濾波模型之偏微分方程式淺水波系統,有效提升充分並行運算的加速效率。
2.本發明之具平行處理架構之多維波數位濾波網路模型系統係藉由多維波數位濾波網路模型之充分平行運算,使用連續性多維時間分配技術來執行IBM Cell寬頻引擎,藉此提升其運作效能。
3.本發明之具平行處理架構之多維波數位濾波網路模型系統係藉由IBM Cell寬頻引擎具有1個能量處理單元與7個協同處
理單元等8個處理器的並行化模型,以連續性多維時間分配技術達到改變多維數據流量圖之延遲時間以完成平行運算,其性能表現可超越非平行化模組達4倍以上的運作速度。
綜上所述,本發明之具平行處理架構之多維波數位濾波網路模型系統,的確能藉由上述所揭露之實施例,達到所預期之使用功效,且本發明亦未曾公開於申請前,誠已完全符合專利法之規定與要求。爰依法提出發明專利之申請,懇請惠予審查,並賜准專利,則實感德便。
惟,上述所揭之圖示及說明,僅為本發明之較佳實施例,非為限定本發明之保護範圍;大凡熟悉該項技藝之人士,其所依本發明之特徵範疇,所作之其它等效變化或修飾,皆應視為不脫離本發明之設計範疇。
(1)‧‧‧能量處理單元
(2)‧‧‧協同處理單元
(21)‧‧‧本地儲存記憶體
(22)‧‧‧協同處理模組
(23)‧‧‧記憶體流量控制器
(3)‧‧‧多維波數位濾波單元
(31)‧‧‧元件互連匯流排
(4)‧‧‧系統主記憶體
(5)‧‧‧輸入輸出元件
Claims (4)
- 一種具平行處理架構之多維波數位濾波網路模型系統,係至少包括有:一能量處理單元,係一64位元精簡指令集架構之高效率數據處理器,以運行作業系統;八個協同處理單元,係電性連接該能量處理單元,接收該能量處理單元傳送之資料並執行主要運算作業,其中,每一協同處理單元係具有128位元之精簡指令集架構,包含有一256KB本地儲存記憶體、一協同處理模組,以及提供一介面予協同處理模組與外界交換資料之記憶體流量控制器;以及一多維波數位濾波單元,係電性連接該能量處理單元與該協同處理單元,內建有一元件互連匯流排,係接收該能量處理單元與該協同處理單元之訊號傳遞至系統主記憶體與輸入輸出元件之連接介面,該多維波數位濾波單元係以連續性多維時間分配技術達到改變多維數據流圖之延遲時間以完成平行運算,其中該多維數據流圖係以下列關係式定義:
- 如申請專利範圍第1項所述之具平行處理架構之多維波數位濾波網路模型系統,其中該延遲時間係由以下之方程式定義:
- 如申請專利範圍第1項所述之具平行處理架構之多維波數位濾波網路模型系統,其中當向量s S + ,則S + 是正方向的排定空間,其定義如下列方程式:
- 如申請專利範圍第1項所述之具平行處理架構之多維波數位濾波網路模型系統,其中該系統之效能超越傳統式非平行化模組有4倍之運作速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102137207A TWI501149B (zh) | 2013-10-15 | 2013-10-15 | 具平行處理架構之多維波數位濾波網路模型系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW102137207A TWI501149B (zh) | 2013-10-15 | 2013-10-15 | 具平行處理架構之多維波數位濾波網路模型系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201514851A TW201514851A (zh) | 2015-04-16 |
TWI501149B true TWI501149B (zh) | 2015-09-21 |
Family
ID=53437660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102137207A TWI501149B (zh) | 2013-10-15 | 2013-10-15 | 具平行處理架構之多維波數位濾波網路模型系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI501149B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200817877A (en) * | 2006-05-03 | 2008-04-16 | Ibm | Selection of processor cores for optimal thermal performance |
US20090327680A1 (en) * | 2006-06-09 | 2009-12-31 | International Business Machines Corporation | Selecting a Random Processor to Boot on a Multiprocessor System |
TW201140447A (en) * | 2009-12-30 | 2011-11-16 | Ibm | Parallel execution unit that extracts data parallelism at runtime |
US20130013863A1 (en) * | 2009-03-02 | 2013-01-10 | International Business Machines Corporation | Hybrid Caching Techniques and Garbage Collection Using Hybrid Caching Techniques |
-
2013
- 2013-10-15 TW TW102137207A patent/TWI501149B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200817877A (en) * | 2006-05-03 | 2008-04-16 | Ibm | Selection of processor cores for optimal thermal performance |
US20090327680A1 (en) * | 2006-06-09 | 2009-12-31 | International Business Machines Corporation | Selecting a Random Processor to Boot on a Multiprocessor System |
US20130013863A1 (en) * | 2009-03-02 | 2013-01-10 | International Business Machines Corporation | Hybrid Caching Techniques and Garbage Collection Using Hybrid Caching Techniques |
TW201140447A (en) * | 2009-12-30 | 2011-11-16 | Ibm | Parallel execution unit that extracts data parallelism at runtime |
Also Published As
Publication number | Publication date |
---|---|
TW201514851A (zh) | 2015-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109002659B (zh) | 一种基于超级计算机的流体机械仿真程序优化方法 | |
Xue et al. | Enabling and scaling a global shallow-water atmospheric model on Tianhe-2 | |
CN111858465B (zh) | 大规模矩阵qr分解并行计算系统 | |
CN111079078B (zh) | 面向结构网格稀疏矩阵的下三角方程并行求解方法 | |
Martin | Multicore processors: challenges, opportunities, emerging trends | |
CN103279330A (zh) | 一种基于虚拟机GPU计算下的MapReduce并行编程模型 | |
Yang et al. | Performance comparison of cholesky decomposition on GPUs and FPGAs | |
CN103413273A (zh) | 一种基于gpu加速实现图像复原处理方法 | |
Chen et al. | The parallel algorithm implementation of matrix multiplication based on ESCA | |
Huang et al. | Heterogeneous parallel algorithm design and performance optimization for WENO on the Sunway Taihulight supercomputer | |
TWI501149B (zh) | 具平行處理架構之多維波數位濾波網路模型系統 | |
Moustafa et al. | 3D cartesian transport sweep for massively parallel architectures with PARSEC | |
Carabaño et al. | An exploration of heterogeneous systems | |
Waidyasooriya et al. | FPGA implementation of heterogeneous multicore platform with SIMD/MIMD custom accelerators | |
Majumder et al. | On-chip network-enabled multicore platforms targeting maximum likelihood phylogeny reconstruction | |
Inagaki et al. | Performance evaluation of a 3d-stencil library for distributed memory array accelerators | |
CN116774968A (zh) | 具有一组线程束的高效矩阵乘法和加法 | |
Wang et al. | A universal FPGA-based floating-point matrix processor for mobile systems | |
Pakin et al. | The reverse-acceleration model for programming petascale hybrid systems | |
CN102902511A (zh) | 并行信息处理系统 | |
CN113076191A (zh) | 一种集群gpu资源调度系统 | |
Xu et al. | Generalized GPU acceleration for applications employing finite-volume methods | |
Xu et al. | A hybrid open MP/MPI parallel computing model design on the SM cluster | |
Xu et al. | OpenMP4. 5-enabled large-scale heterogeneous Lattice Boltzmann multiphase flow simulations | |
Barrett et al. | Application explorations for future interconnects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |