TWI734072B

TWI734072B - Gpu加速優化方法、裝置及電腦存儲介質

Info

Publication number: TWI734072B
Application number: TW108102809A
Authority: TW
Inventors: 邱國鈞
Original assignee: 鴻齡科技股份有限公司
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2021-07-21
Also published as: TW202028973A

Abstract

本發明提出一種GPU加速優化方法，GPU加速優化方法包括如下步驟：接收用戶發送的GPU使用資源請求；根據GPU使用資源請求計算GPU使用數量；根據GPU使用數量對GPU進行排布，以使GPU數據傳輸最大化；利用排布後的GPU處理GPU使用資源請求。本發明還對應提供了GPU加速優化裝置與電腦存儲介質。使用本發明提供的GPU加速優化方法，根據使用者的發送的使用資源請求，合理佈局GPU，提高GPU操作性能。

Description

GPU加速優化方法、裝置及電腦存儲介質

本發明涉及電腦應用技術，特別係一種GPU(Graphics Processing Unit，影像處理器)加速優化方法、裝置及電腦存儲介質。

目前，GPU加速計算係將GPU與CPU結合使用，進而加速深度學習。先前技術中，為了使得GPU產生最大化利用率，一般採用排程對GPU進行優化，將任務分配至資源的過程。例如，SLURM/LSF/BPS調度傳入的作業與任務。惟於上述排程中，最大化提高GPU的利用率，PCIe(總線埠，Peripheral Component Interconnect Express)交換機的總線帶寬成為瓶頸，具有一定限制，GPU的加速提高程度有限。

鑒於上述狀況，有必要提供一種GPU加速優化方法、裝置及電腦存儲介質，合理排布GPU，優化GPU計算性能，以解決上述問題。

本發明第一方面提供了一種GPU加速優化方法，複數所述GPU通過交換機與CPU進行數據交互，所述GPU的數量大於或等於所述交換機的數量，且所述交換機的數量大於或等於所述CPU的數量，所述GPU加速優化方法包括如下步驟：接收用戶發送的GPU使用資源請求；根據所述GPU使用資源請求計算GPU使用數量；根據所述GPU使用數量對所述GPU進行排布，以使所述GPU數據傳輸最大化；利用排布後的所述GPU處理所述GPU使用資源請求。

本發明第二方面還提供了一種GPU加速優化裝置，複數所述GPU通過交換機與CPU進行數據交互，所述GPU的數量大於或等於所述交換機的數量，且所述交換機的數量大於或等於所述CPU的數量，GPU加速優化裝置包括：通信單元，用於所述GPU與所述交換機之間及所述交換機與所述CPU之間建立通信連接；處理器；以及存儲器，所述存儲器中存儲有複數程式模塊，複數所述程式模塊由所述處理器運行並執行如下步驟：接收用戶發送的GPU使用資源請求；根據所述GPU使用資源請求計算GPU使用數量；根據所述GPU使用數量對所述GPU進行排布，以使所述GPU數據傳輸最大化；利用排布後的所述GPU處理所述GPU使用資源請求。

本發明第三方面還提供了一種電腦存儲介質，所述電腦存儲介質存儲有電腦程式代碼，當所述電腦程式代碼於計算設備上運行時，導致所述計算設備執行上述所述的GPU加速優化方法。

本發明提供的GPU加速優化方法，根據GPU使用資源請求計算GPU使用數量，再根據GPU使用數量對GPU進行佈局，以使GPU數據傳輸最大化。本發明還對應提供了GPU加速優化裝置與電腦存儲介質。使用本發明提供的GPU加速優化方法，根據使用者的發送的使用資源請求，合理佈局GPU，提高GPU操作性能。

10:GPU加速優化裝置

100:通信單元

200:處理器

300:存儲器

400:數據處理系統

410:資源接收模塊

420:資源計算模塊

430:排布模塊

440:數據處理模塊

510,520,530,540, 550,560,570,580:GPU

610,620,630,640:交換機

710,720:CPU

圖1係本發明一個實施例中的GPU加速優化裝置的架構示意圖。

圖2係本發明一個實施例中的GPU加速優化裝置內的數據處理系統的模塊示意圖。

圖3係本發明一個實施例中的GPU加速優化方法的流程示意圖。

圖4係本發明一個實施例中的GPU排布的第一種情況的示意圖。

圖5係本發明一個實施例中的GPU排布的第二種情況的示意圖。

圖6係本發明一個實施例中的GPU排布的第三種情況的示意圖。

為了能夠更清楚地理解本發明的上述目的、特徵與優點，下面結合附圖與具體實施方式對本發明進行詳細描述。需要說明的係，於不衝突的情況下，本申請的實施方式及實施方式中的特徵可相互組合。

於下面的描述中闡述了很多具體細節以便於充分理解本發明，所描述的實施方式僅係本發明一部分實施方式，而不係全部的實施方式。基於本發明中的實施方式，本領域普通技術人員於沒有做出創造性勞動前提下所獲得的所有其它實施方式，均屬於本發明保護的範圍。

除非另有定義，本文所使用的所有的技術與科學術語與屬於本發明的技術領域的技術人員通常理解的含義相同。本文中於本發明的說明書中所使用的術語只係為了描述具體的實施方式的目的，不係旨在限制本發明。

本文所使用的術語“及/或”包括一個或複數相關的所列項目的任意的與所有的組合。

請參照圖1，本發明提供了一種GPU加速優化裝置10，複數GPU通過交換機(Switch)與CPU進行數據交互。兩個GPU之間可進行數據交換，GPU與交換機、交換機與CPU之間可進行互動式連接，兩個CPU之間可進行QPI(快速通道互聯，又名CSI，Common System Interface)連接。GPU的數量大於或等於交換機的數量，且交換機的數量大於或等於CPU的數量。於本實施例中，交換機包括但不限於使用PCIe交換機。

具體地，該GPU加速優化裝置10包括通信單元100、處理器200與存儲器300。處理器200電連接於通信單元100與存儲器300之間。

通信單元100實現GPU與GPU之間、GPU與交換機之間及交換機與CPU之間建立通信連接。於本實施例中，通信單元100通過無線網路與其他移動終端建立通信連接，無線網路可係，但並不限於，WIFI、藍牙、蜂窩移動網路、衛星網路等。

具體地，於本實施例方式中，通信單元100還包括獨立的連接埠，該連接埠包括但限於以下埠：D-Sub端介面、D-Sub埠、DVI-I端與Video-In & Video-Out埠、複合視頻端子、S端子與增強型S端子、DVI埠與HDMI埠。

存儲器300用於存儲GPU中的各類數據，例如處理數據的程式碼等，並於GPU的運行過程中實現高速、自動地完成程式或數據的存取。

存儲器300還存儲有計算GPU使用數量的計算公式，用於根據使用者的使用資源請求計算當前用戶請求下GPU的使用數量。存儲器300還存儲有GPU的排布原則與GPU的索引規則。

存儲器300可係，但並不限於，唯讀存儲器(Read-Only Memory，ROM)、隨機存儲器(Random Access Memory，RAM)、可程式設計唯讀存儲器(Programmable Read-Only Memory，PROM)、可擦除可程式設計唯讀存儲器(Erasable Programmable Read-Only Memory，EPROM)、一次可程式設計唯讀存儲器(One-time Programmable Read-Only Memory，OTPROM)、電子擦除式可複寫唯讀存儲器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、唯讀光碟(Compact Disc Read-Only Memory，CD-ROM)或其他光碟存儲器、磁碟存儲器、磁帶存儲器、或者能夠用於攜帶或存儲數據的電腦可讀的任何其他介質。

處理器200為數位訊號處理器(DSP，Digital Signal Processor)、微控制單元(MCU，Microcontroller Unit)、嵌入式電腦處理器(ARM，Advanced RISC Machine)、現場可程式設計閘陣列(FPGA，Field-Programmable Gate Array)、中央處理器(CPU，Central Processing Unit)、單片機、系統級晶片(SoC，System on Chip)或其它等同專用晶片。

請參照圖2，GPU加速優化裝置10中還運行有一數據處理系統400，數據處理系統400包括一個或複數程式形式的電腦指令，該一個或複數程式形式的電腦指令儲存於存儲器300中，並由處理器200處理。圖2為本發明一實施例中數據處理系統400的功能模塊示意圖。具體地，數據處理系統400包括資源接收模塊410，資源計算模塊420、排布模塊430與數據處理模塊440。

資源接收模塊410用於接收使用者發送的GPU的使用資源請求。

資源計算模塊420用於根據預設的計算規則對上述使用資源請求進行計算，進而得出處理上述GPU資源所需要的使用數量。

計算規則具體為根據使用資源請求本身、完成時間與費用等因素決定。例如，如果係使用資源請求本身較簡單，數據量比較少，需要GPU的運算需求比較少，則可用較少的GPU來運算，反之則需要較多的GPU來運算資源。如果有完成時間壓力，需要儘快完成運算，則需要較多的GPU資源。理論上使用越多的GPU資源可越快完成使用資源請求的計算，惟加入需承擔的費用，則需要花費更多的費用來完成這一次的計算任務。使用者根據上述影響因素決定其需處理的使用資源請求需要的GPU的使用數量。

排布模塊430用於根據GPU的使用數量與預設的排布原則對GPU與交換機以及CPU之間的排布關係進行重新排布，以合理安排GPU資源達到GPU優化加速的目的。

於本實施例中，分三種情況。第一種情況，當資源計算模塊420計算出GPU的使用數量小於等於第一數量閾值，排布模塊430將每個GPU佈局於每個交換機下。第二種情況，當資源計算模塊420計算出GPU的使用數量大於第一數量閾值小於第二數量閾值時，排布模塊430佈局GPU以使交換機的頻寬最大化。第三種情況，當資源計算模塊420計算出GPU的使用數量大於等於第二數量閾值時，排布模塊430佈局複數GPU以使其成為環狀索引。具體佈局方法將於GPU加速優化方法中詳細闡述。

數據處理模塊440用於GPU處理使用資源請求。

請參照圖3，本發明提供了一種GPU加速優化方法，具體包括如下步驟：

步驟S301，接收使用者發送的GPU使用資源請求。

資源接收模塊410接收使用者發送的GPU使用資源請求。

步驟S302，根據GPU使用資源請求計算GPU使用數量。

資源計算模塊420根據預設的計算規則對GPU使用資源請求進行計算，進而得出處理該GPU使用資源請求的所需要的GPU使用數量。

具體而言，計算規則為根據使用資源請求本身、完成時間與費用等因素決定。比如，如果係使用資源請求本身較簡單，數據量比較少，需要GPU運算比較少，則可用較少的GPU來運算，反之則需要較多的GPU運算資源。如果有完成時間壓力，需要儘快完成運算，則需要較多的GPU資源。理論上使用越多的GPU資源可越快完成使用資源請求的計算，惟加入需承擔的費用，則需要花費更多的費用來完成這一次的計算任務。使用者根據上述影響因素決定其需處理的使用資源請求需要的GPU的使用數量。

步驟S303，根據GPU使用數量對GPU進行排布，以使GPU數據傳輸最大化。

排布模塊430根據GPU的使用數量與預設的排布原則對GPU與交換機以及CPU之間的排布關係進行重新排布，以合理安排GPU資源達到GPU優化加速的目的。存儲器300內存儲有上述排布原則。

排布原則如下：第一種情況，如圖4所示，當資源計算模塊420計算出GPU使用數量小於或等於預設的第一數量閾值時，排布模塊430將每個GPU對應通信連接一交換機，交換機與同一個CPU進行數據交互。例如，於本實施例中，第一數量閾值為2個。當GPU的使用數量為2個時，選擇GPU510與GPU520。GPU510與GPU520對應通信連接交換機610與交換機620，交換機610與交換機620與同一個CPU710進行數據交互。

第二種情況，如圖5所示，當資源計算模塊420計算出GPU數量大於第一數量閾值且小於預設的第二數量閾值時，排布模塊430平均分配GPU多組GPU，每組GPU對應通信連接一交換機，形成一聯合體，平均分配聯合體形成多組聯合體，多組聯合體與至少兩個CPU進行數據交互。例如，於本實施例中，第二數量閾值為8個。當GPU的使用數量為5個時，使用4個交換機(610，610，630與640)與2個CPU(710與720)。將GPU分配成4組，其中GPU510與GPU550為一組，GPU520、GPU530與GPU540各自成組。每組GPU連接一交換機形成一聯合體，其中GPU510與GPU550與交換機610形成一組聯合體，GPU520與交換機620形成一組聯合體，GPU530與交換機630形成一組聯合體，GPU540與交換機640形成一組聯合體。每組聯合體與分別與一CPU連接進行數據交互。具體地，交換機610與交換機620與CPU710連接，交換機630與交換機640與CPU720連接。

可理解的係，於第二種情況下，若GPU的數量為4個，比如GPU510、GPU520、GPU530與GPU540，每個GPU各自成組，進行數據交互。

於第二種情況下，每組GPU對應通信連接一交換機，形成一聯合體，平均分配聯合體形成多組聯合體，多組聯合體與至少兩個CPU進行數據交互，可使交換機的頻寬達到最大化。

採用上述兩種GPU的排布方式，GPU之間需要交換彼此的權重(gradients)。交換的方式可使用集權式的方式，每個GPU均將權重傳送到CPU，經CPU計算完後再回傳到各個CPU。

第三種情況，如圖6所示，當資源計算模塊420計算出GPU數量大於或等於第二數量閾值時，排布模塊430按照預設的索引規則排布複數GPU形成環狀索引，環狀索引的GPU通過至少一個交換與CPU進行數據交互。索引規則具體為使用先前技術中NVlink連接，詳細過程在此不贅述。例如，當GPU的使用數量為8個時，使用4個交換機(610，620，630與640)與2個CPU(710與730)。8個GPU為GPU510、GPU520、GPU530、GPU540、GPU550、GPU560、GPU570與GPU580。改變各個GPU的索引關係，使8個GPU成為環狀連接。具體地，根據預設的索引規則，通過NVlink改變GPU的索引號，使其形成GPU510、GPU520、GPU530、GPU540、GPU550、GPU560、GPU570與GPU580依次首尾相連的環狀結構。GPU510與GPU580與交換機610連接，GPU520與GPU570與交換機620連接，GPU530與GPU560與交換機630連接，GPU540與GPU550與交換機640連接。交換機610與交換機620與CPU710連接，交換機630與交換機640與CPU720連接。

NVlink採用點對點結構、串列傳輸，用於中央處理器(CPU)與圖形處理器(GPU)之間的連接，亦可用於複數圖形處理器之間的相互連接。

可理解的係，根據預設的索引規則，該連接關係可根據使用者的使用請求進行改變。

改變GPU間的索引關係，使其成為環狀索引，環狀索引的GPU於處理使用資源請求時，可減少GPU與CPU間的數據移動。使用環狀索引的GPU處理使用資源，則GPU之間的權重值不會受到GPU與GPU之間頻寬的限制。通過NVlink加速GPU與GPU之間的通信，進而減少處理時間，GPU之間的數據傳輸更加高效，進而獲得較好的優化加速功能。

步驟S304，利用排布後的GPU處理GPU使用資源請求。

處理器200利用上述不同情況排布後的GPU處理用戶發送的使用資源請求，數據處理模塊440對上述使用資源請求進行處理。

本發明提供的GPU加速優化方法，根據GPU使用資源請求計算GPU使用數量，再根據GPU使用數量對GPU進行佈局，以使GPU數據傳輸最大化。使用本發明的GPU加速優化方法，合理佈局GPU，提高GPU操作性能。

本發明提供的GPU加速優化方法，可試用於圖像計算、深度學習訓練等領域。

對於本領域技術人員而言，顯然本發明不限於上述示範性實施例的細節，而且於不背離本發明的精神或基本特徵的情況下，能夠以其他的具體形式實現本發明。因此，無論從哪一點來看，均應將實施例看作係示範性的，而且係非限制性的，本發明的範圍由所附請求項而不係上述說明限定，因此旨在將落在請求項的等同要件的含義與範圍內的所有變化涵括於本發明內。不應將請求項中的任何附圖標記視為限制所涉及的請求項。此外，顯然“包括”一詞不排除其他器或步驟，單數不排除複數。電腦裝置請求項中陳述的複數器或電腦裝置亦可由同一個器或電腦裝置通過軟體或者硬體來實現。第一，第二等詞語用來表示名稱，而並不表示任何特定的順序。

最後應說明的係，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神與範圍。

400:數據處理系統

410:資源接收模塊

420:資源計算模塊

430:排布模塊

440:數據處理模塊

Claims

一種GPU加速優化方法，複數所述GPU通過交換機與CPU進行數據交互，所述GPU的數量大於或等於所述交換機的數量，且所述交換機的數量大於或等於所述CPU的數量，其改良在於，所述GPU加速優化方法包括如下步驟：接收用戶發送的GPU使用資源請求；根據所述GPU使用資源請求計算GPU使用數量；根據所述GPU使用數量對所述GPU進行排布，以使所述GPU數據傳輸最大化，當所述GPU數量大於第一數量閾值且小於第二數量閾值時，平均分配所述GPU以形成多組GPU，每組所述GPU對應通信連接一所述交換機，形成一聯合體，平均分配所述聯合體形成多組聯合體，多組所述聯合體與至少兩個所述CPU進行數據交互；利用排布後的所述GPU處理所述GPU使用資源請求。
如請求項1所述之GPU加速優化方法，其中，所述根據所述GPU使用數量對所述GPU進行排布，包括如下步驟：當所述GPU使用數量小於或等於所述第一數量閾值時，每個所述GPU對應通信連接一所述交換機，所述交換機與同一個CPU進行數據交互。
如請求項1所述之GPU加速優化方法，其中，所述根據所述GPU使用數量對所述GPU進行排布，還包括如下步驟：當所述GPU數量大於或等於所述第二數量閾值時，按照預設的索引規則排布複數所述GPU形成環狀索引，所述環狀索引的GPU通過至少一個所述交換與所述CPU進行數據交互。
如請求項3所述之GPU加速優化方法，其中，所述預設的索引規則為通過NVlink改變所述GPU的索引號；所述第一數量閾值為2個，所述第二數量閾值為8個。
一種GPU加速優化裝置，複數所述GPU通過交換機與CPU進行數據交互，所述GPU的數量大於或等於所述交換機的數量，且所述交換機的數量大於或等於所述CPU的數量，其改良在於，GPU加速優化裝置包括：通信單元，用於實現所述GPU與所述交換機之間及所述交換機與所述CPU之間建立通信連接；處理器；以及存儲器，所述存儲器中存儲有複數程式模塊，複數所述程式模塊由所述處理器運行並執行如下步驟：接收用戶發送的GPU使用資源請求；根據所述GPU使用資源請求計算GPU使用數量；根據所述GPU使用數量對所述GPU進行排布，以使所述GPU數據傳輸最大化，當所述GPU數量大於第一數量閾值且小於第二數量閾值時，平均分配所述GPU以形成多組GPU，每組所述GPU對應通信連接一所述交換機，形成一聯合體，平均分配所述聯合體形成多組聯合體，多組所述聯合體與至少兩個所述CPU進行數據交互；利用排布後的所述GPU處理所述GPU使用資源請求。
如請求項5所述之GPU加速優化裝置，其中，複數所述程式模塊由所述處理器運行並還執行如下步驟：當所述GPU使用數量小於或等於所述第一數量閾值時，每個所述GPU對應通信連接一所述交換機，所述交換機與同一個CPU進行數據交互。
如請求項5所述之GPU加速優化裝置，其中，複數所述程式模塊由所述處理器運行並還執行如下步驟：當所述GPU數量大於或等於所述第二數量閾值時，按照預設的索引規則排布複數所述GPU形成環狀索引；所述預設的索引規則為通過NVlink改變所述GPU的索引號；所述第一數量閾值為2個，所述第二數量閾值為8個。
一種電腦存儲介質，所述電腦存儲介質存儲有電腦程式代碼，其改良在於，當所述電腦程式代碼於計算設備上運行時，導致所述計算設備執行如請求項1至4任一項所述的GPU加速優化方法。