TWI734151B

TWI734151B - 參數同步方法、電腦裝置及存儲介質

Info

Publication number: TWI734151B
Application number: TW108126272A
Authority: TW
Inventors: 劉政岳
Original assignee: 鴻齡科技股份有限公司
Priority date: 2019-06-28
Filing date: 2019-07-24
Publication date: 2021-07-21
Also published as: CN112148470A; TW202101205A; CN112148470B; US11443191B2; US20200410359A1

Abstract

本發明提供一種參數同步方法、電腦裝置及存儲介質，所述方法包括將一預設模型的深度學習訓練任務導入至與伺服器中；記錄預設數量的反覆運算進程；將每個反覆運算進程根據時間劃分為複數個階段，至少包括主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作階段；判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於預設值；及當判定所占的時間比大於所述預設值時，確定伺服器使用複製模式進行參數同步。

Description

參數同步方法、電腦裝置及存儲介質

本發明涉及深度學習技術領域，尤其涉及一種參數同步方法、電腦裝置及可讀存儲介質。

隨著科學技術的發展，深度學習技術已廣泛地應用於圖像識別、科研技術、金融應用等領域。深度學習需要大量電腦集群進行分散式運算，每個電腦之間存在頻繁的參數交換，每個電腦的GPU與CPU之間也存在大量的資料交換，現有的深度學習平臺在參數同步的過程中，通常無法同時對GPU與CPU的資料進行分析，影響參數同步的效率，而且也不能提供跨平臺服務，導致應用範圍有限。

有鑒於此，有必要提出一種參數同步方法、電腦裝置及可讀存儲介質，以解決上述技術問題。

本申請的第一方面提供一種參數同步方法，應用於電腦裝置中，所述方法包括：將一預設模型的深度學習訓練任務導入至所述電腦裝置中；在深度學習訓練的過程中記錄預設數量的反覆運算進程；對每個反覆運算進程根據時間劃分為複數個階段，其中，所述複數個階段至少包括主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段；判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於一預設值；及當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，確定所述電腦裝置使用複製模式進行參數同步。

本申請的第二方面提供一種電腦裝置，所述電腦裝置包括處理器，所述處理器用於執行記憶體中存儲的電腦程式時實現如前所述參數同步方法。

本申請的協力廠商面提供一種電腦可讀存儲介質，其上存儲有電腦程式，所述電腦程式被處理器執行時實現如前所述參數同步方法。

本發明通過分析深度學習訓練過程中的每次反覆運算行為，以建議最佳的性能參數同步方法，提高了參數同步的效率，進一步提高了深度學習的訓練效率。

1:電腦裝置

10:處理器

100:參數同步系統

101:導入模組

102:記錄模組

103:劃分模組

104:判斷模組

105:確定模組

20:記憶體

30:電腦程式

2:伺服器

S10-S70:步驟

圖1是本發明實施例一提供的參數同步方法的應用環境架構示意圖。

圖2是本發明實施例二提供的參數同步方法的流程圖。

圖3是本發明實施例三提供的參數同步系統的結構示意圖。

圖4是本發明實施例四提供的電腦裝置示意圖。

為了能夠更清楚地理解本發明的上述目的、特徵和優點，下面結合附圖和具體實施例對本發明進行詳細描述。需要說明的是，在不衝突的情況下，本申請的實施例及實施例中的特徵可以相互組合。

在下面的描述中闡述了很多具體細節以便於充分理解本發明，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

除非另有定義，本文所使用的所有的技術和科學術語與屬於本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的，不是旨在於限制本發明。

實施例一

參閱圖1所示，為本發明實施例一提供的參數同步方法的應用環境架構示意圖。

本發明中的參數同步方法應用在電腦裝置1中，所述電腦裝置1與至少一個伺服器2通過網路建立通信連接。所述網路可以是有線網路，也可以是無線網路，例如無線電、無線保真(Wireless Fidelity,WIFI)、蜂窩、衛星、廣播等。

所述電腦裝置1可以為安裝有參數同步程式的電子設備，例如個人電腦、伺服器等，其中，所述伺服器可以是單一的伺服器、伺服器集群或雲端伺服器等。

所述伺服器2可以是單一的伺服器、伺服器集群或雲端伺服器等。

實施例二

請參閱圖2所示，是本發明第二實施例提供的參數同步方法的流程圖。根據不同的需求，所述流程圖中步驟的順序可以改變，某些步驟可以省略。

步驟S10，將一預設模型的深度學習訓練任務導入至與所述電腦裝置1通信連接的伺服器2中。

在本實施方式中，所述預設模型可以是基於圖像識別、金融分類等的神經網路模型。所述步驟S10還包括當所述預設模型的深度學習訓練任務導入至所述伺服器2中之後，控制性能分析工具記錄訓練過程中的程式跟蹤。在本實施方式中，所述性能分析工具為SOFA(Swarm-Oriented Function Call Analysis，面向群的函式呼叫分析)。

步驟S20，在深度學習訓練的過程中記錄預設數量的反覆運算進程。

在本實施方式中，所述性能分析工具SOFA檢索到的每個反覆運算追蹤是互相隔離的，因此，所述步驟S20具體包括根據檢索到的所述反覆運算跟蹤距離所述預設數量的反覆運算進程。其中，所述預設數量為10個。

步驟S30，控制所述性能分析工具記錄每個反覆運算進程的性能指標。

在本實施方式中，所述性能指標至少包括每個反覆運算進程的持續時間及PCIE(Peripheral Component Interface Express，高速串列電腦擴展匯流排標準)頻寬。

步驟S40，將每個反覆運算進程根據時間劃分為複數個階段。

在本實施方式中，所述複數個階段至少包括主機複製資料至GPU設備的階段H2D、GPU設備複製資料至主機的階段D2H及CPU端工作的階段、正向傳播階段FW及反向傳播階段BW。其中，CPU端工作的階段為每兩個連續反覆運算進程之間的間隙時間。

具體的，所述步驟S40包括預設複數個功能符號作為反覆運算進程中每個階段開始與結束的標識，然後根據預設的所述複數個功能符號生成所述複數個階段。其中，所述功能符號為內核名稱，所述內核名稱至少包括向前傳播時間FW、向後傳播時間BW及資料複製。

例如，H2D階段包括從第一個H2D時間點到第一個FW時間點，FW階段包括從第一個FW開始時間點到第一個BW時間點，BW+D2H階段包括從第一個BW時間點到最後一個D2H時間點。

步驟S50，判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於一預設值。

在本實施方式中，通過計算每個階段的持續時間以判斷主機複製資料至GPU設備的階段H2D、GPU設備複製資料至主機的階段D2H及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於所述預設值。

具體的，所述步驟S50包括根據檢索到的反覆運算跟蹤及系統組態預估資料複製的可能時間，根據預估的資料複製時間生成預估的持續時間。例如，假設每次反覆運算進程中，資料複製的大小為100MB，上述確定的PCIE頻寬為10GB/s，則所述資料複製的持續時間為1ms。即，所述步驟S50通過每個階段資料複製量的大小及每個階段的頻寬計算每個階段的持續時間，進一步計算H2D、D2H及CPU的持續時間之和與所述反覆運算進程的總時間的比例，並判斷所述比例是否大於所述預設值。

在本實施方式中，所述預設值為40%。在其他實施方式中，所述預設值也可以根據需求設置為其他數值。

步驟S60，當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，確定所述伺服器2使用複製模式進行參數同步。

在本實施方式中，當主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，說明CPU端的工作時間以及CPU端與GPU端之間資料交互的時間占主導地位，採用複製模式進行參數同步可以減少CPU端與GPU端的工作負荷。

步驟S70，當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比小於或等於所述預設值時，確定所述伺服器2使用參數伺服器模式進行參數同步。

在本實施方式中，當主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比小於或等於所述預設值時，說明正向傳播階段FW與反向傳播階段BW的持續時間占主導地位，採用參數伺服器模式進行參數同步可以適當提高CPU端與GPU端的利用率。

進一步地，所述參數同步方法還可包括步驟：根據主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比輸出如何更改系統組態的提示。例如，當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，提示增設伺服器或增加頻寬。當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及GPU工作的階段在每個反覆運算進程中所占的時間比小於或等於所述預設值時，提示減少伺服器或減少頻寬。

應所述瞭解，所述實施例僅為說明之用，在專利申請範圍上並不受此結構的限制。

實施例三

圖3為本發明參數同步系統較佳實施例的結構圖。

在一些實施例中，參數同步系統100運行於電腦裝置1中。所述電腦裝置1通過網路連接了複數個伺服器2。所述參數同步系統100可以包括複數個由程式碼段所組成的功能模組。所述參數同步系統100中的各個程式段的程式碼可以存儲於電腦裝置1的記憶體中，並由所述至少一個處理器所執行，以實現參數同步功能。

本實施例中，所述參數同步系統100根據其所執行的功能，可以被劃分為複數個功能模組。參閱圖4所示，所述功能模組可以包括：導入模組101、記錄模組102、劃分模組103、判斷模組104及確定模組105。本發明所稱的模組是指一種能夠被至少一個處理器所執行並且能夠完成固定功能的一系列電腦程式段，其存儲在記憶體中。在本實施例中，關於各模組的功能將在後續的實施例中詳述。

所述導入模組101用於將一預設模型的深度學習訓練任務導入至與所述電腦裝置1通信連接的伺服器2中。

所述記錄模組102用於在深度學習訓練的過程中記錄預設數量的反覆運算進程。

所述記錄模組103還用於控制所述性能分析工具記錄每個反覆運算進程的性能指標。

所述劃分模組104用於將每個反覆運算進程根據時間劃分為複數個階段。

所述判斷模組105用於判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於一預設值。

所述確定模組106用於當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，確定所述伺服器2使用複製模式進行參數同步。

所述確定模組107還用於當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比小於或等於所述預設值時，確定所述伺服器使用參數伺服器模式進行參數同步。

實施例四

圖4為本發明電腦裝置較佳實施例的示意圖。

所述電腦裝置1包括處理器10、記憶體20、以及存儲在所述記憶體20中並可在所述處理器10上運行的電腦程式30，例如參數同步程式。所述處理器10執行所述電腦程式30時實現上述參數同步實施例中的步驟，例如圖2所示的步驟S10~S70。或者，所述處理器10執行所述電腦程式30時實現上述參數同步系統實施例中各模組/單元的功能，例如圖3中的模組101-105。

示例性的，所述電腦程式30可以被分割成一個或複數個模組/單元，所述一個或者複數個模組/單元被存儲在所述記憶體20中，並由所述處理器10執行，以完成本發明。所述一個或複數個模組/單元可以是能夠完成特定功能的一系列電腦程式指令段，所述指令段用於描述所述電腦程式30在所述電腦裝置1中的執行過程。例如，所述電腦程式30可以被分割成圖4中的：導入模組101、記錄模組102、劃分模組103、判斷模組104及確定模組105。各模組具體功能參見實施例三。

所述電腦裝置1可以是桌上型電腦、筆記本、掌上型電腦及雲端伺服器等計算設備。本領域技術人員可以理解，所述示意圖僅僅是電腦裝置1的示例，並不構成對電腦裝置1的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電腦裝置1還可以包括輸入輸出設備、網路接入設備、匯流排等。

所稱處理器10可以是中央處理單元(Central Processing Unit，CPU)，還可以是其他通用處理器、數位訊號處理器(Digital Signal Processor，DSP)、專用積體電路(Application Specific Integrated Circuit，ASIC)、現成可程式設計閘陣列(Field-Programmable Gate Array，FPGA)或者其他可程式設計邏輯器件、分立門或者電晶體邏輯器件、分立硬體元件等。通用處理器可以是微處理器或者所述處理器10也可以是任何常規的處理器等，所述處理器10是所述電腦裝置1的控制中心，利用各種介面和線路連接整個電腦裝置1的各個部分。

所述記憶體20可用於存儲所述電腦程式30和/或模組/單元，所述處理器10通過運行或執行存儲在所述記憶體20內的電腦程式和/或模組/單元，以及調用存儲在記憶體20內的資料，實現所述電腦裝置1的各種功能。所述記憶體20可主要包括存儲程式區和存儲資料區，其中，存儲程式區可存儲作業系統、至少一個功能所需的應用程式(比如聲音播放功能、圖像播放功能等)等；存儲資料區可存儲根據電腦裝置1的使用所創建的資料(比如音訊資料、電話本等)等。此外，記憶體20可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如硬碟、記憶體、插接式硬碟，智慧存儲卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，快閃記憶體卡(Flash Card)、至少一個磁碟記憶體件、快閃記憶體器件、或其他易失性固態記憶體件。

所述電腦裝置1集成的模組/單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個電腦可讀取存儲介質中。基於這樣的理解，本發明實現上述實施例方法中的全部或部分流程，也可以通過電腦程式來指令相關的硬體來完成，所述的電腦程式可存儲於一電腦可讀存儲介質中，所述電腦程式在被處理器執行時，可實現上述各個方法實施例的步驟。其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、U盤、移動硬碟、磁碟、光碟、電腦記憶體、唯讀記憶體(ROM，Read-Only Memory)、隨機存取記憶體(RAM，Random Access Memory)、電載波信號、電信信號以及軟體分發介質等。需要說明的是，所述電腦可讀介質包含的內容可以根據司法管轄區內立法和專利實踐的要求進行適當的增減，例如在某些司法管轄區，根據立法和專利實踐，電腦可讀介質不包括電載波信號和電信信號。

在本發明所提供的幾個實施例中，應所述理解到，所揭露的電腦裝置和方法，可以通過其它的方式實現。例如，以上所描述的電腦裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

另外，在本發明各個實施例中的各功能單元可以集成在相同處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在相同單元中。上述集成的單元既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。

對於本領域技術人員而言，顯然本發明不限於上述示範性實施例的細節，而且在不背離本發明的精神或基本特徵的情況下，能夠以其他的具體形式實現本發明。因此，無論從哪一點來看，均應將實施例看作是示範性的，而且是非限制性的，本發明的範圍由所附申請專利範圍而不是上述說明限定，因此旨在將落在申請專利範圍的等同要件的含義和範圍內的所有變化涵括在本發明內。不應將申請專利範圍中的任何附圖標記視為限制所涉及的申請專利範圍。此外，顯然“包括”一詞不排除其他單元或步驟，單數不排除複數。電腦裝置申請專利範圍中陳述的複數個單元或電腦裝置也可以由同一個單元或電腦裝置通過軟體或者硬體來實現。第一，第二等詞語用來表示名稱，而並不表示任何特定的順序。

綜上所述，本發明符合發明專利要件，爰依法提出專利申請。惟，以上所述者僅為本發明之較佳實施方式，舉凡熟悉本案技藝之人士，於爰依本發明精神所作之等效修飾或變化，皆應涵蓋於以下之申請專利範圍內。

S10-S70:步驟

Claims

一種參數同步方法，應用於電腦裝置中，其改良在於，所述方法包括：將一預設模型的深度學習訓練任務導入至與所述電腦裝置通信連接的伺服器中；在深度學習訓練的過程中記錄預設數量的反覆運算進程；將每個反覆運算進程根據時間劃分為複數個階段，其中，所述複數個階段至少包括主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段；判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於一預設值；及當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比大於所述預設值時，確定所述伺服器使用複製模式進行參數同步。
如請求項1所述之參數同步方法，其中，所述方法還包括：當判定主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比小於或等於所述預設值時，確定所述伺服器使用參數伺服器模式進行參數同步。
如請求項1所述之參數同步方法，其中，“在深度學習訓練的過程中記錄預設數量的反覆運算進程”具體包括：在深度學習訓練的過程中控制一性能分析工具檢索每個反覆運算追蹤，其中，每個反覆運算跟蹤之間互相隔離；及根據所述反覆運算跟蹤記錄所述預設數量的反覆運算進程。
如請求項3所述之參數同步方法，其中，所述方法還包括：控制所述性能分析工具記錄每個反覆運算進程的性能指標，其中，所述性能指標至少包括持續時間及PCIE頻寬。
如請求項4所述之參數同步方法，其中，“將每個反覆運算進程根據時間劃分為複數個階段”具體包括：預設複數個功能符號作為反覆運算進程中每個階段開始與結束的標識；及根據預設的所述複數個功能符號生成所述複數個階段。
如請求項5所述之參數同步方法，其中，“判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於一預設值”具體包括：通過計算每個階段的持續以判斷主機複製資料至GPU設備的階段、GPU設備複製資料至主機的階段及CPU工作的階段在每個反覆運算進程中所占的時間比是否大於所述預設值。
如請求項5所述之參數同步方法，其中，所述功能符號為內核名稱，其中，所述內核名稱至少包括向前傳播時間FW、向後傳播時間BW及資料複製。
如請求項6所述之參數同步方法，其中，“計算每個階段的時間占比”具體包括：根據檢索到的反覆運算跟蹤及系統組態預估資料複製的可能時間；及根據預估的資料複製時間生成預估的持續時間。
一種電腦裝置，其改良在於，所述電腦裝置包括處理器，所述處理器用於執行記憶體中存儲的電腦程式時實現如請求項1-8中任一項所述的參數同步方法。
一種電腦可讀存儲介質，其上存儲有電腦程式，其改良在於，所述電腦程式被處理器執行時實現如請求項1-8中任一項所述的參數同步方法。