TW202201284A

TW202201284A - 自動機器學習系統效能調優方法、裝置、設備及介質

Info

Publication number: TW202201284A
Application number: TW109120932A
Authority: TW
Inventors: 劉政岳; 呂宜鴻
Original assignee: 新加坡商雲網科技新加坡有限公司
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2022-01-01
Also published as: TWI770534B

Abstract

一種自動機器學習系統效能調優方法、裝置、設備及介質，應用於與自動機器學習系統連接的效能調優裝置，包括獲取自動機器學習系統的預設應用程式介面及系統資源，在自動機器學習系統對一候選深度學習訓練模型進行預訓練時，根據預設應用程式介面獲取其對應的效能指標量測值，根據效能指標量測值及系統資源確定分發策略和/或資源配置策略，根據分發策略和/或資源配置策略對所述候選深度學習訓練模型進行計算資源配置，以使得候選深度學習訓練模型基於所述計算資源配置進行訓練。實現計算資源的動態分配，提高訓練性能。

Description

自動機器學習系統效能調優方法、裝置、設備及介質

本發明涉及一種自動機器學習系統效能調優方法、裝置、設備及介質。

自動化機器學習（Automated Machine Learning, AutoML)技術是當前機器學習領域熱點研究和迅速發展的方向之一，它是將自動化和機器學習結合的方式，是一種自動機器學習系統，將機器學習中的資料預處理、特徵選擇、演算法選擇等步驟與深度學習中的模型架構設計和模型訓練等步驟相結合，將其放在一個“黑箱”裡，透過黑箱，使用者只需要輸入資料，就可以得到其想要的預測結果。國內外許多公司紛紛將AutoML技術集成到自研AI平臺中，降低演算法工程師調參試錯成本，加速機器學習模型的構建和落地。現有AutoML平臺產品包括：Cloud AutoML、EasyDL、雲PAI、DarwinML、AI Prophet AutoML、智易科技。

自動化機器學習從特徵工程、模型構建、超參優化三方面實現自動化。自動化機器學習可分為兩類，一類支援的模型類別為分類或回歸時，使用的技術包括概率矩陣分解和貝葉斯優化，其計算量較少，因此實現成本較低。另一類支援的模型類別為用於分類的卷積神經網路（CNN）、迴圈神經網路（RNN）、長短期記憶網路（LSTM），使用的技術包括帶梯度策略更新的強化學習、高效神經架構搜索，其使用一個透過迴圈訓練的 RNN 控制器，對候選架構（即子模型）進行採樣，然後對該候選架構進行訓練，以測量其在期望任務中的性能，接著，控制器使用性能作為指導訊號，以找到更有前景的架構。神經架構搜索在計算上成本昂貴及耗時。

綜上，使用AutoML進行深度學習時，開發神經網路的過程需要消耗大量的計算能力，而為每個隨機選擇的候選架構請求的計算資源是不同的，存在計算資源配置過度或分配不足的問題。

鑒於上述內容，有必要提供一種自動機器學習系統效能調優方法、裝置、設備及介質，對所述自動機器學習的中的深度學習訓練模型的計算資源進行動態分配，解決計算資源配置過度或分配不足的問題，提高自動機器學習訓練性能。

本申請一實施方式提供一種自動機器學習系統效能調優方法，應用於與所述自動機器學習系統連接的效能調優裝置，包括：

獲取所述自動機器學習系統的預設應用程式介面及系統資源；

在所述自動機器學習系統對一候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值；

根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略；以及，

根據所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。

本申請一實施方式還提供一種效能調優裝置，包括：

第一獲取模組，用於獲取所述自動機器學習系統的預設應用程式介面及系統資源；

第二獲取模組，用於在所述自動機器學習系統對一候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值；

策略確定模組，用於根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略；以及，

分配模組，用於基於所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。

本申請一實施方式還提供一種電子設備，所述電子設備包括：一個或複數處理器；

當一個或複數程式被所述一個或複數處理器執行，使得所述一個或複數處理器實現如上任一所述的自動機器學習系統效能調優方法。

本申請一實施方式還提供一種電腦可讀存儲介質，其上存儲有電腦程式，所述電腦程式被處理器執行時實現如上任一項所述的自動機器學習系統效能調優方法。

本申請實施方式提供的自動機器學習系統效能調優方法、裝置、設備及介質，對所述自動機器學習系統中的每個候選深度學習訓練模型都進行單獨的動態優化，針對所述自動機器學習系統中的每個候選深度學習訓練模型，獲取候選深度學習訓練模型進行預訓練時的預設應用程式介面的效能指標量測值，根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略，最後基於所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練，實現對每個候選深度學習訓練模型計算資源的動態分配，保證自動機器學習系統計算資源配置的合理，提高訓練性能。

下面將結合本發明實施方式中的附圖，對本發明實施方式中的技術方案進行清楚、完整地描述，顯然，所描述的實施方式是本發明一部分實施方式，而不是全部的實施方式。基於本發明中的實施方式，本領域普通技術人員在沒有付出創造性勞動前提下所獲得的所有其他實施方式，都屬於本發明保護的範圍。

基於本申請中的實施方式，本領域普通技術人員在沒有付出創造性勞動前提下所獲得的所有其他實施方式，都是屬於本申請保護的範圍。

為了能夠更清楚地理解本發明的上述目的、特徵和優點，下面結合附圖和具體實施例對本發明進行詳細描述。需要說明的是，在不衝突的情況下，本申請的實施例及實施例中的特徵可以相互組合。

在下面的描述中闡述了很多具體細節以便於充分理解本發明，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

除非另有定義，本文所使用的所有的技術和科學術語與屬於本發明的技術領域的技術人員通常理解的含義相同。本文中在本發明的說明書中所使用的術語只是為了描述具體的實施例的目的，不是旨在於限制本發明。

為了便於本領域技術人員深入理解本申請實施例，以下將首先介紹本申請實施例中所涉及的專業術語的定義。

AutoML在開發神經網路的過程中，將要訓練集上傳，透過神經架構搜索（NAS，NeuralArchitecture Search via Parameter Sharing）搜索出最好的神經網路架構，神經架構搜索的工作流程如下：通常從定義一組神經網路可能會用到的“建築模組”開始，這些“建築模組”包括多種卷積和池化模組，然後使用一個迴圈神經網路（RNN）作為控制器，控制器從這些“建築模組”中挑選，然後將它們放在一起，組成新神經網路架構，使用訓練集對新神經網路架構進行訓練，直至收斂，使用測試集進行測試，得到準確率，這個準確率隨後會用來透過策略梯度更新控制器，以讓控制器生成神經網路架構的水準越來越高。學習卷積神經網路結構方法還包括高效神經架構搜索（Efficient Neural Architecture Search via Parameter Sharing ，ENAS）、漸進式神經架構搜索（Progressive Neural Architecture Search）。

請參閱圖1，為了優化自動機器學習系統10的性能，減少自動機器學習系統10的培訓時間，所述效能調優裝置73連接所述自動機器學習系統10，透過本申請實施例的效能調優裝置73自動優化所述自動化機器學習系統的10自動機器學習性能，為所述自動機器學習系統10隨機選擇出的每一候選深度學習訓練模型分配計算資源，避免每一候選深度學習訓練模型的計算資源配置過度或分配不足。

在本申請實施例中，自動機器學習系統10的AutoMl底層可以使用Scikit-Learn、XGBoost、TensorFlow、Keras、LightGBM等工具來確保運行時的高效。

請參閱圖2，所述效能調優裝置73可以運行於電子設備，所述電子設備包括，但不僅限於，記憶體及至少一個處理器，上述元件之間可以透過匯流排連接，效能調優裝置73運行於所述處理器上，所述效能調優裝置73執行電腦程式時實現本申請自動機器學習系統效能調優方法實施例中的步驟。或者，所述效能調優裝置73執行所述電腦程式時實現本申請效能調優裝置73實施例中各模組/單元的功能。

在本實施方式中，所述電子設備可以包括效能調優裝置73及伺服器。在其他實施方式中，所述電子設備可以是雲端伺服器等計算設備。本領域技術人員可以理解，所述示意圖僅僅是電子設備的示例，並不構成對電子設備的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件，例如所述電子設備還可以包括輸入輸出設備、網路接入設備、匯流排等。本申請自動機器學習系統效能調優方法應用在一個或者複數電子設備中。所述電子設備是一種能夠按照事先設定或存儲的指令，自動進行數值計算和/或資訊處理的設備，其硬體包括但不限於微處理器、專用積體電路(Application Specific Integrated Circuit，ASIC)、可程式設計閘陣列(Field－Programmable Gate Array，FPGA)、數文書處理器(Digital Signal Processor，DSP)、嵌入式設備等。

所述電子設備可以是桌上型電腦、筆記型電腦、平板電腦及雲端伺服器等計算設備。所述電子設備可以與使用者透過鍵盤、滑鼠、遙控器、觸控板或聲控設備等方式進行人機交互。

圖3是本申請一實施例提供的自動機器學習系統效能調優方法的流程圖。根據不同的需求，所述流程圖中步驟的順序可以改變，某些步驟可以省略。

請參閱圖3，所述自動機器學習系統效能調優方法由與所述自動機器學習系統10連接的效能調優裝置73實施，具體包括以下步驟：

步驟S10：獲取所述自動機器學習系統的預設應用程式介面及系統資源。

在本申請實施例中，所述效能調優裝置73連接所述自動機器學習系統10，所述自動機器學習系統10的計算後端是所述效能調優裝置73能識別的計算後端，例如TensorFlow，則所述效能調優裝置73可以獲取所述自動機器學習系統10的相關資料資訊，獲取所述自動機器學習系統10的預設應用程式介面及系統資源。

在本申請實施例中，所述效能調優裝置73可以包括一調優伺服器及一性能分析工具。

在其中一種可能實現方式中，請參閱圖4，所述獲取所述自動機器學習系統10的預設應用程式介面及系統資源具體可以透過以下步驟進行：

步驟S101：將所述自動機器學習系統中與系統效能相關的應用程式介面及所述自動機器學習系統的系統資源記錄於一調優伺服器的資料庫。

步驟S102：所述調優伺服器從所述資料庫讀取所述自動機器學習系統的系統資源。

步驟S103：一性能分析工具從所述調優伺服器的資料庫中讀取所述預設應用程式介面。

在本申請實施例中，所述效能調優裝置73中的調優伺服器與性能分析工具均能識別所述自動機器學習系統10的計算後端，所述調優伺服器預先在其資料庫中記錄所述自動機器學習系統10中與效能相關的應用程式介面（Application Programming Interface，API）及系統可用資源，其中，所述預設應用程式介面為所述自動機器學習系統10在進行深度學習任務堆疊中與效能相關的應用程式介面。

在本申請實施例中，所述調優伺服器可以為生成所述分發策略和資源配置策略的內置POTAO伺服器。

在本申請實施例中，所述性能分析工具可以為內置效能量測工具的SOFA伺服器，還可以包括內置效能量測工具的火焰圖（Flame Grap）。透過所述性能分析工具可以從中央處理器（Central Processing Unit，CPU）、圖形處理器（Graphics Processing Unit，GPU）、通訊網路及存放裝置收集異構的效能指標量測值。

步驟S20：在所述自動機器學習系統對候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值。

在本申請實施例中，使用者將訓練資料登錄至所述自動機器學習系統10後，所述自動機器學習系統10進行神經網路搜索，根據訓練資料對搜索出的所述候選深度學習訓練模型進行預訓練，並在進行深度學習訓練過程中，根據所述預設應用程式介面獲取該應用程式介面對應的效能指標量測值。

在其中一種可能實現方式中，所述在所述自動機器學習系統10對一候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值包括：

在所述自動機器學習系統10對一候選深度學習訓練模型進行預訓練時，所述性能分析工具根據所述預設應用程式介面獲取該應用程式介面的效能指標量測值，以透過通訊方式例如遠端調用 GRPC將所述效能指標量測值傳輸給所述調優伺服器，其中，所述性能分析工具與所述自動機器學習系統10集成封裝。

在本申請實施例中，所述性能分析工具與所述自動機器學習系統10集成封裝，透過將性能分析工具、自動機器學習模型及相應的應用程式介面軟體封裝集成一起，實現自動化獲取所述自動機器學習系統10效能指標量測值，並透過遠端調用將效能指標量測值發送給所述POTAO伺服器，以使得所述POTAO伺服器進行計算資源決策。

示例性地，選擇AutoKeras作為所述自動機器學習系統10引擎，所述AutoKeras將使用有效神經體系結構搜索演算法（ENAS）來選擇出所述候選深度學習模型並進行評估，以根據前一候選深度學習模型的評估選擇出下一更好的候選深度學習模型。使用者將訓練資料登錄至所述AutoKeras，所述AutoKeras的數據預處理API根據深度神經網路的超參數批大小確定一次訓練的資料量大小，所述候選深度學習模型根據所述訓練資料進行訓練的過程中，所述SOFA伺服器透過效能量測工具獲取所述AutoKeras的所述預設應用程式介面的效能指標量測值，例如，透過效能量測工具獲取高速串列電腦擴展匯流排標準匯流排（PCIe BUS）上的資料交換數量的量測值。SOFA伺服器透過遠端程式呼叫（如gRPC Remote Procedure Calls等）將獲得的效能指標量測值發送給POTAO伺服器，以使得POTAO伺服器根據所述效能指標量測值及系統資源為所述候選深度學習模型分配計算資源。

在其中一種可能實現方式中，所述效能指標包括轉發傳播時間、（FW）和向後傳播時間（BW）、將資料從主機複製到GPU設備（H2D）的時間、將資料從GPU 設備複製到主機（D2H）的時間或資料從對等設備（P2P）複製的時間。

在其中一種可能實現方式中，所述效能指標包括用戶空間(user space)及系統空間(system space)的程式執行時間、檔案系統或儲存媒體的讀寫頻寬、網路使用頻寬、呼叫的凾式熱點分佈、耗時在系統鎖的開銷等。

步驟S30：根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略。

在本申請實施例中，所述性能分析器透過遠端程式呼叫將效能指標量測值發送給所述POTAO伺服器，所述POTAO伺服器根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略。

在其中一種可能實現方式中，所述POTAO伺服器將創建一個另一種標記語言 (YAML Ain't Markup Language，YAML)檔，用於生成Kubernetes pod，其中Pod是Kubernetes中能夠創建和部署的最小單元，即Kubernetes集群中的一個應用實例，Kubernetes用於管理雲平臺中複數主機上的容器化的應用，其是自動化容器操作的開源平臺。YAML 檔將記錄要運行具體的應用容器引擎（Docker）映射、硬體資源的分配以及相應容器的虛擬機器節點的設置。

在其中一種可能實現方式中，所述根據所述效能指標量測值及所述系統資源確定分發策略包括：

根據所述效能指標量測值及所述系統資源確定單節點訓練或多節點訓練，其中，所述單節點訓練包括由單一節點對所述候選深度學習訓練模型進行訓練，所述多節點訓練包括由複數節點共同對所述候選深度學習訓練模型訓練，並共用所述候選深度學習訓練模型中的參數變數。

在本申請實施例中，對所述候選深度學習訓練模型的訓練任務可以根據所述效能指標量測值及所述系統資源確定由單一節點進行訓練還是由多節點進行訓練，在訓練任務比較繁重時，透過在複數節點之間進行分散式訓練分佈，允許擴大深度學習訓練任務，可以學習到更大的模型或以更快的速度訓練。在訓練任務較輕時，透過單一節點進行訓練，可以保證計算資源的合理分配，避免計算資源配置過度。

在其中一種可能實現方式中，所述單節點訓練包括由單一節點中的單一設備或複數鏡像設備對所述候選深度學習訓練模型進行訓練。所述多節點訓練包括由複數節點使用複製模式或參數伺服器模式對所述候選深度學習訓練模型進行訓練。

在本申請實施例中，在由單一節點進行訓練時，可以由單一設備進行訓練，例如由單一圖形處理器進行訓練，由圖形處理器或中央處理器存儲參數。也可以由複數鏡像設備對所述候選深度學習訓練模型進行訓練，例如，複數鏡像設備圖形處理器對所述候選深度學習訓練模型進行訓練，然後由圖形處理器存儲參數。

在本申請實施例中，在多節點上進行共同訓練，即進行分散式所述候選深度學習訓練模型訓練，將複數程式同步共同訓練所述候選深度學習訓練模型，並共用所述候選深度學習訓練模型的參數變數，例如權重、偏置值等。示例性地，在使用複製模式時，由複數節點上的複數圖形處理器進行訓練，並由圖形處理器存儲參數。在使用參數伺服器模式時，即基於參數伺服器（Parameter-Server）對所述候選訓練模型的參數與訓練資料分開存放，由圖形處理器進行訓練，由中央處理器存儲參數。

在其中一種可能實現方式中，使用TensorFlow 的應用程式介面做深度學習分散式訓練時，若SOFA伺服器獲取的高速串列電腦擴展匯流排標準匯流排（PCIe BUS）資料交換數量較少，則POTATO伺服器建議採用參數伺服器模式，如Parameter Server，用於對大規模參數的分散式存儲和協同的支援；反之，採用複製模式如鏡像複製Mirrored Replicated，透過網路把一個地域的資料中心（Data Center）中的鏡像檔案傳輸到目標地域的資料中心。

在其中一種可能實現方式中，所述根據所述效能指標量測值及所述系統資源確定資源配置策略包括：

根據所述效能指標量測值及所述系統資源為所述候選深度學習訓練模型配置應用程式介面、軟體資源及硬體資源。

在本申請實施例中，所述POTAO伺服器確定所述自動機器學習系統10當前選定的所述候選深度學習模型採用的應用程式介面、搭配的軟體資源及硬體資源。

在其中一種可能實現方式中，請參閱圖5，所述根據所述效能指標量測值及所述系統資源為所述候選深度學習訓練模型配置應用程式介面具體可以透過以下步驟進行：

步驟S301：確定所述候選深度學習訓練模型的應用程式介面類別型。

在本申請實施例中，重新確定所述候選深度學習訓練模型所需的應用程式介面類別型。

步驟S302：根據所述應用程式介面類別型確定所述候選深度學習訓練模型的新應用程式介面。

在本申請實施例中，根據重新確定的應用程式介面類別型為所述候選深度學習訓練模型分配新的應用程式介面。

步驟S303：透過共用所述自動機器學習系統的環境變數調整所述新應用程式介面參數，其中，所述參數包括批大小。

在本申請實施例中，所述POTAO伺服器以共用所述自動機器學習系統10環境變數的方式調整新應用程式介面，並重新執行所述新應用程式介面。示例性地，根據GPU的計算能力及其記憶體大小，決定可負擔的深度學習模型批量處理的最大值，並在新應用程式介面中設定，以在重新開機所述應用程式介面時，可以調整所述候選深度學習模型的一次訓練的資料大小。

在其中一種可能實現方式中，使用遠端調用 GRPC在所有聯接的計算節點之間共用相同的所述候選深度模型，以進行批量資料平行計算。

步驟S40：根據所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。

在本申請實施例中，所述候選深度學習訓練模型基於所述計算資源配置進行訓練，所述自動機器學習系統10對所述候選深度學習訓練模型的性能進行評價，然後根據模型評價結果繼續選定新的候選深度學習訓練模型進行模型訓練，繼續步驟S10至步驟S40為該新的候選深度學習訓練模型分配計算資源，直至獲得符合要求的候選深度學習訓練模型。

在本申請實施例中，POTAO伺服器將確定的所述分發策略和/或所述資源配置策略發給所述自動機器學習系統10，基於所述分發策略和/或所述資源配置策略分配所述自動機器學習系統10的計算資源，以使得所述自動機器學習系統10根據分配的計算資源對當前選定的所述候選深度學習訓練模型進行計算資源配置，如分配CPU內核數、主記憶體容量、GPU數量等，所述候選深度學習訓練模型基於所述計算資源配置進行訓練。

自動機器學習系統10在每一輪嘗試新的候選深度學習模型時，便透過所述自動機器學習系統效能調優方法動態根據每一新選定的候選深度學習模型的特性進行效能優化。

在其中一種可能實現方式中，在對所述自動機器學習系統10進行調優完成之後，生成對應的自動機器學習應用程式介面，將測試資料登錄至所述自動機器學習應用程式介面，對所述測試資料進行測試。

請參閱圖6，本申請的實施例提供一種效能調優裝置73，包括第一獲取模組101、第二獲取模組102、策略確定模組103及分配模組104。

第一獲取模組101用於獲取所述自動機器學習系統的預設應用程式介面及系統資源。

第二獲取模組102用於在所述自動機器學習系統對一候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值。

策略確定模組103用於根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略。

分配模組104用於根據所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。

所稱處理器71可以是中央處理模組(Central Processing Unit，CPU)，還可以是其他通用處理器、數位訊號處理器 (Digital Signal Processor，DSP)、專用積體電路 (Application Specific Integrated Circuit，ASIC)、現成可程式設計閘陣列 (Field-Programmable Gate Array，FPGA) 或者其他可程式設計邏輯元件、分立門或者電晶體邏輯元件、分立硬體元件等。通用處理器可以是微處理器或者所述處理器71也可以是任何常規的處理器等，所述處理器71是所述電子設備7的控制中心，利用各種介面和線路連接整個電子設備7的各個部分。

所述記憶體72可用於存儲所述電腦程式和/或模組/單元，所述處理器71透過運行或執行存儲在所述記憶體72內的電腦程式和/或模組/單元，以及調用存儲在記憶體72內的資料，實現所述計電子設備7的各種功能。所述記憶體72可主要包括存儲程式區和存儲資料區，其中，存儲程式區可存儲作業系統、至少一個功能所需的應用程式（比如聲音播放功能、圖像播放功能等）等；存儲資料區可存儲根據電子設備7的使用所創建的資料等。此外，記憶體72可以包括高速隨機存取記憶體，還可以包括非易失性記憶體，例如硬碟、記憶體、插接式硬碟，智慧存儲卡（Smart Media Card, SMC），安全數位（Secure Digital, SD）卡，快閃記憶體卡（Flash Card）、至少一個磁碟記憶體件、快閃記憶體元件、或其他易失性固態記憶體件。

所述電子設備7集成的模組/單元如果以軟體功能模組的形式實現並作為獨立的產品銷售或使用時，可以存儲在一個電腦可讀取存儲介質中。基於這樣的理解，本發明實現上述實施例方法中的全部或部分流程，也可以透過電腦程式來指令相關的硬體來完成，所述的電腦程式可存儲於一電腦可讀存儲介質中，所述電腦程式在被處理器執行時，可實現上述各個方法實施例的步驟。其中，所述電腦程式包括電腦程式代碼，所述電腦程式代碼可以為原始程式碼形式、物件代碼形式、可執行檔或某些中間形式等。所述電腦可讀介質可以包括：能夠攜帶所述電腦程式代碼的任何實體或裝置、記錄介質、U盤、移動硬碟、磁碟、光碟、電腦記憶體、唯讀記憶體（ROM，Read-Only Memory）、隨機存取記憶體（RAM，Random Access Memory）、電載波訊號、電信訊號以及軟體分發介質等。需要說明的是，所述電腦可讀介質包含的內容可以根據司法管轄區內立法和專利實踐的要求進行適當的增減，例如在某些司法管轄區，根據立法和專利實踐，電腦可讀介質不包括電載波訊號和電信訊號。

在本發明所提供的幾個實施例中，應該理解到，所揭露的電子設備和方法，可以透過其它的方式實現。例如，以上所描述的電子設備實施例僅僅是示意性的，例如，所述模組的劃分，僅僅為一種邏輯功能劃分，實際實現時可以有另外的劃分方式。

另外，在本發明各個實施例中的各功能模組可以集成在相同處理模組中，也可以是各個模組單獨物理存在，也可以兩個或兩個以上模組集成在相同模組中。上述集成的模組既可以採用硬體的形式實現，也可以採用硬體加軟體功能模組的形式實現。

最後應說明的是，以上實施例僅用以說明本發明的技術方案而非限制，儘管參照較佳實施例對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

10:自動機器學習系統 73:效能調優裝置 7:電子設備 71:處理器 72:記憶體 101:第一獲取模組 102:第二獲取模組 103:策略確定模組 104:分配模組

圖1是本申請一實施例提供的自動機器學習系統效能調優示意圖。圖2是本申請一實施例提供的電子設備的方框圖。圖3是本申請一實施例提供的自動機器學習系統效能調優方法的流程圖。圖4是本申請一實施例提供的預設應用程式介面及系統資源獲取方法的流程示意圖。圖5是本申請一實施例提供的配置應用程式介面方法的流程示意圖。圖6是本申請一實施例提供的一種效能調優裝置的方框圖。

無

7:電子設備

71:處理器

72:記憶體

73:效能調優裝置

Claims

一種自動機器學習系統效能調優方法，應用於與所述自動機器學習系統連接的效能調優裝置，其中，所述自動機器學習系統效能調優方法包括：獲取所述自動機器學習系統的預設應用程式介面及系統資源；在所述自動機器學習系統對候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值；根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略；以及，根據所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。
如請求項1所述自動機器學習系統效能調優方法，其中，所述根據所述效能指標量測值及所述系統資源確定分發策略包括：根據所述效能指標量測值及所述系統資源確定單節點訓練或多節點訓練，其中，所述單節點訓練包括由單一節點對所述候選深度學習訓練模型進行訓練，所述多節點訓練包括由複數節點共同對所述候選深度學習訓練模型訓練，並共用所述候選深度學習訓練模型中的參數變數。
如請求項1所述自動機器學習系統效能調優方法，其中，所述單節點訓練包括由單一節點中的單一設備或複數鏡像設備對所述候選深度學習訓練模型進行訓練；所述多節點訓練包括由複數節點使用複製模式或參數伺服器模式對所述候選深度學習訓練模型進行訓練。
如請求項3所述自動機器學習系統效能調優方法，其中，所述根據所述效能指標量測值及所述系統資源確定資源配置策略包括：根據所述效能指標量測值及所述系統資源為所述候選深度學習訓練模型配置應用程式介面、軟體資源及硬體資源。
如請求項4所述自動機器學習系統效能調優方法，其中，所述根據所述效能指標量測值及所述系統資源為所述候選深度學習訓練模型配置應用程式介面包括：確定所述候選深度學習訓練模型的應用程式介面類別型；根據所述應用程式介面類別型確定所述候選深度學習訓練模型的新應用程式介面；透過共用所述自動機器學習系統的環境變數調整所述新應用程式介面參數，其中，所述參數包括批大小。
如請求項1所述自動機器學習系統效能調優方法，其中，所述獲取所述自動機器學習系統的預設應用程式介面及系統資源包括：將所述自動機器學習系統中與系統效能相關的應用程式介面及所述自動機器學習系統的系統資源記錄於一調優伺服器的資料庫；所述調優伺服器從所述資料庫讀取所述自動機器學習系統的系統資源；一性能分析工具從所述調優伺服器的資料庫中讀取所述預設應用程式介面。
如請求項1所述自動機器學習系統效能調優方法，其中，所述在所述自動機器學習系統對一候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值包括：在所述自動機器學習系統對一候選深度學習訓練模型進行預訓練時，所述性能分析工具根據所述預設應用程式介面獲取該應用程式介面的效能指標量測值，以透過通訊方式將所述效能指標量測值傳輸給所述調優伺服器，其中，所述性能分析工具與所述自動機器學習系統集成封裝。
一種效能調優裝置，其中，所述效能調優裝置包括：第一獲取模組，用於獲取所述自動機器學習系統的預設應用程式介面及系統資源；第二獲取模組，用於在所述自動機器學習系統對候選深度學習訓練模型進行預訓練時，根據所述預設應用程式介面獲取其對應的效能指標量測值；策略確定模組，用於根據所述效能指標量測值及所述系統資源確定分發策略和/或資源配置策略；以及分配模組，用於根據所述分發策略和/或所述資源配置策略分配所述自動機器學習系統的計算資源，以使得所述候選深度學習訓練模型基於所述計算資源配置進行訓練。
一種電子設備，其中，所述電子設備包括：一個或複數處理器；當一個或複數程式被所述一個或複數處理器執行，使得所述一個或複數處理器實現如請求項1至7任一項所述自動機器學習系統效能調優方法。
一種電腦可讀存儲介質，其中，存儲有電腦程式，所述電腦程式被處理器執行時實現如請求項1至7任一項所述自動機器學習系統效能調優方法。