TWI733270B

TWI733270B - 機器學習模型的最佳超參數組態的訓練裝置和訓練方法

Info

Publication number: TWI733270B
Application number: TW108145265A
Authority: TW
Inventors: 李維倫; 徐祖詒; 林心鵬; 李柏青; 黃梓翔; 毛奕翔
Original assignee: 中華電信股份有限公司
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2021-07-11
Also published as: TW202123099A

Abstract

提供一種機器學習模型的最佳超參數組態的訓練裝置和訓練方法。訓練方法包含：根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態；根據至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態；從至少一第一超參數組態和至少一第二超參數組態選出至少一超參數組態；根據至少一超參數組態和第一超參數搜尋策略產生至少一第三超參數組態，並且根據至少一超參數組態和第二超參數搜尋策略產生至少一第四超參數組態；以及從至少一第三超參數組態和至少一第四超參數組態選出最佳超參數組態。

Description

機器學習模型的最佳超參數組態的訓練裝置和訓練方法

本發明是有關於一種訓練裝置和訓練方法，且特別是有關於一種機器學習模型的最佳超參數組態的訓練裝置和訓練方法。

隨著機器學習技術的發展，有越來越多類型的產業開始應用機器學習技術來取代人工，藉以加快工作進度並且節省人力成本。目前的機器學習技術都是以單一種演算法來訓練出可應用於例如產品製程的機器學習模型。然而，每一種演算法都存在著優缺點，並且在面對不同類型的訓練資料時也會有不同的效能。此外，使用者也需要針對不同的演算法或訓練資料來重新調整機器學習模型的超參數組態。如此，當需要將機器學習模型用於不同的應用時，使用者將需耗費大量的時間在調整機器學習模型的超參數組態。

本發明提供一種機器學習模型的最佳超參數組態的訓練裝置和訓練方法，可透過數種不同的演算法策略自動地找出機器學習模型的最佳超參數組態。

本發明的一種機器學習模型的最佳超參數組態的訓練裝置，包括處理器、儲存媒體以及收發器。儲存媒體儲存多個模組。處理器耦接儲存媒體和收發器，並且存取和執行多個模組，其中多個模組包括第一訓練模組、第二訓練模組以及運算模組。第一訓練模組根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態。第二訓練模組根據至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態。運算模組從至少一第一超參數組態和至少一第二超參數組態選出至少一超參數組態，其中第一訓練模組根據至少一超參數組態和第一超參數搜尋策略產生至少一第三超參數組態，第二訓練模組根據至少一超參數組態和第二超參數搜尋策略產生至少一第四超參數組態，並且運算模組從至少一第三超參數組態和至少一第四超參數組態選出最佳超參數組態。

在本發明的一實施例中，上述的第一訓練模組將至少一超參數組態作為搜尋空間的起始點以從與第一超參數搜尋策略相對應的搜尋空間中搜尋出至少一第三超參數組態。

在本發明的一實施例中，上述的第二訓練模組將至少一超參數組態作為搜尋空間的起始點以從與第二超參數搜尋策略相對應的搜尋空間中搜尋出至少一第四超參數組態。

在本發明的一實施例中，上述的第一超參數策略和第二超參數策略分別關聯於下列的其中之一：網格搜尋法、隨機搜尋法、貝氏優化法、梯度優化法、超參數優化法、貝氏/超參數優化法以及樹結構帕爾森估計法。

在本發明的一實施例中，上述的運算模組從至少一第一超參數組態和至少一第二超參數組態選出至少一非最佳超參數組態，其中第一訓練模組將至少一非最佳超參數組態從搜尋空間中排除。

在本發明的一實施例中，上述的運算模組從至少一第一超參數組態和至少一第二超參數組態選出至少一非最佳超參數組態，其中第二訓練模組將至少一非最佳超參數組態從搜尋空間中排除。

在本發明的一實施例中，上述的訓練裝置更包括第三訓練模組。第三訓練模組根據最佳超參數組態訓練機器學習模型。

在本發明的一實施例中，上述的至少一目標函數包括第一目標函數和第二目標函數，其中第一訓練模組從搜尋空間中找出與第一目標函數和第二目標函數的柏雷多效率邊界最接近的超參數組態以作為至少一第一超參數組態。

在本發明的一實施例中，上述的至少一目標函數包括第一目標函數和第二目標函數，其中第二訓練模組從搜尋空間中找出與第一目標函數和第二目標函數的柏雷多效率邊界最接近的超參數組態以作為至少一第二超參數組態。

本發明的一種機器學習模型的超參數組態的訓練方法，包括：根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態；根據至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態；從至少一第一超參數組態和至少一第二超參數組態選出至少一超參數組態；根據至少一超參數組態和第一超參數搜尋策略產生至少一第三超參數組態，並且根據至少一超參數組態和第二超參數搜尋策略產生至少一第四超參數組態；以及從至少一第三超參數組態和至少一第四超參數組態選出最佳超參數組態。

基於上述，本發明的機器學習模型的超參數組態的訓練裝置和訓練方法可根據數種超參數搜尋策略挑選出機器學習模型的超參數組態。若挑選出的超參數組態尚不符合指定終止條件，則本發明可回授該超參數組態並且根據該超參數組態設定各種超參數搜尋策略的搜尋空間的起始點，藉以達到快速地逼近最佳超參數組態的功效。

圖1根據本發明的實施例繪示一種機器學習模型的最佳超參數組態的訓練裝置100的示意圖。訓練裝置100可包括處理器110、儲存媒體120以及收發器130。

處理器110例如是中央處理單元（central processing unit，CPU），或是其他可程式化之一般用途或特殊用途的微控制單元（micro control unit，MCU）、微處理器（microprocessor）、數位信號處理器（digital signal processor，DSP）、可程式化控制器、特殊應用積體電路（application specific integrated circuit，ASIC）、圖形處理器（graphics processing unit，GPU）、算數邏輯單元（arithmetic logic unit，ALU）、複雜可程式邏輯裝置（complex programmable logic device，CPLD）、現場可程式化邏輯閘陣列（field programmable gate array，FPGA）或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130，並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。

儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟（hard disk drive，HDD）、固態硬碟（solid state drive，SSD）或類似元件或上述元件的組合，而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中，儲存媒體120可儲存包括第一訓練模組121、第二訓練模組122、第三訓練模組123以及運算模組124等多個模組，其功能將於後續說明。

收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。

圖2根據本發明的實施例繪示一種機器學習模型的最佳超參數組態的訓練方法的流程圖，其中所述訓練方法可由如圖1所示的訓練裝置100實施。

在步驟S201中，第一訓練模組121可根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態。在步驟S202中，第二訓練模組122可根據該至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態。

第一超參數搜尋策略和第二超參數搜尋策略可分別為相同或不同的超參數搜尋策略，諸如網格搜尋法（grid search）、隨機搜尋法（random search）、貝氏優化法（Bayesian optimization）、梯度優化法（gradient-based optimization）、超參數優化法（Hyperband）、貝氏/超參數優化法（Bayesian optimization and Hyperband，BOHB）或樹結構帕爾森估計法（tree-structure Parzen estimators）等，本發明不限於此。

至少一目標函數可滿足一或多個最佳化目標。舉例來說，若使用者欲令目標函數滿足正確率最大化以及模型推論時間最小化的目標，則目標函數可設計為方程式（1）所示，其中O為目標函數、C為正確率並且T為模型推論時間。第一訓練模組121可根據至少一目標函數從對應於第一超參數搜尋策略的超參數組態的搜尋空間中找出最接近至少一目標函數的超參數組態以作為至少一第一超參數組態，並且第二訓練模組122可根據至少一目標函數從對應於第二超參數搜尋策略的超參數組態的搜尋空間中找出最接近至少一目標函數的超參數組態以作為至少一第二超參數組態。上述的各個搜尋空間的起始點例如是以隨機、預設或回授的方式產生，本發明不限於此。

…（1）

舉例來說，假設第一超參數搜尋策略為策略R並且第二超參數搜尋策略為策略B，則第一訓練模組121和第二訓練模組122可分別根據策略R和策略B推論出如表1所示的多個超參數組態，並且處理器110可將計算出的超參數組態儲存至儲存媒體120之中。上述的每一超參數組態可包括學習速率、神經元數、批次大小（batch size）、正確率、推論時間以及目標函數值等超參數，但本發明不限於此。值得注意的是，表1可為儲存媒體120中的全域儲存區塊所儲存的超參數組態。儲存媒體120還可包括對應於第一超參數搜尋策略的第一儲存區塊以及對應於第二超參數搜尋策略的第二儲存區塊，其中第一儲存區塊儲存表1中關聯於策略R的超參數組態，並且第二儲存區塊儲存表1中關聯於策略B的超參數組態。表1

策略	學習速率	神經元數	批次大小	正確率	推論時間	目標函數值
R	0.3	9	32	0.50	1.8	0.278
R	0.01	15	8	0.71	3.7	0.192
R	0.1	2	1	0.33	3.8	0.087
B	0.2	3	8	0.35	1.4	0.250
B	0.2	5	8	0.53	1.6	0.331
B	0.2	9	8	0.62	1.3	0.477

在一實施例中，至少一目標函數可包括多個目標函數，例如包括第一目標函數和第二目標函數。第一訓練模組121可根據至少一目標函數從對應於第一超參數搜尋策略的搜尋空間中找出與第一目標函數和第二目標函數的柏雷多效率邊界（Pareto frontier）最接近的超參數組態以作為至少一第一超參數組態。第二訓練模組122可根據至少一目標函數從對應於第二超參數搜尋策略的搜尋空間中找出與第一目標函數和第二目標函數的柏雷多效率邊界最接近的超參數組態以作為至少一第二超參數組態。上述的各個搜尋空間的起始點例如是以隨機、預設或回授的方式產生，本發明不限於此。

在步驟S203中，運算模組124可從至少一第一超參數組態和至少一第二超參數組態選出至少一超參數組態。舉例來說，運算模組124可根據目標函數值選出較佳的兩個超參數組態，如表2所示。表2

策略	學習速率	神經元數	批次大小	正確率	推論時間	目標函數值
B	0.2	9	8	0.62	1.3	0.477
B	0.2	5	8	0.53	1.6	0.331

在一實施例中，運算模組124還可從至少一第一超參數組態和至少一第二超參數組態選出至少一非最佳超參數組態。舉例來說，運算模組124可根據目標函數值選出較佳的兩個超參數組態，並將其餘的超參數組態決定為非最佳超參數組態，如表3所示。表3

策略	學習速率	神經元數	批次大小	正確率	推論時間	目標函數值
R	0.3	9	32	0.50	1.8	0.278
R	0.01	15	8	0.71	3.7	0.192
R	0.1	2	1	0.33	3.8	0.087
B	0.2	3	8	0.35	1.4	0.250

在步驟S204中，運算模組124判斷選出的至少一超參數組態是否符合指定終止條件。若符合指定終止條件，則進入步驟S206。若不符合指定終止條件，則進入步驟S205。指定終止條件例如為到達指定時間、到達指定預算、到達指定最佳化目標或改進幅度低於指定預設值等條件或其組合，但本發明不限於此。舉例來說，若指定終止條件為正確率達到0.75，則運算模組124可響應於表2中的超參數組態的正確率均未達到0.75而判斷選出的超參數組態不符合指定終止條件。

在步驟S205中，運算模組124可回授選出的至少一超參數組態給第一訓練模組121以及第二訓練模組122。而後，第一訓練模組121可在步驟S201中將回授的至少一超參數組態作為搜尋空間的起始點以從與第一超參數搜尋策略相對應的搜尋空間中搜尋出至少一第三超參數組態（即：更新後的至少一第一超參數組態）。第二訓練模組122可在步驟S202中將回授的至少一超參數組態作為搜尋空間的起始點以從與第二超參數搜尋策略相對應的搜尋空間中搜尋出至少一第四超參數組態（即：更新後的至少一第二超參數組態）。

舉例來說，運算模組124可回授如表2所示的超參數組態給第一訓練模組121以及第二訓練模組122。第一訓練模組121或第二訓練模組122可將表2中的超參數組態的其中之一作為超參數組態之搜尋空間的起始點，其中該起始點例如是由學習速率等於0.2、神經元數等於9以及批次大小等於8等超參數所構成。

在一實施例中，運算模組124還可回授如表3所示的非最佳超參數組態給第一訓練模組121以及第二訓練模組122。第一訓練模組121或第二訓練模組122可將表3中的非最佳超參數組態從超參數組態之搜尋空間中排除，藉以縮小搜尋空間。如此，當重新執行步驟S201或步驟S202時，第一訓練模組121僅需從縮小後的搜尋空間找出最接近至少一目標函數的超參數組態以作為至少一第一超參數組態，並且第二訓練模組122僅需從縮小後的搜尋空間找出最接近至少一目標函數的超參數組態以作為至少一第二超參數組態。據此，超參數組態的搜尋時間將會顯著地減少。

在步驟S206中，運算模組124可從符合指定終止條件的至少一超參數組態中選出最佳超參數組態。例如，運算模組124可從符合指定終止條件的至少一超參數組態中選出具有最高的正確率或最高的目標函數值的超參數組態以作為最佳超參數組態。在一實施例中，第三訓練模組123可根據取得的最佳超參數組態訓練機器學習模型。以最佳超參數組態訓練出的機器學習模型之效能將會顯著地提升。 [ 特點及功效 ]

1.改善先前技術採用單一策略優化之缺點，可適應各種不同訓練資料集之特性，在較短時間內得到較佳之超參數。

2.善用複數之處理設備同時執行，以縮短超參數優化時間。處理設備可以為本地之實體伺服器群，或雲端之虛擬伺服器群如AI PaaS平台。

3.全域儲存及協調單元提供較佳之超參數回饋，各超參數策略單元得到回饋，得以加速收斂至更佳數值。

4.此優化方法可以佈署於AI PaaS等平台，使用者無需具備超參數優化之知識，僅需指定終止條件，如到達指定時間、到達指定預算、到達指定優化目標、改進幅度低於指定數量等。優化開始之後，不需人為介入，不需使用者輸入指令，即可自動完成。

5.改善先前技術重新執行優化須全部重新計算之缺點，僅針對尚未測試的範圍加以計算取代，得以使用漸增式優化，減少計算量而提高效率。

6.利用全域儲存資料庫多版本儲值之特性，提供歷史版本回溯之功效，可於各超參數策略歷史版本之間切換查詢。

綜上所述，本發明的機器學習模型的超參數組態的訓練裝置和訓練方法可根據數種超參數搜尋策略挑選出機器學習模型的超參數組態。若挑選出的超參數組態尚不符合指定的最佳化目標，則本發明可回授該超參數組態並且根據該超參數組態設定各種超參數搜尋策略的搜尋空間的起始點，藉以達到快速地逼近最佳超參數組態的功效。另一方面，針對未被挑選到的超參數組態，本發明可將該超參數組態自各個超參數搜尋策略的搜尋空間之中排除，避免在計算最佳超參數組態的過程中重覆地搜尋已被確認為非最佳解的超參數組態，進而可顯著地減少不必要的運算資源浪費。

100：訓練裝置 110：處理器 120：儲存媒體 121：第一訓練模組 122：第二訓練模組 123：第三訓練模組 124：運算模組 130：收發器 S201、S202、S203、S204、S205、S206：步驟

圖1根據本發明的實施例繪示一種機器學習模型的最佳超參數組態的訓練裝置的示意圖。圖2根據本發明的實施例繪示一種機器學習模型的最佳超參數組態的訓練方法的流程圖。

S201、S202、S203、S204、S205、S206：步驟

Claims

一種機器學習模型的最佳超參數組態的訓練裝置，包括：收發器；儲存媒體，儲存多個模組；以及處理器，耦接所述儲存媒體和所述收發器，並且存取和執行所述多個模組，其中所述多個模組包括：第一訓練模組，根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態；第二訓練模組，根據所述至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態；以及運算模組，根據所述至少一目標函數從所述至少一第一超參數組態和所述至少一第二超參數組態選出至少一超參數組態，其中所述第一訓練模組根據所述至少一超參數組態和所述第一超參數搜尋策略產生至少一第三超參數組態，所述第二訓練模組根據所述至少一超參數組態和所述第二超參數搜尋策略產生至少一第四超參數組態，並且所述運算模組從所述至少一第三超參數組態和所述至少一第四超參數組態選出所述最佳超參數組態。
如申請專利範圍第1項所述的訓練裝置，其中所述第一訓練模組將所述至少一超參數組態作為搜尋空間的起始點以從與所述第一超參數搜尋策略相對應的所述搜尋空間中搜尋出所述至少一第三超參數組態。
如申請專利範圍第1項所述的訓練裝置，其中所述第二訓練模組將所述至少一超參數組態作為搜尋空間的起始點以從與所述第二超參數搜尋策略相對應的所述搜尋空間中搜尋出所述至少一第四超參數組態。
如申請專利範圍第1項所述的訓練裝置，其中所述第一超參數搜尋策略和所述第二超參數搜尋策略分別關聯於下列的其中之一：網格搜尋法、隨機搜尋法、貝氏優化法、梯度優化法、超參數優化法、貝氏/超參數優化法以及樹結構帕爾森估計法。
如申請專利範圍第2項所述的訓練裝置，其中所述運算模組根據所述至少一目標函數從所述至少一第一超參數組態和所述至少一第二超參數組態選出至少一非最佳超參數組態，其中所述第一訓練模組將所述至少一非最佳超參數組態從所述搜尋空間中排除。
如申請專利範圍第3項所述的訓練裝置，其中所述運算模組根據所述至少一目標函數從所述至少一第一超參數組態和所述至少一第二超參數組態選出至少一非最佳超參數組態，其中所述第二訓練模組將所述至少一非最佳超參數組態從所述搜尋空間中排除。
如申請專利範圍第1項所述的訓練裝置，更包括：第三訓練模組，根據所述最佳超參數組態訓練所述機器學習模型。
如申請專利範圍第1項所述的訓練裝置，其中所述至少一目標函數包括第一目標函數和第二目標函數，其中所述第一訓練模組從搜尋空間中找出與所述第一目標函數和所述第二目標函數的柏雷多效率邊界最接近的超參數組態以作為所述至少一第一超參數組態。
如申請專利範圍第1項所述的訓練裝置，其中所述至少一目標函數包括第一目標函數和第二目標函數，其中所述第二訓練模組從搜尋空間中找出與所述第一目標函數和所述第二目標函數的柏雷多效率邊界最接近的超參數組態以作為所述至少一第二超參數組態。
一種機器學習模型的超參數組態的訓練方法，包括：根據至少一目標函數和第一超參數搜尋策略產生至少一第一超參數組態；根據所述至少一目標函數和第二超參數搜尋策略產生至少一第二超參數組態；根據所述至少一目標函數從所述至少一第一超參數組態和所述至少一第二超參數組態選出至少一超參數組態；根據所述至少一超參數組態和所述第一超參數搜尋策略產生至少一第三超參數組態，並且根據所述至少一超參數組態和所述第二超參數搜尋策略產生至少一第四超參數組態；以及從所述至少一第三超參數組態和所述至少一第四超參數組態選出所述最佳超參數組態。