TWI824700B

TWI824700B - 自動化機器學習系統、方法及其電腦可讀媒介

Info

Publication number: TWI824700B
Application number: TW111133736A
Authority: TW
Inventors: 林庭瑞; 陳保清; 陳冠元
Original assignee: 中華電信股份有限公司
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-12-01
Also published as: TW202411898A

Abstract

本發明係一種自動化機器學習系統及其方法，主要針對機器學習程序，讓不同資料型態容易被擴充，且無須因類型不同額外開發新流程，亦即，要增加資料處理方式、模型演算法及評估方法時，透過新增字典彈性即可擴充，無須修改主要架構及程式，故能解決習知要客製化資料處理之需求，並可達到快速新增之目的。另外，本發明產生之部署包已包含推論服務的完整流程，自動將資料的前後處理與模型整合，使用者無須額外作處理，可以直接上線部署且以原始資料源進行推論。本發明復提供一種電腦可讀媒介，係用於執行本發明之方法。

Description

自動化機器學習系統、方法及其電腦可讀媒介

本發明係有關於機器學習之技術，尤指一種自動化機器學習系統、方法及其電腦可讀媒介。

人工智慧(artificialintelligence，簡稱AI)的時代來臨，許多產業都想結合AI進行轉型，以自動化機器學習提供自動化服務，加速企業導入AI，從而減少人力資源的浪費。但現行的自動化機器學習都是將常見的資料處理方式與演算法進行一致性流程的自動化訓練，這在不同資料類型或領域會變成一種侷限，例如若是影像型資料需要對三原色光模式(RGB)做正規化之處理，其與表格型資料之處理方式並不相同，因而失去了擴充性，變相限制了資料的型態。易言之，現行的自動化機器學習將常用的資料處理方式與演算法進行固定流程的自動化訓練，但不能針對不同的領域或資料源做特定客製化的資料處理或新增演算法，如此，自動化訓練受限於資料類型，導致無法被轉用到其他資料類型，使得擴充性受限。

由此可見，如何提供一種關於機器學習之技術，特別是，除了能自動化進行機器學習外，還能適用於不同資料類型，減少資料型態的限制，此將成為目前本技術領域人員急欲追求之目標。

為解決上述現有技術之問題，本發明係揭露一種自動化機器學習系統，係包括：資料處理字典資料庫，用於儲存多個資料處理方法；模型演算法字典資料庫，用於儲存多個模型演算法；評估方式字典資料庫，用於儲存多個評估方式；可擴充式自動資料處理模組，用於依據由資料源分析所得到之資料特性分析結果以及由使用者之服務需求設定所得到之機器學習作業配置，自該資料處理字典資料庫取得滿足該資料特性分析結果以及該服務需求設定之資料處理方法，以產出資料處理流程及檔案，進而執行該資料處理流程以得到模型訓練資料集；可擴充式自動模型訓練模組，用於依據該機器學習作業配置，自該模型演算法字典資料庫查找適合之演算法以將該模型訓練資料集帶入訓練，藉由訓練過程中不斷優化該演算法之超參數而產出多組模型；以及可擴充式自動模型評估模組，用於依據該機器學習作業配置，自該評估方式字典資料庫查詢出多個評估方式，將該多組模型應用於該多個評估方法中，以依據該機器學習作業配置中之評估主指標的排序選出最佳模型檔案。

於一實施例中，該自動化機器學習系統復包括資料分析模組，用於將該資料源進行分析，以得到該資料特性分析結果。

於一實施例中，該自動化機器學習系統復包括服務需求解析模組，用於依據該使用者之服務需求設定以及來自該資料分析模組之該資料特性分析結果，以產出要執行自動化機器學習之該機器學習作業配置。

於一實施例中，該自動化機器學習系統復包括資料處理與模型整合模組，用於將該可擴充式自動資料處理模組產出之資料處理流程及檔案與該最佳模型檔案進行整合以成為推論部署包。

於一實施例中，該自動化機器學習系統復包括推論啟動模組，用於將該推論部署包執行端點到端點(end-to-end)之服務接口，以提供對應之推論服務。

於另一實施例中，該可擴充式自動資料處理模組復包括：查詢整合資料處理方法單元，用於依據該資料特性分析結果之資料格式，解析資料類型以及該機器學習配置作業中欲使用之特徵工程需求，以由該資料處理字典資料庫取得該處理方式；通用資料處理物件生成單元，用於依據該資料處理方法中之資料處理物件生成字串，產生用於處理資料之物件；以及執行資料處理單元，用於將該資料源帶入該物件執行，以產出該模型訓練資料集以及該資料處理流程及檔案。

於另一實施例中，該可擴充式自動模型訓練模組復包括：查詢整合模型演算法單元，用於依據該機器學習作業配置中的問題類型，自該模型演算法字典資料庫中查詢所有適合之演算法及超參數組；演算法及超參數組合配置單元，用於執行模型演算法之挑選以及超參數之優化，以於超參數之優化過程中，針對每一種演算法的超參數範圍給定一組參數；通用模型演算法物件生成單元，用於依據查詢到之演算法中的演算法物件生成字串，產生模型演算法之物件；以及至少一執行訓練單元，用於將該模型演算法之物件帶入該模型訓練資料集開始訓練模型，以產出該多組模型。

於一實施例中，該可擴充式自動模型評估模組復包括：查詢整合評估方式單元，用於依據該機器學習作業配置中的問題類型，自該評估方式字典資料庫中查詢所有支援的評估方式，且以該機器學習作業配置中的評估指標作為主指標；通用模型評估物件生成單元，用於依據該所有支援的評估方式中的評估方式物件生成字串，產生評估方式之物件；以及執行評估方式單元，用於將該評估方式之物件帶入該多組模型進行模型評估，依照該主指標之排序篩選出最優的評估結果，以作為該最佳模型檔案。

本發明復揭露一種自動化機器學習方法，係由電腦設備執行該方法，該方法包括以下步驟：令可擴充式自動資料處理模組依據由資料源分析所得到之資料特性分析結果以及由使用者之服務需求設定所得到之機器學習作業配置，自資料處理字典資料庫取得滿足該資料特性分析結果以及該服務需求設定之資料處理方法，以產出資料處理流程及檔案，進而執行該資料處理流程以得到模型訓練資料集；令可擴充式自動模型訓練模組依據該機器學習作業配置，自模型演算法字典資料庫查找適合之演算法以將該模型訓練資料集帶入訓練，藉由訓練過程中不斷優化該演算法之超參數而產出多組模型；以及令可擴充式自動模型評估模組依據該機器學習作業配置，自評估方式字典資料庫查詢出多個評估方式，將該多組模型應用於該多個評估方法中，以依據該機器學習作業配置中之評估主指標的排序選出最佳模型檔案。

於上述方法中，於該可擴充式自動資料處理模組執行之前，復包括：令資料分析模組將該資料源進行分析，以得到該資料特性分析結果，以及令服務需求解析模組依據該使用者之服務需求設定以及來自該資料分析模組之該資料特性分析結果，以產出要執行自動化機器學習之該機器學習作業配置。

於上述方法中，於該可擴充式自動模型評估模組執行之後，復包括：令資料處理與模型整合模組將該可擴充式自動資料處理模組產出之資料處理流程及檔案與該最佳模型檔案進行整合以成為推論部署包；以及令推論啟動模組將該推論部署包執行端點到端點(end-to-end)之服務接口，以提供對應之推論服務。

於上述方法中，該可擴充式自動資料處理模組得到該模型訓練資料集之步驟，復包括：依據該資料特性分析結果之資料格式，解析資料類型以及該機器學習配置作業中欲使用之特徵工程需求，以由該資料處理字典資料庫取得該處理方式；依據該資料處理方法中之資料處理物件生成字串，產生用於處理資料之物件；以及將該資料源帶入該物件執行，以產出該模型訓練資料集以及該資料處理流程及檔案。

於上述方法中，該可擴充式自動模型訓練模組得到該多組模型之步驟，復包括：依據該機器學習作業配置中的問題類型，自該模型演算法字典資料庫中查詢所有適合之演算法及超參數組；執行模型演算法之挑選以及超參數之優化，以於超參數之優化過程中，針對每一種演算法的超參數範圍給定一組參數；依據查詢到之演算法中的演算法物件生成字串，產生模型演算法之物件；以及將該模型演算法之物件帶入該模型訓練資料集開始訓練模型，以產出該多組模型。

於上述方法中，該可擴充式自動模型評估模組得到該最佳模型檔案之步驟，復包括：依據該機器學習作業配置中的問題類型，自該評估方式字典資料庫中查詢所有支援的評估方式，且以該機器學習作業配置中的評估指標作為主指標；依據該所有支援的評估方式中的評估方式物件生成字串，產生評估方式之物件；以及將該評估方式之物件帶入該多組模型進行模型評估，依照該主指標之排序篩選出最優的評估結果，以作為該最佳模型檔案。

本發明復揭露一種電腦可讀媒介，應用於計算裝置或電腦中，係儲存有指令，以執行前述之自動化機器學習方法。

綜上，本發明之自動化機器學習系統、方法及其電腦可讀媒介，為具通用擴充性以及點對點推論服務之自動化機器學習技術，能提供自動化機器學習流程的彈性擴充方法，使得不同資料類型的處理方式、模型演算法及評估方法能輕易擴充，讓自動化機器學習流程更具彈性；另外，所產生之部署包亦包含完整推論流程，可快速啟動推論服務。

1:自動化機器學習系統

10、207:資料處理字典資料庫

11、211:模型演算法字典資料庫

12、214:評估方式字典資料庫

13、208:可擴充式自動資料處理模組

131:查詢整合資料處理方法單元

132:通用資料處理物件生成單元

133:執行資料處理單元

14、212:可擴充式自動模型訓練模組

141:查詢整合模型演算法單元

142:演算法及超參數組合配置單元

143:通用模型演算法物件生成單元

144:執行訓練單元

15、215:可擴充式自動模型評估模組

151:查詢整合評估方式單元

152:通用模型評估物件生成單元

153:執行評估方式單元

16、202:資料分析模組

17、205:服務需求解析模組

18、217:資料處理與模型整合模組

19、219:推論啟動模組

201:資料源

203:資料特性分析結果

204:服務需求設定

206:機器學習作業配置

209:模型訓練資料集

210:資料處理流程及檔案

213:多組模型檔案

216:最佳模型檔案

218:推論部署包

220:推論服務

301-307:步驟

圖1為本發明之自動化機器學習系統的系統架構圖。

圖2為本發明之自動化機器學習系統另一實施例的系統架構圖。

圖3為本發明之可擴充式自動資料處理模組的架構圖。

圖4為本發明之可擴充式自動模型訓練模組的架構圖。

圖5為本發明之可擴充式自動模型評估模組的架構圖。

圖6為本發明之自動化機器學習系統其運作的流程圖

圖7為本發明之自動化機器學習方法的流程圖。

圖8為資料特性分析結果。

圖9為通用物件生成函式。

圖10為RGB標準化處理後矩陣數值。

圖11為影像資料擴增方式之一(旋轉)。

以下藉由特定的具體實施形態說明本發明之技術內容，熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。

圖1為本發明之自動化機器學習系統1的系統架構圖。本發明之目的是讓不同資料類型的處理方式、模型演算法及評估方法容易擴充，並讓自動化機器學習流程變得彈性，所產生之部署包也包含完整推論流程，可快速啟動推論服務。如圖所示，本發明之自動化機器學習系統1係包括資料處理字典資料庫10、模型演算法字典資料庫11、評估方式字典資料庫12、可擴充式自動資料處理模組13、可擴充式自動模型訓練模組14以及可擴充式自動模型評估模組15。

該資料處理字典資料庫10用於儲存多個資料處理方法，該模型演算法字典資料庫11用於儲存多個模型演算法，該評估方式字典資料庫12用於儲存多個評估方式。如前所述，為了讓不同類型資料能適用於同一機器學習系統內，故需要提供許多不同的資料處理方法、模型演算法以及評估方法，以在不同資料類型下，自動化機器學習系統1能進行處理；另外，為了滿足擴充彈性，故設置資料處理字典資料庫10、模型演算法字典資料庫11及評估方式字典資料庫12等資料庫，若有新的資料類型需求時，即可在該些資料庫中加入對應資料，即能讓自動化機器學習系統1取得對應資訊(資料處理方法、模型演算法以及評估方法)並進行處理。

在一實施例中，資料處理字典資料庫10、模型演算法字典資料庫11及評估方式字典資料庫12都是採用階層式之儲存方式，其中，資料處理字典資料庫10能依照資料類型以檢索資料處理方式，模型演算法字典資料庫11能依據問題類型以檢索模型演算法以及演算法的超參數搜索範圍，而評估方式字典資料庫12能依據問題類型以檢索評估設定檔裡的評估方式。

該可擴充式自動資料處理模組13係依據由資料源分析所得到之資料特性分析結果以及由使用者之服務需求設定所得到之機器學習作業配置，自該資料處理字典資料庫10取得滿足該資料特性分析結果以及該服務需求設定之資料處理方法，以產出資料處理流程及檔案，進而執行該資料處理流程以得到模型訓練資料集。簡言之，該可擴充式自動資料處理模組13能自動判斷資料類型並查詢對應的資料處理方式予以執行，亦即，依據資料特性分析結果以及機器學習作業配置，從該資料處理字典資料庫10取得對應的資料處理方法，其中，資料特性分析結果是從資料源分析得到，機器學習作業配置則是根據使用者之服務需求設定搭配前述之資料特性分析結果而得到，於取得對應的資料處理方法後，可得到資料處理流程及檔案，接著，在執行該資料處理流程後能得到模型訓練資料集。

該可擴充式自動模型訓練模組14係依據該機器學習作業配置，自該模型演算法字典資料庫11查找適合之演算法以將該模型訓練資料集帶入訓練，藉由訓練過程中不斷優化該演算法之超參數而產出多組模型。簡言之，該可擴充式自動模型訓練模組14能自動依據該機器學習作業配置中之問題類型，自該模型演算法字典資料庫11查詢出對應的演算法與超參數組並進行模型訓練。

另外，為了滿足擴充需求，該可擴充式自動模型訓練模組14能將新的問題類型演算法新增至該模型演算法字典資料庫11。

該可擴充式自動模型評估模組15係用於依據該機器學習作業配置，自該評估方式字典資料庫12查詢出多個評估方式，將該多組模型應用於該多個評估方法中，以依據該機器學習作業配置中之評估主指標的排序選出最佳模型檔案。簡言之，該可擴充式自動模型評估模組15能自動依據該機器學習作業配置中之問題類型，自該評估方式字典資料庫12查詢出適用的評估方式並執行。

另外，為了滿足擴充需求，該可擴充式自動模型評估模組15能將新的問題類型的評估方式新增至該評估方式字典資料庫12。

圖2為本發明之自動化機器學習系統另一實施例的系統架構圖。如圖所示，其中資料處理字典資料庫10、模型演算法字典資料庫11、評估方式字典資料庫12、可擴充式自動資料處理模組13、可擴充式自動模型訓練模組14以及可擴充式自動模型評估模組15與圖1所示相同，於此不再贅述。於本實施例中，本發明之自動化機器學習系統復包括資料分析模組16、服務需求解析模組17、資料處理與模型整合模組18以及推論啟動模組19。

該資料分析模組16用於將該資料源進行分析，以得到該資料特性分析結果。如前所述，可擴充式自動資料處理模組13會取得資料源經分析後所得到之資料特性分析結果，此分析即是由資料分析模組16進行處理。在一實施例中，該資料分析模組16能解析資料源的資料名稱、格式及統計數值等資訊。

該服務需求解析模組17用於依據該使用者之服務需求設定以及來自該資料分析模組之該資料特性分析結果，以產出要執行自動化機器學習之該機器學習作業配置。在一實施例中，使用者之服務需求設定係指使用者給定的機器學習服務需求，該服務需求解析模組17可解析服務需求設定，並參考資料特性分析結果，以得到要執行的機器學習作業配置，其內容可包含特徵工程、問題類型與評估主指標等資訊。

該資料處理與模型整合模組18用於將該可擴充式自動資料處理模組13產出之資料處理流程及檔案與該最佳模型檔案進行整合，以打包成為推論部署包。簡言之，該資料處理與模型整合模組18能自動整合資料前後處理與模型，也就是把資料處理流程及檔案與該最佳模型檔案進行整合，藉此使啟動之推論服務能提供端點到端點(end-to-end)的完整流程，也就是推論部署包。

該推論啟動模組19用於將該推論部署包執行端點到端點(end-to-end)之服務接口，以提供對應之推論服務。簡言之，該推論啟動模組19可依據該推論部署包產生推論服務接口，藉此提供即時的推論預測服務。

由上可知，資料分析模組16解析資料源以產生資料特性分析結果，服務需求解析模組17讀取使用者給定的服務需求設定與資料源經解析後之資料特性分析結果，以產出機器學習作業配置，接著，可擴充式自動資料處理模組13讀入資料特性分析結果、機器學習作業配置並參考資料處理字典資料庫10，以產出模型訓練資料集以及資料處理流程及檔案，之後，可擴充式自動模型訓練模組14取得機器學習作業配置、模型訓練資料集、資料處理流程及檔案並參考模型演算法字典資料庫11，以自動執行模型訓練而產出多組模型檔案，可擴充式自動模型評估模組15將查詢模型演算法字典資料庫11後代入多組模型檔案，並藉由排序取得最佳模型檔案，最後，資料處理與模型整合模組18讀入資料處理流程及檔案以及最佳模型檔案，以整合出推論部署包，並由推論啟動模組19執行推論部署包以產生推論服務。

圖3為本發明之可擴充式自動資料處理模組的架構圖。如圖所示，可擴充式自動資料處理模組13係包括查詢整合資料處理方法單元131、通用資料處理物件生成單元132以及執行資料處理單元133。

查詢整合資料處理方法單元131用於依據該資料特性分析結果之資料格式，解析資料類型以及該機器學習配置作業中欲使用之特徵工程需求，以由該資料處理字典資料庫10取得該處理方式。舉例來說，查詢整合資料處理方法單元131針對資料特性分析結果的資料格式解析資料類型以及機器學習配置作業中欲使用的特徵工程需求，查詢資料處理字典資料庫10找到對應的處理方式，該資料處理字典資料庫10內資料處理字典的儲存方式是階層式，上層先依照資料類型，下層再檢索此資料類型下的資料處理描述式以及資料處理物件生成字串，例如當上層資料類行為表格時，下層可以檢索到補值、編碼等表格型資料處理方式，若當上層資料類型為影像時，下層可以檢索到影像翻轉、映射等影像型資料處理方式。

通用資料處理物件生成單元132用於依據該資料處理方法中之資料處理物件生成字串，產生用於處理資料之物件。簡言之，通用資料處理物件生成單元132應用查詢整合資料處理方法單元131所取得之資料處理物件生成字串，藉以產生處理資料之物件。

執行資料處理單元133用於將該資料源帶入該物件執行，以產出該模型訓練資料集以及該資料處理流程及檔案。在一實施例中，執行資料處理單元133先取得通用資料處理物件生成單元132所產生的處理資料之物件，並實際將一開始的資料源帶入該處理資料之物件執行，以產生模型訓練資料集以及資料處理流程及檔案，該些資料處理檔案將儲存資料轉換過程之參數。

綜上，查詢整合資料處理方法單元131讀入資料特性分析結果、機器學習作業配置並參考資料處理字典資料庫10，以找到對應的處理方式，接著，通用資料處理物件生成單元132產生處理資料之物件，最後，執行資料處理單元133讀入資料源以及處理資料之物件，最終產生模型訓練資料集以及資料處理流程及檔案。另外，若本發明之資料處理字典資料庫10在擴充時，用戶只需在所屬資料類型下新增其資料處理描述式以及物件生成字串，將明顯優於先前技術中需修改或新增所屬資料類型下的資料處理主程式。因此，可擴充式自動資料處理模組13會自動判斷資料類型並查詢對應的資料處理方式予以執行，且擴充資料處理字典資料庫10可新增不同類型的資料處理方式，因而具有自動判斷資料類型並執行資料處理流程且易於擴充資料處理方式之功效。

圖4為本發明之可擴充式自動模型訓練模組的架構圖。如圖所示，可擴充式自動模型訓練模組14係包括查詢整合模型演算法單元141、演算法及超參數組合配置單元142、通用模型演算法物件生成單元143以及至少一執行訓練單元144。

查詢整合模型演算法單元141用於依據該機器學習作業配置中的問題類型，自該模型演算法字典資料庫11中查詢所有適合之演算法及超參數組。簡言之，查詢整合模型演算法單元141會依據機器學習作業配置中的問題類型從模型演算法字典資料庫11中查詢所有適合的演算法及超參數組，該模型演算法字典資料庫11內模型演算法字典的儲存方式是階層式，上層先依照問題類型，下層在檢索此問題類型下適用的模型演算法代號、演算法物件生成字串與演算法的超參數搜索範圍表示式。

演算法及超參數組合配置單元142用於執行模型演算法之挑選以及超參數之優化，以於超參數之優化過程中，針對每一種演算法的超參數範圍給定一組參數。在一實施例中，演算法及超參數組合配置單元142會利用一種整合式模型演算法挑選及超參數優化技術，在超參數優化的過程中針對每一種演算法的超參數範圍給定一組參數。

通用模型演算法物件生成單元143用於依據查詢到之演算法中的演算法物件生成字串，產生模型演算法之物件。簡言之，通用模型演算法物件生成單元143會依據查詢到之演算法中的演算法物件生成字串，以由該演算法物件生成字串產生模型演算法之物件。

執行訓練單元144用於將該模型演算法之物件帶入該模型訓練資料集開始訓練模型，以產出該多組模型。在一實施例中，執行訓練單元144可為多個(如圖中之執行訓練單元1~執行訓練單元N)，也就是依據不同模型演算法而有各自的訓練單元，通用模型演算法物件生成單元143所產生的模型演算法之物件，可供執行訓練單元144實際帶入模型訓練資料集以開始訓練模型，訓練完成後將產出多組模型檔案。另外，前述之整合式模型演算法挑選及超參數優化技術會自動將演算法視為超參數，並將資料庫內資料字典中的演算法代號列舉為超參數搜索範圍，故相較一般窮舉法能更快取得收斂結果。

綜上，查詢整合模型演算法單元141讀取機器學習作業配置以及參考模型演算法字典資料庫11，並將上述資料代入演算法及超參數組合配置單元142，以進行模型演算法挑選及超參數優化，通用模型演算法物件生成單元143讀入演算法及超參數組合配置單元142所生成的模型演算法之物件，最後，至少一執行訓練單元144讀入通用模型演算法物件生成單元143所產生的模型演算法之物件以及可擴充式自動資料處理模組13所產生之模型訓練資料集，藉以產生該多組模型檔案。另外，若本發明之模型演算法字典資料庫11在擴充時，用戶只需在問題類型下提供模型演算法代號、演算法物件生成字串與演算法的超參數搜索範圍表示式，將明顯優於先前技術中需修改或新增所屬問題類型下的模型訓練主程式。因此，可擴充式自動模型訓練模組14會自動依據問題類型查詢對應的演算法與超參數組並進行模型訓練，且擴充模型演算法字典資料庫11可新增不同問題類型的演算法，因而具有自動挑選演算法並執行模型訓練且易於擴充模型演算法之功效。

圖5為本發明之可擴充式自動模型評估模組的架構圖。如圖所示，可擴充式自動模型評估模組15係包括查詢整合評估方式單元151、通用模型評估物件生成單元152以及執行評估方式單元153。

查詢整合評估方式單元151用於依據該機器學習作業配置中的問題類型，自該評估方式字典資料庫12中查詢所有支援的評估方式，且以該機器學習作業配置中的評估指標作為主指標。在一實施例中，查詢整合評估方式單元151會依據機器學習作業配置中的問題類型從評估方式字典資料庫12查詢所有支援的評估方式並以機器學習作業配置的評估指標作為主指標，該評估方式字典資料庫12內評估方式字典的儲存方式是階層式，上層依照問題類型，下層再檢索此問題類型下評估方式物件生成字串。

通用模型評估物件生成單元152用於依據該所有支援的評估方式中的評估方式物件生成字串，產生評估方式之物件。簡言之，通用模型評估物件生成單元152會依據所有支援的評估方式中的評估方式物件生成字串，藉以產生評估方式之物件。

執行評估方式單元153用於將該評估方式之物件帶入該多組模型進行模型評估，且依照該主指標之排序篩選出最優的評估結果，以作為該最佳模型檔案。在一實施例中，通用模型評估物件生成單元15所產生的評估方式之物件，將提供執行評估方式單元153實際帶入多組模型檔案進行模型評估，再依照主指標排序篩選出最優的評估結果，以作為該最佳模型檔案。

綜上，查詢整合評估方式單元151讀取機器學習作業配置以及參考評估方式字典資料庫12，藉以取得所有支援的評估方式，並以機器學習作業配置中的評估指標作為主指標，通用模型評估物件生成單元152讀入查詢整合評估方式單元151所產生之評估方式，藉以產生評估方式之物件，執行評估方式單元153讀入通用模型評估物件生成單元152所產生的評估方式之物件，並與與可擴充式自動模型訓練模組14所產生之最佳模型檔案。另外，若本發明之評估方式字典資料庫12在擴充時，用戶只需在問題類型下提供評估方式物件生成字串，將明顯優於先前技術中需修改或新增所屬問題類型下的評估方式主程式。因此，可擴充式自動模型評估模組15會自動依據問題類型查詢適用的評估方式並執行，且擴充評估方式字典資料庫12可新增不同問題類型的評估方式，因而具有自動模型評估並篩選最佳模型且易於擴充評估方式之功效。

由上可知，本發明讓不同資料型態適用此擴充機制，無須因類型不同額外開發新流程，且若要增加資料處理方式、模型演算法及評估方法，皆可透過新增字典彈性擴充，無須修改主要架構及程式，解決本技術領域要客製化資料處理的需求，達到快速新增應用。另外，本發明產生之部署包已包含推論服務端點到端點(end-to-end)的完整流程，自動將資料的前後處理與模型整合，使用者不須額外做處理，直接上線部署可以原始資料源進行推論。

圖6為本發明之自動化機器學習系統其運作的流程圖，係說明本發明系統之運作與資料流。如圖所示，資料分析模組202解析資料源201以產生資料特性分析結果203。在一實施例中，資料分析模組202係資料源201的資料名稱、格式及統計數值等資訊，藉以整理出資料特性分析結果203。之後，服務需求解析模組205讀取使用者給定的服務需求設定204與資料源201經解析後之資料特性分析結果203，以產出機器學習作業配置206。在一實施例中，服務需求解析模組205會解析使用者給定的服務需求設定204，藉以產生要執行自動化機器學習的機器學習作業配置206，其內容包含特徵工程、問題類型與評估主指標等資訊。

接著，可擴充式自動資料處理模組208讀入資料特性分析結果203、機器學習作業配置206並參考資料處理字典資料庫207，以產出模型訓練資料集209以及資料處理流程及檔案210，在一實施例中，可擴充式自動資料處理模組208將資料特性分析結果203的格式與統計數值進一步詳細解析出資料型態以及資料處理流程步驟確認(例如是否存在缺失值)，且以機器學習作業配置206中特徵工程的需求至資料處理字典資料庫207查詢，也就是本發明所述之通用可擴充之架構儲存對應資料型態的處理方式，藉此找到對應的處理方式，之後產出資料處理流程及檔案210，並執行此資料處理流程以產出模型訓練資料集209。於一實施例中，該些資料處理步驟可能包括缺失值處理、編碼處理、標準化等特徵工程。

可擴充式自動模型訓練模組212取得機器學習作業配置206、模型訓練資料集209並參考模型演算法字典資料庫211，以自動執行模型訓練而產出多組模型檔案213。在一實施例中，可擴充式自動模型訓練模組212讀取模型訓練資料集209與機器學習作業配置206中的問題類型(例如：分類/回歸等)與評估主指標，依據問題類型查找模型演算法字典資料庫211中適用此類型的所有演算法及其超參數搜索範圍，並套用一種整合式模型演算法挑選及超參數優化技術，依據該評估主指標優化，產生出多組模型檔案213。有別於先前技術只能固定模型演算法對超參數進行優化，本發明採用之整合式模型演算法挑選及超參數優化技術將模型演算法亦視為超參數搜索範圍，進行演算法與超參數並行優化之架構。於一實施例中，前述之模型演算法挑選及超參數優化，熟習此項技藝者可用窮舉法、啟發式搜尋、貝葉斯優化等技術來達成。

可擴充式自動模型評估模組215將查詢評估方式字典資料庫214後代入多組模型檔案213，並藉由排序取得最佳模型檔案216。在一實施例中，可擴充式自動模型評估模組215依據機器學習配置作業206中問題類型與評估主指標後查詢評估方式字典資料庫214取得多種評估方式，將多組模型檔案213應用於該些評估方式，以供使用者有多種評估結果可參考，最後，依評估主指標排序篩選取得該最佳模型檔案216。

最後，資料處理與模型整合模組217讀入資料處理流程及檔案210以及最佳模型檔案216以整合出推論部署包218，並由推論啟動模組219執行推論部署包218以產生推論服務220。在一實施例中，資料處理與模型整合模組217會將資料處理流程及檔案210以及最佳模型檔案216進行完整流程的整合，打包成推論部署包218，最後，推論部署包218可透過推論啟動模組219執行端點到端點(end-to-end)的服務接口，以提供推論服務220。於一實施例中，前述之服務接口，熟習此項技藝者可用應用程式介面(API)、軟體開發套件(SDK)、Web服務等技術來達成。

須說明者，一般來說，原始資料源需經資料處理流程及檔案才能作為模型的推論資料，通常需額外處理，然而本發明所產出之推論部署包218已自動整合資料前後處理與模型，啟動之推論服務能提供端點到端點(end-to-end)的完整流程，因而具有以原始資料源直接上線應用之功效。

圖7為本發明之自動化機器學習方法的流程圖。

於步驟301，分析並產生資料源的特性資訊。本步驟係說明將取得的資料進行資料探索與分析產出其資料特性分析結果，亦即，可依據資料源解析出資料格式、統計分布等資料訊息。

於步驟302，解析資料與服務需求設定產生機器學習作業配置。本步驟係解析資料源之資料特性分析結果與使用者提供的服務需求設定，藉以輸出能自動化機器學習的機器學習作業配置，也就是提供資料類型、問題類型、特徵、目標與主評估計量等需要啟動機器學習流程之設定。

於步驟303，產生資料處理流程與模型訓練資料集。本步驟係依據該機器學習作業配置中資料處理流程來執行，藉以產生模型訓練要使用的資料集與可完整執行資料處理的相關檔案，也就是對資料源進行有利於模型訓練的資料處理，並提供處理流程、轉換檔案與處理後資料。

於步驟304，自動分配演算法與超參數執行訓練產生多組模型。本步驟係依據機器學習作業配置的問題類型搜索適合的演算法並將模型訓練資料集帶入訓練，訓練過程中不斷優化演算法的超參數，以產出多組模型檔案，亦即，可不斷優化演算法與超參數並啟動多組運算單元進行模型訓練。

於步驟305，自動評估每個模型挑選出最佳模型。本步驟係將多組模型自動評估出多種模型評估值，再依據機器學習作業配置中指定的評估方式挑選出最佳模型，簡言之，自動將多組模型套用於多種評估方式產生結果給使用者，並依照主評估計量排序出最佳模型檔案。

於步驟306，整合資料處理與最佳模型產生推論部署包。本步驟係自動把資料處理的檔案與模型整合成完善的推論程序，以提供給使用者，在一實施例中，封裝資料處理後代入最佳模型以進行預測之完整流程。

於步驟307，執行推論部署包提供推論服務等步驟，依序執行。本步驟係將推論部署包執行起來產生推論服務接口，可提供即時的推論預測服務，即運行端點到端點(end-to-end)的推論服務。

本發明能方便管理及新增資料處理方式、機器學習演算法與模型評估方式並自動化執行完整的機器學習訓練流程，藉以提供推論服務，加速企業導入AI應用。以心血管疾病預測為例，醫院具有民眾的體健資訊，像是血壓、膽固醇、生活習慣等，以往醫師是針對單一維度(例如血壓)，提醒民眾可能有風險，而導入AI應用可以變成多維度問題(體驗資訊上每一個資訊)，能提升準確度，因此，透過本發明自動化機器學習產生之模型與提供的推論服務，醫師無須撰寫AI程式，直接將推論結果做為參考，就能提早發現心血管疾病的高風險族群，加以追蹤。下面就以心血管疾病預測之實例說明本發明之管理與執行流程步驟。

A醫院擁有大量的體檢資料如下表一所示，其中包含年齡、性別、身高、體重、收縮壓、舒張壓、膽固醇、運動習慣及心血管疾病，醫院想透過AI產生可預測心血管疾病的推論服務並且可以新增新穎的資料處理方式、模型演算法與模型評估方式。以下依據圖6之流程，配合圖7說明各步驟的執行方法與結果。

首先，如圖7之步驟301，分析並產生資料源的特性資訊。將心血管疾病資料源帶入資料分析模組，分析出資料格式為csv，資料特性分析結果如圖8所示。

接著，如圖7之步驟302，解析資料特性分析結果與服務需求設定產生機器學習作業配置。使用者給定服務需求設定，包含特徵欄位(年齡、性別、身高、體重、收縮壓、舒張壓、膽固醇、運動習慣)、目標欄位(心血管疾病)、問題類型為分類問題、主評估計量為準確度(accuracy)設置等，這些服務設定係透過服務需求解析模組產生機器學習作業配置，如下表二所示。

接著，如圖7之步驟303，產生資料處理流程與模型訓練集資料。查詢整合資料處理方法單元解析資料格式(csv)的資料類型為表格型與資料特性分析結果需要進行特徵工程(編碼、標準化)後進行處理。本實施例中資料處理字典如表三所示。

本實施例為表格型資料，查詢資料處理字典資料庫內之資料處理字典，於上層表格型類別下，取得表格型資料處理的描述式(如上表三所示)、編碼物件生成字串(sklearn.preprocessing.LabelEncoder)以及標準化的物件生成字串(sklearn.preprocessing.MinMaxScaler)。物件生成字串透過如圖9之通用物件生成函式形成通用資料處理物件生成單元，將字串切分出模組及函式並呼叫予以產生資料處理物件，再把心血管疾病之資料源帶入該物件執行，產生資料處理後的心血管疾病資料集(如下表四所示)、資料處理流程與資料處理檔案(labelencoder.pkl、minmaxscaler.pkl)，資料處理檔案係儲存標籤編碼與標準化轉換之參數。

假如要擴充「資料不平衡處理」之資料處理方式，僅須在此處理方式的資料類型下，提供資料處理描述式與物件生成字串「table.preprocessing.upsampling」方式，如下表五所示。

如果可擴充式自動資料處理模組讀取到資料類型為影像型，如下表六所示。

查詢資料處理字典(表三)影像型類別下，取得影像型資料處理的描述式、RGB標準化物件生成字串(image.preprocessing.RGBnormalization)與影像型資料擴增物件生成字串(image.preprocessing.Dataaugmentation)等。物件生成字串透過通用物件生成函式(圖9)形成通用資料處理物件生成單元，將字串切分出模組與函示並呼叫產生資料處理物件，再將原始影像之資料源帶入RGB標準化物件與影像型資料擴增物件，產生處理後的影像結果，如圖10和圖11所示，其中，圖10為RGB標準化處理後矩陣數值，圖11為影像資料擴增方式之一(旋轉)。

如果可擴充式自動資料處理模組讀取到資料類型為文字型，如下表七所示。

查詢資料處理字典(表三)文字型類別下，取得文字型資料處理的描述式進行斷詞、去停用字及詞崁入等特徵及物件生成處理方式。

由上述實施例可知，此步驟會自動判斷資料類型並查詢對應的資料處理方式予以執行，且對資料進行處理的方式能進行擴充，不侷限於上述所舉之應用案例，能達成「自動判斷資料類型並執行資料處理流程且易於擴充資料處理方式」之功效。

接著，如圖7之步驟304，自動分配演算法與超參數執行訓練產生多組模型。查詢整合模型演算法單元根據機器學習作業配置中問題類型為分類，查詢模型演算法字典資料庫內之模型演算法字典進行模型訓練。本實施例中模型演算法字典，如下表八所示。

本實施例為分類問題，查詢模型演算法字典上層分類類別下，取得演算法代號(xgbc、cbc)、演算法物件生成字串(xgboost.XGBClassifier、catboost.CatBoostClassifier)與超參數搜索範圍表示式。演算法及超參數組合配置單元將演算法代號與超參數搜索範圍透過一種貝葉斯優化技術不斷優化取得演算法與超參數組合(cbc，{learning_rate：0.01,max_depth：3,n_estimators：50})。再經由通用物件生成函式(圖9)形成通用模型演算法物件生成單元，透過演算法代號取得演算法物件生成字串，切分出模組及函式並帶入模型超參數，予以產生模型演算法物件，最後執行訓練單元把資料處理後的心血管疾病資料集帶入模型演算法物件執行模型訓練，產生多組模型檔案。

若要在分類類型下擴充「隨機森林」之模型演算法，僅須在此問題類型下，提供演算法代號、演算法物件生成字串「sklearn.tree.DecisionTreeClassifier」與超參數搜索範圍表示式(max_depth：3~20，min_samples_leaf：0.1~0.5)方式，如下表九所示。

由上述實施例可知，此步驟會自動依據問題類型查詢對應的模型演算法與超參數予以執行，且不同模型演算法能加以擴充，不侷限於上述所舉之應用案例，能達成「自動挑選演算法並執行模型訓練且易於擴充模型演算法」之功效。

接著，如圖7之步驟305，自動評估每個模型挑選出最佳模型。查詢整合評估方式單元根據機器學習作業配置中分類問題類型，查詢評估方式字典資料庫內之評估方式字典對該些多組模型進行評估，再以機器學習作業配置中的評估指標作為主評估值，排序篩選出最佳模型。本實施例中模型評估方式字典，如下表十所示。

本實施例為分類問題，主評估指標為準確度(accuracy)，查詢評估方式字典上層分類類別下所有評估方式(accuracy、percision_weighted)的評估方式物件生成字串。物件生成字串透過通用物件生成函式(圖9)形成通用模型評估物件生成單元，將字串切分成模組及函示並呼叫予以產生評估方式物件，再帶入上述產生的多組模型檔案，依照主評估指標排序選出最佳模型。

若要在分類類型下擴充「召回率(recall)」之評估方式，僅須在此問題類型下，提供評估方式字串「sklearn.metrics.recall_score」方式，如下表十一所示。

由上述實施例可知，此步驟會自動依據問題類型查詢模型評估方式予以執行，且不同評估方式能加以擴充，不侷限於上述所舉之應用案例，能達成「自動模型評估並篩選最佳模型且易於擴充評估方式」之功效。

接著，如圖7之步驟306，整合資料處理與模型產生推論部署包。資料處理與模型整合模組將可擴充式自動資料處理模組產生的資料處理流程與資料處理檔案(labelencoder.pkl、minmaxscaler.pkl)及可擴充式自動模型評估模組產生的最佳模型檔案進行完整流程的整合，產出推論部署包。完整流程為將原始資料源接入後，自動執行資料處理並預測結果。

最後，如圖7之步驟307，執行推論部署包提供推論服務。產生應用程式介面(API)，提供推論服務，使用者把推論資料(年齡、性別、身高、體重、收縮壓、舒張壓、膽固醇、運動習慣)輸入至應用程式介面，能即時回傳是否有心血管疾病的預測(0-否/1-是)。

如上述實施例所述，此步驟會自動整合資料前後處理與模型，啟動之推論服務能提供端點到端點(end-to-end)的完整流程，可達成「以原始資料源直接上線應用」之功效。

在一實施例中，上述之各個模組、單元均可為軟體、硬體或韌體；若為硬體，則可為具有資料處理與運算能力之處理單元、處理器、電腦或伺服器；若為軟體或韌體，則可包括處理單元、處理器、電腦或伺服器可執行之指令，且可安裝於同一硬體裝置或分布於不同的複數硬體裝置。

此外，本發明還揭示一種電腦可讀媒介，係應用於具有處理器(例如，CPU、GPU等)及/或記憶體的計算裝置或電腦中，且儲存有指令，並可利用此計算裝置或電腦透過處理器及/或記憶體執行此電腦可讀媒介，以於執行此電腦可讀媒介時執行上述之方法及各步驟。

綜上，本發明揭露一種自動化機器學習系統、方法及其電腦可讀媒介，具備通用擴充性以及與點對點推論服務，主要效益為讓不同資料型態適用此擴充機制，無須因類型不同額外開發新流程，且若要增加資料處理方式、模型演算法及評估方法，只要透過新增字典彈性擴充，無須修改主要架構及程式，解決本領域要客製化資料處理的需求，能達到快速新增快速應用。另外，本發明產生之部署包已包含推論服務end-to-end的完整流程，自動將資料的前後處理與模型整合，使用者無須額外做處理，直接上線部署可以原始資料源進行推論。

上列詳細說明係針對本發明之一可行實施例之具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本發明之專利範圍中。

1:自動化機器學習系統

10:資料處理字典資料庫

11:模型演算法字典資料庫

12:評估方式字典資料庫

13:可擴充式自動資料處理模組

14:可擴充式自動模型訓練模組

15:可擴充式自動模型評估模組

Claims

一種自動化機器學習系統，係包括：

資料處理字典資料庫，用於儲存多個資料處理方法；

模型演算法字典資料庫，用於儲存多個模型演算法；

評估方式字典資料庫，用於儲存多個評估方式；

可擴充式自動資料處理模組，用於依據由資料源分析所得到之資料特性分析結果以及由使用者之服務需求設定所得到之機器學習作業配置，自該資料處理字典資料庫取得滿足該資料特性分析結果以及該服務需求設定之資料處理方法，以產出資料處理流程及檔案，進而執行該資料處理流程以得到模型訓練資料集；

可擴充式自動模型訓練模組，用於依據該機器學習作業配置，自該模型演算法字典資料庫查找適合之演算法以將該模型訓練資料集帶入訓練，藉由訓練過程中不斷優化該演算法之超參數而產出多組模型；以及

可擴充式自動模型評估模組，用於依據該機器學習作業配置，自該評估方式字典資料庫查詢出多個評估方式，將該多組模型應用於該多個評估方法中，以依據該機器學習作業配置中之評估主指標的排序選出最佳模型檔案。
如請求項1所述之自動化機器學習系統，復包括資料分析模組，用於將該資料源進行分析，以得到該資料特性分析結果。
如請求項2所述之自動化機器學習系統，復包括服務需求解析模組，用於依據該使用者之服務需求設定以及來自該資料分析模組之該資料特性分析結果，以產出要執行自動化機器學習之該機器學習作業配置。
如請求項1所述之自動化機器學習系統，復包括資料處理與模型整合模組，用於將該可擴充式自動資料處理模組產出之資料處理流程及檔案與該最佳模型檔案進行整合以成為推論部署包。
如請求項4所述之自動化機器學習系統，復包括推論啟動模組，用於將該推論部署包執行端點到端點(end-to-end)之服務接口，以提供對應之推論服務。
如請求項1所述之自動化機器學習系統，其中，該可擴充式自動資料處理模組復包括：

查詢整合資料處理方法單元，用於依據該資料特性分析結果之資料格式，解析資料類型以及該機器學習配置作業中欲使用之特徵工程需求，以由該資料處理字典資料庫取得該處理方式；

通用資料處理物件生成單元，用於依據該資料處理方法中之資料處理物件生成字串，產生用於處理資料之物件；以及

執行資料處理單元，用於將該資料源帶入該物件執行，以產出該模型訓練資料集以及該資料處理流程及檔案。
如請求項1所述之自動化機器學習系統，其中，該可擴充式自動模型訓練模組復包括：

查詢整合模型演算法單元，用於依據該機器學習作業配置中的問題類型，自該模型演算法字典資料庫中查詢所有適合之演算法及超參數組；

演算法及超參數組合配置單元，用於執行模型演算法之挑選以及超參數之優化，以於超參數之優化過程中，針對每一種演算法的超參數範圍給定一組參數；

通用模型演算法物件生成單元，用於依據查詢到之演算法中的演算法物件生成字串，產生模型演算法之物件；以及

至少一執行訓練單元，用於將該模型演算法之物件帶入該模型訓練資料集開始訓練模型，以產出該多組模型。
如請求項1所述之自動化機器學習系統，其中，該可擴充式自動模型評估模組復包括：

查詢整合評估方式單元，用於依據該機器學習作業配置中的問題類型，自該評估方式字典資料庫中查詢所有支援的評估方式，且以該機器學習作業配置中的評估指標作為主指標；

通用模型評估物件生成單元，用於依據該所有支援的評估方式中的評估方式物件生成字串，產生評估方式之物件；以及

執行評估方式單元，用於將該評估方式之物件帶入該多組模型進行模型評估，依照該主指標之排序篩選出最優的評估結果，以作為該最佳模型檔案。
一種自動化機器學習方法，係由電腦設備執行該方法，該方法包括以下步驟：

令可擴充式自動資料處理模組依據由資料源分析所得到之資料特性分析結果以及由使用者之服務需求設定所得到之機器學習作業配置，自資料處理字典資料庫取得滿足該資料特性分析結果以及該服務需求設定之資料處理方法，以產出資料處理流程及檔案，進而執行該資料處理流程以得到模型訓練資料集；

令可擴充式自動模型訓練模組依據該機器學習作業配置，自模型演算法字典資料庫查找適合之演算法以將該模型訓練資料集帶入訓練，藉由訓練過程中不斷優化該演算法之超參數而產出多組模型；以及

令可擴充式自動模型評估模組依據該機器學習作業配置，自評估方式字典資料庫查詢出多個評估方式，將該多組模型應用於該多個評估方法中，以依據該機器學習作業配置中之評估主指標的排序選出最佳模型檔案。
如請求項9所述之自動化機器學習方法，其中，於該可擴充式自動資料處理模組執行之前，復包括：令資料分析模組將該資料源進行分析，以得到該資料特性分析結果，以及令服務需求解析模組依據該使用者之服務需求設定以及來自該資料分析模組之該資料特性分析結果，以產出要執行自動化機器學習之該機器學習作業配置。
如請求項9所述之自動化機器學習方法，其中，於該可擴充式自動模型評估模組執行之後，復包括：

令資料處理與模型整合模組將該可擴充式自動資料處理模組產出之資料處理流程及檔案與該最佳模型檔案進行整合以成為推論部署包；以及

令推論啟動模組將該推論部署包執行端點到端點(end-to-end)之服務接口，以提供對應之推論服務。
如請求項9所述之自動化機器學習方法，其中，該可擴充式自動資料處理模組得到該模型訓練資料集之步驟，復包括：

依據該資料特性分析結果之資料格式，解析資料類型以及該機器學習配置作業中欲使用之特徵工程需求，以由該資料處理字典資料庫取得該處理方式；

依據該資料處理方法中之資料處理物件生成字串，產生用於處理資料之物件；以及

將該資料源帶入該物件執行，以產出該模型訓練資料集以及該資料處理流程及檔案。
如請求項9所述之自動化機器學習方法，其中，該可擴充式自動模型訓練模組得到該多組模型之步驟，復包括：

依據該機器學習作業配置中的問題類型，自該模型演算法字典資料庫中查詢所有適合之演算法及超參數組；

執行模型演算法之挑選以及超參數之優化，以於超參數之優化過程中，針對每一種演算法的超參數範圍給定一組參數；

依據查詢到之演算法中的演算法物件生成字串，產生模型演算法之物件；以及

將該模型演算法之物件帶入該模型訓練資料集開始訓練模型，以產出該多組模型。
如請求項9所述之自動化機器學習方法，其中，該可擴充式自動模型評估模組得到該最佳模型檔案之步驟，復包括：

依據該機器學習作業配置中的問題類型，自該評估方式字典資料庫中查詢所有支援的評估方式，且以該機器學習作業配置中的評估指標作為主指標；

依據該所有支援的評估方式中的評估方式物件生成字串，產生評估方式之物件；以及

將該評估方式之物件帶入該多組模型進行模型評估，依照該主指標之排序篩選出最優的評估結果，以作為該最佳模型檔案。
一種電腦可讀媒介，應用於計算裝置或電腦中，係儲存有指令，以執行如請求項9至14之任一者所述之自動化機器學習方法。