TWI810602B

TWI810602B - 基於機械學習的關鍵因子自動尋找方法

Info

Publication number: TWI810602B
Application number: TW110125033A
Authority: TW
Inventors: 顧永庭; 程友信; 詹朝巖; 楊其勳; 郭智淵
Original assignee: 友達光電股份有限公司
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2023-08-01
Also published as: TW202303461A; CN114298325A

Abstract

本揭露提出一種基於機械學習的自動關鍵因子尋找方法。首先，收集訓練數據集。所述訓練數據集包括多個資料集以及與各資料集相對應的結果數值。接著，基於所述訓練數據集建立機器學習模型。在此，將各資料集作為機器學習模型的輸入變量，並將與各資料集相對應的結果數值作為機器學習模型的輸出變量，藉此來訓練機器學習模型。在建立該機器學習模型之後，對機器學習模型執行模型解析法，以在所述資料集中取出影響結果數值的至少一關鍵因子。

Description

基於機械學習的關鍵因子自動尋找方法

本發明是有關於一種資料探勘方法，且特別是有關於一種基於機械學習的關鍵因子自動尋找方法。

隨著科學技術的日新月異，各種行業的資訊化程度大幅全面提升，整個社會的資料正在以前所未有的速度快速增長。而資料探勘便是在巨量資料快速增長下的產物。資料探勘過程的總體目標是從一個資料集中提取資訊，並將其轉換成可理解的結構。

一般用於廠房良率分析的情況下，當生產品質或效能出現異常時，廠房人員會利用線性分析方式來逐一判斷每一個參數與良率之間的關聯性。倘若參數過多，逐一確認的方式則顯得過於消耗人力資源。此外，對於一個以上的因子或是非線性關係造成良率異常，傳統分析方式亦不易判斷。

本發明提供一種關鍵因子分析流程，可有效找出數據中的關鍵因子。

本發明的基於機械學習的關鍵因子自動尋找方法，包括：收集訓練數據集，其中訓練數據集包括多個資料集以及與各資料集相對應的結果數值；基於訓練數據集建立機器學習模型，其中將各資料集作為機器學習模型的輸入變量，並將與各資料集相對應的結果數值作為機器學習模型的輸出變量，藉此來訓練機器學習模型；以及在建立機器學習模型之後，對機器學習模型執行模型解析法，以在所述資料集中取出影響結果數值的至少一關鍵因子。

在本發明的一實施例中，在收集訓練數據集之後，更包括：對所述資料集進行前處理，其中前處理包括遺缺值補值（missing value imputation）處理、離散特徵數位化處理以及特徵預處理。離散特徵數位化處理例如為單熱編碼（One Hot Encoder）、標籤編碼（LabelEncoder）等。特徵預處理例如為歸一化（normalization）處理、正則化（regularization）處理、標準化（standardization）處理等。

在本發明的一實施例中，在對機器學習模型執行模型解析法之前，更包括：對機器學習模型執行自動超參（hyper parameter）調整處理（如貝葉式優化法、退火法），以優化機器學習模型。

在本發明的一實施例中，各資料集包括生產產品時所使用的一或多個機台的多個特徵參數，結果數值為良率值，而對機器學習模型執行模型解析法包括：透過模型解析法來計算每一個特徵參數對應的重要值；以及基於所述重要值來決定至少一關鍵因子。

在本發明的一實施例中，所述特徵參數至少包括電流、溫度、運轉速度、流量、扭力、環境微粒子（particle）量以及排氣（exhaust）值中的任意兩個。

在本發明的一實施例中，對機器學習模型執行模型解析法，以在所述資料集中取出影響結果數值的至少一關鍵因子之後，更包括：將至少一關鍵因子以視覺化方式呈現。

在本發明的一實施例中，所述機器學習模型為極限梯度提升（eXtreme Gradient Boosting，XGBoost）模型、分類提升（Category and Boosting，CatBoost）模型、隨機森林（random forest）以及輕度梯度提升機（light gradient boosting machine，LightGBM）其中一個。

在本發明的一實施例中，所述模型解析法為薛普利加法解釋（SHapley Additive exPlanations，SHAP）或是局部可解釋模型解釋法（Local Interpretable Model-agnostic Explanations，LIME）。

基於上述，本揭露是先利用機器學習模型來建立資料集與其對應的結果數據之間的關係，之後從模型解析法來解析機器學習模型，藉此來獲得影響結果數據的關鍵因子。據此，避免了傳統數據分析中，複雜繁瑣耗費人工的分析過程，可快速找出數據中的關鍵因子。

圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1，電子裝置100包括處理器110以及儲存器120。處理器110耦接至儲存器120。處理器110例如為中央處理單元（Central Processing Unit，CPU）、物理處理單元（Physics Processing Unit，PPU）、可程式化之微處理器（Microprocessor）、嵌入式控制晶片、數位訊號處理器（Digital Signal Processor，DSP）、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）或其他類似裝置。

儲存器120例如是任意型式的固定式或可移動式隨機存取記憶體（Random Access Memory，RAM）、唯讀記憶體（Read-Only Memory，ROM）、快閃記憶體（Flash memory）、硬碟或其他類似裝置或這些裝置的組合。儲存器120包括建模模組121以及解析模組123。建模模組121以及解析模組123是由一或多個程式碼片段所組成，上述程式碼片段在被安裝後，會由處理器110來執行下述基於機械學習的關鍵因子自動尋找方法。

圖2是依照本發明一實施例的基於機械學習的關鍵因子自動尋找方法的流程圖。請同時參照圖1及圖2，在步驟S205中，電子裝置100收集訓練數據集。所述訓練數據集包括多個資料集以及與各資料集相對應的結果數值。

每一個資料集具有對應的一個結果數據。各資料集包括生產產品時所使用的一或多個機台的多個特徵參數。所述特徵參數至少包括電流、溫度、運轉速度、流量、扭力、環境微粒子（particle）量以及排氣（exhaust）值中的任意兩個。結果數值為良率值。不同的特徵參數會影響良率值。

在收集訓練數據集之後，處理器110進一步會對所述資料集進行前處理。例如，儲存器120中還包括有一前處理模組（未繪示），透過前處理模組來執行遺缺值補值（missing value imputation）處理、離散特徵數位化處理以及特徵預處理處理。

遺缺值補值（missing value imputation）處理常用於處理不完整資料集問題的解決方法。例如，可使用統計技術或機器學習技術產生出推估值並且用來取代遺缺值。統計技術例如為平均值、眾數或回歸等。機器學習技術例如為k最近鄰演算法（k-nearest neighbors (KNN) algorithm）、人工類神經網路（artificial neural network，ANN）和支援向量機（support vector machine，SVM）等技術。

所述離散特徵數位化處理例如為單熱編碼（One Hot Encoder）、標籤編碼（LabelEncoder）等。單熱編碼主要是採用N位元狀態暫存器來對N個狀態進行編碼，每個狀態都具有獨立的暫存器位元，並且在任意時候只有一個位元有效。直觀來說就是有多少個狀態就有多少位元，而且只有一個位元為1，其他全為0。標籤編碼類似於流水號，依序將新出現的類別依序編上新代碼，已出現的類別編上已使用的代碼。

特徵預處理例如為歸一化（normalization）處理、正則化（regularization）處理、標準化（standardization）處理等。歸一化（normalization）處理主要是將數據映射至0～1範圍之內，其中最小值被轉化為0，最大值被轉化為1。正則化處理包括L1正則化和L2正則化。L1正則化會讓模型的權重參數稀疏化（部分權重的值為0），L2正則化會讓模型的權重有趨於0的偏好（部分權重趨於0）。標準化處理是將數據按比例縮放，使其落入一個小的特定區間內。

接著，在步驟S210中，基於訓練數據集建立機器學習模型。具體而言，建模模組121將各資料集作為機器學習模型的輸入變量，並將與各資料集相對應的結果數值作為機器學習模型的輸出變量，藉此來訓練機器學習模型。即，建模模組121利用機器學習模型來建立資料集與其對應的結果數據之間的非線性或是線性關係。

所述機器學習模型例如為極限梯度提升（eXtreme Gradient Boosting，XGBoost）模型、分類提升（Category and Boosting，CatBoost）模型、隨機森林（random forest）、輕度梯度提升機（light gradient boosting machine，LightGBM）或是任意的機械學習模型。透過機器學習模型來建立資料集及其結果數據的關聯性。

圖3是依照本發明一實施例的機器學習模型的示意圖。請參照圖3，在本實施例中，機器學習模型具有多個層，包括輸入層310、一或多個隱藏層320以及輸出層330。輸入層310供輸入變量X1~Xn輸入。隱藏層320用以進行運算後，透過輸出層330來獲得輸出變數Y。即，將多組資料集及其對應的結果數據分別作為輸入變量X1~Xn與輸出變量Y，來更新隱藏層320的參數，最終訓練出一組權重（weight）。

在訓練出一組權重值之後，還可進一步對機器學習模型執行超參（hyper parameter）調整處理，以優化機器學習模型。超參數調整化也稱作超參數優化。一般而言，機器學習或深度學習的演算法中包含了龐大的參數量，其中包括可以通過訓練來優化的參數，例如模型中使用的權重（weight）等，以及用來調節整個機器學習模型訓練過程的超參數（hyper parameter）。超參數並不直接參與到訓練的過程中，其只是配置變數。也就是說，超參數並無法通過訓練來進行優化。超參數包括隱藏層320的數量、核函數（kernel function）的大小及/或數量等。

超參調整就是在變數可能取值空間中尋找一組參數以使機器學習模組達到令人滿意的效果。例如，可利用貝葉斯優化（Bayesian optimization）演算法、模擬退火（simulated annealing）演算法、隨機搜尋（random search）演算法、粒子群優化（particle swarm optimization，PSO）演算法等來對機器學習模型執行超參調整。

另外，在建立機器學習模型之後，還可對機器學習模型進行測試，並透過混淆矩陣（confusion matrix）來呈現測試結果。混淆矩陣是可視化工具，矩陣的每一列代表一個分類的實例預測，而每一行表示一個實際分類的實例。通過混淆矩陣可以方便地看出機器學習模型的輸出結果是否將兩個不同的類混淆。

在建立機器學習模型之後，於步驟S215中，對機器學習模型執行模型解析法。並且，在步驟S220中，在所述資料集中取出影響結果數值的至少一關鍵因子。處理器110可透過解析模組123執行模型解析法來計算每一個特徵參數對應的重要值，之後基於所述重要值來決定至少一關鍵因子。所述模型解析法例如為薛普利加法解釋（SHapley Additive exPlanations，SHAP）演算法。利用SHAP演算法對每一個特徵參數計算一個對應的SHAP值，利用SHAP值測量機器學習模型中每個特徵參數對每個結果數值的正面或負面貢獻的程度。

在其他實施例中，所述模型解析法亦可採用其他的可解釋人工智慧的解析技術，例如，局部可解釋模型解釋法（Local Interpretable Model-agnostic Explanations，LIME）等。

在獲得關鍵因子之後，處理器110還可進一步將關鍵因子以視覺化方式呈現。圖4是依照本發明一實施例的視覺化呈現關鍵因子的示意圖。在圖4中，Y軸表示各個特徵參數，X軸表示該點對應的SHAP值，右方豎立的灰階漸層線（顏色）用以表示該特徵參數的數值大小。例如，以特徵參數01而言，其顏色深的部分位於右半（大於0）部分，表示特徵參數01的數值高的時候，對良率造成負影響，會造成良率值降低。以特徵參數03而言，其顏色深的部分多位於左半（小於0）部分，表示特徵參數03的值越高，會導致良率值的改善。由圖4可以看出每一個特徵參數的SHAP值的分布，可以看出特徵參數與結果數值之間的關係。

圖5是依照本發明一實施例的視覺化呈現關鍵因子的示意圖。在圖5中，X軸為每個特徵參數的SHAP絕對值的平均值。由圖5可以看出每一個特徵參數的重要度。SHAP絕對值的平均值越高，代表重要度越高。

假設透過上述方法得到的關鍵因子為排氣（exhaust）值，則可在製程上對排氣值來進行調整，藉此可改善產品的良率。

綜上所述，本揭露是先利用機器學習模型來建立資料集與其對應的結果數據之間的關係，之後從模型解析法來解析機器學習模型，藉此來獲得影響結果數據的關鍵因子。據此，避免了傳統數據分析中，複雜繁瑣耗費人工的分析過程，可有效快速找出數據中的關鍵因子。

100:電子裝置 110:處理器 120:儲存器 121:建模模組 123:解析模組 310:輸入層 320:隱藏層 330:輸出層 S205～S220:基於機械學習的關鍵因子自動尋找方法的步驟

圖1是依照本發明一實施例的電子裝置的方塊圖。圖2是依照本發明一實施例的基於機械學習的關鍵因子自動尋找方法的流程圖。圖3是依照本發明一實施例的機器學習模型的示意圖。圖4是依照本發明一實施例的視覺化呈現關鍵因子的示意圖。圖5是依照本發明一實施例的視覺化呈現關鍵因子的示意圖。

S205~S220:基於機械學習的關鍵因子自動尋找方法的步驟

Claims

一種基於機械學習的關鍵因子自動尋找方法，包括：收集一訓練數據集，其中該訓練數據集包括多個資料集以及與每一該些資料集相對應的一良率值，其中每一該些資料集包括生產一產品時所使用的一或多個機台的多個特徵參數；基於該訓練數據集建立一機器學習模型，其中將每一該些資料集作為該機器學習模型的輸入變量，並將與每一該些資料集相對應的該良率值作為該機器學習模型的輸出變量，藉此來訓練該機器學習模型，以在該些特徵參數中選定多個；以及在建立該機器學習模型之後，對該機器學習模型執行一模型解析法，包括：透過該模型解析法來計算被選定的每一該些特徵參數對應的一重要值；以及基於該重要值在該些特徵參數中取出影響該良率值的至少一關鍵因子。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中在收集該訓練數據集之後，更包括：對該些資料集進行一前處理，其中該前處理包括一遺缺值補值處理、一離散特徵數位化處理以及一特徵預處理處理。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中在對該機器學習模型執行該模型解析法之前，更包括：對該機器學習模型執行一自動超參調整處理，以優化該機器學習模型。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中該些特徵參數至少包括電流、溫度、運轉速度、流量、扭力、環境微粒子量以及排氣值中的任意兩個。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中在取出影響該良率值的該至少一關鍵因子之後，更包括：將該至少一關鍵因子以視覺化方式呈現。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中該機器學習模型為極限梯度提升(eXtreme Gradient Boosting，XGBoost)模型、分類提升(Category and Boosting，CatBoost)模型、隨機森林(random forest)以及輕度梯度提升機(light gradient boosting machine，LightGBM)其中一個。
如請求項1所述的基於機械學習的關鍵因子自動尋找方法，其中該模型解析法為薛普利加法解釋(SHapley Additive exPlanations，SHAP)或是局部可解釋模型解釋法(Local Interpretable Model-agnostic Explanations，LIME)。