TWI740529B

TWI740529B - 分層建模之方法及系統

Info

Publication number: TWI740529B
Application number: TW109118988A
Authority: TW
Inventors: 余承叡; 吳政鴻; 張鈺欣
Original assignee: 財團法人資訊工業策進會
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-09-21
Also published as: US20210383039A1; CN113762561A; TW202147144A

Abstract

一種分層建模之方法及系統。系統包括一處理單元以及一模型建立及訓練單元。處理單元用以從一儲存單元獲得一原始資料，依據該原始資料之複數個類別變數從原始資料中獲得複數個基礎組合之資料集、複數個部分組合之資料集及一全組合之資料集，並分別將每一該些基礎組合之資料集、每一該些部分組合之資料集及該全組合之資料集分為一訓練資料集、一驗證資料集及一測試資料集以獲得複數個訓練資料集、複數個驗證資料集及複數個測試資料集。模型建立及訓練單元用以根據該些訓練資料集分別建立複數個模型。該些基礎組合之資料集為每一個該些類別變數皆為一特定屬性值之資料集、該些部分組合之資料集為該些類別變數中至少一個類別變數為一任意屬性值，且不包含每一個該些類別變數皆為該任意屬性值之資料集、以及該全組合之資料集為每一個該些類別變數皆為一任意屬性值之資料集。

Description

分層建模之方法及系統

本發明是有關於一種分層建模之方法，且特別是有關於分層建模之方法及系統。

在製造業中，生產流程通常很複雜。不同原料與不同設備之間的組合會導致不同的生產效率。其中與原料及設備相關的非數值的變數為類別變數，例如材料的種類、機台參數、機台類型、配方..等。也就是說類別變數之間的組合會導致不同的生產效率。生產效率的預測關係到原物料的安排、交期的訂定與訂單的議價。習知技術以全部資料建立生產效率的單一預測模型，但由於不同類別變數組合之資料分布可能差異甚大，將全部資料混合在一起所建立之單一預測模型可能導致預測準確度不佳。進一步來說，單一預測模型無法精準預測每種不同類別變數組合之生產效率。此外，製程工程師也無法透過其中某些類別變數組合判斷單一預測模型之預測結果的合理性。

因此，本發明提供一種分層建模的方法及系統，可改善上述單一預測模型的問題。

本發明係有關於一種分層建模之方法及系統，其利用各種不同類別變數組合（基礎組合、部份組合及全組合）之資料集建立及訓練不同大小的模型，並透過驗證及測試模型，以選出較佳的預測模型。

根據本發明之第一方面，提出一種分層建模之系統。系統包括一處理單元以及一模型建立及訓練單元。處理單元用以從一儲存單元獲得一原始資料，依據該原始資料之複數個類別變數從原始資料中獲得複數個基礎組合之資料集、複數個部分組合之資料集及一全組合之資料集，並分別將每一該些基礎組合之資料集、每一該些部分組合之資料集及該全組合之資料集分為一訓練資料集、一驗證資料集及一測試資料集以獲得複數個訓練資料集、複數個驗證資料集及複數個測試資料集。模型建立及訓練單元用以根據該些訓練資料集分別建立複數個模型。該些基礎組合之資料集為每一個該些類別變數皆為一特定屬性值之資料集、該些部分組合之資料集為該些類別變數中至少一個類別變數為一任意屬性值，且不包含每一個該些類別變數皆為該任意屬性值之資料集、以及該全組合之資料集為每一個該些類別變數皆為一任意屬性值之資料集。

根據本發明之第二方面，提出一種分層建模之方法。方法包括以下步驟。獲得一原始資料。依據該原始資料之複數個類別變數從該原始資料中獲得複數個基礎組合之資料集、複數個部分組合之資料集及一全組合之資料集。分別將每一該些基礎組合之資料集、每一該些部分組合之資料集及該全組合之資料集分為一訓練資料集、一驗證資料集及一測試資料集以獲得複數個訓練資料集、複數個驗證資料集及複數個測試資料集。根據該些訓練資料集分別建立複數個模型。該些基礎組合之資料集為每一個該些類別變數皆為一特定屬性值之資料集、該些部分組合之資料集為該些類別變數中至少一個類別變數為一任意屬性值，且不包含每一個該些類別變數皆為該任意屬性值之資料集、以及該全組合之資料集為每一個該些類別變數皆為一任意屬性值之資料集。

為了對本發明之上述及其他方面有更佳的瞭解，下文特舉實施例，並配合所附圖式詳細說明如下：

請參照第1圖，其繪示分層建模之系統100之示意圖。分層建模之系統100包括一處理單元110、一模型建立及訓練單元120、一驗證單元130、一測試單元140及一儲存單元150。處理單元110、模型建立及訓練單元120、驗證單元130及測試單元140例如是一晶片、一電路板、一電路、數組程式碼、或儲存程式碼之儲存裝置。儲存單元150例如是記憶體或硬碟。在一實施例中，儲存單元150可為系統100之外部儲存單元。

以下更搭配一流程圖詳細說明上述分層建模之系統100之運作。

請參照第1及2圖。第2圖繪示根據一實施例之分層建模之方法的流程圖。在步驟S110中，處理單元110從一儲存單元150獲得一原始資料OD。原始資料OD至少包括多個類別變數。請參照表一，表一為原始資料OD之一範例，此原始資料OD包括13186筆資料。此原始資料OD包括一個編號、五個類別變數、多個數值變數及一單位小時產能（UPH）。五個類別變數分別為“材料”、“產品”、“機台”、“製程”及“配方”，每個類別變數包括多個屬性值。例如類別變數“材料”包括兩個屬性值“材料1”及“材料2”。數值變數及UPH皆為數值，表一中，以編號1之資料為例，其多個數值變數的內容僅以“5.5….42.6”表示。表一所示為製造業中之生產流程之原始資料OD，原始資料OD中之類別變數為生產流程中之材料、產品、機台、製程及配方的非數值之變數。屬性值用以表示類別變數之種類、型號..等非數值的內容。例如材料有兩種，則以屬性值“材料1”及“材料2”表示。

編號	材料	產品	機台	製程	配方	數值變數	UPH
1	材料1	產品1	機台1	製程1	配方1	5.5….42.6	1546.2
2	材料1	產品1	機台1	製程5	配方7	4.3….32.3	1261.4
3	材料1	產品1	機台3	製程2	配方2	5.8….22.2	860
4	材料2	產品1	機台2	製程2	配方18	6.8….32.8	895.5
5	材料2	產品2	機台2	製程2	配方1	3.1….31.7	892
6	材料2	產品2	機台7	製程3	配方3	5.5….32.6	877.36
7	材料1	產品2	機台1	製程3	配方14	4.5….32.6	873
…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…
13185	材料1	產品3	機台2	製程1	配方4	15….52.8	1415
13186	材料2	產品3	機台4	製程6	配方4	18.4…33.6	1420

表一

為了方便說明，以下以原始資料OD包括五個類別變數A、B、C、D、E，以及類別變數A包括2個屬性值a1、a2，類別變數B包括3個屬性值b1、b2、b3，類別變數C包括四個屬性值c1、c2、c3、c4，類別變數D包括7個屬性值d1、d2、…、d7，類別變數E包括22個屬性值e1、e2、…、e22，且原始資料OD包括10000筆資料為例。

請參照第1至3圖，第3圖繪示根據一實施例之原始資料OD、基礎組合BC ₁、…、BC _m之資料集、部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集的示意圖。在步驟S120中，處理單元110依據原始資料OD之多個類別變數A、B、C、D、E從原始資料OD中獲得基礎組合BC ₁、…、BC _m之資料集、部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集。

基礎組合BC ₁、…、BC _m表示每一個類別變數A、B、C、D、E皆為一特定屬性值。舉例來說，類別變數A為屬性值a1、類別變數B為屬性值b1、類別變數C為屬性值c1、類別變數D為屬性值d1、類別變數E為屬性值e1為一種基礎組合（如第3圖中之基礎組合BC ₁），可表示為｛A,B,C,D,E｝=｛a1,b1,c1,d1,e1｝；類別變數A為屬性值a1、類別變數B為屬性值b1、類別變數C為屬性值c1、類別變數D為屬性值d1、類別變數E為屬性值e2為另一種基礎組合（如第3圖中之基礎組合BC ₂），可表示為｛A,B,C,D,E｝=｛a2,b1,c1,d1,e1｝，以此類推，在此不一一列出。因此，此範例中，基礎組合BC ₁、…、BC _m有 2

3

4

7

22=3696種。在原始資料OD中，符合基礎組合BC ₁、…、BC _m的資料為基礎組合BC ₁、…、BC _m之資料集。不同的基礎組合BC ₁、…、BC _m之資料集之間互斥。在一實施例中，處理單元110刪除不包含資料的基礎組合。

全組合FC ₁表示每一個類別變數皆為任意屬性值，以下以“+”表示任意屬性值，其中任意屬性值“+”表示每一類別變數可為其包含之多個屬性值的任一個。例如，類別變數A為任意屬性值“+”表示類別變數A可為屬性值a1或a2，類別變數B為任意屬性值“+”表示類別變數B可為屬性值b1或b2或b3，以此類推。

類別變數A為任意屬性值“+”、類別變數B為任意屬性值“+”、類別變數C為任意屬性值“+”、類別變數D為任意屬性值“+”、以及類別變數E為任意屬性值“+”為一全組合（如第3圖中之全組合FC ₁），可表示為｛A,B,C,D,E｝=｛+,+,+,+,+｝。因此，此範例中，全組合FC ₁只有1種。在原始資料OD中，符合全組合FC ₁的資料為全組合FC ₁之資料集。值得注意的是，全組合FC ₁之資料集是由全部的基礎組合BC ₁、…、BC _m之資料集所組成。

部分組合PC ₁、…、PC _x表示多個類別變數中至少一個類別變數為任意屬性值，但不包含每一個類別變數皆為任意屬性值（亦即不包含全組合）。舉例來說，類別變數A為任意屬性值“+” （a1或a2），類別變數B為屬性值b1，類別變數C為屬性值c1，類別變數D為屬性值d1，類別變數E為屬性值e1（亦即1個類別變數為任意屬性值其他4個類別變數為特定屬性值的情況）為一種部分組合（如第3圖中之部分組合PC ₁），表示為｛A,B,C,D,E｝=｛+,b1,c1,d1,e1｝；當類別變數A為任意屬性值“+” （a1或a2），類別變數B為任意屬性值“+”（b1或b2或b3），類別變數C為屬性值c1，類別變數D為屬性值d1，類別變數E為屬性值e1時（亦即2個類別變數為任意屬性值其他3個類別變數為特定屬性值的情況）為另一種部分組合（如第3圖中之部分組合PC ₂），表示為｛A,B,C,D,E｝=｛+,+,c1,d1,e1｝，以此類推，在此不一一列出。在原始資料OD中，符合部分組合PC ₁、…、PC _x的資料為部分組合PC ₁、…、PC _x之資料集。值得注意的是，每一個部分組合PC ₁、…、PC _x之資料集是由多個基礎組合BC ₁、…、BC _m之資料集所組成。如第3圖中所示，部分組合PC ₁之資料集是由基礎組合BC ₁及BC ₂之資料集所組成，部分組合PC ₂之資料集是由基礎組合BC ₁、BC ₂、BC ₃、BC ₄、BC ₅、BC ₆之資料集所組成。也就是說，不同的部分組合PC ₁、…、PC _x之資料集之間不互斥。

第4圖繪示根據一實施例之基礎組合BC ₁、…、BC _m之資料集、部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集的訓練資料集TD ₁、…、TD _n、驗證資料集VD ₁、…、VD _n及測試資料集TSD ₁、…、TSD _n之示意圖。接著，在步驟S130，處理單元110分別將每一基礎組合BC ₁、…、BC _m之資料集、每一部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集分為一訓練資料集、一驗證資料集及一測試資料集，以獲得多個訓練資料集TD ₁、…、TD _n、多個驗證資料集VD ₁、…、VD _n及多個測試資料集TSD ₁、…、TSD _n。

更詳細來說，處理單元110分別將每一基礎組合BC ₁、…、BC _m之資料集、每一部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集之第一部份作為訓練資料集TD ₁、…、TD _n、第二部份作為驗證資料集VD ₁、…、VD _n、以及第三部份作為測試資料集TSD ₁、…、TSD _n，且在每一基礎組合BC ₁、…、BC _m之資料集、每一部分組合PC ₁、…、PC _x之資料集及全組合FC ₁之資料集中，第一部份、第二部分及第三部份不重複。在一實施例中，第一部份可為70%、第二部分可為15%以及第三部分可為15%，但不以此為限。以基礎組合BC ₁之資料集為例，假設第一部份為70%、第二部分為15%以及第三部分為15%時，則處理單元110將基礎組合BC ₁之資料集之70%作為訓練資料集TD ₁、15%作為驗證資料集VD ₁以及15%作為測試資料集TSD ₁。

由上述部份組合的描述可知每一個部分組合PC ₁、…、PC _x之資料集是由多個基礎組合BC ₁、…、BC _m之資料集所組成，因此每一個部分組合PC ₁、…、PC _x之訓練資料集TD _m+1、…、TD _m+x為多個基礎組合之訓練資料集所組成、每一個部分組合PC ₁、…、PC _x之驗證資料集VD _m+1、…、VD _m+x為多個基礎組合之驗證資料集所組成、每一個部分組合PC ₁、…、PC _x之測試資料集TSD _m+1、…、TSD _m+x為多個基礎組合之測試資料集所組成。舉例來說，若部份組合PC ₁為基礎組合BC ₁及BC ₂所組成，則部份組合PC ₁之訓練資料集TD _m+1為基礎組合BC ₁之訓練資料集TD ₁及基礎組合BC ₂之訓練資料集TD ₂所組成、部份組合PC ₁之驗證資料集VD _m+1為基礎組合BC ₁之驗證資料集VD ₁及基礎組合BC ₂之驗證資料集VD ₂所組成、部份組合PC ₁之測試資料集TSD _m+1為基礎組合BC ₁之測試資料集TSD ₁及基礎組合BC ₂之測試資料集TSD ₂所組成。

由上述全組合的描述可知全組合FC ₁之資料集是由全部的基礎組合BC ₁、…、BC _m之資料集所組成，因此全組合FC ₁之訓練資料集TD _n為全部的基礎組合之訓練資料集所組成、全組合FC ₁之驗證資料集為全部的基礎組合之驗證資料集所組成、全組合FC ₁之測試資料集為全部的基礎組合之測試資料集所組成。舉例來說，全組合FC ₁之訓練資料集TD _n為基礎組合BC ₁至BC _m之訓練資料集TD ₁至TD _m所組成、全組合FC ₁之驗證資料集VD _n為基礎組合BC ₁至BC _m之驗證資料集VD ₁至VD _m所組成、全組合FC ₁之測試資料集TSD _n為基礎組合BC ₁至BC _m之測試資料集TSD ₁至TSD _m所組成。

在步驟S140中，模型建立及訓練單元120根據訓練資料集TD ₁、…、TD _n分別建立多個模型MD ₁、MD ₂、…、MD _n，及訓練多個模型MD ₁、MD ₂、…、MD _n，以獲得訓練指標。在一實施例中，訓練指標可為均方根誤差（RMSE）、90QT、平均絕對百分比誤差（MAPE）或平均絕對誤差（MAE）等，但不以此為限。

在步驟S150中，驗證單元130根據驗證資料集VD ₁、…、VD _n分別驗證模型MD ₁、MD ₂、…、MD _n，以獲得驗證指標。接著，驗證單元130根據驗證指標從多個模型MD ₁、MD ₂、…、MD _n中選擇較佳的模型。在一實施例中，驗證指標可為RMSE、90QT、MAPE或MAE等，但不以此為限。

在步驟S160中，測試單元140根據測試資料集TSD ₁、…、TSD _n分別測試模型MD ₁、MD ₂、…、MD _n，以獲得測試指標。測試單元140根據測試指標對驗證單元130選擇的模型進行評分。在一實施例中，測試指標可為RMSE、90QT、MAPE或MAE等，但不以此為限。

在實際應用上，以半導體封裝製程之訂單之UPH預測為例，可藉由配置其生產流程中所使用之材料2、產品1、機台3、製程6、配方18之類別變數之資訊(即類別變數組合)，求得最適之預測模型（例如為符合類別變數組合｛2,+,+,6,18｝之資料集所建立之模型），再搭配該訂單之數值變數，例如封裝前晶粒長、晶粒寬、晶粒研磨厚度、晶粒線數、晶粒線長、晶粒線寬、晶粒基板可乘載顆數，以及封裝後的晶片長、晶片寬、晶片高、晶片腳數等資訊，即可帶入該預測模型以預測該訂單之UPH。

本發明之系統100透過各種不同類別變數組合（基礎組合、部份組合及全組合）之資料集建立及訓練不同大小的模型，並透過驗證及測試模型，以自動篩選出較佳的模型，可在各種類別變數組合型態下，提供更準確的預測模型。另外，由於本發明之系統100透過各種不同類別變數組合（基礎組合、部份組合及全組合）之資料集建立不同大小的模型，因此本案所建立之模型可追溯其使用的子資料集，使製程工程師可以判斷預測結果的合理性以及因子的影響性。

綜上所述，雖然本發明已以實施例揭露如上，然其並非用以限定本發明。本發明所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100:系統 110:處理單元 120:模型建立及訓練單元 130:驗證單元 140:測試單元 150:儲存單元 OD:原始資料 MD ₁,MD ₂,MD _n:模型 TD ₁,TD ₂,TD _n:訓練資料 VD ₁,VD ₂,VD _n:驗證資料 TSD ₁,TSD ₂,TSD _n:測試資料 S110,S120,S130,S140,S150,S160:步驟 BC ₁,BC ₂, BC ₃, BC ₄, BC ₅, BC ₆,BC _m:基礎組合 PC ₁,PC ₂,PC _x:部份組合 FC ₁:全組合 TD ₁,TD ₂,TD _m,TD _m+1,TD _m+2,TD _m+x,TD _n:訓練資料集 VD ₁,VD ₂,VD _m,VD _m+1,VD _m+2,VD _m+x,VD _n:驗證資料集 TSD ₁,TSD ₂,TSD _m,TSD _m+1,TSD _m+2,TSD _m+x,TSD _n:訓練資料集

第1圖繪示分層建模之系統之示意圖。第2圖繪示根據一實施例之分層建模之方法的流程圖。第3圖繪示根據一實施例之原始資料、基礎組合之資料集、部分組合之資料集及全組合之資料集的示意圖。第4圖繪示根據一實施例之基礎組合之資料集、部分組合之資料集及全組合之資料集的訓練資料集、驗證資料集及測試資料集之示意圖。

100:系統

110:處理單元

120:模型建立及訓練單元

130:驗證單元

140:測試單元

150:儲存單元

OD:原始資料

MD₁,MD₂,MD_n:模型

TD₁,TD₂,TD_n:訓練資料

VD₁,VD₂,VD_n:驗證資料

TSD₁,TSD₂,TSD_n:測試資料

Claims

一種分層建模之系統，該系統包括：一處理單元，從一儲存單元獲得一原始資料，依據該原始資料之複數個類別變數從該原始資料中獲得複數個基礎組合之資料集、複數個部分組合之資料集及一全組合之資料集，並分別將每一該些基礎組合之資料集、每一該些部分組合之資料集及該全組合之資料集分為一訓練資料集、一驗證資料集及一測試資料集以獲得複數個訓練資料集、複數個驗證資料集及複數個測試資料集；以及一模型建立及訓練單元，根據該些訓練資料集分別建立複數個模型；其中該些基礎組合之資料集為每一個該些類別變數皆為一特定屬性值之資料集、該些部分組合之資料集為該些類別變數中至少一個類別變數為一任意屬性值，且不包含每一個該些類別變數皆為該任意屬性值之資料集、以及該全組合之資料集為每一個該些類別變數皆為一任意屬性值之資料集。
如請求項1所述之系統，其中該模型建立及訓練單元根據該些訓練資料集分別訓練該些模型，以獲得一訓練指標。
如請求項2所述之系統，其中更包括：一驗證單元，根據該些驗證資料集分別驗證該些模型，以獲得一驗證指標。
如請求項3所述之系統，其中更包括：一測試單元，根據該些測試資料集分別測試該些模型，以獲得一測試指標。
如請求項4所述之系統，其中該訓練指標、該驗證指標及該測試指標為RMSE、90QT、MAPE或MAE。
如請求項1所述之系統，其中每一個該些部分組合之資料集為部份的該些基礎組合之資料集所組成。
如請求項1所述之系統，其中該全組合之資料集為全部的該些基礎組合之資料集所組成。
如請求項1所述之系統，其中每一個該些部分組合之訓練資料集為部份的該些基礎組合之訓練資料集所組成、每一個該些部分組合之驗證資料集為部份的該些基礎組合之驗證資料集所組成、每一個該些部分組合之測試資料集為部份的該些基礎組合之測試資料集所組成。
如請求項1所述之系統，其中該全組合之訓練資料集為全部的該些基礎組合之訓練資料集所組成、該全組合之驗證資料集為全部的該些基礎組合之驗證資料集所組成、該全組合之測試資料集為全部的該些基礎組合之測試資料集所組成。
一種分層建模之方法，該方法包括：獲得一原始資料；依據該原始資料之複數個類別變數從該原始資料中獲得複數個基礎組合之資料集、複數個部分組合之資料集及一全組合之資料集；分別將每一該些基礎組合之資料集、每一該些部分組合之資料集及該全組合之資料集分為一訓練資料集、一驗證資料集及一測試資料集以獲得複數個訓練資料集、複數個驗證資料集及複數個測試資料集；以及根據該些訓練資料集分別建立複數個模型；其中該些基礎組合之資料集為每一個該些類別變數皆為一特定屬性值之資料集、該些部分組合之資料集為該些類別變數中至少一個類別變數為一任意屬性值，且不包含每一個該些類別變數皆為該任意屬性值之資料集、以及該全組合之資料集為每一個該些類別變數皆為一任意屬性值之資料集。
如請求項10所述之方法，其中更包括：根據該些訓練資料集分別訓練該些模型，以獲得一訓練指標。
如請求項11所述之方法，其中更包括：根據該些驗證資料集分別驗證該些模型，以獲得一驗證指標。
如請求項12所述之方法，其中更包括：根據該些測試資料集分別測試該些模型，以獲得一測試指標。
如請求項13所述之方法，其中該訓練指標、該驗證指標及該測試指標為RMSE、90QT、MAPE或MAE。
如請求項10所述之方法，其中每一個該些部分組合之資料集為部份的該些基礎組合之資料集所組成。
如請求項10所述之方法，其中該全組合之資料集為全部的該些基礎組合之資料集所組成。
如請求項10所述之方法，其中每一個該些部分組合之訓練資料集為部份的該些基礎組合之訓練資料集所組成、每一個該些部分組合之驗證資料集為部份的該些基礎組合之驗證資料集所組成、每一個該些部分組合之測試資料集為部份的該些基礎組合之測試資料集所組成。
如請求項10所述之方法，其中該全組合之訓練資料集為全部的該些基礎組合之訓練資料集所組成、該全組合之驗證資料集為全部的該些基礎組合之驗證資料集所組成、該全組合之測試資料集為全部的該些基礎組合之測試資料集所組成。