TW201142630A

TW201142630A - Method for training and using a classification model with association rule models

Info

Publication number: TW201142630A
Application number: TW099133422A
Authority: TW
Inventors: Toni Bollinger
Original assignee: Ibm
Priority date: 2009-12-21
Filing date: 2010-09-30
Publication date: 2011-12-01
Also published as: WO2011076560A1; GB201212804D0; CN102667775A; DE112010004003T5; US8799193B2; US20120239600A1; GB2490064A; CN102667775B

Description

201142630 六、發明說明：【發明所屬之技術領域】本發明係關於一種用於訓練及後用使用用於偵測輸入資料 (詳言之來自製造過程之輸入資料）中與Tt)甲之型樣之一分類模型的方法。【先前技術】資料採擷一般地指代用於自輸資干則八頁枓槌取資訊之資料驅動型方法。用於自輸人資料提取資訊之其他方法通常為假設驅動型，其中鑒於輸入資料來證明一組假設為真實的或虛假的。輸入資料之量可為巨大的，此資料簡技術通常需要考慮如何有效地處理大量資料。將產品製造看作一實例。其中’輸入資料可包括與組件之產地及特徵、在製造廠中對組件之處理、組件如何被組裝在一起有關的各種資料片段。在製造背景中之資料採操的目的可為解決與品質分析及品質保證有關的問題。資料採擁可用於（例如）根本原因分析、用於製造廠内之預警系統，及用於減少保修余賠。作為第二實例，考慮各種資訊技術系統。其中，資料採擷可進步用於侵入偵測、系統監視，及問題分析。資料漏亦具有各種其他用途，例如，在零售及服務中(其令可分析典型客戶行為），及在醫學及生命科學中用於尋找臨床研究中之因果關係。型樣偵測為—資料採财業領域（discipline)。輸入資料可由右干異動集合組成其中每一異動含有一項目集合。 151215.doc 201142630 可另外排序該等異動。排序可基於時間，㈣代地可定義：何排序。舉例而言，可賦予每-異動-序號。對於異動貝料而；關規則為描述項目如何在異動内出現的型考慮項目集合I=Ul、12、·.··.·、W。假設D為異動集合，其中每一異動丁為屬於！之項目集合。若則異動 T因此含有在j中的項目集合a。相關規則為形式之薇涵式（implication)，其中^、仏7且;八稱為規則體（rule body)且B為規則標題（ruie hea(j)。若d中含有a的異動中之c%亦含有B，則相關規則A=>B在異動集合〇中以仏賴度c有效。換言之，信賴度c為條件概率〆B|A)，其中 P(S)為發現S為D中之異動丁之一子集的概率。當〇中3%的異動含有時，規則A=>B在異動集合D中具有支援度換言之，支援度s為在異動中出現集合a及集合B中之項目之併集的概率。規則之增益為（lift value)規則信賴度與所預期之信賴度的商數。規則之所預期之信賴度為在以下假定下之信賴度：在異動中規則標題項目與規則主體項目的出現在統計上彼此獨立。其等於規則標題之支援度且表達規則主體及規則標題中之項目之間的「吸引」程度。大於1之增益值意謂項目彼此吸引，而小於1之值為排斥之指相關規則採操之目標為準確地找到滿足使用者定義之準則的所有規則。使用者可定義規則之最小支援度或信賴度’因為對於一些應用而言非常罕見或鬆散地相關之事件 151215.doc 201142630 可能不重要。使用者亦可僅對特定項目感興趣’且僅相要搜尋含有此等有趣項目中之至少—者的型樣。心要已知之資料採㈣算法在某些情形中具有缺陷。取決於 :入資料之量(在一些情況下多達數億個直至數十億個記 =候選型樣空間之大小，寬度優先搜尋可為緩慢的， ==原始資料源進行許多次掃描，且因為需要對照 ==來評估每一候選型樣。另一方面，深度優先搜尋二县i輸入資料而用完記憶體或（由於對照輸入資料 =量評幻其可在輸人資料被交換至磁碟時為緩慢的。外，此等資料採擁演算法係基於項目階層。由於此項目 =Γ獲得，所以必須首先判定項目階層。此二可為有缺陷的且可因此使演算法之結果不被信任。尋找用於預測分類「分麵 . 顯刀類」值之一分類模型為另一 =采摘「問广此之實例包括預測客戶是否將轉向競爭庫、產二Γ測」）、客戶是否將對營鎖活動作出回〜產·飞車)是否將被準時、太遲 =電腦晶片)是否有…為建置此模型，吾資枓開始’亦即，具有已知 ^ 刀颊值的案例（例如，最近 ▲ 之〜失及非流失案例、測試營銷活動之結果或且有交付時間值之生產資料)。可將此等歷史資料收。表中，q± 牙乪疋貢枓收集於資料二该資料表對於每一實體(如客戶或產品)含有一列，行具有用於分類值之-個行及用於實體之其他特性的若干分類演算法之任務為自此等其他行（例如，「自變數」 151215.doc 201142630 之值導出分類值（例如，「因變數」之值），其常常稱為分類模型之訓練。4 了進行流失預測及為了預測客戶是否對營銷活動作出回應’除關於客戶之人口資料(如年齡、婚姻狀況或居住地)之外，歷史資料還可包括關於他或她作為顧客之行為的資訊。為預測產品交付延遲，彳包括關於產品之資訊’如特定特徵及關於生產過程之細節。一旦已訓練此分類模型且其品質足夠好（其可藉由使用尚未被用於訓練該模型之歷史資料之一子集來判定）’便可將其用於預測未來之案例。對於此等資料而言，僅自變數之值為已知的，而類別標籤之值為未知的。藉由將分類模型應用於此等資料爽去丨金「 • ^料果判&預測」值。此步驟亦稱為模型之「計分（sc〇ring)」。對於流失預測而言，吾人以此方式判定可能在不久的胳办，ώ $ ^ 一仕不久的將來流失之客戶，對於營銷活動而吕’吾人判定潛在之回應者，石且對於產品交付而言，吾人判定交付日期之較好估計。大多數分類演算法要求用於用於訓練模型之輸入表對於每實體3有一個列。然而，具有周史眘+ 史資訊之可用資料表可能對於母實體含有一個以上列，盆 χ J其使侍有必要預處理並轉換輸入貧料以滿足此要求。此係當關於實體之資訊之— 刀破包括於異動中時的狀况。具有異動之表具有至少2個固仃（用於貫體之1€1的一行及具有分類值之「項目行）。 ^ , }對於含有哪些物品已被哪歧客戶購買之資訊的銷售異動資一心兵動肓枓而言，客戶id將對應於實體Id，且項目行將含有該等被貝之物口口的id。此表可含 151215.doc 201142630 =有用：訊之額外行。對於銷售異動資料而言，此可為物口口之購貝曰期或價格及數量。一戶至分類值映射。除異動中所包括之彼等資訊義客資訊（如客戶之人口資訊或產品、額外心将疋特徵）亦為可用的。 …、'而，由於此無關於本發明，所以吾人假定僅— 及實體至分類值為可用的。、/'口一種用以解決此_之方法為自異動表建立含有用於實體id之一行及用於項目行之每一可能之分類值的一個行。對於一給定之實體及-分類值而言，對應行之值可為u若異動資料含有此記錄況)。對於此表而言，行之數目將 ’”、（右並非此狀 u 目將為1 +項目行之相異分類值之數目。此方法對於低數目之相異分類值而言起到很好的作用。然而，對於如具有數百個可能之產步驟的製造領域或具有甚至數千個在超級市場中出售之ΐ 二t(i:em)的零售領域的領域而言，此方法變得效率低下（右並非不可行）0 在此情形中，分別在項目行之分類值上分類（㈣麵㈣的階層可藉由僅針對分類中之較高㈣建立行而有幫助。之對應行之值可為項目行中屬於彼較高概念之相關聯分類值的數目。然而’若此階層遺漏或該階層不反映關於分類問題之適备分割’則結果將為具有不良品質之分類模型。後一種情况可（例如）在品質問題由屬於不同類別之特徵之特定组合引起的情況下發生。其亦可在㈣活動推廣有機食品而產 1512I5.doc 201142630 品階層不反映產品之此特性的情況下發生。因此需要一種克服上文結合已知資料採擷技術所提及之問題中之至少一些.問題的用於判定輸入資料中之型樣的有效方法。詳言之，存在對能夠處置標準分類模型的不含項目階層之分類模型之需求。另外，新模型在處理速度、記憶體消耗及必要之計算資源方面應更有效率。【發明内容】本發明之一目為提儀一種新方法，其處理上文所提及之與解決分類資料採擷問題相關聯之問題。此目標藉由獨立請求項來達成。在附屬請求項中詳述有利之實施例。根據本發明，提供一種用於訓練用於偵測輸入資料中之 t樣之一为類模型的方法，該輸入資料含有與複數個實體相關聯之複數個項卜該方法包含：操取—先前記錄之輸資料集其3有與複數個貫體相關聯之複數個項目；及向母-實體添加該實體之一已知之分類。此外，該方法包含：藉由使每一實體之分類與該實體之各別項目相關聯而根據該先前記錄之輸人資料t及該已知之分類來判定規則。該方法接著根據m前記錄之輸人資料集及該已知之分類來判定規則中規則使每—實體之分類與該實體之各別項目相關聯且每一規則包含—屬性集。將先前記錄之資料用於訓練該方法。訓練該方法包含屋士-規則集。先前記錄之資料包含若干實體，對應於該等貫體的若干項目，及實體之分類。應注意，相同項目可對 151215.doc 201142630 應於兩個獨立實體。藉由使實體之所記錄之結果或分類盘實體之所記錄之項目相關聯來建立該等規則。將一或多個項目儲存於規則主體中，而將分類儲存於規則標題中。如前文所陳述…個項目可對應於不同㈣且因此亦可對應於不同分類。因此，可能情況為，具有將某—項目連結^ -個分類的-個規則，而在另一規則中，冲目同項目可連結至-不同分類。若為此狀況’則需要在該等規則之強度之間進行區分。此藉由規則之屬性來完成。該等屬性包ς規則主體與規則標題之間的增益值4外，該等屬性可包含支援度值及信賴度值。支援隸制於規則域之項目1 規則標題之分類支援的實體之百分比Mt賴度值對應於具有該分類之項目之信賴度。 ' 根據本發明，模型之訓練進一步包含：針對每一實體而判定哪些規則為可應料；及針對每—實體而彙總針對今實體所判定之規則之增益值。將所得的經彙總之增益值：同各別實體及分類用作標準分類演算法之輸入。最終結為分類模型β 根據本發明，提供用於偵測輸入資料中之型樣之—相關規則資料採_型的使用，該輸人資料含有與複數個實體相關聯之複數個項目。對新資料使用所訓練之模型包含以下步驟：針對每—實體而檢查—規則集以判定哪—規^為可應用的。此外，該方法包含以下步驟：針對每—實體而彙總針對該實體所射之規則之增益值；及基於每1體之所彙總之增益值及分類模型而針對每—實體來預測一分 I51215.doc 201142630

糟由本^發. . ，有可能為了特定分類問題而自訂資料採擷 =對於可能出現之每一規格問題而言，可判定特定規 ^集。允許該等規則為可選擇的使得能夠根據給定情況調整模型D *且人也々 °自規則集之不同規則使得能夠對模型進行大ίε*圍的精如、’、調卽。某一規則組合可特別適合用於某一規而不同組合可能不適合。此外，亦可關於即將到來曰寺定實體而組合該等規則。再一次，不同規則組合的大量數目允5午對模型進行非常敏感之精細調節以最佳地處理分類問題以及即將到來之實體。以此方式使用相關規則模型使異動之項目的原本必要之 :層變得過時。藉由使用具有在項目層級下訓練之規則的模型，此資料採掏方法在速度'所需之計算資源及記憶體 4耗方面可更有效率（與目前最新技術水準之文獻相比，尤其當無階層可用時）。由於使用之簡單性，本模型可容易地處置數億個或甚至數十億個記錄。此外，分類結果之品質可更好。根據本發明之另一態樣，判定可應用之規則集的步驟進一步包含：檢查實體之項目；及判定在規則主體中具有該等項目的該規則集中的該等規則。根據本發明之又一態樣，彙總該等規則之步驟進一步包含：將在規則標題中具有相同分類的所判定之規則分群組；及使具有相同頭之規則之增益值彼此相乘。對於新資料集之某一實體而言’判定所有可應用之規 151215.doc • 11 · 201142630 則。在此較佳之實施例中，現取決於規則標題中之分類而分群組該等可應用之規則》將具有相同分類之規則分群組在一起。使每一群組之增益值相乘給出了實體之分類之指示。具有最尚所彙總之增益值的群組之分類為實體之最有可能之分類。根據本發明之又一態樣，分群組所判定之規則的步驟進步包含僅分群組增益值高於預定臨限值的彼等規則。僅分群組相關聯值高於預定臨限值的彼等規則允許關於即將到來之特定分類問題而進一步精細調節該方法。用以精細調節該方法之方式之-為僅使用#有對一類別之相對向增益值的規則。增益值之所得乘積將給出對所測試實體之某一分類的可能性的進一步瞭解。如熟習此項技術者應瞭解，本發明之態樣可體現為系統、方法或電腦程式產品。相應地，本發明之態樣可採取完全硬體實施例、完全軟體實施例（包括韌體、常駐軟體、微碼等）或組合軟體與硬體態樣之實施例的形式，其在本文中皆可大體稱為「電路」、「模組」或「系統」。此外，本發明之態樣可絲體現於_或多㈣腦可讀媒體中之電腦程式產品的形式，該一或多個電腦可讀媒體具有體現於其上之電腦可讀程式碼。可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。電腦可讀儲存媒體可為（例如，但不限於）電子、磁性、光學、電磁、紅外線或半導體系.統、裝置或器件，或上述各物之任 151215.doc 12 201142630 何合適之組合。電腦可讀储存媒體之更多特定實例（盡清單）將包括以下各者：具有一或多個導線之電連接、攜帶型電腦磁片、硬碟、隨機存取記憶體（ram)、唯讀記隐體（ROM)、可擦可程式化唯讀記憶體⑽r〇m或快閃記憶體）、光纖、攜帶型緊密光碟唯讀記憶體（cd_r〇m)、光學储存器件、磁性儲存H件或上述各物之任何合適之組合。在此文獻之上下文中’電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或H件而❹之料雜时形媒體。電腦可讀信號媒體可包括其中體現有（例如，在基頻中或作為載波之部分的）電月留可讀㈣碼的經傳播資料信號。此經傳播信號可呈多種形式中之任一者，包括（但不限於)電磁、光學或其任何合適之組合。電腦可讀信號媒體可為任何電腦可讀媒體，其並非電腦可讀儲存媒體且可傳達、傳播或傳送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式。可使用任何合適之媒體來傳輸體現於電腦可讀媒體上之程式碼’該媒體包括（但不限於）無、線、有線 '光纖纔線、 RF等或上述各物之任何合適組合。可以《多種程式設計語言之任何組合來撰寫用於實行本發明之態樣之操作的電腦程式碼，該一或多種程式設計語言包括諸如Java、Smalltalk、c++或其類似者之物件導向程式設計語言’及諸如「C」程式設計語言或類似程式設計語言之習知程序性程式設計語言。程式碼可完全在使 151215.doc 201142630 用者的電腦上執行，部分地在使用者的電腦上執行，作為獨立套裝軟體執行，部分地在使用者的電腦上執行且部分地在遠端電腦上執行’或完全在遠端電腦或伺服器上執订。在後一種情形中，遠端電腦可經由任何類型之網路 (包括區域網路（LAN)或廣域網路（WAN))連接至使用者的電腦’或可(例如，使用網際網路服務提供者，經由網際網路）形成至外部電腦之連接。卜文參考根據本發明之實施例腦程式產品的流程圖說明及/或方塊圖來描述本發明之態，將理*彳藉由電腦程式指令來實施流程圖說明及/ 2方塊圖中之每—區塊，及該等流程圖說明及/或方塊圖區鬼之、’且β 〇可將此等電腦程式指令提供至通用電腦、專用電腦或其他可程式化貧科處理裝置之處理器以產生一機器’使得經由該電之可程式化資料處理裝置之處理态執行的指令違方梭評Μ 貫施該或該等流程圖及/或方塊圖£塊中所指定之功能/動作的構件。此等電腦程式指令亦可儲扣道带了儲存於一電腦可讀媒體令，其可 ^ 飞化資枓處理裝置或其他器件以料宗方式起作用，使得製。^ 該電腦可讀媒财之指令產生- ^口’該製品包括實施該或該等中所指定之功能/動作的指令。及/次方塊圖區塊電腦程式指令亦可裁裝置或其他器件一、他了程式化貧料處理系列操作步驟在該電腦、a他可裎式化裝置或其他器件上 -他1 仃以產生—電腦實施處理序， J5I2J5.doc 201142630 2得在該電腦或其他可程式化裝置上執行之指令提供用於實施該或該等流裎圖及/或方塊圖區塊中所指定之功能/動作的處理序。【實施方式】在隨附諸圖中說明本發明之較佳實施例。此等實施例僅為例不性實施例，亦g 甘并丌即其並不意欲限制附加之申請專利範圍之内容及範疇。圖1中所展示的為描繪所主張之方法之訓練的流程圖。流程圖之步驟100包含集中訓練資料。該訓練資料代表一實體集合，每一實體人， _ 、一項目集合相關聯。訓練資料通常包含-組資料輸入項，每一資料輸入項含有一實體識別符及一項目識別符。另外，訓練資料包含實體之分類。取決於應用之領域，術語實體、項目及分類可指代不同資訊。對於客戶分類而言，實體為客戶且項目為客物品。對於製造過程孤7之而3 77類可用以偵測生產差錯。在彼方面，實體將氧姦σ·」π ’、' °。1項目可為在生產期間之離散化 Ί::、、度、原料之供應商等。其他應用可針對電話公 =’其中可儲存客戶㈣叫記錄。該方法亦可應用於 :/己錄之文字清單’其中項目可為呼叫中心客服專員：Cemeragent)在與客戶談話期間所使用的某些字^ 判定電腦晶片生產線㈣^ 生產線。考慮，省翻…可能原因的問題。在製 -私期間，！測大量參數方公尺粉塵數目，月〜数J匕括恤度、每立數目及父付半導體材科 151215.doc 201142630 生產之晶片的隨後測試中，吾、、目,丨a μ Λ θ π 士、γ，里洌晶片中是否存在任何邏輯錯誤。在此特定貫例中’每~晶片為資料集中之實體。每一實體之資料集中的項目為針對每—晶片之諸如溫度、每立方公尺粉塵數目及交付半導體材料之公司名稱的參數。分類反映了對每所生產之晶片之測試的結果。兩個例示性分類為邏輯錯误」及「無邏輯錯誤」。在步驟100中，擷取訓練資料。可將訓練資料儲存於諸如下表之表中。訓練資料表通常包含一實體行及一項目行。在此特定實例中，表之實體行為晶片id。出於簡化之原因’將其稱為晶片—1至晶片一5。在第二行中的為項目。在此狀況下’其為用於生產晶片之生產參數且亦可包括晶片之特徵。出於簡單之原因，僅展示三個參數。貫體/晶片ID 項目/參數

151215.doc -16- 201142630

晶片—4 Y ppm3 晶片一4 公司A 晶片一5 Y°C 晶片一5 Y ppm3 晶片一5 公司D 表1 在步驟101中’將每一實體之已知之分類儲存於另—資料表中。

實體/晶片ID 類別/分類晶片」 NLE(無邏輯錯誤）晶片—2 NLE 晶片一3 LE(邏輯錯誤）晶片—4 NLE 晶片__5 LE 表2 對於吾人之實例而言，將已知之分類儲存於表2中。該分類為無邏輯錯誤之NLE或邏輯錯誤之LE。因此，藉由表 1及2中之資訊，吾人知道晶片j係在以下條件下生產：溫度為X°C、具有Y ppm3之粉塵及使用公司a之原料；對曰曰片之隨後的測試展示無邏輯錯誤。在圖1之步驟102中’將步驟1〇ι之表中所含有的實體之分類作為額外項目添加至步驟1〇〇之異動訓練資料。此可藉由計算步驟100及101之表之併集來完成。所得表之兩個行格式是對於相關演算法之應用而言最廣泛使用者。卜文 1512I5.doc 17 201142630 可見吾人之實例之所得表。實體/晶片ID 項目/參數晶片一1 x°c 晶片一1 Y ppm3 晶片一1 公司A 晶片一1 NLE 晶片—2 x°c 晶片_2 Y ppm3 晶片_2 公司B 晶片_2 NLE 晶片_3 x°c 晶片_3 Z ppm3 晶片_3 公司c 晶片—3 LE 晶片一4 x°c 晶片一4 Y ppm3 晶片—4 公司A 晶片—4 NLE 晶片_5 Y°C 晶片_5 Y ppm3 晶片_5 公司D 晶片_5 LE 表3 圖1之步驟103(每一實體之分類）與彼實體之各別項目相關聯。要指出的是，步驟103為任選的。在此狀況下，表3 151215.doc -18- 201142630 中屬於實體晶片_1之參數中之每一者與晶片_1之為無邏輯錯誤（NLE)的分類相關聯。因此，對於晶片_ι而言，溫度X °C與NLE相關聯。同樣地，γ ppm之值亦與NLE相關聯。在圖1之步驟104中，計算相關規則。每一規則包含規則標題及規則主體。實體之分類在規則標題中，而（原始）項目在規則主體中。此外’規則之額外屬性為所關心的且因此經判定以便測量其對於每一規則之統計重要性。此等性質為每一規則之增益、信賴度及支援度。規則（a=>b)之支援度等於用異動之總數目除異動之數目。規則（a=>b)之信賴度等於用其中（a)為規則主體之異動之數目除異動之數目。規則（a=>b)之增益等於用規則（a=>b)之所預期之信賴度除規則（a=>b)之信賴度。規則之所預期之信賴度為在以下假定下之信賴度：在該等異動中在規則主體中的項目（在此狀況下為「a」）及規則枯題中的項目(此處為「b」）的出現在統計上彼此獨立。在此特疋實例中’下表為步驟i 〇3及i 〇4之結果。

151215.doc -19- 201142630 Z ppm3=>NLE Z ppm3 LE 2.50 100.00% 20.00% 公司C=>LE 公司c LE 2.50 100.00% 20.00% Y °C=>LE Y°C LE 2.50 100.00% 20.00% Y ppm3=>LE Y ppm3 LE 0.63 25.00% 20.00% 公司D=>LE 公司D LE 2.50 100.00% 20.00% 表4 在圖1之步驟105中，判定可應用於訓練模型之每一實體的所有規則。結果為下表5。出於簡單性原因，僅對晶片 _1及晶片_2進行此步驟。在模型之訓練期間，對所有訓練資料進行此步驟。晶片_id 規則主體規則標題規則增益晶片一1 x°c NLE X°C=>NLE 1.25 晶片一1 x°c LE X °C=>LE 0.63 晶片一1 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片一1 Y ppm3 LE Y ppm3=>LE 0.63 晶片_1 公司A NLE 公司A=>NLE 1.67 晶片—2 x°c NLE X°C=>NLE 1.25 晶片_2 x°c LE X °C=>LE 0.63 晶片一2 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片_2 Y ppm3 LE Y ppm3=>LE 0.63 晶片_2 公司B NLE 公司B=>NLE 1.67 表5 接下來，彙總每一實體之增益值。在此特定實例中，取決於規則標題來將可應用於晶片_1之規則分群組。對於其 151215.doc -20- 201142630 他實體作相同處理。此發生於圖1之步驟丨06中。為了彙總增益值’在步驟1 06中針對具有相同規則標題之所有規則而相乘增益值。若對在其規則標題中具有NLE之規則群組進行此步驟，則將所得結果稱為prodHftNLE。同樣地，將規則標題中具有LE之規則群組之所得值稱為pr〇dliftLE。可關於不同規則群組而重複步驟1〇5及106。僅使用具有超過某一臨限值（諸如，1及15之增益值）之增益值的彼等規則為可能的且出於統計目的為有用的。若第一所選臨限值為1 ’則用於晶片_1之規則之高於1的增益值被取決於其各別規則標題而分群組且接著被相乘。將所得的經彙總之值稱為prodliftlONLE及prodliftlOLE。若臨限值為1.5，則僅用於晶片j之規則之高於i 5的彼等增益值被分群組及相乘。接著’將所得的經彙總之值稱為pr〇dlifU5NLE及 prodliftl5LE。下表展示針對晶片」至晶片_5之此計算的結果0

晶片__id ProdLift NLE ProdLift 1〇 NLE ProdLift 15 NLE ProdLift LE ProdLift 1 OLE ProdLiftl5LE 類別晶片_1 2.61 2.61 1.67 0.39 1 1 NLE 晶片一2 2.61 2.61 1.67 0.39 1 1 NLE 晶片_3 1.25 1.25 1.25 3.94 6.25 6.25 LE 晶片—4 2.61 2.61 1.67 0.39 1 1 NLE 晶片_5 1.25 1.25 1.25 3.94 6.25 6.25 LE 表6 在圖1之步驟107t，將此等所彙總之增益值用作分類演 151215.doc •21 · 201142630 算法之輪入以判定能夠區別兩個分類nle與le的模型。在此特定實例中，測試「pr()dLiftNLE > 2」區別了兩個八類。藉由該規則集及其屬性'連同關於實體及其經棄她：增益值的資訊以及該區別測試，完成分類模型之訓練。士圖2中所展示的為描繪對新f料集應用所主張之模型的流程圖。該流程圖之步驟2〇〇包含集中新資料集。該新資料集包含一實體（實體識別符）集合及每一實體之項目集 «。實體之分類將藉由所主張之方法來實現，因此在新料集中無實體之分類。返回參看在電腦晶片之製造過程_的例示性操作領域，新資料集可看似下表。

表7 在圖2之步驟2〇1中’若所有現有規則可應用於新資料集，則檢查該等所有現有規則。舉例而言，對於晶片_6而在規則主體中具有X°C、Y ppm3及公司A的每一規則為可應用的°收集新資料集之每一實體的可應用規則將產生下表。出於簡單性原因’僅展示晶片_6之可應用規則。 151215.doc -22- 201142630 晶片_id 規則主體規則標題規則增益晶片_6 x°c NLE X °C=>NLE 1.25 晶片_6 x°c LE X°C=>LE 0.63 晶片_6 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片_6 Y ppm3 LE Y ppm3=>LE 0.63 晶片_6 公司A NLE 公司A=>NLE 1.67 表8 接下來，彙總每一實體之增益值。在此特定實例中，取決於規則標題來將可應用於晶片_6之規則分群組。此發生於圖2之步驟202中。為了彙總增益值，在步驟203中針對具有相同規則標題之所有規則而使增益值相乘。若對在其規則標題中具有NLE之規則群組進行此步驟，則將所得值稱為prodliftNLE。同樣地，將規則標題中具有LE之規則群組之所得值稱為prodliftLE » 可關於不同規則群組而重複步驟202及203。僅使用具有超過某一臨限值（諸如舉例而言，1及1.5之增益值）之增益值的彼等規則為可能的且出於統計目的為有用的。若第一所選臨限值為1，則用於晶片_6之規則之高於1的增益值被取決於其各別規則標題而分群組且接著被相乘。將所得的經彙總之值稱為prodliftlONLE及prodliftlOLE。若臨限值為1 ·5，則僅用於晶片_6之規則之高於1 5的彼等增益值被为群組及相乘。接著，將所得的經彙總之值稱為 prodliftl5NLE及prodliftl5LE。下表展示針對晶片—6之此計具的結果。 151215.doc •23- 201142630 晶片_id ProdLift NLE ProdLift 1 ONLE ProdLift 15 NLE ProdLift LE ProdLift 10 LE ProdLift 15 LE 類別晶片_6 2.61 2.61 1.67 0.39 1 1 NLE 表9 不同群組之臨限值可取決於模型之應用而變化。i、 1.2、1.5及1·8之臨限值亦可為可能的。

在圖2之最後步驟（步驟204)中，基於每一實體之所彙總之增益值來預測分類。對於當前實例而言’表6之pr〇dLift 值清楚地趨向於NLE。此外，應用分類模型之區別測試。區別測試「pr〇dLiftNLE>2」亦產生可將晶片一6分類為NLE 的結論。因此，基於所主張之方法，可將晶片—6分類為屬於類別NLE且不具有邏輯錯誤。諸圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施的架構、功能性及操作。就此而言，在流程圖或方塊圖中之每一區塊可代表程式碼之模組、區段或部分，其包含用於實施指定邏輯力月b的或多個可執行指令。亦應注意，在一些替代性實施中，區塊中所註釋之功能可不以圖中所註釋之次序發生。舉例而言，取決於所涉及之功能性，連續展示之兩個區塊實際上可能被實質上同時執行，或該等區塊有時可被以相反次序執行。亦應注意，方塊圖及/或流程圖說明之每一區塊及方塊圖及/或流程圖說明中之區塊之組合可藉由執行私疋功此或動作之基於硬體之專用系統來實施，或藉由專用硬體與電腦指令之組合來實施。 151215.doc •24· 201142630 在附加之申請專利銘阁丄圍中，電腦化方法指代其步驟由一汁算系統執行之方法，兮 °x什异系統含有一或多個處理器、圮憶體構件及儲存構件之合適組合。雖然前文已參考本發明特特例，但熟習此項技術 #應瞭解’可在不偏離本埜& 原理及精神的情況下進行此專實施例之改變，本發圍定義。 t本發月之_由附加之申請專利範【圖式簡單說明】及圖1展示訓練所主張之模型的流程圖圖2展不使用所主張之模型的流程圖【主要元件符號說明】 100 步驟 101 步驟 102 步驟 103 步驟 104 步驟 105 步驟 106 步驟 107 步驟 200 步驟 201 步驟 202 步驟 203 步驟 204 步驟 151215.doc •25·

Claims

201142630 七、申請專利範圍： 1. 一種供訓練用於偵測輸入資料之型樣之一分類模型的電腦化方法，尤其是來自一製造過程之輸入資料，其中該模型之該訓練包含以下步驟： ' 擷取一先前記錄之輸入資料集，其含有與複數個實體 , 相關聯之複數個項目；向每一實體添加一已知之分類；及根據該先前記錄之輸入資料集及該已知之分類來判定規則，該規則使每一實體之該分類與該實體之該等各別項目相關聯，其中母一規則包含一屬性（attributes)集。 2·如請求項1之方法’其中每一規則包含：作為一規則標題之一分類；作為一規則主體之—項目；及其中每一規則之該屬性集包含：一增益值；一支援度值；或一信賴度值。 3 ·如清求項1及2之方法，其中訓練該模型進一步包含以下 ' 步驟： - 針對每一實體而判定哪些規則為可應用的；針對每一實體而彙總針對該實體所判定之該等規則之該等增益值；及將該所得的經彙總之增益值連同該各別實體及分類用作一標準分類演算法之輸入，其中結果為一分類模蜇。 151215.doc 201142630 4. 一種用於將一分類模型應用於輸入資料、尤其是來自一製造過程之輸人資料之電腦化方法，其中該輸=資料含有與一實體相關聯之複數個項目，該方法包含以下步驟：針對該實體而檢查來自該分類模型之一規則集以判定哪些規則為可應用的；針對該實體而囊總針對該實體所判定之來自該分類模型之該等規則的增益值；及針對該實體而基於該經棄總之增益值及該分類模型來預測）一分類。 5. 如請求項4之方法，其中彙總該等規則的該步驟進一步包含：將在規則標題中具有相同分類的該等所判定之規則分群組；及使具有該相同頭之該等規則之該等增益值彼此相乘。 6. 如請求項5之方法’其中將該等所判定之規則分群組的該步驟進一步包含：僅將增益值高於一預定臨限值的彼等規則分群組。 7. 一種電腦系統，其中該電腦系統包含：用以擷取一先前記錄之輸入資料集的構件，該先前記錄之輸入資料集含有與複數個實體相關聯之複數個項目；用於向每一實體添加一已知之分類的構件；用於藉由使每一實體之該分類與該實體之該等各別項 151215.doc 201142630 目相關聯而根據該先前類來丨。己錄之輸入資料集及該已知之分 8 規則的構件’其中每_規則包含-屬性集。 •=求項8之電腦系統’其中該電腦系統進一步包含：於針對每一實體而判定用於針對每—實體而^那二規則為可應用的構件；則之增益值的構Γ Γ針對該㈣㈣定之該等規類:Γ;Γ:的經棄總之増益值連同該各別實雜及分分類模型。、法之輪入的構件’其中結果為- 9. 種用於將'一分類煤刑癃田ΙΛ 、玄'應用於輸入資料之電腦系統，JL 中讀入資料含有與__實體相關聯之複數電腦系統包含： °哀電用於針對該實體而檢杳來判定哪些規則為可應用^件心_之一規則集以類針對$實體而彙總針對該實體所判^之來自該分類模型之該等規則之增益值的構件；及用於針對該實體而基於該經棄總之增益型來預測一分類的構件。頒杈 10·如凊求項9之電腦系統，其中該電腦系統進一步包含：用於將在規則標題中具有相同分類之該等所判定之規則分群組的構件；及用於使每-群組之具有該相同頭之該等規則的該等增益值彼此相乘的構件。 η. 一種電腦程式產品，其包含—包括電腦可用程式碼之電 151215.doc 201142630 腦可用媒體，其中該電腦可用程式碼經調適以執行如請求項1至3之方法。 12. —種電腦程式產品，其包含一包括電腦可用程式碼之電腦可用媒體，其中該電腦可用程式碼經調適以執行如請求項4至6之方法。 151215.doc