TW201142630A - Method for training and using a classification model with association rule models - Google Patents

Method for training and using a classification model with association rule models Download PDF

Info

Publication number
TW201142630A
TW201142630A TW099133422A TW99133422A TW201142630A TW 201142630 A TW201142630 A TW 201142630A TW 099133422 A TW099133422 A TW 099133422A TW 99133422 A TW99133422 A TW 99133422A TW 201142630 A TW201142630 A TW 201142630A
Authority
TW
Taiwan
Prior art keywords
classification
entity
rules
rule
input data
Prior art date
Application number
TW099133422A
Other languages
English (en)
Inventor
Toni Bollinger
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW201142630A publication Critical patent/TW201142630A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

201142630 六、發明說明: 【發明所屬之技術領域】 本發明係關於一種用於訓練及後用 使用用於偵測輸入資料 (詳言之來自製造過程之輸入資料)中 與Tt)甲之型樣之一分類模型 的方法。 【先前技術】 資料採擷一般地指代用於自輸資 干則八頁枓槌取資訊之資料驅 動型方法。用於自輸人資料提取資訊之其他方法通常為假 設驅動型,其中鑒於輸入資料來證明一組假設為真實的或 虛假的。 輸入資料之量可為巨大的,此資料簡技術通常需 要考慮如何有效地處理大量資料。將產品製造看作一實 例。其中’輸入資料可包括與組件之產地及特徵、在製造 廠中對組件之處理、組件如何被組裝在一起有關的各種資 料片段。在製造背景中之資料採操的目的可為解決與品質 分析及品質保證有關的問題。資料採擁可用於(例如)根本 原因分析、用於製造廠内之預警系統,及用於減少保修余 賠。作為第二實例,考慮各種資訊技術系統。其中,資料 採擷可進步用於侵入偵測、系統監視,及問題分析。資 料漏亦具有各種其他用途,例如,在零售及服務中(其 令可分析典型客戶行為),及在醫學及生命科學中用於尋 找臨床研究中之因果關係。 型樣偵測為—資料採财業領域(discipline)。輸入資料 可由右干異動集合組成其中每一異動含有一項目集合。 151215.doc 201142630 可另外排序該等異動。排序可基於時間,㈣代地可定 義:何排序。舉例而言,可賦予每-異動-序號。對於異 動貝料而;關規則為描述項目如何在異動内出現的型 考慮項目集合I=Ul、12、·.··.·、W。假設D為異動集 合,其中每一異動丁為屬於!之項目集合。若則異動 T因此含有在j中的項目集合a。相關規則為形式之薇 涵式(implication),其中^、仏7且;八稱為規則 體(rule body)且B為規則標題(ruie hea(j)。若d中含有a的 異動中之c%亦含有B,則相關規則A=>B在異動集合〇中以 仏賴度c有效。換言之,信賴度c為條件概率〆B|A),其中 P(S)為發現S為D中之異動丁之一子集的概率。當〇中3%的 異動含有時,規則A=>B在異動集合D中具有支援度 換言之,支援度s為在異動中出現集合a及集合B中之項 目之併集的概率。規則之增益為(lift value)規則信賴度與 所預期之信賴度的商數。規則之所預期之信賴度為在以下 假定下之信賴度:在異動中規則標題項目與規則主體項目 的出現在統計上彼此獨立。其等於規則標題之支援度且表 達規則主體及規則標題中之項目之間的「吸引」程度。大 於1之增益值意謂項目彼此吸引,而小於1之值為排斥之指 相關規則採操之目標為準確地找到滿足使用者定義之準 則的所有規則。使用者可定義規則之最小支援度或信賴 度’因為對於一些應用而言非常罕見或鬆散地相關之事件 151215.doc 201142630 可能不重要。使用者亦可僅對特定項目感興趣’且僅相要 搜尋含有此等有趣項目中之至少—者的型樣。 心要 已知之資料採㈣算法在某些情形中具有缺陷。取決於 :入資料之量(在一些情況下多達數億個直至數十億個記 =候選型樣空間之大小,寬度優先搜尋可為緩慢的, ==原始資料源進行許多次掃描,且因為需要對照 ==來評估每一候選型樣。另一方面,深度優先搜尋 二县i輸入資料而用完記憶體或(由於對照輸入資料 =量評幻其可在輸人資料被交換至磁碟時為緩慢的。 外,此等資料採擁演算法係基於項目階層。由於此項目 =Γ獲得,所以必須首先判定項目階層。此二 可為有缺陷的且可因此使演算法之結果不被信任。 尋找用於預測分類「分麵 . 顯刀類」值之一分類模型為另一 =采摘「問广此之實例包括預測客戶是否將轉向競爭 庫、產二Γ測」)、客戶是否將對營鎖活動作出回 〜產·飞車)是否將被準時、太遲 =電腦晶片)是否有…為建置此模型,吾 資枓開始’亦即,具有已知 ^ 刀颊值的案例(例如,最近 ▲ 之〜失及非流失案例、測試營銷活動之結果或且有 交付時間值之生產資料)。可將此等歷史資料收。 表中,q± 牙乪疋貢枓收集於資料 二该資料表對於每一實體(如客戶或產品)含有一列, 行具有用於分類值之-個行及用於實體之其他特性的若干 分類演算法之任務為自此等其他行(例如,「自變數」 151215.doc 201142630 之值導出分類值(例如,「因變數」之值),其常常稱為分 類模型之訓練。4 了進行流失預測及為了預測客戶是否對 營銷活動作出回應’除關於客戶之人口資料(如年齡、婚 姻狀況或居住地)之外,歷史資料還可包括關於他或她作 為顧客之行為的資訊。為預測產品交付延遲,彳包括關於 產品之資訊’如特定特徵及關於生產過程之細節。 一旦已訓練此分類模型且其品質足夠好(其可藉由使用 尚未被用於訓練該模型之歷史資料之一子集來判定)’便 可將其用於預測未來之案例。對於此等資料而言,僅自變 數之值為已知的,而類別標籤之值為未知的。藉由將分類 模型應用於此等資料爽去丨金「 • ^料果判&預測」值。此步驟亦稱為模 型之「計分(sc〇ring)」。對於流失預測而言,吾人以此方 式判定可能在不久的胳办,ώ $ ^ 一 仕不久的將來流失之客戶,對於營銷活動而 吕’吾人判定潛在之回應者, 石且對於產品交付而言,吾人 判定交付日期之較好估計。 大多數分類演算法要求用於 用於訓練模型之輸入表對於每實 體3有一個列。然而,具有周史眘+ 史資訊之可用資料表可能對 於母實體含有一個以上列,盆 χ J其使侍有必要預處理並轉換輸 入貧料以滿足此要求。 此係當關於實體之資訊之— 刀破包括於異動中時的狀 况。具有異動之表具有至少2個 固仃(用於貫體之1€1的一行及 具有分類值之「項目行)。 ^ , }對於含有哪些物品已被哪歧 客戶購買之資訊的銷售異動資 一 心 兵動肓枓而言,客戶id將對應於實 體Id,且項目行將含有該等被 貝之物口口的id。此表可含 151215.doc 201142630 =有用:訊之額外行。對於銷售異動資料而言,此可 為物口口之購貝曰期或價格及數量。 一 戶至分類值映射。除異動中所包括之彼等資訊義客 資訊(如客戶之人口資訊或產品 、額外 心将疋特徵)亦為可用的。 …、'而,由於此無關於本發明,所以吾人假定僅— 及實體至分類值為可用的。 、/'口 一種用以解決此_之方法為自異動表建立 含有用於實體id之一行及用於項目行之每一可能之分類值 的一個行。對於一給定之實體及-分類值而言,對應行之 值可為u若異動資料含有此記錄 況)。對於此表而言,行之數目將 ’”、(右並非此狀 u 目將為1 +項目行之相異分類 值之數目。此方法對於低數目之相異分類值而言起到很好 的作用。然而,對於如具有數百個可能之產 步驟的製造領域或具有甚至數千個在超級市場中出售之ΐ 二t(i:em)的零售領域的領域而言,此方法變得效率低 下(右並非不可行)0 在此情形中,分別在項目行之分類值上分類(㈣麵㈣ 的階層可藉由僅針對分類中之較高㈣建立行而有幫助。 之對應行之值可為項目行中屬於彼較高概念之相關 聯分類值的數目。 然而’若此階層遺漏或該階層不反映關於分類問題之適 备分割’則結果將為具有不良品質之分類模型。後一種情 况可(例如)在品質問題由屬於不同類別之特徵之特定组合 引起的情況下發生。其亦可在㈣活動推廣有機食品而產 1512I5.doc 201142630 品階層不反映產品之此特性的情況下發生。 因此需要一種克服上文結合已知資料採擷技術所提及之 問題中之至少一些.問題的用於判定輸入資料中之型樣的有 效方法。詳言之,存在對能夠處置標準分類模型的不含項 目階層之分類模型之需求。另外,新模型在處理速度、記 憶體消耗及必要之計算資源方面應更有效率。 【發明内容】 本發明之一目為提儀一種新方法,其處理上文所提及 之與解決分類資料採擷問題相關聯之問題。 此目標藉由獨立請求項來達成。在附屬請求項中詳述有 利之實施例。 根據本發明,提供一種用於訓練用於偵測輸入資料中之 t樣之一为類模型的方法,該輸入資料含有與複數個實體 相關聯之複數個項卜該方法包含:操取—先前記錄之輸 資料集其3有與複數個貫體相關聯之複數個項目;及 向母-實體添加該實體之一已知之分類。此外,該方法包 含:藉由使每一實體之分類與該實體之各別項目相關聯而 根據該先前記錄之輸人資料t及該已知之分類來判定規 則。該方法接著根據m前記錄之輸人資料集及該已知之 分類來判定規則中規則使每—實體之分類與該實體之 各別項目相關聯且每一規則包含—屬性集。 將先前記錄之資料用於訓練該方法。訓練該方法包含屋 士-規則集。先前記錄之資料包含若干實體,對應於該等 貫體的若干項目,及實體之分類。應注意,相同項目可對 151215.doc 201142630 應於兩個獨立實體。藉由使實體之所記錄之結果或分類盘 實體之所記錄之項目相關聯來建立該等規則。將一或多個 項目儲存於規則主體中,而將分類儲存於規則標題中。如 前文所陳述…個項目可對應於不同㈣且因此亦可對應 於不同分類。因此,可能情況為,具有將某—項目連結^ -個分類的-個規則,而在另一規則中,冲目同項目可連結 至-不同分類。若為此狀況’則需要在該等規則之強度之 間進行區分。此藉由規則之屬性來完成。該等屬性包ς規 則主體與規則標題之間的增益值4外,該等屬性可包含 支援度值及信賴度值。支援隸制於規則域之項目1 規則標題之分類支援的實體之百分比Mt賴度值對應於具 有該分類之項目之信賴度。 ' 根據本發明,模型之訓練進一步包含:針對每一實體而 判定哪些規則為可應料;及針對每—實體而彙總針對今 實體所判定之規則之增益值。將所得的經彙總之增益值: 同各別實體及分類用作標準分類演算法之輸入。最終結 為分類模型β 根據本發明,提供用於偵測輸入資料中之型樣之—相關 規則資料採_型的使用,該輸人資料含有與複數個實體 相關聯之複數個項目。對新資料使用所訓練之模型包含以 下步驟:針對每—實體而檢查—規則集以判定哪—規^為 可應用的。此外,該方法包含以下步驟:針對每—實體而 彙總針對該實體所射之規則之增益值;及基於每1體 之所彙總之增益值及分類模型而針對每—實體來預測一分 I51215.doc 201142630
糟由本^發. . ,有可能為了特定分類問題而自訂資料採擷 =對於可能出現之每一規格問題而言,可判定特定規 ^集。允許該等規則為可選擇的使得能夠根據給定情況調 整模型D *且人也 々 °自規則集之不同規則使得能夠對模型進行 大ίε*圍的精如 、’、調卽。某一規則組合可特別適合用於某一規 而不同組合可能不適合。此外,亦可關於即將到來 曰寺定實體而組合該等規則。再一次,不同規則組合的大 量數目允5午對模型進行非常敏感之精細調節以最佳地處理 分類問題以及即將到來之實體。 以此方式使用相關規則模型使異動之項目的原本必要之 :層變得過時。藉由使用具有在項目層級下訓練之規則的 模型,此資料採掏方法在速度'所需之計算資源及記憶體 4耗方面可更有效率(與目前最新技術水準之文獻相比, 尤其當無階層可用時)。由於使用之簡單性,本模型可容 易地處置數億個或甚至數十億個記錄。此外,分類結果之 品質可更好。 根據本發明之另一態樣,判定可應用之規則集的步驟進 一步包含:檢查實體之項目;及判定在規則主體中具有該 等項目的該規則集中的該等規則。 根據本發明之又一態樣,彙總該等規則之步驟進一步包 含:將在規則標題中具有相同分類的所判定之規則分群 組;及使具有相同頭之規則之增益值彼此相乘。 對於新資料集之某一實體而言’判定所有可應用之規 151215.doc • 11 · 201142630 則。在此較佳之實施例中,現取決於規則標題中之分類而 分群組該等可應用之規則》將具有相同分類之規則分群組 在一起。使每一群組之增益值相乘給出了實體之分類之指 示。具有最尚所彙總之增益值的群組之分類為實體之最有 可能之分類。 根據本發明之又一態樣,分群組所判定之規則的步驟進 步包含僅分群組增益值高於預定臨限值的彼等規則。 僅分群組相關聯值高於預定臨限值的彼等規則允許關於 即將到來之特定分類問題而進一步精細調節該方法。用以 精細調節該方法之方式之-為僅使用#有對一類別之相對 向增益值的規則。增益值之所得乘積將給出對所測試實體 之某一分類的可能性的進一步瞭解。 如熟習此項技術者應瞭解,本發明之態樣可體現為系 統、方法或電腦程式產品。相應地,本發明之態樣可採取 完全硬體實施例、完全軟體實施例(包括韌體、常駐軟 體、微碼等)或組合軟體與硬體態樣之實施例的形式,其 在本文中皆可大體稱為「電路」、「模組」或「系統」。 此外,本發明之態樣可絲體現於_或多㈣腦可讀媒體 中之電腦程式產品的形式,該一或多個電腦可讀媒體具有 體現於其上之電腦可讀程式碼。 可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒 體可為電腦可讀信號媒體或電腦可讀儲存媒體。電腦可讀 儲存媒體可為(例如,但不限於)電子、磁性、光學、電 磁、紅外線或半導體系.統、裝置或器件,或上述各物之任 151215.doc 12 201142630 何合適之組合。電腦可讀储存媒體之更多特定實例( 盡清單)將包括以下各者:具有一或多個導線之電連接、 攜帶型電腦磁片、硬碟、隨機存取記憶體(ram)、唯讀記 隐體(ROM)、可擦可程式化唯讀記憶體⑽r〇m或快閃記 憶體)、光纖、攜帶型緊密光碟唯讀記憶體(cd_r〇m)、光 學储存器件、磁性儲存H件或上述各物之任何合適之組 合。在此文獻之上下文中’電腦可讀儲存媒體可為可含有 或儲存供指令執行系統、裝置或器件使用或結合指令執行 系統、裝置或H件而❹之料雜时形媒體。 電腦可讀信號媒體可包括其中體現有(例如,在基頻中 或作為載波之部分的)電月留可讀㈣碼的經傳播資料信 號。此經傳播信號可呈多種形式中之任一者,包括(但不 限於)電磁、光學或其任何合適之組合。電腦可讀信號媒 體可為任何電腦可讀媒體,其並非電腦可讀儲存媒體且可 傳達、傳播或傳送供指令執行系統、裝置或器件使用或結 合指令執行系統、裝置或器件而使用之程式。 可使用任何合適之媒體來傳輸體現於電腦可讀媒體上之 程式碼’該媒體包括(但不限於)無、線、有線 '光纖纔線、 RF等或上述各物之任何合適組合。 可以《多種程式設計語言之任何組合來撰寫用於實行 本發明之態樣之操作的電腦程式碼,該一或多種程式設計 語言包括諸如Java、Smalltalk、c++或其類似者之物件導 向程式設計語言’及諸如「C」程式設計語言或類似程式 設計語言之習知程序性程式設計語言。程式碼可完全在使 151215.doc 201142630 用者的電腦上執行,部分地在使用者的電腦上執行,作為 獨立套裝軟體執行,部分地在使用者的電腦上執行且部分 地在遠端電腦上執行’或完全在遠端電腦或伺服器上執 订。在後一種情形中,遠端電腦可經由任何類型之網路 (包括區域網路(LAN)或廣域網路(WAN))連接至使用者的 電腦’或可(例如,使用網際網路服務提供者,經由網際 網路)形成至外部電腦之連接。 卜文參考根據本發明之實施例 腦程式產品的流程圖說明及/或方塊圖來描述本發明之態 ,將理*彳藉由電腦程式指令來實施流程圖說明及/ 2方塊圖中之每—區塊,及該等流程圖說明及/或方塊圖 區鬼之、’且β 〇可將此等電腦程式指令提供至通用電 腦、專用電腦或其他可程式 化貧科處理裝置之處理器以產 生一機器’使得經由該電 之可程式化資料處理裝置 之處理态執行的指令違 方梭評Μ 貫施該或該等流程圖及/或 方塊圖£塊中所指定之功能/動作的構件。 此等電腦程式指令亦可儲 扣道带 了儲存於一電腦可讀媒體令,其可 ^ 飞化資枓處理裝置或其他器件以料宗 方式起作用,使得 製。^ 該電腦可讀媒财之指令產生- ^口’該製品包括實施該或該等 中所指定之功能/動作的指令。 及/次方塊圖區塊 電腦程式指令亦可裁 裝置或其他器件一 、他了程式化貧料處理 系列操作步驟在該電腦、a他可 裎式化裝置或其他器件上 -他1 仃以產生—電腦實施處理序, J5I2J5.doc 201142630 2得在該電腦或其他可程式化裝置上執行之指令提供用於 實施該或該等流裎圖及/或方塊圖區塊中所指定之功能/動 作的處理序。 【實施方式】 在隨附諸圖中說明本發明之較佳實施例。此等實施例僅 為例不性實施例,亦g 甘并 丌即其並不意欲限制附加之申請專利 範圍之内容及範疇。 圖1中所展示的為描繪所主張之方法之訓練的流程圖。 流程圖之步驟100包含集中訓練資料。該訓練資料代表一 實體集合,每一實體人, _ 、一項目集合相關聯。訓練資料通常 包含-組資料輸入項,每一資料輸入項含有一實體識別符 及一項目識別符。另外,訓練資料包含實體之分類。取決 於應用之領域,術語實體、項目及分類可指代不同資訊。 對於客戶分類而言,實體為客戶且項目為客 物品。對於製造過程 孤7之 而3 77類可用以偵測生產差錯。在 彼方面,實體將氧姦σ·」π ’、' °。1項目可為在生產期間之離散化 Ί::、、度、原料之供應商等。其他應用可針對電話公 =’其中可儲存客戶㈣叫記錄。該方法亦可應用於 :/己錄之文字清單’其中項目可為呼叫中心客服專 員:Cemeragent)在與客戶談話期間所使用的某些字^ 判定電腦晶片生產線㈣^ 生產線。考慮 ,省翻…可能原因的問題。在製 -私期間,!測大量參數 方公尺粉塵數目,月〜 数J匕括恤度、每立 數目及父付半導體材科 151215.doc 201142630 生產之晶片的隨後測試中,吾、、目,丨a μ Λ θ π 士 、γ,里洌晶片中是否存在任何邏輯 錯誤。 在此特定貫例中’每~晶片為資料集中之實體。每一實 體之資料集中的項目為針對每—晶片之諸如溫度、每立方 公尺粉塵數目及交付半導體材料之公司名稱的參數。分類 反映了對每所生產之晶片之測試的結果。兩個例示性分 類為邏輯錯误」及「無邏輯錯誤」。 在步驟100中,擷取訓練資料。可將訓練資料儲存於諸 如下表之表中。訓練資料表通常包含一實體行及一項目 行。在此特定實例中,表之實體行為晶片id。出於簡化之 原因’將其稱為晶片—1至晶片一5。在第二行中的為項目。 在此狀況下’其為用於生產晶片之生產參數且亦可包括晶 片之特徵。出於簡單之原因,僅展示三個參數。 貫體/晶片ID 項目/參數
151215.doc -16- 201142630
晶片—4 Y ppm3 晶片一4 公司A 晶片一5 Y°C 晶片一5 Y ppm3 晶片一5 公司D 表1 在步驟101中’將每一實體之已知之分類儲存於另—資 料表中。
實體/晶片ID 類別/分類 晶片」 NLE(無邏輯錯誤) 晶片—2 NLE 晶片一3 LE(邏輯錯誤) 晶片—4 NLE 晶片__5 LE 表2 對於吾人之實例而言,將已知之分類儲存於表2中。該 分類為無邏輯錯誤之NLE或邏輯錯誤之LE。因此,藉由表 1及2中之資訊,吾人知道晶片j係在以下條件下生產:溫 度為X°C、具有Y ppm3之粉塵及使用公司a之原料;對曰曰 片之隨後的測試展示無邏輯錯誤。 在圖1之步驟102中’將步驟1〇ι之表中所含有的實體之 分類作為額外項目添加至步驟1〇〇之異動訓練資料。此可 藉由計算步驟100及101之表之併集來完成。所得表之兩個 行格式是對於相關演算法之應用而言最廣泛使用者。 卜文 1512I5.doc 17 201142630 可見吾人之實例之所得表。 實體/晶片ID 項目/參數 晶片一1 x°c 晶片一1 Y ppm3 晶片一1 公司A 晶片一1 NLE 晶片—2 x°c 晶片_2 Y ppm3 晶片_2 公司B 晶片_2 NLE 晶片_3 x°c 晶片_3 Z ppm3 晶片_3 公司c 晶片—3 LE 晶片一4 x°c 晶片一4 Y ppm3 晶片—4 公司A 晶片—4 NLE 晶片_5 Y°C 晶片_5 Y ppm3 晶片_5 公司D 晶片_5 LE 表3 圖1之步驟103(每一實體之分類)與彼實體之各別項目相 關聯。要指出的是,步驟103為任選的。在此狀況下,表3 151215.doc -18- 201142630 中屬於實體晶片_1之參數中之每一者與晶片_1之為無邏輯 錯誤(NLE)的分類相關聯。因此,對於晶片_ι而言,溫度X °C與NLE相關聯。同樣地,γ ppm之值亦與NLE相關聯。 在圖1之步驟104中,計算相關規則。每一規則包含規則 標題及規則主體。實體之分類在規則標題中,而(原始)項 目在規則主體中。此外’規則之額外屬性為所關心的且因 此經判定以便測量其對於每一規則之統計重要性。此等性 質為每一規則之增益、信賴度及支援度。 規則(a=>b)之支援度等於用異動之總數目除異動之 數目。 規則(a=>b)之信賴度等於用其中(a)為規則主體之異動之 數目除異動之數目。 規則(a=>b)之增益等於用規則(a=>b)之所預期之信賴度 除規則(a=>b)之信賴度。 規則之所預期之信賴度為在以下假定下之信賴度:在該 等異動中在規則主體中的項目(在此狀況下為「a」)及規則 枯題中的項目(此處為「b」)的出現在統計上彼此獨立。 在此特疋實例中’下表為步驟i 〇3及i 〇4之結果。
151215.doc -19- 201142630 Z ppm3=>NLE Z ppm3 LE 2.50 100.00% 20.00% 公司C=>LE 公司c LE 2.50 100.00% 20.00% Y °C=>LE Y°C LE 2.50 100.00% 20.00% Y ppm3=>LE Y ppm3 LE 0.63 25.00% 20.00% 公司D=>LE 公司D LE 2.50 100.00% 20.00% 表4 在圖1之步驟105中,判定可應用於訓練模型之每一實體 的所有規則。結果為下表5。出於簡單性原因,僅對晶片 _1及晶片_2進行此步驟。在模型之訓練期間,對所有訓練 資料進行此步驟。 晶片_id 規則主體 規則標題 規則 增益 晶片一1 x°c NLE X°C=>NLE 1.25 晶片一1 x°c LE X °C=>LE 0.63 晶片一1 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片一1 Y ppm3 LE Y ppm3=>LE 0.63 晶片_1 公司A NLE 公司A=>NLE 1.67 晶片—2 x°c NLE X°C=>NLE 1.25 晶片_2 x°c LE X °C=>LE 0.63 晶片一2 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片_2 Y ppm3 LE Y ppm3=>LE 0.63 晶片_2 公司B NLE 公司B=>NLE 1.67 表5 接下來,彙總每一實體之增益值。在此特定實例中,取 決於規則標題來將可應用於晶片_1之規則分群組。對於其 151215.doc -20- 201142630 他實體作相同處理。此發生於圖1之步驟丨06中。為了彙總 增益值’在步驟1 06中針對具有相同規則標題之所有規則 而相乘增益值。若對在其規則標題中具有NLE之規則群組 進行此步驟,則將所得結果稱為prodHftNLE。同樣地,將 規則標題中具有LE之規則群組之所得值稱為pr〇dliftLE。 可關於不同規則群組而重複步驟1〇5及106。僅使用具有 超過某一臨限值(諸如,1及15之增益值)之增益值的彼等 規則為可能的且出於統計目的為有用的。若第一所選臨限 值為1 ’則用於晶片_1之規則之高於1的增益值被取決於其 各別規則標題而分群組且接著被相乘。將所得的經彙總之 值稱為prodliftlONLE及prodliftlOLE。若臨限值為1.5,則 僅用於晶片j之規則之高於i 5的彼等增益值被分群組及相 乘。接著’將所得的經彙總之值稱為pr〇dlifU5NLE及 prodliftl5LE。下表展示針對晶片」至晶片_5之此計算的結 果0
晶片__id ProdLift NLE ProdLift 1〇 NLE ProdLift 15 NLE ProdLift LE ProdLift 1 OLE ProdLiftl5LE 類別 晶片_1 2.61 2.61 1.67 0.39 1 1 NLE 晶片一2 2.61 2.61 1.67 0.39 1 1 NLE 晶片_3 1.25 1.25 1.25 3.94 6.25 6.25 LE 晶片—4 2.61 2.61 1.67 0.39 1 1 NLE 晶片_5 1.25 1.25 1.25 3.94 6.25 6.25 LE 表6 在圖1之步驟107t,將此等所彙總之增益值用作分類演 151215.doc •21 · 201142630 算法之輪入以判定能夠區別兩個分類nle與le的模型。在 此特定實例中,測試「pr()dLiftNLE > 2」區別了兩個八 類。藉由該規則集及其屬性'連同關於實體及其經棄她: 增益值的資訊以及該區別測試,完成分類模型之訓練。 士圖2中所展示的為描繪對新f料集應用所主張之模型的 流程圖。該流程圖之步驟2〇〇包含集中新資料集。該新資 料集包含一實體(實體識別符)集合及每一實體之項目集 «。實體之分類將藉由所主張之方法來實現,因此在新 料集中無實體之分類。 返回參看在電腦晶片之製造過程_的例示性操作領域, 新資料集可看似下表。
表7 在圖2之步驟2〇1中’若所有現有規則可應用於新資料 集,則檢查該等所有現有規則。舉例而言,對於晶片_6而 在規則主體中具有X°C、Y ppm3及公司A的每一規則 為可應用的°收集新資料集之每一實體的可應用規則將產 生下表。出於簡單性原因’僅展示晶片_6之可應用規則。 151215.doc -22- 201142630 晶片_id 規則主體 規則標題 規則 增益 晶片_6 x°c NLE X °C=>NLE 1.25 晶片_6 x°c LE X°C=>LE 0.63 晶片_6 Y ppm3 NLE Y ppm3=>NLE 1.25 晶片_6 Y ppm3 LE Y ppm3=>LE 0.63 晶片_6 公司A NLE 公司A=>NLE 1.67 表8 接下來,彙總每一實體之增益值。在此特定實例中,取 決於規則標題來將可應用於晶片_6之規則分群組。此發生 於圖2之步驟202中。為了彙總增益值,在步驟203中針對 具有相同規則標題之所有規則而使增益值相乘。若對在其 規則標題中具有NLE之規則群組進行此步驟,則將所得值 稱為prodliftNLE。同樣地,將規則標題中具有LE之規則群 組之所得值稱為prodliftLE » 可關於不同規則群組而重複步驟202及203。僅使用具有 超過某一臨限值(諸如舉例而言,1及1.5之增益值)之增益 值的彼等規則為可能的且出於統計目的為有用的。若第一 所選臨限值為1,則用於晶片_6之規則之高於1的增益值被 取決於其各別規則標題而分群組且接著被相乘。將所得的 經彙總之值稱為prodliftlONLE及prodliftlOLE。若臨限值 為1 ·5,則僅用於晶片_6之規則之高於1 5的彼等增益值被 为群組及相乘。接著,將所得的經彙總之值稱為 prodliftl5NLE及prodliftl5LE。下表展示針對晶片—6之此 計具的結果。 151215.doc •23- 201142630 晶片_id ProdLift NLE ProdLift 1 ONLE ProdLift 15 NLE ProdLift LE ProdLift 10 LE ProdLift 15 LE 類別 晶片_6 2.61 2.61 1.67 0.39 1 1 NLE 表9 不同群組之臨限值可取決於模型之應用而變化。i、 1.2、1.5及1·8之臨限值亦可為可能的。
在圖2之最後步驟(步驟204)中,基於每一實體之所彙總 之增益值來預測分類。對於當前實例而言’表6之pr〇dLift 值清楚地趨向於NLE。此外,應用分類模型之區別測試。 區別測試「pr〇dLiftNLE>2」亦產生可將晶片一6分類為NLE 的結論。因此,基於所主張之方法,可將晶片—6分類為屬 於類別NLE且不具有邏輯錯誤。 諸圖中之流程圖及方塊圖說明根據本發明之各種實施例 之系統、方法及電腦程式產品之可能實施的架構、功能性 及操作。就此而言,在流程圖或方塊圖中之每一區塊可代 表程式碼之模組、區段或部分,其包含用於實施指定邏輯 力月b的或多個可執行指令。亦應注意,在一些替代性實 施中,區塊中所註釋之功能可不以圖中所註釋之次序發 生。舉例而言,取決於所涉及之功能性,連續展示之兩個 區塊實際上可能被實質上同時執行,或該等區塊有時可被 以相反次序執行。亦應注意,方塊圖及/或流程圖說明之 每一區塊及方塊圖及/或流程圖說明中之區塊之組合可藉 由執行私疋功此或動作之基於硬體之專用系統來實施,或 藉由專用硬體與電腦指令之組合來實施。 151215.doc •24· 201142630 在附加之申請專利銘阁丄 圍中,電腦化方法指代其步驟由一 汁算系統執行之方法,兮 °x什异系統含有一或多個處理器、 圮憶體構件及儲存構件之合適組合。 雖然前文已參考本發明特 特 例,但熟習此項技術 #應瞭解’可在不偏離本 埜& 原理及精神的情況下進行 此專實施例之改變,本發 圍定義。 t本發月之_由附加之申請專利範 【圖式簡單說明】 及 圖1展示訓練所主張之模型的流程圖 圖2展不使用所主張之模型的流程圖 【主要元件符號說明】 100 步驟 101 步驟 102 步驟 103 步驟 104 步驟 105 步驟 106 步驟 107 步驟 200 步驟 201 步驟 202 步驟 203 步驟 204 步驟 151215.doc •25·

Claims (1)

  1. 201142630 七、申請專利範圍: 1. 一種供訓練用於偵測輸入資料之型樣之一分類模型的電 腦化方法,尤其是來自一製造過程之輸入資料,其中該 模型之該訓練包含以下步驟: ' 擷取一先前記錄之輸入資料集,其含有與複數個實體 , 相關聯之複數個項目; 向每一實體添加一已知之分類;及 根據該先前記錄之輸入資料集及該已知之分類來判定 規則,該規則使每一實體之該分類與該實體之該等各別 項目相關聯,其中母一規則包含一屬性(attributes)集。 2·如請求項1之方法’其中每一規則包含: 作為一規則標題之一分類; 作為一規則主體之—項目;及 其中每一規則之該屬性集包含: 一增益值; 一支援度值;或 一信賴度值。 3 ·如清求項1及2之方法,其中訓練該模型進一步包含以下 ' 步驟: - 針對每一實體而判定哪些規則為可應用的; 針對每一實體而彙總針對該實體所判定之該等規則之 該等增益值;及 將該所得的經彙總之增益值連同該各別實體及分類用 作一標準分類演算法之輸入,其中結果為一分類模蜇。 151215.doc 201142630 4. 一種用於將一分類模型應用於輸入資料、尤其是來自一 製造過程之輸人資料之電腦化方法,其中該輸=資料含 有與一實體相關聯之複數個項目,該方法包含以下步 驟: 針對該實體而檢查來自該分類模型之一規則集以判定 哪些規則為可應用的; 針對該實體而囊總針對該實體所判定之來自該分類模 型之該等規則的增益值;及 針對該實體而基於該經棄總之增益值及該分類模型來 預測)一分類。 5. 如請求項4之方法,其中彙總該等規則的該步驟進一步 包含: 將在規則標題中具有相同分類的該等所判定之規則分 群組;及 使具有該相同頭之該等規則之該等增益值彼此相乘。 6. 如請求項5之方法’其中將該等所判定之規則分群組的 該步驟進一步包含: 僅將增益值高於一預定臨限值的彼等規則分群組。 7. 一種電腦系統,其中該電腦系統包含: 用以擷取一先前記錄之輸入資料集的構件,該先前記 錄之輸入資料集含有與複數個實體相關聯之複數個項 目; 用於向每一實體添加一已知之分類的構件; 用於藉由使每一實體之該分類與該實體之該等各別項 151215.doc 201142630 目相關聯而根據該先前 類來丨。己錄之輸入資料集及該已知之分 8 規則的構件’其中每_規則包含-屬性集。 •=求項8之電腦系統’其中該電腦系統進一步包含: 於針對每一實體而判定 用於針對每—實體而^那二規則為可應用的構件; 則之增益值的構Γ Γ針對該㈣㈣定之該等規 類:Γ;Γ:的經棄總之増益值連同該各別實雜及分 分類模型。 、法之輪入的構件’其中結果為- 9. 種用於將'一分類煤刑癃田ΙΛ 、玄'應用於輸入資料之電腦系統,JL 中讀入資料含有與__實體相關聯之複數 電 腦系統包含: °哀電 用於針對該實體而檢杳來 判定哪些規則為可應用^件心_之一規則集以 類針對$實體而彙總針對該實體所判^之來自該分 類模型之該等規則之增益值的構件;及 用於針對該實體而基於該經棄總之增益 型來預測一分類的構件。 頒杈 10·如凊求項9之電腦系統,其中該電腦系統進一步包含: 用於將在規則標題中具有相同分類之該等所判定之規 則分群組的構件;及 用於使每-群組之具有該相同頭之該等規則的該等增 益值彼此相乘的構件。 η. 一種電腦程式產品,其包含—包括電腦可用程式碼之電 151215.doc 201142630 腦可用媒體,其中該電腦可用程式碼經調適以執行如請 求項1至3之方法。 12. —種電腦程式產品,其包含一包括電腦可用程式碼之電 腦可用媒體,其中該電腦可用程式碼經調適以執行如請 求項4至6之方法。 151215.doc
TW099133422A 2009-12-21 2010-09-30 Method for training and using a classification model with association rule models TW201142630A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP09180083 2009-12-21

Publications (1)

Publication Number Publication Date
TW201142630A true TW201142630A (en) 2011-12-01

Family

ID=43437243

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099133422A TW201142630A (en) 2009-12-21 2010-09-30 Method for training and using a classification model with association rule models

Country Status (6)

Country Link
US (1) US8799193B2 (zh)
CN (1) CN102667775B (zh)
DE (1) DE112010004003T5 (zh)
GB (1) GB2490064A (zh)
TW (1) TW201142630A (zh)
WO (1) WO2011076560A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538813A (zh) * 2020-04-26 2020-08-14 北京锐安科技有限公司 一种分类检测方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8745086B2 (en) * 2008-12-05 2014-06-03 New BIS Safe Luxco S.á.r.l. Methods, apparatus and systems for data visualization and related applications
CN104123298B (zh) * 2013-04-26 2017-09-29 华为技术有限公司 产品缺陷的分析方法和设备
US9558347B2 (en) * 2013-08-27 2017-01-31 Globalfoundries Inc. Detecting anomalous user behavior using generative models of user actions
US9864795B1 (en) * 2013-10-28 2018-01-09 Google Inc. Identifying entity attributes
CN106407357B (zh) * 2016-09-07 2019-04-19 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
CN107357902B (zh) * 2017-07-14 2021-05-28 电子科技大学 一种基于关联规则的数据表分类系统与方法
US11449379B2 (en) * 2018-05-09 2022-09-20 Kyndryl, Inc. Root cause and predictive analyses for technical issues of a computing environment
CN110008253B (zh) * 2019-03-28 2021-02-23 浙江大学 一种工业数据关联规则挖掘及异常工况预测方法
CN113657022B (zh) * 2021-07-15 2024-05-14 华为技术有限公司 一种芯片故障识别方法及相关设备
CN116431597A (zh) * 2021-12-31 2023-07-14 戴尔产品有限公司 用于训练数据分类模型的方法、电子设备和计算机程序产品

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU674189B2 (en) 1993-02-23 1996-12-12 Moore North America, Inc. A method and system for gathering and analyzing customer and purchasing information
US6563952B1 (en) 1999-10-18 2003-05-13 Hitachi America, Ltd. Method and apparatus for classification of high dimensional data
US7299194B1 (en) 2000-02-22 2007-11-20 International Business Machines Corporation Method and system for researching sales effects of advertising using association analysis
BRPI0414607A (pt) 2003-09-22 2006-12-26 Citicorp Credit Services Inc método e sistema para classificação baseada em procedimentos de compras
US7433879B1 (en) 2004-06-17 2008-10-07 Versata Development Group, Inc. Attribute based association rule mining
US20070043615A1 (en) 2005-03-15 2007-02-22 Infolenz Corporation Product specific customer targeting
US7509337B2 (en) 2005-07-05 2009-03-24 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications
US7516152B2 (en) 2005-07-05 2009-04-07 International Business Machines Corporation System and method for generating and selecting data mining models for data mining applications
US20080306820A1 (en) 2006-12-06 2008-12-11 Calder Group, Inc. Process and system for targeting of content to segmented customer base
JP4465417B2 (ja) 2006-12-14 2010-05-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 顧客セグメント推定装置
CN101042698A (zh) * 2007-02-01 2007-09-26 江苏技术师范学院 一种关联规则及元规则的综合挖掘方法
CN101295309B (zh) * 2008-05-22 2011-05-04 江苏大学 一种医学图像识别的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538813A (zh) * 2020-04-26 2020-08-14 北京锐安科技有限公司 一种分类检测方法、装置、设备及存储介质
CN111538813B (zh) * 2020-04-26 2023-05-16 北京锐安科技有限公司 一种分类检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2011076560A1 (en) 2011-06-30
GB201212804D0 (en) 2012-09-05
CN102667775A (zh) 2012-09-12
DE112010004003T5 (de) 2012-09-20
US8799193B2 (en) 2014-08-05
US20120239600A1 (en) 2012-09-20
GB2490064A (en) 2012-10-17
CN102667775B (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
TW201142630A (en) Method for training and using a classification model with association rule models
Verma et al. Big data analytics: Challenges and applications for text, audio, video, and social media data
Pozzana et al. Measuring bot and human behavioral dynamics
US9294576B2 (en) Social media impact assessment
Lerman et al. Using stochastic models to describe and predict social dynamics of web users
Wu et al. Reliable fake review detection via modeling temporal and behavioral patterns
US20170357987A1 (en) Online platform for predicting consumer interest level
CN106991425B (zh) 商品交易质量的检测方法和装置
US11907962B2 (en) Estimating conversions
Qamili et al. An intelligent framework for issue ticketing system based on machine learning
Canbek Gaining insights in datasets in the shade of “garbage in, garbage out” rationale: Feature space distribution fitting
Liu et al. Extracting, ranking, and evaluating quality features of web services through user review sentiment analysis
Yeung et al. Machine learning to detect invalid text responses: Validation and comparison to existing detection methods
JP7170689B2 (ja) 出力装置、出力方法及び出力プログラム
Toivonen Big data quality challenges in the context of business analytics
Amirian et al. Data science and analytics
Alguliyev et al. Log-File Analysis to Identify Internet-addiction in Children.
CN113837843A (zh) 产品推荐方法、装置、介质及电子设备
Iqbal et al. Association rule analysis-based identification of influential users in the social media
Cao Explainable artificial intelligence for customer churning prediction in banking
Ickert et al. Methods for generating hypotheses in human enteric illness outbreak investigations: a scoping review of the evidence
Jalther et al. Reputation reporting system using text based classification
Cai et al. Community vitality in dynamic temporal networks
US11481368B2 (en) Automatically rank and route data quality remediation tasks
Reddy et al. Challenges to find association rules over various types of data items: A Survey