TW505868B

TW505868B - On-line mining of quantitative association rules

Info

Publication number: TW505868B
Application number: TW087112467A
Authority: TW
Inventors: Charu Chandra Aggarwal; Philip Shi-Lung Yu
Original assignee: Ibm
Priority date: 1997-11-04
Filing date: 1998-07-29
Publication date: 2002-10-11
Also published as: JP3575602B2; DE69809964T2; KR100382296B1; US6092064A; CN1138222C; EP1034489B1; HK1033987A1; AU9272698A; HUP0100161A2; JP2001522095A; PL340380A1; CA2304646C; AU750629B2; DE69809964D1; CZ294171B6; KR20010031687A; EP1034489A1; CA2304646A1; CN1278345A; HUP0100161A3

Description

505868 A7 部屮 4\ it 13 j 消合作 H 印五、發明说明（曼JI背景

I 董jg範圍本發明基本上與大型資之關，特別是-種資料項目貝料相關性的線上搜尋有 “枓貝目的資料探究以找出定量聯合規則的線上方法，其中的咨& 貝料員目包含各種定量與分類屬性。

Ur技藝 =二，亦稱爲資料庫中的知識發現，已被視爲資料车由固新領域0以電子格式所储存資料的容量在過 Γ" 一 4 #叙二急f地增加。電子資料蒐集設備使用量的增口，’ 17曰或遠端感應設備提供此急速增加可用的資料描二21异月匕力與資料储存資源被以越來越低的成本 ^供時’為科儲存對商業社會變得更容易與更有吸引力。 0$意力集中在資料的累積時，產生了 ^ 主於此有價値的資源可以如何被利用。企業很快認= 有價殖的洞察力可以被決策者蒐集，來使用所错存的資科。透過使用來自條碼公司的資料，或來自型錄公司的销隹資料，可以得到有關客户講買行爲的有用資訊。例如，^ ㈣資訊可以被零售商用來決定哪個項目陳列在一超級市場，或用來設計-在他者間有良好定位的行銷計畫。許多有意義的洞察力可以從資料中利用適當的分析技術發現。在最普遍的印象中’資料探究是有關資料分析與軟體技術的使用以在資料集合中尋找態樣與規則。''資料探究的目標是求出資料中可辨識的態樣與趨勢，並由這些態樣中推論聯合規則。 --------«衣— (請先閲讀背面之一/i意事I再填寫本頁) IX_·-----

505868 A7 _______ B7 ——---- ----------------------- ----- 五、發明説明（2 ) ~ 資料探究技術的特性在大量資料的密集運算。大型資料庫可定，義爲包含了百萬筆或更多記錄者。在一典型之應用中，終端使用者會測試如”買了可樂也買了玉米片的75%客户π的聯合規則，其中75%稱爲規則的可信係數。該規則的基數疋包含可樂與玉米片兩者的交易的百分比。至今的先前技藝並未提出線上探究的論點，而是專注在一項目集合（ITEMSET)的方法。IBM的Almaden的計畫聲稱查詢是建立在此方法上。項目集合（ITEMSET)方法的一個主要缺點是，當使用者以不同的基數値與可信値的聯合规則測試資料庫時，必須在資料庫上進行多個回次，它可能是十億位元紐的乘方。對非常大的資料庫而言，這可能涉及相當大量的I/O，且在某些情況中，它可能導致無法接受的線上查一回應時間。使用者必須在一資料庫中做多個查詢’因爲要推測多少規則可以滿足所給的基數與可信値是很困難的。通常一個人可能只對幾個規則有興趣。這都使問題更爲困難，因爲使用者可能要執行查詢多次才能找出適當水準的最小基數與最小可信値以探究規則。換句話説，探咒聯合規則的問題，可能需要藉由重複查詢以可觀的人爲參數調整，以由交易資料庫中蒐集出有用的商業資訊。至此描述的探究處理方法因而不合適重複線上查詢 ’導致擴增的磁4 I/O或計算而無法接受的回應時間。擴增對網際網路資料探究能力的需求需要動態線上方法而非項目集合批次導向的方法。因此本發明的一個主要目標，在提供一對貝料庫做線上查詢的有效率計算方法，以 __ - 5· 本紙張尺度適ifl中國®家標# ( (、NS ) Λ4規格（21〇χ 297公釐） t衣！ (請先閲讀背面之一注意事瓜再填寫本頁〕 _ ___丁> -δ 4 A7 B7 五、發明説明（3 利用使用者提供的基數盥^p 則的強度。 --^值水準當預告，評估聯合規本發明的另-目標在發現定量聯合規則。本發明導向有效率地執杆千戮仃疋置聯合規則的線上探究的方法。一聯合規則通常可定羞一从、疋義局一條件述句，暗示在其兩個 -件邵伤，推論與結果間存在著一些關聯。在一定量辦合規則中推論與結果兩者由一此 s 一便用者界疋的疋f與分類屬 =合而成。根據所提出的規則，使用者會提供代表對使用者關心的可信値與基數水準，與一稱爲關心程度値的三個额外的輸入。這此入姐二輸入耠供一使用者所提出規則（使用者查詢）強度的指示。換句話説，由使用者查詢所定義推論與結果間關聯性的強度。义為達到本發明的目的，揭露了一種使用推論屬性來劃分資料^建立-多維索引架構的預先處理原始資料的方法，再接著線上規則產生步驟。藉著有效率地預先處理資料成爲一索引架構，它以幾乎可即時回應而適於回答重複的 =上查詢之格式放置。一旦建立好，此索引架構排除要在 μ料庫中進仃多個回次之需要。此索引架構產生較先前技術重大的執行優勢。此索引架構（預先處理的資料）以線上處理可應用圖形理論搜尋演算法進行的方式儲存，其複雜度與輸出量的大小成比例。這使線上演算法在回應時間上幾乎是即時的，使過量的1/0或計算減至最小。 6 本纸張尺度制巾目S幻辦(Tns ) A4^T2K^297^1 ) 請閲讀背曹拳項· 再填馬本頁 f A7 B7 五、發明説明（4 述 I-------— (請先閲讀背面之>^意事^.再填寫本頁} 圖1 =本發明操作的電腦網路的整體㈣。圖2疋本發明執仃的方法的整體描述。它包含了圖2(a 與圖2(b)所描述的兩個階段。圖2⑷是預先處理階段的指处。圖2(b)疋此演算法線上階段的描述。圖疋如何利用推論集合建立索引樹的詳細描述。它可視爲圖2(a)中步驟75的展開。圖4疋如何從索引樹產生分散的規則樹的詳細描述。可視爲圖2(b)中步驟10〇的展開。圖5是如何從分散的規則樹建立合併的規則樹的説明。圖6是如何由使用者所界定關心程度r的合產生出定量聯合規則的説明。訂 1隹實施例詳诚、本發明導向定量聯合規則的線上資料探究的方法資料庫查均包括簡單的問題如"1995年—月長島地 ::的銷售數字是多少？ '資料探究，相對地，試圖分二貝料中:供辨識的態樣與趨勢，並由這些態樣中推論出則°有这些規則’然後使用者可以在—些相關聯的商業科學領域中支持，回顧與檢視決策。假設，例如，: 量項目的超級市場。典型的商業決策與要促銷什麼，如〜設計點卷，及如何在架上排列商品以獲取最大利潤^ 。過去交易資料的分析是增進這些決策品質常 # 現代科技已能以每筆交以基準料稱爲籃^ 料的商店所賣出項目。组織收集大量這種資料。問題 — -7漏 505868 A7 B7 ¾¾部屮攻^ii-而Π-Ί'.消论合作i印：^ 五、發明説明（5 ) 一 ”探究”大量籃子資料型態的交易中，有所給的一些最小可信度禮的項目集合間的聯合規則。給定一組交易，其中每個交易是一組項目，一聯合規則是一 χ二〉¥形式的表不法，其中X與Υ是項目的集合。聯合規則的一個範例是 :”包含啤酒也包含尿布交易的3〇% ;所有交易的2%包含這兩個項目”。在此30%稱爲規則的可信度，而2%稱則的基數。這類規則的另一範例是90%的客户交易買了麵包與奶油也買了牛奶的敘述。此規則的推論，χ，包含麵包與奶油，而其結論，Υ，只包含牛奶。百分之九十是此規則的可 k係數。例如可能也想要找出在推論中有"圈餅"的所有規則，它可幫助判斷若商店中斷販賣圈餅時什麼產品（結論）會遭強烈影響。 σ _ 提供一組原始交易，D，探究聯合規則的問題在於找出所有規則中基數與可信度大於使用者定的最小基數 (MINSUPPORT S)與最小可信度（minc〇nfidence c)。通常’規則X ：=> γ的基數是客户交易的百分比，或一般化的資料庫中的拓僕，它包含了 X與γ項目集合。在更正式的數學用語中，規則X = > Y在交易集合D中有基數s，若在D中S%的交易包含χ結合γ，χ V γ。規則χ =〉γ 的可信度定義爲交易中包含X也包含Y的百分比。或更正式地，規則X = > γ在交易集合D中有可信度c，若在D 的交易中有c〇/。包含了 χ也包含γ。因此若一規則有9〇%可信度，則意謂90%的交易包含了 X也包含γ。 -8- 本纸張尺度適川中K 1¾家標卑(Tns ) A4^ ( 21〇X 297^f ) -------—1衣_丨 (請先閲讀背面之·注意事i再填寫本頁} 訂 505868 A7 i-> ；法。例五、發明説明（6 如先前所述，聯合规則是一 X = > γ形式的表如若項!目集合X與分別被定義成 X =[牛奶&乳路&奶油] γ =[蛋&火腿] 則規則可以解釋爲：規則：x=> Y，巍涵若在一交易中有牛奶、乳路與奶油，在所定義的基數與可信度水準下同—交易中出' 現蛋與火腿的可能性。此規則的基數與可信度共同地定義了此規則的強度。 =者對這樣的系統有數種方式提出其規則以測試其強度。 :種系統可支援的這類線上查詢包括在未全部涵括但：表性的列表中； % ⑴找出在-定水準的最小基數與最小可信度以上有聯合規則。 (2) 在-足水準的最小基數與最小可信度，找出推論中有項目集合X的所有聯合規則。 (3) 在一足水準的最小基數與最小可信度，找出結論中有項目集合Y的所有聯合規則。 (4) 在一疋水準的最小基數與最小可信度，找出推論中或 =論中或推論與結論間有項目集合Y的所有聯合規 (:上面⑴’ (2)，(3)，⑷任何情、形中聯合規則/項目集合的數目。、何種水T的瑕小基數時正好存在k項目集合包含衣-------1Τ (請先閱讀背面之-注意事I再填寫本頁} # 本紙張尺度適川中國 9- ((NS ) Λ4現格（210x 297公釐 505868 Α7 五、發明説明（7 ) 了項目z的集合。本方;'法詳述發現一般聯合规則以由一包含各種量化與分類屬性所定義的一組原始交易’ D ’的大型資料庫中找出量化規則。例如，一般市場調查的典型量化/分類資料庫會包含一系列記錄，其中每筆記錄反應了消費者一些特性與偏好的組合；記錄（1)= :年齡二 21，性別= 二男，屋主= :否記錄（2)= :年齡= 43，性別= =男，屋主= Ό -疋記錄（3 )= :年齡= 55，性別：： =女，屋主二 =否通常，一定量聯合規則是這種形式的條件；一般規則：

Xl[ll..ul], X2[12..u2]...Xk[lk..uk]Yl=cl, Y2=c2..Yp=cr=> Zl=zl, Z2=z2 其中XI，X2, ..Xk相當於量化推論屬性，而Y1，Y2, ..Yr，與C相當於分類推論屬性。在此[η ui]，[I2..u2]，相當於各種量化屬性的範圍。Z 1與Z 2相當於多個結論情況。

本方法需要一使用者提供三個輸入，所提出的一規則，或以推論/結論配對的形式參照使用者查詢。除所提出的_ 規則足外’使用者要提供所需要可信度的最小値（最小可信度=c) ’及所需要的最小基數（最小基數値=s)，以測試所提出規則（使用者查詢）的強度。 V 取小可信度及最小基數兩者與定量聯合規則的發現相關聯，一如其與一般聯合規則的發現相關聯。典型的使用者 .·*—— -------—— ------ · 10 - 本紙张纽制巾_ _彳 (請先閲讀背面之：¾意事項再填寫本頁} 4 訂 # 505868 Α7 U ! 五、發明説明（8 ) 輸入範例可以是； (請先閲讀背面之*注意事瓜再填寫本頁) 範例Αι :典型使用者輸入 1 ·使用者提供所提出要測試的規則（查詢） #論餅 _ 結論條件年齡[20-40]，薪水[i〇〇k-200k]，性別=男= > 汽車=2 ~一 2.使用者提供所提出規則的可信値，當爲最小可信度，〇。最小可信度=50% 3 ·使用者供所提出規則的基數値，最小基數値，$。最小基數値=10% 圖1是本方法架構的整體描述。其中假設有多個客户4〇可以在網路3 5上使用預先處理的資料。預先處理的資料位於飼服器5之中。在伺服器端中伴隨著預先處理的資料2〇可以有快取記憶體25。預先處理與線上處理發生在CPU 1 〇中。另外，磁碟1 5出現在此而資料儲存在磁碟上。本方法包含兩個階段，一預先處理階段跟著一線上處理階段。圖2(a)顯示預先處理步驟以及線上處理（規則產生步驟）演算法的整體描述。預先處理階段與二元索引樹架構的建立，見圖2步驟75，與圖3(a)的聯合規則詳細描述，有關。索引樹架構的使用在此技術中爲一眾所周知的空間資料結構’其被用來對多維資料做檢索。習知技藝中相關的作品可見於 Guttman. A.. A dynamic Index Structure for 么細又al~Searching,^ Proceedings of the ACM .ςΤΓτΜΟΡ [紐細6臟。在本方法中引用了此索引樹架構的變化以執 _____ -11 - 本纸张尺度適川中國B3家標华（（、NS ) Λ4規格（2丨0χ 297公楚）五、發明説明（9 A7 X5 / 行線上查詢。推論屬性被用來分刘咨拉 a 々 +刀剖#枓以建立一多維索引呆構。丨此索引架構爲一二層架槿，並㈢木構，其中較高層節點最多聯合兩個繼承節點，而較低層節點可曰即·名j以有兩個以上的繼承節點。此索引架構的建立對執杆右執仃有效的線上資料探究是極關心的。主要的優點在於使回應使用者查詢所需的磁碟ι/〇降至最少。索引架構的圖形化類似物，料在電腦記憶體中，以— 索引樹的形式顯示在圖3(b)中。索引樹係一眾所周知的空間資料架構，它用來檢索多維資料。對每—個向度會在電腦記憶體中建立-各自的索引架構，叾由使用者在線上查询中所歧特定的量化屬性所定義。_ 3(b)是—索引樹架構的特別的例子，它代表了推論條件”年齡”，及其聯合結論條件"首次購冒者，，。爲推—牟欢、太土 ^ ^局進步澄清索引樹的概念，圖3(b) 可以用底下的例子代表”年齡”向度；範例B :範例使用者查詢 #論餅結論條件薪水[401<-851<|，年齡[〇-；1〇〇]，性別 >首次購買者讀先閲讀背 1¾ 之意事項· 再訂 f 4 h刀 ncJ.7;;: 通¥ 4包含推論與結論條件的量化與結論屬性的結合並無數量的限制。在圖D(b)中索引樹架構的根節點由使用者所設量化屬性，年齡[0-100]，所定義。樹中接下來的每個節點也描述了此量化屬性，年齡，以樹階層頂部往底部持續變窄的範圍限制。例如，根即點年齡[0-100]的二元繼承者是年齡[0_45] -12-

本紙悵尺度適中國Ρϋ家榡净.(T^NS )Λ4規格（21 O x 297公漦） 505868 A7 B7 五、發明説明（1〇 ) 與年齡[45·Η)()]。本方法在索引樹的每個節點儲存兩個資料，代表關心程度的可信度與基數水準。例力，參閱圖训 ’在根節點上儲存的兩個資料包含了，· L可信度水準=50% 2.基數水準=輸入到原始資料庫中資料的函數在根節點定義了使用者查詢的可信度與基數（推論/結論配對），年齡[0-100]= >首次購買者。圖3(a)是預先處理階段演算法的詳細流程圖，在圖2中顯示成元件100。此階段的處理步驟涉及二元索引樹架構的產生及在該架構中的每個節點儲存結論屬性的基數與可信度水準，接著對該架構的較低層使用壓縮演算法以確使索引樹可置入可用的記憶體中。步驟3〇〇是預先處理階段的進入點。步驟3 10代表使用二元化演算法以產生二元索引樹實施處理步驟的軟體。二元化步驟已在Aggarwa1 Ρ· S·，and Epelman Μ· A· The S-Tree ; e^f f i c i e n t—ijidex—Lt. e e——for——multi dimeii sional index trpp' ^Ymposium of Spatial Databases. 1 997 〇但是，本方法至少在一個方向上與先前技藝分歧。在步驟3 15中，索引節點項目的組織方法是獨一的，對結論屬性的每個基數水準與可信度水準値儲存在架構中的每個節點。步驟32〇代表使用壓縮演算法以將較低層索引節點壓縮到一單一節點中以實施處理步驟的款體。圖4(a)是主要搜尋演算法的詳細流程圖，它被用以從索 13 --------—— (請先閱讀背面之_注意事％再填寫本頁) 訂 d. 0 k_m— tm—9 tmmimw 0 本纸張尺度適州中K因家標令（（、奶） Λ4規格（210X 297公釐） ^05868 A7 B7 t •央 u j 消合作印五、發明説明（11 ) 引樹產生未合併的規則樹，如圖2(b)中元件1〇〇所述。此演算法!需要使用者設定的最小可信度C，最小基數S値，以及一包含查询方塊Q與一或多右手側値的Z 1 = z 1，Z2 -z2的使用者查詢當輸入。查詢方塊僅是一代表使用者查詢左手或推論部份的説明性名稱。爲進_步澄清查詢方塊的意義，以下的範例C描述了在本方法中使用者所要輸入；範例C :典型使用者輸入使用者要輪入： (1·)最小可信度値，[最小可信度，c] (2·)最小基數値，[最小基數，s] 線上使用者還需要以（推論/結論）配對形式，項目3&4 ’輸入使用者查詢（所提出的規則）。 (3·)查詢方塊，”Q” [推論] (4·)Ζ1 = zl，Z2 = z2，etc··[結論] 項目三，查詢方塊，以下面的例子進一步説明，並可普遍地包含任何量化與分類屬性的組合。項目四，結論屬性 ’可包含一或多個分類屬性。 [範例1]:此使用者設定的查詢包含一推論條件，有兩個向度的查詢方塊，年齡與左撇子，與一單一分類結論條件，吸煙者。查詢方塊年齡[0-24]，左撇> 吸煙者 [範例2 ]:此使用者設定的查詢包含一推論條件，有兩個向度的查詢方塊，身高與收入，與多個結論條件。 -14- (2丨0X 297公釐） (請先閲讀背面之>Γ意事項再填寫本頁} 丁‘， -Φ 505868 A7 B7 五、發明説明（12) 查詢方塊身高[5-7]，收入[10k-40k]二 [範例3]:此使用者設定的查詢包含一單一推論條件，有〉有房子，有車子單一向度的查詢方塊，年齡，與單一結論條件查詢方塊年齡[10-431 == >吸煙者上面的範例C ’以一般用語描述了使用者提供給本方法的輸入。以下的範例D提供一代表性的範例。使用上面華例2中的使用者查詢，典型的輸入/輸出結果可能會如下：範例D : 使用者設定的輸入： 1. 最小可信度=.50 2. 最小基數=.43·查詢方塊（推論條件）=身高[5 - 6]，收入[1〇k_4〇k] 4.關心的結論條件=有房子=1，有車子二1 由項目（3 & 4)組成的使用者查詢：身鬲[5-7] ’收入[l〇k-40k]>有房子，有車子造成的輸出：產生的規則身高[5.5-6.2]，收入[13k-27.4k]=二〉有房子士土 Ji，有車子二1 通常，也許不產生規則，也許一個規則或多個規則。在上面的範例中產生了單一規則。所產生“規則稱爲符合使用者查詢，（推論/結論配對），在使用者設定的可信产與基數水準，分別爲.5與.4。 15 (讀先閲讀背面之注意事項再填寫本頁} ··裝訂本紙張尺度適州中國因家標彳 (210X297公釐） 505868 五、發明説明（13 由索引樹產生未合併規則樹的演算法，由-個接-個搜尋索引樹的所有節圖止⑷所疋義進入主要搜尋演算法的進入點。··'开1:°少骤400是標的處理步驟的軟體，目前節點指二10:表實：設定指標目前節點會永遠指到索引樹;^ 的根節點°指被搜4演算法掃描的節點，T步躁42。中只點。步骤430代表實施將目前節點所指到節點：；二; 點：到而的軟體’它與查詢方塊Q相交，並有至少“ 用者設定的輸入儘，最小基數s相等的基數早節^ :::!=T推論條件完整地包含在查詢方塊所定義 ?推=:時，.則稱該子節點與查詢方塊相交。步驟疋一決疋少驟，它判定目前節點中所包含個別資料記錄是否至少在C百分比的時間中符合結論條件，m盘Μ:Γ二Γ“40的條件滿足了，則演算法進行到步請二，屋生對應到右手邊屬性集合的規則，。步驟㈣接著步驟440與445，且代表了實施由lis= 目前節點所指到的節點，並將目前節點指標設 “匕。LIST中心下一節點的處理步碟的軟體。步驟 460^判斷UST是否爲空的並在條件成立時結束演算法，見步私470。否則，演算法回到步驟43〇並對當前由目前節點指標所指到的節點重複步驟。在結束演算法時，會輪出一未合#的規則樹’它滿足使用者所定的最小基數^ 小基數S。 __________ - 16- 本祕尺度侧國 (請先閲讀背面<注意事免再填寫本頁) •丨,¾衣--- I· • II 1*- 1......... · 505868 A7 .¾ 4\ 標準人b J. 消 fi 作社印五、發明説明（14 ) 圖5(a)是描述由未合併的規則樹建立合併的規理的詳，細流程圖。此流程圖所描述的演算法壓縮夫= <處規則樹以得到規則的階層式表示法。未合併：：：度優先的搜尋順序通過，其在每一節點判定該節點，二冰，義二有意義的節點定義爲有一規則與該節點相：：有在-未否併的規則樹建立時一規則可能或可能不已梦虚一節點相關聯。爲進一步清楚區分有意義與無意義節顧圖4(b)，未合併的規則樹，其中有意義節點相當於節= ，2與4。所有有意義節點都保存在合併的規則樹〆 -節點被判定爲無意義，則演算法或者除去該節點：在符合某些條件時合併多個子節點爲單一節點。 # 步驟·代表演算法的進入點。步驟川代表實施確使未合併的規則樹係被以深度優先的搜尋順序通過之處理乎驟之軟體。步驟515代表以深度優先方式進行到未合併^ 規則樹中下一節點的步驟。步驟52〇代表判斷目前^節點是：爲-有意義節點的決定步驟。在目前節點被判定爲一有意義節點時分出一分支到步驟53〇。否則演算法分支到v驟540以知節點歸類爲無意義。步驟是一判斷無意義節點是否有子節點的決定步驟。若無意義節點有子節點則分支到步驟550。步驟55〇代表實施刪除目前無音義㈣處:里步驟的軟體。否則，若在步骤54?判定目前“ 沒有子節點，則分支到步驟56〇。步驟56〇是_判斷目前，意義，點是否有一或多個子節點的決定步驟。若目前;；點僅有單一子節點，則分支到步驟570。步驟57〇代表實請先聞 ¥ 背 ιέ 之注· 意事項· 再鳟 17- 本纸依尺度適/种(Tn^Ta^ (210X 297公釐） A7 五、發明説明（15 施删除目前節點並直接將父與子_接之處理步興：：：趣之無意義節點的點有多個子節點則分支到步躁則，若f現目前節個子笳點的畀 ' 步蘇5 8 0是一判斷兩如卞即點的取小矩形接只b ^ 0 ^ ^ |疋口、比無意義父節點多的決定步驟。取小矩形邊界是由每 / 低il*辰卩r 、每個子即點的量化屬性的較高與較 ^ ,, r R . ^ ^ 田子即點的範圍結合並變得比父節 -占的圍更廣時，會出p人 7曰出現合併物。例如，若子節點定義成；子即點1 -年齡[10_2〇] 子節點2 -年齡[3〇_4〇] 而對應的父節點定義成；父節點-年齡[10-30] 接著在此範例中會出現一合併物，因爲子屬性範圍的组合產生一較父節點所設定範圍[10_30]爲廣的组合範圍[1〇_ 40] 〇右兩個子節點的最小矩形邊界的可信度超過父節點，則刀支到步驟59〇。步驟59〇代表實施將父節點的最小矩形邊界凋整爲兩個子節點的最小矩形邊界的處理步躁的软體。分支到決定步骤600以判定在樹中是否還有任何其他節點要通過。若無任何其他節點要通過則分支到結束步驟61〇 ’否則對其餘的索引節點重複處理步驟490-5 15。圖6是描述使用合併的規則樹當輸入以在使用者設定的重要程度r中定義規則過程的詳細流程圖。合併的規則樹以深度優先的順序通過。步驟616是此流程的進入點。使用者要設定一輸入値當r，代表重要程度。步驟6 18代表 18 本紙張尺度適州中國g家標卒（rNS ) Λ4規格（2!〇Χ 297公釐）請先閲讀背 S· 意事項- 再填寫本頁 f 訂 A7 B；五、發明説明（16 在合併的規則樹以深度優先^ 步驟620是—決定步驟=擇：：節點的軟體。節點的重要性以判定立中θ石A =目則即點的所有祖先點的1"者的*體。；条？可信度値至少等於目前節 630代表删除盘 V馬：時則分支到步驟630。步驟人n 5|丨：：則P •點相關的規則的軟體。若條件未符 :則刀支到步環⑽。步驟64〇是一決定步有其餘節點Hit逐有任何剩餘的節點要評估。若還 ' r則重複處理步驟，否則處理在此杜走。，維然本發明特別顯示並説明了實施例，習；所，輕易爲之的細微改變並未脱離本發明的範圍與= ，>、僅應以所附申請專利範圍爲限。 /、 ...4 WT A,rt· ^,π /hm

度尺纸本 S Ί\ c •ttr 家 Η 國釐公

Claims

505868 第087112467號專利申請案主申請專利範圍修正太⑼年g 申請專利範圍 L -種線上探究具有多筆記錄的一大型資料庫之方法，且每個記錄有多個量化與分類項目以提供定量聯合規則，其包含下列步驟： a) 接收使用：#定義的一最小可信度值，使用者定義的〆最小基數值，使用者定義的水準值，及—包含推論與結論屬性的使用者查詢；

b) 組織該推論與結論屬性間的關聯性； c) 預先儲義該#論屬㈣資料&與該肖論屬性相關之資料； d) 因應該使用纟查詢由該縣儲存的資料求出一答案。 2. 如申請專利範圍帛η之方法，其中步驟b進—步°包含階層地分割該推論資料到一索引樹，其中該索引樹包:多個索引節點。 3. 如申請專利範圍第丨項之方法，該答案進一步包含一或多個定量聯合規則，一與每個規則有關的實際可信度 # 值，一與每個規則有關的實際基數值，及一與每個二則有關的重要程度。 4. 如申請專利範圍$ 3項之方法，其中該定量聯合規則只包含那些重要的規則，其中該重要的規則包括那些計算出的重要程度至少等於該使用者定義的重要程度。 5·如申請專利範圍第4項之方法，其中該重要程度定義成一第一與一第二計算出的商數中的最小值’其中該第一商數定義成實際可信度除以一期望可信度，而_第/二商數定義成實際基數除以一期望基數，其中該期望可信度

請專利範圍 A8 B8 C8 D8 與基數是根據統計上獨立的假設計算出的值。如申凊專利範圍第1項之方法，其中該推論屬性進一步包含分類與量化屬性。如申明專利範圍第6項之方法，其中該量化屬性進一步由包含一較低與一較高邊界的範圍定義。 8·如申請專利範圍第2項之方法，其中階層地分割該推論資料到索引樹的步驟，進一步包含： a) 在该索引樹的每個索引節點儲存代表實際基數的一第一值；. b) 在該索引樹的每個索引節點儲存代表每個使用者查兩結論屬性發生頻率的一第二值。 9·如申請專利範圍第丨項之方法，其中的步驟d進一步包含： Ο搜尋該索引樹的所有索引節點以分離出推論屬性範圍與該使用者查詢推論屬性範圍符合的節點； 11)由菘等節點中選出滿足步驟i基準者，其結論屬性至少等於該使用者設定的最小可信度值；且 iii)由該等滿足步驟i與ii的基準之節點建立合併樹。 10·如申請專利範圍第9項之方法，其中步驟m進一步包含刪除典意義節點並結合其他節點以建立該合併樹。 11·如申請專利範圍第1〇項之方法，其中無心節點是計算的可信度值未至少等於該使㈣定義的最小可信度節點。其中合併樹可建立單一 12·如申請專利範圍第1 〇項之方法本紙張尺歧财s i(家鮮(CNS) A4規格(210 X 29T^J7 申請專利範圍或多個結論屬性。. 13· 一種電腦執行對具有多筆之處理籍食—Z綠的一大型資料庫線上探究 r*定義的最小基數值，度值，及」 —使用者定義的重要程淪條件進一步包括多個量化與分類屬性；每r=體中建立一包含—或多個向度的索引樹，其中母個向度由該推論條件中ρ 化屬性所μ 含的—個使用者提供的量 ^疋我，藏索引樹包含多個索引節點，其中該等索引節點進一步包含多筆資料記錄；由個索引節點的索引樹建立一未合併的規則錄；/、甲s寺索引即點進一步含多筆資料記由該包含多個索引節點的未合併的規則樹建立一人併的規則樹於記憶體中’其中該等索引節點進-步心筆資料記錄；艾=多章由符合該使用者查詢，且其基數至少等於該最小基數，其可信度至少等於該最小可信度，的那些節點產生出一或多個定量聯合規則；及顯示輸出資料給使用者，包括·· 產生步驟的該等定量聯合規則；與所產生的每個定量聯合規則相關的實際可信度值；本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐)

A8 B8 C8 D8 申請專利範圍與所產生的每锢定量聯合規則相關的基數值；及與所產生的每個定量聯合規則相關的重要程度值。 14·如申請專利範圍第1 3項之處理程序，其中產生定量聯合規則的步驟被重複，以便該使用者查詢交互地修正以進一步定義該聯合規則。 15·如申請專利範圍第13項之處理程序，其中建立索引樹的步驟:進一步包括： 1) 建立或多向度的二元索引樹，其中每個向度由一個使用者所提供的量化推論屬性所定義； 2) 在每個索引節點儲存該基數水準與可信度水準。 16·如申請專利範圍第13項之處理程序，其中建立未合併規則樹的步驟包括： i) 搜尋該索引樹的每個節點； ii) 選擇包含的規則符合使用者設定的結論條件，且可信度至少等於該使用者定義的最小可信度值，而基數值至少等於該使用者定義的最小基數值的那些節點。 17·如申請專利範圍第16項之處理程序，其中步驟ϋ進一步包括： 0建立一指標； ii)將該指標設為該索引樹的根節點； Hi)將與該指標相關的該節點加到一表列中； iv)將該指標所指到，有推論屬性整個包含在該使用者設定的推論屬性參數中，且有一最小基數值至_少等於該使用者定義的最小基數的節點的所有子節點加入·

則修正補充〇B A8 B8 C8 D8

，V)判斷儲存在該指標所指到節點的資料記錄，是否至少等於使用者設定的結論條件，且有—可信度至少等於該指標所指到節點的該使用者定義的最小可信度； vi) 產生一與該結論條件相關的定量聯合規則； vii) 當前面步驟的條件不滿足時由該二列;刪除該節點， viii) 判斷該表列是否為空的； ix) 當該表列為空時結束； X) 當步驟IX的條件不成立時，將該指標設為該索引樹的下一節點；及 XI) 當步驟ix的條件不成立時，重複步騾ίΗ_χ。 18.如申請專利範圍第1項之方法，其中建立合併的規則樹的步驟包括： a) 以左側深度優先之順序通過未合併規則樹的每個節點； b) 評估所通過未合併規則樹中的每個節點以將其包括或排除，進一步包括： 1)判斷是否每個使用者定義的結論屬性值大於儲存在該節點的結論屬性值； Π)當步驟i的條件成立時，將該節點保留在該合併規則樹中； III) 當步驟1的條件不成立且該節點沒有相關的子節點時，將該節點由該合併規則樹中刪除； IV) 當步驟1的條件不成立且該節點有一子節點時，本紙張尺度適财國s家鮮(CNS) A4規格(21GX

8 8 8 8 ABCD 六、申請專利範圍將該節點由該合併規則樹中刪除； V)當步騾i的條件不成立時，調整該結論屬性的範圍； vi) 當步驟iv的條件成立時，直接聯合一祖先節點與該被刪除節點之子節點；及 vii) 重複步驟i-vi直到以左側深度優先之順序通過所有節點。本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)