TW505868B - On-line mining of quantitative association rules - Google Patents

On-line mining of quantitative association rules Download PDF

Info

Publication number
TW505868B
TW505868B TW087112467A TW87112467A TW505868B TW 505868 B TW505868 B TW 505868B TW 087112467 A TW087112467 A TW 087112467A TW 87112467 A TW87112467 A TW 87112467A TW 505868 B TW505868 B TW 505868B
Authority
TW
Taiwan
Prior art keywords
node
user
tree
index
rule
Prior art date
Application number
TW087112467A
Other languages
English (en)
Inventor
Charu Chandra Aggarwal
Philip Shi-Lung Yu
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of TW505868B publication Critical patent/TW505868B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/964Database arrangement
    • Y10S707/966Distributed
    • Y10S707/967Peer-to-peer
    • Y10S707/968Partitioning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

505868 A7 部 屮 4\ it 13 j 消 合 作 H 印 五、發明说明( 曼JI背景
I 董jg範圍 本發明基本上與大型資之 關,特別是-種資料項目貝料相關性的線上搜尋有 “枓貝目的資料探究以找出定量聯合規則 的線上方法,其中的咨& 貝料員目包含各種定量與分類屬性。
Ur技藝 =二,亦稱爲資料庫中的知識發現,已被視爲資料 车由固新領域0以電子格式所储存資料的容量在過 Γ" 一 4 #叙二急f地增加。電子資料蒐集設備使用量的增 口,’ 17曰或遠端感應設備提供此急速增加可用的資料 描二21异月匕力與資料储存資源被以越來越低的成本 ^供時’為科儲存對商業社會變得更容易與更有吸引力。 0$意力集中在資料的累積時,產生了 ^ 主於此有價値的資源可以如何被利用。企業很快認= 有價殖的洞察力可以被決策者蒐集,來使用所错存的資科 。透過使用來自條碼公司的資料,或來自型錄公司的销隹 資料,可以得到有關客户講買行爲的有用資訊。例如,^ ㈣資訊可以被零售商用來決定哪個項目陳列在一超級市 場,或用來設計-在他者間有良好定位的行銷計畫。許多 有意義的洞察力可以從資料中利用適當的分析技術發現。 在最普遍的印象中’資料探究是有關資料分析與軟體技術 的使用以在資料集合中尋找態樣與規則。''資料探究的目標 是求出資料中可辨識的態樣與趨勢,並由這些態樣中推論 聯合規則。 --------«衣— (請先閲讀背面之一/i意事I再填寫本頁) IX_·-----
505868 A7 _______ B7 ——---- ----------------------- ----- 五、發明説明(2 ) ~ 資料探究技術的特性在大量資料的密集運算。大型資料 庫可定,義爲包含了百萬筆或更多記錄者。在一典型之應用 中,終端使用者會測試如”買了可樂也買了玉米片的75%客 户π的聯合規則,其中75%稱爲規則的可信係數。該規則的 基數疋包含可樂與玉米片兩者的交易的百分比。 至今的先前技藝並未提出線上探究的論點,而是專注在 一項目集合(ITEMSET)的方法。IBM的Almaden的計畫聲 稱查詢是建立在此方法上。項目集合(ITEMSET)方法的一 個主要缺點是,當使用者以不同的基數値與可信値的聯合 规則測試資料庫時,必須在資料庫上進行多個回次,它可 能是十億位元紐的乘方。對非常大的資料庫而言,這可能 涉及相當大量的I/O,且在某些情況中,它可能導致無法 接受的線上查一回應時間。使用者必須在一資料庫中做多 個查詢’因爲要推測多少規則可以滿足所給的基數與可信 値是很困難的。通常一個人可能只對幾個規則有興趣。這 都使問題更爲困難,因爲使用者可能要執行查詢多次才能 找出適當水準的最小基數與最小可信値以探究規則。換句 話説,探咒聯合規則的問題,可能需要藉由重複查詢以可 觀的人爲參數調整,以由交易資料庫中蒐集出有用的商業 資訊。至此描述的探究處理方法因而不合適重複線上查詢 ’導致擴增的磁4 I/O或計算而無法接受的回應時間 。擴增對網際網路資料探究能力的需求需要動態線上方法 而非項目集合批次導向的方法。因此本發明的一個主要目 標,在提供一對貝料庫做線上查詢的有效率計算方法,以 __ - 5· 本紙張尺度適ifl中國®家標# ( (、NS ) Λ4規格(21〇χ 297公釐) t衣! (請先閲讀背面之一注意事瓜再填寫本頁〕 _ ___丁> -δ 4 A7 B7 五、發明説明(3 利用使用者提供的基數盥^p 則的強度。 --^值水準當預告,評估聯合規 本發明的另-目標在發現定量聯合規則。 本發明導向有效率地執杆 千戮仃疋置聯合規則的線上探究的方 法。一聯合規則通常可定羞 一从、 疋義局一條件述句,暗示在其兩個 -件邵伤,推論與結果間存在著一些關聯。在一定量辦合 規則中推論與結果兩者由一此 s 一便用者界疋的疋f與分類屬 =合而成。根據所提出的規則,使用者會提供代表對使 用者關心的可信値與基數水準,與一稱爲關心程度値的三 個额外的輸入。這此入姐 二輸入耠供一使用者所提出規則(使用者 查詢)強度的指示。換句話説,由使用者查詢所定義推論與 結果間關聯性的強度。 义為達到本發明的目的,揭露了一種使用推論屬性來劃分 資料^建立-多維索引架構的預先處理原始資料的方法, 再接著線上規則產生步驟。藉著有效率地預先處理資料 成爲一索引架構,它以幾乎可即時回應而適於回答重複的 =上查詢之格式放置。一旦建立好,此索引架構排除要在 μ料庫中進仃多個回次之需要。此索引架構產生較先前技 術重大的執行優勢。此索引架構(預先處理的資料)以線上 處理可應用圖形理論搜尋演算法進行的方式儲存,其複雜 度與輸出量的大小成比例。這使線上演算法在回應時間上 幾乎是即時的,使過量的1/0或計算減至最小。 6 本纸張尺度制巾目S幻辦(Tns ) A4^T2K^297^1 ) 請 閲 讀 背 曹 拳 項· 再 填 馬 本 頁 f A7 B7 五、發明説明(4 述 I-------— (請先閲讀背面之>^意事^.再填寫本頁} 圖1 =本發明操作的電腦網路的整體㈣。 圖2疋本發明執仃的方法的整體描述。它包含了圖2(a 與圖2(b)所描述的兩個階段。圖2⑷是預先處理階段的指 处。圖2(b)疋此演算法線上階段的描述。 圖疋如何利用推論集合建立索引樹的詳細描述。它可 視爲圖2(a)中步驟75的展開。 圖4疋如何從索引樹產生分散的規則樹的詳細描述。 可視爲圖2(b)中步驟10〇的展開。 圖5是如何從分散的規則樹建立合併的規則樹的説明。 圖6是如何由使用者所界定關心程度r的合 產生出定量聯合規則的説明。 訂 1隹實施例詳诚 、本發明導向定量聯合規則的線上資料探究的方法 資料庫查均包括簡單的問題如"1995年—月長島地 ::的銷售數字是多少? '資料探究,相對地,試圖分二 貝料中:供辨識的態樣與趨勢,並由這些態樣中推論出 則°有这些規則’然後使用者可以在—些相關聯的商業 科學領域中支持,回顧與檢視決策。假設,例如,: 量項目的超級市場。典型的商業決策與要促銷什麼,如〜 設計點卷,及如何在架上排列商品以獲取最大利潤^ 。過去交易資料的分析是增進這些決策品質常 # 現代科技已能以每筆交以基準料稱爲籃^ 料的商店所賣出項目。组織收集大量這種資料。問題 — -7漏 505868 A7 B7 ¾¾部屮攻^ii-而Π-Ί'.消论合作i印:^ 五、發明説明(5 ) 一 ”探究”大量籃子資料型態的交易中,有所給的一些最小 可信度禮的項目集合間的聯合規則。給定一組交易,其中 每個交易是一組項目,一聯合規則是一 χ二〉¥形式的表 不法,其中X與Υ是項目的集合。聯合規則的一個範例是 :”包含啤酒也包含尿布交易的3〇% ;所有交易的2%包含 這兩個項目”。在此30%稱爲規則的可信度,而2%稱 則的基數。 這類規則的另一範例是90%的客户交易買了麵包與奶油 也買了牛奶的敘述。此規則的推論,χ,包含麵包與奶油 ,而其結論,Υ,只包含牛奶。百分之九十是此規則的可 k係數。例如可能也想要找出在推論中有"圈餅"的所有規 則,它可幫助判斷若商店中斷販賣圈餅時什麼產品(結論) 會遭強烈影響。 σ _ 提供一組原始交易,D,探究聯合規則的問題在於找出 所有規則中基數與可信度大於使用者定的最小基數 (MINSUPPORT S)與最小可信度(minc〇nfidence c)。通 常’規則X :=> γ的基數是客户交易的百分比,或一般化 的資料庫中的拓僕,它包含了 X與γ項目集合。在更正式 的數學用語中,規則X = > Y在交易集合D中有基數s, 若在D中S%的交易包含χ結合γ,χ V γ。規則χ =〉γ 的可信度定義爲交易中包含X也包含Y的百分比。或更正 式地,規則X = > γ在交易集合D中有可信度c,若在D 的交易中有c〇/。包含了 χ也包含γ。因此若一規則有9〇%可 信度,則意謂90%的交易包含了 X也包含γ。 -8- 本纸張尺度適川中K 1¾家標卑(Tns ) A4^ ( 21〇X 297^f ) -------—1衣_丨 (請先閲讀背面之·注意事i再填寫本頁} 訂 505868 A7 i-> ; 法。例 五、發明説明(6 如先前所述,聯合规則是一 X = > γ形式的表 如若項!目集合X與分別被定義成 X =[牛奶&乳路&奶油] γ =[蛋&火腿] 則規則可以解釋爲: 規則:x=> Y,巍涵若在一交易中有牛奶、乳路與 奶油,在所定義的基數與可信度水準下同—交易中出' 現蛋與火腿的可能性。 此規則的基數與可信度共同地定義了此規則的強度。 =者對這樣的系統有數種方式提出其規則以測試其強度。 :種系統可支援的這類線上查詢包括在未全部涵括但: 表性的列表中; % ⑴找出在-定水準的最小基數與最小可信度以上 有聯合規則。 (2) 在-足水準的最小基數與最小可信度,找出推論中有 項目集合X的所有聯合規則。 (3) 在一足水準的最小基數與最小可信度,找出結論中有 項目集合Y的所有聯合規則。 (4) 在一疋水準的最小基數與最小可信度,找出推論中或 =論中或推論與結論間有項目集合Y的所有聯合規 (:上面⑴’ (2),(3),⑷任何情、形中聯合規則/項 目集合的數目。 、 何種水T的瑕小基數時正好存在k項目集合包含 衣-------1Τ (請先閱讀背面之-注意事I再填寫本頁} # 本紙張尺度適川中國 9- ((NS ) Λ4現格(210x 297公釐 505868 Α7 五、發明説明(7 ) 了項目z的集合。 本方;'法詳述發現一般聯合规則以由一包含各種量化與分 類屬性所定義的一組原始交易’ D ’的大型資料庫中找出 量化規則。 例如,一般市場調查的典型量化/分類資料庫會包含一系 列記錄,其中每筆記錄反應了消費者一些特性與偏好的組 合; 記錄(1)= :年齡二 21,性別= 二男 ,屋主= :否 記錄(2)= :年齡= 43,性別= =男 ,屋主= Ό -疋 記錄(3 )= :年齡= 55,性別:: =女 ,屋主二 =否 通常,一定量聯合規則是這種形式的條件; 一般規則:
Xl[ll..ul], X2[12..u2]...Xk[lk..uk]Yl=cl, Y2=c2..Yp=cr=> Zl=zl, Z2=z2 其中XI,X2, ..Xk相當於量化推論屬性,而Y1,Y2, ..Yr, 與C相當於分類推論屬性。在此[η ui],[I2..u2], 相當於各種量化屬性的範圍。Z 1與Z 2相當於多個結論情 況。
本方法需要一使用者提供三個輸入,所提出的一規則, 或以推論/結論配對的形式參照使用者查詢。除所提出的_ 規則足外’使用者要提供所需要可信度的最小値(最小可信 度=c) ’及所需要的最小基數(最小基數値=s),以測試所 提出規則(使用者查詢)的強度。 V 取小可信度及最小基數兩者與定量聯合規則的發現相關 聯,一如其與一般聯合規則的發現相關聯。典型的使用者 .·*—— -------—— ------ · 10 - 本紙张纽制巾_ _彳 (請先閲讀背面之:¾意事項再填寫本頁} 4 訂 # 505868 Α7 U ! 五、發明説明(8 ) 輸入範例可以是; (請先閲讀背面之*注意事瓜再填寫本頁) 範例Αι :典型使用者輸入 1 ·使用者提供所提出要測試的規則(查詢) #論餅 _ 結論條件 年齡[20-40],薪水[i〇〇k-200k],性別=男= > 汽車=2 ~一 2.使用者提供所提出規則的可信値,當爲最小可信度,〇。 最小可信度=50% 3 ·使用者供所提出規則的基數値,最小基數値,$。 最小基數値=10% 圖1是本方法架構的整體描述。其中假設有多個客户4〇 可以在網路3 5上使用預先處理的資料。預先處理的資料位 於飼服器5之中。在伺服器端中伴隨著預先處理的資料2〇 可以有快取記憶體25。預先處理與線上處理發生在CPU 1 〇 中。另外,磁碟1 5出現在此而資料儲存在磁碟上。 本方法包含兩個階段,一預先處理階段跟著一線上處理 階段。圖2(a)顯示預先處理步驟以及線上處理(規則產生步 驟)演算法的整體描述。預先處理階段與二元索引樹架構的 建立,見圖2步驟75,與圖3(a)的聯合規則詳細描述,有 關。索引樹架構的使用在此技術中爲一眾所周知的空間資 料結構’其被用來對多維資料做檢索。習知技藝中相關的 作品可見於 Guttman. A.. A dynamic Index Structure for 么細又al~Searching,^ Proceedings of the ACM .ςΤΓτΜΟΡ [紐細6臟。在本方法中引用了此索引樹架構的變化以執 _____ -11 - 本纸张尺度適川中國B3家標华((、NS ) Λ4規格(2丨0χ 297公楚) 五、發明説明(9 A7 X5 / 行線上查詢。推論屬性被用來分刘咨拉 a 々 +刀剖#枓以建立一多維索引 呆構。丨此索引架構爲一二層架槿,並 ㈢木構,其中較高層節點最多聯 合兩個繼承節點,而較低層節點可 曰即·名j以有兩個以上的繼承節 點。此索引架構的建立對執杆右 執仃有效的線上資料探究是極關 心的。主要的優點在於使回應使用者查詢所需的磁碟ι/〇 降至最少。 索引架構的圖形化類似物,料在電腦記憶體中,以— 索引樹的形式顯示在圖3(b)中。索引樹係一眾所周知的空 間資料架構,它用來檢索多維資料。對每—個向度會在電 腦記憶體中建立-各自的索引架構,叾由使用者在線上查 询中所歧特定的量化屬性所定義。_ 3(b)是—索引樹架 構的特別的例子,它代表了推論條件”年齡”,及其聯合結 論條件"首次購冒者,,。爲推—牟欢、太土 ^ ^局進步澄清索引樹的概念,圖3(b) 可以用底下的例子代表”年齡”向度; 範例B :範例使用者查詢 #論餅 結論條件 薪水[401<-851<|,年齡[〇-;1〇〇],性別 >首次購買者 讀 先 閲 讀 背 1¾ 之 意 事 項· 再 訂 f 4 h刀 ncJ.7;;: 通¥ 4包含推論與結論條件的量化與結論屬性的結合並 無數量的限制。 在圖D(b)中索引樹架構的根節點由使用者所設量化屬性 ,年齡[0-100],所定義。樹中接下來的每個節點也描述了 此量化屬性,年齡,以樹階層頂部往底部持續變窄的範圍 限制。例如,根即點年齡[0-100]的二元繼承者是年齡[0_45] -12-
本紙悵尺度適中國Ρϋ家榡净.(T^NS )Λ4規格(21 O x 297公漦) 505868 A7 B7 五、發明説明(1〇 ) 與年齡[45·Η)()]。本方法在索引樹的每個節點儲存兩個資 料,代表關心程度的可信度與基數水準。例力,參閱圖训 ’在根節點上儲存的兩個資料包含了,· L可信度水準=50% 2.基數水準=輸入到原始資料庫中資料的函數 在根節點定義了使用者查詢的可信度與基數(推論/結論 配對), 年齡[0-100]= >首次購買者。 圖3(a)是預先處理階段演算法的詳細流程圖,在圖2中 顯示成元件100。此階段的處理步驟涉及二元索引樹架構 的產生及在該架構中的每個節點儲存結論屬性的基數與可 信度水準,接著對該架構的較低層使用壓縮演算法以確使 索引樹可置入可用的記憶體中。步驟3〇〇是預先處理階段 的進入點。步驟3 10代表使用二元化演算法以產生二元索 引樹實施處理步驟的軟體。二元化步驟已在Aggarwa1 Ρ· S·,and Epelman Μ· A· The S-Tree ; e^f f i c i e n t—ijidex—Lt. e e——for——multi dimeii sional index trpp' ^Ymposium of Spatial Databases. 1 997 〇 但是,本方法至少 在一個方向上與先前技藝分歧。在步驟3 15中,索引節點 項目的組織方法是獨一的,對結論屬性的每個基數水準與 可信度水準値儲存在架構中的每個節點。步驟32〇代表使 用壓縮演算法以將較低層索引節點壓縮到一單一節點中以 實施處理步驟的款體。 圖4(a)是主要搜尋演算法的詳細流程圖,它被用以從索 13 --------—— (請先閱讀背面之_注意事%再填寫本頁) 訂 d. 0 k_m— tm—9 tmmimw 0 本纸張尺度適州中K因家標令((、奶) Λ4規格(210X 297公釐) ^05868 A7 B7 t •央 u j 消 合 作 印 五、發明説明(11 ) 引樹產生未合併的規則樹,如圖2(b)中元件1〇〇所述。此 演算法!需要使用者設定的最小可信度C,最小基數S値, 以及一包含查询方塊Q與一或多右手側値的Z 1 = z 1,Z2 -z2的使用者查詢當輸入。查詢方塊僅是一代表使用者查 詢左手或推論部份的説明性名稱。爲進_步澄清查詢方塊 的意義,以下的範例C描述了在本方法中使用者所要輸入; 範例C :典型使用者輸入 使用者要輪入: (1·)最小可信度値,[最小可信度,c] (2·)最小基數値,[最小基數,s] 線上使用者還需要以(推論/結論)配對形式,項目3&4 ’輸入使用者查詢(所提出的規則)。 (3·)查詢方塊,”Q” [推論] (4·)Ζ1 = zl,Z2 = z2,etc··[結論] 項目三,查詢方塊,以下面的例子進一步説明,並可普 遍地包含任何量化與分類屬性的組合。項目四,結論屬性 ’可包含一或多個分類屬性。 [範例1]:此使用者設定的查詢包含一推論條件,有兩個 向度的查詢方塊,年齡與左撇子,與一單一分類結論條件 ,吸煙者。 查詢方塊 年齡[0-24],左撇> 吸煙者 [範例2 ]:此使用者設定的查詢包含一推論條件,有兩個 向度的查詢方塊,身高與收入,與多個結論條件。 -14- (2丨0X 297公釐) (請先閲讀背面之>Γ意事項再填寫本頁} 丁‘, -Φ 505868 A7 B7 五、發明説明(12) 查詢方塊 身高[5-7],收入[10k-40k]二 [範例3]:此使用者設定的查詢包含一單一推論條件,有 〉有房子,有車子 單一向度的查詢方塊,年齡,與單一結論條件 查詢方塊 年齡[10-431 == >吸煙者 上面的範例C ’以一般用語描述了使用者提供給本方法 的輸入。以下的範例D提供一代表性的範例。使用上面華 例2中的使用者查詢,典型的輸入/輸出結果可能會如下: 範例D : 使用者設定的輸入: 1. 最小可信度=.50 2. 最小基數=.43·查詢方塊(推論條件)=身高[5 - 6],收入[1〇k_4〇k] 4.關心的結論條件=有房子=1,有車子二1 由項目(3 & 4)組成的使用者查詢:身鬲[5-7] ’收入[l〇k-40k]>有房子,有車子 造成的輸出:產生的規則身高[5.5-6.2],收入[13k-27.4k]=二〉有房子士土 Ji,有車 子二1 通常,也許不產生規則,也許一個規則或多個規則。在 上面的範例中產生了單一規則。所產生“規則稱爲符合使 用者查詢,(推論/結論配對),在使用者設定的可信产與基 數水準,分別爲.5與.4。 15 (讀先閲讀背面之注意事項再填寫本頁} ··裝 訂 本紙張尺度適州中國因家標彳 (210X297公釐) 505868 五、發明説明(13 由索引樹產生未合併規則樹的演算法 ,由-個接-個搜尋索引樹的所有節圖止⑷所疋義 進入主要搜尋演算法的進入點。··'开1:°少骤400是 標的處理步驟的軟體,目前節點指二10:表實:設定指 標目前節點會永遠指到索引樹;^ 的根節點°指 被搜4演算法掃描的節點,T步躁42。中只 點。步骤430代表實施將目前節點所指到節點:;二; 點:到而的軟體’它與查詢方塊Q相交,並有至少“ 用者設定的輸入儘,最小基數s相等的基數早節^ :::!=T推論條件完整地包含在查詢方塊所定義 ?推=:時,.則稱該子節點與查詢方塊相交。步驟 疋一決疋少驟,它判定目前節點中所包含個別資料記錄是 否至少在C百分比的時間中符合結論條件,m盘Μ:Γ二Γ“40的條件滿足了,則演算法進行到步請 二,屋生對應到右手邊屬性集合的規則, 。步驟㈣接著步驟440與445,且代表了實施由lis= 目前節點所指到的節點,並將目前節點指標設 “匕。LIST中心下一節點的處理步碟的軟體。步驟 460^判斷UST是否爲空的並在條件成立時結束演算法,見 步私470。否則,演算法回到步驟43〇並對當前由目前節 點指標所指到的節點重複步驟。在結束演算法時,會輪出 一未合#的規則樹’它滿足使用者所定的最小基數^ 小基數S。 __________ - 16- 本祕尺度侧國 (請先閲讀背面<注意事免再填寫本頁) •丨,¾衣--- I· • II 1*- 1......... · 505868 A7 .¾ 4\ 標 準 人b J. 消 fi 作 社 印 五、發明説明(14 ) 圖5(a)是描述由未合併的規則樹建立合併的規 理的詳,細流程圖。此流程圖所描述的演算法壓縮夫= <處 規則樹以得到規則的階層式表示法。未合併 ::: 度優先的搜尋順序通過,其在每一節點判定該節點,二冰 ,義二有意義的節點定義爲有一規則與該節點相::有 在-未否併的規則樹建立時一規則可能或可能不已梦虚一 節點相關聯。爲進一步清楚區分有意義與無意義節 顧圖4(b),未合併的規則樹,其中有意義節點相當於節= ,2與4。所有有意義節點都保存在合併的規則樹〆 -節點被判定爲無意義,則演算法或者除去該節點 : 在符合某些條件時合併多個子節點爲單一節點。 # 步驟·代表演算法的進入點。步驟川代表實施確使 未合併的規則樹係被以深度優先的搜尋順序通過之處理乎 驟之軟體。步驟515代表以深度優先方式進行到未合併^ 規則樹中下一節點的步驟。步驟52〇代表判斷目前^節 點是:爲-有意義節點的決定步驟。在目前節點被判定爲 一有意義節點時分出一分支到步驟53〇。否則演算法分支 到v驟540以知節點歸類爲無意義。步驟是一判斷無 意義節點是否有子節點的決定步驟。若無意義節點有子節 點則分支到步驟550。步驟55〇代表實施刪除目前無音義 ㈣處:里步驟的軟體。否則,若在步骤54?判定目前“ 沒有子節點,則分支到步驟56〇。步驟56〇是_判斷目前 ,意義,點是否有一或多個子節點的決定步驟。若目前;; 點僅有單一子節點,則分支到步驟570。步驟57〇代表實 請 先 聞 ¥ 背 ιέ 之 注· 意 事 項· 再 鳟 17- 本纸依尺度適/种(Tn^Ta^ (210X 297公釐) A7 五、發明説明(15 施删除目前節點並直接將 父與子_接之處理步興:::趣之無意義節點的 點有多個子節點則分支到步躁則,若f現目前節 個子笳點的畀 ' 步蘇5 8 0是一判斷兩 如卞即點的取小矩形接只b ^ 0 ^ ^ |疋口、比無意義父節點多的決定步 驟。取小矩形邊界是由每 / 低il*辰卩r 、 每個子即點的量化屬性的較高與較 ^ ,, r R . ^ ^ 田子即點的範圍結合並變得比父節 -占的圍更廣時,會出p人 7曰出現合併物。例如,若子節點定義成; 子即點1 -年齡[10_2〇] 子節點2 -年齡[3〇_4〇] 而對應的父節點定義成; 父節點-年齡[10-30] 接著在此範例中會出現一合併物,因爲子屬性範圍的组 合產生一較父節點所設定範圍[10_30]爲廣的组合範圍[1〇_ 40] 〇 右兩個子節點的最小矩形邊界的可信度超過父節點,則 刀支到步驟59〇。步驟59〇代表實施將父節點的最小矩形 邊界凋整爲兩個子節點的最小矩形邊界的處理步躁的软體 。分支到決定步骤600以判定在樹中是否還有任何其他節 點要通過。若無任何其他節點要通過則分支到結束步驟61〇 ’否則對其餘的索引節點重複處理步驟490-5 15。 圖6是描述使用合併的規則樹當輸入以在使用者設定的 重要程度r中定義規則過程的詳細流程圖。合併的規則樹 以深度優先的順序通過。步驟616是此流程的進入點。使 用者要設定一輸入値當r,代表重要程度。步驟6 18代表 18 本紙張尺度適州中國g家標卒(rNS ) Λ4規格(2!〇Χ 297公釐) 請 先 閲 讀 背 S· 意 事 項- 再 填 寫 本 頁 f 訂 A7 B; 五、發明説明(16 在合併的規則樹以深度優先^ 步驟620是—決定步驟=擇::節點的軟體。 節點的重要性以判定立中θ石A =目則即點的所有祖先 點的1"者的*體。;条?可信度値至少等於目前節 630代表删除盘 V馬:時則分支到步驟630。步驟 人n 5|丨::則P •點相關的規則的軟體。若條件未符 :則刀支到步環⑽。步驟64〇是一決定步 有其餘節點Hit逐有任何剩餘的節點要評估。若還 ' r則重複處理步驟,否則處理在此杜走。 ,維然本發明特別顯示並説明了實施例,習;所 ,輕易爲之的細微改變並未脱離本發明的範圍與= ,>、僅應以所附申請專利範圍爲限。 /、 ...4 WT A,rt· ^,π /hm
度尺纸 本 S Ί\ c •ttr 家 Η 國 釐公

Claims (1)

  1. 505868 第087112467號專利申請案 主申請專利範圍修正太⑼年g 申請專利範圍 L -種線上探究具有多筆記錄的一大型資料庫之方法,且 每個記錄有多個量化與分類項目以提供定量聯合規則, 其包含下列步驟: a) 接收使用:#定義的一最小可信度值,使用者定義的〆 最小基數值,使用者定義的水準值,及—包含推 論與結論屬性的使用者查詢;
    b) 組織該推論與結論屬性間的關聯性; c) 預先儲義該#論屬㈣資料&與該肖論屬性相 關之資料; d) 因應該使用纟查詢由該縣儲存的資料求出一答案。 2. 如申請專利範圍帛η之方法,其中步驟b進—步°包含階 層地分割該推論資料到一索引樹,其中該索引樹包:多 個索引節點。 3. 如申請專利範圍第丨項之方法,該答案進一步包含一或 多個定量聯合規則,一與每個規則有關的實際可信度 # 值,一與每個規則有關的實際基數值,及一與每個二則 有關的重要程度。 4. 如申請專利範圍$ 3項之方法,其中該定量聯合規則只 包含那些重要的規則,其中該重要的規則包括那些計算 出的重要程度至少等於該使用者定義的重要程度。 5·如申請專利範圍第4項之方法,其中該重要程度定義成 一第一與一第二計算出的商數中的最小值’其中該第一 商數定義成實際可信度除以一期望可信度,而_第/二商 數定義成實際基數除以一期望基數,其中該期望可信度
    請專利範圍 A8 B8 C8 D8 與基數是根據統計上獨立的假設計算出的值。 如申凊專利範圍第1項之方法,其中該推論屬性進一步 包含分類與量化屬性。 如申明專利範圍第6項之方法,其中該量化屬性進一步 由包含一較低與一較高邊界的範圍定義。 8·如申請專利範圍第2項之方法,其中階層地分割該推論 資料到索引樹的步驟,進一步包含: a) 在该索引樹的每個索引節點儲存代表實際基數的一 第一值;. b) 在該索引樹的每個索引節點儲存代表每個使用者查 兩結論屬性發生頻率的一第二值。 9·如申請專利範圍第丨項之方法,其中的步驟d進一步包 含: Ο搜尋該索引樹的所有索引節點以分離出推論屬性範 圍與該使用者查詢推論屬性範圍符合的節點; 11)由菘等節點中選出滿足步驟i基準者,其結論屬性至 少等於該使用者設定的最小可信度值;且 iii)由該等滿足步驟i與ii的基準之節點建立合併樹。 10·如申請專利範圍第9項之方法,其中步驟m進一步包含 刪除典意義節點並結合其他節點以建立該合併樹。 11·如申請專利範圍第1〇項之方法,其中無心節點是計算 的可信度值未至少等於該使㈣定義的最小可信度 節點。 其中合併樹可建立單一 12·如申請專利範圍第1 〇項之方法 本紙張尺歧财s i(家鮮(CNS) A4規格(210 X 29T^J7 申請專利範圍 或多個結論屬性。. 13· 一種電腦執行對具有多筆 之處理籍食—Z綠的一大型資料庫線上探究 r*定義的最小基數值, 度值,及」 —使用者定義的重要程 淪條件進一步包括多個量化與分類屬性; 每r=體中建立一包含—或多個向度的索引樹,其中 母個向度由該推論條件中ρ 化屬性所μ 含的—個使用者提供的量 ^疋我,藏索引樹包含多個索引節點,其中該等 索引節點進一步包含多筆資料記錄; 由個索引節點的索引樹建立一未合併的規則 錄;/、甲s寺索引即點進一步含多筆資料記 由該包含多個索引節點的未合併的規則樹建立一人併 的規則樹於記憶體中’其中該等索引節點進-步心筆 資料記錄; 艾=多章 由符合該使用者查詢,且其基數至少等於該最小基 數,其可信度至少等於該最小可信度,的那些節點產生 出一或多個定量聯合規則;及 顯示輸出資料給使用者,包括·· 產生步驟的該等定量聯合規則; 與所產生的每個定量聯合規則相關的實際可信度值; 本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐)
    A8 B8 C8 D8 申請專利範圍 與所產生的每锢定量聯合規則相關的基數值;及 與所產生的每個定量聯合規則相關的重要程度值。 14·如申請專利範圍第1 3項之處理程序,其中產生定量聯合 規則的步驟被重複,以便該使用者查詢交互地修正以進 一步定義該聯合規則。 15·如申請專利範圍第13項之處理程序,其中建立索引樹的 步驟:進一步包括: 1) 建立 或多向度的二元索引樹,其中每個向度由一 個使用者所提供的量化推論屬性所定義; 2) 在每個索引節點儲存該基數水準與可信度水準。 16·如申請專利範圍第13項之處理程序,其中建立未合併規 則樹的步驟包括: i) 搜尋該索引樹的每個節點; ii) 選擇包含的規則符合使用者設定的結論條件,且可 信度至少等於該使用者定義的最小可信度值,而基數值 至少等於該使用者定義的最小基數值的那些節點。 17·如申請專利範圍第16項之處理程序,其中步驟ϋ進一步 包括: 0建立一指標; ii)將該指標設為該索引樹的根節點; Hi)將與該指標相關的該節點加到一表列中; iv)將該指標所指到,有推論屬性整個包含在該使用者 設定的推論屬性參數中,且有一最小基數值至_少等於該 使用者定義的最小基數的節點的所有子節點加入·
    則 修正補充 〇B A8 B8 C8 D8
    ,V)判斷儲存在該指標所指到節點的資料記錄,是否至少 等於使用者設定的結論條件,且有—可信度至少等於該 指標所指到節點的該使用者定義的最小可信度; vi) 產生一與該結論條件相關的定量聯合規則; vii) 當前面步驟的條件不滿足時由該二列;刪除該節 點, viii) 判斷該表列是否為空的; ix) 當該表列為空時結束; X) 當步驟IX的條件不成立時,將該指標設為該索引樹 的下一節點;及 XI) 當步驟ix的條件不成立時,重複步騾ίΗ_χ。 18.如申請專利範圍第1項之 方法,其中建立合併的規則樹的步驟包括: a) 以左側深度優先之順序通過未合併規則樹的每個節 點; b) 評估所通過未合併規則樹中的每個節點以將其包括 或排除,進一步包括: 1)判斷是否每個使用者定義的結論屬性值大於儲存 在該節點的結論屬性值; Π)當步驟i的條件成立時,將該節點保留在該合併規 則樹中; III) 當步驟1的條件不成立且該節點沒有相關的子節 點時,將該節點由該合併規則樹中刪除; IV) 當步驟1的條件不成立且該節點有一子節點時, 本紙張尺度適财國s家鮮(CNS) A4規格(21GX
    8 8 8 8 ABCD 六、申請專利範圍 將該節點由該合併規則樹中刪除; V)當步騾i的條件不成立時,調整該結論屬性的範圍; vi) 當步驟iv的條件成立時,直接聯合一祖先節點與 該被刪除節點之子節點;及 vii) 重複步驟i-vi直到以左側深度優先之順序通過所 有節點。 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
TW087112467A 1997-11-04 1998-07-29 On-line mining of quantitative association rules TW505868B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/964,064 US6092064A (en) 1997-11-04 1997-11-04 On-line mining of quantitative association rules

Publications (1)

Publication Number Publication Date
TW505868B true TW505868B (en) 2002-10-11

Family

ID=25508083

Family Applications (1)

Application Number Title Priority Date Filing Date
TW087112467A TW505868B (en) 1997-11-04 1998-07-29 On-line mining of quantitative association rules

Country Status (15)

Country Link
US (1) US6092064A (zh)
EP (1) EP1034489B1 (zh)
JP (1) JP3575602B2 (zh)
KR (1) KR100382296B1 (zh)
CN (1) CN1138222C (zh)
AU (1) AU750629B2 (zh)
CA (1) CA2304646C (zh)
CZ (1) CZ294171B6 (zh)
DE (1) DE69809964T2 (zh)
ES (1) ES2184322T3 (zh)
HK (1) HK1033987A1 (zh)
HU (1) HUP0100161A3 (zh)
PL (1) PL340380A1 (zh)
TW (1) TW505868B (zh)
WO (1) WO1999023577A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391859B (zh) * 2008-07-24 2013-04-01 Nahava Inc 分割高維度向量以用於巨大索引樹之方法及裝置

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684985A (en) 1994-12-15 1997-11-04 Ufil Unified Data Technologies Ltd. Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN)
JPH11328186A (ja) * 1997-11-11 1999-11-30 Mitsubishi Electric Corp 相関ルール生成方法および相関ルール生成装置
IL122850A0 (en) * 1998-01-05 1999-03-12 Wizsoft Pattern recognition using generalized association rules
US6185549B1 (en) * 1998-04-29 2001-02-06 Lucent Technologies Inc. Method for mining association rules in data
US6311179B1 (en) * 1998-10-30 2001-10-30 International Business Machines Corporation System and method of generating associations
US6278998B1 (en) * 1999-02-16 2001-08-21 Lucent Technologies, Inc. Data mining using cyclic association rules
CA2368123A1 (en) * 1999-04-09 2000-10-19 Berkeley*I E O R Process for determining object level profitability
US6542878B1 (en) 1999-04-23 2003-04-01 Microsoft Corporation Determining whether a variable is numeric or non-numeric
US6529895B2 (en) 1999-04-23 2003-03-04 Microsoft Corporation Determining a distribution of a numeric variable
US6405200B1 (en) 1999-04-23 2002-06-11 Microsoft Corporation Generating a model for raw variables from a model for cooked variables
US6321225B1 (en) * 1999-04-23 2001-11-20 Microsoft Corporation Abstracting cooked variables from raw variables
KR100344530B1 (ko) * 1999-12-20 2002-07-24 한국과학기술원 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법
US6865582B2 (en) * 2000-01-03 2005-03-08 Bechtel Bwxt Idaho, Llc Systems and methods for knowledge discovery in spatial data
US7007020B1 (en) * 2000-03-10 2006-02-28 Hewlett-Packard Development Company, L.P. Distributed OLAP-based association rule generation method and system
KR20020018777A (ko) * 2000-09-04 2002-03-09 박대희 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법
US6711577B1 (en) 2000-10-09 2004-03-23 Battelle Memorial Institute Data mining and visualization techniques
US7539677B1 (en) 2000-10-09 2009-05-26 Battelle Memorial Institute Sequential pattern data mining and visualization
US20020072941A1 (en) * 2000-12-07 2002-06-13 Ibm Corporation Method and apparatus for processing electronic records for physical transactions
US6757678B2 (en) 2001-04-12 2004-06-29 International Business Machines Corporation Generalized method and system of merging and pruning of data trees
CN1310172C (zh) * 2001-07-26 2007-04-11 国际商业机器公司 生成候补同义词的数据处理方法和系统
KR20030032096A (ko) * 2001-10-10 2003-04-26 이창환 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체
KR100500329B1 (ko) * 2001-10-18 2005-07-11 주식회사 핸디소프트 워크플로우 마이닝 시스템 및 방법
US6714940B2 (en) 2001-11-15 2004-03-30 International Business Machines Corporation Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data
KR100497212B1 (ko) * 2002-03-02 2005-06-23 (주)비엘시스템스 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법
KR20050011745A (ko) * 2002-04-19 2005-01-29 컴퓨터 어소시에이츠 싱크, 인코포레이티드 추론 서비스 제공 시스템 및 방법
US7152056B2 (en) * 2002-04-19 2006-12-19 Dow Jones Reuters Business Interactive, Llc Apparatus and method for generating data useful in indexing and searching
US6920459B2 (en) * 2002-05-07 2005-07-19 Zycus Infotech Pvt Ltd. System and method for context based searching of electronic catalog database, aided with graphical feedback to the user
US8214391B2 (en) * 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US6993534B2 (en) * 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US6947929B2 (en) * 2002-05-10 2005-09-20 International Business Machines Corporation Systems, methods and computer program products to determine useful relationships and dimensions of a database
US7447687B2 (en) 2002-05-10 2008-11-04 International Business Machines Corporation Methods to browse database query information
US7716167B2 (en) * 2002-12-18 2010-05-11 International Business Machines Corporation System and method for automatically building an OLAP model in a relational database
US7953694B2 (en) * 2003-01-13 2011-05-31 International Business Machines Corporation Method, system, and program for specifying multidimensional calculations for a relational OLAP engine
US7895191B2 (en) 2003-04-09 2011-02-22 International Business Machines Corporation Improving performance of database queries
US7289983B2 (en) * 2003-06-19 2007-10-30 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US20040260680A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation Personalized indexing and searching for information in a distributed data processing system
US7426520B2 (en) 2003-09-10 2008-09-16 Exeros, Inc. Method and apparatus for semantic discovery and mapping between data sources
US7958132B2 (en) * 2004-02-10 2011-06-07 Microsoft Corporation Voting based scheme for electronic document node reuse
US7707143B2 (en) * 2004-06-14 2010-04-27 International Business Machines Corporation Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models
US20050283494A1 (en) * 2004-06-22 2005-12-22 International Business Machines Corporation Visualizing and manipulating multidimensional OLAP models graphically
US7480663B2 (en) * 2004-06-22 2009-01-20 International Business Machines Corporation Model based optimization with focus regions
US8924343B2 (en) 2005-03-23 2014-12-30 International Business Machines Coporation Method and system for using confidence factors in forming a system
KR100812378B1 (ko) * 2005-11-28 2008-03-11 이원석 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법
US20070250476A1 (en) * 2006-04-21 2007-10-25 Lockheed Martin Corporation Approximate nearest neighbor search in metric space
KR100799665B1 (ko) * 2007-04-10 2008-01-30 삼육대학교산학협력단 노인 복지 서비스를 위한 욕구 사정 예측 방법 및 상기방법을 수행하기 위한 시스템
US8401987B2 (en) * 2007-07-17 2013-03-19 International Business Machines Corporation Managing validation models and rules to apply to data sets
JP5228461B2 (ja) * 2007-12-05 2013-07-03 富士通株式会社 パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法
US9720971B2 (en) * 2008-06-30 2017-08-01 International Business Machines Corporation Discovering transformations applied to a source table to generate a target table
US20100030719A1 (en) * 2008-07-10 2010-02-04 Covey Todd M Methods and apparatus related to bioinformatics data analysis
US8290955B2 (en) * 2008-09-18 2012-10-16 International Business Machines Corporation Classification of data in a hierarchical data structure
US20110035444A1 (en) * 2009-08-06 2011-02-10 Timedright Inc. Relationship security in online social and professional networks and communities
CN101996102B (zh) * 2009-08-31 2013-07-17 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
CN102117302B (zh) * 2009-12-31 2013-01-23 南京理工大学 传感器数据流复杂查询结果的数据起源跟踪方法
US8930303B2 (en) 2012-03-30 2015-01-06 International Business Machines Corporation Discovering pivot type relationships between database objects
JP6020031B2 (ja) 2012-10-19 2016-11-02 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6003561B2 (ja) 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5962471B2 (ja) 2012-11-30 2016-08-03 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP6102594B2 (ja) * 2013-07-16 2017-03-29 富士通株式会社 データ出力方法及びデータ出力プログラム
JP6136685B2 (ja) * 2013-07-16 2017-05-31 富士通株式会社 データ抽出方法及びデータ抽出プログラム
US9672495B2 (en) * 2014-12-23 2017-06-06 Sap Se Enhancing frequent itemset mining
US10671607B2 (en) * 2016-09-23 2020-06-02 Futurewei Technologies, Inc. Pipeline dependent tree query optimizer and scheduler
US20190191004A1 (en) * 2017-05-23 2019-06-20 Hitachi ,Ltd. System and method to reduce network traffic and load of host servers
CN107703383A (zh) * 2017-09-21 2018-02-16 国网上海市电力公司 一种信息采集系统故障诊断知识库的建立方法
CN112183823B (zh) * 2020-09-08 2023-12-05 国网江苏省电力有限公司营销服务中心 一种基于规则树的电能计量装置选型方法和系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664171A (en) * 1994-04-14 1997-09-02 International Business Machines Corporation System and method for query optimization using quantile values of a large unordered data set
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5737550A (en) * 1995-03-28 1998-04-07 Advanced Micro Devices, Inc. Cache memory to processor bus interface and method thereof
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
US5794209A (en) * 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
JP2963033B2 (ja) * 1995-09-29 1999-10-12 株式会社野村総合研究所 サンプル分類支援装置
JPH09114669A (ja) * 1995-10-16 1997-05-02 Hitachi Ltd ルール生成方法
US5724573A (en) * 1995-12-22 1998-03-03 International Business Machines Corporation Method and system for mining quantitative association rules in large relational tables
JPH09251467A (ja) * 1996-03-15 1997-09-22 Mitsubishi Electric Corp データマイニングシステムおよびデータマイニング方法
JP3952518B2 (ja) * 1996-03-29 2007-08-01 株式会社日立製作所 多次元データ処理方法
GB9611403D0 (en) * 1996-05-31 1996-08-07 Northern Telecom Ltd Network data analysis method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391859B (zh) * 2008-07-24 2013-04-01 Nahava Inc 分割高維度向量以用於巨大索引樹之方法及裝置

Also Published As

Publication number Publication date
JP3575602B2 (ja) 2004-10-13
DE69809964T2 (de) 2003-08-28
KR100382296B1 (ko) 2003-05-09
US6092064A (en) 2000-07-18
CN1138222C (zh) 2004-02-11
EP1034489B1 (en) 2002-12-04
HK1033987A1 (en) 2001-10-05
AU9272698A (en) 1999-05-24
HUP0100161A2 (hu) 2001-05-28
JP2001522095A (ja) 2001-11-13
PL340380A1 (en) 2001-01-29
CA2304646C (en) 2003-10-28
AU750629B2 (en) 2002-07-25
DE69809964D1 (de) 2003-01-16
CZ294171B6 (cs) 2004-10-13
KR20010031687A (ko) 2001-04-16
EP1034489A1 (en) 2000-09-13
CA2304646A1 (en) 1999-05-14
CN1278345A (zh) 2000-12-27
HUP0100161A3 (en) 2004-03-01
WO1999023577A1 (en) 1999-05-14
ES2184322T3 (es) 2003-04-01
CZ20001630A3 (en) 2001-05-16

Similar Documents

Publication Publication Date Title
TW505868B (en) On-line mining of quantitative association rules
Cheung et al. A quantitative correlation coefficient mining method for business intelligence in small and medium enterprises of trading business
CN109658206A (zh) 信息推荐方法和装置
Ahmeda et al. Performance study of classification algorithms for consumer online shopping attitudes and behavior using data mining
WO2002021335A1 (en) Automatic recommendation of products using latent semantic indexing of content
Dastani et al. Modeling user preferences and mediating agents in electronic commerce
Singh Collaborative filtering based hybrid music recommendation system
Aziz Customer Segmentation basedon Behavioural Data in E-marketplace
Chang et al. Using data mining technology to solve classification problems: A case study of campus digital library
Mostafa Knowledge discovery of hidden consumer purchase behaviour: a market basket analysis
Jain et al. E-commerce product recommendation based on product specification and similarity
Mohammadnezhad et al. An effective model for improving the quality of recommender systems in mobile e-tourism
Lu et al. Clustering e-commerce search engines based on their search interface pages using WISE-Cluster
Faridizadeh et al. Market basket analysis using community detection approach: A real case
Nurcahya et al. Content-based recommender system architecture for similar e-commerce products
CN112784064A (zh) 一种面向社交网络的层次化超维知识图谱构建方法
Gunawan Online retail pattern quality improvement: from frequent sequential pattern to high-utility sequential pattern
Sumathi et al. Data warehousing, data mining, and OLAP
Martinez et al. Market basket analysis with association rules in the retail sector using Orange. Case Study: Appliances Sales Company
Chutmongkolporn et al. Graph-based opinion entity ranking in customer reviews
Tu An application of web‐based data mining: selling strategies for online auctions
Sethi et al. Market Basket Analysis of Instacart
Portinale et al. A fuzzy case retrieval approach based on SQL for implementing electronic catalogs
Ciobanu Enhancing Data Warehouse management through semi-automatic data integration and complex graph generation
Rahman et al. A Hybrid Recommendation System for Retail Marketing

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MK4A Expiration of patent term of an invention patent