TW505868B - On-line mining of quantitative association rules - Google Patents
On-line mining of quantitative association rules Download PDFInfo
- Publication number
- TW505868B TW505868B TW087112467A TW87112467A TW505868B TW 505868 B TW505868 B TW 505868B TW 087112467 A TW087112467 A TW 087112467A TW 87112467 A TW87112467 A TW 87112467A TW 505868 B TW505868 B TW 505868B
- Authority
- TW
- Taiwan
- Prior art keywords
- node
- user
- tree
- index
- rule
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/954—Relational
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/953—Organization of data
- Y10S707/956—Hierarchical
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/964—Database arrangement
- Y10S707/966—Distributed
- Y10S707/967—Peer-to-peer
- Y10S707/968—Partitioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
505868 A7 部 屮 4\ it 13 j 消 合 作 H 印 五、發明说明( 曼JI背景
I 董jg範圍 本發明基本上與大型資之 關,特別是-種資料項目貝料相關性的線上搜尋有 “枓貝目的資料探究以找出定量聯合規則 的線上方法,其中的咨& 貝料員目包含各種定量與分類屬性。
Ur技藝 =二,亦稱爲資料庫中的知識發現,已被視爲資料 车由固新領域0以電子格式所储存資料的容量在過 Γ" 一 4 #叙二急f地增加。電子資料蒐集設備使用量的增 口,’ 17曰或遠端感應設備提供此急速增加可用的資料 描二21异月匕力與資料储存資源被以越來越低的成本 ^供時’為科儲存對商業社會變得更容易與更有吸引力。 0$意力集中在資料的累積時,產生了 ^ 主於此有價値的資源可以如何被利用。企業很快認= 有價殖的洞察力可以被決策者蒐集,來使用所错存的資科 。透過使用來自條碼公司的資料,或來自型錄公司的销隹 資料,可以得到有關客户講買行爲的有用資訊。例如,^ ㈣資訊可以被零售商用來決定哪個項目陳列在一超級市 場,或用來設計-在他者間有良好定位的行銷計畫。許多 有意義的洞察力可以從資料中利用適當的分析技術發現。 在最普遍的印象中’資料探究是有關資料分析與軟體技術 的使用以在資料集合中尋找態樣與規則。''資料探究的目標 是求出資料中可辨識的態樣與趨勢,並由這些態樣中推論 聯合規則。 --------«衣— (請先閲讀背面之一/i意事I再填寫本頁) IX_·-----
505868 A7 _______ B7 ——---- ----------------------- ----- 五、發明説明(2 ) ~ 資料探究技術的特性在大量資料的密集運算。大型資料 庫可定,義爲包含了百萬筆或更多記錄者。在一典型之應用 中,終端使用者會測試如”買了可樂也買了玉米片的75%客 户π的聯合規則,其中75%稱爲規則的可信係數。該規則的 基數疋包含可樂與玉米片兩者的交易的百分比。 至今的先前技藝並未提出線上探究的論點,而是專注在 一項目集合(ITEMSET)的方法。IBM的Almaden的計畫聲 稱查詢是建立在此方法上。項目集合(ITEMSET)方法的一 個主要缺點是,當使用者以不同的基數値與可信値的聯合 规則測試資料庫時,必須在資料庫上進行多個回次,它可 能是十億位元紐的乘方。對非常大的資料庫而言,這可能 涉及相當大量的I/O,且在某些情況中,它可能導致無法 接受的線上查一回應時間。使用者必須在一資料庫中做多 個查詢’因爲要推測多少規則可以滿足所給的基數與可信 値是很困難的。通常一個人可能只對幾個規則有興趣。這 都使問題更爲困難,因爲使用者可能要執行查詢多次才能 找出適當水準的最小基數與最小可信値以探究規則。換句 話説,探咒聯合規則的問題,可能需要藉由重複查詢以可 觀的人爲參數調整,以由交易資料庫中蒐集出有用的商業 資訊。至此描述的探究處理方法因而不合適重複線上查詢 ’導致擴增的磁4 I/O或計算而無法接受的回應時間 。擴增對網際網路資料探究能力的需求需要動態線上方法 而非項目集合批次導向的方法。因此本發明的一個主要目 標,在提供一對貝料庫做線上查詢的有效率計算方法,以 __ - 5· 本紙張尺度適ifl中國®家標# ( (、NS ) Λ4規格(21〇χ 297公釐) t衣! (請先閲讀背面之一注意事瓜再填寫本頁〕 _ ___丁> -δ 4 A7 B7 五、發明説明(3 利用使用者提供的基數盥^p 則的強度。 --^值水準當預告,評估聯合規 本發明的另-目標在發現定量聯合規則。 本發明導向有效率地執杆 千戮仃疋置聯合規則的線上探究的方 法。一聯合規則通常可定羞 一从、 疋義局一條件述句,暗示在其兩個 -件邵伤,推論與結果間存在著一些關聯。在一定量辦合 規則中推論與結果兩者由一此 s 一便用者界疋的疋f與分類屬 =合而成。根據所提出的規則,使用者會提供代表對使 用者關心的可信値與基數水準,與一稱爲關心程度値的三 個额外的輸入。這此入姐 二輸入耠供一使用者所提出規則(使用者 查詢)強度的指示。換句話説,由使用者查詢所定義推論與 結果間關聯性的強度。 义為達到本發明的目的,揭露了一種使用推論屬性來劃分 資料^建立-多維索引架構的預先處理原始資料的方法, 再接著線上規則產生步驟。藉著有效率地預先處理資料 成爲一索引架構,它以幾乎可即時回應而適於回答重複的 =上查詢之格式放置。一旦建立好,此索引架構排除要在 μ料庫中進仃多個回次之需要。此索引架構產生較先前技 術重大的執行優勢。此索引架構(預先處理的資料)以線上 處理可應用圖形理論搜尋演算法進行的方式儲存,其複雜 度與輸出量的大小成比例。這使線上演算法在回應時間上 幾乎是即時的,使過量的1/0或計算減至最小。 6 本纸張尺度制巾目S幻辦(Tns ) A4^T2K^297^1 ) 請 閲 讀 背 曹 拳 項· 再 填 馬 本 頁 f A7 B7 五、發明説明(4 述 I-------— (請先閲讀背面之>^意事^.再填寫本頁} 圖1 =本發明操作的電腦網路的整體㈣。 圖2疋本發明執仃的方法的整體描述。它包含了圖2(a 與圖2(b)所描述的兩個階段。圖2⑷是預先處理階段的指 处。圖2(b)疋此演算法線上階段的描述。 圖疋如何利用推論集合建立索引樹的詳細描述。它可 視爲圖2(a)中步驟75的展開。 圖4疋如何從索引樹產生分散的規則樹的詳細描述。 可視爲圖2(b)中步驟10〇的展開。 圖5是如何從分散的規則樹建立合併的規則樹的説明。 圖6是如何由使用者所界定關心程度r的合 產生出定量聯合規則的説明。 訂 1隹實施例詳诚 、本發明導向定量聯合規則的線上資料探究的方法 資料庫查均包括簡單的問題如"1995年—月長島地 ::的銷售數字是多少? '資料探究,相對地,試圖分二 貝料中:供辨識的態樣與趨勢,並由這些態樣中推論出 則°有这些規則’然後使用者可以在—些相關聯的商業 科學領域中支持,回顧與檢視決策。假設,例如,: 量項目的超級市場。典型的商業決策與要促銷什麼,如〜 設計點卷,及如何在架上排列商品以獲取最大利潤^ 。過去交易資料的分析是增進這些決策品質常 # 現代科技已能以每筆交以基準料稱爲籃^ 料的商店所賣出項目。组織收集大量這種資料。問題 — -7漏 505868 A7 B7 ¾¾部屮攻^ii-而Π-Ί'.消论合作i印:^ 五、發明説明(5 ) 一 ”探究”大量籃子資料型態的交易中,有所給的一些最小 可信度禮的項目集合間的聯合規則。給定一組交易,其中 每個交易是一組項目,一聯合規則是一 χ二〉¥形式的表 不法,其中X與Υ是項目的集合。聯合規則的一個範例是 :”包含啤酒也包含尿布交易的3〇% ;所有交易的2%包含 這兩個項目”。在此30%稱爲規則的可信度,而2%稱 則的基數。 這類規則的另一範例是90%的客户交易買了麵包與奶油 也買了牛奶的敘述。此規則的推論,χ,包含麵包與奶油 ,而其結論,Υ,只包含牛奶。百分之九十是此規則的可 k係數。例如可能也想要找出在推論中有"圈餅"的所有規 則,它可幫助判斷若商店中斷販賣圈餅時什麼產品(結論) 會遭強烈影響。 σ _ 提供一組原始交易,D,探究聯合規則的問題在於找出 所有規則中基數與可信度大於使用者定的最小基數 (MINSUPPORT S)與最小可信度(minc〇nfidence c)。通 常’規則X :=> γ的基數是客户交易的百分比,或一般化 的資料庫中的拓僕,它包含了 X與γ項目集合。在更正式 的數學用語中,規則X = > Y在交易集合D中有基數s, 若在D中S%的交易包含χ結合γ,χ V γ。規則χ =〉γ 的可信度定義爲交易中包含X也包含Y的百分比。或更正 式地,規則X = > γ在交易集合D中有可信度c,若在D 的交易中有c〇/。包含了 χ也包含γ。因此若一規則有9〇%可 信度,則意謂90%的交易包含了 X也包含γ。 -8- 本纸張尺度適川中K 1¾家標卑(Tns ) A4^ ( 21〇X 297^f ) -------—1衣_丨 (請先閲讀背面之·注意事i再填寫本頁} 訂 505868 A7 i-> ; 法。例 五、發明説明(6 如先前所述,聯合规則是一 X = > γ形式的表 如若項!目集合X與分別被定義成 X =[牛奶&乳路&奶油] γ =[蛋&火腿] 則規則可以解釋爲: 規則:x=> Y,巍涵若在一交易中有牛奶、乳路與 奶油,在所定義的基數與可信度水準下同—交易中出' 現蛋與火腿的可能性。 此規則的基數與可信度共同地定義了此規則的強度。 =者對這樣的系統有數種方式提出其規則以測試其強度。 :種系統可支援的這類線上查詢包括在未全部涵括但: 表性的列表中; % ⑴找出在-定水準的最小基數與最小可信度以上 有聯合規則。 (2) 在-足水準的最小基數與最小可信度,找出推論中有 項目集合X的所有聯合規則。 (3) 在一足水準的最小基數與最小可信度,找出結論中有 項目集合Y的所有聯合規則。 (4) 在一疋水準的最小基數與最小可信度,找出推論中或 =論中或推論與結論間有項目集合Y的所有聯合規 (:上面⑴’ (2),(3),⑷任何情、形中聯合規則/項 目集合的數目。 、 何種水T的瑕小基數時正好存在k項目集合包含 衣-------1Τ (請先閱讀背面之-注意事I再填寫本頁} # 本紙張尺度適川中國 9- ((NS ) Λ4現格(210x 297公釐 505868 Α7 五、發明説明(7 ) 了項目z的集合。 本方;'法詳述發現一般聯合规則以由一包含各種量化與分 類屬性所定義的一組原始交易’ D ’的大型資料庫中找出 量化規則。 例如,一般市場調查的典型量化/分類資料庫會包含一系 列記錄,其中每筆記錄反應了消費者一些特性與偏好的組 合; 記錄(1)= :年齡二 21,性別= 二男 ,屋主= :否 記錄(2)= :年齡= 43,性別= =男 ,屋主= Ό -疋 記錄(3 )= :年齡= 55,性別:: =女 ,屋主二 =否 通常,一定量聯合規則是這種形式的條件; 一般規則:
Xl[ll..ul], X2[12..u2]...Xk[lk..uk]Yl=cl, Y2=c2..Yp=cr=> Zl=zl, Z2=z2 其中XI,X2, ..Xk相當於量化推論屬性,而Y1,Y2, ..Yr, 與C相當於分類推論屬性。在此[η ui],[I2..u2], 相當於各種量化屬性的範圍。Z 1與Z 2相當於多個結論情 況。
本方法需要一使用者提供三個輸入,所提出的一規則, 或以推論/結論配對的形式參照使用者查詢。除所提出的_ 規則足外’使用者要提供所需要可信度的最小値(最小可信 度=c) ’及所需要的最小基數(最小基數値=s),以測試所 提出規則(使用者查詢)的強度。 V 取小可信度及最小基數兩者與定量聯合規則的發現相關 聯,一如其與一般聯合規則的發現相關聯。典型的使用者 .·*—— -------—— ------ · 10 - 本紙张纽制巾_ _彳 (請先閲讀背面之:¾意事項再填寫本頁} 4 訂 # 505868 Α7 U ! 五、發明説明(8 ) 輸入範例可以是; (請先閲讀背面之*注意事瓜再填寫本頁) 範例Αι :典型使用者輸入 1 ·使用者提供所提出要測試的規則(查詢) #論餅 _ 結論條件 年齡[20-40],薪水[i〇〇k-200k],性別=男= > 汽車=2 ~一 2.使用者提供所提出規則的可信値,當爲最小可信度,〇。 最小可信度=50% 3 ·使用者供所提出規則的基數値,最小基數値,$。 最小基數値=10% 圖1是本方法架構的整體描述。其中假設有多個客户4〇 可以在網路3 5上使用預先處理的資料。預先處理的資料位 於飼服器5之中。在伺服器端中伴隨著預先處理的資料2〇 可以有快取記憶體25。預先處理與線上處理發生在CPU 1 〇 中。另外,磁碟1 5出現在此而資料儲存在磁碟上。 本方法包含兩個階段,一預先處理階段跟著一線上處理 階段。圖2(a)顯示預先處理步驟以及線上處理(規則產生步 驟)演算法的整體描述。預先處理階段與二元索引樹架構的 建立,見圖2步驟75,與圖3(a)的聯合規則詳細描述,有 關。索引樹架構的使用在此技術中爲一眾所周知的空間資 料結構’其被用來對多維資料做檢索。習知技藝中相關的 作品可見於 Guttman. A.. A dynamic Index Structure for 么細又al~Searching,^ Proceedings of the ACM .ςΤΓτΜΟΡ [紐細6臟。在本方法中引用了此索引樹架構的變化以執 _____ -11 - 本纸张尺度適川中國B3家標华((、NS ) Λ4規格(2丨0χ 297公楚) 五、發明説明(9 A7 X5 / 行線上查詢。推論屬性被用來分刘咨拉 a 々 +刀剖#枓以建立一多維索引 呆構。丨此索引架構爲一二層架槿,並 ㈢木構,其中較高層節點最多聯 合兩個繼承節點,而較低層節點可 曰即·名j以有兩個以上的繼承節 點。此索引架構的建立對執杆右 執仃有效的線上資料探究是極關 心的。主要的優點在於使回應使用者查詢所需的磁碟ι/〇 降至最少。 索引架構的圖形化類似物,料在電腦記憶體中,以— 索引樹的形式顯示在圖3(b)中。索引樹係一眾所周知的空 間資料架構,它用來檢索多維資料。對每—個向度會在電 腦記憶體中建立-各自的索引架構,叾由使用者在線上查 询中所歧特定的量化屬性所定義。_ 3(b)是—索引樹架 構的特別的例子,它代表了推論條件”年齡”,及其聯合結 論條件"首次購冒者,,。爲推—牟欢、太土 ^ ^局進步澄清索引樹的概念,圖3(b) 可以用底下的例子代表”年齡”向度; 範例B :範例使用者查詢 #論餅 結論條件 薪水[401<-851<|,年齡[〇-;1〇〇],性別 >首次購買者 讀 先 閲 讀 背 1¾ 之 意 事 項· 再 訂 f 4 h刀 ncJ.7;;: 通¥ 4包含推論與結論條件的量化與結論屬性的結合並 無數量的限制。 在圖D(b)中索引樹架構的根節點由使用者所設量化屬性 ,年齡[0-100],所定義。樹中接下來的每個節點也描述了 此量化屬性,年齡,以樹階層頂部往底部持續變窄的範圍 限制。例如,根即點年齡[0-100]的二元繼承者是年齡[0_45] -12-
本紙悵尺度適中國Ρϋ家榡净.(T^NS )Λ4規格(21 O x 297公漦) 505868 A7 B7 五、發明説明(1〇 ) 與年齡[45·Η)()]。本方法在索引樹的每個節點儲存兩個資 料,代表關心程度的可信度與基數水準。例力,參閱圖训 ’在根節點上儲存的兩個資料包含了,· L可信度水準=50% 2.基數水準=輸入到原始資料庫中資料的函數 在根節點定義了使用者查詢的可信度與基數(推論/結論 配對), 年齡[0-100]= >首次購買者。 圖3(a)是預先處理階段演算法的詳細流程圖,在圖2中 顯示成元件100。此階段的處理步驟涉及二元索引樹架構 的產生及在該架構中的每個節點儲存結論屬性的基數與可 信度水準,接著對該架構的較低層使用壓縮演算法以確使 索引樹可置入可用的記憶體中。步驟3〇〇是預先處理階段 的進入點。步驟3 10代表使用二元化演算法以產生二元索 引樹實施處理步驟的軟體。二元化步驟已在Aggarwa1 Ρ· S·,and Epelman Μ· A· The S-Tree ; e^f f i c i e n t—ijidex—Lt. e e——for——multi dimeii sional index trpp' ^Ymposium of Spatial Databases. 1 997 〇 但是,本方法至少 在一個方向上與先前技藝分歧。在步驟3 15中,索引節點 項目的組織方法是獨一的,對結論屬性的每個基數水準與 可信度水準値儲存在架構中的每個節點。步驟32〇代表使 用壓縮演算法以將較低層索引節點壓縮到一單一節點中以 實施處理步驟的款體。 圖4(a)是主要搜尋演算法的詳細流程圖,它被用以從索 13 --------—— (請先閱讀背面之_注意事%再填寫本頁) 訂 d. 0 k_m— tm—9 tmmimw 0 本纸張尺度適州中K因家標令((、奶) Λ4規格(210X 297公釐) ^05868 A7 B7 t •央 u j 消 合 作 印 五、發明説明(11 ) 引樹產生未合併的規則樹,如圖2(b)中元件1〇〇所述。此 演算法!需要使用者設定的最小可信度C,最小基數S値, 以及一包含查询方塊Q與一或多右手側値的Z 1 = z 1,Z2 -z2的使用者查詢當輸入。查詢方塊僅是一代表使用者查 詢左手或推論部份的説明性名稱。爲進_步澄清查詢方塊 的意義,以下的範例C描述了在本方法中使用者所要輸入; 範例C :典型使用者輸入 使用者要輪入: (1·)最小可信度値,[最小可信度,c] (2·)最小基數値,[最小基數,s] 線上使用者還需要以(推論/結論)配對形式,項目3&4 ’輸入使用者查詢(所提出的規則)。 (3·)查詢方塊,”Q” [推論] (4·)Ζ1 = zl,Z2 = z2,etc··[結論] 項目三,查詢方塊,以下面的例子進一步説明,並可普 遍地包含任何量化與分類屬性的組合。項目四,結論屬性 ’可包含一或多個分類屬性。 [範例1]:此使用者設定的查詢包含一推論條件,有兩個 向度的查詢方塊,年齡與左撇子,與一單一分類結論條件 ,吸煙者。 查詢方塊 年齡[0-24],左撇> 吸煙者 [範例2 ]:此使用者設定的查詢包含一推論條件,有兩個 向度的查詢方塊,身高與收入,與多個結論條件。 -14- (2丨0X 297公釐) (請先閲讀背面之>Γ意事項再填寫本頁} 丁‘, -Φ 505868 A7 B7 五、發明説明(12) 查詢方塊 身高[5-7],收入[10k-40k]二 [範例3]:此使用者設定的查詢包含一單一推論條件,有 〉有房子,有車子 單一向度的查詢方塊,年齡,與單一結論條件 查詢方塊 年齡[10-431 == >吸煙者 上面的範例C ’以一般用語描述了使用者提供給本方法 的輸入。以下的範例D提供一代表性的範例。使用上面華 例2中的使用者查詢,典型的輸入/輸出結果可能會如下: 範例D : 使用者設定的輸入: 1. 最小可信度=.50 2. 最小基數=.43·查詢方塊(推論條件)=身高[5 - 6],收入[1〇k_4〇k] 4.關心的結論條件=有房子=1,有車子二1 由項目(3 & 4)組成的使用者查詢:身鬲[5-7] ’收入[l〇k-40k]>有房子,有車子 造成的輸出:產生的規則身高[5.5-6.2],收入[13k-27.4k]=二〉有房子士土 Ji,有車 子二1 通常,也許不產生規則,也許一個規則或多個規則。在 上面的範例中產生了單一規則。所產生“規則稱爲符合使 用者查詢,(推論/結論配對),在使用者設定的可信产與基 數水準,分別爲.5與.4。 15 (讀先閲讀背面之注意事項再填寫本頁} ··裝 訂 本紙張尺度適州中國因家標彳 (210X297公釐) 505868 五、發明説明(13 由索引樹產生未合併規則樹的演算法 ,由-個接-個搜尋索引樹的所有節圖止⑷所疋義 進入主要搜尋演算法的進入點。··'开1:°少骤400是 標的處理步驟的軟體,目前節點指二10:表實:設定指 標目前節點會永遠指到索引樹;^ 的根節點°指 被搜4演算法掃描的節點,T步躁42。中只 點。步骤430代表實施將目前節點所指到節點:;二; 點:到而的軟體’它與查詢方塊Q相交,並有至少“ 用者設定的輸入儘,最小基數s相等的基數早節^ :::!=T推論條件完整地包含在查詢方塊所定義 ?推=:時,.則稱該子節點與查詢方塊相交。步驟 疋一決疋少驟,它判定目前節點中所包含個別資料記錄是 否至少在C百分比的時間中符合結論條件,m盘Μ:Γ二Γ“40的條件滿足了,則演算法進行到步請 二,屋生對應到右手邊屬性集合的規則, 。步驟㈣接著步驟440與445,且代表了實施由lis= 目前節點所指到的節點,並將目前節點指標設 “匕。LIST中心下一節點的處理步碟的軟體。步驟 460^判斷UST是否爲空的並在條件成立時結束演算法,見 步私470。否則,演算法回到步驟43〇並對當前由目前節 點指標所指到的節點重複步驟。在結束演算法時,會輪出 一未合#的規則樹’它滿足使用者所定的最小基數^ 小基數S。 __________ - 16- 本祕尺度侧國 (請先閲讀背面<注意事免再填寫本頁) •丨,¾衣--- I· • II 1*- 1......... · 505868 A7 .¾ 4\ 標 準 人b J. 消 fi 作 社 印 五、發明説明(14 ) 圖5(a)是描述由未合併的規則樹建立合併的規 理的詳,細流程圖。此流程圖所描述的演算法壓縮夫= <處 規則樹以得到規則的階層式表示法。未合併 ::: 度優先的搜尋順序通過,其在每一節點判定該節點,二冰 ,義二有意義的節點定義爲有一規則與該節點相::有 在-未否併的規則樹建立時一規則可能或可能不已梦虚一 節點相關聯。爲進一步清楚區分有意義與無意義節 顧圖4(b),未合併的規則樹,其中有意義節點相當於節= ,2與4。所有有意義節點都保存在合併的規則樹〆 -節點被判定爲無意義,則演算法或者除去該節點 : 在符合某些條件時合併多個子節點爲單一節點。 # 步驟·代表演算法的進入點。步驟川代表實施確使 未合併的規則樹係被以深度優先的搜尋順序通過之處理乎 驟之軟體。步驟515代表以深度優先方式進行到未合併^ 規則樹中下一節點的步驟。步驟52〇代表判斷目前^節 點是:爲-有意義節點的決定步驟。在目前節點被判定爲 一有意義節點時分出一分支到步驟53〇。否則演算法分支 到v驟540以知節點歸類爲無意義。步驟是一判斷無 意義節點是否有子節點的決定步驟。若無意義節點有子節 點則分支到步驟550。步驟55〇代表實施刪除目前無音義 ㈣處:里步驟的軟體。否則,若在步骤54?判定目前“ 沒有子節點,則分支到步驟56〇。步驟56〇是_判斷目前 ,意義,點是否有一或多個子節點的決定步驟。若目前;; 點僅有單一子節點,則分支到步驟570。步驟57〇代表實 請 先 聞 ¥ 背 ιέ 之 注· 意 事 項· 再 鳟 17- 本纸依尺度適/种(Tn^Ta^ (210X 297公釐) A7 五、發明説明(15 施删除目前節點並直接將 父與子_接之處理步興:::趣之無意義節點的 點有多個子節點則分支到步躁則,若f現目前節 個子笳點的畀 ' 步蘇5 8 0是一判斷兩 如卞即點的取小矩形接只b ^ 0 ^ ^ |疋口、比無意義父節點多的決定步 驟。取小矩形邊界是由每 / 低il*辰卩r 、 每個子即點的量化屬性的較高與較 ^ ,, r R . ^ ^ 田子即點的範圍結合並變得比父節 -占的圍更廣時,會出p人 7曰出現合併物。例如,若子節點定義成; 子即點1 -年齡[10_2〇] 子節點2 -年齡[3〇_4〇] 而對應的父節點定義成; 父節點-年齡[10-30] 接著在此範例中會出現一合併物,因爲子屬性範圍的组 合產生一較父節點所設定範圍[10_30]爲廣的组合範圍[1〇_ 40] 〇 右兩個子節點的最小矩形邊界的可信度超過父節點,則 刀支到步驟59〇。步驟59〇代表實施將父節點的最小矩形 邊界凋整爲兩個子節點的最小矩形邊界的處理步躁的软體 。分支到決定步骤600以判定在樹中是否還有任何其他節 點要通過。若無任何其他節點要通過則分支到結束步驟61〇 ’否則對其餘的索引節點重複處理步驟490-5 15。 圖6是描述使用合併的規則樹當輸入以在使用者設定的 重要程度r中定義規則過程的詳細流程圖。合併的規則樹 以深度優先的順序通過。步驟616是此流程的進入點。使 用者要設定一輸入値當r,代表重要程度。步驟6 18代表 18 本紙張尺度適州中國g家標卒(rNS ) Λ4規格(2!〇Χ 297公釐) 請 先 閲 讀 背 S· 意 事 項- 再 填 寫 本 頁 f 訂 A7 B; 五、發明説明(16 在合併的規則樹以深度優先^ 步驟620是—決定步驟=擇::節點的軟體。 節點的重要性以判定立中θ石A =目則即點的所有祖先 點的1"者的*體。;条?可信度値至少等於目前節 630代表删除盘 V馬:時則分支到步驟630。步驟 人n 5|丨::則P •點相關的規則的軟體。若條件未符 :則刀支到步環⑽。步驟64〇是一決定步 有其餘節點Hit逐有任何剩餘的節點要評估。若還 ' r則重複處理步驟,否則處理在此杜走。 ,維然本發明特別顯示並説明了實施例,習;所 ,輕易爲之的細微改變並未脱離本發明的範圍與= ,>、僅應以所附申請專利範圍爲限。 /、 ...4 WT A,rt· ^,π /hm
度尺纸 本 S Ί\ c •ttr 家 Η 國 釐公
Claims (1)
- 505868 第087112467號專利申請案 主申請專利範圍修正太⑼年g 申請專利範圍 L -種線上探究具有多筆記錄的一大型資料庫之方法,且 每個記錄有多個量化與分類項目以提供定量聯合規則, 其包含下列步驟: a) 接收使用:#定義的一最小可信度值,使用者定義的〆 最小基數值,使用者定義的水準值,及—包含推 論與結論屬性的使用者查詢;b) 組織該推論與結論屬性間的關聯性; c) 預先儲義該#論屬㈣資料&與該肖論屬性相 關之資料; d) 因應該使用纟查詢由該縣儲存的資料求出一答案。 2. 如申請專利範圍帛η之方法,其中步驟b進—步°包含階 層地分割該推論資料到一索引樹,其中該索引樹包:多 個索引節點。 3. 如申請專利範圍第丨項之方法,該答案進一步包含一或 多個定量聯合規則,一與每個規則有關的實際可信度 # 值,一與每個規則有關的實際基數值,及一與每個二則 有關的重要程度。 4. 如申請專利範圍$ 3項之方法,其中該定量聯合規則只 包含那些重要的規則,其中該重要的規則包括那些計算 出的重要程度至少等於該使用者定義的重要程度。 5·如申請專利範圍第4項之方法,其中該重要程度定義成 一第一與一第二計算出的商數中的最小值’其中該第一 商數定義成實際可信度除以一期望可信度,而_第/二商 數定義成實際基數除以一期望基數,其中該期望可信度請專利範圍 A8 B8 C8 D8 與基數是根據統計上獨立的假設計算出的值。 如申凊專利範圍第1項之方法,其中該推論屬性進一步 包含分類與量化屬性。 如申明專利範圍第6項之方法,其中該量化屬性進一步 由包含一較低與一較高邊界的範圍定義。 8·如申請專利範圍第2項之方法,其中階層地分割該推論 資料到索引樹的步驟,進一步包含: a) 在该索引樹的每個索引節點儲存代表實際基數的一 第一值;. b) 在該索引樹的每個索引節點儲存代表每個使用者查 兩結論屬性發生頻率的一第二值。 9·如申請專利範圍第丨項之方法,其中的步驟d進一步包 含: Ο搜尋該索引樹的所有索引節點以分離出推論屬性範 圍與該使用者查詢推論屬性範圍符合的節點; 11)由菘等節點中選出滿足步驟i基準者,其結論屬性至 少等於該使用者設定的最小可信度值;且 iii)由該等滿足步驟i與ii的基準之節點建立合併樹。 10·如申請專利範圍第9項之方法,其中步驟m進一步包含 刪除典意義節點並結合其他節點以建立該合併樹。 11·如申請專利範圍第1〇項之方法,其中無心節點是計算 的可信度值未至少等於該使㈣定義的最小可信度 節點。 其中合併樹可建立單一 12·如申請專利範圍第1 〇項之方法 本紙張尺歧财s i(家鮮(CNS) A4規格(210 X 29T^J7 申請專利範圍 或多個結論屬性。. 13· 一種電腦執行對具有多筆 之處理籍食—Z綠的一大型資料庫線上探究 r*定義的最小基數值, 度值,及」 —使用者定義的重要程 淪條件進一步包括多個量化與分類屬性; 每r=體中建立一包含—或多個向度的索引樹,其中 母個向度由該推論條件中ρ 化屬性所μ 含的—個使用者提供的量 ^疋我,藏索引樹包含多個索引節點,其中該等 索引節點進一步包含多筆資料記錄; 由個索引節點的索引樹建立一未合併的規則 錄;/、甲s寺索引即點進一步含多筆資料記 由該包含多個索引節點的未合併的規則樹建立一人併 的規則樹於記憶體中’其中該等索引節點進-步心筆 資料記錄; 艾=多章 由符合該使用者查詢,且其基數至少等於該最小基 數,其可信度至少等於該最小可信度,的那些節點產生 出一或多個定量聯合規則;及 顯示輸出資料給使用者,包括·· 產生步驟的該等定量聯合規則; 與所產生的每個定量聯合規則相關的實際可信度值; 本紙張尺度適用中國國家標準(CNS) Α4規格(210 X 297公釐)A8 B8 C8 D8 申請專利範圍 與所產生的每锢定量聯合規則相關的基數值;及 與所產生的每個定量聯合規則相關的重要程度值。 14·如申請專利範圍第1 3項之處理程序,其中產生定量聯合 規則的步驟被重複,以便該使用者查詢交互地修正以進 一步定義該聯合規則。 15·如申請專利範圍第13項之處理程序,其中建立索引樹的 步驟:進一步包括: 1) 建立 或多向度的二元索引樹,其中每個向度由一 個使用者所提供的量化推論屬性所定義; 2) 在每個索引節點儲存該基數水準與可信度水準。 16·如申請專利範圍第13項之處理程序,其中建立未合併規 則樹的步驟包括: i) 搜尋該索引樹的每個節點; ii) 選擇包含的規則符合使用者設定的結論條件,且可 信度至少等於該使用者定義的最小可信度值,而基數值 至少等於該使用者定義的最小基數值的那些節點。 17·如申請專利範圍第16項之處理程序,其中步驟ϋ進一步 包括: 0建立一指標; ii)將該指標設為該索引樹的根節點; Hi)將與該指標相關的該節點加到一表列中; iv)將該指標所指到,有推論屬性整個包含在該使用者 設定的推論屬性參數中,且有一最小基數值至_少等於該 使用者定義的最小基數的節點的所有子節點加入·則 修正補充 〇B A8 B8 C8 D8,V)判斷儲存在該指標所指到節點的資料記錄,是否至少 等於使用者設定的結論條件,且有—可信度至少等於該 指標所指到節點的該使用者定義的最小可信度; vi) 產生一與該結論條件相關的定量聯合規則; vii) 當前面步驟的條件不滿足時由該二列;刪除該節 點, viii) 判斷該表列是否為空的; ix) 當該表列為空時結束; X) 當步驟IX的條件不成立時,將該指標設為該索引樹 的下一節點;及 XI) 當步驟ix的條件不成立時,重複步騾ίΗ_χ。 18.如申請專利範圍第1項之 方法,其中建立合併的規則樹的步驟包括: a) 以左側深度優先之順序通過未合併規則樹的每個節 點; b) 評估所通過未合併規則樹中的每個節點以將其包括 或排除,進一步包括: 1)判斷是否每個使用者定義的結論屬性值大於儲存 在該節點的結論屬性值; Π)當步驟i的條件成立時,將該節點保留在該合併規 則樹中; III) 當步驟1的條件不成立且該節點沒有相關的子節 點時,將該節點由該合併規則樹中刪除; IV) 當步驟1的條件不成立且該節點有一子節點時, 本紙張尺度適财國s家鮮(CNS) A4規格(21GX8 8 8 8 ABCD 六、申請專利範圍 將該節點由該合併規則樹中刪除; V)當步騾i的條件不成立時,調整該結論屬性的範圍; vi) 當步驟iv的條件成立時,直接聯合一祖先節點與 該被刪除節點之子節點;及 vii) 重複步驟i-vi直到以左側深度優先之順序通過所 有節點。 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/964,064 US6092064A (en) | 1997-11-04 | 1997-11-04 | On-line mining of quantitative association rules |
Publications (1)
Publication Number | Publication Date |
---|---|
TW505868B true TW505868B (en) | 2002-10-11 |
Family
ID=25508083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW087112467A TW505868B (en) | 1997-11-04 | 1998-07-29 | On-line mining of quantitative association rules |
Country Status (15)
Country | Link |
---|---|
US (1) | US6092064A (zh) |
EP (1) | EP1034489B1 (zh) |
JP (1) | JP3575602B2 (zh) |
KR (1) | KR100382296B1 (zh) |
CN (1) | CN1138222C (zh) |
AU (1) | AU750629B2 (zh) |
CA (1) | CA2304646C (zh) |
CZ (1) | CZ294171B6 (zh) |
DE (1) | DE69809964T2 (zh) |
ES (1) | ES2184322T3 (zh) |
HK (1) | HK1033987A1 (zh) |
HU (1) | HUP0100161A3 (zh) |
PL (1) | PL340380A1 (zh) |
TW (1) | TW505868B (zh) |
WO (1) | WO1999023577A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI391859B (zh) * | 2008-07-24 | 2013-04-01 | Nahava Inc | 分割高維度向量以用於巨大索引樹之方法及裝置 |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5684985A (en) | 1994-12-15 | 1997-11-04 | Ufil Unified Data Technologies Ltd. | Method and apparatus utilizing bond identifiers executed upon accessing of an endo-dynamic information node (EDIN) |
JPH11328186A (ja) * | 1997-11-11 | 1999-11-30 | Mitsubishi Electric Corp | 相関ルール生成方法および相関ルール生成装置 |
IL122850A0 (en) * | 1998-01-05 | 1999-03-12 | Wizsoft | Pattern recognition using generalized association rules |
US6185549B1 (en) * | 1998-04-29 | 2001-02-06 | Lucent Technologies Inc. | Method for mining association rules in data |
US6311179B1 (en) * | 1998-10-30 | 2001-10-30 | International Business Machines Corporation | System and method of generating associations |
US6278998B1 (en) * | 1999-02-16 | 2001-08-21 | Lucent Technologies, Inc. | Data mining using cyclic association rules |
CA2368123A1 (en) * | 1999-04-09 | 2000-10-19 | Berkeley*I E O R | Process for determining object level profitability |
US6542878B1 (en) | 1999-04-23 | 2003-04-01 | Microsoft Corporation | Determining whether a variable is numeric or non-numeric |
US6529895B2 (en) | 1999-04-23 | 2003-03-04 | Microsoft Corporation | Determining a distribution of a numeric variable |
US6405200B1 (en) | 1999-04-23 | 2002-06-11 | Microsoft Corporation | Generating a model for raw variables from a model for cooked variables |
US6321225B1 (en) * | 1999-04-23 | 2001-11-20 | Microsoft Corporation | Abstracting cooked variables from raw variables |
KR100344530B1 (ko) * | 1999-12-20 | 2002-07-24 | 한국과학기술원 | 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법 |
US6865582B2 (en) * | 2000-01-03 | 2005-03-08 | Bechtel Bwxt Idaho, Llc | Systems and methods for knowledge discovery in spatial data |
US7007020B1 (en) * | 2000-03-10 | 2006-02-28 | Hewlett-Packard Development Company, L.P. | Distributed OLAP-based association rule generation method and system |
KR20020018777A (ko) * | 2000-09-04 | 2002-03-09 | 박대희 | 패턴 분류를 위한 점증적 갱신의 데이터 마이닝 방법 |
US6711577B1 (en) | 2000-10-09 | 2004-03-23 | Battelle Memorial Institute | Data mining and visualization techniques |
US7539677B1 (en) | 2000-10-09 | 2009-05-26 | Battelle Memorial Institute | Sequential pattern data mining and visualization |
US20020072941A1 (en) * | 2000-12-07 | 2002-06-13 | Ibm Corporation | Method and apparatus for processing electronic records for physical transactions |
US6757678B2 (en) | 2001-04-12 | 2004-06-29 | International Business Machines Corporation | Generalized method and system of merging and pruning of data trees |
CN1310172C (zh) * | 2001-07-26 | 2007-04-11 | 国际商业机器公司 | 生成候补同义词的数据处理方法和系统 |
KR20030032096A (ko) * | 2001-10-10 | 2003-04-26 | 이창환 | 데이터 마이닝 방법 및 컴퓨터로 판독가능한 기록 매체 |
KR100500329B1 (ko) * | 2001-10-18 | 2005-07-11 | 주식회사 핸디소프트 | 워크플로우 마이닝 시스템 및 방법 |
US6714940B2 (en) | 2001-11-15 | 2004-03-30 | International Business Machines Corporation | Systems, methods, and computer program products to rank and explain dimensions associated with exceptions in multidimensional data |
KR100497212B1 (ko) * | 2002-03-02 | 2005-06-23 | (주)비엘시스템스 | 데이터 마이닝에서의 앙상블 기법에 적용되는 연관성 규칙생성 장치 및 그 방법 |
KR20050011745A (ko) * | 2002-04-19 | 2005-01-29 | 컴퓨터 어소시에이츠 싱크, 인코포레이티드 | 추론 서비스 제공 시스템 및 방법 |
US7152056B2 (en) * | 2002-04-19 | 2006-12-19 | Dow Jones Reuters Business Interactive, Llc | Apparatus and method for generating data useful in indexing and searching |
US6920459B2 (en) * | 2002-05-07 | 2005-07-19 | Zycus Infotech Pvt Ltd. | System and method for context based searching of electronic catalog database, aided with graphical feedback to the user |
US8214391B2 (en) * | 2002-05-08 | 2012-07-03 | International Business Machines Corporation | Knowledge-based data mining system |
US6993534B2 (en) * | 2002-05-08 | 2006-01-31 | International Business Machines Corporation | Data store for knowledge-based data mining system |
US7010526B2 (en) | 2002-05-08 | 2006-03-07 | International Business Machines Corporation | Knowledge-based data mining system |
US6947929B2 (en) * | 2002-05-10 | 2005-09-20 | International Business Machines Corporation | Systems, methods and computer program products to determine useful relationships and dimensions of a database |
US7447687B2 (en) | 2002-05-10 | 2008-11-04 | International Business Machines Corporation | Methods to browse database query information |
US7716167B2 (en) * | 2002-12-18 | 2010-05-11 | International Business Machines Corporation | System and method for automatically building an OLAP model in a relational database |
US7953694B2 (en) * | 2003-01-13 | 2011-05-31 | International Business Machines Corporation | Method, system, and program for specifying multidimensional calculations for a relational OLAP engine |
US7895191B2 (en) | 2003-04-09 | 2011-02-22 | International Business Machines Corporation | Improving performance of database queries |
US7289983B2 (en) * | 2003-06-19 | 2007-10-30 | International Business Machines Corporation | Personalized indexing and searching for information in a distributed data processing system |
US20040260680A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | Personalized indexing and searching for information in a distributed data processing system |
US7426520B2 (en) | 2003-09-10 | 2008-09-16 | Exeros, Inc. | Method and apparatus for semantic discovery and mapping between data sources |
US7958132B2 (en) * | 2004-02-10 | 2011-06-07 | Microsoft Corporation | Voting based scheme for electronic document node reuse |
US7707143B2 (en) * | 2004-06-14 | 2010-04-27 | International Business Machines Corporation | Systems, methods, and computer program products that automatically discover metadata objects and generate multidimensional models |
US20050283494A1 (en) * | 2004-06-22 | 2005-12-22 | International Business Machines Corporation | Visualizing and manipulating multidimensional OLAP models graphically |
US7480663B2 (en) * | 2004-06-22 | 2009-01-20 | International Business Machines Corporation | Model based optimization with focus regions |
US8924343B2 (en) | 2005-03-23 | 2014-12-30 | International Business Machines Coporation | Method and system for using confidence factors in forming a system |
KR100812378B1 (ko) * | 2005-11-28 | 2008-03-11 | 이원석 | 지속적으로 발생되는 트랜잭션 데이터 집합인 데이터 스트림 환경에서 빈발항목집합 탐색을 위한 축약형 전위 트리를 이용한 빈발항목집합 탐색 방법 |
US20070250476A1 (en) * | 2006-04-21 | 2007-10-25 | Lockheed Martin Corporation | Approximate nearest neighbor search in metric space |
KR100799665B1 (ko) * | 2007-04-10 | 2008-01-30 | 삼육대학교산학협력단 | 노인 복지 서비스를 위한 욕구 사정 예측 방법 및 상기방법을 수행하기 위한 시스템 |
US8401987B2 (en) * | 2007-07-17 | 2013-03-19 | International Business Machines Corporation | Managing validation models and rules to apply to data sets |
JP5228461B2 (ja) * | 2007-12-05 | 2013-07-03 | 富士通株式会社 | パターン抽出装置、パターン抽出プログラムおよびパターン抽出方法 |
US9720971B2 (en) * | 2008-06-30 | 2017-08-01 | International Business Machines Corporation | Discovering transformations applied to a source table to generate a target table |
US20100030719A1 (en) * | 2008-07-10 | 2010-02-04 | Covey Todd M | Methods and apparatus related to bioinformatics data analysis |
US8290955B2 (en) * | 2008-09-18 | 2012-10-16 | International Business Machines Corporation | Classification of data in a hierarchical data structure |
US20110035444A1 (en) * | 2009-08-06 | 2011-02-10 | Timedright Inc. | Relationship security in online social and professional networks and communities |
CN101996102B (zh) * | 2009-08-31 | 2013-07-17 | 中国移动通信集团公司 | 数据关联规则挖掘实现方法与系统 |
CN102117302B (zh) * | 2009-12-31 | 2013-01-23 | 南京理工大学 | 传感器数据流复杂查询结果的数据起源跟踪方法 |
US8930303B2 (en) | 2012-03-30 | 2015-01-06 | International Business Machines Corporation | Discovering pivot type relationships between database objects |
JP6020031B2 (ja) | 2012-10-19 | 2016-11-02 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
JP6003561B2 (ja) | 2012-11-15 | 2016-10-05 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
JP5962471B2 (ja) | 2012-11-30 | 2016-08-03 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
JP6102594B2 (ja) * | 2013-07-16 | 2017-03-29 | 富士通株式会社 | データ出力方法及びデータ出力プログラム |
JP6136685B2 (ja) * | 2013-07-16 | 2017-05-31 | 富士通株式会社 | データ抽出方法及びデータ抽出プログラム |
US9672495B2 (en) * | 2014-12-23 | 2017-06-06 | Sap Se | Enhancing frequent itemset mining |
US10671607B2 (en) * | 2016-09-23 | 2020-06-02 | Futurewei Technologies, Inc. | Pipeline dependent tree query optimizer and scheduler |
US20190191004A1 (en) * | 2017-05-23 | 2019-06-20 | Hitachi ,Ltd. | System and method to reduce network traffic and load of host servers |
CN107703383A (zh) * | 2017-09-21 | 2018-02-16 | 国网上海市电力公司 | 一种信息采集系统故障诊断知识库的建立方法 |
CN112183823B (zh) * | 2020-09-08 | 2023-12-05 | 国网江苏省电力有限公司营销服务中心 | 一种基于规则树的电能计量装置选型方法和系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664171A (en) * | 1994-04-14 | 1997-09-02 | International Business Machines Corporation | System and method for query optimization using quantile values of a large unordered data set |
US5819266A (en) * | 1995-03-03 | 1998-10-06 | International Business Machines Corporation | System and method for mining sequential patterns in a large database |
US5737550A (en) * | 1995-03-28 | 1998-04-07 | Advanced Micro Devices, Inc. | Cache memory to processor bus interface and method thereof |
US5615341A (en) * | 1995-05-08 | 1997-03-25 | International Business Machines Corporation | System and method for mining generalized association rules in databases |
US5794209A (en) * | 1995-03-31 | 1998-08-11 | International Business Machines Corporation | System and method for quickly mining association rules in databases |
JP2963033B2 (ja) * | 1995-09-29 | 1999-10-12 | 株式会社野村総合研究所 | サンプル分類支援装置 |
JPH09114669A (ja) * | 1995-10-16 | 1997-05-02 | Hitachi Ltd | ルール生成方法 |
US5724573A (en) * | 1995-12-22 | 1998-03-03 | International Business Machines Corporation | Method and system for mining quantitative association rules in large relational tables |
JPH09251467A (ja) * | 1996-03-15 | 1997-09-22 | Mitsubishi Electric Corp | データマイニングシステムおよびデータマイニング方法 |
JP3952518B2 (ja) * | 1996-03-29 | 2007-08-01 | 株式会社日立製作所 | 多次元データ処理方法 |
GB9611403D0 (en) * | 1996-05-31 | 1996-08-07 | Northern Telecom Ltd | Network data analysis method |
-
1997
- 1997-11-04 US US08/964,064 patent/US6092064A/en not_active Expired - Lifetime
-
1998
- 1998-07-29 TW TW087112467A patent/TW505868B/zh not_active IP Right Cessation
- 1998-09-29 HU HU0100161A patent/HUP0100161A3/hu unknown
- 1998-09-29 PL PL98340380A patent/PL340380A1/xx not_active IP Right Cessation
- 1998-09-29 WO PCT/GB1998/002928 patent/WO1999023577A1/en active IP Right Grant
- 1998-09-29 KR KR10-2000-7004749A patent/KR100382296B1/ko not_active IP Right Cessation
- 1998-09-29 EP EP98945396A patent/EP1034489B1/en not_active Expired - Lifetime
- 1998-09-29 JP JP2000519369A patent/JP3575602B2/ja not_active Expired - Fee Related
- 1998-09-29 AU AU92726/98A patent/AU750629B2/en not_active Ceased
- 1998-09-29 ES ES98945396T patent/ES2184322T3/es not_active Expired - Lifetime
- 1998-09-29 CA CA002304646A patent/CA2304646C/en not_active Expired - Lifetime
- 1998-09-29 DE DE69809964T patent/DE69809964T2/de not_active Expired - Lifetime
- 1998-09-29 CN CNB988108658A patent/CN1138222C/zh not_active Expired - Lifetime
- 1998-09-29 CZ CZ20001630A patent/CZ294171B6/cs not_active IP Right Cessation
-
2001
- 2001-06-27 HK HK01104434A patent/HK1033987A1/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI391859B (zh) * | 2008-07-24 | 2013-04-01 | Nahava Inc | 分割高維度向量以用於巨大索引樹之方法及裝置 |
Also Published As
Publication number | Publication date |
---|---|
JP3575602B2 (ja) | 2004-10-13 |
DE69809964T2 (de) | 2003-08-28 |
KR100382296B1 (ko) | 2003-05-09 |
US6092064A (en) | 2000-07-18 |
CN1138222C (zh) | 2004-02-11 |
EP1034489B1 (en) | 2002-12-04 |
HK1033987A1 (en) | 2001-10-05 |
AU9272698A (en) | 1999-05-24 |
HUP0100161A2 (hu) | 2001-05-28 |
JP2001522095A (ja) | 2001-11-13 |
PL340380A1 (en) | 2001-01-29 |
CA2304646C (en) | 2003-10-28 |
AU750629B2 (en) | 2002-07-25 |
DE69809964D1 (de) | 2003-01-16 |
CZ294171B6 (cs) | 2004-10-13 |
KR20010031687A (ko) | 2001-04-16 |
EP1034489A1 (en) | 2000-09-13 |
CA2304646A1 (en) | 1999-05-14 |
CN1278345A (zh) | 2000-12-27 |
HUP0100161A3 (en) | 2004-03-01 |
WO1999023577A1 (en) | 1999-05-14 |
ES2184322T3 (es) | 2003-04-01 |
CZ20001630A3 (en) | 2001-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW505868B (en) | On-line mining of quantitative association rules | |
Cheung et al. | A quantitative correlation coefficient mining method for business intelligence in small and medium enterprises of trading business | |
CN109658206A (zh) | 信息推荐方法和装置 | |
Ahmeda et al. | Performance study of classification algorithms for consumer online shopping attitudes and behavior using data mining | |
WO2002021335A1 (en) | Automatic recommendation of products using latent semantic indexing of content | |
Dastani et al. | Modeling user preferences and mediating agents in electronic commerce | |
Singh | Collaborative filtering based hybrid music recommendation system | |
Aziz | Customer Segmentation basedon Behavioural Data in E-marketplace | |
Chang et al. | Using data mining technology to solve classification problems: A case study of campus digital library | |
Mostafa | Knowledge discovery of hidden consumer purchase behaviour: a market basket analysis | |
Jain et al. | E-commerce product recommendation based on product specification and similarity | |
Mohammadnezhad et al. | An effective model for improving the quality of recommender systems in mobile e-tourism | |
Lu et al. | Clustering e-commerce search engines based on their search interface pages using WISE-Cluster | |
Faridizadeh et al. | Market basket analysis using community detection approach: A real case | |
Nurcahya et al. | Content-based recommender system architecture for similar e-commerce products | |
CN112784064A (zh) | 一种面向社交网络的层次化超维知识图谱构建方法 | |
Gunawan | Online retail pattern quality improvement: from frequent sequential pattern to high-utility sequential pattern | |
Sumathi et al. | Data warehousing, data mining, and OLAP | |
Martinez et al. | Market basket analysis with association rules in the retail sector using Orange. Case Study: Appliances Sales Company | |
Chutmongkolporn et al. | Graph-based opinion entity ranking in customer reviews | |
Tu | An application of web‐based data mining: selling strategies for online auctions | |
Sethi et al. | Market Basket Analysis of Instacart | |
Portinale et al. | A fuzzy case retrieval approach based on SQL for implementing electronic catalogs | |
Ciobanu | Enhancing Data Warehouse management through semi-automatic data integration and complex graph generation | |
Rahman et al. | A Hybrid Recommendation System for Retail Marketing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MK4A | Expiration of patent term of an invention patent |