TWI453613B - 網格式資料分群方法 - Google Patents

網格式資料分群方法 Download PDF

Info

Publication number
TWI453613B
TWI453613B TW100117242A TW100117242A TWI453613B TW I453613 B TWI453613 B TW I453613B TW 100117242 A TW100117242 A TW 100117242A TW 100117242 A TW100117242 A TW 100117242A TW I453613 B TWI453613 B TW I453613B
Authority
TW
Taiwan
Prior art keywords
grid
target
cluster
diffusion
grouping
Prior art date
Application number
TW100117242A
Other languages
English (en)
Other versions
TW201248432A (en
Inventor
Cheng Fa Tsai
Chun Hao Chang
Original Assignee
Univ Nat Pingtung Sci & Tech
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Pingtung Sci & Tech filed Critical Univ Nat Pingtung Sci & Tech
Priority to TW100117242A priority Critical patent/TWI453613B/zh
Priority to US13/468,721 priority patent/US8661040B2/en
Publication of TW201248432A publication Critical patent/TW201248432A/zh
Application granted granted Critical
Publication of TWI453613B publication Critical patent/TWI453613B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

網格式資料分群方法
本發明係關於一種資料分群方法,尤其是一種網格式資料分群方法。
隨著資訊科技的進步與發展,儲存在資料庫中的資料量也隨之增加,藉由資料探勘(Data Mining)的技術能夠提供使用者發掘原始資料中隱含著的有用資訊,用以於龐大資料集中尋找各資料間所隱含的特徵與關係,以建立一套完整資料分析模式。其中,在資料探勘中之資料分群技術可讓使用者快速得知資料本質間的相關程度,依據將原始資料庫中某些自訂的維度特性,將相似性高的資料歸類到各自的群集裡。然而,現今的資料分群技術種類繁多,例如:切割式、密度式、網格式或階層式等,以下依其特質及列舉數個較具代表性之習知資料分群方法進行說明:
1、DBSCAN資料分群方法:於1996年由M. Ester等人所提出,屬於密度式分群法;步驟一係預先隨機選擇一資料點做為初始種子點;步驟二係判斷目前初始種子點的掃描半徑ε範圍內是否有超過半徑MinPts(最小包含點數)的資料點,若達到門檻值則將目前範圍內的資料點歸類到同一群集內,並從範圍內的其他種子點持續擴張;步驟三係持續前述步驟二,直到所有資料點都被歸類完畢為止。該習知DBSCAN資料分群方法是以較為合乎邏輯的密度斷方式來進行分群,故可用以濾除雜訊及適用於不規則圖樣的資料點等;惟,因為必須對每個資料點進行繁複的密度判斷,故造成分群時間較為冗長且參數難以設定。
2、IDBSCAN資料分群方法:於2004年由B. Borah等人所提出,由DBSCAN資料分群方法所改良;步驟一係預先隨機選擇一資料點做為初始種子點;步驟二係利用擴張出去的空間找出最合適的八個代表點,放進種子表進行擴散;步驟三係持續前述步驟二,直到所有資料點都被歸類完畢為止。該習知IDBSCAN資料分群方法有效改善DBSCAN資料分群方法之執行時間過久的問題;惟,因為仍須以八個代表點進行繁複的密度判斷,故造成分群時間改善幅度有限。
是以,針對上述代表性之習知資料分群方法,大致上具有分群執行時間過長及參數難以設定等缺點,因此,有許多資料分群方法,係以上述代表性之習知資料分群方法做為基礎加以改良,以下再列舉GOD-CS資料分群方法進行說明:
GOD-CS資料分群方法:如中華民國公開第201107999號「以格子為導向之資料分群方法」發明申請案,屬於另一種結合密度式與分割式分群法的網格式分群法,主要針對前述習知ANGEL及G-TREACLE資料分群方法進行改良;步驟一依據該網格數將具有數資料點之一資料集切割成網格狀;步驟二利用一判斷高低密度格的標準,找出一個尚未被擴散之高密度格當做起始格加入一種子表中;步驟三從該種子表中選取一種子判斷是否符合該判斷高低密度格的標準,若「是」,則進行步驟四,若「否」,則將該種子刪除,重新進行步驟三;步驟四將該種子內所有資料點指定為同一群集,並將該種子周圍尚未被擴散之數個網格加入該種子表中,並將該種子刪除,重新進行步驟三,直到該種子表無種子,則進行步驟五;步驟五判斷是否所有高密度格皆已完成擴散動作,若「是」,則終止,若「否」,則進行步驟三。雖然習知GOD-CS資料分群方法相較於習知ANGEL資料分群方法,可縮短分群執行時間,並藉由精簡參數設定以達到方便使用之目的。
惟,習知網格式資料分群方法係以鄰近八個網格擴散搜尋所有網格(例如:GOD-CS),或沿不同維度(例如:橫向或縱向)搜尋所有網格,當擴散至重疊之網格時,則進行網格合併,以提高雜訊濾除率及分群準確率;惟,搜尋所有網格將造成大量網格被重複搜尋,使資料分群執行時間延長,而降低資料分群效率。
基於上述原因,有必要提供一種資料分群效率高及使用便利性高的網格式資料分群方法。
本發明的目的乃改良上述之缺點,以提供一種網格式資料分群方法,係可藉由減少網格資料搜尋次數,而達到提高資料分群效率者。
本發明之次一目的,係提供一種網格式資料分群方法,可藉由精簡參數的設定,以達到方便使用者使用的目的。
本發明網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段落,該目標段落及該非目標段落相互交錯排列;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋。
其中該搜尋程序係包含:一判斷步驟,係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;一擴散步驟,係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍;及一分群步驟,係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下:
請參照第1及2圖所示,本發明網格式資料分群方法之較佳實施例,係藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集1,該資料集1係由數筆資料點11所共同組成之群集,本發明網格式資料分群方法係包含一設定程序S1、一切割程序S2、一過濾程序S3及一搜尋程序S4。藉由上述流程,得以快速且正確的完成資料分群作業。
請再參照第1及2圖所示,該設定程序S1係藉由該電腦系統設定一網格數n(Grids)及一最小包含點數m(Minpts),詳言之,該網格數n係指該資料集1之空間切割成網格之數量,以二維空間之資料集1為例,該資料集1在各維度皆切割為n個網格,即所有網格數量為n×n個。其中,該網格數n越大,該資料集1之細膩度越高。該最小包含點數m係指各網格內最少需包含之資料點11的數量,作為判斷各網格是否有效之依據。其中,由於該資料集1之資料點11總數固定,因此,若該網格數n增加,則該最小包含點數m需減少;若該網格數n減少,則該最小包含點數m需增加。
請再參照第1、2及3圖所示,該切割程序S2係依據該網格數n將該資料集1切割成數個網格G(i,j),其中,所有網格G(i,j)分屬數個目標段落Ts及數個非目標段落Ns,該目標段落Ts及該非目標段落Ns相互交錯排列。在此實施例中,該資料集1係以二維空間作為實施態樣說明。詳言之,首先找出該資料集1在各維度的最大座標,接著,以各維度的最大座標與該網格數n計算各維度之網格長度,使該資料集1在各維度之網格數量均為該網格數n,之後,計算各資料點11所屬之網格,使該資料集1內之資料點11分佈於所有網格(即n×n個網格),各網格係表示為G(i,j),i=1,2,...,n,j=1,2,...,n。其中,所有網格係分屬數個目標段落及數個非目標段落,該數個目標段落及該數個非目標段落相互交錯排列,例如:將該數個目標段落選為第1,3,5,...行(Row),即網格G(i,j),i=1,3,5,...,j=1,2,...,n所形成之各奇數行,則該數個非目標段落設為第2,4,6,...行,即網格G(i,j),i=2,4,6,...,j=1,2,...,n所形成之各偶數行;反之,將該數個目標段落選為各偶數行,則該數個非目標段落設為各奇數行。或者,將該數個目標段落選為第1,3,5,...列(Column),即網格G(i,j),i=1,2,...,n,j=1,3,5,...所形成之各奇數列,則該數個非目標段落設為第2,4,6,...列,即網格G(i,j),i=1,2,...,n,j=2,4,6,...所形成之各偶數列;反之,將該數個目標段落選為各偶數列,則該數個非目標段落設為各奇數列。為方便後續說明,係將該數個目標段落選為各奇數行,惟不以此為限。
舉例而言,請再參閱第3圖所示,當該資料集1於各維度之最大座標均為600,而網格數n設定為6時,各維度皆切割成6等份,亦即將該資料集1切割為6×6個網格,各網格係表示為G(i,j),i=1,2,...,n,j=1,2,...,n,即如第3圖所示之網格G(1,1)、G(1,2)、G(1,3)、...、G(6,5)及G(6,6),且各維度之網格長度均為100,接著,以各資料點11之座標及各維度之網格長度,將所有資料點11分類到所屬之網格(如第1圖所示),其中,該目標段落Ts設定為各奇數行(即行R1、R3、R5),該非目標段落Ns設定為各偶數行(即行R2、R4、R6);行R1包含網格G(1,1)、G(1,2)、...、G(1,5)及G(1,6)、行R2包含網格G(2,1)、G(2,2)、...、G(2,5)及G(2,6),行R3、行R4、行R5及行R6係可依此類推而得知。
請再參照第1及2圖所示,該過濾程序S3係以該最 小包含點數m為過濾條件,判斷各網格G(i,j)是否有效。詳言之,由該資料集1之順序,依序判斷各網格G(i,j)內之資料點11數量是否小於該最小包含點數m,若判斷結果為「是」,則將該網格G(i,j)定義為無效網格,且將無效網格所包含之資料點11定義為雜訊(Noise),其中,該雜訊點之數量係用以計算雜訊濾除率;若判斷結果為「否」,則將該網格G(i,j)定義為有效網格。舉例而言,如第4圖所示,其中各網格G(i,j)內的數字代表該網格G(i,j)所包含資料點11之數量,假設該最小包含點數為105,則如第5圖所示,該網格G(2,4)、G(3,3)至G(3,6)、G(4,2)至G(4,5)、G(5,3)至G(5,5)及G(6,4)係設為有效網格,其餘網格G(i,j)係設為無效網格。
請再參照第2及3圖所示,該搜尋程序S4係依序搜尋該目標段落Ts之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋。請參照第6圖所示,該搜尋程序S4包含一判斷步驟S41、一擴散步驟S42及一分群步驟S43,分別如後所述:
請參照第6及7圖所示,該判斷步驟S41,係將該目標段落Ts之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為「是」,則終止進行後續步驟,即已完成整個資料集1的分群動作;若判斷結果為「否」,則進行該擴散步驟S42。詳言之,係將該目標段落Ts之各網格G(i,j)依序設定為該目標網格Gt(i,j),其中,當該目標段落Ts為奇數行或偶數行時,該目標網格Gt(i,j)之設定順序係由左 上角之網格開始,先由左至右,再從上到下(依圖面而言),若該目標段落Ts設為各奇數行,則設定i=1,3,5,...時,分別設定j=1,2,3,...;若該目標段落Ts設為各偶數行,則設定i=2,4,6,...時,分別設定j=1,2,3,...。當該目標段落Ts為奇數列或偶數列時,該目標網格Gt(i,j)之設定順序係由左上角之網格開始,先由上至下,再從左到右(依圖面而言),若該目標段落Ts設為各奇數列,則設定j=1,3,5,...時,分別設定i=1,2,3,...;若該目標段落Ts設為各偶數列,則設定j=2,4,6,...時,分別設定i=1,2,3,...。為方便後續說明,係以該目標段落Ts設為各奇數行作為實施態樣說明,惟不以此為限。
請再參照第7圖所示,該判斷步驟S41最初設定該目標網格Gt(i,j)為第一個目標段落Ts之第一個網格G(1,1),再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,係將新的目標網格Gt(i,j)依序設定為網格G(1,j),i=1且j=2,3,...,n,再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,若上一個目標網格Gt(i,j)為該第一目標段落的最後一個網格G(1,n),新的目標網格Gt(i,j)係間隔該非目標段落Ns而跳至下一目標段落Ts之第一個網格G(3,1),再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,係將新的目標網格Gt(i,j)依序設定為網格G(3,j),i=3且j=2,3,...,n,再進行該擴散步驟S42;其餘目標網格Gt(i,j)係依上述方式設定,在此不另贅述。此外,當再次進行該判斷步驟S41時,若上一個目標網格Gt(i,j)為該最後一個目標段落Ts 的最後一個網格G(i,n)時,由於下一個目標段落Ts不存在,亦即新的目標網格Gt(i,j)不存在,此時,表示所有目標網格Gt(i,j)皆已完成搜尋,而終止進行後續步驟,以完成整個資料集1之資料分群。由於該目標網格Gt(i,j)之數量僅為所有網格G(i,j)之數量的一半,因此,該目標網格Gt(i,j)之搜尋次數僅為所有網格G(i,j)之數量的一半,可減少進行後續擴散步驟S42及分群步驟S43之執行時間,而達到提高分群效率之效果。
舉例而言,請再參閱第3圖所示,當該目標段落Ts設定為各奇數行(即行R1、R3、R5)時,該目標網格Gt(i,j)依序設定為網格G(1,1)、G(1,2)、G(1,3)、G(1,4)、G(1,5)、G(1,6)、G(3,1)、G(3,2)、G(3,3)、G(3,4)、G(3,5)、G(3,6)、G(5,1)、G(5,2)、G(5,3)、G(5,4)、G(5,5)、G(5,6),並由各該目標網格Gt(i,j)分別進行該擴散步驟S42,當上一個目標網格Gt(i,j)為G(5,6)時,由於下一目標段落Ts之第一網格G(7,1)不存在,因此,即已完成整個資料集1的分群動作。
請再參閱第6及7圖所示,該擴散步驟S42係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍。詳言之,當該目標段落Ts設為各奇數行或各偶數行時,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1),即先擴散搜尋該目標網格Gt(i,j)之下方網格及左下方網格,再進行該分群步驟S43;若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及 網格G(i-1,j),即先擴散搜尋該目標網格Gt(i,j)之下方網格、左下方網格、左方網格及上方網格,再進行該分群步驟S43。
舉例而言,請參照第5及8a圖所示,當該目標網格Gt(i,j)為網格G(1,4)時,由於網格G(1,4)為無效網格,因此,該擴散搜尋範圍設為網格G(2,4)及G(2,3);請參照第5及8b圖所示,當該目標網格Gt(i,j)為網格G(3,2)時,由於網格G(3,2)為無效網格,因此,該擴散搜尋範圍設為網格G(4,2)及G(4,1);請參照第5及8c圖所示,當該目標網格Gt(i,j)為網格G(3,3)時,由於網格G(3,3)為有效網格,因此,該擴散搜尋範圍設為網格G(4,3)、G(4,2)、G(3,2)及G(2,3);請參照第5及8d圖所示,當該目標網格Gt(i,j)為網格G(3,4)時,由於網格G(3,4)為有效網格,因此,該擴散搜尋範圍設為網格G(4,4)、G(4,3)、G(3,3)及G(2,4);請參照第5及8e圖所示,當該目標網格Gt(i,j)為網格G(3,6)時,由於網格G(3,6)為有效網格,因此,該擴散搜尋範圍設為網格G(4,6)、G(4,5)、G(3,5)及G(2,6);請參照第5及8f圖所示,當該目標網格Gt(i,j)為網格G(5,1)時,由於目標網格G(5,1)為無效網格,因此該擴散搜尋範圍設為網格G(6,1);其餘目標網格係依此類推,而進行擴散搜尋。
依此類推,當該目標段落Ts設為各奇數列或各偶數列時,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1),即先擴散搜尋 該目標網格Gt(i,j)之右方網格及右上方網格,再進行該分群步驟S43;若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1),即先擴散搜尋該目標網格Gt(i,j)之右方網格、右上方網格、上方網格及左方網格,再進行該分群步驟S43。
請再參閱第6及7圖所示,該分群步驟S43係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟S41。詳言之,當該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)是否已有所屬之群集,若判斷結果為「是」,則將網格G(i+1,j)併入網格G(i+1,j-1)所屬之群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義網格G(i+1,j)為一新群集,接著,再重新進行該判斷步驟S41。反之,若網格G(i+1,j)為無效網格,則再重新進行該判斷步驟S41。此外,上述資料分群之詳細設定方式,請詳見下列表一所示。
請再參閱第6及7圖所示,另一方面,當該擴散搜尋 範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)、網格G(i,j-1)或網格G(i-1,j)是否已有所屬之群集,即判斷網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)、網格G(i+1,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)及網格G(i+1,j)為一新群集,接著,再重新進行該判斷步驟S41。
反之,若G(i+1,j)為無效網格,則判斷網格G(i,j-1)或網格G(i-1,j)是否已有所屬之群集,即判斷網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)為一新群集,接著,再重新進行該判斷步驟S41。此外,上述資料分群之詳細設定方式,請詳見下列表二所示。
舉例而言,如第8a圖所示,當該目標網格Gt(i,j)為網格G(1,4)時,由於該擴散搜尋範圍為網格G(2,4)及G(2,3),其中,網格G(2,4)為有效網格,且網格G(2,3)及G(1,4)為無效網格(即沒有所屬之群組),因此,定義網格G(2,4)為一群集C1(如第9a圖所示)。
之後,如第8b圖所示,當目標網格Gt(i,j)為網格G(3,2)時,由於該擴散搜尋範圍為網格G(4,2)及G(4,1),其中,網格G(4,2)為有效網格,且網格G(4,1)及G(3,2)為無效網格(即沒有所屬之群組),因此,在該群集C1之外,另定義網格G(4,2)為一群集C2(如第9b圖所示)。
之後,如第8c圖所示,當目標網格Gt(i,j)為網格G(3,3)時,由於該擴散搜尋範圍為網格G(4,3)、G(4,2)、G(3,2)及G(2,3),其中,網格G(3,3)及G(4,3)為有效網格,且該網格G(4,2)已分群為該群集C2(如第9b圖所示),因此,將網格G(3,3)及G(4,3)併入該群集C2(如第9c圖所示)。
之後,如第8d圖所示,當目標網格Gt(i,j)為網格G(3,4)時,由於該擴散搜尋範圍為網格G(4,4)、G(4,3)、G(3,3)及G(2,4),其中,網格G(3,4)及G(4,4)為有效網格,而且,如第9c圖所示,網格G(3,3)及G(4,3)已分群為該群集C2,且網格G(2,4)已分群為該群集C1,因此,將網格G(3,4)、網格G(4,4)、該先前分群之群集C1及該先前分群之群集C2合併為一合併群集C3(如第9d圖所示);其餘目標網格係依此類推,而進行 資料分群動作。
依此類推,當該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)是否已有所屬之群集,若判斷結果為「是」,則將網格G(i,j+1)併入網格G(i-1,j+1)所屬之群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義網格G(i,j+1)為一新群集,接著,再重新進行該判斷步驟S41。反之,若網格G(i,j+1)為無效網格,則再重新進行該判斷步驟S41。
另一方面,當該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)、網格G(i-1,j)或網格G(i,j-1)是否已有所屬之群集,即判斷網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)、網格G(i,j+1)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)及網格G(i,j+1)為一新群集,接著,再重新進行該判斷步驟S41。反之,若G(i,j+1)為無效網格,則判斷網格G(i-1,j)或網格G(i,j-1)是否已有所屬之群集,即判斷網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)為一新群集,接著,再重新進行 該判斷步驟S41。
為驗證本發明網格式資料分群方法具有執行時間快、分群正確率高及雜訊濾除率佳等優點,於此針對資料集A至F進行分群,並與習知DBSCAN、IDBSCAN及GOD-CS資料分群方法進行比較。其中,資料集A至F所包含之正確群集數分別為10、5、4、2、4及4,且各資料集之圖形皆不相同;資料集A至F皆具有575,000筆資料點,且含75,000筆之雜訊點。
此外,請參照下列表三所示,其係本發明於該設定程序S1中所設定之網格數n及最小包含點數m參數。
再者,本次實驗模擬所使用之設備包含CPU〔Intel Pentium D 3.40GHz〕、記憶體〔2GB〕,並以Windows7作業系統及Java程式語言作為演算法實作之工具。
請參照下列表四所示,其係習知資料分群方法與本發明之以網格式資料分群方法所進行之模擬結果。
請再參照表四所示,由習知資料分群方法與本發明網格式資料分群方法模擬結果比較,可得知本發明網格式資料分群方法可於維持相當高之分群正確率及雜訊濾除率的前提下,大幅降低執行時間的成本,可驗證本發明之資料分群方法確實有良好之分群效果。
本發明網格式資料分群方法,係藉由該網格數n將該資料集1切割成數個網格,接著,以該最小包含點數m判斷各網格G(i,j)是否有效,之後,再以間隔一行方式將該目標段落Ts之各網格G(i,j)依序設定為該目標網格Gt(i,j)。由於該目標網格Gt(i,j)之數量僅為該資料集1之網格G(i,j)數量的一半,因而減少該網格之搜尋次數,使資料點11完成分群的時間大幅降低。因此,本發明網格式資料分群方法,可藉由減少網格資料搜尋次數,而達到 提高資料分群效率之功效。
本發明網格式資料分群方法,使用者僅需設定該網格數n及該最小包含點數m即可進行資料分群,而不需如習知資料分群方法需設定多個參數,且不易控制分群結果之品質,因此,本發明網格式資料分群方法可大幅降低嘗試出最佳參數設定之時間成本,以達到方便使用者使用之功效。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
〔本發明〕
1‧‧‧資料集
11‧‧‧資料點
C1‧‧‧群集
C2‧‧‧群集
C3‧‧‧合併群集
G(i,j)‧‧‧網格
Gt(i,j)‧‧‧目標網格
G(i+1,j)‧‧‧網格
G(i+1,j-1)‧‧‧網格
G(i,j-1)‧‧‧網格
G(i-1,j)‧‧‧網格
G(1,1)‧‧‧網格
G(1,2)‧‧‧網格
G(1,3)‧‧‧網格
G(1,4)‧‧‧網格
G(1,5)‧‧‧網格
G(1,6)‧‧‧網格
G(2,1)‧‧‧網格
G(2,2)‧‧‧網格
G(2,3)‧‧‧網格
G(2,4)‧‧‧網格
G(2,5)‧‧‧網格
G(2,6)‧‧‧網格
G(3,1)‧‧‧網格
G(3,2)‧‧‧網格
G(3,3)‧‧‧網格
G(3,4)‧‧‧網格
G(3,5)‧‧‧網格
G(3,6)‧‧‧網格
G(4,1)‧‧‧網格
G(4,2)‧‧‧網格
G(4,3)‧‧‧網格
G(4,4)‧‧‧網格
G(4,5)‧‧‧網格
G(4,6)‧‧‧網格
G(5,1)‧‧‧網格
G(5,2)‧‧‧網格
G(5,3)‧‧‧網格
G(5,4)‧‧‧網格
G(5,5)‧‧‧網格
G(5,6)‧‧‧網格
G(6,1)‧‧‧網格
G(6,2)‧‧‧網格
G(6,3)‧‧‧網格
G(6,4)‧‧‧網格
G(6,5)‧‧‧網格
G(6,6)‧‧‧網格
R1‧‧‧行
R2‧‧‧行
R3‧‧‧行
R4‧‧‧行
R5‧‧‧行
R6‧‧‧行
S1‧‧‧設定程序
S2‧‧‧切割程序
S3‧‧‧過濾程序
S4‧‧‧搜尋程序
S41‧‧‧判斷步驟
S42‧‧‧擴散步驟
S43‧‧‧分群步驟
Ts‧‧‧目標段落
Ns‧‧‧非目標段落
第1圖:本發明較佳實施例之資料集示意圖。
第2圖:本發明較佳實施例之流程圖。
第3圖:本發明較佳實施例之網格示意圖。
第4圖:本發明較佳實施例之資料點數量示意圖。
第5圖:本發明較佳實施例之有效網格及無效網格示意圖。
第6圖:本發明較佳實施例之搜尋程序的流程圖。
第7圖:本發明較佳實施例之目標網格示意圖。
第8a圖:本發明較佳實施例之擴散步驟示意圖(一)。
第8b圖:本發明較佳實施例之擴散步驟示意圖(二)。
第8c圖:本發明較佳實施例之擴散步驟示意圖(三)。
第8d圖:本發明較佳實施例之擴散步驟示意圖(四)。
第8e圖:本發明較佳實施例之擴散步驟示意圖(五)。
第8f圖:本發明較佳實施例之擴散步驟示意圖(六)。
第9a圖:本發明較佳實施例之分群步驟示意圖(一)。
第9b圖:本發明較佳實施例之分群步驟示意圖(二)。
第9c圖:本發明較佳實施例之分群步驟示意圖(三)。
第9d圖:本發明較佳實施例之分群步驟示意圖(四)。
S1...設定程序
S2...切割程序
S3...過濾程序
S4...搜尋程序

Claims (4)

  1. 一種網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段落,該目標段落及該非目標段落相互交錯排列,該目標段落係選為各奇數行或各偶數行;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋,該搜尋程序係包含:一判斷步驟、一擴散步驟及一分群步驟,該判斷步驟係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;該擴散步驟係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍,其中,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1),再進行該分群步驟,若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j),再進行該分群步驟;該分群步驟係依該擴散搜尋範圍而決定分群方式,再進 行該判斷步驟;其中,當該擴散搜尋範圍為網格G(i+1,j)及網格G(i+1,j-1)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)是否已有所屬之群集,若判斷結果為是,則將網格G(i+1,j)併入網格G(i+1,j-1)所屬之群集,再重新進行該判斷步驟,若判斷結果為否,則定義網格G(i+1,j)為一群集,再進行該判斷步驟,若網格G(i+1,j)為無效網格,則再進行該判斷步驟;當該擴散搜尋範圍為網格G(i+1,j)、網格G(i+1,j-1)、網格G(1,j-1)及網格G(i-1,j)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)、網格G(i+1,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(1,j)及網格G(i+1,j)為一群集,再重新進行該判斷步驟,若網格G(i+1,j)為無效網格,則判斷網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)為一群集,再重新進行該判斷步驟。
  2. 一種網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段 落,該目標段落及該非目標段落相互交錯排列,該目標段落係選為各奇數列或各偶數列;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋,該搜尋程序係包含:一判斷步驟、一擴散步驟及一分群步驟,該判斷步驟係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;該擴散步驟,係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍,其中,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1),再進行該分群步驟,若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1),再進行該分群步驟;該分群步驟,係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟;其中,當該擴散搜尋範圍為網格G(i,j+1)及網格G(i-1,j+1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)是否已有所屬之群集,若判斷結果為是,則將網格G(i,j+1)併入網格G(i-1,j+1)所屬之群集,再重新進行該判斷步驟,若判斷結果為否,則定義 網格G(i,j+1)為一群集,再進行該判斷步驟,若網格G(i,j+1)為無效網格,則再進行該判斷步驟;當該擴散搜尋範圍為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)、網格G(i,j+1)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)及網格G(i,j+1)為一群集,再重新進行該判斷步驟,若網格G(i,j+1)為無效網格,則判斷網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)為一群集,再重新進行該判斷步驟。
  3. 依申請專利範圍第1或2項所述之網格式資料分群方法,其中該資料集在各維度之網格數量為該網格數。
  4. 依申請專利範圍第1或2項所述之網格式資料分群方法,其中該過濾程序係判斷各網格G(i,j)內之資料點數量是否小於該最小包含點數,若判斷結果為是,則將該網格G(i,j)定義為無效網格,若判斷結果為否,則將該網格G(i,j)定義為有效網格。
TW100117242A 2011-05-17 2011-05-17 網格式資料分群方法 TWI453613B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW100117242A TWI453613B (zh) 2011-05-17 2011-05-17 網格式資料分群方法
US13/468,721 US8661040B2 (en) 2011-05-17 2012-05-10 Grid-based data clustering method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100117242A TWI453613B (zh) 2011-05-17 2011-05-17 網格式資料分群方法

Publications (2)

Publication Number Publication Date
TW201248432A TW201248432A (en) 2012-12-01
TWI453613B true TWI453613B (zh) 2014-09-21

Family

ID=47175722

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100117242A TWI453613B (zh) 2011-05-17 2011-05-17 網格式資料分群方法

Country Status (2)

Country Link
US (1) US8661040B2 (zh)
TW (1) TWI453613B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171008A1 (en) * 2012-08-14 2016-06-16 Amadeus S.A.S. Updating cached database query results
KR101560274B1 (ko) 2013-05-31 2015-10-14 삼성에스디에스 주식회사 데이터 분석 장치 및 방법
KR101560277B1 (ko) 2013-06-14 2015-10-14 삼성에스디에스 주식회사 데이터 클러스터링 장치 및 방법
CN109374986B (zh) * 2018-09-19 2021-07-09 中国气象局气象探测中心 一种基于聚类分析与网格搜索的雷电定位方法及系统
CN110288000B (zh) * 2019-05-28 2021-04-30 北京深演智能科技股份有限公司 活动范围的检测方法和装置
CN110309437B (zh) * 2019-06-26 2020-06-23 京东数字科技控股有限公司 一种信息推送方法和装置
CN111797884A (zh) * 2019-12-10 2020-10-20 青岛海信网络科技股份有限公司 一种基于聚类算法的快情报问题区域识别方法及装置
CN114863156A (zh) * 2022-05-06 2022-08-05 炫我信息技术(北京)有限公司 一种目标对象聚类的方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029235A1 (en) * 2000-05-11 2002-03-07 Becton Dickinson And Company System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries
TW200828053A (en) * 2006-12-22 2008-07-01 Univ Nat Pingtung Sci & Tech A method for grid-based data clustering
US7590642B2 (en) * 2002-05-10 2009-09-15 Oracle International Corp. Enhanced K-means clustering
TW201101176A (en) * 2009-06-30 2011-01-01 Univ Nat Pingtung Sci & Tech Method for data clustering
TW201102844A (en) * 2009-07-15 2011-01-16 Univ Nat Pingtung Sci & Tech Grid-based mmethod for data clustering
TW201107999A (en) * 2009-08-17 2011-03-01 Univ Nat Pingtung Sci & Tech Grid-based data clustering method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174344B2 (en) 2002-05-10 2007-02-06 Oracle International Corporation Orthogonal partitioning clustering
US7565346B2 (en) * 2004-05-31 2009-07-21 International Business Machines Corporation System and method for sequence-based subspace pattern clustering
US7359913B1 (en) * 2005-05-13 2008-04-15 Ncr Corp. K-means clustering using structured query language (SQL) statements and sufficient statistics
US7584159B1 (en) 2005-10-31 2009-09-01 Amazon Technologies, Inc. Strategies for providing novel recommendations
US8438162B2 (en) * 2009-04-16 2013-05-07 President And Fellows Of Harvard College Method and apparatus for selecting clusterings to classify a predetermined data set

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020029235A1 (en) * 2000-05-11 2002-03-07 Becton Dickinson And Company System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries
US7590642B2 (en) * 2002-05-10 2009-09-15 Oracle International Corp. Enhanced K-means clustering
TW200828053A (en) * 2006-12-22 2008-07-01 Univ Nat Pingtung Sci & Tech A method for grid-based data clustering
TW201101176A (en) * 2009-06-30 2011-01-01 Univ Nat Pingtung Sci & Tech Method for data clustering
TW201102844A (en) * 2009-07-15 2011-01-16 Univ Nat Pingtung Sci & Tech Grid-based mmethod for data clustering
TW201107999A (en) * 2009-08-17 2011-03-01 Univ Nat Pingtung Sci & Tech Grid-based data clustering method

Also Published As

Publication number Publication date
US20120296906A1 (en) 2012-11-22
US8661040B2 (en) 2014-02-25
TW201248432A (en) 2012-12-01

Similar Documents

Publication Publication Date Title
TWI453613B (zh) 網格式資料分群方法
TWI385544B (zh) 基於密度式之資料分群方法
Yoo et al. A joinless approach for mining spatial colocation patterns
JP4121125B2 (ja) グラフィックス・イメージ生成装置及びその方法、データ解析装置及びその方法並びにプログラム
Zou et al. Finding top-k maximal cliques in an uncertain graph
TWI396106B (zh) 以格子為導向之資料分群方法
CN108537274A (zh) 一种基于网格的空间多尺度快速聚类方法
CN108491226B (zh) 基于集群缩放的Spark配置参数自动调优方法
TWI391837B (zh) 基於密度式之資料分群方法
CN110060740A (zh) 一种非冗余基因集聚类方法、系统及电子设备
CN103235862B (zh) 选择拆卸序列规划方法及装置
Yang et al. Parallel co-location pattern mining based on neighbor-dependency partition and column calculation
TWI460680B (zh) 密度式資料分群方法
CN105654095A (zh) 一种特征的选择方法和装置
TWI431496B (zh) 網格式資料分群方法
CN106780747A (zh) 一种快速分割cfd计算网格的方法
CN108509532A (zh) 一种应用于地图的聚点方法和装置
CN110807061A (zh) 一种基于分层搜索不确定图的频繁子图的方法
CN112768081B (zh) 基于子图及节点的共调控生物网络模体发现方法及装置
Von Buelow et al. Computational form exploration of branching columns using concepts of formex algebra and the ParaGen method
CN108717551A (zh) 一种基于最大隶属度的模糊层次聚类方法
CN113763240B (zh) 一种点云缩略图生成方法、装置、设备及存储介质
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
TWI407365B (zh) 資料分群方法
Barua et al. A density based clustering technique for large spatial data using polygon approach