TWI453613B - 網格式資料分群方法 - Google Patents
網格式資料分群方法 Download PDFInfo
- Publication number
- TWI453613B TWI453613B TW100117242A TW100117242A TWI453613B TW I453613 B TWI453613 B TW I453613B TW 100117242 A TW100117242 A TW 100117242A TW 100117242 A TW100117242 A TW 100117242A TW I453613 B TWI453613 B TW I453613B
- Authority
- TW
- Taiwan
- Prior art keywords
- grid
- target
- cluster
- diffusion
- grouping
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本發明係關於一種資料分群方法,尤其是一種網格式資料分群方法。
隨著資訊科技的進步與發展,儲存在資料庫中的資料量也隨之增加,藉由資料探勘(Data Mining)的技術能夠提供使用者發掘原始資料中隱含著的有用資訊,用以於龐大資料集中尋找各資料間所隱含的特徵與關係,以建立一套完整資料分析模式。其中,在資料探勘中之資料分群技術可讓使用者快速得知資料本質間的相關程度,依據將原始資料庫中某些自訂的維度特性,將相似性高的資料歸類到各自的群集裡。然而,現今的資料分群技術種類繁多,例如:切割式、密度式、網格式或階層式等,以下依其特質及列舉數個較具代表性之習知資料分群方法進行說明:
1、DBSCAN資料分群方法:於1996年由M. Ester等人所提出,屬於密度式分群法;步驟一係預先隨機選擇一資料點做為初始種子點;步驟二係判斷目前初始種子點的掃描半徑ε範圍內是否有超過半徑MinPts(最小包含點數)的資料點,若達到門檻值則將目前範圍內的資料點歸類到同一群集內,並從範圍內的其他種子點持續擴張;步驟三係持續前述步驟二,直到所有資料點都被歸類完畢為止。該習知DBSCAN資料分群方法是以較為合乎邏輯的密度斷方式來進行分群,故可用以濾除雜訊及適用於不規則圖樣的資料點等;惟,因為必須對每個資料點進行繁複的密度判斷,故造成分群時間較為冗長且參數難以設定。
2、IDBSCAN資料分群方法:於2004年由B. Borah等人所提出,由DBSCAN資料分群方法所改良;步驟一係預先隨機選擇一資料點做為初始種子點;步驟二係利用擴張出去的空間找出最合適的八個代表點,放進種子表進行擴散;步驟三係持續前述步驟二,直到所有資料點都被歸類完畢為止。該習知IDBSCAN資料分群方法有效改善DBSCAN資料分群方法之執行時間過久的問題;惟,因為仍須以八個代表點進行繁複的密度判斷,故造成分群時間改善幅度有限。
是以,針對上述代表性之習知資料分群方法,大致上具有分群執行時間過長及參數難以設定等缺點,因此,有許多資料分群方法,係以上述代表性之習知資料分群方法做為基礎加以改良,以下再列舉GOD-CS資料分群方法進行說明:
GOD-CS資料分群方法:如中華民國公開第201107999號「以格子為導向之資料分群方法」發明申請案,屬於另一種結合密度式與分割式分群法的網格式分群法,主要針對前述習知ANGEL及G-TREACLE資料分群方法進行改良;步驟一依據該網格數將具有數資料點之一資料集切割成網格狀;步驟二利用一判斷高低密度格的標準,找出一個尚未被擴散之高密度格當做起始格加入一種子表中;步驟三從該種子表中選取一種子判斷是否符合該判斷高低密度格的標準,若「是」,則進行步驟四,若「否」,則將該種子刪除,重新進行步驟三;步驟四將該種子內所有資料點指定為同一群集,並將該種子周圍尚未被擴散之數個網格加入該種子表中,並將該種子刪除,重新進行步驟三,直到該種子表無種子,則進行步驟五;步驟五判斷是否所有高密度格皆已完成擴散動作,若「是」,則終止,若「否」,則進行步驟三。雖然習知GOD-CS資料分群方法相較於習知ANGEL資料分群方法,可縮短分群執行時間,並藉由精簡參數設定以達到方便使用之目的。
惟,習知網格式資料分群方法係以鄰近八個網格擴散搜尋所有網格(例如:GOD-CS),或沿不同維度(例如:橫向或縱向)搜尋所有網格,當擴散至重疊之網格時,則進行網格合併,以提高雜訊濾除率及分群準確率;惟,搜尋所有網格將造成大量網格被重複搜尋,使資料分群執行時間延長,而降低資料分群效率。
基於上述原因,有必要提供一種資料分群效率高及使用便利性高的網格式資料分群方法。
本發明的目的乃改良上述之缺點,以提供一種網格式資料分群方法,係可藉由減少網格資料搜尋次數,而達到提高資料分群效率者。
本發明之次一目的,係提供一種網格式資料分群方法,可藉由精簡參數的設定,以達到方便使用者使用的目的。
本發明網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段落,該目標段落及該非目標段落相互交錯排列;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋。
其中該搜尋程序係包含:一判斷步驟,係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;一擴散步驟,係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍;及一分群步驟,係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下:
請參照第1及2圖所示,本發明網格式資料分群方法之較佳實施例,係藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集1,該資料集1係由數筆資料點11所共同組成之群集,本發明網格式資料分群方法係包含一設定程序S1、一切割程序S2、一過濾程序S3及一搜尋程序S4。藉由上述流程,得以快速且正確的完成資料分群作業。
請再參照第1及2圖所示,該設定程序S1係藉由該電腦系統設定一網格數n(Grids)及一最小包含點數m(Minpts),詳言之,該網格數n係指該資料集1之空間切割成網格之數量,以二維空間之資料集1為例,該資料集1在各維度皆切割為n個網格,即所有網格數量為n×n個。其中,該網格數n越大,該資料集1之細膩度越高。該最小包含點數m係指各網格內最少需包含之資料點11的數量,作為判斷各網格是否有效之依據。其中,由於該資料集1之資料點11總數固定,因此,若該網格數n增加,則該最小包含點數m需減少;若該網格數n減少,則該最小包含點數m需增加。
請再參照第1、2及3圖所示,該切割程序S2係依據該網格數n將該資料集1切割成數個網格G(i,j),其中,所有網格G(i,j)分屬數個目標段落Ts及數個非目標段落Ns,該目標段落Ts及該非目標段落Ns相互交錯排列。在此實施例中,該資料集1係以二維空間作為實施態樣說明。詳言之,首先找出該資料集1在各維度的最大座標,接著,以各維度的最大座標與該網格數n計算各維度之網格長度,使該資料集1在各維度之網格數量均為該網格數n,之後,計算各資料點11所屬之網格,使該資料集1內之資料點11分佈於所有網格(即n×n個網格),各網格係表示為G(i,j),i=1,2,...,n,j=1,2,...,n。其中,所有網格係分屬數個目標段落及數個非目標段落,該數個目標段落及該數個非目標段落相互交錯排列,例如:將該數個目標段落選為第1,3,5,...行(Row),即網格G(i,j),i=1,3,5,...,j=1,2,...,n所形成之各奇數行,則該數個非目標段落設為第2,4,6,...行,即網格G(i,j),i=2,4,6,...,j=1,2,...,n所形成之各偶數行;反之,將該數個目標段落選為各偶數行,則該數個非目標段落設為各奇數行。或者,將該數個目標段落選為第1,3,5,...列(Column),即網格G(i,j),i=1,2,...,n,j=1,3,5,...所形成之各奇數列,則該數個非目標段落設為第2,4,6,...列,即網格G(i,j),i=1,2,...,n,j=2,4,6,...所形成之各偶數列;反之,將該數個目標段落選為各偶數列,則該數個非目標段落設為各奇數列。為方便後續說明,係將該數個目標段落選為各奇數行,惟不以此為限。
舉例而言,請再參閱第3圖所示,當該資料集1於各維度之最大座標均為600,而網格數n設定為6時,各維度皆切割成6等份,亦即將該資料集1切割為6×6個網格,各網格係表示為G(i,j),i=1,2,...,n,j=1,2,...,n,即如第3圖所示之網格G(1,1)、G(1,2)、G(1,3)、...、G(6,5)及G(6,6),且各維度之網格長度均為100,接著,以各資料點11之座標及各維度之網格長度,將所有資料點11分類到所屬之網格(如第1圖所示),其中,該目標段落Ts設定為各奇數行(即行R1、R3、R5),該非目標段落Ns設定為各偶數行(即行R2、R4、R6);行R1包含網格G(1,1)、G(1,2)、...、G(1,5)及G(1,6)、行R2包含網格G(2,1)、G(2,2)、...、G(2,5)及G(2,6),行R3、行R4、行R5及行R6係可依此類推而得知。
請再參照第1及2圖所示,該過濾程序S3係以該最
小包含點數m為過濾條件,判斷各網格G(i,j)是否有效。詳言之,由該資料集1之順序,依序判斷各網格G(i,j)內之資料點11數量是否小於該最小包含點數m,若判斷結果為「是」,則將該網格G(i,j)定義為無效網格,且將無效網格所包含之資料點11定義為雜訊(Noise),其中,該雜訊點之數量係用以計算雜訊濾除率;若判斷結果為「否」,則將該網格G(i,j)定義為有效網格。舉例而言,如第4圖所示,其中各網格G(i,j)內的數字代表該網格G(i,j)所包含資料點11之數量,假設該最小包含點數為105,則如第5圖所示,該網格G(2,4)、G(3,3)至G(3,6)、G(4,2)至G(4,5)、G(5,3)至G(5,5)及G(6,4)係設為有效網格,其餘網格G(i,j)係設為無效網格。
請再參照第2及3圖所示,該搜尋程序S4係依序搜尋該目標段落Ts之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋。請參照第6圖所示,該搜尋程序S4包含一判斷步驟S41、一擴散步驟S42及一分群步驟S43,分別如後所述:
請參照第6及7圖所示,該判斷步驟S41,係將該目標段落Ts之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為「是」,則終止進行後續步驟,即已完成整個資料集1的分群動作;若判斷結果為「否」,則進行該擴散步驟S42。詳言之,係將該目標段落Ts之各網格G(i,j)依序設定為該目標網格Gt(i,j),其中,當該目標段落Ts為奇數行或偶數行時,該目標網格Gt(i,j)之設定順序係由左
上角之網格開始,先由左至右,再從上到下(依圖面而言),若該目標段落Ts設為各奇數行,則設定i=1,3,5,...時,分別設定j=1,2,3,...;若該目標段落Ts設為各偶數行,則設定i=2,4,6,...時,分別設定j=1,2,3,...。當該目標段落Ts為奇數列或偶數列時,該目標網格Gt(i,j)之設定順序係由左上角之網格開始,先由上至下,再從左到右(依圖面而言),若該目標段落Ts設為各奇數列,則設定j=1,3,5,...時,分別設定i=1,2,3,...;若該目標段落Ts設為各偶數列,則設定j=2,4,6,...時,分別設定i=1,2,3,...。為方便後續說明,係以該目標段落Ts設為各奇數行作為實施態樣說明,惟不以此為限。
請再參照第7圖所示,該判斷步驟S41最初設定該目標網格Gt(i,j)為第一個目標段落Ts之第一個網格G(1,1),再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,係將新的目標網格Gt(i,j)依序設定為網格G(1,j),i=1且j=2,3,...,n,再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,若上一個目標網格Gt(i,j)為該第一目標段落的最後一個網格G(1,n),新的目標網格Gt(i,j)係間隔該非目標段落Ns而跳至下一目標段落Ts之第一個網格G(3,1),再進行該擴散步驟S42;之後,當再次進行該判斷步驟S41時,係將新的目標網格Gt(i,j)依序設定為網格G(3,j),i=3且j=2,3,...,n,再進行該擴散步驟S42;其餘目標網格Gt(i,j)係依上述方式設定,在此不另贅述。此外,當再次進行該判斷步驟S41時,若上一個目標網格Gt(i,j)為該最後一個目標段落Ts
的最後一個網格G(i,n)時,由於下一個目標段落Ts不存在,亦即新的目標網格Gt(i,j)不存在,此時,表示所有目標網格Gt(i,j)皆已完成搜尋,而終止進行後續步驟,以完成整個資料集1之資料分群。由於該目標網格Gt(i,j)之數量僅為所有網格G(i,j)之數量的一半,因此,該目標網格Gt(i,j)之搜尋次數僅為所有網格G(i,j)之數量的一半,可減少進行後續擴散步驟S42及分群步驟S43之執行時間,而達到提高分群效率之效果。
舉例而言,請再參閱第3圖所示,當該目標段落Ts設定為各奇數行(即行R1、R3、R5)時,該目標網格Gt(i,j)依序設定為網格G(1,1)、G(1,2)、G(1,3)、G(1,4)、G(1,5)、G(1,6)、G(3,1)、G(3,2)、G(3,3)、G(3,4)、G(3,5)、G(3,6)、G(5,1)、G(5,2)、G(5,3)、G(5,4)、G(5,5)、G(5,6),並由各該目標網格Gt(i,j)分別進行該擴散步驟S42,當上一個目標網格Gt(i,j)為G(5,6)時,由於下一目標段落Ts之第一網格G(7,1)不存在,因此,即已完成整個資料集1的分群動作。
請再參閱第6及7圖所示,該擴散步驟S42係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍。詳言之,當該目標段落Ts設為各奇數行或各偶數行時,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1),即先擴散搜尋該目標網格Gt(i,j)之下方網格及左下方網格,再進行該分群步驟S43;若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及
網格G(i-1,j),即先擴散搜尋該目標網格Gt(i,j)之下方網格、左下方網格、左方網格及上方網格,再進行該分群步驟S43。
舉例而言,請參照第5及8a圖所示,當該目標網格Gt(i,j)為網格G(1,4)時,由於網格G(1,4)為無效網格,因此,該擴散搜尋範圍設為網格G(2,4)及G(2,3);請參照第5及8b圖所示,當該目標網格Gt(i,j)為網格G(3,2)時,由於網格G(3,2)為無效網格,因此,該擴散搜尋範圍設為網格G(4,2)及G(4,1);請參照第5及8c圖所示,當該目標網格Gt(i,j)為網格G(3,3)時,由於網格G(3,3)為有效網格,因此,該擴散搜尋範圍設為網格G(4,3)、G(4,2)、G(3,2)及G(2,3);請參照第5及8d圖所示,當該目標網格Gt(i,j)為網格G(3,4)時,由於網格G(3,4)為有效網格,因此,該擴散搜尋範圍設為網格G(4,4)、G(4,3)、G(3,3)及G(2,4);請參照第5及8e圖所示,當該目標網格Gt(i,j)為網格G(3,6)時,由於網格G(3,6)為有效網格,因此,該擴散搜尋範圍設為網格G(4,6)、G(4,5)、G(3,5)及G(2,6);請參照第5及8f圖所示,當該目標網格Gt(i,j)為網格G(5,1)時,由於目標網格G(5,1)為無效網格,因此該擴散搜尋範圍設為網格G(6,1);其餘目標網格係依此類推,而進行擴散搜尋。
依此類推,當該目標段落Ts設為各奇數列或各偶數列時,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1),即先擴散搜尋
該目標網格Gt(i,j)之右方網格及右上方網格,再進行該分群步驟S43;若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1),即先擴散搜尋該目標網格Gt(i,j)之右方網格、右上方網格、上方網格及左方網格,再進行該分群步驟S43。
請再參閱第6及7圖所示,該分群步驟S43係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟S41。詳言之,當該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)是否已有所屬之群集,若判斷結果為「是」,則將網格G(i+1,j)併入網格G(i+1,j-1)所屬之群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義網格G(i+1,j)為一新群集,接著,再重新進行該判斷步驟S41。反之,若網格G(i+1,j)為無效網格,則再重新進行該判斷步驟S41。此外,上述資料分群之詳細設定方式,請詳見下列表一所示。
請再參閱第6及7圖所示,另一方面,當該擴散搜尋
範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)、網格G(i,j-1)或網格G(i-1,j)是否已有所屬之群集,即判斷網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)、網格G(i+1,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)及網格G(i+1,j)為一新群集,接著,再重新進行該判斷步驟S41。
反之,若G(i+1,j)為無效網格,則判斷網格G(i,j-1)或網格G(i-1,j)是否已有所屬之群集,即判斷網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)為一新群集,接著,再重新進行該判斷步驟S41。此外,上述資料分群之詳細設定方式,請詳見下列表二所示。
舉例而言,如第8a圖所示,當該目標網格Gt(i,j)為網格G(1,4)時,由於該擴散搜尋範圍為網格G(2,4)及G(2,3),其中,網格G(2,4)為有效網格,且網格G(2,3)及G(1,4)為無效網格(即沒有所屬之群組),因此,定義網格G(2,4)為一群集C1(如第9a圖所示)。
之後,如第8b圖所示,當目標網格Gt(i,j)為網格G(3,2)時,由於該擴散搜尋範圍為網格G(4,2)及G(4,1),其中,網格G(4,2)為有效網格,且網格G(4,1)及G(3,2)為無效網格(即沒有所屬之群組),因此,在該群集C1之外,另定義網格G(4,2)為一群集C2(如第9b圖所示)。
之後,如第8c圖所示,當目標網格Gt(i,j)為網格G(3,3)時,由於該擴散搜尋範圍為網格G(4,3)、G(4,2)、G(3,2)及G(2,3),其中,網格G(3,3)及G(4,3)為有效網格,且該網格G(4,2)已分群為該群集C2(如第9b圖所示),因此,將網格G(3,3)及G(4,3)併入該群集C2(如第9c圖所示)。
之後,如第8d圖所示,當目標網格Gt(i,j)為網格G(3,4)時,由於該擴散搜尋範圍為網格G(4,4)、G(4,3)、G(3,3)及G(2,4),其中,網格G(3,4)及G(4,4)為有效網格,而且,如第9c圖所示,網格G(3,3)及G(4,3)已分群為該群集C2,且網格G(2,4)已分群為該群集C1,因此,將網格G(3,4)、網格G(4,4)、該先前分群之群集C1及該先前分群之群集C2合併為一合併群集C3(如第9d圖所示);其餘目標網格係依此類推,而進行
資料分群動作。
依此類推,當該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)是否已有所屬之群集,若判斷結果為「是」,則將網格G(i,j+1)併入網格G(i-1,j+1)所屬之群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義網格G(i,j+1)為一新群集,接著,再重新進行該判斷步驟S41。反之,若網格G(i,j+1)為無效網格,則再重新進行該判斷步驟S41。
另一方面,當該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)、網格G(i-1,j)或網格G(i,j-1)是否已有所屬之群集,即判斷網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)、網格G(i,j+1)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)及網格G(i,j+1)為一新群集,接著,再重新進行該判斷步驟S41。反之,若G(i,j+1)為無效網格,則判斷網格G(i-1,j)或網格G(i,j-1)是否已有所屬之群集,即判斷網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為「是」,則將該目標網格Gt(i,j)與該至少一群集合併為一合併群集,接著,再重新進行該判斷步驟S41;若判斷結果為「否」,則定義該目標網格Gt(i,j)為一新群集,接著,再重新進行
該判斷步驟S41。
為驗證本發明網格式資料分群方法具有執行時間快、分群正確率高及雜訊濾除率佳等優點,於此針對資料集A至F進行分群,並與習知DBSCAN、IDBSCAN及GOD-CS資料分群方法進行比較。其中,資料集A至F所包含之正確群集數分別為10、5、4、2、4及4,且各資料集之圖形皆不相同;資料集A至F皆具有575,000筆資料點,且含75,000筆之雜訊點。
此外,請參照下列表三所示,其係本發明於該設定程序S1中所設定之網格數n及最小包含點數m參數。
再者,本次實驗模擬所使用之設備包含CPU〔Intel Pentium D 3.40GHz〕、記憶體〔2GB〕,並以Windows7作業系統及Java程式語言作為演算法實作之工具。
請參照下列表四所示,其係習知資料分群方法與本發明之以網格式資料分群方法所進行之模擬結果。
請再參照表四所示,由習知資料分群方法與本發明網格式資料分群方法模擬結果比較,可得知本發明網格式資料分群方法可於維持相當高之分群正確率及雜訊濾除率的前提下,大幅降低執行時間的成本,可驗證本發明之資料分群方法確實有良好之分群效果。
本發明網格式資料分群方法,係藉由該網格數n將該資料集1切割成數個網格,接著,以該最小包含點數m判斷各網格G(i,j)是否有效,之後,再以間隔一行方式將該目標段落Ts之各網格G(i,j)依序設定為該目標網格Gt(i,j)。由於該目標網格Gt(i,j)之數量僅為該資料集1之網格G(i,j)數量的一半,因而減少該網格之搜尋次數,使資料點11完成分群的時間大幅降低。因此,本發明網格式資料分群方法,可藉由減少網格資料搜尋次數,而達到
提高資料分群效率之功效。
本發明網格式資料分群方法,使用者僅需設定該網格數n及該最小包含點數m即可進行資料分群,而不需如習知資料分群方法需設定多個參數,且不易控制分群結果之品質,因此,本發明網格式資料分群方法可大幅降低嘗試出最佳參數設定之時間成本,以達到方便使用者使用之功效。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
1‧‧‧資料集
11‧‧‧資料點
C1‧‧‧群集
C2‧‧‧群集
C3‧‧‧合併群集
G(i,j)‧‧‧網格
Gt(i,j)‧‧‧目標網格
G(i+1,j)‧‧‧網格
G(i+1,j-1)‧‧‧網格
G(i,j-1)‧‧‧網格
G(i-1,j)‧‧‧網格
G(1,1)‧‧‧網格
G(1,2)‧‧‧網格
G(1,3)‧‧‧網格
G(1,4)‧‧‧網格
G(1,5)‧‧‧網格
G(1,6)‧‧‧網格
G(2,1)‧‧‧網格
G(2,2)‧‧‧網格
G(2,3)‧‧‧網格
G(2,4)‧‧‧網格
G(2,5)‧‧‧網格
G(2,6)‧‧‧網格
G(3,1)‧‧‧網格
G(3,2)‧‧‧網格
G(3,3)‧‧‧網格
G(3,4)‧‧‧網格
G(3,5)‧‧‧網格
G(3,6)‧‧‧網格
G(4,1)‧‧‧網格
G(4,2)‧‧‧網格
G(4,3)‧‧‧網格
G(4,4)‧‧‧網格
G(4,5)‧‧‧網格
G(4,6)‧‧‧網格
G(5,1)‧‧‧網格
G(5,2)‧‧‧網格
G(5,3)‧‧‧網格
G(5,4)‧‧‧網格
G(5,5)‧‧‧網格
G(5,6)‧‧‧網格
G(6,1)‧‧‧網格
G(6,2)‧‧‧網格
G(6,3)‧‧‧網格
G(6,4)‧‧‧網格
G(6,5)‧‧‧網格
G(6,6)‧‧‧網格
R1‧‧‧行
R2‧‧‧行
R3‧‧‧行
R4‧‧‧行
R5‧‧‧行
R6‧‧‧行
S1‧‧‧設定程序
S2‧‧‧切割程序
S3‧‧‧過濾程序
S4‧‧‧搜尋程序
S41‧‧‧判斷步驟
S42‧‧‧擴散步驟
S43‧‧‧分群步驟
Ts‧‧‧目標段落
Ns‧‧‧非目標段落
第1圖:本發明較佳實施例之資料集示意圖。
第2圖:本發明較佳實施例之流程圖。
第3圖:本發明較佳實施例之網格示意圖。
第4圖:本發明較佳實施例之資料點數量示意圖。
第5圖:本發明較佳實施例之有效網格及無效網格示意圖。
第6圖:本發明較佳實施例之搜尋程序的流程圖。
第7圖:本發明較佳實施例之目標網格示意圖。
第8a圖:本發明較佳實施例之擴散步驟示意圖(一)。
第8b圖:本發明較佳實施例之擴散步驟示意圖(二)。
第8c圖:本發明較佳實施例之擴散步驟示意圖(三)。
第8d圖:本發明較佳實施例之擴散步驟示意圖(四)。
第8e圖:本發明較佳實施例之擴散步驟示意圖(五)。
第8f圖:本發明較佳實施例之擴散步驟示意圖(六)。
第9a圖:本發明較佳實施例之分群步驟示意圖(一)。
第9b圖:本發明較佳實施例之分群步驟示意圖(二)。
第9c圖:本發明較佳實施例之分群步驟示意圖(三)。
第9d圖:本發明較佳實施例之分群步驟示意圖(四)。
S1...設定程序
S2...切割程序
S3...過濾程序
S4...搜尋程序
Claims (4)
- 一種網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段落,該目標段落及該非目標段落相互交錯排列,該目標段落係選為各奇數行或各偶數行;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋,該搜尋程序係包含:一判斷步驟、一擴散步驟及一分群步驟,該判斷步驟係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;該擴散步驟係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍,其中,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i+1,j)及網格G(i+1,j-1),再進行該分群步驟,若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i+1,j)、網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j),再進行該分群步驟;該分群步驟係依該擴散搜尋範圍而決定分群方式,再進 行該判斷步驟;其中,當該擴散搜尋範圍為網格G(i+1,j)及網格G(i+1,j-1)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)是否已有所屬之群集,若判斷結果為是,則將網格G(i+1,j)併入網格G(i+1,j-1)所屬之群集,再重新進行該判斷步驟,若判斷結果為否,則定義網格G(i+1,j)為一群集,再進行該判斷步驟,若網格G(i+1,j)為無效網格,則再進行該判斷步驟;當該擴散搜尋範圍為網格G(i+1,j)、網格G(i+1,j-1)、網格G(1,j-1)及網格G(i-1,j)時,若網格G(i+1,j)為有效網格,則判斷網格G(i+1,j-1)、網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)、網格G(i+1,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(1,j)及網格G(i+1,j)為一群集,再重新進行該判斷步驟,若網格G(i+1,j)為無效網格,則判斷網格G(i,j-1)及網格G(i-1,j)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)為一群集,再重新進行該判斷步驟。
- 一種網格式資料分群方法,係包含:一設定程序,係設定一網格數及一最小包含點數;一切割程序,係依據該網格數將一資料集切割成數個網格,其中,所有網格分屬數個目標段落及數個非目標段 落,該目標段落及該非目標段落相互交錯排列,該目標段落係選為各奇數列或各偶數列;一過濾程序,係以該最小包含點數過濾各網格是否有效;及一搜尋程序,係依序搜尋該目標段落之網格,由搜尋之網格進行擴散及分群,直到所有目標段落之網格皆已完成搜尋,該搜尋程序係包含:一判斷步驟、一擴散步驟及一分群步驟,該判斷步驟係將該目標段落之網格G(i,j)依序設定為一目標網格Gt(i,j),再判斷所有目標網格Gt(i,j)是否皆已完成搜尋,若判斷結果為是,則終止進行後續步驟;該擴散步驟,係由該目標網格Gt(i,j)是否有效而決定一擴散搜尋範圍,其中,若該目標網格Gt(i,j)為無效網格,則該擴散搜尋範圍設為網格G(i,j+1)及網格G(i-1,j+1),再進行該分群步驟,若該目標網格Gt(i,j)為有效網格,則該擴散搜尋範圍設為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1),再進行該分群步驟;該分群步驟,係依該擴散搜尋範圍而決定分群方式,再進行該判斷步驟;其中,當該擴散搜尋範圍為網格G(i,j+1)及網格G(i-1,j+1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)是否已有所屬之群集,若判斷結果為是,則將網格G(i,j+1)併入網格G(i-1,j+1)所屬之群集,再重新進行該判斷步驟,若判斷結果為否,則定義 網格G(i,j+1)為一群集,再進行該判斷步驟,若網格G(i,j+1)為無效網格,則再進行該判斷步驟;當該擴散搜尋範圍為網格G(i,j+1)、網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)時,若網格G(i,j+1)為有效網格,則判斷網格G(i-1,j+1)、網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)、網格G(i,j+1)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)及網格G(i,j+1)為一群集,再重新進行該判斷步驟,若網格G(i,j+1)為無效網格,則判斷網格G(i-1,j)及網格G(i,j-1)之中是否已存在至少一群集,若判斷結果為是,則將該目標網格Gt(i,j)與該至少一群集合併,再重新進行該判斷步驟,若判斷結果為否,則定義該目標網格Gt(i,j)為一群集,再重新進行該判斷步驟。
- 依申請專利範圍第1或2項所述之網格式資料分群方法,其中該資料集在各維度之網格數量為該網格數。
- 依申請專利範圍第1或2項所述之網格式資料分群方法,其中該過濾程序係判斷各網格G(i,j)內之資料點數量是否小於該最小包含點數,若判斷結果為是,則將該網格G(i,j)定義為無效網格,若判斷結果為否,則將該網格G(i,j)定義為有效網格。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100117242A TWI453613B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
US13/468,721 US8661040B2 (en) | 2011-05-17 | 2012-05-10 | Grid-based data clustering method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100117242A TWI453613B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201248432A TW201248432A (en) | 2012-12-01 |
TWI453613B true TWI453613B (zh) | 2014-09-21 |
Family
ID=47175722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100117242A TWI453613B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8661040B2 (zh) |
TW (1) | TWI453613B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160171008A1 (en) * | 2012-08-14 | 2016-06-16 | Amadeus S.A.S. | Updating cached database query results |
KR101560274B1 (ko) | 2013-05-31 | 2015-10-14 | 삼성에스디에스 주식회사 | 데이터 분석 장치 및 방법 |
KR101560277B1 (ko) | 2013-06-14 | 2015-10-14 | 삼성에스디에스 주식회사 | 데이터 클러스터링 장치 및 방법 |
CN109374986B (zh) * | 2018-09-19 | 2021-07-09 | 中国气象局气象探测中心 | 一种基于聚类分析与网格搜索的雷电定位方法及系统 |
CN110288000B (zh) * | 2019-05-28 | 2021-04-30 | 北京深演智能科技股份有限公司 | 活动范围的检测方法和装置 |
CN110309437B (zh) * | 2019-06-26 | 2020-06-23 | 京东数字科技控股有限公司 | 一种信息推送方法和装置 |
CN111797884A (zh) * | 2019-12-10 | 2020-10-20 | 青岛海信网络科技股份有限公司 | 一种基于聚类算法的快情报问题区域识别方法及装置 |
CN114863156A (zh) * | 2022-05-06 | 2022-08-05 | 炫我信息技术(北京)有限公司 | 一种目标对象聚类的方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029235A1 (en) * | 2000-05-11 | 2002-03-07 | Becton Dickinson And Company | System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries |
TW200828053A (en) * | 2006-12-22 | 2008-07-01 | Univ Nat Pingtung Sci & Tech | A method for grid-based data clustering |
US7590642B2 (en) * | 2002-05-10 | 2009-09-15 | Oracle International Corp. | Enhanced K-means clustering |
TW201101176A (en) * | 2009-06-30 | 2011-01-01 | Univ Nat Pingtung Sci & Tech | Method for data clustering |
TW201102844A (en) * | 2009-07-15 | 2011-01-16 | Univ Nat Pingtung Sci & Tech | Grid-based mmethod for data clustering |
TW201107999A (en) * | 2009-08-17 | 2011-03-01 | Univ Nat Pingtung Sci & Tech | Grid-based data clustering method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7174344B2 (en) | 2002-05-10 | 2007-02-06 | Oracle International Corporation | Orthogonal partitioning clustering |
US7565346B2 (en) * | 2004-05-31 | 2009-07-21 | International Business Machines Corporation | System and method for sequence-based subspace pattern clustering |
US7359913B1 (en) * | 2005-05-13 | 2008-04-15 | Ncr Corp. | K-means clustering using structured query language (SQL) statements and sufficient statistics |
US7584159B1 (en) | 2005-10-31 | 2009-09-01 | Amazon Technologies, Inc. | Strategies for providing novel recommendations |
US8438162B2 (en) * | 2009-04-16 | 2013-05-07 | President And Fellows Of Harvard College | Method and apparatus for selecting clusterings to classify a predetermined data set |
-
2011
- 2011-05-17 TW TW100117242A patent/TWI453613B/zh active
-
2012
- 2012-05-10 US US13/468,721 patent/US8661040B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029235A1 (en) * | 2000-05-11 | 2002-03-07 | Becton Dickinson And Company | System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries |
US7590642B2 (en) * | 2002-05-10 | 2009-09-15 | Oracle International Corp. | Enhanced K-means clustering |
TW200828053A (en) * | 2006-12-22 | 2008-07-01 | Univ Nat Pingtung Sci & Tech | A method for grid-based data clustering |
TW201101176A (en) * | 2009-06-30 | 2011-01-01 | Univ Nat Pingtung Sci & Tech | Method for data clustering |
TW201102844A (en) * | 2009-07-15 | 2011-01-16 | Univ Nat Pingtung Sci & Tech | Grid-based mmethod for data clustering |
TW201107999A (en) * | 2009-08-17 | 2011-03-01 | Univ Nat Pingtung Sci & Tech | Grid-based data clustering method |
Also Published As
Publication number | Publication date |
---|---|
US20120296906A1 (en) | 2012-11-22 |
US8661040B2 (en) | 2014-02-25 |
TW201248432A (en) | 2012-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI453613B (zh) | 網格式資料分群方法 | |
TWI385544B (zh) | 基於密度式之資料分群方法 | |
Yoo et al. | A joinless approach for mining spatial colocation patterns | |
JP4121125B2 (ja) | グラフィックス・イメージ生成装置及びその方法、データ解析装置及びその方法並びにプログラム | |
Zou et al. | Finding top-k maximal cliques in an uncertain graph | |
TWI396106B (zh) | 以格子為導向之資料分群方法 | |
CN108537274A (zh) | 一种基于网格的空间多尺度快速聚类方法 | |
CN108491226B (zh) | 基于集群缩放的Spark配置参数自动调优方法 | |
TWI391837B (zh) | 基於密度式之資料分群方法 | |
CN110060740A (zh) | 一种非冗余基因集聚类方法、系统及电子设备 | |
CN103235862B (zh) | 选择拆卸序列规划方法及装置 | |
Yang et al. | Parallel co-location pattern mining based on neighbor-dependency partition and column calculation | |
TWI460680B (zh) | 密度式資料分群方法 | |
CN105654095A (zh) | 一种特征的选择方法和装置 | |
TWI431496B (zh) | 網格式資料分群方法 | |
CN106780747A (zh) | 一种快速分割cfd计算网格的方法 | |
CN108509532A (zh) | 一种应用于地图的聚点方法和装置 | |
CN110807061A (zh) | 一种基于分层搜索不确定图的频繁子图的方法 | |
CN112768081B (zh) | 基于子图及节点的共调控生物网络模体发现方法及装置 | |
Von Buelow et al. | Computational form exploration of branching columns using concepts of formex algebra and the ParaGen method | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 | |
CN113763240B (zh) | 一种点云缩略图生成方法、装置、设备及存储介质 | |
JP3938815B2 (ja) | ノード作成方法、画像検索方法及び記録媒体 | |
TWI407365B (zh) | 資料分群方法 | |
Barua et al. | A density based clustering technique for large spatial data using polygon approach |