TWI396106B

TWI396106B - 以格子為導向之資料分群方法

Info

Publication number: TWI396106B
Application number: TW098127600A
Authority: TW
Inventors: Cheng Fa Tsai; Chien Sheng Chiu
Original assignee: Univ Nat Pingtung Sci & Tech
Priority date: 2009-08-17
Filing date: 2009-08-17
Publication date: 2013-05-11
Also published as: US20110040758A1; TW201107999A; US8166035B2

Description

以格子為導向之資料分群方法

本發明係關於一種資料分群方法，特別是一種以格子為導向之資料分群方法。

隨著資訊科技的進步與發展，儲存在資料庫中的資料量也隨之增加，藉由資料探勘(Data Mining)的技術能夠提供使用者發掘原始資料中隱含著的有用資訊，用以於龐大資料集中尋找各資料間所隱含的特徵與關係，以建立一套完整資料分析模式。此外，在資料探勘中之資料分群技術可讓使用者快速得知資料本質間的相關程度，依據將原始資料庫中某些自訂的維度特性，將相似性高的資料歸類到各自的群組裡。然而，現今的資料分群技術種類繁多，以下依其特質及列舉數個較具代表性之習知資料分群方法進行說明：

1、K-means資料分群方法：於1967年由McQueen所提出，屬於切割式分群法；步驟一係預先隨機選擇k個資料點x(k即進行分群作業後所產生之資料群集數量)，並將該k個資料點x設定為k個資料群集的初始形心點；步驟二係依據各初始形心點計算各資料點x彼此間之遠近距離，亦即對每一個資料點x尋找最接近的初始形心點，並將各資料點x分別加入最接近的初始形心點，以進行分群動作；步驟三係由目前的各資料點x分佈重新計算出較佳的形心點；最後係重覆步驟二及步驟三，直至所有資料群集的形心點皆已不再變動時，即終止資料分群作業。然而，雖然習知K-means資料分群方法的分群速度相當快速，但因為一開始隨機選取初始形心點的因素，使得每次分群結果不甚穩定，且在進行步驟二的過程中，僅採用簡單的距離判斷，故造成分群結果不佳。

2、DBSCAN資料分群方法：於1996年由M. Ester等人所提出，屬於密度式分群法；步驟一係預先隨機選擇一資料點做為初始種子點；步驟二係判斷目前初始種子點的掃描半徑ε範圍內是否有超過半徑MinPts(最小包含點)的資料點，若達到門檻值則將目前範圍內的資料點歸類到同一群集內，並從範圍內的其他種子點持續擴張；步驟三係持續前述步驟二，直到所有資料點都被歸類完畢為止。該習知DBSCAN資料分群方法是以較為合乎邏輯的密度斷方式來進行分群，故可用以濾除雜訊及適用於不規則圖樣的資料點等；但因為必須對每個資料點進行繁複的密度判斷，故造成分群時間較為冗長。

是以，針對上述代表性之習知資料分群方法，大致上具有分群結果不穩定及分群執行時間過長等缺點，因此，有許多資料分群方法，係以上述代表性之習知資料分群方法做為基礎加以改良，以下再列舉數個資料分群方法進行說明：

1、ANGEL資料分群方法：中華民國公開第200828053號「植基於網格式之資料分群方法」發明申請案，揭示一種植基於網格式之資料分群方法，係屬於結合密度式與分割式分群法的一種格子式分群法；步驟一係由一資料庫內之數個資料物件分配至一特徵空間的數個網格，次計算各網格之資料物件數量以定義至少一高群聚網格；步驟二係計算各高群聚網格內之資料物件是否平均分佈，以分別將各高群聚網格定義為群集主體或群集邊緣；步驟三係利用該習知DBSCAN資料分群方法偵測該群集邊緣之邊緣資料物件，並進行比對以將該邊緣資料物件與該群集主體進行合併；步驟四係將合併後之各資料物件指定為同一群集，且重覆前述各步驟以完成所有資料群集之歸類。然而，雖然該習知ANGEL資料分群方法分群速度快、可濾除雜訊且分群結果穩定，惟，在參數設定上困難，在執行該習知ANGEL資料分群方法前需先輸入相當複雜的參數設定條件，對一般使用者而言很難針對各種不同的情況定義其基本條件。

2、G-TREACLE資料分群方法：係由該習知ANGEL資料分群方法之發明人所提出，屬於結合密度式、格子式及樹狀結果分群法的一種混合式分群法，主要針對前述習知ANGEL資料分群方法所採用之習知DBSCAN資料方群方法進行改良；步驟一及步驟二係與該習知ANGEL資料分群方法相同；然而，步驟三係利用算出每個群集之DGT排除雜訊範圍，將邊界格找出；步驟四係將步驟三所找出之邊界格給定掃描半徑與最小包含點，做樹狀串連分群，最後再與群內格進行合併以完成分群動作。然而，雖然該習知G-TREACLE資料分群方法相對於該習知ANGEL資料分群方法在執行效率上更進一步的提升，惟，該習知G-TREACLE資料分群方法亦需先輸入相當複雜的參數設定條件，造成使用上的不方便。

綜上所述，上述兩種改良後之習知資料分群方法雖提升分群正確率及縮短分群執行時間，惟，皆具有參數設定複雜，造成使用上的不方便等缺點。基於上述原因，有必要進一步改良上述各種習知資料分群方法。

本發明目的乃改良上述缺點，以提供一種以格子為導向之資料分群方法，可藉由精簡參數的設定，以達到方便使用者使用的目的。

本發明目的係提供一種以格子為導向之資料分群方法，可藉由利用高密度格進行擴散，以達到提高分群效率的目的。

本發明目的係提供一種以格子為導向之資料分群方法，可藉由判斷高低密度格的標準，以達到提高雜訊濾除率的目的。

本發明目的係提供一種以格子為導向之資料分群方法，可藉由在不佳的容忍值設定下進行修正，以達到提高分群準確率的目的。

為達到前述發明目的，本發明所運用之技術內容如下：一種以格子為導向之資料分群方法係包含：一參數設定步驟設定一切割參數及一容忍值參數；一切割步驟依據該切割參數將具有數資料點之一資料集切割成網格狀；一搜尋步驟利用一判斷高低密度格的標準，找出一個尚未被擴散之高密度格當做起始格加入一種子表中；一分群判斷步驟從該種子表中選取一種子判斷是否符合該判斷高低密度格的標準，若「是」，則進行一分群擴散步驟，若「否」，則將該種子刪除，重新進行該分群判斷步驟；該分群擴散步驟將該種子內所有資料點指定為同一群集，並將該種子周圍尚未被擴散之數個網格加入該種子表中，並將該種子刪除，重新進行該分群判斷步驟，直到該種子表無種子，則進行一終止判斷步驟；及該終止判斷步驟判斷是否所有高密度格皆已完成擴散動作，若「是」，則終止，若「否」，則進行該搜尋步驟。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：請參照第1及2圖所示，本發明較佳實施例之以格子為導向之資料分群方法，係藉由一電腦系統連接至少一資料庫作為執行架構，該資料庫中係存有一資料集1，該資料集1係由數筆資料點11所共同組成之群集，本發明之以格子為導向之資料分群方法係包含一參數設定步驟S11、一切割步驟S12、一搜尋步驟S13、一分群判斷步驟S14、一分群擴散步驟S15及一終止判斷步驟S16。藉由上述步驟流程，以快速且正確的完成資料分群作業。

本發明較佳實施例之參數設定步驟S11，以於該電腦系統設定一切割參數及一容忍值參數，該切割參數係指該資料集1中切割後的網格尺寸；舉例而言，如第2圖所示，若該資料集1內之資料點11分佈於二維空間時，且具有包含該資料集1之最小邊界範圍，當該切割參數設定為2時，即表示將該資料集1切割成每一網格均為2×2的網格，更詳言之，當該資料集1於二維空間中具有100×100之最小邊界範圍，且該切割參數設定為2時，每一維度會切割成50等份，亦即切割成50×50之矩陣，為2500個網格；此外，該容忍值參數係介於0到1之間。

請參照第1及2圖所示，本發明較佳實施例之切割步驟S12，係依據該切割參數對該資料集1進行切割，以形成數個網格2，且該資料集1內之資料點11分佈於該數個網格2中。

請參照第1、3及4圖所示，其中每個網格2內的數字代表該網格2所包含資料點之數量，本發明較佳實施例之搜尋步驟S13，係利用一判斷高低密度格的標準，找出一個尚未被擴散之高密度格當做起始格加入一種子表3當做種子，此時，該種子表3僅包含一第一個種子3a；更詳言之，從該資料集1之數個網格2中找出包含最多資料點數量之網格2，定義為一最高密度格2a，並透過該最高密度格2a所包含資料點之數量與該容忍值參數，計算判斷高低密度格的標準SC(如公式1所示)，其中HDC係為該最高密度格2a內所包含資料點之數量，TV係為該容忍值參數。

SC =HDC ×TV ......(公式1)

請再參照第3圖所示，舉例而言，在本實施例中，該最高密度格2a所包含資料點之數量為350點，係為該數個網格2中包含資料點數量最多者，該容忍值參數係設定為0.5，故可獲得該判斷高低密度格的標準SC為175點，更詳言之，於該資料集1之數個網格2中，包含資料點數量為175點以上之網格2，則定義為高密度格2b，反之，若該資料點數量小於175點之網格2，則定義為低密度格2c。

請再參照第4圖所示，舉例而言，在本實施例中，該種子表3係用來儲存尚未被擴散之數個網格2，該數個網格2即代表該種子表3之數個種子，更詳言之，尚未被擴散之數個網格2依序代表該種子表3之第一個種子3a、第二個種子3b及第三個種子3c…等，藉此，依序以該種子3a、3b及3c…等所儲存之網格2進行該分群判斷步驟S14。

請參照第1、5及6圖所示，本發明較佳實施例之分群判斷步驟S14，係從該種子表3選取一種子判斷是否符合該判斷高低密度格的標準，若判斷為「是」，則以該種子進行該分群擴散步驟S15；若判斷為「否」，則將該種子從該種子表3中刪除，再從該種子表3中選取另一種子重新進行該分群判斷步驟S14，以此類推；更詳言之，以該種子表3中的第一個種子3a開始判斷是否符合該搜尋步驟S13中判斷高低密度格的標準，若判斷為「高密度格」，該種子將進行該分群擴散步驟S15；若判斷為「低密度格」，則將該種子從該種子表3中刪除，再從該種子表3中的第二個種子3b所儲存之網格2，重新進行該分群判斷步驟S14，以此類推。

請參照第1、5a、5b、6a及6b圖所示，本發明較佳實施例之分群擴散步驟S15，係將符合該高密度格2b之種子所包含之資料點指定為同一群集，並將該種子周圍尚未被擴散之數個網格2加入該種子表3成為數個種子，再將該種子從該種子表3中刪除，即完成該種子之擴散動作，再重新進行該分群判斷步驟S14，以此類推，一直到該種子表3中沒有種子，即完成一個群的擴散動作，並進行該終止判斷步驟S16；舉例而言，當第一次進行該分群擴散步驟S15時，如第5a及5b圖所示，該種子表3中僅包含該第一個種子3a，且該第一個種子3a必為該高密度格2b，將該第一個種子3a所包含之資料點指定為同一群集，並將該第一個種子3a周圍尚未被擴散之數個網格2加入該種子表3依序成為第二個種子3b、第三個種子3c…等(如第6a及6b圖所示為8個網格)，再將該第一個種子3a從該種子表3中刪除，並以該第二個種子3b重新進行該分群判斷步驟S14，以此類推，直到該種子表3中無種子，即完成一個群集的擴散動作，並進行一終止判斷步驟S16；藉此，利用網格狀的分佈，每一網格2可以準確地找出周圍之數個網格2，且該數個網格2被標記為已擴散或未擴散，僅將該網格2周圍尚未被擴散之數個網格2加入該種子表3當做種子，如此，可節省非常多的擴散時間，有效提升擴散的效率。

請參照第1圖所示，本發明較佳實施例之以格子為導向之資料分群方法之終止判斷步驟S16，係判斷是否所有高密度格皆已完成擴散動作，若判斷為「是」，則終止，即完成整個資料集的分群擴散動作；若判斷為「否」，則重新進行該搜尋步驟S13。

請參照第7圖所示，其係本發明的第二實施例，在本實施例中，係包含一參數設定步驟S21、一切割步驟S22、一搜尋步驟S23、一分群判斷步驟S24、一修正判斷步驟S25、一分群擴散步驟S26及一終止判斷步驟S27。藉由上述步驟流程，以快速且有效提升分群正確率，以完成資料分群作業。其中，該參數設定步驟S21、切割步驟S22、搜尋步驟S23、分群判斷步驟S24、分群擴散步驟S26及終止判斷步驟S27係與第一實施例所述之步驟流程相同，因此相同步驟流程在此不再贅述。

請參照第7、8及9圖所示，本發明第二實施例之修正判斷步驟S25，係針對該參數設定步驟S21中不佳的容忍值參數設定，使該分群判斷步驟S24中將該高密度格2b誤判為該低密度格2c的情形進行修正，並且定義出每一群集之邊界範圍，更詳言之，係判斷該低密度格2c周圍之8個網格2中，是否有「5」個以上之高密度格2b，若判斷為「是」，則將該低密度格2c重新定義為該高密度格2b，並進行該分群擴散步驟S26；若判斷為「否」，則將該低密度格2c定義為該群集外之邊界範圍，並將該低密度格2c從該種子表3中刪除，再從該種子表3中的另一個種子進行該分群判斷步驟S24；舉例而言，本發明經過多次的實驗測試，以網格狀的架構來看，如第8圖所示，該高密度格2b係位於該群集內之邊界處，且該高密度格2b周圍所具有高密度格2b之數量係為5個；然而，如第9圖所示，該低密度格2c係位於該群集外之邊界處，且該低密度格2c周圍所具有高密度格2b之數量係為3個，因此，於該修正判斷步驟S25中，可定義出該群集外之邊界範圍。

請再參照第7、8及9圖所示，本發明第二實施例之修正判斷步驟S25係利用判斷該低密度格2c周圍是否有「5」個以上之高密度格2b進行修正，然而，在一般情形下將該資料集1切割成數個網格2，該數個網格2將會是非常微小的網格2，因此，在形狀不規則的圖形下，對於非常微小的網格2而言，其邊界範圍都會以圓弧方式呈現，因此本發明之以格子為導向之資料分群方法係選擇以「5」個以上之高密度格作為修正判斷之標準；藉此，藉由將誤判為低密度格的情形下進行修正為高密度格，可增加本發明之以格之為導向之資料分群方法之分群準確率。

為驗證本發明之以格子為導向之資料分群方法具有執行時間快、分群正確率高及雜訊濾除率佳等優點，於此針對資料集A至F進行分群，並與習知K-means、DBSCAN、ANGEL及G-TREACLE資料分群方法進行比較。其中，資料集A至F所包含之正確群集數分別為4、5、10、4、2及4，且各資料集之圖形皆不相同；此外，本發明於該參數設定步驟S11或S21中所設定之切割參數為3，容忍值參數為0.25；再者，本次實驗模擬所使用之設備包含CPU[Intel Pentium4 1.5GHz]、記憶體[256MB]，並以Java作為演算法之實作程式語言。

請參照表一所示，其係習知資料分群方法與本發明之以格子為導向之資料分群方法所進行之第一項模擬結果，其中，資料集A至F皆具有230,000筆資料點，且含30,000筆之雜訊點。

請參照表二所示，本發明之以格子為導向之資料分群方法所進行之第二項模擬實驗，其中，資料集A至F皆具有575,000筆資料點，且含75,000筆之雜訊點。

請再參照表一及表二所示，由習知資料分群方法與本發明之以格子為導向之資料分群方法模擬結果比較，可得知本發明之以格子為導向之資料分群方法可於維持相當高之分群正確率及雜訊濾除率的前提下，大幅降低執行時間的成本，可驗證本發明之資料分群方法確實有良好之分群效果。

本發明之以格子為導向之資料分群方法，使用者僅需設定一切割參數及一容忍值參數便可進行本發明之以格子為導向之資料分群方法，而不需如習知資料分群方法需設定多個參數，而不易控制分群結果之品質，因此可大幅降低嘗試出最佳參數設定之時間成本，使得本發明之以格子為導向之資料分群方法具有達到方便使用者使用的功效。

本發明之以格子為導向之資料分群方法，係藉由將該資料集切割成數個網格，每一網格可以準確地找出周圍之鄰居格，且該網格被標記為已擴散或未擴散，將滿足高密度格且尚未擴散之鄰居格內的所有資料點指定為同一群集，使得本發明之以格子為導向之資料分群方法具有達到提高分群效率的功效。

本發明之以格子為導向之資料分群方法，係藉由該搜尋步驟S23中判斷高低密度格的標準，配合該修正判斷步驟S25中修正高低密度格誤判的情形，可定義出低密度格及位於該群集外之邊界範圍，使得本發明之以格子為導向之資料分群方法具有達到提高雜訊濾除率的功效。

本發明之以格子為導向之資料分群方法，係於該參數設定步驟S21中不佳的容忍值參數設定，使該分群判斷步驟S24判斷為低密度格的情形下，藉由判斷該低密度格周圍是否有「5」個以上之高密度格來進行修正，使得本發明之以格子為導向之資料分群方法具有達到提高分群準確率的功效。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

[本發明]

1．．．資料集

11．．．資料點

2．．．網格

2a．．．最高密度格

2b．．．高密度格

2c．．．低密度格

3．．．種子表

3a．．．第一個種子

3b．．．第二個種子

3c．．．第三個種子

第1圖：本發明第一實施例之流程圖。

第2圖：本發明第一實施例之切割步驟示意圖。

第3圖：本發明第一實施例之搜尋步驟示意圖。

第4圖：本發明第一實施例之種子表示意圖。

第5a圖：本發明第一實施例之種子表示意圖。

第5b圖：本發明第一實施例之分群擴散步驟示意圖。

第6a圖：本發明第一實施例之種子表示意圖。

第6b圖：本發明第一實施例之分群擴散步驟示意圖。

第7圖：本發明第二實施例之流程圖。

第8圖：本發明第二實施例之修正判斷步驟示意圖。

第9圖：本發明第二實施例之修正判斷步驟示意圖。

Claims

一種以格子為導向之資料分群方法，係包含：一參數設定步驟，係設定一切割參數及一容忍值參數；一切割步驟，係依據該切割參數將具有數資料點之一資料集切割成網格狀，使每一網格均包含數資料點；一搜尋步驟，係利用一判斷高低密度格的標準，找出一個尚未被擴散之高密度格當做起始格加入一種子表中當做種子；一分群判斷步驟，係從該種子表中選取一種子判斷是否符合該判斷高低密度格的標準，若判斷為「是」，則進行一分群擴散步驟，若判斷為「否」，則將該種子刪除，重新進行該分群判斷步驟；該分群擴散步驟，係將該種子內所有資料點指定為同一群集，並將該種子周圍尚未被擴散之數個網格加入該種子表中成為數個種子，再將該種子刪除，重新進行該分群判斷步驟，直到該種子表無種子，則進行一終止判斷步驟；及該終止判斷步驟，係判斷是否所有高密度格皆已完成擴散動作，若判斷為「是」，則終止，若判斷為「否」，則進行該搜尋步驟。
依申請專利範圍第1項所述之以格子為導向之資料分群方法，其中，該搜尋步驟係從切割後的資料集中找出包含最多資料點的網格，定義為最高密度格，並如下所述之公式判斷高低密度格的標準：SC =HDC ×TV 其中SC為判斷高低密度格的標準，HDC為最高密度格所包含資料點之數量，TV為該容忍值參數，若網格內資料點數量大於或等於SC，則判斷為高密度格，若小於SC，則判斷為低密度格。
依申請專利範圍第2項所述之以格子為導向之資料分群方法，其中，該容忍值參數係介於0到1之間。
依申請專利範圍第1、2或3項所述之以格子為導向之資料分群方法，其中，該分群判斷步驟中判斷該種子為低密度格時，係進行一修正判斷步驟，判斷該種子周圍之數個網格是否有5個以上之高密度格，若判斷為「是」，則進行該分群擴散步驟；若判斷為「否」，則將該種子定義為該群集外之邊界範圍，並將該種子刪除，重新進行該分群判斷步驟。
依申請專利範圍第1項所述之以格子為導向之資料分群方法，其中，該切割參數係指該資料集切割後之網格尺寸。