TWI385544B

TWI385544B - 基於密度式之資料分群方法

Info

Publication number: TWI385544B
Application number: TW098129387A
Authority: TW
Inventors: Cheng Fa Tsai; Chien Tsung Wu
Original assignee: Univ Nat Pingtung Sci & Tech
Priority date: 2009-09-01
Filing date: 2009-09-01
Publication date: 2013-02-11
Also published as: TW201109949A; US8171025B2; US20110055212A1

Description

基於密度式之資料分群方法

本發明係關於一種資料分群方法，尤其是一種基於密度式之資料分群方法。

習知密度式資料分群方法主要係以資料點密度做為分群之依據。例如在給定的半徑R(Eps)參數及最少包含點(MinPts)參數下，若某一區域之資料點密度滿足設定之條件，即以該區域進行擴張搜尋，並逐步合併其他同樣密度滿足設定條件之區域，進而得到最終分群結果，習知較具代表性之密度式資料分群方法包含有DBSCAN、IDBSCAN及FDBSCAN等。該習知資料分群方法雖可有效的偵測不規則之圖形及濾除雜訊點，惟其分群所需時間亦相對增加。

以下針對幾種較具代表性的習知密度式資料分群方法進行說明：

1、DBSCAN資料分群方法：此法係由M. Ester等人於1996年所提出，步驟一係由一資料集中之數個資料點預先隨機選擇其中一資料點做為初始種子點；步驟二係判斷目前初始種子點之半徑R範圍內是否有超過最少包含點之資料點，若達到門檻值則將目前範圍內之資料點歸類到同一群集內並作為種子點，並從範圍內的其他種子點逐一進行擴張；步驟三係持續前述步驟二，直到該資料集中所有資料點都被歸類完畢為止。該習知DBSCAN資料分群方法是以較為合乎邏輯的密度判斷方式來進行分群，故可用以濾除雜訊及適用於不規則圖樣的資料點等；但因為必須對每個資料點進行繁複的密度判斷，故造成分群時間較為冗長。再且，需計算所有資料點與核心點之間的距離，因此將耗費大量時間，造成運算時間成本增加。

2、IDBSCAN資料分群方法：此法係由B. Borah等人於2004年所提出，其主要針對前述習知DBSCAN資料分群方法係循序判斷資料點進行擴散而耗時的行為進行改良，而採用經由減少查詢資料而提升分群速度的策略。該習知IDBSCAN資料分群方法係於擴張種子點半徑R之掃描範圍邊界上等距設置8個標記邊界點，該擴張種子點半徑R之掃描範圍內的資料點僅選取最靠近該8個標記邊界點之資料點作為種子點，如此減少種子點之數量，便可減少重複的擴張動作，以克服該習知DBSCAN資料分群方法中種子點數量過多而造成速度緩慢之缺點，惟所能減少的分群時間仍相當有限。

一般而言，該習知IDBSCAN資料分群方法雖可將一擴張種子點掃描範圍內之種子點數量減少至不大於8個，然而，由於離該擴張種子點較近的資料點覆蓋面積較大，若將該些資料點納入作為種子點，則會增加搜尋的時間成本。再且，即使該擴張種子點掃描範圍內之種子點數量係不大於8個，然而相鄰之種子點其掃描範圍重疊比例較高，造成其重複擴張之比例亦相當高，進而增加時間成本。

3、FDBSCAN資料分群方法：此法係由BING LIU等人於2006年所提出，其主要針對前述習知DBSCAN資料分群方法係循序判斷資料點進行擴散而耗時的行為進行改良，而採用經由減少查詢資料而提升分群速度的策略。該習知FDBSCAN資料分群方法係依據滿足最少包含點之各群集間交叉之資料點，判斷該資料點半徑R範圍內是否滿足最少包含點者，將各群集進行合併為同一群集，如此減少資料點搜尋動作，便可減少重複的擴張動作，以克服該習知DBSCAN資料分群方法中種子點數量過多而造成速度緩慢之缺點，惟所能減少的分群時間仍相當有限。

基於上述原因，有必要進一步改良上述習知資料分群方法。

本發明目的乃改良上述缺點，以提供一種基於密度式之資料分群方法，將資料點搜尋範圍限制於鄰近之網格，以達到提升分群效率的目的。

為達到前述發明目的，本發明所運用之技術內容如下：一種基於密度式之資料分群方法係包含一參數設定步驟，係設定一掃描半徑參數及一最少包含點參數；一切割步驟，係依據該掃描半徑參數將數個資料點之分佈空間進行切割，以獲得數個網格，使該些資料點分佈於該些網格內；一讀取步驟，係讀取一資料點作為一核心點，將該核心點所在網格及周圍鄰近網格定義為查詢範圍，且位於該查詢範圍內之資料點定義為查詢資料點；一搜尋步驟，分別計算該核心點與該些查詢資料點之間的距離，將距離小於或等於該掃描半徑參數之查詢資料點定義為鄰近資料點；一分群判斷步驟，係判斷該些鄰近資料點之數量是否小於該最少包含點參數，若判斷為「是」，則將該核心點及鄰近資料點視為雜訊點，並重新進行該讀取步驟，若判斷為「否」，則將該核心點及鄰近資料點視為同一群集，並進行一第一判斷步驟；該第一判斷步驟，係判斷該群集是否與其他群集互相重疊，若判斷為「是」，則進行一第二判斷步驟，若判斷為「否」，則將該群集視為新群集，並重新進行該讀取步驟；該第二判斷步驟，以位於該些群集之重疊區域內的資料點作為核心點，並判斷以此核心點為中心，以該掃描半徑參數作為半徑，進行掃描之範圍內的資料點數量是否小於該最少包含點參數，若判斷為「是」，則重新進行該讀取步驟，若判斷為「否」，則將該些群集合併為同一群集，並進行一終止判斷步驟；及該終止判斷步驟，係判斷是否所有資料點皆已完成分群或視為雜訊點，若判斷為「是」，則終止，若判斷為「否」，則重新進行該讀取步驟。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法，係藉由一電腦系統連接至少一資料庫作為執行架構，該資料庫中係存有一資料集1，該資料集1係由數筆資料點11所共同組成之群集，本發明之基於密度式之資料分群方法係包含一參數設定步驟S1、一切割步驟S2、一讀取步驟S3、一搜尋步驟S4、一分群判斷步驟S5、一第一判斷步驟S6、一第二判斷步驟S7及一終止判斷步驟S8。藉由上述步驟流程，可快速且正確的完成資料分群作業。

請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法之參數設定步驟S1，以於該電腦系統設定一掃描半徑(Eps)參數R及一最少包含點(Minpts)參數。為方便後續說明，於此將「掃描範圍」一詞定義為以該資料集1的任一個資料點11為中心，並以該掃描半徑參數R作為半徑進行掃描所涵蓋之範圍。

請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法之切割步驟S2，係依據該掃描半徑參數R將具有該數個資料點11之分佈空間進行切割，以獲得數個網格2，使該些資料點11分佈於該些網格2內，該掃描半徑參數R即代表該網格2之尺寸；舉例而言，若該資料集1分佈於二維空間，且具有包含所有資料點11之最小邊界範圍，則當該掃描半徑參數R設定為2時，即表示將該資料集1切割成由大小為2×2之網格構成；更詳言之，當該資料集1於二維空間中具有100×100之最小邊界範圍，且該掃描半徑參數R設定為2時，每一維度會切割成50等份，亦即切割成50×50且總數為2500個網格之矩陣。

請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法之讀取步驟S3，係由該資料集1讀取其中一筆資料點11作為一核心點12，並將該核心點12所在之網格2a及周圍之鄰近網格2b定義為一查詢範圍，且將位於該查詢範圍內之資料點11定義為查詢資料點13；舉例而言，以網格狀的分佈而言，該網格2a可以很快地找出周圍之鄰近網格2b(如圖所示為8個鄰近網格2b)。更詳言之，本發明所定義之「查詢範圍」便為該網格2a及該些鄰近網格2b所涵蓋之範圍。

請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法之搜尋步驟S4，係分別計算該核心點12與該些查詢資料點13之間的距離，將距離小於或等於該掃描半徑參數R之查詢資料點13定義為鄰近資料點14；藉此，該核心點12僅需針對該查詢範圍內之查詢資料點13計算距離，減少計算距離的次數，以節省於該資料集1中搜尋大量資料點11的時間成本。

請參照第1及2圖所示，本發明較佳實施例之基於密度式之資料分群方法之分群判斷步驟S5，係藉由判斷該些鄰近資料點14之數量是否小於該最少包含點參數，若判斷為「是」，則將該核心點12及該些鄰近資料點14視為雜訊點，並重新進行該讀取步驟S3；若判斷為「否」，則將該核心點12及該些鄰近資料點14視為同一群集，並進行一第一判斷步驟S6。

請參照第1及3圖所示，本發明較佳實施例之基於密度式之資料分群方法之第一判斷步驟S6，係藉由該分群判斷步驟S5所獲得之群集，判斷該群集是否與其他群集互相重疊，若判斷為「是」，則進行一第二判斷步驟S7，以判斷重疊之二群集是否合併為同一群集；若判斷為「否」，則將該群集視為新群集，並重新進行該讀取步驟S3。更詳言之，請參照第3圖所示，該鄰近資料點14係屬於一群集A之範圍，且藉由該分群判斷步驟S5所獲得之一群集B的範圍亦包含該鄰近資料點14，則判斷該群集A與該群集B重疊，並將重疊區域內之鄰近資料點14定義為交叉資料點14a，接著進行該第二判斷步驟S7。

請參照第1及3圖所示，本發明較佳實施例之基於密度式之資料分群方法之第二判斷步驟S7，係以位於該些群集之重疊區域內的交叉資料點14a作為一交叉核心點12a，並判斷此交叉核心點12a之掃描範圍內的鄰近資料點14數量是否小於該最少包含點參數，若判斷為「是」，則不進行群集合併之動作，並重新進行該讀取步驟S3；若判斷為「否」，則將該些重疊之群集進行合併視為同一群集，並進行一終止判斷步驟S8。更詳言之，作為交叉核心點12a之查詢範圍內相同亦具有數個查詢資料點13，分別計算此交叉核心點12a與該些查詢資料點13之間的距離，將距離小於或等於該掃描半徑參數之查詢資料點13定義為鄰近資料點14，藉此，減少此交叉核心點12a與所有資料點11計算距離的次數，以加速判斷群集間是否合併，有效提升分群的效率。

請參照第1圖所示，本發明較佳實施例之基於密度式之資料分群方法之終止判斷步驟S8，係判斷是否所有資料點11皆已完成分群或視為雜訊點，若判斷為「是」，則終止，即完成整個資料集1的分群動作；若判斷為「否」，則重新進行該讀取步驟S3。

請參照第4a至4f圖所示，舉例而言，於該讀取步驟S3中讀取一筆資料點11作為一核心點12，並藉由該搜尋步驟S4及該分群判斷步驟S5獲得一群集C1，且經由該第一判斷步驟S6判斷該群集C1沒有與其他群集互相重疊，則重新進行該讀取步驟S3至該第一判斷步驟S6，可獲得一群集C2及一群集C3，該群集C1、C2及C3並無互相重疊之區域，如圖4a所示。

請參照第4b及4c圖所示，當該讀取步驟S3再讀取一資料點11作為核心點12，經由該搜尋步驟S4及分群判斷步驟S5獲得一群集C4，並透過該第一判斷步驟S6判斷該群集C4與該群集C1互相重疊，使該重疊區域內具有數交叉資料點14a，再利用該第二判斷步驟S7判斷重疊之群集間是否合併為同一群集，在本實施例中，判斷該些交叉資料點14a之掃描範圍內的資料點11大於或等於該最少包含點參數，故將該群集C4合併至該群集C1(如圖4c所示)。

同理，請參照第4d至4f圖所示，藉由該第一判斷步驟S6判斷一群集C5同時與該群集C1及C2互相重疊，使該群集C5與C1具有數交叉資料點14a，該群集C5與C2亦具有數交叉資料點14a，在本實施例中，經由該第二判斷步驟S7判斷該群集C5與C1重疊區域內交叉資料點14a之掃描範圍內的資料點11大於或等於該最少包含點參數，故將該群集C5合併至該群集C1(如圖4e所示)，同理，將該群集C2合併至該群集C1(如圖4f所示)。

為驗證本發明之資料分群方法具有分群效率高之優點，於此針對資料集A至G進行分群，並與習知DBSCAN、IDBSCAN及FDBSCAN資料分群方法進行比較。其中，資料集A至G皆具有575,000筆資料點，且含75,000筆之雜訊點。其中，資料集A至G之圖形皆不相同，且所包含之正確群集數分別為10、5、14、4、4、2及4；此外，本次實驗模擬所使用之設備包含CPU[Intel Pentium D 3.4GHz]、記憶體[2GB]，並以Java作為演算法之實作程式語言；再者，本實驗於該參數設定步驟S1中，根據不同之資料集設定不同之擴張半徑R(Eps)參數及最少包含點(Minpts)參數如表一所示。

請參照表二所示，由習知資料分群方法與本發明之基於密度式之資料分群方法模擬結果比較，可得知本發明之基於密度式之資料分群方法可於維持相當高之分群正確率及雜訊濾除率的前提下，大幅降低執行時間的成本，可驗證本發明之資料分群方法確實有良好之分群效果。

本發明之基於密度式之資料分群方法，係藉由將數資料點之分佈空間切割成網格狀，使該些資料點分佈於該些網格內，並以核心點所在網格及周圍鄰近網格定義該查詢範圍，及在該查詢範圍內定義查詢資料點，如此，僅需計算該核心點與該些查詢資料點之間的距離以定義出鄰近資料點，以於該分群判斷步驟及第二判斷步驟中，加速判斷該核心點之掃描範圍內的鄰近資料點數量是否小於該最少包含點參數，有效降低搜尋該資料集中所有資料點之時間，使得本發明之基於密度式之資料分群方法具有提升分群效率的功效。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

[本發明]

1．．．資料集

11．．．資料點

12．．．核心點

12a．．．交叉核心點

13．．．查詢資料點

14．．．鄰近資料點

14a．．．交叉資料點

2．．．網格

2a．．．網格

2b．．．鄰近網格

C1．．．群集

C2．．．群集

C3．．．群集

C4．．．群集

C5．．．群集

第1圖：本發明較佳實施例之資料分群方法的流程圖。

第2圖：本發明較佳實施例之網格切割示意圖。

第3圖：本發明較佳實施例之合併判斷步驟示意圖。

第4a圖：本發明較佳實施例之群集合併示意圖。

第4b圖：本發明較佳實施例之群集合併示意圖。

第4c圖：本發明較佳實施例之群集合併示意圖。

第4e圖：本發明較佳實施例之群集合併示意圖。

第4f圖：本發明較佳實施例之群集合併示意圖。

Claims

一種基於密度式之資料分群方法，係藉由一電腦系統連接至少一資料庫作為執行架構，該資料分群方法包含：一參數設定步驟，係設定一掃描半徑參數及一最少包含點參數；一切割步驟，係依據該掃描半徑參數將具有數個資料點的分佈空間進行切割，以獲得數個網格，使該些資料點分佈於該些網格內；一讀取步驟，係讀取一資料點作為一核心點，將該核心點所在網格及周圍鄰近網格定義為查詢範圍，且位於該查詢範圍內之資料點定義為查詢資料點；一搜尋步驟，分別計算該核心點與該些查詢資料點之間的距離，將距離小於或等於該掃描半徑參數之查詢資料點定義為鄰近資料點；一分群判斷步驟，係判斷該些鄰近資料點之數量是否小於該最少包含點參數，若判斷為「是」，則將該核心點及鄰近資料點視為雜訊點，並重新進行該讀取步驟，若判斷為「否」，則將該核心點及鄰近資料點視為同一群集，並進行一第一判斷步驟；該第一判斷步驟，係判斷該群集是否與其他群集互相重疊，若判斷為「是」，則進行一第二判斷步驟，若判斷為「否」，則將該群集視為新群集，並重新進行該讀取步驟；該第二判斷步驟，以位於該些群集之重疊區域內的資料點作為一交叉核心點，並判斷以此交叉核心點為中心，以該掃描半徑參數作為半徑，進行掃描之範圍內的資料點數量是否小於該最少包含點參數，若判斷為「是」，則重新進行該讀取步驟，若判斷為「否」，則將該些群集合併為同一群集，並進行一終止判斷步驟；及該終止判斷步驟，係判斷是否所有資料點皆已完成分群或視為雜訊點，若判斷為「是」，則終止，若判斷為「否」，則重新進行該讀取步驟。
依申請專利範圍第1項所述之基於密度式之資料分群方法，其中，該第二判斷步驟中係分別計算該交叉核心點之查詢範圍內的查詢資料點與該交叉核心點之間的距離，將距離小於或等於該掃描半徑參數之查詢資料點定義為鄰近資料點。
依申請專利範圍第1或2項所述之基於密度式之資料分群方法，其中，該切割步驟中切割後之網格尺寸係為該掃描半徑參數。