TWI463341B

TWI463341B - 密度式資料分群方法

Info

Publication number: TWI463341B
Application number: TW101149387A
Authority: TW
Inventors: Cheng Fa Tsai; Po Yi She
Original assignee: Univ Nat Pingtung Sci & Tech
Priority date: 2012-12-22
Filing date: 2012-12-22
Publication date: 2014-12-01
Also published as: TW201426350A

Description

密度式資料分群方法

本發明係關於一種資料分群方法，尤其是一種密度式資料分群方法。

按，資料分群方法(Data Clustering Method)可分為切割式、階層式、網格式及密度式四種，其中，密度式資料分群方法具有「可應用於任意圖形」、「可有效濾除雜訊」及「分群效果穩定」等優點，而廣受青睞。

在習知密度式資料分群方法中，較具代表性的有DBSCAN(Ester et al.,1996)及IDBSCAN(Borah et al.,2004)資料分群方法。其中，DBSCAN係以各資料點周圍的密度是否滿足一密度條件(即一個半徑範圍內的資料點數量是否滿足最小包含點)，作為分群及擴張之依據，惟其參數設定不易，且重複擴張次數過多、擴張重覆面積較大，資料分群所需時間冗長。IDBSCAN係改良DBSCAN，於分群運算時，使用八組標記邊界點(Marked Boundary Object，MBO)作為擴張依據，所產生的種子點可大幅減少，因而改善DBSCAN運算時間過久的情形，惟IDBSCAN之擴張重複面積、擴張次數及運算時間仍有相當大的改善空間。

綜上所述，習知密度式資料分群方法雖可保持「可應用於任意圖形」、「可有效濾除雜訊」及「分群效果穩定」等優點，惟仍有「擴張次數多」及「運算效率低」等疑慮，在實際使用時更衍生不同限制與缺點，確有不便之處，亟需進一步改良，以提升其實用性。

本發明的目的乃改良上述之缺點，以提供一種密度式資料分群方法，係可藉由減少擴張次數及不需進行距離計算，以提高資料分群效率者。

本發明密度式資料分群方法，係藉由一電腦系統對一資料集的資料點進行分群作業，該方法包含：一參數設定步驟，設定一半徑參數及一最少包含點參數；一分群取樣步驟，由上述資料集中選取一資料點，若該選取的資料點尚未進行分群作業，則以該選取的資料點作為一圓心，再以該圓心與上述半徑參數共同圈圍一分群邊界，並在該分群邊界上等距定義二標記點，否則，重新進行該分群取樣步驟；一分群標記步驟，判斷上述分群邊界內的資料點數量是否大於或等於該最少包含點參數，若判斷為是，將該分群邊界內的資料點歸屬為同一群組，依據上述二標記點定義二種子點，並以該二標記點之連線作為該二種子點之標記線，若判斷為否，重新進行上述分群取樣步驟；一擴張取樣步驟，選取一尚未進行分群之種子點作為上述圓心，並以該圓心及上述半徑參數共同圈圍一擴張邊界，在該擴張邊界上等距新增二標記點，使該二新增標記點之連線垂直於該作為圓心之種子點的標記線；一擴張標記步驟，判斷上述擴張邊界內的資料點數量是否大於或等於該最少包含點參數，若判斷為是，將該擴張邊界內的資料點併入上述群組，依據該二新增標記點新增二種子點，並以該二新增標記點之連線作為該二新增種子點之標記線，若判斷為否，重新進行上述擴張取樣步驟；一擴張終止步驟，判斷是否仍有種子點未進行分群，若判斷為是，則重新進行上述擴張取樣步驟，若判斷為否，則進行一分群終止步驟；及上述分群終止步驟，判斷該資料集中是否仍有尚未進行分群作業的資料點，若判斷為是，則重新進行上述分群取樣步驟，若判斷為否，則完成該分群作業。

其中，上述分群標記步驟係在上述分群邊界內尋找最接近上述二標記點的二鄰近點作為上述二種子點。

其中，上述分群標記步驟係直接採用上述二標記點作為上述二種子點。

其中，上述分群取樣步驟係以(X_n ,Y_n )為上述圓心的座標，以r為上述半徑參數之值，並以((X_n +(r/√2)),(Y_n +(r/√2)))及((X_n -(r/√2)),(Y_n -(r/√2)))作為上述二標記點的座標。

其中，上述分群取樣步驟係以(X_n ,Y_n )為上述圓心的座標，以r為上述半徑參數之值，並以((X_n -(r/√2)),(Y_n +(r/√2)))及((X_n +(r/√2)),(Y_n -(r/√2)))作為上述二標記點的座標。

其中，上述分群取樣步驟係以(X_n ,Y_n )為上述圓心的座標，以r為上述半徑參數之值，並以(X_n ,(Y_n +r))及(X_n ,(Y_n -r))作為上述二標記點的座標。

其中，上述分群取樣步驟係以(X_n ,Y_n )為上述圓心的座標，以r為上述半徑參數之值，並以(X_n ,(Y_n +r))及 (X_n ,(Y_n -r))作為上述二標記點的座標。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：本發明全文所述之「分群邊界」，係指在一資料集中，以一資料點當作一圓心，並以一半徑參數為一半徑，定義該圓心及該半徑所形成的圓周為該分群邊界，以便依據資料點密度定義一群組，並據以取得二個種子點；如第1圖所示，其中，以一資料點11a作為一圓心w，並以該圓心w及半徑r作圓，藉以定義該圓之圓周為該分群邊界S，係本發明所屬技術領域中具有通常知識者可以理解。

本發明全文所述之「擴張邊界」，係指以一種子點當作一圓心，並以該半徑參數為一半徑，定義該圓心及該半徑所形成的圓周為該擴張邊界，以便該群組向外擴張時的依據；如第6圖所示，其中，該種子點A、B可依序作為該圓心w，以便由該圓心w作圓，藉以定義該圓之圓周為該擴張邊界S’，用以判斷該群組是否可擴張至不同擴張邊界S’，係本發明所屬技術領域中具有通常知識者可以理解。

本發明全文所述之「直徑」(diameter)，係指在幾何學中，穿過一圓(circle)之線段，該線段通過該圓之圓心，且該線段之二端點皆在該圓之圓周，使該圓周劃分為兩個等長之弧(arc)；如第7圖所示，倘若該圓為上述分群邊界S，則其直徑d的二端點在該分群邊界S上形成二標記點2a、2b(MBO)，另，倘若該圓為上述擴張邊界S’，則其直徑d’的二端點在該擴張邊界S’上形成二標記點2a’、2b’，係本發明所屬技術領域中具有通常知識者可以理解。

請參閱第1圖所示，其係本發明密度式資料分群方法較佳實施例之資料集示意圖。其中，本發明密度式資料分群方法較佳實施例可藉由一電腦系統(例如：各式電腦等)連接至少一資料庫(例如：各式資料儲存媒體等)作為執行架構，該資料庫中係存有一資料集1，該資料集1係由數筆資料點11共同組成之群集，該些資料點11可藉由該電腦系統執行「定義群組」及「擴張群組」等資料分群作業(data clustering operation)，詳細說明如後所述。

請參閱第2圖所示，其係本發明密度式資料分群方法較佳實施例之運作流程圖。該密度式資料分群方法包含一參數設定步驟S1、一分群取樣步驟S2、一分群標記步驟S3、一擴張取樣步驟S4、一擴張標記步驟S5、一擴張終止步驟S6及一分群終止步驟S7，分別敘述如後。

上述參數設定步驟S1，係設定一半徑參數(Eps)及一最少包含點參數(Minpts)。詳言之，該半徑參數係可作為一圓周的半徑，用以計算該圓周內的資料點11數量；該最少包含點參數係該圓周內最少需包含的資料點11數量。而且，該半徑參數與該最少包含點參數可由該電腦系統依據一預設值而設定，或採用人工輸入該電腦系統，例如：該半徑參數之範圍值設為7.5至10，該最少包含點參數之範圍值設為7至15，惟不以此為限。

其中，上述半徑參數與最少包含點參數的設定值較佳呈正相關(即該半徑參數越大，該最少包含點參數亦須增加)，以提高資料分群的正確率。在此實施例中，係由該電腦系統設定該半徑參數與該最少包含點參數作為實施態樣，惟不以此為限。

此外，當該電腦系統完成上述參數設定步驟S1後，進行上述分群取樣步驟S2。

請再參閱第2圖所示，其中，上述分群取樣步驟S2，係由上述資料集中選取一資料點，若該選取的資料點尚未進行分群作業，則以該選取的資料點作為一圓心，再以該圓，心與上述半徑參數共同圈圍一分群邊界，並在該分群邊界上等距定義二標記點(MBO)；否則，重新進行該分群取樣步驟S2。詳言之，如第1圖所示，該電腦系統可依序或隨機選取該資料集1中尚未分群的資料點11作為一起始點11a及該圓心w，並以該半徑參數作為一半徑r，待以該圓心w及半徑r作圓之後，定義該圓之圓周為該分群邊界S，並將該分群邊界S內所涵蓋的範圍視為一掃描範圍，用以判斷該分群邊界S內的資料點11數量是否滿足該最少包含點參數。在此實施例中，該電腦系統係由該資料集1中依序選取尚未分群的資料點11作為該圓心w作為實施態樣，例如：以第n筆資料點11作為該圓心w，n=1,2,3,...，惟不以此為限。此外，在該分群邊界S中，另，該二標記點的選定方式係舉例說明如後所述。

請參閱第3a至3d圖所示，其係本發明密度式資料分群方法較佳實施例之標記點示意圖(一)至(四)。其中，該電腦系統可在該分群邊界S選定任一直徑d之二端點作為二標記點2(例如：2a、2b)，使該二標記點2之間的弧長相等(即等距離)。

舉例而言，倘若該圓心w的座標以(X_n ,Y_n )為例，如第3a圖所示，上述二標記點2a及2b的座標可選為((X_n +(r/√2)),(Y_n +(r/√2)))及((X_n -(r/√2)),(Y_n -(r/√2)))；或者，如第3b圖所示，該二標記點2a及2b的座標可選為((X_n -(r/√2)),(Y_n +(r/√2)))及((X_n +(r/√2)),(Y_n -(r/√2)))；或者，如第3c圖所示，該二標記點2a及2b的座標可選為(X_n ,(Y_n +r))及(X_n ,(Y_n -r))；或者，如第3d圖所示，該二標記點2a、2b的座標可選為((X_n +r),Y_n )及((X_n -r),Y_n )，依此類推，可取得該二標記點2a及2b在該分群邊界S上的其餘座標。在此實施例中，係以該圓心w的座標(X_n ,Y_n )為(0,0)，該二標記點2a及2b的座標為((r/√2),(r/√2))及(-(r/√2),-(r/√2))作為實施態樣，惟不以此為限。

此外，當該電腦系統完成上述分群取樣步驟S2後，進行上述分群標記步驟S3。

請再參閱第2圖所示，其中，上述分群標記步驟S3，係判斷上述分群邊界內的資料點數量是否大於或等於上述最少包含點參數，若判斷為「是」，將該分群邊界內的資料點歸屬為同一群組，依據上述二標記點定義二種子點，並以該二標記點之連線作為該二種子點之標記線；若判斷為「否」，重新進行上述分群取樣步驟S2。詳言之，如第4圖所示，若該分群邊界S內的資料點11數量大於或等於該最少包含點參數，則滿足該最少包含點參數，該電腦系統可將該圓心w紀錄為一有效點(valid point)，例如：將該起始點11a紀錄為該有效點，並將該分群邊界S內的其他資料點11紀錄為該有效點的鄰近點11b，進而將該有效點及其鄰近點11b合併為同一群組，並依序賦予該群組一個新的編號，例如：C1、C2、...、Ci等，用以作為後續資料分群作業的基礎。接著，該電腦系統可依據該二標記點2a、2b定義二種子點，分別用以定義一擴張邊界。其中，該二種子點的定義方式係舉例如下，如第5圖所示，該電腦系統可直接採用該二標記點2a、2b作為該二種子點A、B，用以定義二擴張邊界S’，進而降低資料分群處理時間；或者，如第6圖所示，在該分群邊界S內，採用阿基米德距離公式〔即D=((x₁ -y₁ )² +(x₂ -y₂ )² )^1/2 〕，尋找最接近該二標記點2a、2b的二鄰近點11b作為該二種子點A、B，用以定義該二擴張邊界S’，進而提高資料分群正確率。在此實施例中，係於該分群邊界S內尋找最接近該二標記點2a、2b的二鄰近點11b作為該二種子點A、B。接著，如第4至6圖所示，該電腦系統係以該二標記點2a、2b之連線(即該半徑d)作為該二種子點之標記線m。之後，進行上述擴張取樣步驟S4。

另一方面，若該分群邊界S內的資料點11數量小於該最少包含點參數，則不滿足該最少包含點參數，該電腦系統可將該圓心w紀錄為一雜訊點(noise point)，並將該雜訊點視為已進行分群作業的資料點11，避免後續過程中重複選取該雜訊點，避免增加資料分群計算時間。之後，該電腦系統即可重新進行該分群取樣步驟S2，以便選取另一資料點11進行上述分群標記步驟S3之判斷，作為後續進行資料分群的依據。

請再參閱第2圖所示，其中，上述擴張取樣步驟S4，係選取一尚未進行分群之種子點作為上述圓心，並以該圓心及上述半徑參數共同圈圍一擴張邊界，在該擴張邊界上等距新增二標記點，使該二新增標記點之連線垂直於該作為圓心之種子點的標記線。詳言之，如第6圖所示，該電腦系統可由該種子點A、B位置判斷含有該起始點11a之群組周圍的資料點11是否可併入該群組，使該群組得以擴張。舉例而言，該電腦系統可採用先進先出(FIFO)方式，由該種子表中依序選取一個尚未使用的種子點(例如：依序採用該種子點A、B、...)作為圓心w’，再以該圓心w’及該半徑r定義該擴張邊界S’及掃描範圍，以便判斷該掃描範圍內的資料點11是否可併入該群組。之後，如第7圖所示，該電腦系統可以在該擴張邊界S’選定一直徑d’，該直徑d’垂直於該選取種子點之標記線m，並定義該直徑d’之二端點為另二標記點2a’、2b’。

此外，當該電腦系統完成上述擴張取樣步驟S4後，進行上述擴張標記步驟S5。

請再參閱第2圖所示，其中，上述擴張標記步驟S5，係判斷上述擴張邊界內的資料點數量是否大於或等於上述最少包含點參數，若判斷為「是」，將該擴張邊界內的資料點併入上述群組，依據該二新增標記點新增二種子點，並以該二新增標記點之連線作為該二新增種子點之標記線；若判斷為「否」，重新進行上述擴張取樣步驟S4。詳言之，如第7圖所示，若該擴張邊界S’內的資料點11數量大於或等於該最少包含點參數，該電腦系統可將該擴張邊界S’內的資料點11併入該群組。接著，該電腦系統可依據該擴張邊界S’之二標記點2a’、2b’定義另二種子點，以第8圖所示之種子點B為例，該種子點B所形成的擴張邊界S’之二標記點2a’、2b’可用以定義另二種子點C、D，並以該二標記點2a’、2b’之連線(即該半徑d’)作為該另二種子點C、D之標記線m’。之後，進行上述擴張終止步驟S6。

另一方面，若該擴張邊界S’內的資料點11數量小於該最少包含點參數，則該電腦系統可將該當作圓心w的種子點設為「已使用過」。之後，該電腦系統重新進行該擴張取樣步驟S4，以便選取另一種子點進行上述擴張標記步驟S5之判斷，作為後續進行群組擴張的依據。

請再參閱第2圖所示，其中，上述擴張終止步驟S6，係判斷是否仍有種子點未進行分群，若判斷為「是」，重新進行上述擴張取樣步驟S4，若判斷為「否」，進行上述分群終止步驟S7。詳言之，倘若該電腦系統判斷該種子表中仍有尚未使用的種子點，則表示該群組仍可繼續擴張，進而重新進行該擴張取樣步驟S4，以便繼續擴張該群組；否則，表示該群組已無法繼續擴張，繼續進行該分群終止步驟S7，以便判斷該資料集1是否已完成資料分群作業。

請再參閱第8圖所示，其中，當該電腦系統重新進行上述擴張取樣步驟S4時，可依序採用種子點C、D形成該擴張邊界S”，以便進行上述擴張過程，以種子點C形成該擴張邊界S”為例，若該擴張邊界S”內的資料點11數量滿足該最少包含點參數，則該電腦系統可將該擴張邊界內的資料點併入該群組，依據該擴張邊界S”之二標記點2a”、2b”定義另二種子點E、F，並以該二標記點2a”、2b”之連線為該另二種子點E、F之標記線m”。

請再參閱第2圖所示，其中，上述分群終止步驟S7，係判斷該資料集中是否仍有尚未分群的資料點，若判斷為「是」，則重新進行上述分群取樣步驟S2，若判斷為「否」，則完成該資料集的資料分群作業。詳言之，如第1圖所示，倘若該電腦系統判斷該資料集1中仍有尚未分群的資料點11，則重新進行該分群取樣步驟S2，以便將未分群的資料點11分群為其他群組；否則，表示已完成該資料集1之所有資料點11的分群作業。

因此，在本發明密度式資料分群方法較佳實施例中，該電腦系統可依據目前擴張階段之種子點的標記線，而在下一擴張階段時，於該種子點的擴張邊界取得一個垂直於上一擴張階段的標記線及標記點。如此一來，在進行各階段的擴張過程中，可避免上述分群邊界及擴張邊界的重疊面積過大，同時，可以有效降低擴張過程的進行次數，有助於提高資料正確率及降低資料分群所需時間。

為驗證本發明密度式資料分群方法較佳實施例具有執行時間快、分群正確率高及雜訊濾除率佳等優點，在此針對資料集D1至D5進行分群，並與習知DBSCAN及IDBSCAN資料分群方法進行比較。

其中，資料集D1至D5所包含之群集數分別為10、5、 4、4及2，且各資料集之圖形皆不相同；資料集D1至D5皆具有11,500筆資料點，且另含1,500筆之雜訊點。

此外，請參照表一所示，其係本發明於該步驟S1中所設定之半徑參數及最少包含點參數。

再者，本次實驗模擬所使用之設備包含CPU〔Intel(R)Core(TM)2CPU 6420 2.13GHz〕、記憶體〔3.24GB〕，並以Windows7作業系統及Java程式語言作為本發明密度式資料分群方法較佳實施例的實作工具。

請參照表二所示，其係習知資料分群方法與本發明密度式資料分群方法所進行之模擬結果。

請再參照表二所示，其中，本發明較佳實施例之測試方式(一)係於上述分群取樣步驟S2中採用如第3a圖所示的標記點位置，本發明較佳實施例之測試方式(二)係於該分群取樣步驟S2中採用如第3c圖所示的標記點位置，相較習知資料分群方法與本發明密度式資料分群方法較佳實施例之測試方式(一)、(二)之模擬結果，可得知本發明密度式資料分群方法較佳實施例在維持相當高之分群正確率及雜訊濾除率的前提下，可以大幅降低種子點數量，並藉此減少擴張判斷次數及執行時間成本，同時，可驗證本發明密度式資料分群方法較佳實施例確實針對群集內不同密度之區域能有良好之分群效果。

藉由前揭之技術手段，本發明密度式資料分群方法較佳實施例的主要特點列舉如下：首先，進行上述參數設定步驟，設定上述半徑參數及最少包含點參數；接著，進行上述分群取樣步驟，由該資料集中選取一資料點，若該選取的資料點尚未進行分群作業，則以該選取的資料點作為圓心，並以該圓心及上述半徑參數共同圈圍該分群邊界，在該分群邊界上等距定義二標記點，否則，重新進行該分群取樣步驟；接著，進行上述分群標記步驟，判斷上述分群邊界內的資料點數量是否大於或等於上述最少包含點參數，若判斷為「是」，將該分群邊界內的資料點歸屬為同一群組，依據該二標記點定義二種子點，並以該二標記點之連線為該二種子點之標記線，若判斷為「否」，重新進行該分群取樣步驟；接著，進行上述擴張取樣步驟，係依序選取一尚未進行分群之種子點作為該圓心，並以該圓心及上述半徑參數共同圈圍一擴張邊界，在該擴張邊界上等距新增二標記點，使該二新增標記點之連線垂直於該作為圓心之種子點的標記線；接著，進行上述擴張標記步驟，判斷上述擴張邊界內的資料點數量是否大於或等於上述最少包含點參數，若判斷為「是」，將該擴張邊界內的資料點併入該群組，依據該二新增標記點新增二種子點，並以該二新增標記點之連線為該二新增種子點之標記線，若判斷為「否」，重新進行該擴張取樣步驟；接著，進行上述擴張終止步驟，判斷是否仍有種子點，若判斷為「是」，則重新進行該擴張取樣步驟，若判斷為「否」，則進行上述分群終止步驟；接著，進行該分群終止步驟，判斷該資料集中是否仍有未分群的資料點，若判斷為「是」，則重新進行該分群取樣步驟S2，若判斷為「否」，則完成該資料集的資料分群作業。

本發明密度式資料分群方法較佳實施例，係可藉由減少擴張次數及不需進行距離計算，以提高資料分群效率者，因此，具有提高資料分群效率的功效。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

〔本發明〕

1‧‧‧資料集

11‧‧‧資料點

11a‧‧‧起始點

11b‧‧‧鄰近點

2‧‧‧標記點

2a,2b‧‧‧標記點

2a’,2b’‧‧‧標記點

2a”,2b”‧‧‧標記點

A,B,C‧‧‧種子點

D,E,F‧‧‧種子點

S‧‧‧分群邊界

S’,S”‧‧‧擴張邊界

S1‧‧‧參數設定步驟

S2‧‧‧分群取樣步驟

S3‧‧‧分群標記步驟

S4‧‧‧擴張取樣步驟

S5‧‧‧擴張標記步驟

S6‧‧‧擴張終止步驟

S7‧‧‧分群終止步驟

X,Y‧‧‧座標軸

d,d’‧‧‧直徑

m,m’,m”‧‧‧標記線

r‧‧‧半徑

w,w’‧‧‧圓心

第1圖：本發明密度式資料分群方法較佳實施例之資料集示意圖。

第2圖：本發明密度式資料分群方法較佳實施例之運作流程圖。

第3a圖：本發明密度式資料分群方法較佳實施例之標記點示意圖(一)。

第3b圖：本發明密度式資料分群方法較佳實施例之標記點示意圖(二)。

第3c圖：本發明密度式資料分群方法較佳實施例之標記點示意圖(三)。

第3d圖：本發明密度式資料分群方法較佳實施例之標記點示意圖(四)。

第4圖：本發明密度式資料分群方法較佳實施例之標記線示意圖。

第5圖：本發明密度式資料分群方法較佳實施例之擴張邊界示意圖(一)。

第6圖：本發明密度式資料分群方法較佳實施例之擴張邊界示意圖(二)。

第7圖：本發明密度式資料分群方法較佳實施例之擴張邊界示意圖(三)。

第8圖：本發明密度式資料分群方法較佳實施例之擴張邊界示意圖(四)。