TWI463339B - 資料分群方法 - Google Patents

資料分群方法 Download PDF

Info

Publication number
TWI463339B
TWI463339B TW100117239A TW100117239A TWI463339B TW I463339 B TWI463339 B TW I463339B TW 100117239 A TW100117239 A TW 100117239A TW 100117239 A TW100117239 A TW 100117239A TW I463339 B TWI463339 B TW I463339B
Authority
TW
Taiwan
Prior art keywords
grouping
data
point
points
density
Prior art date
Application number
TW100117239A
Other languages
English (en)
Other versions
TW201248431A (en
Inventor
Cheng Fa Tsai
Chian Ru Han
Original Assignee
Univ Nat Pingtung Sci & Tech
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Pingtung Sci & Tech filed Critical Univ Nat Pingtung Sci & Tech
Priority to TW100117239A priority Critical patent/TWI463339B/zh
Publication of TW201248431A publication Critical patent/TW201248431A/zh
Application granted granted Critical
Publication of TWI463339B publication Critical patent/TWI463339B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

資料分群方法
本發明係關於一種資料分群方法,尤其是一種先進行切割分群再進行不同區域之密度分群的資料分群方法。
資料分群技術已廣泛的應用於資料探勘(Data Mining)領域中,其中,切割式(Partitioning)資料分群技術及密度式(Density-based)資料分群技術係為較常見之資料分群方法。
習知切割式資料分群方法,其主要係預先尋找各資料群集之中心點,再計算各個資料物件間的距離,以歸類而成分群之效果,代表性演算法包括有K-means、PAN、CLARA及CLARANS等。該習知切割式資料分群方法雖具有分群快速之優點,惟其分群結果並不穩定且無法濾除雜訊點。
習知密度式資料分群方法主要係以資料點密度做為分群之依據。例如在給定的參數ε(半徑)及MinPts(最少包含點)下若某一區域之密度滿足設定之條件,即以該區域進行擴張搜尋,並逐步合併其他同樣密度滿足設定條件之區域,進而得到最終分群結果,代表性演算法包括有DBSCAN、IDBSCAN或GDBSCAN等。該習知分群方法雖可有效的偵測不規則之圖形及濾除雜訊點,惟其分群所需時間亦相對增加。
以下針對幾種習用資料分群技術進行說明:
1、K-means資料分群方法:於1967年由McQueen所提出,屬於切割式分群法;步驟一係預先隨機選擇k個資料點x(k即進行分群作業後所產生之資料群集數量),並將該k個資料點x設定為k個資料群集的初始形心點;步驟二係依據各初始形心點計算各資料點x彼此間之遠近距離,亦即對每一個資料點x尋找最接近的初始形心點,並將各資料點x分別加入最接近的初始形心點,以進行分群動作;步驟三係由目前的各資料點x分佈重新計算出較佳的形心點;最後係重覆步驟二及步驟三,直至所有資料群集的形心點皆已不再變動時,即終止資料分群作業。然而,雖然習知K-means資料分群方法的分群速度相當快速,但因為一開始隨機選取初始形心點的因素,使得每次分群結果不甚穩定,且在進行步驟二的過程中,僅採用簡單的距離判斷,故造成分群結果不佳。
2、IDBSCAN資料分群方法:此法係由B.Borah等學者於2004年所提出之密度式資料分群技術,其主要針對前述習知密度式資料分群方法係循序判斷資料點進行擴散而耗時的行為進行改良,而採用經由減少查詢次數而提升分群速度的策略。該習知IDBSCAN資料分群方法係於擴張種子點半徑ε之掃描範圍邊界上等距設置8個標記邊界點,該擴張種子點半徑ε之掃描範圍內的資料點僅選取最靠近該8個標記邊界點之資料點作為種子點,如此減少種子點之數量,便可減少重複的擴張動作,以克服習知密度式資料分群方法中種子點數量過多而造成速度緩慢之缺點,惟所能減少的分群時間仍相當有限。
3、DDCT資料分群方法:DDCT資料分群方法係由黃怡菁等學者所提出之密度式資料分群方法,該習知DDCT資料分群方法係結合IDBSCAN的標記邊界點概念,有效率的減少了擴張的次數以降低時間成本的耗費。該習知DDCT演算法主要設定參數包含半徑、最少包含點及密度容忍值,再以任一資料點為中心點,以所設定的半徑畫圓,若圓內所包含的資料點數大於最少包含點,則將該點視為核心點,再將該擴張種子點半徑之掃描範圍內的資料點僅選取最靠近該4個標記邊界點之資料點作為種子點,再用公式判斷該4種子點所形成之圓內資料密度是否與核心點所形成之圓內資料密度相同,藉此判斷是否為同一群集,惟該執行時間之減少仍然不足。
4、NPUST資料分群方法係由葉恆甫等學者所提出之分群方法,主要先利用空間分割的技術概念,再進行密度式分群方法,習知單純使用密度式分群方法必須對所有資料點作擴張詢問的動作,對N個資料點做一次完整的分群,需要有N×N個擴張詢問的動作,耗費相當多的時間,若將該資料空間切割成若干子空間,每次擴張詢問只須針對各個子空間內的資料點,該子空間的資料點不需再與另一子空間之資料點作擴張詢問的動作,以減少資料處理的時間,該分群方法雖然減少了整體運算的速度,惟該第二步驟的密度式分群方法仍須針對該各個子空間內所有資料點作擴張詢問的動作,需要花費相當龐大的時間成本。
一般而言,上述各種習知資料分群方法各有其特點,在分群方法的組合上不夠完善,造成其具有分群執行時間過長之缺點。基於上述原因,有必要進一步改良上述習知資料分群方法。
本發明係提供一種資料分群方法,以增加切割式演算法之分群精確度並減少密度式分群演算法之擴張查詢次數。
為達到前述發明目的,本發明所運用之技術手段包含有:一種資料分群方法,係包含:一參數設定步驟,係設定一群數參數、一半徑參數、一最小包含點參數及一密度容忍值參數;一切割分群步驟,係以一切割分群演算法對數個資料點進行分群,並獲得數個第一群集,完成後進行一密度分群步驟;該密度分群步驟,係以各個第一群集為對象,利用一密度分群演算法分別對各個第一群集內之資料點進行分群,以獲得數個第二群集,完成後進行一群數判斷步驟;該群數判斷步驟,係判斷該第二群集之數目是否等於所設定之該群數參數,若判斷為「是」,則終止;若判斷為「否」,則進行一合併步驟;及該合併步驟,係將密度最接近的二個第二群集進行合併為一個第二群集,完成後重新進行該群數判斷步驟。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下:請參照第1、2圖所示,本發明較佳實施例之資料分群方法,係藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集1,該資料集1係由數筆資料點11所共同組成之群集,本發明較佳實施例之資料分群方法係包含一參數設定步驟S1設定所需之各項參數、一切割分群步驟S2將該資料集1分群成若干子空間、一密度分群步驟S3對各子空間內之數資料點11進行分群、一群數判斷步驟S4判斷群集數量;及一合併步驟S5,以將相鄰之群集合併。
請參照第1、2圖所示,本發明較佳實施例之資料分群方法之參數設定步驟S1,以於該電腦系統設定一群數參數K、一掃描半徑(Eps)參數R、一最少包含點(Minpts)參數及一容忍值參數α。更詳言之,該群數參數K係執行該切割分群步驟S2所依據的分群數量,也是供該合併步驟S5判斷是否合併群集的依據,該參數的大小值視使用者欲得到多少群集或該資料庫1中的資料點11的分布狀況而定。掃描半徑參數R及最少包含點參數較佳有著正相關的特性,當該掃描半徑參數R的值設定愈大,該最少包含點參數的值也跟著設定愈大;反之,當該掃描半徑參數R的值設定愈小,該最少包含點參數的值也跟著設定愈小,藉此提高資料分群的正確率。此外,該容忍值參數α係介於0到1之間。為方便後續說明,於此將「掃描範圍A」一詞定義為以該資料集1的任一個資料點11為中心,並以該掃描半徑參數R作為半徑進行掃描所涵蓋之範圍;且將「掃描邊界B」一詞定義為以該資料集1的任一個資料點11為中心,並以大於該掃描半徑參數R、小於該掃描半徑參數R之兩倍的R’作為半徑進行畫圓所形成之圓周邊界。
請參照第1至3圖所示,本發明較佳實施例之切割分群步驟S2係利用一切割式分群演算法對該數資料點11進行初步分群,以將該些資料點11分群至數個第一群集2。如此,透過該切割式演算法對該數個資料點11進行快速分群,便可大幅降低後續密度式演算法之時間成本。該切割式分群演算法係可選擇為K-means、PAN、CLARA或CLARANS等,舉例而言,本實施例之切割式分群演算法係選擇為K-means,該K-means分群方法詳述如下。
請再參照第1至3圖所示,本實施例之切割分群步驟S2係由該數個資料點11中隨機選取K個形心點111。該形心點111之數量K係等於使用者於參數設定步驟S1所設定之群數K。接著係將各個資料點11分別與該數個形心點111進行距離運算,並將資料點11分群至距離最近之形心點111。如此,便可將該所有資料點11分為K群。接著求出該K群資料點11之各個質心,以分別作為新的形心點111。最後判斷該新的形心點111與舊的形心點111是否相同,若相同則結束該切割分群步驟S2;否則重複上述形心點的尋找與判斷動作。
如此,便可利用該切割分群步驟S2對該所有資料點11進行初步分群,以獲得K個之第一群集2。
請參照第1、3及4圖所示,本發明較佳實施例之密度分群步驟S3係以各個第一群集2為對象,以一密度式分群演算法分別對各個第一群集2內之資料點11進行分群,以獲得數個第二群集3。更詳言之,該密度式分群演算法係可選擇為IDBSCAN或DDCT等,舉例而言,本實施例係選擇以DDCT演算法對該K個第一群集2內之資料點11進行分群,惟本實施例之密度分群步驟S3之擴張方式與該DDCT演算法略有不同,本實施例之該密度分群步驟S3詳述如下:請參照第4及5圖所示,DDCT演算法之第一讀取步驟S31,係讀取該各個第一群集2內之任一未經處理之資料點11,並各設為一初始核心點12,再定義以該各個第一群集2中的初始核心點12之掃描半徑R內之掃描範圍A的所有資料點11係為鄰近點13;更詳言之,計算該初始核心點12與該資料集1中所有資料點11的距離,將各第一群集2中距離小於或等於該掃描半徑參數R之資料點11定義為鄰近點13。
請參照第4至6圖所示,DDCT演算法之第一判斷步驟S32,係判斷該初始核心點12之掃描範圍A內的鄰近點13數量是否小於該最少包含點參數,若判斷為「是」,則將該初始核心點12及該些鄰近點13皆視為雜訊,並重新進行該第一讀取步驟S31,且不再讀取已被視為雜訊之資料點11;若判斷為「否」,則於該初始核心點12之掃描邊界B處標記數個分群邊界記號14,再分別選取位於各該分群邊界記號14之最鄰近資料點13作為分群鄰近點141,完成後進行一第二判斷步驟S33。舉例而言,本實施例係以該初始核心點12為圓心,以大於該掃描半徑R之邊界半徑R’為半徑畫出一圓周之掃描邊界B,且較佳係於該掃描邊界B上依順時針方向依序等距設置4個分群邊界記號14b、14d、14f、14h,該分群邊界記號14皆係位於該初始核心點12之掃描邊界B上。接著,再以該分群邊界記號14b、14d、14f、14h進行掃描,舉例而言,先以該分群邊界記號14b進行掃描,由該數個鄰近點13中,選取位於該分群邊界記號14b之掃描範圍A內,且最靠近該分群邊界記號14b之鄰近點13作為該分群鄰近點141,該分群邊界記號14d、14f、14h亦以相同方式進行掃描,並分別選取對應之鄰近點13作為該分群鄰近點141。如第6圖所示,該分群邊界記號14b、14d、14f、14h皆有相對應之分群鄰近點141,分別為分群鄰近點141b、141d、141f、141h。
請參照第4及6圖所示,DDCT演算法之第二判斷步驟S33,係依據該容忍值參數α判斷該些分群鄰近點141個別之掃描範圍A分別與該初始核心點12之掃描範圍A是否具有相同之資料點密度,若判斷為「是」,則將數個分群邊界記號14標記成數個第一邊界記號15,將該分群鄰近點141定義為第一種子點151並加入一種子列表,再將該初始核心點12之掃描範圍A及該些第一種子點151之掃描範圍A內所有鄰近點13視為同一群集;若判斷為「否」,則將該初始核心點12視為群集邊界點152,重新進行該第一讀取步驟S31,且不再讀取已被視為群集邊界點152之資料點11。藉此,以確保每一群集皆具有相同之資料點密度,進而使各群集之間具有不同之資料點密度,以使本發明能針對不同密度之區域進行有效分群之作業。更詳言之,係如以下所述之公式(1)或(2)判斷是否具有相同之資料點密度:
其中,m0 為一資料點11之掃描範圍A內鄰近點13的數量,mi 為另一資料點11之掃描範圍A內鄰近點13的數量,α為該容忍值參數。
請再參照第6圖所示,舉例而言,在DDCT演算法之第二判斷步驟S33中,上述公式(1)及(2)中的m0 係代表該初始核心點12之掃描範圍A內鄰近點13的數量,mi 係代表該些分群鄰近點141之掃描範圍A內鄰近點13的數量;更詳言之,以該分群鄰近點141b而言,計算該分群鄰近點141b與該資料集1中所有資料點11的距離,距離小於或等於該掃描半徑參數R之資料點11係為該分群鄰近點141b之掃描範圍A內的鄰近點13,若該初始核心點12與該分群鄰近點141b判斷滿足上述公式(1)或(2)其中一個,即代表該初始核心點121與該分群鄰近點141b具有相同之資料點密度;同理,該些分群鄰近點141d、141f及141h亦如上所述之方法分別與該初始核心點121進行比較判斷,若有其中一個分群鄰近點141與該初始核心點12比較判斷不符合上述公式(1)或(2)其中一個,則將該初始核心點12視為群集邊界點152,並重新進行該第一讀取步驟S31。
請再參照第7圖所示,更詳言之,若所有分群鄰近點141與該初始核心點12比較判斷皆具有相同之資料點密度時,則於該初始核心點12之掃描邊界B的邊界上,依順時針方向依序等距設置8個第一邊界記號15a、15b、15c、15d、15e、15f、15g及15h,計算該些第一邊界記號15a、15b、15c、15d、15e、15f、15g及15h與該初始核心點12之掃描範圍A內所有鄰近點13之間的距離,分別將距離最接近該些第一邊界記號15a、15b、15c、15d、15e、15f、15g及15h之鄰近點13定義為第一種子點151a、151b、151c、151d、151e、151f、151g及151h並加入該種子列表中;此外,若二個以上之第一邊界記號15所對應最接近之第一種子點151係為相同,則僅需將該第一種子點151加入該種子列表一次。藉此,僅分別選取最靠近該些第一邊界記號15之一個第一種子點151加入該種子列表中,可篩選去除掉較靠近該初始核心點12之鄰近點13,便可於維持高分群準確率的前提下,有效提升於相同密度之區域進行擴張的動作。
請再參照第7圖所示,舉例而言,以該第一種子點151b而言,計算該第一種子點151b與該資料集1中所有資料點11的距離,距離小於或等於該掃描半徑參數R之資料點11係為該第一種子點151b之鄰近點13,同理,該些第一種子點151a、151c、151d、151e、151f、151g及151h亦如上所述方法,找出各自掃描範圍A內的鄰近點13,並將所有第一種子點151之掃描範圍A及該初始核心點12之掃描範圍A內所有鄰近點13皆視為同一群集。
請再參照第6及7圖所示,更詳言之,在本實施例中,若於該第二判斷步驟S33判斷後,該初始核心點12之掃描範圍A與該數分群鄰近點141之掃描範圍A皆具有相同之資料點密度時,定義該數分群鄰近點141為數第一種子點151,並將該初始核心點12之掃描範圍A與該數第一種子點151之掃描範圍A內所有鄰近點13皆視為同一群集;由於該數第一種子點151b、151d、151f及151h之掃描範圍A與該數第一種子點151a、151c、151e及151g之掃描範圍A重疊比例較高,因此,以4個第一種子點151之掃描範圍A,來推得8個第一種子點151之掃描範圍A皆與該初始核心點12具有相同之資料點密度以進行分群,有效減少於該初始核心點12之掃描範圍A內所有鄰近點13與該初始核心點12進行比較判斷之次數,進而提升於相同密度之區域進行有效分群之作業。
請參照第4、8及9圖所示,DDCT演算法之第二讀取步驟S34,係於該種子列表讀取一第一種子點151,且在該第一種子點151之距離R’處的掃描範圍B上,標記一距離初始核心點12最遠之記號為種子邊界記號16,並將距離該種子邊界記號16之掃描範圍A內最接近之鄰近點13定義為種子核心點161,再於該種子核心點161之掃描邊界B上取數第二邊界記號17與第二種子點171;更詳言之,本實施例係於該第一種子點151之距離R’且離初始核心點12最遠處,標記一種子邊界記號16,並將最鄰近該種子邊界記號16之鄰近點13設為種子核心點161,在該種子核心點161之掃描邊界B上依順時針方向依序等距設置4個第二邊界記號17b、17d、17f及17h,分別計算該些第二邊界記號17b、17d、17f及17h之掃描範圍A與該種子核心點161之掃描範圍A內所有鄰近點13之間的距離,分別將距離最接近該些第二邊界記號17b、17d、17f及17h之鄰近點13定義為第二種子點171b、171d、171f及171h。
請再參照第4、9及10圖所示,DDCT演算法之第三判斷步驟S35,係依據該容忍值參數α判斷該數第二種子點171之掃描範圍A是否皆具有相同之資料點密度,若判斷為「是」,則將該數第二種子點171之掃描範圍A與該種子核心點16之掃描範圍A內所有鄰近點13視為同一群集,並分別於該數第二種子點171之距離R’且離該種子核心點16最遠處標記數第三邊界記號18,將該些第二種子點171個別之掃描範圍A內最接近該第三邊界記號18之鄰近點13加入該種子列表,再重新進行該第二讀取步驟S34;若判斷為「否」,則將該第二種子點171視為群集邊界點152,再讀取其他第二種子點171,直到該種子表內以無任何種子點可供讀取時,便進行一第一終止判斷步驟S36。
請再參照第9圖所示,更詳言之,係以上述之公式(1)或(2),判斷該數第二種子點171b、171d、171f及171h之掃描範圍A內是否具有相同之資料點密度。舉例而言,係以該第二種子點171b及171f為一組進行比較,在本實施例之第三判斷步驟S35中,上述公式(1)及(2)中的m0 係代表該第二種子點171b之掃描範圍A內鄰近點13的數量,mi 係代表該第二種子點171d之掃描範圍A內鄰近點13的數量;若該第二種子點171b及171d滿足上述公式(1)或(2)其中一個,即代表該第二種子點171b及171d具有相同之資料點密度;同理,如上所述之方法,該第二種子點171b係與該第二種子點171f為一組進行比較。更詳言之,在本發明之第三判斷步驟S35中,必須每一組第二種子點171皆滿足上述公式(1)或(2)其中一個,即判斷為「是」,反之,若有其中一組第二種子點171不滿足上述公式(1)或(2)其中一個,則判斷為「否」。
此外,請再參照第10圖所示,於該些第二種子點171之掃描範圍A與該種子核心點16之掃描範圍A內所有鄰近點13視為同一群集之情形下,便於該種子核心點16之掃描邊界標記8個第二邊界記號17a、17b、17c、17d、17e、17f、17g及17h,並在該數第二邊界記號17a至17h之最鄰近處選取數第二種子點171a、171b、171c、171d、171e、171f、171g及171h,並將該數第二種子點17a至17h之掃描範圍A所涵蓋的鄰近點13皆視為與該種子核心點16之掃描範圍A內之鄰近點13為同一群集,並於該第二種子點171之距離R’且離該種子核心點16最遠處標記一第三邊界記號18,將距離該第三邊界記號18最近之鄰近點13加入該種子列表中;舉例而言,該些第二種子點171a至171h以如上所述之方法,分別於各自掃描範圍A的邊界上標記該些第三邊界記號18a至18h,將距離該些第三邊界記號18最接近之鄰近點13加入該種子列表;藉此,以達到減少擴張時種子點的數量,有效提升於密度相同之區域進行擴張的動作。
請參照第4圖所示,DDCT演算法之第一終止判斷步驟S36,係判斷該種子列表是否所有種子皆已完成該第二讀取步驟S34,若判斷為「是」,即完成一個群集的分群動作,並進行一第二終止判斷步驟S37;若判斷為「否」,則重新進行該第二讀取步驟S34。更詳言之,該種子列表中之種子於完成該第二讀取步驟S34後即從該種子列表中刪除,然而,於該第三判斷步驟S35中持續會有數鄰近點13加入該種子列表,因此,該種子列表係不斷有鄰近點13被刪除或加入,直到該種子列表中無任何種子可進行該第二讀取步驟S34,即完成一個群集之分群動作,並進行該第二終止判斷步驟S37。
請再參照第4圖所示,DDCT演算法之第二終止判斷步驟S37,係依一終止條件判斷是否終止;更詳言之,該終止條件係判斷是否所有資料點11皆已完成分群或視為雜訊,若判斷為「是」,即完成該密度分群步驟S3之分群動作;若判斷為「否」,則重新進行該第一讀取步驟S31。
請參照第1及11圖所示,完成該密度分群步驟S3後,本發明較佳實施例之資料分群方法接著進行一群數判斷步驟S4,係判斷該第二群集3之數目是否等於該群數參數K之數目,若判斷為「是」,則完成所有分群步驟;若判斷為「否」,則進行一合併步驟S5。
請參照第1、11至13圖所示,本發明較佳實施例之合併步驟S5係利用群集的密度將距離最接近的二個第二群集3進行合併為一個第二群集3,以使該第二群集3之數目減少1,完成後進行該群數判斷步驟S4。更詳言之,本實施例係利用密度分群步驟S3得到各個第二群集3的群集邊界點151,並將群集間最近密度之二個第二群集3合併為一群,如此,該第二群集3之數目便會減少1,再重新進行該群數判斷步驟S4,直至該第二群集3之數目與群數參數K相同,以符合該使用者之需求;再者,該合併步驟S5將最近密度之群集進行合併,以避免因切割分群步驟S2及密度分群步驟S3分群之落差,而產生之錯誤分群。
舉例而言,若該資料點11之數量為N個,直接以習用密度式分群演算法進行分群,則需掃描N次,而每一資料點11又必須對所有資料點11進行擴張查詢,因此擴張查詢次數高達N×N次;而透過本發明之切割分群步驟S2將該些資料點11進行初步切割後,縮小擴張查詢的區域,每次只須針對子空間內作區域性的擴張查詢,因此本發明之資料分群方法可大幅降低該密度式分群步驟S3中之擴張查詢次數,此外,本發明於密度分群步驟S3摒棄所有資料點11的擴張詢問,採用8個種子點進行擴張詢問的動作,並重新定義不同於DDCT的8個標記邊界之種子點,以半徑更遠之8個種子點代替,減少資料點11的重複詢問及判斷,最後再利用群集邊界點152的位置與分群參數的設定,完成整體的分群動作,本發明不但可減少重複判斷的問題,更能有效的降低時間成本與保持分群品質。
請參照第1圖所示,為證明本發明所提出之資料分群法確實具有大幅縮減執行時間之效果,以下係以本發明第一實施例與其他習知資料分群方法進行測試比對。該習知資料分群方法包括IDBSCAN演算法及DDCT演算法,且以3個資料集進行測試,分別為資料集1至3,該資料集1至3之資訊如表1所示。其中,群集數係為該資料集本身所包含的群集數量。表2係為實驗參數設定表。
請參照表3所示,其係習用分群演算法與本發明分群演算法之模擬結果。由結果可得知,IDBSCAN雖然較快速,但雜訊濾除率不佳,本發明之資料分群方法可維持一定水準之分群正確率與雜訊濾除率,並大幅降低DDCT演算法之處理時間。
如上所述,本發明藉由先以該切割分群步驟S2對資料點進行初步分群,以降低該密度分群步驟S3中擴張查詢之次數;再者,重新定義8個標記邊界之種子點,以減少資料的重複詢問與減少資料點的判斷,並利用該合併步驟S5,使分群之群數可符合使用者初始欲分群之群數,以達到本發明分群時間較快之功效。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
[本發明]
1...資料庫
11...資料點
111...形心點
12...初始核心點
13...鄰近點
14...分群邊界記號
14a至14h...分群邊界記號
141...分群鄰近點
141a至141h...分群鄰近點
15...第一邊界記號
15a至15h...第一邊界記號
151...第一種子點
151a至151h...第一種子點
152...群集邊界點
16...種子邊界記號
16a至16h...種子邊界記號
161...種子核心點
161a至161h...種子核心點
17...第二邊界記號
17a至17h...第二邊界記號
171...第二種子點
171a至171h...第二種子點
18...第三邊界記號
18a至18h...第三邊界記號
2...第一群集
3...第二群集
A...掃描範圍
B...掃描邊界
R...掃描半徑
R’...掃描半徑
第1圖:本發明較佳實施例之資料分群方法流程圖。
第2圖:本發明較佳實施例之資料點分布示意圖。
第3圖:本發明較佳實施例之切割分群示意圖。
第4圖:本發明較佳實施例之密度分群步驟流程圖。
第5圖:本發明較佳實施例之DDCT演算法第一讀取步驟示意圖。
第6圖:本發明較佳實施例之DDCT演算法第一判斷步驟示意圖。
第7圖:本發明較佳實施例之DDCT演算法第二判斷步驟示意圖。
第8圖:本發明較佳實施例之DDCT演算法第二讀取步驟示意圖。
第9圖:本發明較佳實施例之DDCT演算法第三判斷步驟示意圖。
第10圖:本發明較佳實施例之DDCT演算法第三判斷步驟示意圖。
第11圖:本發明較佳實施例之完成密度分群步驟示意圖。
第12圖:本發明較佳實施例之邊界點密度示意圖。
第13圖:本發明較佳實施例之完成合併步驟後之示意圖。

Claims (4)

  1. 一種資料分群方法,係包含:一參數設定步驟,係設定一群數參數、一半徑參數、一最小包含點參數及一密度容忍值參數;一切割分群步驟,係以一切割分群演算法對數個資料點進行分群,並獲得數個第一群集;一密度分群步驟,係以各個第一群集為對象,利用一密度分群演算法分別對各個第一群集內之資料點進行分群,以獲得數個第二群集;一群數判斷步驟,係判斷該第二群集之數目是否等於所設定之該群數參數,若判斷為「是」,則終止;若判斷為「否」,則進行一合併步驟;及該合併步驟,係將密度最接近的二個第二群集進行合併為一個第二群集,完成後重新進行該群數判斷步驟;其中該密度分群步驟中係以DDCT演算法作為該密度演算法以進行分群,該DDCT演算法可定義數群集邊界點。
  2. 依申請專利範圍第1項所述之資料分群方法,其中該切割分群步驟中係以K-means演算法作為該切割演算法,以對該些資料點進行初步分群。
  3. 依申請專利範圍第1項所述之資料分群方法,其中該DDCT演算法的掃描邊界之半徑參數係大於該掃描範圍之半徑參數,且小於該掃描範圍之半徑參數的兩倍。
  4. 依申請專利範圍第1項所述之資料分群方法,其中該合 併步驟係依據群數參數與群集邊界點進行合併。
TW100117239A 2011-05-17 2011-05-17 資料分群方法 TWI463339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW100117239A TWI463339B (zh) 2011-05-17 2011-05-17 資料分群方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW100117239A TWI463339B (zh) 2011-05-17 2011-05-17 資料分群方法

Publications (2)

Publication Number Publication Date
TW201248431A TW201248431A (en) 2012-12-01
TWI463339B true TWI463339B (zh) 2014-12-01

Family

ID=48138732

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100117239A TWI463339B (zh) 2011-05-17 2011-05-17 資料分群方法

Country Status (1)

Country Link
TW (1) TWI463339B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230004751A1 (en) * 2021-06-30 2023-01-05 Beijing Baidu Netcom Science Technology Co., Ltd. Clustering Method and Apparatus for Spatial Points, and Electronic Device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215314A1 (en) * 2000-09-26 2008-09-04 International Business Machines Corporation Method for adapting a k-means text clustering to emerging data
TW201025123A (en) * 2008-12-16 2010-07-01 Univ Nat Pingtung Sci & Tech Method for data clustering
TW201112018A (en) * 2009-09-23 2011-04-01 Nat Pingtung University Of Science & Technolog Y Data clustering method based on density

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215314A1 (en) * 2000-09-26 2008-09-04 International Business Machines Corporation Method for adapting a k-means text clustering to emerging data
TW201025123A (en) * 2008-12-16 2010-07-01 Univ Nat Pingtung Sci & Tech Method for data clustering
TW201112018A (en) * 2009-09-23 2011-04-01 Nat Pingtung University Of Science & Technolog Y Data clustering method based on density

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230004751A1 (en) * 2021-06-30 2023-01-05 Beijing Baidu Netcom Science Technology Co., Ltd. Clustering Method and Apparatus for Spatial Points, and Electronic Device

Also Published As

Publication number Publication date
TW201248431A (en) 2012-12-01

Similar Documents

Publication Publication Date Title
TWI385544B (zh) 基於密度式之資料分群方法
TWI391837B (zh) 基於密度式之資料分群方法
TWI460680B (zh) 密度式資料分群方法
CN106951526B (zh) 一种实体集扩展方法及装置
CN111967520A (zh) 一种基于改进的smote算法的不平衡数据处理方法
CN101025831A (zh) 复杂曲面产品的快速精确构建与成型方法
Zhao et al. Pooling scores of neighboring points for improved 3D point cloud segmentation
JP2010055621A (ja) 検索方法及び検索システム
CN102722554A (zh) 位置敏感哈希随机性减弱方法
CN103995864B (zh) 一种图像检索方法和装置
CN114332291A (zh) 一种倾斜摄影模型建筑物外轮廓规则提取方法
US8661040B2 (en) Grid-based data clustering method
CN104484232A (zh) 一种提高图像重建速度的方法及装置
TWI463339B (zh) 資料分群方法
CN103927730A (zh) 基于Primal Sketch修正及矩阵填充的图像降噪方法
Li et al. A new density peak clustering algorithm based on cluster fusion strategy
Zhou et al. A multi-density clustering algorithm based on similarity for dataset with density variation
TWI431496B (zh) 網格式資料分群方法
TWI402701B (zh) 基於密度式之資料分群方法
TWI396103B (zh) 資料分群方法
CN108764272A (zh) 一种基于Getis-Ord Gi*的用电量多元空间聚类方法
TWI407365B (zh) 資料分群方法
CN110728688B (zh) 一种基于能量优化的三维网格模型分割方法及系统
CN107564289B (zh) 一种合并交通节点的道路网预处理方法
Wei et al. Multi-level filtering to retrieve similar trajectories under the fréchet distance