TWI431496B - 網格式資料分群方法 - Google Patents
網格式資料分群方法 Download PDFInfo
- Publication number
- TWI431496B TWI431496B TW100117244A TW100117244A TWI431496B TW I431496 B TWI431496 B TW I431496B TW 100117244 A TW100117244 A TW 100117244A TW 100117244 A TW100117244 A TW 100117244A TW I431496 B TWI431496 B TW I431496B
- Authority
- TW
- Taiwan
- Prior art keywords
- grid
- effective
- search
- valid
- grouping
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000001914 filtration Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 238000004088 simulation Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本發明係關於一種資料分群方法,尤其是一種網格式資料分群方法。
資料探勘(Data Mining)主要係提供使用者發掘原始資料中隱含著的有用資訊,以用於龐大資料集中尋找各資料間所隱含的特徵與關係,以建立一套完整資料分析模式。藉此,可應用於如商業交易行為分析、空間資料分析、文件管理及網路入侵行為分析等各種不同領域,以有效發掘潛藏且有用之資訊,進而提供決策人員參考。另外,在資料探勘中之資料分群技術可讓使用者快速得知資料本質間的相關程度,例如顧客購買行為、年齡市場區隔等。資料分群是指在原始資料庫中依據某些自訂的維度特性將各相似性高的資料歸類到各自的群組裡。
然而,隨著服務更加多變及所必須擷取的隱藏訊息更多,現今的資料分群技術將開始趨向是否可輕易處理極大量的資料做為評估效能的一項重大因素。以下針對幾種較具代表性的習知資料分群方法進行說明:
1、DBSCAN資料分群方法:步驟一係由一資料集中之數個資料點預先隨機選擇其中一資料點做為初始種子點;步驟二係判斷目前初始種子點的半徑ε範圍內是否有超過半徑MinPts的資料點,若達到門檻值則將目前範圍內的資料點歸類到同一群集內並作為種子點,並從範圍內的其它種子點逐一進行擴張;步驟三係持續前述步驟二,直到該資料集中所有資料點都被歸類完畢為止。該習知DBSCAN資料分群方法是以較為合乎邏輯的密度判斷方式來進行分群,故可用以濾除雜訊及適用於不規則圖樣的資料點等。然而,上述習知DBSCAN資料分群方法因為必須對每個資料點進行繁複的擴張及密度判斷,故造成分群時間較為冗長。
2、IDBSCAN資料分群方法:此法係由B.Borah等學者於2004年所提出之密度式資料分群技術,其主要針對前述習知密度式資料分群方法係循序判斷資料點進行擴散而耗時的行為進行改良,而採用經由減少查詢次數而提升分群速度的策略。該習知IDBSCAN資料分群方法係於擴張種子點半徑ε之掃描範圍邊界上等距設置8個標記邊界點,該擴張種子點半徑ε之掃描範圍內的資料點僅選取最靠近該8個標記邊界點之資料點作為種子點,如此減少種子點之數量,便可減少重複的擴張動作,以克服習知密度式資料分群方法中種子點數量過多而造成速度緩慢之缺點,惟所能減少的分群時間仍相當有限。
3、GOD-CS資料分群方法:此法係由Tsai,C.F. and Chiu,C.S.於2010年所提出之網格式分群演算法,係以將網格分成高密度格與低密度格,以濾除雜訊,再以高密度格為中心之九公格為基礎,向外作擴散合併的動作。更詳言之,該GOD-CS演算法須先設定切割格子大小的單位長(Grid Size)與判斷格子高低密度的容忍值(Tolerance Value)等參數,設定完參數後,資料庫會依照該單位長(GS)切割成數網格,並藉由容忍值(TV)對數網格進行判斷,當該網格內之資料點數目大於TV時,設定為高密度格,反之則設定為低密度格;下一步驟便是以一高密度格為中心,向外八個方向作擴散合併的動作,直到所有高密度網格皆被合併為止;最後的步驟,以低密度網格為中心之九公格為基礎,判斷鄰近八格中是否有超過五格之高密度格,若是,則修正為高密度格並視為邊界格,反之,則視為雜訊,藉此增加該分群方法之正確度。惟該分群方法所搜尋的網格過多,容易有重複搜尋的情況發生,導致該分群方法之效率降低。
基於上述原因,有必要進一歩改良上述習知資料分群方法。
本發明係提供一種網格式資料分群方法,該網格式資料分群方法可降低分群作業之時間成本,以提升分群效率之目的。
為達到前述發明目的,本發明所運用之技術手段包含有:一種網格式資料分群方法,係包含:一參數設定步驟,係設定一切割網格參數及一最小包含點參數;一切割步驟,係依據該切割網格參數,對該數個資料點所分佈之二維空間資料集進行切割,將該資料集切割成二維矩陣式之網格;一網格過濾步驟,係依據該最小包含點參數對該數網格進行過濾,若該網格內之資料點數量大於等於最小包含點參數,則設為有效網格,反之則設為無效網格;及一分群步驟,係僅讀取該每一有效網格,並判斷該有效網格是否已完群完畢,倘若為否,則對該有效網格進行左右循序搜尋合併的動作,將搜尋到之有效網格視為同群,直到左右搜尋至網格邊緣或無效網格而終止搜尋,再將該同群之有效網格置入一種子表,並讀取該種子表內之有效網格,選取尚未做過上下循序搜尋之同群的有效網格,進行上下循序搜尋,將搜尋到之有效網格視為同群,直到上下搜尋至網格邊緣或無效網格而終止搜尋,待所有有效網格皆已完成二方向之搜尋與分群後,完成分群作業。
一種網格式資料分群方法,係包含:一參數設定步驟,係設定一切割網格參數及一最小包含點參數;一切割步驟,係依據該切割網格參數,對該數個資料點所分佈之二維空間資料集進行切割,將該資料集切割成二維矩陣式之網格;一網格過濾步驟,係依據該最小包含點參數對該數網格進行過濾,若該網格內之資料點數量大於等於最小包含點參數,則設為有效網格,反之則設為無效網格;及一分群步驟,係僅讀取該每一有效網格,並判斷該有效網格是否已完群完畢,倘若為否,則對該有效網格進行上下循序搜尋合併的動作,將搜尋到之有效網格視為同群,直到上下搜尋至網格邊緣或無效網格而終止搜尋,再將該同群之有效網格置入一種子表,並讀取該種子表內之有效網格,選取尚未做過左右循序搜尋之同群的有效網格,進行左右循序搜尋,將搜尋到之有效網格視為同群,直到左右搜尋至網格邊緣或無效網格而終止搜尋,待所有有效網格皆已完成二方向之搜尋與分群後,完成分群作業。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下:請參照第1及2圖所示,本發明之網格式資料分群方法,係藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集1,在本發明中,該資料集1係由數個資料點11所共同組成之群集,並以二維平面之資料空間代表該資料集1。本發明第一實施例之網格式資料分群方法,係包含一參數設定步驟S1、一切割步驟S2、一網格過濾步驟S3及一分群步驟S4。藉由上述步驟流程,可快速且正確的完成資料分群作業。
請再參照第1及2圖所示,本發明第一實施例之網格式資料分群方法之參數設定步驟S1,係於使用者所設定一〝切割網格參數(Grids)〞及一〝最小包含點參數(Minpts)〞;其中,該〝切割網格參數〞的值係影響整體分群的速度,當切割後的網格數量越多時,執行分群的時間也會越久,而該〝最小包含點參數〞則可依據使用者的需求與資料庫中資料型態的不同進行調整,該二參數〝切割網格參數〞及〝最小包含點參數〞較佳有著負相關的特性,即當該〝切割網格參數〞的值設定變小時,該〝最小包含點參數〞的值則設定變大較佳;反之,當該〝切割網格參數〞的值設定變大時,該〝最小包含點參數〞的值則設定變小較佳,藉以避免不佳之參數設定,導致不精確之分群結果。
請參照第1至3圖所示,本發明第一實施例之網格式資料分群方法之切割步驟S2,係依據該〝切割網格參數〞,將具有該數個資料點11所分佈之二維空間進行切割,將資料集1切割成Grids×Grids的二維矩陣式空間網格,以獲得數個網格2,該〝切割網格參數〞即代表所切割出整個的二維矩陣式空間網格邊長(如:設定100代表切割出100*100的網格)。藉此,各個資料點11皆有所屬之網格2,而該每一網格2所包含之資料點11的數量,將作為後續該網格過濾步驟S13之參考依據。
請參照第1至4圖所示,本發明第一實施例之網格式資料分群方法之網格過濾步驟S3,係依據該〝最小包含點參數〞將該數個網格2區分為有效網格21與無效網格22。更詳言之,於執行該切割步驟S2後即可將該資料集1分成各個網格2,並依據〝最小包含點參數〞判斷各網格內包含之資料點11的數量,當該網格2所包含之資料點11的數量大於或等於該〝最小包含點參數〞時,即將該網格2定義為有效網格21。反之,當該網格2所包含之資料點11的數量小於該〝最小包含點參數〞時,即將該網格2定義為無效網格22,該無效網格22所包含之資料點11即視為雜訊點。
請參照第1、4及5圖所示,本發明第一實施例之網格式資料分群方法之分群步驟S4,係讀取每一有效網格21,並判斷該有效網格21是否已分群完畢,倘若為是,則表示分群動作結束,倘若為否,則將該有效網格21置入一種子表,再讀取該有效網格判斷是否進行過左右循序搜尋,倘若為否,則進行左右循序搜尋合併的動作,將搜尋到之有效網格21視為同群,直到左右搜尋至網格邊緣或無效網格22而終止搜尋,透過左右循序搜尋所找到的有效網格21都將視為已做過左右循序搜尋的有效網格21,並將搜尋到之新的有效網格21加入該種子表,倘若該種子表內之有效網格21已進行過左右循序搜尋,則對該有效網格21進行上下循序搜尋的動作,分別往上與往下各搜尋一格,將搜尋到的有效網格21視為同一群,若遇到網格邊緣或無效網格則終止搜尋,再將搜尋到之新的有效網格21加入該種子表,待所有有效網格21皆作過左右與上下搜尋與分群後,即完成分群作業。該分群步驟S4較佳之實施流程步驟如第5圖所示,其中:步驟S41,如第5、6a圖所示,讀取一有效網格,該讀取之順序在此並不設限,可如第一實施例中由左而右,由上而下依序讀取,若所有有效網格皆已完成分群,則結束該分群步驟S4,代表分群結束。如第6a圖所示,依序由該有效網格21a開始讀取。
步驟S42,如第5、6a圖所示,係判斷該讀取之有效網格21先前是否完成分群,若判斷為「是」,則重新執行步驟S41,以讀取下一個有效網格21,若判斷為「否」,則進行下一步驟S43,如第6a圖所示之第一實施例,係揭示該讀取之有效網格21a並未完成分群動作。
步驟S43,如第5、6a圖所示,當該讀取之有效網格21被判斷尚未經過分群時,便將該有效網格21加入一種子表,準備進行下一步驟S44,如第6a圖所示之第一實施例,係揭示該讀取之有效網格21a並未完成分群動作,且該有效網格21a將被記錄至該種子表。
步驟S44,如第5、6a圖所示,讀取種子表內之所有有效網格21,若該種子表內之有效網格21皆已作過搜尋,則回到步驟S41,判斷是否仍有有效網格21尚未分群,當該所有有效網格21皆已作過分群時,即完成該分群步驟S4,若該種子表內之有效網格21尚未分群時,則進入步驟S45,如第6a圖所示之第一實施例,係揭示該種子表內之有效網格21a尚未分群,並開始進行下一步驟S45。
步驟S45,如第5、6a圖所示,係判斷步驟S44中被置入該種子表內的有效網格21是否作過左右循序搜尋,若判斷為「否」,則進行步驟S46,若判斷為「是」,則進行步驟S47,如第6a圖所示之第一實施例,係揭示該讀取之有效網格21a尚未作過左右循序搜尋。
步驟S46,如第5、6a及6b所示,係將該尚未作過左右循序搜尋之有效網格21進行左右循序搜尋,直到左右循序搜尋之左右二端皆碰到無效網格22或資料集1之網格邊緣為止,並將該左右循序搜尋到的所有有效網格21分群成一群集C,再進行下一步驟S48,如第6a及6b圖所示之第一實施例,係揭示該讀取之有效網格21a尚未作過左右循序搜尋,且開始向左右二方向進行左右循序搜尋,直到左邊搜尋至該資料集1之網格邊緣,右邊搜尋至無效網格22a才停止,並將該二個有效網格21a及21b及21c歸類為同一群集C,再進行下一步驟S48。
步驟S47,如第5、6a、6b及6c圖所示,係根據步驟S45中,將已作過左右循序搜尋之有效網格21進行上下循序搜尋的動作,該上下循序搜尋的範圍並不限制往上或往下搜尋之網格數,在本發明之第一實施例中限定往上與往下各搜尋一格,若遇到一無效網格22或資料集1之網格邊緣時,則停止該循序搜尋之動作,並將搜尋到之有效網格21歸類為同一群集C,再進入步驟S48,如第6a、6b及6c圖所示之第一實施例,係揭示該讀取之有效網格21a、21b及21c皆作過左右循序搜尋,並已歸類成一群集C,並開始以該有效網格21a、21b及21c進行上下循序搜尋,該上下循序搜尋的網格數可如第一實施例中僅往上與往下各搜尋一格,如第6b及6c圖中,向上搜尋已遇到資料集1之網格邊緣,向下搜尋到有效網格21d、21e及21f,故將該有效網格21d、21e及21f歸類至該群集C中,並與有效網格21a、21b及21c視為同一群集,再進入下一步驟S48。
步驟S48,如第5及6b圖所示,將該群集C之未完成左右與上下搜尋之有效網格22置入該種子表,再回到步驟S44,如第6b圖所示之第一實施例,係揭示該三個有效網格21a、21b及21c剛進行完左右循序搜尋與分群,但未進行過上下循序搜尋與分群,於是將該三個有效網格21a、21b及21c置入該種子表,回到步驟S44。
更詳言之,為使本發明第一實施例之網格式資料分群方法之分群步驟S4能更佳清楚,以下依一連續動作及所附圖示解說該分群步驟S4之流程。請再參閱第5、6a、6b及6c所示,當進入該步驟S41讀取一有效網格21a時,該有效網格21a將透過該步驟S42判斷是否完成分群,若判定為「否」,則進入該步驟S43,將該有效網格21a置入一種子表,接著進入該步驟S44,讀取該種子表內之有效網格21a,並透過該步驟S45判斷該有效網格21a是否作過左右循序搜尋,若判斷為「否」,則進入該步驟S46,以該有效網格21a為基準,開始進行左右循序搜尋,並搜尋到該有效網格21b及21c,直到左右循序搜尋之二端皆搜尋到網格邊緣與無效網格22a為止,並將有效網格21a、21b及21c皆歸類為同一群集C,接著進入該步驟S48,將該群集C中,僅作過左右循序搜尋但未作過上下循序搜尋的有效網格21a、21b及21c置入種子表,再回到該步驟S44,讀取種子表內的所有有效網格21a、21b及21c,由於該有效網格21a、21b及21c皆已作過左右循序搜尋,故經過步驟S45的判斷後,進入步驟S47開始進行上下循序搜尋,本發明之第一實施例之上下循序搜尋之設定為上下各搜尋一格,故該有效網格21a、21b及21c會搜尋到有效網格21d、21e及21f,並將該有效網格21d、21e及21f與有效網格21a、21b及21c歸類為同一群集C,進入步驟S48後,由於該有效網格21a、21b及21c皆已完成左右與上下循序搜尋,故僅將未作過左右循序搜尋的有效網格21d、21e及21f加入種子表,再回到步驟S44。
請參閱第5、6c、6d、6e、6f及6g圖所示,進入步驟S44後,讀取該有效網格21d、21e及21f,由於該三者仍未作過左右循序搜尋,於是透過步驟S45的判斷,如第6c圖所示,對有效網格21d、21e及21f進行左右循序搜尋,透過左右循序搜尋將有效網格21g納入同一群集C,直到碰到網格邊緣而停止,並再度進入步驟S48,將該群集C中之未完成上下搜尋之所有有效網格21d至21g加入該種子表,再回到步驟S44,讀取種子表內之有效網格21d至21g,其中該有效網格21d至21g僅完成左右循序搜尋動作,故透過步驟S45的判斷,再針對該有效網格21d至21g進行上下循序搜尋的動作,找到有效網格21h至21j,並將該有效網格21h至21j與有效網格21a至21g歸類為同一群集C,再進入步驟S48,將該群集C中未完成左右循序搜尋之所有有效網格21h至21j加入種子表,再回到步驟S44,讀取種子表中所有有效網格21h至21j,由於該三者仍未作過左右循序搜尋,於是透過步驟S45的判斷,對有效網格21h至21j進行左右循序搜尋,直到碰到網格邊緣而停止,並再度進入步驟S48,將該將該群集C中之未完成上下搜尋之所有有效網格21h至21j加入該種子表,再回到步驟S44,讀取種子表內之有效網格21h至21j,其中該有效網格21h至21j僅完成左右循序搜尋動作,故透過步驟S45的判斷,再針對該有效網格21h至21j進行上下循序搜尋的動作,找到有效網格21k,並將該有效網格21k與有效網格21a至21j歸類為同一群集C,再進入步驟S48,如第6g圖所示,直到該種子表內的所有有效網格21皆已執行過左右循序搜尋與上下循序搜尋,便回到步驟S41,在該步驟中也無法再搜尋到新的有效網格21時,便終止該分群步驟S4,完成整個分群作業。
請參照第1及7圖所示,其係本發明的第二實施例,在本實施例中,係包含一參數設定步驟S1、一切割步驟S2、一網格過濾步驟S3及一分群步驟S4。其中,該參數設定步驟S1、切割步驟S2、網格過濾步驟S3及該分群步驟S4之詳細流程步驟S41至S44及S48,係與第一實施例之步驟流程相同,因此相同步驟流程在此不再贅述。
步驟S45,如第7、8a圖所示,係判斷步驟S44中被置入該種子表內的有效網格21是否作過上下循序搜尋,若判斷為「否」,則進行步驟S46,若判斷為「是」,則進行步驟S47,如第8a圖所示之第一實施例,係揭示該讀取之有效網格21a尚未作過上下循序搜尋。
步驟S46,如第7、8a及8b所示,係將該尚未作過上下循序搜尋之有效網格21進行上下循序搜尋,直到上下循序搜尋之上下二端皆碰到無效網格22或資料集1之網格邊緣為止,並將該上下循序搜尋到的所有有效網格21分群成一群集C,再進行下一步驟S48,如第8a及8b圖所示之第二實施例,係揭示該讀取之有效網格21a尚未作過上下循序搜尋,且開始向上下二方向進行上下循序搜尋,直到上邊搜尋至該資料集1之網格邊緣,下邊搜尋至無效網格22a才停止,並將該二個有效網格21a及21b歸類為同一群集C,再進入下一步驟S48。
步驟S47,如第7、8a、8b及8c圖所示,係根據步驟S45中,將已作過上下循序搜尋之有效網格21進行左右循序搜尋的動作,該左右搜尋的範圍並”不限制”往左或往右搜尋之網格數,在本發明之第二實施例中限定往左與往右各搜尋一格,若遇到一無效網格22或資料集1之網格邊緣時,則停止該循序搜尋之動作,並將搜尋到之有效網格21歸類為同一群集C,再進入步驟S48,如第8a、8b及8c圖所示之第二實施例,係揭示該讀取之有效網格21a及21b皆作過上下循序搜尋,並已歸類成一群集C,並開始以該有效網格21a及21b進行左右循序搜尋,該左右循序搜尋的網格數可如第二實施例中僅往左與往右各搜尋一格,如第8b及8c圖中,向左搜尋已遇到資料集1之網格邊緣,向右搜尋到有效網格21c及21d,故將該有效網格21c及21d歸類至該群集C中,並與有效網格21a及21b視為同一群集,再進入下一步驟S48。
更詳言之,為使本發明第二實施例之網格式資料分群方法之分群步驟S4能更佳清楚,以下依一連續動作及所附圖示解說該分群步驟S4之流程。請再參閱第7、8a、8b及8c所示,當進入該步驟S41讀取一有效網格21a時,該有效網格21a將透過該步驟S42判斷是否完成分群,若判定為「否」,則進入該步驟S43,將該有效網格21a置入一種子表,接著進入該步驟S44,讀取該種子表內之有效網格21a,並透過該步驟S45判斷該有效網格21a是否作過上下循序搜尋,若判斷為「否」,則進入該步驟S46,以該有效網格21a為基準,開始進行上下循序搜尋,並搜尋到該有效網格21b,直到上下循序搜尋之二端皆搜尋到網格邊緣與無效網格22a為止,並將有效網格21a及21b歸類為同一群集C,接著進入該步驟S48,將該群集C中,僅作過上下循序搜尋但未作過左右循序搜尋的有效網格21a及21b置入種子表,再回到該步驟S44,讀取種子表內的所有有效網格21,由於該有效網格21a及21b皆已作過上下循序搜尋,故經過步驟S45的判斷後,進入步驟S47開始進行左右循序搜尋,本發明之第二實施例之左右循序搜尋之設定為左右各搜尋一格,故該有效網格21a及21b會搜尋到有效網格21c及21d,並將該有效網格21c及21d與有效網格21a及21b歸類為同一群集C,進入步驟S48後,由於該有效網格21a及21b皆已完成上下與左右循序搜尋,故僅將未作過上下循序搜尋的有效網格21c及21d加入種子表,再回到步驟S44。
請參閱第7、8c、8d、8e、8f及8g圖所示,進入步驟S44後,讀取該有效網格21c及21d,由於該二者仍未作過上下循序搜尋,於是透過步驟S45的判斷,如第8c圖所示,對有效網格21c及21d進行上下循序搜尋,透過上下循序搜尋將有效網格21e及21f納入同一群集C,直到碰到網格邊緣而停止,並再度進入步驟S48,將該將該群集C中之未完成左右搜尋之所有有效網格21c至21f加入該種子表,再回到步驟S44,讀取種子表內之有效網格21c至21f,其中該有效網格21c至21f僅完成上下循序搜尋動作,故透過步驟S45的判斷,再針對該有效網格21c至21f進行左右循序搜尋的動作,找到有效網格21g至21i,並將該有效網格21g至21i與有效網格21a至21f歸類為同一群集C,再進入步驟S48,將該群集C中未完成上下循序搜尋之所有有效網格21g至21i加入種子表,再回到步驟S44,讀取種子表中所有有效網格21g至21i,由於該二者仍未作過上下循序搜尋,於是透過步驟S45的判斷,對有效網格21g至21i進行上下循序搜尋,直到碰到網格邊緣而停止,並再度進入步驟S48,將該將該群集C中之未完成左右搜尋之所有有效網格21g至21i加入該種子表,再回到步驟S44,讀取種子表內之有效網格21g至21i,其中該有效網格21g至21i僅完成上下循序搜尋動作,故透過步驟S45的判斷,再針對該有效網格21g至21i進行左右循序搜尋的動作,找到有效網格21j及21k,並將該有效網格21j及21k與有效網格21a至21i歸類為同一群集C,再進入步驟S48,如第8g圖所示,直到該種子表內的所有有效網格21皆已執行過上下循序搜尋與左右循序搜尋,且無法再搜尋到新的有效網格21後,便終止該分群步驟S4,完成整個分群作業。
本發明之網格式資料分群方法進行循序搜尋時,將密度較低之網格2視為無效網格22,僅針對過濾後之密度較高的有效網格21進行循序搜尋,以減少需讀取之網格數目,降低讀取網格的時間;本發明之循序搜尋的方式僅透過左右與上下二方向,對比習知以被讀取之該網格2為基礎,並掃描鄰近之八個鄰近網格2,本發明可減少重複搜尋之網格數,降低循序搜尋的時間;本發明之分群方式,係在一搜尋方向之搜尋(如第一實施例之左右搜尋)時,就將已搜尋到之有效網格21視為同一群集C,再透過另一搜尋方向之搜尋(如第一實施例之上下搜尋)時,將搜尋到之有效網格21再加入該群集C中,在進行循序搜尋的過程中同時進行分群,習知分群方法,係以不同方向之搜尋建立出一關聯表,再將該關聯表內之有效網格21取聯集,接著再進行分群動作,等同於在分群動作之前,先作一關聯性之記錄與判斷,相較之下,本發明能在擴張搜尋時便進行分群動作,可減少多餘之關係記錄的時間。
為驗證本發明之網格式資料分群方法具有分群效率高之優點,於此針對資料集1至6進行分群,並與習知IDBSCAN、DBSCAN及GOD-CS資料分群方法進行比較,該資料集1至6皆具有575,000筆資料點,且含75,000筆雜訊點;又,資料集1至6之圖形皆不相同,且所包含之正確群集數分別為10、5、4、2、4及4。此外,本次實驗模擬所使用之設備包含CPU[Intel Pentium 4 1.5GHz]及記憶體[2 GB],並以Java作為演算法之實作程式語言。再者,本次實驗模擬之測試資料集資訊如表一所示,不同資料集其設定之參數如表二所示,每一資料集1至6皆實驗10次後取其平均值如表三所示。
請參照表三所示,由習知資料分群方法與本發明之網格式資料分群方法模擬結果比較,可得知本發明之網格式資料分群方法可於維持相當高之分群正確率及雜訊濾除率的前提下,大幅降低執行時間的成本,具有提高分群效率之功效。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
1...資料集
11...資料點
2...網格
21...有效網格
21a至21k...有效網格
22...無效網格
22a...無效網格
C...群集
第1圖:本發明第一實施例之步驟流程方塊圖。
第2圖:本發明第一實施例之切割步驟示意圖。
第3圖:本發明第一實施例之切割步驟示意圖。
第4圖:本發明第一實施例之網格過濾步驟示意圖。
第5圖:本發明第一實施例之分群步驟的詳細實施流程圖。
第6a圖:本發明第一實施例之分群步驟示意圖。
第6b圖:本發明第一實施例之分群步驟示意圖。
第6c圖:本發明第一實施例之分群步驟示意圖。
第6d圖:本發明第一實施例之分群步驟示意圖。
第6e圖:本發明第一實施例之分群步驟示意圖。
第6f圖:本發明第一實施例之分群步驟示意圖。
第6g圖:本發明第一實施例之分群步驟示意圖。
第7圖:本發明第二實施例之分群步驟的詳細實施流程圖。
第8a圖:本發明第二實施例之分群步驟示意圖。
第8b圖:本發明第二實施例之分群步驟示意圖。
第8c圖:本發明第二實施例之分群步驟示意圖。
第8d圖:本發明第二實施例之分群步驟示意圖。
第8e圖:本發明第二實施例之分群步驟示意圖。
第8f圖:本發明第二實施例之分群步驟示意圖。
第8g圖:本發明第二實施例之分群步驟示意圖。
Claims (6)
- 一種網格式資料分群方法,藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集,該資料集係由數個資料點所共同組成之群集,係包含:一參數設定步驟,係設定一切割網格參數及一最小包含點參數;一切割步驟,係依據該切割網格參數,對該數個資料點所分佈之二維空間資料集進行切割,將該資料集切割成二維矩陣式之數網格;一網格過濾步驟,係依據該最小包含點參數對該數網格進行過濾,若該網格內之資料點數量大於等於最小包含點參數,則設為有效網格,反之則設為無效網格;及一分群步驟,係僅讀取該每一有效網格,並判斷該有效網格是否已完群完畢,倘若為否,則對該有效網格進行左右循序搜尋合併的動作,將搜尋到之有效網格視為同群,直到左右搜尋至網格邊緣或無效網格而終止搜尋,再將該同群之有效網格置入一種子表,並讀取該種子表內之有效網格,選取尚未做過上下搜尋之同群的有效網格,進行上下搜尋及判斷,將搜尋到之有效網格視為同群,直到上下搜尋至網格邊緣或無效網格而終止搜尋,待所有有效網格皆已完成二方向之搜尋與分群後,完成分群作業。
- 依申請專利範圍第1項所述之網格式資料分群方法,其中該分群步驟包含以下步驟: (a)讀取一有效網格,並進入步驟(b),若所有有效網格皆已讀取過,則完成該分群步驟;(b)判斷該讀取之有效網格先前是否完成分群,若判斷為「是」,則重新執行步驟(a),若判斷為「否」,則進行下一步驟(c);(c)將該有效網格加入一種子表;(d)讀取該種子表所有有效網格,進行下一步驟(e),若種子表內已無可讀取之有效網格,則回到該步驟(a)讀取其他有效網格;(e)判斷讀取之所有有效網格是否作過上下循序搜尋,若判斷為「否」,則進行步驟(f),若判斷為「是」,則進行步驟(g);(f)將尚未作過上下循序搜尋之有效網格進行上下循序搜尋,若上下二端遇到網格邊緣或無效網格則終止搜尋,並將該上下循序搜尋到的所有有效網格分群成一群集,再進入步驟(h);(g)將已作過上下循序搜尋之有效網格進行左右搜尋的動作,若左右二端遇到網格邊緣或無效網格則終止搜尋,並將搜尋到之有效網格歸類為同一群集,再進入步驟(h);(h)將群集中未完成上下及左右搜尋之有效網格置入種子表,並回到該步驟(d)。
- 依申請專利範圍第2項所述之網格式資料分群方法,其中該分群步驟之步驟(f),上下循序搜尋的網格數為上下各搜尋一格。
- 一種網格式資料分群方法,藉由一電腦系統連接至少一資料庫作為執行架構,該資料庫中係存有一資料集,該資料集係由數個資料點所共同組成之群集,係包含:一參數設定步驟,係設定一切割網格參數及一最小包含點參數;一切割步驟,係依據該切割網格參數,對該數個資料點所分佈之二維空間資料集進行切割,將該資料集切割成二維矩陣式之數網格;一網格過濾步驟,係依據該最小包含點參數對該數網格進行過濾,若該網格內之資料點數量大於等於最小包含點參數,則設為有效網格,反之則設為無效網格;及一分群步驟,係僅讀取該每一有效網格,並判斷該有效網格是否已完群完畢,倘若為否,則對該有效網格進行上下循序搜尋合併的動作,將搜尋到之有效網格視為同群,直到上下搜尋至網格邊緣或無效網格而終止搜尋,再將該同群之有效網格置入一種子表,並讀取該種子表內之有效網格,選取尚未做過左右循序搜尋之同群的有效網格,進行左右循序搜尋,將搜尋到之有效網格視為同群,直到左右搜尋至網格邊緣或無效網格而終止搜尋,待所有有效網格皆已完成二方向之搜尋與分群後,完成分群作業。
- 依申請專利範圍第4項所述之網格式資料分群方法,其中該分群步驟包含以下步驟:(a)讀取一有效網格,並進入步驟(b),若所有有效網格皆已讀取過,則完成該分群步驟; (b)判斷該讀取之有效網格先前是否完成分群,若判斷為「是」,則重新執行步驟(a),若判斷為「否」,則進行下一步驟(c);(c)將該有效網格加入一種子表;(d)讀取該種子表所有有效網格,進行下一步驟(e),若種子表內已無可讀取之有效網格,則回到該步驟(a)讀取其他有效網格;(e)判斷讀取之所有有效網格是否作過上下循序搜尋,若判斷為「否」,則進行步驟(f),若判斷為「是」,則進行步驟(g);(f)將尚未作過上下循序搜尋之有效網格進行上下循序搜尋,若上下二端遇到網格邊緣或無效網格則終止搜尋,並將該上下循序搜尋到的所有有效網格分群成一群集,再進入步驟(h);(g)將已作過上下循序搜尋之有效網格進行左右循序搜尋的動作,若左右二端遇到網格邊緣或無效網格則終止搜尋,並將搜尋到之有效網格歸類為同一群集,再進入步驟(h);(h)將群集中未完成上下及左右搜尋之有效網格置入種子表,並回到該步驟(d)。
- 依申請專利範圍第5項所述之網格式資料分群方法,其中該分群步驟之步驟(f),左右循序搜尋的網格數為左右各搜尋一格。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100117244A TWI431496B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
US13/453,408 US8666986B2 (en) | 2011-05-17 | 2012-04-23 | Grid-based data clustering method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW100117244A TWI431496B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201248433A TW201248433A (en) | 2012-12-01 |
TWI431496B true TWI431496B (zh) | 2014-03-21 |
Family
ID=47175720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100117244A TWI431496B (zh) | 2011-05-17 | 2011-05-17 | 網格式資料分群方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8666986B2 (zh) |
TW (1) | TWI431496B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102013012780A1 (de) * | 2013-07-31 | 2015-02-05 | Connaught Electronics Ltd. | Verfahren zum Detektieren eines Zielobjekts durch Clusterbildung aus charakteristischen Merkmalen eines Bilds, Kamerasystem und Kraftfahrzeug |
US10447040B2 (en) | 2014-10-15 | 2019-10-15 | Cummins Power Generation Ip, Inc. | Programmable inverter for controllable grid response |
US11403482B2 (en) | 2020-01-15 | 2022-08-02 | Aptiv Technologies Limited | Adaptive search for LiDAR-based clustering |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590642B2 (en) | 2002-05-10 | 2009-09-15 | Oracle International Corp. | Enhanced K-means clustering |
US7174344B2 (en) | 2002-05-10 | 2007-02-06 | Oracle International Corporation | Orthogonal partitioning clustering |
US7565346B2 (en) * | 2004-05-31 | 2009-07-21 | International Business Machines Corporation | System and method for sequence-based subspace pattern clustering |
US7359913B1 (en) * | 2005-05-13 | 2008-04-15 | Ncr Corp. | K-means clustering using structured query language (SQL) statements and sufficient statistics |
US7584159B1 (en) | 2005-10-31 | 2009-09-01 | Amazon Technologies, Inc. | Strategies for providing novel recommendations |
TWI338846B (en) | 2006-12-22 | 2011-03-11 | Univ Nat Pingtung Sci & Tech | A method for grid-based data clustering |
WO2010120684A2 (en) * | 2009-04-16 | 2010-10-21 | President And Fellows Of Harvard College | Method and apparatus for selecting clusterings to classify a predetermined data set |
-
2011
- 2011-05-17 TW TW100117244A patent/TWI431496B/zh not_active IP Right Cessation
-
2012
- 2012-04-23 US US13/453,408 patent/US8666986B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8666986B2 (en) | 2014-03-04 |
TW201248433A (en) | 2012-12-01 |
US20120296904A1 (en) | 2012-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI385544B (zh) | 基於密度式之資料分群方法 | |
US7853542B2 (en) | Method for grid-based data clustering | |
JP4545641B2 (ja) | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 | |
TWI396106B (zh) | 以格子為導向之資料分群方法 | |
JP5880454B2 (ja) | 画像識別装置及びプログラム | |
JP6503679B2 (ja) | フィルタルール作成装置、フィルタルール作成方法、およびプログラム | |
WO2014109127A1 (ja) | インデックス生成装置及び方法並びに検索装置及び検索方法 | |
CN101853389A (zh) | 多类目标的检测装置及检测方法 | |
CN103778146B (zh) | 图像聚类装置以及方法 | |
CN108491226B (zh) | 基于集群缩放的Spark配置参数自动调优方法 | |
CN106599230A (zh) | 一种分布式数据挖掘模型评估的方法与系统 | |
TWI453613B (zh) | 網格式資料分群方法 | |
TWI431496B (zh) | 網格式資料分群方法 | |
CN106503047B (zh) | 一种基于卷积神经网络的图像爬虫优化方法 | |
CN115291864B (zh) | 一种基于图神经网络的零碎图层检测方法及装置 | |
CN106339496A (zh) | 用于对照片进行清理的方法和装置 | |
TWI460680B (zh) | 密度式資料分群方法 | |
JP2011107795A (ja) | 画像検索システム | |
CN112214684B (zh) | 一种种子扩展的重叠社区发现方法及装置 | |
US8612183B2 (en) | Analysis model generation system | |
CN115205699B (zh) | 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法 | |
Hua et al. | Clustering algorithm based on characteristics of density distribution | |
TWI402701B (zh) | 基於密度式之資料分群方法 | |
TWI414952B (zh) | 網格式資料分群方法 | |
TWI431495B (zh) | 網格式資料分群方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |