TWI465949B

TWI465949B - 資料分群裝置和方法

Info

Publication number: TWI465949B
Application number: TW101129472A
Authority: TW
Inventors: Wei Yao Chuang
Original assignee: Acer Inc
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2014-12-21
Also published as: TW201407390A

Description

資料分群裝置和方法

本發明主要係關於一種資料分群技術，特別係可利用一文件自動偵測遞迴分群方法(Auto-detect Text Recursively Clusting,ADTR)來進行資料分群之技術。

近年來，由於無線通訊技術的快速發展，因此，各式各樣的可攜式以及手持裝置，例如：行動電話、智慧型手機(smart phone)、個人數位助理(PDA)、平板電腦(Tablet PC)等電子商品不斷的在市場上被推出，且這些電子商品的功能也越來越多元化。此外，由於這些裝置的便利，也使得這些裝置成為人們的生活必需品之一。

除了前述支各種無線通訊裝置的硬體外，更有許多可配合前述硬體來執行與應用的軟體與功能不斷地被開發出來，以讓使用者可以更便利、更即時、且更隨時隨地的理財、工作、娛樂或擷取資訊等等。隨著行動網路的普及手持行動裝置的普遍，現代人在移動時，如搭車、捷運上透過行動網路閱讀新聞已成為重要趨勢。現今有為數眾多的新聞來源網站，加上由於目前各家媒體所提供的新聞之簡易資訊聚合(Really Simple Syndication,RSS)各有各的排序方式，十分龐雜。雖然可容易得到為數眾多的新聞事件，卻無法依新聞事件進行追蹤或重要性分類。另外，目前閱讀新聞的應用軟體主要是針對新聞之簡易資訊聚合(RSS)出處，及新聞總綱進行新聞的呈現。造成閱讀者在閱讀經驗上，不容易找到自己所關心的新聞事件，也不容易找到時下重要的新聞事件。

此外，中文新聞的撰寫是非結構化的格式，因此，在人工智慧自動分類或分群時，很難輕易的將相似的文章判斷為一群；另一方面，分群時往往不同的新聞容易因部份較不具代表性的字詞而被分在同一群，使得若要找出同一新聞事件時，變得較為不容易。此外，資料分群時，群集數的決定往往是十分不容易的，一般透過事先定義或著事先觀察，且不論哪一種方法都需要人工去參與協助。

有鑑於上述先前技術之問題，本發明提供了一種資料分群技術，特別係可利用一文件自動偵測遞迴分群方法(Auto-detect Text Recursively Clusting,ADTR)來進行資料分群之技術。

根據本發明之一實施例提供了一種資料分群方法，包括以下步驟：由一新聞資料庫取得複數資料；根據上述資料間之一距離關係，建立一整體側影樣式表，以取得一初步分群參考數目；根據上述初步分群參考數目利用一分群演算法將複數資料分為複數群集；計算每一上述群集之一群內平均距離；以及比較上述群內平均距離是否小於一門檻值，其中若上述群內平均距離小於上述門檻值，則將對應上述群內平均距離之上述群集存入一事件資料庫。

根據本發明之一實施例提供了一種資料分群裝置，包括：一新聞資料庫，用以儲存複數資料；一計算模組，根據上述資料間之一距離關係，用以建立一整體側影樣式表，再根據上述整體側影樣式表，取得一初步分群參考數目；一分群模組，根據上述初步分群參考數目利用一分群演算法將複數資料分為複數群集，再計算每一上述群集之一群內平均距離，以及一比較模組，用以比較上述群內平均距離是否小於一門檻值，其中若上述群內平均距離小於上述門檻值，則將對應上述群內平均距離之上述群集存入一事件資料庫中。

第1圖係顯示根據本發明一實施例所述之資料分群裝置100之架構圖。如圖所示，根據本發明一實施例所述之資料分群裝置100，包括，一新聞資料庫110、一預處理模組120、一計算模組130、一分群模組140、一比較模組150、一事件資料庫160。

根據本發明一實施例，新聞資料庫110用以儲存及提供複數資料，且新聞資料庫110所儲存之資料可即時地更新，其中在此所述之資料可包含各類型之新聞事件，像是國際新聞、政治新聞、社會新聞、體育新聞、演藝新聞等，亦可包含各類不同的專題報導或文字資料。

根據本發明一實施例，預處理模組110，用以將新聞資料庫110所儲存之複數資料預先經過一前處理運算，也就是將複數資料之複數特徵進行一向量化處理，使資料可以轉換成一空間模型，方便之後資料分群之處理，其中在此所述之特徵係指資料中所包含之內容經過斷詞或斷句後所萃取出來之不同關鍵字，舉例來說，由「全球暖化造成了北極冰山溶化，因而使得海平面上升」這句子，可將「全球暖化」、「北極」、「冰山」、「還平面上升」等關鍵字萃取出來，關鍵字粹取出來後，再將這些關鍵字經過向量化處理，轉換為具有不同加權值之向量點，因此，經由這樣的向量化處理後，就可使得原來的資料可由文字形式轉換成以向量表示之空間模型。

根據本發明一實施例，計算模組130用以接收經由預處理模組110前處理過後之資料，並根據資料在空間模型間之距離關係，用以建立一整體側影樣式表(Global Silhouette Pattern)，再根據所建立之整體側影樣式表，取得一初步分群參考數目。更明確來說，在此實施例中，計算模組130用以建立一整體側影樣式表取得初步分群參考數目之步驟包括：首先，先以側影公式(如下所示)，依據群集中資料間距離之關係計算複數側影係數，其中在此所述之側影係數係一種用以評估分群效度及狀態的指標，其可用以呈現群集狀態的優良程度。接著，針對不同群集數之分群結果，以產生對應一群集數目範圍之不同群集數目所具有之複數整體側影值(Global Silhouette value,GS_u )，其中上述群集數目範圍係介於2到上述資料之總數之間。最後，計算模組130會根據複數整體側影值，建立整體側影樣式表，用以記錄對應每一群集數目數之整體側影值(GS_u )，並將對應側影值之最大值之群集數目設定為初步分群參考數目，詳細的計算流程將在底下說明。

Silhouette公式： 運算某筆i_th 資料的Silhouette係數：

1.計算i_th 資料點對同一群集中所有其他資料點的平均距離(a_i )。

2.針對i_th 資料點和其他群集，計算此資料對其他每一群集所有資料的平均距離，並取其最小值(b_i )。

3.計算i_th 的Silhouette係數(S_i )，其公式定義如下：

其中max運算元是用以在ai和bi之中取最大值做為分母的運算且上式遵守-1≦Si≦1。

為了求得整體側影係數值(GS_u )，計算模組130得先計算對應每一群集數目中之每一群集的群集側影值(Cluster Silhouette Value)，針對對應某一群集數目中的某一群集的群集側影值(S_j )計算方式如下：其中m為存在於單一群集中所包含的資料數。

若以資料分成c群的情況為例，也就是群集數目為c情況下，若要取得整體側影係數值(GS_u )，則可以透過計算所有群集的群集側影值之平均而取得。整體側影係數值(GS_u )定義如下：

第2圖係顯示根據本發明一實施例所述之整體側影值和群集數目相對應之示意圖。如第2圖所示，若在新聞資料庫110中有m筆資料，即表示所需計算之群集數目範圍就是由分為2群集到分為m群集，計算模組130就會根據計算群集數目範圍，計算將資料分成2~m群集所分別對應之整體側影值，並將所計算出之整體側影值分別記錄在整體側影樣式表中，若當在分成N群時可得到側影值之最大值，計算模組130就會將N群設為初步分群參考數目。

根據本發明一實施例，分群模組140根據初步分群參考數目，利用一分群演算法將複數資料分為複數群集，再計算每一群集所對應之群內平均距離(Intra-Cluster Distance)，其中分群模組140計算每一群集之群內平均距離之步驟包括：首先，先計算向量空間中每一群集中所包括之資料之一中心點；接著再計算每一群集中所包括之資料到中心點之一平均距離，所計算出之不同平均距離即代表每一群集之群內平均距離。在此實施例中，群內平均距離係利用一餘弦距離(Cosine Distance)公式來求得，且群內平均距離可用以評估一群集之內聚力。

此外，特別說明的是，在上述實施例所使用之分群演算法為一階層式分群演算法，但在本發明中並不以此演算法為限，對於任何於此領域熟知此技藝之人士，可以在參閱本說明書後，使用其它適合之分群演算法來取代在說明書所使用之階層式分群演算法，例如：以分割式分群法(partitional clustering)中的K平均(K-means)演算法、K物件(K-medoids)演算法等。

根據本發明一實施例，比較模組150用以比較群集之群內平均距離是否小於一門檻值(threshold)，若群內平均距離小於上述門檻值，則將對應群內平均距離小於上述門檻值之群集存入一事件資料庫中160，若群內平均距離未小於門檻值，則執行一遞迴分群之動作，也就是將群內平均距離未小於門檻值之群集所包括之資料重新傳回上述計算模組130，繼續進行計算整體側影樣式表以取得初步分群參考數目，接著再重新進行其它上述資料分群裝置100各模組進行之流程，直到所有資料都儲存到事件資料庫160中，才表示所有的資料都已分群完畢。特別說明的是，關於門檻值之設定，對於任何於此領域熟知此技藝之人士，可在參閱本說明書後，使用適當之值來設為門檻值(例如：0.2~0.3)。根據本發明一實施例，使用者可藉由一顯示單元(圖未顯示)和搜尋單元(圖未顯示)，由事件資料庫160取得經由資料分群裝置100分群好之資料結果，並將結果顯示在顯示單元上。

第3圖係顯示根據本發明一實施例所述之資料分群方法之流程圖300。首先，在步驟S310，由一新聞資料庫取得複數資料；在步驟S320，執行一前處理運算，以將上述資料之複數特徵進行一向量化處理，而使上述資料轉換成一空間模型；在步驟S330，根據上述資料間之一距離關係，建立一整體側影樣式表，以取得一初步分群參考數目；在步驟S340，根據上述初步分群參考數目利用一分群演算法將複數資料分為複數群集；在步驟S350，取得每一上述群集之一群內平均距離；在步驟S360，比較上述群內平均距離是否小於一門檻值；若上述群內平均距離小於上述門檻值，則進行步驟S370將對應上述群內平均距離之上述群集存入一事件資料庫；若上述群內平均距離未小於上述門檻值，則進行步驟S380，將對應上述群內平均距離之上述群集重新計算上述側影係數，以取得上述初步分群參考數目，也就是再回到步驟S330重新繼續進行資料分群之步驟。此外，特別說明的是，在上述實施例所使用之分群演算法為一階層式分群演算法，但在本發明中並不以此演算法為限，對於任何於此領域熟知此技藝之人士，可以在參閱本說明書後，使用其它適當的分群演算法來取代在說明書所使用之階層式分群演算法，例如：以分割式分群法(partitional clustering)中的K平均(K-means)演算法、K物件(K-medoids)演算法等。

第4圖係顯示根據本發明一實施例所述之建立整體側影樣式表之流程圖400。首先，在步驟S410，根據資料在空間向量中之距離關係，利用一側影公式計算，以產生對應一數目範圍之不同群集數目之複數整體側影值，其中上述群集數目範圍介於2到上述資料之總數之間；在步驟S420，記錄上述整體側影值於整體側影樣式表中；以及在步驟S430，將對應上述整體側影值之最大值之上述群集數目設定為上述初步分群參考數目。

第5圖係顯示根據本發明一實施例所述之取得每一群集之對應之群內平均距離之流程圖500。首先，在步驟S510，取得每一上述群集中所包括之上述資料之一中心點；在步驟S520，取得每一上述群集中所包括之上述資料到上述中心點之一平均距離以作為上述群內平均距離。

面對使用者的需求及RSS資訊源的現存問題，為了讓使用者得到更好的閱讀經驗，我們以人工智慧(Artificial intelligence)文字探勘(Text Mining)領域為基礎所提出之資料分群方法，利用文件自動偵測遞回分群技術(ADTR)來改進傳統上分群(Clustering)演算法在群集參數上的自動偵測，可將雜亂的新聞進行分群，以得到不同新聞之簡易資訊聚合(RSS)來源但卻是相似新聞事件的群集，因而達到提昇新聞事件分群準確性之結果，此外本發明所提出之資料分群方法可協助找出新聞中重要的人名及潛在的重要詞庫，隨著新聞情境的不同，也可以適用於不同的情境改變，對詞庫的過適性抗干擾能力有好的表現。此外，與傳統上單一通過分群(Single-pass Clustering)方式相比，單一通過分群方式在於一次處理一篇文章，再去比對目前現存之群集相似度進行分群依據。然而，本發明所提出之資料分群方法，所利用之文件自動偵測遞回分群技術(ADTR)則是一次針對現有的所有資料進行整體側影樣式表的建立並找到初始群集數，再進行群集的遞迴分群演算法。

本說明書中所提到的「一實施例」或「實施例」所提到的特定的特徵、結構或性質，可包括在本說明書的至少一實施例中。因此，在不同地方出現的語句「在一個實施例中」，可能不是都指同一個實施例。另外，此特定的特徵、結構或性質，也可以任何適合的方式與一個或一個以上的實施例結合。再者，必須說明的是，以下所附之例圖僅是為了幫助說明，並未依照實際比例繪示。

雖然本說明書係使用所揭露之實施例來描述本發明之主題，但所揭露之實施例係用以保護本發明之專利要求範圍，並非用以限定本發明之範圍。因此，本說明書所揭露之實施例，對於任何在本領域熟悉此技藝者，將很快可以理解上述之優點。在閱讀完說明書內容後，任何在本領域熟悉此技藝者，在不脫離本發明之精神和範圍內，可以廣義之方式作適當的更動和替換。

100‧‧‧資料分群裝置

110‧‧‧新聞資料庫

120‧‧‧預處理模組

130‧‧‧計算模組

140‧‧‧分群模組

150‧‧‧比較模組

160‧‧‧事件資料庫

300、400、500‧‧‧流程圖

S310、S320、S330、S340、S350、S360、S370、S380、S410、S420、S430、S510、S520‧‧‧步驟

第1圖係顯示根據本發明一實施例所述之資料分群裝置100之架構圖。

第2圖係顯示根據本發明一實施例所述之整體側影值和群集數目對應之示意圖。

第3圖係顯示根據本發明一實施例所述之資料分群方法之流程圖300。

第4圖係顯示根據本發明一實施例所述之建立整體側影樣式表之流程圖400。

第5圖係顯示根據本發明一實施例所述之計算每一群集之對應之群內平均距離之流程圖500。