TWI501097B

TWI501097B - 文字串流訊息分析系統和方法

Info

Publication number: TWI501097B
Application number: TW102124478A
Authority: TW
Inventors: Shun Chieh Lin; Chi Chun Hsia; Huan Wen Tsai; Chung Hong Lee
Original assignee: Ind Tech Res Inst
Priority date: 2012-12-22
Filing date: 2013-07-09
Publication date: 2015-09-21
Also published as: TW201426360A; US20140181109A1

Description

文字串流訊息分析系統和方法

本揭露主要係關於一種文字串流訊息分析系統及方法，特別係有關於一種網路即時訊息的分析系統及分析方法。

隨著網路的發達，網誌或部落格是個可以讓使用者很容易發表自己意見以及和朋友產生互動的平台，微網誌(microblog)是一種很熱門社群網路平台，舉例來說：Twitter、Plurk等都是屬於微網誌之平台，透過微網誌使用者可以發佈關於自己的日常生活瑣事，以及分享每天所遭遇到的事情，亦能瞭解朋友的近況動態等。

由於Twitter等社群微網誌平台快速地匯集了眾人對特定議題的即時資訊，這對新聞傳遞、財經應用、政治甚至於社會安全等層面已產生了具體的影響。社群微網誌興起促進了大家對世界各地即時熱門議題與事件演進的關注，舉例來說：當發生自然災害事件或群眾運動時，當地居民就能夠透過社群微網誌提供第一手的現場即時資訊，將有助於即時分析事件的成因與演化。

微網誌串流文字訊息的長度通常限制在140個字元以下，例如Twitter，其特徵數量少，且這些特徵在不同時間會具有概念漂移(concept-drift)的現象，概念漂移係指該時間區段之資料所代表的意義產生改變，更明確地來說，就是同樣的事件資料內容，會隨著時間產生不同熱門字的變化趨勢，舉例來說，可能某段時間發生海嘯的災難，因此「海嘯」這個字詞，在某段時間就會是相當熱門的字詞，但當這個事件消退及出現其他熱門字詞，如「核災」，「海嘯」這個字詞的熱門度就會產生下降，而「核災」這個字詞的熱門度就會產生上升，使得相同事件資料時間區段發生了從「海嘯」到「核災」的概念漂移現象。因此，若要完整了解即時事件內容必須透過群聚的方式來將相關的訊息彙整，觀察訊息增量情形，判斷此是否為一熱門主題。因此，在這處理過程中，需先將大量訊息進行「資料探勘」，在現今微網誌應用中，資料探勘主要可分為「圖形結構探勘(graph mining)」與「文件探勘(text mining)」兩大類，圖形結構探勘主要在探討訊息與訊息間連結的圖形關係，而文件探勘則是分析訊息的純文字內容應用於「事件偵測與追蹤」。然而，微網誌訊息是以串流型態連續不斷地在世界各地發生及流動，傳統靜態文件探勘技術無法勝任這種環境，因而必須以文件串流探勘的技術才能達到即時事件偵測的效果，包括：「微網誌事件偵測與追蹤(Microblogging Topic Detection and Tracking)」及「文件串流探勘(Text Stream Mining)」等研究工作。

然而，對於現有文件串流分群作法仍存在著不少問題，舉例來說：以切割為基礎的分群演算法：需給一個固定參數，這導致其不適用於現實世界中未知項目的問題領域上，特別是在處理議題偵測時，議題個數隨時間變化，無法決定目前有多少議題正在發生，容易造成不同議題被分在同一群組的問題；動態機率模型：需花費大量運算時間在疊代(Iterative)上，其時間運算複雜度高，所以不適合用於即時議題偵測系統，另外缺少動態字詞權重設計；詞頻-逆向文件頻率(TF-IDF,Term Frequency-Inverse Document Frequency)係常用之加權技術，然而，詞頻(TF)會受到文件長短的影響，無法給予客觀的數值，逆向文件頻率(IDF)雖會加權出現在多個文件的詞的權重，但這可能會與議題偵測的原則相違背。

此外，在我們的文獻調查中發現，大部分的議題偵測仍然以k-means叢集技術為主要方法，其最大的問題在於給定一個固定的k參數，這導致其不適用於現實世界中的未知項目的問題領域上，特別是在處理議題偵測時，議題個數隨時間變化，無法決定目前有多少議題正在發生，容易造成不同議題被分在同一群組的問題。此外，在字詞權重方面，由於傳統的字詞權重(例如：TF-IDF)只適用於靜態的環境下，並不適合用於社群媒體這種動態且大量的訊息環境下。因此，提供一個能給使用者快速且正確地從大量的社群微網誌訊息中發掘事件，以滿足其資訊需求之串流訊息分析方法，將是個重要的課題。

本揭露提供了一種文字串流訊息分析技術，可經由一種微網誌即時訊息分析方法，包含開發一個雲端知識庫，以此提供使用者快速且正確地從大量的社群微網誌訊息中發掘事件以滿足其資訊需求之文字串流訊息分析技術。

根據本揭露之一實施例提供了一種文字串流訊息分析系統，適用於一微網誌文字串流之分析：包括：一動態視窗模組，用以儲存來自上述微網誌之複數文字串流訊息，並每隔一既定時間利用一動態視窗更新所儲存之上述文字串流訊息；一動態文字權重模組，接收上述文字串流訊息，並根據一動態串流文字權重演算法，計算上述文字串流訊息以產生一驟升權重；一分群模組，根據上述文字串流訊息以及上述驟升權重，經由一分群演算法，對上述文字串流訊息進行一分群處理以產生複數群集，並以每一群驟升權重較高的一個或一個以上之關鍵字作為代表的概念字詞(concept words)，同一群的概念字詞隨時間的變化，輸出為該群的概念漂移(concept drift)偵測之概念字詞序列；以及一記憶裝置，用以儲存經過上述分群處理產生之上述群集。

根據本揭露之一實施例提供了一種文字串流訊息分析方法，適用於一微網誌文字串流之分析：包括：利用一動態視窗模組來儲存來自上述微網誌之複數文字串流訊息，並每隔一既定時間利用一動態視窗更新所儲存之上述文字串流訊息；利用一動態文字權重模組接收上述文字串流訊息，並根據一動態串流文字權重演算法，計算上述文字串流訊息以產生一驟升權重；利用一分群模組根據上述文字串流訊息以及上述驟升權重，經由一分群演算法，對上述文字串流訊息進行一分群處理以產生複數群集；以及利用一記憶裝置，儲存經過上述分群處理產生之上述群集。

根據本揭露之一實施例提供了一種文字串流訊息分析系統，適用於一微網誌文字串流之分析：包括：一分析裝置，上述分析裝置包括：一動態視窗模組，用以儲存來自上述微網誌之複數文字串流訊息，並每隔一既定時間利用一動態視窗更新所儲存之上述文字串流訊息；一動態文字權重模組，接收上述文字串流訊息，並根據一動態串流文字權重演算法，計算上述文字串流訊息以產生一驟升權重；以及一分群模組，根據上述文字串流訊息以及上述驟升權重，經由一分群演算法，對上述文字串流訊息進行一分群處理以產生複數群集；一記憶裝置，用以儲存經過上述分群處理產生之上述群集；以及一電子裝置，用以顯示上述記憶裝置所儲存之上述群集之資料。

100‧‧‧文字串流訊息分析系統

110‧‧‧動態視窗模組

120‧‧‧前處理模組

130‧‧‧動態文字權重模組

140‧‧‧分群模組

150‧‧‧記憶裝置

第1圖係顯示根據本揭露一實施例所述之文字串流訊息分析系統100之架構圖。

第2圖係顯示根據本揭露一實施例所述之動態視窗模組110之示意圖。

第3A-3B圖係根據本揭露一實施例所述之顯示於顯示裝置之顯示介面之示意圖。

第3C圖係根據本揭露另一實施例所述之顯示於顯示裝置之顯示介面之示意圖。

第4圖係顯示根據本揭露一實施例所述之文字串流訊息分析方法之流程圖400。

如第1圖係顯示根據本揭露一實施例之文字串流訊息分析系統100之架構圖，在本揭露之實施例中，文字串流訊息分析系統100適用於網路即時訊息、社群網路即時訊息、微網誌(microblog)即時訊息，例如：Twitter、Plurk等的文字串流分析。在本揭露第1圖之實施例中，文字串流訊息分析系統100包括：動態視窗模組110、前處理模組120、動態文字權重模組130、分群模組140以及記憶裝置150。

本揭露之一實施例，動態視窗模組110包括一動態視窗，用以儲存來自前述如微網誌等之即時的複數文字串流訊息，例如：來自Twitter之複數文字串流訊息，並每隔一既定時間利用動態視窗之移動，更新所儲存之上述文字串流訊息，而動態視窗模組110更用以在每隔上述既定時間，在動態視窗之移動時，刪除大於動態視窗110之一長度之上述文字串流訊息。底下將會對動態視窗模組110有更詳細之介紹。

如第2圖係顯示根據本揭露一實施例之動態視窗模組110之示意圖。本實施例以微網誌為例說明，微網誌來源是一個時序性的串流訊息，為了有效分析即時議題，本揭露實施例隨著時間處理不斷湧進之使用者即時發送的訊息，而這種連續不斷的特性並無法像過去分析文件的方式，一次性的將整個訊息儲存下來，因此本實施例會保留、儲存最近一特定時間內所發生的訊息。在如第2圖之實施例中採用動態視窗的概念，並將視窗的長度定為tw時間，假設有一新訊息m在t時間進入系統，這個訊息將會在t+tw時間被刪除，如第2圖所示，若在t時間點有一訊息m在系統中處理，經過tw時間後(也就是在時間點t+2)，訊息m就會被刪除，所以整個系統隨著時間透過新增以及刪除來動態維護記憶體中儲存的內容，使得系統在處理上更具有延展性。在第2圖之實施例中，文字串流訊息可分為四個種類，第一種過期訊息(以左斜線表示)，表示已過時效性之訊息，第二種為正在處理之訊息(以直線表示)，第三種為刪除訊息(以右斜線表示)，表示在當下時間點其時間長度大於或等於視窗的長度，因此就會被刪除(例如：在t時間點部分正在處理之訊息隨著動態視窗之移動，在t+1時間點就會有部份的訊息變為刪除訊息)，第四種為正插進來的訊息(以橫線表示)，表示有新的訊息正被接收且插入動態視窗模組110中。經由動態視窗模組110，就可不斷的更新最新的資訊，且透過新增以及刪除來自如微網誌等的文字串流訊息，來隨時動態地維護系統之記憶體所儲存的內容。

根據本揭露一實施例，動態文字權重模組130用以接收文字串流訊息，其中動態文字權重模組130所接收之文字串流訊息係先經由前處理模組120進行一前處理過程，將每一文字串流訊息進行一斷詞和斷句之處理，並濾除不必要之詞幹，以產生至少一關鍵字，舉例來說，由「全球暖化會造成了北極的冰山溶化，因而使得海平面不斷上升」這句子，透過前處理可將「全球暖化」、「北極」、「冰山」、「海平面上升」等關鍵字先萃取出來。

經過前處理後，由於每個關鍵字的重要性隨著時間是會動態的改變，因此，動態文字權重模組130必需根據概念飄移在不同時間給予每個關鍵字不同權重，動態文字權重模組130會根據一動態串流文字權重演算法，計算經過前處理模組120處理後之文字串流訊息，以產生一驟升權重，其中動態文字權重模組130透過上述動態串流文字權重演算法，計算上述關鍵字之一驟升分數(Burst Score,BS)以及一出現機率(Term Occurrence Probability,TOP)，以產生驟升權重。驟升權重(weight_w,t)係由關鍵字發生頻率計算而得，反應該關鍵字的發生頻率是否比以往增加或減少，係指每一關鍵字w在t時間的權重；一實施例如每一關鍵字w在時間t下的權重由2個因子組成：驟升分數(BS_w,t)及字詞出現機率(TOP_w,t)，驟升分數(BS_w,t)係用來動態反映字詞權重的計算方式，也就是關鍵字w在t時間的驟升分數，字詞出現機率(TOP_w,t)係用來動態反映字詞出現的機率，也就是關鍵字w在t時間的詞出現機率。

有關驟升權重(weight_w,t)、驟升分數(BS_w,t)以及字詞出現機率(TOP_w,t)，一實施例之數學計算式定義如下：weight _w,t=BS _w,t*TOP _w,t

其中ar_w,t為關鍵字w在t時間到達的速率(arrival rate)；E(ar_w,t)為關鍵字w在t時間的到達速率期望值；P(w_t|c_t)為關鍵字w在t時間視窗內訊息集合c狀況下的條件機率。|{m：w _t c _t}|為訊息m中的關鍵字w在t時間視窗內訊息集合c中出現的次數。| c_t |為t時間視窗內訊息集合c中的訊息量。根據本揭露一實施例，動態文字權重模組130會根據文字串流訊息中三種類型的字無意義字、常用字及主題字，依其重要性給予不同的權重。

將動態文字權重模組130處理之流程舉一實例來說，下面係從Twitter上收集到的幾筆文字串流訊息：

每一文字串流訊息在經過前處理模組120進行斷詞和斷句之處理，以及濾除不必要之詞幹後，會產生以下之關鍵字，例如：debate,obama,presidential,Romney等：

接著，動態文字權重模組130會根據一動態串流文字權重演算法，計算經過前處理模組120處理後之文字串流訊息，以產生每一關鍵字之驟升權重：

根據本揭露一實施例，分群模組140根據文字串流訊息以及驟升權重，透過一分群演算法，對已經過前處理模組120處理過後之文字串流訊息進行一分群處理，以產生至少一群集，其中分群模組140經由分群演算法，對上述文字串流訊息進行分群處理，係根據上述文字串流訊息不同關鍵字，以及每個關鍵字所對應之驟升權重，對上述文字串流訊息進行一相似度運算來進行分群。每一個由分群模組140所分出來的群視為一偵測到的事件，以驟升權重較高的關鍵字作為代表，這些代表字詞稱為概念字詞，同一群的概念字詞隨時間的變化，輸出為該群的概念漂移 (concept drift)偵測之概念字詞序列。

以上述例子之前兩則訊息為例，其中兩則訊息有四個相同關鍵字特徵：debate,obama,presidential,Romney、兩則訊息時間差(Thu Oct 04 08：08：04 CST 2012-Thu Oct 04 07：59：53 CST 2012=1349309284-1349308793=491)、視窗長度為7200，因此，相似度計算如下：

根據本揭露一實施例，若分群模組140所計算出之相似度大於門檻值，則將文字串流訊息新增在同一群，反之則刪除，舉例來說：若以上述例子為例，若門檻值設定為0.6，由於這兩則訊息之相似度約為0.68大於0.6，因此，這兩則訊息就會被新增在同一群，本揭露所使用之分群演算法，可分為兩個階段，分別是刪除階段和新增階段，在刪除階段刪除訊息時，該階段分成三種方式來處理這則訊息。分別為直接刪除(Removal)、削減(Reduction)以及潛在分裂(Potential)，而在新增階段新增訊息時，該階段分成四種case來處理這則訊息。分別為雜訊(Noise)、新群集的創立(Creation)、被吸收為某群集的成員(Absorption)以及群集與群集的合併(Merge)，其中合併係根據透過加總群集間大於門檻值之相同關鍵字之驟升權重所產生之分數，來判斷群集間是否該合併。

根據本揭露一實施例，一記憶裝置150用以收集和儲存經過上述分群處理產生之對應不同事件之上述群集。根據本揭露一實施例，記憶裝置150包含以一雲端方式建立之一雲端資料庫。根據本揭露一實施例，記憶裝置150會將所收集和儲存之資料彙整成一事件摘要，提供給用戶端之電子裝置以供使用者觀看或查詢，例如：桌上型電腦、智慧型手機，平板電腦等。根據本揭露一實施例，上述動態視窗模組110、前處理模組120、動態文字權重模組130、一分群模組140可整合於一分析裝置(圖未顯示)中。

根據本揭露一實施例，文字串流訊息分析系統100更包括一顯示裝置(圖未顯示)，用以顯示記憶裝置150收集和儲存之對應不同事件之上述群集。第3A-3B圖係根據本揭露一實施例所述之顯示於顯示裝置之顯示介面之示意圖。在第3A-3B圖所示之顯示介面中，顯示了偵測出來的事件(例如：第3A圖之事件編號598和事件編號592)，也就是分群模組的輸出結果，此外，在畫面上會顯示可代表該事件的數個概念字詞(concept words)，以及事件發生的時間和日期，與該事件包含幾則推文(tweets)等基本訊息。第3A-3B圖所呈現的是同一介面，但是是在不同時間點看到的結果。在第3A圖中(第一個時間點)，在事件能量分數最高之事件編號598中，可得知發生地震，並且帶有海嘯的警報，因此會出現海嘯、警報、地震等概念字詞；在第3B圖中(第二個時間點)則是發生核災後，所以在同一個事件中，如福島、核電廠等概念字詞也開始浮現。

每一事件的概念字詞之挑選，可直接選擇該群出現次數最多的一個或數個關鍵字，也可選擇驟升權重較高的一個或數個關鍵字，或參照其他字詞權重算法如：詞頻乘上文件逆向頻率(term frequency-inverse document frequency，TF-IDF)之算法，更可以採用上述算法各挑一個或數個關鍵字，再集合起來作為概念字詞。

每一個由分群模組140在時間t時所分出來的集合(群)c_t可視為一偵測到的事件，事件能量分數的計算方式包含了(時間為t時之事件熱門程度，popularity),(時間為t時之事件驟升程度，burstiness)及(時間為t時之事件資訊含量，infromativeness)這三種因子：

其中是事件c_t的訊息量；#distWords c _t表示事件c_t中有多少不同的關鍵字；為事件c_t中總關鍵字數量；是事件c_t中的第j個關鍵字；則表示事件c_t的第j個不同的關鍵字之驟升權重。

第3C圖係根據本揭露另一實施例所述之顯示於顯示裝置之顯示介面之示意圖。第3C圖所示之顯示介面，讓使用者對每個偵測出來的事件，都可以從雲端資料庫中，查詢出該事件隨時間演進時，概念字詞的變化。詳細地來說，使用者可先從第3A-3B圖點選感興趣的事件(例如：事件編號598)，點選完後，即可從雲端資料庫中查詢出該事件隨時間演進時，概念字詞的變化，再以第3C圖之顯示介面顯示。如第3C圖所示，在該事件編號598發生時，概念字詞主要是「地震」，但隨時間演進，概念字詞慢慢變成「海嘯」，最後變成「核災」，因此，透過這樣的介面顯示使用者可以追蹤同一個事件的演進，而非追蹤被分成三個不同分群的事件。

第4圖係顯示根據本揭露一實施例所述之文字串流訊息分析方法之流程圖。上述文字串流訊息分析方法適用於應用於一微網誌(microblog)文字串流之分析。首先，在步驟S410，利用一動態視窗模組來儲存來自上述微網誌之複數文字串流訊息，並每隔一既定時間利用一動態視窗更新所儲存之上述文字串流訊息；在步驟S420，利用一動態文字權重模組接收上述文字串流訊息，並根據一動態串流文字權重演算法，計算上述文字串流訊息以產生一驟升權重；在步驟S430，利用一分群模組根據上述文字串流訊息以及上述驟升權重，經由一分群演算法，對上述文字串流訊息進行一分群處理以產生複數群集；在步驟 S440，利用一記憶裝置，儲存經過上述分群處理產生之上述群集。

根據本揭露一實施例，上述文字串流訊息分析方法之步驟，更包括：利用上述動態視窗模組在每隔上述既定時間，刪除大於上述動態視窗之一長度之上述文字串流訊息。

根據本揭露一實施例，上述動態文字權重模組所接收之上述文字串流訊息，係先經由一前處理過程，將上述每一文字串流訊息進行一斷詞和斷句處理以產生複數關鍵字。根據本揭露一實施例，上述文字串流訊息分析方法之步驟，更包括：根據上述動態串流文字權重演算法，計算上述關鍵字之一驟升分數以及一出現機率，以產生上述驟升權重。

根據本揭露一實施例，經由上述分群演算法，對上述文字串流訊息進行上述分群處理，係根據上述文字串流訊息以及上述驟升權重，對上述文字串流訊息進行一相似度運算來進行分群。根據本揭露一實施例，上述記憶裝置包含以一雲端方式建立之一雲端資料庫。

傳統上之方法，需固定參數設定，不適用於偵測未知數量議題之問題，且需耗大量運算時間，不適用於即時議題偵測，此外，傳統加權計算方法無法反映串流短訊動態權重變化的特質難以處理社群訊息概念漂移(concept-drift)的問題，因此，藉由本揭露提出之文字串流訊息分析方法，可藉由動態視窗模組新增及刪除訊息來動態維護系統，以及藉由動態字詞權重技術來監控每則社群媒體訊息隨時間變化的重要性，以及利用分群模組將連續流入之社群訊息進行線上即時分群，並進行線上即時事件偵測與產生事件群集，將事件群集所有資訊，儲存到系統所建構的雲端知識庫，將有助於進一步分析事件的成因與演化為能因應未來之市場變化與衝擊，進而達成產品市場開發決策參考或達成災害預警等目的。

本說明書中所提到的「一實施例」或「實施例」所提到的特定的特徵、結構或性質，可包括在本說明書的至少一實施例中。因此，在不同地方出現的語句「在一個實施例中」，可能不是都指同一個實施例。另外，此特定的特徵、結構或性質，也可以任何適合的方式與一個或一個以上的實施例結合。再者，必須說明的是，以下所附之例圖僅是為了幫助說明，並未依照實際比例繪示。

本說明書所揭露之實施例，對於任何在本領域熟悉此技藝者，將很快可以理解上述之優點。在閱讀完說明書內容後，任何在本領域熟悉此技藝者，在不脫離本揭露之精神和範圍內，可以廣義之方式作適當的更動和替換。因此，本說明書所揭露之實施例，是用以保護本揭露之專利要求範圍，並非用以限定本揭露之範圍，此外，在不同實施例中，本揭露可能會重複使用相同的索引標號和/或文字。使用這些索引標號和/或文字的目的是為了簡化和闡明本揭露，但並非用以表示在不同實施例和/或所揭露之結構必須具有相同之特徵。