TW201824113A

TW201824113A - 社群資料分析系統及其新興主題預測方法

Info

Publication number: TW201824113A
Application number: TW105143528A
Authority: TW
Inventors: 梁哲瑋; 薛文崇
Original assignee: 財團法人工業技術研究院
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2018-07-01

Abstract

一種新興主題預測方法，用於一社群資料分析系統，該方法包括：從複數個新聞媒體及複數個社群媒體分別抓取複數個新聞媒體歷史資訊及複數個社群媒體歷史資訊；取得已標記之一新興主題資料集，並依據該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立一預測模型；從該複數個新聞媒體及該複數個社群媒體串流抓取複數個新聞媒體最新資訊及複數個社群媒體最新資訊；依據所建立之該預測模型以預測在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中是否包括至少一新興主題；當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中包括該至少一新興主題時，將該新興主題與一企業資料進行比對，並在比對相符合，對與該企業資料相關之一企業使用者發出警示。

Description

社群資料分析系統及其新興主題預測方法

本發明係有關於社群資料分析系統，特別是有關於一種社群資料分析系統及其新興主題預測方法。

隨著社群媒體的使用普及化，越來越多企業希望從社群媒體的討論中獲得商機。因此如何融合企業內部結構性數值資料與社群媒體非結構性文字資料是必須解決的問題。目前的資料融合系統普遍遇到的問題是社群媒體資料主題太多元且雜亂，難以即早從中評估哪些主題是實際有影響性的，更難以將多種社群管道訊息融合出有意義的結果，因此企業客戶也難以即早且較準確得知在社群網路或新聞網站上可能發生的新興主題，進而採取相應的反應措施。

本發明之一實施例係提供一種社群資料分析系統，包括：新聞媒體擷取伺服器，用以從複數個新聞媒體抓取複數個新聞媒體歷史資訊；社群媒體擷取伺服器，用以從複數個社群媒體抓取複數個社群媒體歷史資訊；資料分析伺服器，用以取得已標記之新興主題資料集，並依據該新興主題資料集、該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立預測模型；其中，該新聞媒體擷取伺服器及該社群媒體擷取伺服器更從該複數個新聞媒體及該複數個社群媒體串流抓取複數個新聞媒體最新資訊及複數個社群媒體最新資訊，其中該資料分析伺服器更依據所建立之該預測模型以預測在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中是否包括至少一新興主題，其中當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中包括該至少一新興主題時，該資料分析伺服器係將該新興主題與企業資料進行比對，並在比對相符合，對與該企業資料相關之企業使用者發出警示。

本發明之一實施例提供一種新興主題預測方法，用於社群資料分析系統，該方法包括：從複數個新聞媒體及複數個社群媒體分別抓取複數個新聞媒體歷史資訊及複數個社群媒體歷史資訊；取得已標記之新興主題資料集，並依據該新興主題資料集、該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立預測模型；從該複數個新聞媒體及該複數個社群媒體串流抓取複數個新聞媒體最新資訊及複數個社群媒體最新資訊；依據所建立之該預測模型以預測在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中是否包括至少一新興主題；當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中包括該至少一新興主題時，將該新興主題與企業資料進行比對，並在比對相符合，對與該企業資料相關之企業使用者發出警示。

100‧‧‧社群資料分析系統

101‧‧‧新聞媒體擷取伺服器

102‧‧‧社群媒體擷取伺服器

103‧‧‧資料分析伺服器

104‧‧‧資料儲存伺服器

125‧‧‧社群資料分析程式

150‧‧‧資料前處理特徵化模組

151‧‧‧關鍵字及特徵化模組

152‧‧‧時間序列建模模組

160‧‧‧新興模式建模模組

170‧‧‧機器學習分類器模組

171‧‧‧機器學習模組

172‧‧‧訓練分類器

S210-S270、S310-S360‧‧‧步驟

第1圖為本發明一實施例之社群資料分析系統之示意方塊圖。

第2圖為本發明一實施例之社群資料及企業資料之融合方法的示意流程圖。

第3圖為本發明一實施例之建立預測模型方法的示意流程圖。

第4圖為本發明一實施例之機器學習分類器模組之示意方塊圖。

第1圖為本發明一實施例中之社群資料分析系統之示意方塊圖。在一實施例中，社群資料分析系統100係可由一或多台伺服器所組成。在一些實施例中，社群資料分析系統100可包括：一或多個新聞媒體擷取伺服器101；一或多個社群媒體擷取伺服器102；一或多個資料分析伺服器103；一或多個資料儲存伺服器104。資料儲存伺服器則儲存了客戶資訊、產品資訊、新聞資訊、社群資訊、機器學習資訊。

本實施例中，新聞媒體擷取伺服器101及社群媒體擷取伺服器102係可分別從不同的多個新聞媒體及社群媒體抓取其歷史資訊、且可串流接收新聞媒體及社群媒體之最新資訊。資料分析伺服器103則可分析所抓取之新聞媒體及社群媒體之資訊，並執行社群資料分析程式125以預測所抓取的資訊中是否有主題可能成為新興主題。其中，從新聞媒體及社群媒體所接收的資訊例如可包含文章資訊或影音撥放資訊等，但本發明不以此為限。

在一些實施例中，上述伺服器101~104之功能可由單一伺服器所實現。

舉例來說，社群資料分析系統100中之各伺服器可透過網路或實體資料傳輸介面連接之方式進行溝通，且並可透過網路與其他電子裝置、或是在網際網路上之社群網路或新聞網站連接。

舉例來說，社群資料分析系統100中之各伺服器可執行社群資料分析程式125或相應功能的部份模組。舉例來說，社群資料分析程式125包括資料前處理特徵化模組150、新興模式建模模組160、以及機器學習分類器模組170。為了便於說明，第1圖之實施例係以資料分析伺服器103執行社群資料分析程式125為例進行說明，但本發明並不以此為限。

本實施例中，資料前處理特徵化模組150包括關鍵字及特徵化模組151及時間序列建模模組152。舉例來說，關鍵字及特徵化模組151係從網路上之社群網路或新聞網站擷取或接收社群串流資料或新聞串流資料(在後述實施例中係稱為「社群資料」)，並產生相關的關鍵字(或標籤)及其背景特徵的集合，並分析社群網路結構，將社群資料做特徵化，並將結果輸出至新興模式建模模組160以進行主題建模。時間序列建模模組152則可先去除社群資料中之雜訊，並將非結構性的文字資料(例如：華文)進行文字處理。時間序列建模模組152更可將來自關鍵字及特徵化模組151之關鍵字及其背景特徵之集合依照時序排序，持續記錄多變量的時間序列，並將結果輸出至新興模式建模模組160。

新興模式建模模組160係用以進行新興模式之建模(Emerging Pattern Modeling)，輸入為關鍵字與其背景特徵的集合，輸出為新興模式，此模組要將詞語對應到主題模型，並加入時間維度，找出新興模式。總資料集合設為C，第t個時間區間的資料可為： C _t=〈C _t ,C _t+1〉

給定n為任意正整數，在本實施例中，新興(emerging)主題可為：有一主題在兩個不同時間區段t與t+n的資料集之間有顯著的數量成長而過去顯得相對的稀少。其中，顯著的意思係例如為此主題支持度(Support)的成長率(growth rate)大於門檻值(threshold)，例如supp _C2(X)/supp _C1(X) threshold。其中，supp(X)為支持度(support)函數，supp_c1(X)表示主題X在C1資料集所佔的比例，supp_c2(X)表示主題X在C2資料集所佔的比例。

意即資料集合C2相對於資料集合C1之成長率大於門檻值。對於門檻值之設定，可以由使用者手動調整，或是選擇變化比例占整個資料集的第一個四分位之部分(即25%)等，但本發明並不以此為限。

在本實施例中，新興模式建模模組160更可考慮處理連續時間的新興程度，以增加運算的效率。

舉例來說，在輔助信息的部份，新興主題會有一或多個源頭(source)，且其擴散傳播的方式是由個人至一小群體，再推及至更廣的範圍(例如是社群網站或新聞網站之熱門標題)。更進一步而言，可為群體中相對具有影響力的人，所發的評論成為流行事件的可能性較高。此外，時常表達意見的人，可為具有較高的活躍程度。除了意見文字本身，上述這些個人與社會環境的互動關係也可能影響到主題之新興程度的變化。

在一實施例中，新興模式建模模組160係可採取兩種方法以建立主題之模型，第一方法為將文字對應至主題，例如在主題向量(topic vector)中尋找新興主題。第二方法則是從文字中尋找新興的模式，並將屬於新興模式的文字採用聚類方法以產生新興的主題。

關於第一方法，現有主題模型的技術有pLSI(Probabilistic Latent Semantic Indexing)、LDA(latent Dirichlet allocation)、NMF(Non-negative Matrix Factorization)等，或是可使用word2vec(word to vector)之技術、類神經網路語言模型訓練工具用來映射每個詞到一個向量，可用來表示詞對詞之間的關係，且可將文章資訊中的單字轉變為實數向量。在文字對應到主題向量後，將上一時間區段分解出的主題記錄下來為主題的衍變(evolving)，而兩個不同時間區段主題，出現於意見評論中的次數有顯著的數量成長，而過去相對的稀少甚至從未出現，則是新興模式。

關於第二方法，則是利用關鍵詞的出現次數和關鍵詞與社會環境中的互動關係之輔助訊息。關鍵詞表示為一條特徵向量對應到時間維度上，將所有符合對於新興定義的關鍵字的向量取出來。這些關鍵詞均可以對應到圖中的一點，以兩個關鍵詞的互動關係作為邊，這部分係使用群集偵測方法(Community Detection)，進而從屬於新興模式的詞中觀察到新興主題。第一方法及第二方法所判斷出的新興模式將會有不同的粒度(granularity)，前者先放入主題模型，已將主題抽象化；後者是先找出新興模式，再作群集偵測，相較下粒度較大，可以解讀為微觀的新興模式。

由上述可知，新興模式建模模組160之輸入可為關鍵字與其背景特徵之集合，且其輸出為新興模式，並供機器學習分類器模組170做為輸入之用。

在本實施例中，機器學習分類器模組170係包括機器學習模組171及訓練分類器172。機器學習分類器模組170之輸入可為新進的社群資料之主題模型(已融合新聞媒體主題模型及社群媒體主題模型)、使用者之權威度、以及各主題相關的傳播時間序列(其細節將詳述於後)，輸出則為其成為新興主題的可能性與新興時間(假定判斷出會成為新興主題)。機器學習分類器模組170可用以即時預測社群資料中之新進詞語或主題，未來是否會新興。

舉例來說，機器學習分類器模組170係可將已知的新興模式模型偵測為新興模式的資料，並放人特徵化模組，且利用不同類型的分類器(classifier)，例如支持向量機(Support Vector Machine)、卷積神經網路(Convolutional Neural Network)、貝氏分類器(Naive Bayes Classifiers)、線性邏輯式迴歸(Lineal Logistic Regression)、決策樹(Decision Tree)等機器學習方式訓練出分類器(即預測模型)。

更進一步，每當有新的社群資料串流進入，社群資料分析系統100可將新的社群資料進行特徵化，去比較其多變量時序與新興的模式之時序的相似性，並預測其走向。

表1係顯示新聞媒體資訊與社群媒體資訊的例子。

在表1中，U2、U3、及U 98係分別表示各社群媒體中之使用者編號，新聞1及新聞2則是分別表示在各新聞媒體中之新聞編號。

在一實施例中，社群資料分析系統100係可從社群網路或新聞網站串流取得其文章或發文資訊、或新聞文章報導資訊或影音資訊。新聞媒體的特色是資訊結構較完整且字數或訊息較多，通常為事件的報導或陳述，且有較為明確的主題或標題，但咸少包含特定評論意見或偏好意見於其中。社群媒體的特色是資訊內容通常較簡短，通常沒有明確的標題，但詞彙或詞意較為豐富且多元。若該領域的新聞媒體重要，則可將新聞媒體的權重調高。由於有權重關係，就算純社群主題，只要成形達到門檻，也會被建入模型。

新興模式建模模組160係可利用LDA(Latent Dirichlet allocation)之技術分別建立新聞媒體與社群媒體的主題模型。例如，從表1中的資訊所建立出如表2之加權融合綜合主題模型(Topic-Term Matrix)。

其中，「土壤液化」及「颱風」為自動偵測社群資料所得到之主題的代表字，「地震」、「老屋健檢」、及「國土規劃」則是社群資料中該主題包含的關鍵字。

另外，新興模式建模模組160可由社群媒體中之使用者的資訊之按讚數及/或分享數以加構計算U2、U3、及U98等三位使用者在「土壤液化」及「颱風」兩個主題的權威性，例如表3所示。

此外，新興模式建模模組160亦可由新聞或社群中所發表的資訊建立出文件主題矩陣(Document-Term Matrix)，其係表示每一篇資訊(例如：文件1、文件2及文件3)中該詞彙的權重，例如表4所示。

更進一步，新興模式建模模組160可偵測所抓取的社群資料中之每篇資訊被分享，或是偵測是否有使用者張貼類似的資訊，並追蹤類似資訊的張貼時間，並產生資訊傳播時間序列紀錄，如表5所示，為包含「老屋健檢」主題的3份文件資訊傳播時間序列例子：

在一實施例，新興模式建模模組160可使用萊文斯坦距離(Levenshtein distance)來計算主題最具代表性的前N個資訊傳播時間序列，例如可採用下述公式：

其中lev _a,b(i,j)即表示在兩個字串a,b之間的萊文斯坦距離(Levenshtein Distance)。表6以萊文斯坦距離為例，計算出每條路徑兩兩之間的相似程度。

接著可以計算出每條路徑和所有路徑之間的相似程度(距離)總和，距離總和最小的就是最具代表性的傳播路徑序列。以表7為例，路徑B(U3,U2)到所有文件距離的總和最短，是最具代表性的傳播序列。

在一些實施例中，新興模式建模模組160更可計算不同使用者發表的資訊之相似度，並可偵測出顯性資訊傳播時間序列及隱性資訊傳播時間序列。使用者看到社群友人文章後按讚、回應或分享是直接資訊傳播，屬於顯性資訊傳播時間序列。另外，使用者可能看到文章後無明顯互動，另單獨發表相同或相似主題但用字不完全相同的文章，則屬於隱性資訊傳播時間序列。舉例來說，在上述實施例中可明顯地看出各個使用者之間所發表的資訊之按讚數及分享數，所計算出來的即為顯性資訊傳播時間序列。然而，在社群資料中，可能會有其他的使用者所發表的資訊中亦有類似的關鍵字或主題，新興模式建模模組160可分析社群資料中之其他類似的關鍵字或主題，並建立隱形資訊傳播時間序列。雖然其他使用者之資訊中的主題或關鍵字不一定與上述實施例中的主題或關鍵字完全相同，但可能使用者在討論的是具有相同關聯性的事件，此即為隱形資訊傳播時間序列。

舉例來說，在上述表1~表4之實施例可預測出土壤液化是新興主題後，則社群資料分析系統100會將土壤液化高風險區相關的關鍵字也放入主題模型中，例如包括：內湖、中山、基隆河沿岸、瑠公圳、五股、新莊、三重等等。接著，社群資料分析系統100係從企業資料中找出此關鍵字與使用者、或關鍵字與產品之間的關聯，例如表5所示：

舉例來說，該企業資料記錄了其客戶包括了U88使用者及遞寶大樓等資訊，則社群資料分析系統100會偵測出U88使用者及遞寶大樓會被新興主題「土壤液化」影響，故社群資料分析系統100會對企業使用者發出警示，藉以提醒企業使用者未來可能發生的新興主題。

第2圖係顯示依據本發明一實施例中之社群資料及企業資料之融合方法的示意流程圖。在步驟S210，抓取複數個新聞媒體與複數個社群媒體歷史資訊，並分析社群網路結構。

在步驟S220，取得已標記之新興主題資料集。其中，新興主題資料集可為事先定義之可能的新興主題之集合、或已預測之新興主題之集合。

在步驟S230，建立預測模型。例如依據該新興主題資料集、該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立預測模型。

在步驟S240，串流抓取新聞媒體及社群媒體之最新資訊。

在步驟S250，判斷是否預測為新興主題。若是，則執行步驟S260。若否，則回到步驟S240，持續串流抓取新聞媒體及社群媒體之最新資訊，例如可採用預定週期(例如數小時、每天、每週等等)串流抓取最新資訊，但本發明並不以此為限。

在步驟S260，將預測之新興主題與企業資料比對。在步驟S270，當預測出的新興主題與企業資料有關時，通知與企業資料相關之企業使用者。

第3圖係顯示依據本發明一實施例中之建立預測模型方法的示意流程圖。在第2圖中之步驟S230建立預測模型之流程係繪示於第3圖。在步驟S310，依據所抓取之新聞媒體及社群媒體之歷史資訊分別建立新聞媒體主題模型與社群媒體主題模型。

在步驟S320，加權融合新聞媒體主題模型與社群媒體主題模型。在步驟S330，建立使用者權威度比重。在步驟S340，建立高度相似之複數個資訊傳播時間序列。

在步驟S350，產生主題的前N個代表性資訊傳播時間序列。在步驟S360，建立預測模型。在步驟S310~S360中之細節可參考表1至表5之實施例。

第4圖係顯示依據本發明一實施例中之機器學習分類器模組之示意方塊圖。請同時參考第1圖及第4圖，機器學習分類器模組170中之訓練器係為社群資料分析系統之核心。對於機器學習分類器模組170來說，其輸入包括：社群資料之主題模型(已融合新聞媒體主題模型及社群媒體主題模型)、使用者之權威度、以及各主題相關的傳播時間序列，輸出則為其成為新興主題的可能性與新興時間(假定判斷出會成為新興主題)。更進一步，機器學習分類器模組170中之訓練器可依據上述流程建立一預測模型，且當有新的社群資料輸入社群資料分析系統100時，相關的模組則會將新的社群資料進行相應的處理以產生主題模型、使用者之權威度、以及各主題相關的傳播時間序列，機器學習分類器模組170中之訓練器則判斷目前已分析出在主題模型中的之各主題是否有成為新興主題的可能性。

本揭露之各實施例的方法，或特定型態或其部份，可以以程式碼的型態包含於實體媒體，如軟碟、光碟片、硬碟、或是任何其他機器可讀取(如電腦可讀取)儲存媒體，其中，當程式碼被機器，如電腦載入且執行時，此機器變成用以參與本揭露之各實施例的裝置或系統。本揭露之各實施例的方法、系統與裝置也可以以程式碼型態透過一些傳送媒體，如電線或電纜、光纖、或是任何傳輸型態進行傳送，其中，當程式碼被機器，如電腦接收、載入且執行時，此機器變成用以參與本揭露之各實施例的裝置或系統。當在一般用途處理器實作時，程式碼結合處理器提供一操作類似於應用特定邏輯電路之獨特裝置。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

Claims

一種社群資料分析系統，包括：一新聞媒體擷取伺服器，用以從至少一個新聞媒體抓取複數個新聞媒體歷史資訊；一社群媒體擷取伺服器，用以從至少一個社群媒體抓取複數個社群媒體歷史資訊；一資料分析伺服器，用以取得已標記之至少一新興主題資料集，並依據該新興主題資料集、該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立一預測模型；其中，該新聞媒體擷取伺服器及該社群媒體擷取伺服器更從該至少一個新聞媒體及該至少一個社群媒體串流抓取複數個新聞媒體新資訊及複數個社群媒體新資訊，其中該資料分析伺服器更依據所建立之該預測模型以預測在該複數個新聞媒體新資訊及該複數個社群媒體新資訊中是否包括至少一新興主題，其中當在該複數個新聞媒體新資訊及該複數個社群媒體新資訊中包括該至少一新興主題時，該資料分析伺服器係將該新興主題與至少一企業資料進行比對，並在比對相符合，對與該企業資料相關之至少一企業使用者發出警示。
如申請專利範圍第1項所述之社群資料分析系統，其中該資料分析伺服器更依據該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊以分別建立一新聞媒體主題模型及一社群媒體主題模型，並加權融合該新聞媒體主題模型及該社群媒體主題模型以產生一綜合主題模型。
如申請專利範圍第2項所述之社群資料分析系統，其中該資料分析伺服器更分析該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊以建立一使用者權威度比重，並建立在高度相似之複數個資訊傳播時間序列，其中該資料分析伺服器更決定前N個最具代表性之該複數個資訊傳播時間序列，並依據該複數個資訊傳播時間序列建立該預測模型。
如申請專利範圍第3項所述之社群資料分析系統，其中該資料分析伺服器係計算在該綜合主題模型中之每兩個主題之間加權的一萊文斯坦距離(Levenshtein distance)，並依據計算而得之該加權萊文斯坦距離以取得該前N個最具代表性之該複數個資訊傳播時間序列。
如申請專利範圍第1項所述之社群資料分析系統，其中當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中未包括該至少一新興主題時，該新聞媒體擷取伺服器及該社群媒體擷取伺服器係持續地從該複數個新聞媒體及該複數個社群媒體串流抓取該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊。
一種新興主題預測方法，用於一社群資料分析系統，該方法包括：從複數個新聞媒體及複數個社群媒體分別抓取複數個新聞媒體歷史資訊及複數個社群媒體歷史資訊；取得已標記之一新興主題資料集，並依據該新興主題資料集、該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊建立一預測模型；從該複數個新聞媒體及該複數個社群媒體串流抓取複數個新聞媒體最新資訊及複數個社群媒體最新資訊；依據所建立之該預測模型以預測在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中是否包括至少一新興主題；當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中包括該至少一新興主題時，將該新興主題與一企業資料進行比對，並在比對相符合，對與該企業資料相關之一企業使用者發出警示。
如申請專利範圍第6項所述之新興主題預測方法，更包括：依據該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊以分別建立一新聞媒體主題模型及一社群媒體主題模型；以及加權融合該新聞媒體主題模型及該社群媒體主題模型以產生一綜合主題模型。
如申請專利範圍第7項所述之新興主題預測方法，更包括：分析該複數個新聞媒體歷史資訊及該複數個社群媒體歷史資訊以建立一使用者權威度比重，並建立在高度相似之複數個資訊傳播時間序列；以及決定前N個最具代表性之該複數個資訊傳播時間序列，並依據該複數個資訊傳播時間序列建立該預測模型。
如申請專利範圍第8項所述之新興主題預測方法，更包括：計算在該綜合主題模型中之每兩個主題之間加權的一萊文斯坦距離(Levenshtein distance)，並依據計算而得之該加權萊文斯坦距離以取得該前N個最具代表性之該複數個資訊傳播時間序列。
如申請專利範圍第6項所述之新興主題預測方法，更包括：當在該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊中未包括該至少一新興主題時，持續地從該複數個新聞媒體及該複數個社群媒體串流抓取該複數個新聞媒體最新資訊及該複數個社群媒體最新資訊。