TW201839628A

TW201839628A - 一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置

Info

Publication number: TW201839628A
Application number: TW106128410A
Authority: TW
Inventors: 唐曉麗; 穎琪梁
Original assignee: 慧科訊業有限公司
Priority date: 2017-04-26
Filing date: 2017-08-22
Publication date: 2018-11-01
Also published as: CN108804432A; TWI653542B

Abstract

本發明提供一種基於網路媒體資料流程發現熱點話題的方法，包括：根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。本發明還提供了基於網路媒體資料流程發現熱點話題的系統和裝置。

Description

一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置

本發明屬於互聯網資料採擷技術領域，特別涉及一種基於網路媒體資料流程發現並跟蹤熱點話題的方法、系統和裝置。

計算機、通信以及網路技術的迅速發展使包括PC、平板電腦、智慧手機、網路電視等在內的終端設備的性能不斷提高。相應地，互聯網媒體，特別是互聯網社交媒體，憑藉其多元性、迅捷性、交互性、易複製性、多媒體化等特點，已逐漸成為大眾獲取新聞資訊的主要途徑之一。互聯網社交媒體作為人們溝通交流的工具，越來越多地被用於傳播新聞報導，更新個人狀態，發佈目擊記錄和交流思想看法。社交媒體上的資料量每天以數百萬計的速度迅速增長，如何從海量的資料中即時發現和跟蹤熱點話題來為企業決策和政府輿情監控提供指引，已成為業界研究的熱點。

然而，現有的熱點話題發現和跟蹤技術方案或多或少存在以下缺陷：1)資料來源單一，發現的熱點話題不全面；2)對於採用聚類/主題模型進行熱點話題發現的方法，由於社交媒體資料簡短和不規範性，使得精確度較低；3)對於根據來源資料類型將話題簡單定義為在特定時間地點常用/常見的關鍵字、短語、話題標籤或文章等的方法，則存在無法對話題進行豐富的及語意層面的分析與描述的不足，並且無法實現對話題的跟蹤；4)對於單純採用圖搜索(例如廣度優先搜索)對詞共現圖(簡稱詞圖)進行切分以實現熱點話題發現的方法，由於詞圖體積較大，圖搜索演算法複雜度高，演算法效率低。

本發明的目的是克服現有技術中的不足，提供一種熱點話題發現與跟蹤技術。本發明以互聯網媒體資料流程為對象，以詞共現圖的構建/更新為基礎，通過對詞圖的逐步切分處理獲取候選話題集合，並進行候選話題聚類以實現對熱點話題的發現；進一步地，通過時間維度對發現的熱點話題進行對比，從而實現對熱點話題的跟蹤。

對應地，本發明提供一種基於網路媒體資料流程發現熱點話題的方法，包括以下步驟：根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。

較佳地，所述關鍵字圖中的節點由各個關鍵字構成，所述關鍵字圖中的邊由各個關鍵字的共現關係構成。

較佳地，所述構建或更新對應的關鍵字圖的步驟包括：根據詞共現的統計結果為每條邊賦權值；根據每個節點所連接邊的權值為對應的節點賦權值。

較佳地，所述按照預定的規則對關鍵字圖進行逐步切分的步驟包括：根據關鍵字圖中節點的權值資訊，按照預定的規則選取節點集合；針對選取的節點集合，從權值最高的節點開始，計算每個當前節點與其鄰接點的緊密度；根據每個當前節點與其鄰接點的緊密度是否大於預定的第一閾值，將整個關鍵字圖逐步切分為一系列子圖集合。

較佳地，所述預定的規則包括：top-K個節點，top-K%個節點，權值高於閾值的節點，包含特定關鍵字的節點，與特定行業、特定公司、特定產品和/或特定人物相關的節點，和/或所有節點。

較佳地，所述預定的規則可以單獨使用或任意交叉組合使用。

較佳地，針對每個鄰接點，所述緊密度是根據該鄰接點與鄰居節點之間連接分佈關係計算獲取的。

較佳地，所述將整個關鍵字圖逐步切分為一系列子圖集合的步驟包括：選取所述緊密度大於預定的第一閾值的鄰接點集合與所述當前節點構建的子圖，作為切分的一個候選話題。

較佳地，所述方法還包括：針對切分得到的每一個子圖，進一步採用圖搜索的方式判斷是否需要對子圖進行再次切分。

較佳地，所述針對各個候選話題進行聚類合併的步驟包括：將每個候選話題所對應的子圖以向量的形式表示；利用候選話題的向量進行聚類合併處理。

較佳地，所述將每個候選話題所對應的子圖以向量的形式表示的步驟包括：基於語義相似性模型，利用詞向量表示工具來提取每個候選話題所對應的子圖的語義特徵向量。

較佳地，所述針對各個候選話題基於對應的子圖進行子圖聚類合併的步驟包括：選取候選話題集合中的一個候選話題；計算所選取的候選話題的向量與當前時間視窗t中已有的各熱點話題的向量之間的相似度；選取針對該候選話題計算得到的各個相似度中的最大值；將所述相似度最大值與預定的第二閾值比較；如果所述相似度最大值大於所述預定的第二閾值，則將所選取的候選話題聚合到與所述相似度最大值對應的熱點話題中，否則，使所選取的話題自成一個熱點話題。

較佳地，除對應的關鍵字圖外，每個熱點話題還具有以下中的至少一個：相關文章清單、趨勢分析表、話題摘要、話題類別。

較佳地，在上述方法中，在獲取作為結果的熱點話題之後，進一步執行以下步驟，以實現話題跟蹤：針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度，並記錄與該熱點話題j相關度最大的熱點話題為i_max、其相關度為s_max；如果s_max值大於預設的第三閾值，則保存該熱點話題j，並建立熱點話題j與對應的熱點話題i_max在當前時間視窗t出現的關聯關係；如果s_max值不大於預設的第三閾值，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。

較佳地，所述方法還包括：當s_max值大於預設的第三閾值時，合併所述熱點話題j與對應的熱點話題i_max的關鍵字圖。

較佳地，所述計算熱點話題j與各個現有熱點話題i之間的相關度的步驟包括：通過熱點話題i和熱點話題j的關鍵字集合的交集中詞的數量與並集中詞的數量之比得到這兩個話題的相關度。

較佳地，所述計算熱點話題j與各個現有熱點話題i之間的相關度可以通過計算關鍵字圖之間相關度、相關文章之間相關度和/或話題摘要之間相關度獲取。

較佳地，所述關聯關係包括：所述熱點話題j是所述熱點話題i_max的延伸、演變、子話題或相關話題。

本發明還提供給一種基於網路媒體資料流程發現熱點話題的系統，包括：預處理單元，其用於根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；分類和過濾單元，其用於採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；統計單元，其用於以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；構建/更新單元，其用於根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；切分單元，其用於按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；聚類單元，其用於針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。

較佳地，所述構建/更新單元還用於：根據詞共現的統計結果為每條邊賦權值；根據每個節點所連接邊的權值為對應的節點賦權值。

較佳地，所述切分單元還用於：根據關鍵字圖中節點的權值資訊，按照預定的規則選取節點集合；針對選取的節點集合，從權值最高的節點開始，計算每個當前節點與其鄰接點的緊密度；根據每個當前節點與其鄰接點的緊密度是否大於預定的第一閾值，將整個關鍵字圖逐步切分為一系列子圖集合。

較佳地，所述切分單元還用於：選取所述緊密度大於預定的第一閾值的鄰接點集合與所述當前節點構建的子圖，作為切分的一個候選話題。

較佳地，所述切分單元還用於：針對切分得到的每一個子圖，進一步採用圖搜索的方式判斷是否需要對子圖進行再次切分。

較佳地，所述聚類單元還用於：將每個候選話題所對應的子圖以向量的形式表示；利用候選話題的向量進行子圖聚類合併處理。

較佳地，所述聚類單元還用於：基於語義相似性模型，利用詞向量表示工具來提取每個候選話題所對應的子圖的語義特徵向量。

較佳地，所述聚類單元還用於：選取候選話題集合中的一個候選話題；計算所選取的候選話題的向量與當前時間視窗t中已有的各熱點話題的向量之間的相似度；選取針對該候選話題計算得到的各個相似度中的最大值；將所述相似度最大值與預定的第二閾值比較；如果所述相似度最大值大於所述預定的第二閾值，則將所選取的候選話題聚合到與所述相似度最大值對應的熱點話題中，否則，使所選取的話題自成一個熱點話題。

較佳地，上述系統還包括以下用於實現話題跟蹤的單元：計算單元，其用於針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度並記錄與該熱點話題j相關度最大的熱點話題為i_max、其相關度為s_max；確定和保存單元，其用於：在確定相關度計算結果s_max值大於預設的第三閾值時，保存該熱點話題j，並建立熱點話題j與對應的熱點話題i_max在當前時間視窗t出現的關聯關係；並且在確定相關度計算結果不大於預設的第三閾值，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。

較佳地，所述系統還包括合併單元，其用於當相關度計算結果s_max值大於預設的第三閾值時，合併所述熱點話題j與對應的熱點話題i_max的關鍵字圖。

較佳地，所述計算單元還用於：通過熱點話題i和熱點話題j的關鍵字集合的交集中詞的數量與並集中詞的數量之比得到這兩個話題的相關度。

較佳地，所述計算單元還用於：計算關鍵字圖之間相關度、相關文章之間相關度和/或話題摘要之間相關度，以獲取熱點話題j與各個現有熱點話題i之間的相關度。

本發明還提供一種基於網路媒體資料流程發現熱點話題的裝置，包括：處理器；記憶體，其與所述處理器耦接，並且存儲有用於執行以下操作的電腦程式代碼：根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。

較佳地，所述記憶體還存儲有用於執行以下操作的電腦程式代碼，從而在獲取作為結果的熱點話題之後，實現話題跟蹤：針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度，並記錄與該熱點話題j相關度最大的熱點話題為i_max、其相關度計算結果為s_max；如果s_max 值大於預設的第三閾值，則保存該熱點話題j，並建立熱點話題j與對應的熱點話題i_max在當前時間視窗t出現的關聯關係；如果s_max值不大於預設的第三閾值，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。

通過實施本發明提供的技術方案可以獲得以下技術效果：1)可以對多種社交媒體平臺的不同類型的資料統一進行處理，進行全面的熱點話題發現；2)實現對熱點話題全面、動態地展示；3)對於發現的熱點話題，從語義角度出發進一步分析、聚類，解決同一話題的不同表示方法，有效提高了話題的獨立性；4)通過逐步對詞圖進行切分，在保證熱點話題發現準確度的情況下，明顯提升了處理效率。

100,600,700‧‧‧流程圖

101-106,601-607,701-703‧‧‧步驟

1000‧‧‧熱點話題的系統

1001‧‧‧話題發現子系統

1002‧‧‧話題跟蹤子系統

1003‧‧‧預處理單元

1004‧‧‧分類和過濾單元

1005‧‧‧統計單元

1006‧‧‧構建/更新單元

1007‧‧‧切分單元

1008‧‧‧聚類單元

1009‧‧‧計算單元

1010‧‧‧確定和保存單元

1011‧‧‧合併單元

第一圖是本發明提供的一種發現網路媒體資料流程中的熱點話題的方法的示例性流程圖；第二圖是根據本發明的一個實施例對文本資料進行預處理的示意圖；第三圖是根據本發明的一個實施例構建關鍵字圖處理的示意圖；第四圖是根據本發明的一個實施例對關鍵字圖進行切分處理的示意圖；第五圖是根據本發明的一個實施例的詞向量訓練結果的示意圖；第六圖是根據本發明的一個實施例對候選話題進行聚類合併處理的示例性流程圖；第七圖是本發明提供的一種跟蹤網路媒體資料流程中的熱點話題的方法的示例性流程圖；第八圖是根據本發明的一個實施例的相關聯話題i和話題j的關鍵字圖的示意圖；第九圖是根據本發明的一個實施例的對上述相關聯話題i和話題j的關鍵字圖進行合併處理的示意圖；第十圖是本發明提供的一種發現並跟蹤網路媒體資料流程中的熱點話題的系統的示例性功能方塊圖。

以下結合附圖通過實施例的形式來描述本發明的具體實施方式，以便於本領域技術人員理解本發明的目的、技術方案和優點。本領域技術人員可以理解，以實施例的形式描述的具體實施方式僅僅是示例性的，而本發明的構思並不僅限於所示出的這些特定的實施例。

第一圖示出本發明提供的一種發現網路媒體資料流程中的熱點話題的方法100的示例性流程圖。

首先，在步驟101中，根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t的多篇不同類型的文本資料，並對所獲取的資料進行預處理。在本發明中，包含有文本資料的網路媒體資料流程可以從各種形式的網路媒體平臺(即，資料來源)獲得，包括但不限於，微博、Facebook等社交媒體平臺，微信等即時通訊平臺，以及論壇、新聞網站等較為傳統的網路媒體平臺。相應地，本發明並不對文本資料的來源、格式、語言以及篇幅做出限制，一篇(或一組)文本資料可以是一篇正規的新聞報告，也可以是一篇微博。可以根據需要來靈活地選擇預設的時間間隔(例如每天、每小時或每十分鐘等)，以確定合適的當前時間視窗t對資料進行預處理及話題發現。預處理操作包括分詞、詞性標注、去停用詞和去噪等。

現在轉到第二圖，第二圖示出根據本發明的一個實施例對文本資料進行預處理的示意圖。在第二圖中，方框(a)表示原始輸入的一篇文本資料。在示出的實施例中，為了便於說明，將輸入的一篇文本資料示出為一句話的短消息。首先，對文本資料進行分詞處理，並為分詞處理後的每個詞添加其詞性標記，分詞處理的結果如方框(b)所示。例如，在該實施例中，ns表示地名、v表示動詞、w表示標點符號等等。本發明並不對分詞和添加詞性標記的具體處理方式做出限制。然後，繼續對分詞處理的進行去停用詞處理，即將常用詞以及無意義詞去掉，去停用詞處理的結果如方框(c)所示。

回到第一圖，在步驟102中，針對經預處理的每篇文本資料，採用分類演算法識別其所屬類別，並根據所識別的類別對各篇文本資料進行過濾。該處理步驟可以用作去除資料流程中的廣告、私人生活狀態等無用資訊，還可以用作支援使用者自訂其感興趣的話題類別(例如，時政、財經、體育等)，以過濾屬於不感興趣話題類別的文章。本發明並不對文本資料分類和過濾的具體處理方式做出限制。

然後，在步驟103中，以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係。對於給定的一篇文本資料，可以根據各種合理的方式定義兩個關鍵字之間是否存在“共現”關係。例如，可以根據以下方式中的至少一種來確定共現關係：兩個詞是否在同一個句子中出現；兩個詞之間的距離是否小於某一閾值；兩個詞在文法上是否存在依存關係。在一個實施例中，一個時間視窗t內的關鍵字共現關係統計結果可以通過累計該時間視窗內所有文本資料的統計結果來獲取。

然後，在步驟104中，根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖。

現在轉到第三圖，結合具體實例來說明構建關鍵字圖處理的具體方式。在第三圖的實施例中，方框(a)示出用於構建詞圖的各個關鍵字。在這個實施例中，根據兩個關鍵字之間的距離來確定詞共現關係，這裡設定距離的閾值為3，即將相鄰的三個關鍵字視為具有共現關係。例如，方框(a)中相鄰的“美國”、“威斯康辛州”、“選舉”三個關鍵字具有共現關係。具體構建過程如下：首先，根據詞共現關係構建的統計結果構建關鍵字圖，如圖(b)所示。在所構建的關鍵字圖中，節點由各個關鍵字構成，邊由各個關鍵字的共現關係構成。

然後，根據詞共現的統計結果(即，共現次數)為每條邊賦權值，如圖(c)所示。在一個實施例中，可以通過累加兩個關鍵字在不同時間視窗內的共現次數來計算對應邊的權值。在另一個實施例中，在當前時間視窗t中計算邊權重時，可以加入時間衰減因數，即隨著時間的推進不斷減低歷史資料的重要性。在另一個實施例中，可以設置時間推進視窗閾值，刪除大於閾值的歷史資料，以減小對當前視窗權值計算的影響。

然後，根據每個節點(即，關鍵字)所連接邊的權值為對應的節點賦權值，例如，如圖(d)所示，將每個節點所有連接邊的權值相加。在一個實施例中，可以根據節點所代表的關鍵字的詞性調整其權值，例如，提高人名、地名、機構名等專有名詞的權值。可以理解，邊和節點的權值反映了其在在不同時間窗口的熱門程度或重要性。

在系統初始化階段(即，t為第一個時間視窗)，上述處理過程可以用於構建關鍵字圖，之後該處理過程可以進一步用於根據歷史資料更新當前時間視窗t的關鍵字圖。

回到第一圖，在步驟105中，按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖。如上文所述，單純採用圖搜索方式進行熱點話題發現的現有技術具有處理效率低的缺陷。本發明則通過逐步對關鍵字圖進行切分的方式，將整個詞圖逐步切分為一系列子圖集合，然後在必要時對切分得到的每一個子圖採用圖搜索的方式進一步判斷是否進行再一次切分。此時，由於子圖較小，圖搜索演算法效率將會提高。切分得到的最終子圖集合即為候選話題集合。

現在轉到第四圖，結合具體實例來說明對關鍵字圖進行切分處理的具體方式。在第四圖的實施例中，圖(a)示出通過步驟101-104構造的一個完整的關鍵字圖。出於簡潔的目的，所示出的關鍵字圖僅標識每個節點(即，關鍵字)的權值，而未示出每條邊(即，共現關係)的權值。

首先，根據關鍵字圖中節點的權值資訊，按照預定的規則選取一個節點集合。例如，預定的規則可以包括選取top-K個節點，top-K%個節點，權值高於閾值的節點，包含特定關鍵字的節點，與特定行業、特定公司、特定產品和/或特定人物相關的節點，所有節點等。在一個實施例中，所述預定的規則可以單獨使用；在另一個實施例中，所述預定的規則可以任意交叉組合使用。

然後，針對選取的節點集合，從權值最高的節點開始，通過計算每個節點與其鄰接點的緊密度，將整個詞圖逐步切分為一系列子圖集合。

針對每個鄰接點，根據該鄰接點與鄰居節點之間連接分佈關係計算緊密度。以下結合第四圖中的圖(b)至圖(d)來說明節點緊密度的一種具體計算方法。

如圖(b)所示，假設按照預定的規則選取節點後，當前需要計算鄰接點緊密度的節點是“美國”，如圖(b)中的雙圓圈節點所示。對應地，該節點具有五個鄰接點“選舉”、“威斯康辛州”、“委員會”、“週五”、“總統”，如圖(b)中的粗圓圈所示。在一個實施例中，針對每個上述鄰接點，採用以下公式計算其集聚係數(clustering coefficient)：

其中，對於一個鄰接點，其具有的鄰居節點的數目是 k，這k個鄰居節點之間實際存在的邊的數目為n，表示這k個鄰居節點最多可能存在的邊的個數。

可以理解的是，一個節點的集聚係數越大，表示該節點與其鄰接點的緊密程度越高，該節點的重要度越大；反之，一個節點的集聚係數越小，表示該節點與其鄰接點的緊密程度越低，該節點的重要度越小。

繼續第四圖中的實例，作為“美國”節點的鄰接點，“選舉”節點共有四個鄰居節點“威斯康辛州”、“委員會”、“美國”、“總統”(即，k=4)，如圖(c)中的粗圓圈所示，並且這四個鄰居節點之間共有五條邊(即，n=5)，如圖(c)中的虛線邊所示，則“選舉”節點的集聚係數為：

採用上述方式，計算“美國”節點的所有四個鄰接點的集聚係數並對其進行排序，如表(d)所示。針對該計算結果，根據設定的閾值，選取集聚係數大於閾值的鄰接點集合與“美國”節點構建的子圖即為切分的一個候選話題。

可以理解，針對選取的節點集合中的各個節點執行上述處理，可以逐步地將完整的關鍵字圖切分成為一系列子圖，以作為候選話題的集合。

可選地，針對切分得到的每一個子圖，可以進一步採用圖搜索的方法判斷是否需要對子圖進行再次切分。

圖搜索技術可以用於根據詞圖的結構對詞圖進行切分。可以採用各種適合的圖搜索技術進行詞圖切分處理。在一個實施例中，可以採用CPM(Clique Percolation Method)演算法進行詞圖切分。CPM演算法根據詞圖中完全子圖結構以及完全子圖的重疊度進行詞圖切分。

回到第一圖，在步驟106中，針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。

在候選話題集合中，因不同網路媒體平臺存在表達方式的不同，有可能存在語義相同的候選話題，因此需對其進行聚類合併處理，以提高話題的完整性和獨立性。可以理解，在本發明中，對候選話題的聚類合併是基於通過詞圖切分獲得的一系列子圖進行的。候選話題的聚類合併處理包括候選話題向量獲取候選話題聚類兩個步驟。

在進行候選話題的聚類合併處理時，需要先將每個候選話題所對應的子圖以向量的形式表示。本發明採用語義相似性模型，利用詞向量表示工具(例如，word2vec、GloVe)來提取每個候選話題所對應的子圖的語義特徵向量。

在實現候選話題的向量表示時，首先，對一個大型資料集進行分詞預處理，以預處理後的資料作為語義模型的輸入進行詞向量訓練，以獲取每個詞的詞向量。可以採用多種訓練模式進行詞向量訓練，例如，word2vec詞向量表示工具中採用CBOW(Continuous Bag-of-Words Model)和Skip-Gram兩種訓練模式。本發明對詞向量訓練的具體過程不再贅述。圖5示出了根據本發明的一個實施例的詞向量訓練結果的示意圖，其中的每一行表示一個詞的詞向量，相近的詞其詞向量是相近的，越相似的詞在向量空間中的夾角越小。

然後，根據其子圖包含的所有關鍵字的詞向量得到候選話題的向量。在一個實施例中，可以將子圖中所有關鍵字的詞向量相加並取平均，最終得到的向量為候選話題向量。

在完成候選話題的向量表示後，利用候選話題的向量進行子圖聚類合併處理。

現在轉到第六圖，其示出對候選話題進行聚類合併的處理600的示例性流程圖。以下結合第六圖，以SinglePass聚類演算法作為實例來說明聚類合併操作的具體處理流程。

在步驟601中，選取候選話題集合中的一個候選話題i。可以理解，當候選話題i是集合中的第一個候選話題時，其自成一個熱點話題。

在步驟602中，計算候選話題i的向量與當前時間視窗t中已有的各熱點話題j的向量之間的相似度。該相似度的計算基於話題的向量表示。可以通過各種合適的方法計算話題向量之間的相似度，例如，余弦相似度、歐氏距離、皮爾森相關係數等。

在步驟603中，選取針對該候選話題i計算得到的各個相似度中的最大值Sim。

在步驟604中，將該相似度最大值Sim與預定的閾值C比較。

如果相似度最大值Sim大於閾值C，則在步驟605中，將候選話題i聚合到與相似度最大值Sim對應的熱點話題j中。

如果相似度最大值Sim不大於閾值C，則在步驟606中，使候選話題i自成一個熱點話題。

在步驟607中，確定是否還有新的候選話題。如果是，則重複上述步驟601至步驟606，如果否，則結束整個處理流程。

以上結合第一圖至第六圖描述本發明提供的一種發現網路媒體資料流程中的熱點話題的方法的實施例。通過上述方法，可以獲得以關鍵字圖表示的一組熱點話題。

在一些實施例中，出於熱點話題展示和分析的需要，還可以為每個熱點話題添加除關鍵字圖以外的其他屬性，包括相關文章清單、趨勢分析表、話題摘要、話題類別等。以下對上述各個熱點話題的屬性進行說明。

相關文章列表：對於每個話題，可以採用相似度計算方法計算每一篇文章與話題關鍵字圖的相似度，對文章按照相似度從高到低進行排序，選取相似度大於閾值的文章作為當前話題的相關文章清單。

趨勢分析表：對於每個話題，可以統計該話題從開始到結束期間各個時間間隔的狀態，該狀態可以用話題討論度、話題文章量、轉發量或話題影響力等資料來表示。可以根據統計資料，繪製話題的趨勢分析表。在一個實施例中，在統計話題文章量時，趨勢分析表可以是一個“時間一話題文章量”的二維圖表。

話題摘要：為了直觀地瞭解一個話題的內容，可以採用自動摘要技術來獲取每個話題的詳細描述。對於每個話題，對該話題的相關文章進行分析，採用當前任意的自動文本摘要技術抽取每個話題的摘要，例如，可以通過TextRank演算法抽取相關文章集中的關鍵句子作為話題摘要。

話題類別：可選地，利用在步驟102獲取的文章類別，可以將一個話題下所有相關文章的類別進行統計，從而獲取一個話題的所屬類別標籤。

除了準確、高效地發現網路媒體平臺中的熱點話題以外，實現對已發現的熱點話題進行有效跟蹤也是本發明關注的一個問題。

第七圖示出本發明提供的一種跟蹤網路媒體資料流程中的熱點話題的方法700的示例性流程圖。

首先，在步驟701中，針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與現有熱點話題i之間的相關度。

可以通過多種方式計算熱點話題j與現有熱點話題i之間的相關度。

在第一個實施例中，可以通過話題i和話題j的關鍵字集合的交集中詞的數量與並集中詞的數量之比得到這兩個話題之間的相關度。例如，第八圖示出話題i和話題j的具體實例。在這個實例中，兩個話題的交集為{Trump，Clinton，大選，美國}，並集為{Trump，Clinton，大選，美國，候選人，辯論，普京，否認，操作}，則兩個話題的相關度為4/9=0.44。

在第二個實施例中，可以採用話題聚類合併處理過程中候選話題的向量表示方法，根據關鍵字圖獲取話題i和話題j的向量，然後通過計算話題之間的相關度來獲取相關度。

在第三個實施例中，可以通過關鍵字圖之間的相關度(記為Sim(keywords))、相關文章列表之間的相關度(記為Sim(docs))、話題摘要之間的相關度(記為Sim(abs))的線性組合來計算話題i和話題j的相關度：αSim(keywords)+βSim(docs)+γSim(abs)，其中α+β+γ=1

可以理解，當α=1時，該實施例即與上述第二實施例相同。

在該第三實施例中，Sim(docs)和Sim(abs)採用文本相似度計算的方式獲取，包括以下步驟。

首先，對相關文章或摘要進行分詞、去停用詞等預處理。

然後，將預處理後的文本向量進行向量表示。可以採用各種合適的方法來表示文本向量。在一個實施例中，可以採用向量空間模型表示文本向量，具體而言，可以統計每個詞的詞頻，並以詞頻作為文本向量每一維的特徵。例如，一篇文章為doc1=“週五進行總統選舉”，則其文本向量表示為doc1={週五=1，進行=1，總統=1，選舉=1}。在另一個實施例中，可採用上述聚類過程中運用語義模型的方式得到文本向量。

然後，基於文本向量計算文本相似度。其計算方式類似於Sim(keywords)，例如，計算余弦相似度、歐式距離等等。

進一步地，在步驟701中，根據相關度計算結果，將與熱點話題j相關度最大的現有熱點話題記錄為i_max’並將對應的相關度計算結果記錄為s_max。

在步驟702中，如果s_max值大於預設的閾值，則保存熱點話題j，並建立熱點話題j與對應的熱點話題i_max在當前時間視窗t出現的關聯關係；否則，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。

可以理解，如果s_max值大於預設的閾值，則說明熱點話題j屬於熱點話題i_max的延續/演變或者是熱點話題i_max的子話題或相關話題，那麼可以通過建立並保存熱點話題j與熱點話題i_max在時間視窗t出現的這種關聯關係，達到對熱點話題i_max跟蹤的效果。可選地，如果熱點話題j與所有或前述的視窗閾值中的已有話題都不相似，則可以直接保留熱點話題j作為在時間視窗t出現的新話題。

在步驟703中，當s_max值大於預設的閾值時，合併熱點話題j與熱點話題i_max的關鍵字圖。在一個實施例中，還可以向使用者展示合併後的關鍵字圖。

第九圖是根據本發明的一個實施例的對相關聯的話題i和話題j的關鍵字圖進行合併處理的示意圖。在該實施例中，在時間視窗t將當前的話題j與之前的時間視窗t-1的話題i合併，從而能夠通過關鍵字圖動態地展示話題的演變。在合併後的關鍵字圖中虛線部份只出現在話題i中，點畫線部份只出現在話題j，實線部分為話題i和話題j共有。可以理解，如上文所示，該實施例中的話題i可以是各個現有熱點話題中與話題j相關度最大的熱點話題i(即，話題i_max)。

第十圖是本發明提供的一種用於發現並跟蹤網路媒體資料流程中的熱點話題的系統1000的示例性功能方塊圖。

該系統1000包括話題發現子系統1001和話題跟蹤子系統1002。進一步地，話題發現子系統1001可以包括預處理單元1003、分類和過濾單元1004、統計單元1005、構建/更新單元1006、切分單元1007、聚類單元1008，並且話題跟蹤子系統可以包括計算單元1009、確定和保存單元1010、合併單元1011。上述系統單元1003-1011可以執行的操作和處理對應於上述處理方法100的步驟101-106以及處理方法的步驟701-703，因此不再贅述。

此外，本發明還提供給一種基於網路媒體資料流程發現熱點話題的裝置，其包括相互耦接的處理器和記憶體，其中，在記憶體中可以存儲用於執行上文描述的各個方法步驟操作的電腦程式代碼。

通過實現本發明中提供的各種發現和跟蹤網路媒體資料流程中的熱點話題的技術方案，可以對多種社交媒體平臺的不同類型的資料統一進行處理，從而進行全面的熱點話題發現，並且實現對熱點話題全面、動態地展示。同時，對於發現的熱點話題，所提供的技術方案能夠從語義角度出發進一步分析、聚類，解決同一話題的不同表示方法，有效提高了話題的獨立性。另外，通過逐步對詞圖進行切分，所提供的技術方案在保證熱點話題發現準確度的情況下，可以明顯提升處理效率。

本領域技術人員還應當理解，結合本發明公開的各個實施例所描述的各種示例性的方法步驟和單元均可以實現成電子硬體、電腦軟體或二者的組合。為了清楚地表示硬體和軟體的可交換性，上文中各種示例性的步驟和單元均圍繞其功能進行了總體描述。至於這種功能是實現成硬體還是實現成軟體，則取決於特定的應用和對整個系統所施加的設計約束條件。本領域技術人員可以針對每個特定應用，以變通的方式實現所描述的功能，但是，這種實現決策不應解釋為偏離了本發明公開內容的範圍。

本發明說明書中使用的“示例/示例性”表示用作例子、例證或說明。說明書中被描述為“示例性”的任何技術方案不應被解釋為比其它技術方案更優選或更具優勢。

本發明提供對所公開的技術內容的以上描述，以使本領域技術人員能夠實現或使用本發明。對於本領域技術人員而言，對這些技術內容的很多修改和變化都是顯而易見的，並且本發明所定義的總體原理也可以在不脫離本發明的精神或範圍的基礎上適用於其它實施例。因此，本發明並不限於上文所示的具體實施方式，而是應與符合本發明公開的發明構思的最廣範圍相一致。

Claims

一種基於網路媒體資料流程發現熱點話題的方法，其特徵在於，包括以下步驟：根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；及針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。
根據申請專利範圍第1項所述的方法，其特徵在於，所述關鍵字圖中的節點由各個關鍵字構成，所述關鍵字圖中的邊由各個關鍵字的共現關係構成。
根據申請專利範圍第2項所述的方法，其特徵在於，所述構建或更新對應的關鍵字圖的步驟包括：根據詞共現的統計結果為每條邊賦權值；及根據每個節點所連接邊的權值為對應的節點賦權值。
根據申請專利範圍第3項所述的方法，其特徵在於，所述按照預定的規則對關鍵字圖進行逐步切分的步驟包括：根據關鍵字圖中節點的權值資訊，按照預定的規則選取節點集合；針對選取的節點集合，從權值最高的節點開始，計算每個當前節點與其鄰接點的緊密度；及根據每個當前節點與其鄰接點的緊密度是否大於預定的第一閾值，將整個關鍵字圖逐步切分為一系列子圖集合。
根據申請專利範圍第4項所述的方法，其特徵在於，所述預定的規則包括：top-K個節點，top-K%個節點，權值高於閾值的節點，包含特定關鍵字的節點，與特定行業、特定公司、特定產品和/或特定人物相關的節點，和/或所有節點。
根據申請專利範圍第5項所述的方法，其特徵在於，所述預定的規則可以單獨使用或任意交叉組合使用。
根據申請專利範圍第4項所述的方法，其特徵在於，針對每個鄰接點，所述緊密度是根據該鄰接點與鄰居節點之間連接分佈關係計算獲取的。
根據申請專利範圍第4項所述的方法，其特徵在於，所述將整個關鍵字圖逐步切分為一系列子圖集合的步驟包括：選取所述緊密度大於預定的第一閾值的鄰接點集合與所述當前節點構建的子圖，作為切分的一個候選話題。
根據申請專利範圍第4項所述的方法，其特徵在於，還包括：針對切分得到的每一個子圖，進一步採用圖搜索的方式判斷是否需要對子圖進行再次切分。
根據申請專利範圍第1項所述的方法，其特徵在於，所述針對各個候選話題進行聚類合併的步驟包括：將每個候選話題所對應的子圖以向量的形式表示；及利用候選話題的向量進行聚類合併處理。
根據申請專利範圍第10項所述的方法，其特徵在於，所述將每個候選話題以向量的形式表示的步驟包括：基於語義相似性模型，利用詞向量表示工具來提取每個候選話題所對應的子圖的語義特徵向量。
根據申請專利範圍第1項所述的方法，其特徵在於，所述針對各個候選話題基於對應的子圖進行聚類合併的步驟包括：選取候選話題集合中的一個候選話題；計算所選取的候選話題的向量與當前時間視窗t中已有的各熱點話題的向量之間的相似度；選取針對該候選話題計算得到的各個相似度中的最大值；將所述相似度最大值與預定的第二閾值比較；及如果所述相似度最大值大於所述預定的第二閾值，則將所選取的候選話題聚合到與所述相似度最大值對應的熱點話題中，否則，使所選取的話題自成一個熱點話題。
根據申請專利範圍第1項所述的方法，其特徵在於，除對應的關鍵字圖外，每個熱點話題還具有以下中的至少一個：相關文章清單、趨勢分析表、話題摘要、話題類別。
根據申請專利範圍第1至13項中任一項所述的方法，其特徵在於，在獲取作為結果的熱點話題之後，進一步執行以下步驟，以實現話題跟蹤：針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度，並記錄與該熱點話題j相關度最大的熱點話題為i _max、其相關度計算結果為s _max；如果s _max值大於預設的第三閾值，則保存該熱點話題j，並建立熱點話題j與對應的熱點話題i _max在當前時間視窗t出現的關聯關係；如果s _max值不大於預設的第三閾值，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。
根據申請專利範圍第14項所述的方法，其特徵在於，還包括：當s _max值大於預設的第三閾值時，合併所述熱點話題j與對應的熱點話題i _max的關鍵字圖。
根據申請專利範圍第14項所述的方法，其特徵在於，所述計算熱點話題j與各個現有熱點話題i之間的相關度的步驟包括：通過熱點話題i和熱點話題j的關鍵字集合的交集中詞的數量與並集中詞的數量之比得到這兩個話題的相關度。
根據申請專利範圍第14項所述的方法，其特徵在於，所述計算熱點話題j與各個現有熱點話題i之間的相關度可以通過計算關鍵字圖之間相關度、相關文章之間相關度和/或話題摘要之間相關度獲取。
根據申請專利範圍第14項所述的方法，其特徵在於，所述關聯關係包括：所述熱點話題j是所述熱點話題i _max的延伸、演變、子話題或相關話題。
一種基於網路媒體資料流程發現熱點話題的系統，其特徵在於，包括：預處理單元，其用於根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；分類和過濾單元，其用於採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；統計單元，其用於以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；構建/更新單元，其用於根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；切分單元，其用於按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；及聚類單元，其用於針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。
根據申請專利範圍第19項所述的系統，其特徵在於，所述關鍵字圖中的節點由各個關鍵字構成，所述關鍵字圖中的邊由各個關鍵字的共現關係構成。
根據申請專利範圍第20項所述的系統，其特徵在於，所述構建/更新單元還用於：根據詞共現的統計結果為每條邊賦權值；根據每個節點所連接邊的權值為對應的節點賦權值。
根據申請專利範圍第21項所述的系統，其特徵在於，所述切分單元還用於：根據關鍵字圖中節點的權值資訊，按照預定的規則選取節點集合；針對選取的節點集合，從權值最高的節點開始，計算每個當前節點與其鄰接點的緊密度；及根據每個當前節點與其鄰接點的緊密度是否大於預定的第一閾值，將整個關鍵字圖逐步切分為一系列子圖集合。
根據申請專利範圍第22項所述的系統，其特徵在於，所述預定的規則包括：top-K個節點，top-K%個節點，權值高於閾值的節點，包含特定關鍵字的節點，與特定行業、特定公司、特定產品和/或特定人物相關的節點，和/或所有節點。
根據申請專利範圍第23項所述的系統，其特徵在於，所述預定的規則可以單獨使用或任意交叉組合使用。
根據申請專利範圍第22項所述的系統，其特徵在於，針對每個鄰接點，所述緊密度是根據該鄰接點與鄰居節點之間連接分佈關係計算獲取的。
根據申請專利範圍第22項所述的系統，其特徵在於，所述切分單元還用於：選取所述緊密度大於預定的第一閾值的鄰接點集合與所述當前節點構建的子圖，作為切分的一個候選話題。
根據申請專利範圍第22項所述的系統，其特徵在於，所述切分單元還用於：針對切分得到的每一個子圖，進一步採用圖搜索的方式判斷是否需要對子圖進行再次切分。
根據申請專利範圍第19項所述的系統，其特徵在於，所述聚類單元還用於：將每個候選話題所對應的子圖以向量的形式表示；及利用候選話題的向量進行聚類合併處理。
根據申請專利範圍第28項所述的系統，其特徵在於，所述聚類單元還用於：基於語義相似性模型，利用詞向量表示工具來提取每個候選話題所對應的子圖的語義特徵向量。
根據申請專利範圍第19項所述的系統，其特徵在於，所述聚類單元還用於：選取候選話題集合中的一個候選話題；計算所選取的候選話題的向量與當前時間視窗t中已有的各熱點話題的向量之間的相似度；選取針對該候選話題計算得到的各個相似度中的最大值；將所述相似度最大值與預定的第二閾值比較；如果所述相似度最大值大於所述預定的第二閾值，則將所選取的候選話題聚合到與所述相似度最大值對應的熱點話題中，否則，使所選取的話題自成一個熱點話題。
根據申請專利範圍第19項所述的系統，其特徵在於，除對應的關鍵字圖外，每個熱點話題還具有以下中的至少一個：相關文章清單、趨勢分析表、話題摘要、話題類別。
根據申請專利範圍第19至31項中任一項所述的系統，其特徵在於，還包括以下用於實現話題跟蹤的單元：計算單元，其用於針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度，並記錄與該熱點話題j相關度最大的熱點話題為i _max、其相關度計算結果為s _max；及確定和保存單元，其用於：在確定s _max值大於預設的第三閾值時，保存該熱點話題j，並建立熱點話題j與對應的熱點話題i _max在當前時間視窗t出現的關聯關係；並且在確定s _max值不大於預設的第三閾值時，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。
根據申請專利範圍第32項所述的系統，其特徵在於，還包括合併單元，其用於當s _max值大於預設的第三閾值時，合併所述熱點話題j與對應的熱點話題i _max的關鍵字圖。
根據申請專利範圍第32項所述的系統，其特徵在於，所述計算單元還用於：通過熱點話題i和熱點話題j的關鍵字集合的交集中詞的數量與並集中詞的數量之比得到這兩個話題的相關度。
根據申請專利範圍第32項所述的系統，其特徵在於，所述計算單元還用於：計算關鍵字圖之間相關度、相關文章之間相關度和/或話題摘要之間相關度，以獲取熱點話題j與各個現有熱點話題i之間的相關度。
根據申請專利範圍第32項所述的系統，其特徵在於，所述關聯關係包括：所述熱點話題j是所述熱點話題i _max的延伸、演變、子話題或相關話題。
一種基於網路媒體資料流程發現熱點話題的裝置，其特徵在於，包括：處理器；及記憶體，其與所述處理器耦接，並且存儲有用於執行以下操作的電腦程式代碼：根據預設的時間間隔，從網路媒體平臺獲取當前時間視窗t內的多篇不同類型的文本資料，並對所獲取的資料進行預處理；採用分類演算法識別經預處理的每篇文本資料的類別，並根據所識別的類別對各篇文本資料進行過濾；以各篇經預處理和過濾的文本資料作為輸入，統計關鍵字共現關係；根據關鍵字共現關係的統計結果，構建或更新對應的關鍵字圖；按照預定的規則對關鍵字圖進行逐步切分，以獲得作為候選話題集合的一系列子圖；及針對候選話題集合中的各個候選話題，基於對應的子圖進行聚類合併，以獲取作為結果的熱點話題。
根據申請專利範圍第37項所述的裝置，其特徵在於，所述記憶體還存儲有用於執行以下操作的電腦程式代碼，從而在獲取作為結果的熱點話題之後，實現話題跟蹤：針對當前時間視窗t內發現的每個熱點話題j，計算該熱點話題j與各個現有熱點話題i之間的相關度，並記錄與該熱點話題j相關度最大的熱點話題為i _max、其相關度計算結果為s _max；如果s _max值大於預設的第三閾值，則保存該熱點話題j，並建立熱點話題j與對應的熱點話題i _max在當前時間視窗t出現的關聯關係；如果s _max值不大於預設的第三閾值，則直接保留熱點話題j，以作為時間視窗t內的一個新話題。