TW201333735A

TW201333735A - 中文網路資訊監測分析系統及其方法

Info

Publication number: TW201333735A
Application number: TW102115477A
Authority: TW
Inventors: zhong-bin Li
Original assignee: zhong-bin Li
Priority date: 2013-04-30
Filing date: 2013-04-30
Publication date: 2013-08-16
Also published as: TWI534640B

Abstract

本案係揭露一種中文網路資訊監測分析系統及其方法，藉由連接網際網路之包含詞庫儲存裝置、電腦運算裝置及資料庫儲存裝置的中文網路資訊監測分析系統來提供使用者之電子通訊裝置的連結，其係經過網頁資料的擷取、分類後，將產生之代表網頁資訊的特徵詞句及其權值儲存於資料庫儲存裝置，以作為被比對的對象，本發明可根據使用者所提交之中文目標資訊選擇目標的特徵資訊，根據特徵資自動在網際網路上搜集資料，並對所搜集到的網頁資料進行分類整理並導入資料庫，藉由系統的自動運行與更新，提供個性化之中文網路資訊的搜尋服務。

Description

中文網路資訊監測分析系統及其方法

本發明係關於一種中文網路資訊監測分析系統及其方法，更特別的是關於一種包含網路社群、各種媒體及論壇等於網路上所公布之資訊的監測分析系統及其方法。

隨著網路技術的進步，網路的使用人口也不斷地成長，生活網路化的程度也在逐日增加，如今，使用網路進行各種線上型態之瀏覽、評論、聊天、心情抒發等各式各樣的網路活動儼然已成為網路使用者每日必做的事。

在現今網路高度普及的情況下，微網誌、微媒體等此種一對多之短篇幅形式的社交通訊不斷地蓬勃發展，其係有別於傳統的即時通訊、聊天室、和佈告欄等方式，微網誌、微媒體係使人們得以用“生活點滴之串流”的方式進行通訊。此種通訊有關於人們的現實生活中藉由連上網際網路之電子設備進行分享之經驗所構成的思想、意見和評論。

這些龐大的資訊量往往可透露出許多的社會潮流趨向，例如：某商品在市場上被討論的程度及其評價的好壞，甚至是過去幾天內被討論的次數等，這些資訊若可被有效的取得與分析，將可對所欲了解之目標資訊帶來相當有用的分析資料。

本發明之一目的在於達到網路上之各種社群媒體、論壇網站等網路資訊的取得與分析。

本發明之另一目的在於藉由特定演算法及特定分析法的搭配來達到精確的監測分析結果。

為達上述目的及其他目的，本發明提出一種中文網路資訊監測分析系統，係用於根據所輸入之至少一中文目標資訊進行網際網路上之監測分析，包含：一詞庫儲存裝置，係內儲存有複數中文分詞表資訊、複數中文同義詞資訊、複數中文蘊含詞資訊；一電腦運算裝置，係連結該詞庫儲存裝置，包含：目標資訊處理模組、網路資訊處理分析模組及網路資訊整理模組；及一資料庫儲存裝置，係連結該電腦運算裝置，係依據所擷取網頁對應之串碼儲存所擷取之該網頁擷取資料及其分詞資訊，以分類所擷取之網頁擷取資料。該目標資訊處理模組係接收該至少一中文目標資訊；該網路資訊處理分析模組係於該網際網路進行搜尋及產生分析結果；該網路資訊整理模組，係依據該中文目標資訊於一資料庫儲存裝置內選取對應的類別並比對所擷取之網頁的該分詞資訊，於有匹配之網頁時擷取該網頁之頁面以產生一網頁擷取資料，以提供所擷取之網頁擷取資料。

其中，該網路資訊處理分析模組包含：一網路資訊擷取單元，係於該網際網路上進行網頁資料的擷取；一斷詞斷句處理單元，係用於對所擷取之該網頁資料依據標點符號及該等中文分詞表資訊進行斷詞斷句之第一階處理，再依據最大匹配法進行第二階處理，以產生對應網頁之斷詞斷句結果；一詞頻處理單元，係根據該等中文同義詞資訊及該等中文蘊含詞資訊，於該斷詞斷句結果中計數對應之詞句的出現頻率，以產生對應網頁之一詞頻計數結果；及一網頁指紋處理單元，係用於對所擷取之網頁資料進行網頁屬性的分類，其係以所擷取網頁之網頁原始碼的標籤作為段落切割的節點，並依據該詞頻計數結果搭配使用TF/IDF權重分析元件，以產生對應網頁之每個分詞的權值，並自權值大至小的排列中選取前預定數量的分詞並依據其字元重新排列以產生對應網頁之一分詞資訊，最後再依雜湊演算法將所選取的該等字元轉換為預訂位元數的一串碼，進而產生對應網頁之串碼。

於本發明之一實施例中，該網路資訊擷取單元更用於依據預設之登入資訊登入需登錄資訊的網路平台中進行網頁資料的擷取。

本發明復提出一種中文網路資訊監測分析方法，係用於根據所輸入之中文目標資訊進行網際網路上之監測分析，包含下列步驟：於網際網路上進行網頁資料的擷取；進行該網頁資料之斷詞斷句處理，以標點符號及預設之詞庫儲存裝置內的中文分詞表資訊進行斷詞斷句之第一階處理，並以最大匹配法進行第二階處理以產生一斷詞斷句結果；進行該網頁資料之詞頻處理，以預設之該詞庫儲存裝置內的中文同義詞資訊及等中文蘊含詞資訊計數該斷詞斷句結果中出現該詞庫儲存裝置內對應詞句之詞句及其頻率，以產生一詞頻計數結果；進行網頁指紋處理，先以所擷取之網頁資料之網頁原始碼的標籤作為段落切割的節點，並依據該詞頻計數結果搭配使用TF/IDF權重分析元件，以產生每個分詞的權值，並自權值大至小的排列中選取前預定數量的分詞並依據其字元重新排列以產生一分詞資訊，最後再依雜湊演算法將所選取的該等字元轉換為預訂位元數的一串碼，進而產生所擷取網頁資料對應之串碼；儲存該網頁資料對應之分詞資訊及串碼；及於所儲存之分詞資訊及串碼中，根據該中文目標資訊選取對應的類別並比對所擷取之網頁的該分詞資訊，於有匹配之網頁時擷取該網頁之頁面以產生一網頁擷取資料，以提供所擷取之網頁擷取資料。

藉此，本發明應用在擷取網路上之社群媒體的各類型資料，包含非結構化的資料(如文字)、半結構化的資料(如HTML檔案)、結構化的資料(如表格)，並對資料加以進行分析、篩選、轉換、擷取、模式分析及語意分析，進而可對該中文目標資訊進行各種監測與調查，例如：瞭解客戶行為、企業的品牌及產品口碑評估，特定微型媒體的有效性，進而可幫助市場活動之成功次數的量化，另外，亦可防止企業不慎於網路上公開客戶的個資等。

1‧‧‧中文網路資訊監測分析系統

2‧‧‧網際網路

3‧‧‧使用者之電子通訊裝置

100‧‧‧詞庫儲存裝置

200‧‧‧電腦運算裝置

210‧‧‧目標資訊處理模組

230‧‧‧網路資訊處理分析模組

231‧‧‧網路資訊擷取單元

233‧‧‧斷詞斷句處理單元

235‧‧‧詞頻處理單元

237‧‧‧網頁指紋處理單元

250‧‧‧網路資訊整理模組

300‧‧‧資料庫儲存裝置

S101~S111‧‧‧步驟

第1圖係本發明一實施例之中文網路資訊監測分析系統的系統方塊圖。

第2圖係本發明一實施例之運行中文網路資訊監測分析系統的方法流程圖。

第3圖係本發明另一實施例之中文網路資訊監測分析系統的系統方塊圖。

為充分瞭解本發明之目的、特徵及功效，茲藉由下述具體之實施例，並配合所附之圖式，對本發明做一詳細說明，說明如後：本發明之技術係以向量空間模型出發，其係經過網頁資料的擷取、分類後，將產生之代表網頁資訊的特徵詞句及其權值儲存於資料庫儲存裝置，並藉由儲存於資料庫儲存裝置內之每一網頁資料的該等特徵詞句及其權值來作為被比對的對象，以使用這些特徵項來評價網頁資料中之未知文本與主題的相關程度。其中，特徵詞及其權值的選取稱為主題樣本的特徵選擇，詞句在不同內容的文檔中所呈現出的頻率分佈是不同的，因此可以根據詞句的頻率特性進行特徵選擇和權重評價，使本發明之技術得以對中文的目標資訊進行精確的監測與調查，進而儲存於資料庫儲存裝置中供使用者於資料庫中搜尋與取得網頁擷取資料。

首先請參閱第1圖，係本發明一實施例中之中文網路資訊監測分析系統的系統方塊圖。本發明係藉由連接網際網路2之中文網路資訊監測分析系統1來提供使用者之電子通訊裝置3的連結，圖式中該使用者之電子通訊裝置3係以一使用者為示例，並非以單一數量之使用者為限，可同時連線之數量係取決於電腦運算裝置1之設備等級。該使用者之電子通訊裝置3可為桌上型電腦、智慧型手機、個人數位助理裝置、平板電腦等可直接或間接連上網際網路之電子通訊裝置。

本發明之中文網路資訊監測分析系統1包含：詞庫儲存裝置100、電腦運算裝置200及資料庫儲存裝置300。電腦運算裝置200係連結該詞庫儲存裝置100及該資料庫儲存裝置300，以自該等資料庫中搜尋與取得網頁擷取資料。

詞庫儲存裝置100係內儲存有複數中文分詞表資訊、複數中文同義詞資訊、複數中文蘊含詞資訊。詞庫儲存裝置100內儲存之中文分詞表資訊係包含了大量不會成為特徵項的常用詞彙，為了提高中文網路資訊監測分析系統1的運行效率，系統係透過該詞庫儲存裝置100來建置大量的中文分詞表，如此可以在保證特徵選擇準確性的前提下，顯著提高系統的運行效率。此外，考慮到自然語言的多樣性，係透過該詞庫儲存裝置100來建置中文同義詞庫、中文蘊含(Conditional Connective)詞庫等輔助詞庫，以在進行詞頻統計時提高資訊匹配的準確度。

資料庫儲存裝置300係連結該電腦運算裝置200，以依據該電腦運算裝置200所擷取之網頁對應的串碼，儲存所擷取的網頁擷取資料及其分詞資訊，進而分類所擷取之網頁擷取資料。本發明藉由該資料庫儲存裝置300內之資料的不斷更新來建置完整的網頁擷取資料及其分類(藉由詞句的頻率特性和權重評價)，並可依據使用者提交之中文目標資訊來進行進一步之網際網路上的搜尋與擷取。

電腦運算裝置200係連結該詞庫儲存裝置100及該資料庫儲存裝置300，包含：目標資訊處理模組210、網路資訊處理分析模組230及網路資訊整理模組250。目標資訊處理模組210係用於接收使用者所提交之中文目標資訊。網路資訊處理分析模組230係用於在網際網路2進行搜尋及產生分析結果。網路資訊整理模組250係依據中文目標資訊於該資料庫儲存裝置300內選取對應的類別並比對所擷取之網頁的分詞資訊，於有匹配之網頁時擷取該網頁之頁面以產生一網頁擷取資料，以將所擷取之網頁擷取資料提供予使用者之電子通訊裝置3。

該網路資訊處理分析模組230復包含：網路資訊擷取單元231、斷詞斷句處理單元233、詞頻處理單元235及網頁指紋處理單元237。

網路資訊擷取單元231係用於在網際網路2上進行網頁資料的擷取，其係透過網際網路2對網站頁面、搜尋引擎、微型媒體等公開資訊進行網頁資料的擷取，以供後續的分析與分類歸納。

斷詞斷句處理單元233係用於對所擷取之該網頁資料依據標點符號及該等中文分詞表資訊進行斷詞斷句之第一階處理，再依據最大匹配法進行第二階處理，以產生對應網頁之斷詞斷句結果。所謂之第一階處理即係藉由標點符號先行斷句，再依據中文分詞表資訊的內容來於對應網頁之內文做關鍵詞之斷句，以初步取得特徵詞句；接著再透過最大匹配法來進行細部斷詞斷句以達到更高的準確度。

該最大匹配法係為一種習用之機械分詞方法，它是按照一定的策略將待分析的中文字串與一個“充分大的”詞庫(例如本發明之詞庫儲存裝置100)中的詞條進行匹配，若在詞庫中找到某個字符串，則匹配成功(識別出一個詞)。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大(最長)匹配和最小(最短)匹配。本發明之特徵之一在於特定匹配法之選用，以與後續分析達到最佳的組合效果，因此，本發明係使用「最大」匹配法，進一步地，於一實施態樣下係分別使用正向及逆向之最大匹配法來競合以產生最佳的斷詞斷句結果。

詞頻處理單元235係根據該等中文同義詞資訊及該等中文蘊含詞資訊，於該斷詞斷句結果中計數對應之詞句的出現頻率，以產生對應網頁之詞頻計數結果。

網頁指紋處理單元237係用於對所擷取之網頁資料進行網頁屬性的分類，其係以所擷取網頁之網頁原始碼(HTML文檔)的標籤作為段落切割的節點，並依據該詞頻計數結果搭配使用TF/IDF權重分析元件，以產生對應網頁之每個分詞的權值，並自權值大至小的排列中選取前預定數量的分詞並依據其字元重新排列以產生對應網頁之一分詞資訊，最後再依雜湊演算法將所選取的該等字元轉換為預訂位元數的一串碼，進而產生對應網頁之串碼。其中，該TF/IDF權重分析元件係運用習知的TF/IDF公式，以計算所擷取之網頁資料內經斷詞斷句後之各字詞的權重值，TF/IDF公式如下式(1)所示：

式(1)中，i=代表某一特定的字詞，j=代表該字詞所在的文件，tf_i,j表示i的字詞在文件j中出現的頻率，N表示集合中所有文件的數目，df_i表示包含字詞i的文件數，log項即為IDF值，w_i,j則為所計算之i在文件j中的權值。經此TF/IDF權重分析元件的計算即可算出文件中出現所有字詞的權值。

為了提高運行效率，系統對特徵向量進行降維處理，僅保留權值較高的詞句作為文檔的特徵項，從而形成維數較低的目標特徵向量，進而該網頁指紋處理單元237於一實施例中係選取之前10個特徵作為所擷取之網頁資料的特徵串，進一步係可於進行網頁指紋處理的步驟中，將該預訂位元數訂為128位元。

接著請參閱第2圖，係本發明一實施例之運行中文網路資訊監測分析系統的方法流程圖。

首先，步驟S101，係於網際網路上進行網頁資料的擷取；接著，步驟S103，進行該網頁資料之斷詞斷句處理，以標點符號及預設之詞庫儲存裝置內的中文分詞表資訊進行斷詞斷句之第一階處理，並以最大匹配法進行第二階處理以產生一斷詞斷句結果；接著，步驟S105，進行該網頁資料之詞頻處理，以預設之該詞庫儲存裝置內的中文同義詞資訊及等中文蘊含詞資訊計數該斷詞斷句結果中出現該詞庫儲存裝置內對應詞句之詞句及其頻率，以產生一詞頻計數結果；接著，步驟S107，進行網頁指紋處理，先以所擷取之網頁資料之網頁原始碼的標籤作為段落切割的節點，並依據該詞頻計數結果搭配使用TF/IDF權重分析元件，以產生每個分詞的權值，並自權值大至小的排列中選取前預定數量的分詞並依據其字元重新排列以產生一分詞資訊，最後再依雜湊演算法將所選取的該等字元轉換為預訂位元數的一串碼，進而產生所擷取網頁資料對應之串碼；接著，步驟S109，儲存該網頁資料對應之分詞資訊及串碼；最後，步驟S111，於所儲存之分詞資訊及串碼中，根據該中文目標資訊選取對應的類別並比對所擷取之網頁的該分詞資訊進而產生匹配結果及其對應資訊。於有匹配之網頁時擷取該網頁之頁面以產生一網頁擷取資料，以提供所擷取之網頁擷取資料。

接著請參閱第3圖，係本發明另一實施例之中文網路資訊監測分析系統的系統方塊圖。該網路資訊擷取單元231更可用於依據預設之登入資訊登入需登錄資訊的網路平台中進行網頁資料的擷取。如第3圖所示，係可登入社群媒體中進行網頁資料的擷取與分析歸納，進而儲存於資料庫儲存裝置300中。

綜上所述，本發明可根據使用者所提交之中文目標資訊選擇目標的特徵資訊，根據特徵資自動在網際網路上搜集資料，並對所搜集到的網頁資料進行分類整理並導入資料庫，藉由系統的自動運行與更新，提供個性化之中文網路資訊的搜尋服務。

本發明在上文中已以較佳實施例揭露，然熟習本項技術者應理解的是，該實施例僅用於描繪本發明，而不應解讀為限制本發明之範圍。應注意的是，舉凡與該實施例等效之變化與置換，均應設為涵蓋於本發明之範疇內。因此，本發明之保護範圍當以申請專利範圍所界定者為準。