TW201324199A

TW201324199A - 一種基於相似度比對的內容分析方法

Info

Publication number: TW201324199A
Application number: TW100145882A
Authority: TW
Inventors: bing-yan Xie; ming-zhe Zhang; ke-hua Xu; bao-zhong Zhang
Original assignee: Chunghwa Telecom Co Ltd
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2013-06-16

Abstract

本發明係為一種基於相似度比對的內容分析方法，此方法針對一文件進行字詞正規化、停用字詞過濾等前處理之後，依主要之文件領域，以該領域之常用字詞建立預建字詞庫，以預建之中文字庫、中文詞庫以及英文字庫計算各字詞於文件中出現之次數，而未出現於預建字詞庫者則另行計算其出現次數，取出現次數較多者作為內文關鍵字詞。取得兩種相異來源之特徵後，依其重要性給予不同之權重，並按照給定之相似度公式，計算出其與其他文件間之相似度，若超過一指定門檻，即表示偵測到相似文件，遂歸於同類以協助文件分類工作。

Description

一種基於相似度比對的內容分析方法

本發明係關於一種基於相似度比對的內容分析方法，用於偵測相似文件的發生，並可搭配至資料防護系統、論文抄襲系統、文件分類系統等。而於現今資料安全日益重要的狀況下，利用內容分析進行文件分類，偵測機密文件之存在，避免機密文件外流，更使得資料防護系統的機密防護成為主要技術領域之一。

在本發明中，提到的技術領域主要包含內容分析及其延伸出的文件分類與機密防護。而在內容分析方面，根據2011年由Websense所提出的報告，大致上可分為七個種類，包括：

正規表示式(regular expression)

資料庫指紋(database fingerprinting)

精確文件比對(exact file matching)

部分文件比對(partial file matching)

統計分析(statistical analysis)

詞意分析(lexicon)

預建類別(pre-built categories)

正規表示式是運用最廣的內容分析方式，使用特定的規則來進行內容分析，如身分證字號、信用卡號等，具有基本而快的特性，然而卻容易出現誤判的狀況，而且對非結構化的內容無法進行正確的判斷。

資料庫指紋的方式亦稱為精確資料比對(exact data matching)，在資料庫中針對完全匹配條件的資料進行搜尋，適用於結構化的資料庫。

精確文件比對則針對每份文件進行雜湊值的運算，以此雜湊值作為特徵，以比對文件是否相同，然而此一方式極為容易規避，只要對文件進行任何修改便失去效用。

部分文件比對則針對文件中的部分文字進行雜湊值的運算，若文件與文件間出現雜湊值重複的狀況，代表該段文字可能有被抄襲的狀況，此方法的特性是誤判率極低，然而文件較大時會影響執行性能。

統計分析方式範圍相當廣泛，主要利用統計之技術對文件內容進行分析，適合用於非結構化、含糊不清、無法確切匹配的文件內容，然而較容易出現誤判或漏報之狀況，本專利即屬於此一內容分析方式。

詞意分析技術是利用字典、規則以及其他分析的組合，達到保護模糊內容的一個想法，適用於完全非結構化的內容，此方式可以偵測到意想之外的文章相似狀況，然而亦更容易出現誤判的狀況，同時必須消耗大量人力去建立與維護字典、規則。

預建類別方式對原先已經有一個整齊分類的內容是最合適的，搭配上字詞庫與特定類型的資料，即可簡易的進行文件之內容分析與配置。

以上七類技術大致上包含了市面上所有內容分析系統所使用的技術，各種不同技術的實現方式與效果皆有相當大的差異，而為避免無法處理非結構化內文，以及分析結果為字詞順序所影響等問題，並考量效能與以數據方式表達內容分析結果等前提下，本專利採用了統計分析方式進行研究開發。

而於統計分析方式中，一般會經過斷詞取詞並計算字詞頻率之流程，此一流程主要有兩種常見方式，一是在未有預建資料之狀況下，以文件內容作為取詞之依據，另一則是以預建字詞庫來作為取詞之參考。

在未有預建資料，以文件內容做為取詞依據之狀況下，雖能取得內文關鍵字詞，但因時間複雜度高，易發生耗時過長的狀況，另外所取得之關鍵字詞應如何應用於相似度計算階段，亦是一難以定論之問題。

今若以預建字詞庫做為取詞之依據，雖說解決了高時間複雜度之問題，但相對而言卻只能依據預建字詞庫之內容取詞計算頻率，可能無法取得文章之關鍵字詞，導致出現誤判等狀況。

為解決上述狀況，本專利提出一融合兩種方式優點之作法，使之可在低耗時的狀況下，取得內文關鍵字詞與預建字詞庫內容作為搭配，進而產生準確率更高之運算結果。

而在完成了內容分析之後，即可利用其結果進行文件分類與機密防護等行為，欲完成上述系統，解決相關問題，常使用到的方法是數據聚類(cluster analysis)，主要分為由上而下的分割法(divisive clustering)，以及由下而上的凝聚法(agglomerative clustering)。

由上而下的分割法是將所有文件作為一個整體分類，然後將之逐漸分小。然而其問題在於，分割法須事先決定要將所有文件切分為幾個分割，這在我們事先無法得知文件有多少種類、多少數量的狀況下，並不符合我們的需求。

至於在凝聚法的部份，須先算出任意兩文件間的相似度，再根據相關資料以兩兩合併的方式合併為更大的群組，直至全部文件都在同一群組，或是群組與群組間之相似度低於一指定門檻為止，然而欲完成此一完整流程，需消耗大量時間與記憶體，在實用性部分顯得不足。

於本專利中，當相似度超過一定門檻時，即視為相似文件歸於同類，以此方式節省大量文件間之計算複雜度，使我們能提高系統實用性，以更有效率之方式完成文件分類之工作。

由此可見，上述習用技術仍有諸多缺失，實非一良善之設計者，而亟待加以改良。

本案發明人鑑於上述習用方式所衍生的各項缺點，乃亟思加以改良創新，並經苦心孤詣潛心研究後，終於成功研發完成本件一種基於相似度比對的內容分析方法。

本發明之目的在於提供一種基於相似度比對的內容分析方法，係利用同時使用預建字詞庫以及內文關鍵字詞進行斷詞取詞之方法，與相異來源間權重之調整，可計算出文件間之相似度，並強化現行相關內容分析系統之精確性以及效率，節省大量文件間之計算複雜度，能提高系統實用性，以更有效率之方式完成文件分類之工作。

達成上述發明目的之一種基於相似度比對的內容分析方法，用以計算出文件與文件之間之相似度，並以此作為文件分類之依據。該內容分析方法首先針對一文件進行字詞正規化之處理，使文件中英文之大小寫統一，並刪除各式標點符號，而後進行停用字詞之過濾，將虛字、連接字、無意義字或無需比較之字彙剔除之。至此可進行斷詞取詞之行為，依主要之文件領域，以該領域之常用字詞建立預建字詞庫，利用預建之中文字庫、中文詞庫以及英文字庫計算各字詞於文件中出現之次數，而未出現於預建字詞庫者則以關鍵字詞之名義，另行計算其出現次數：為預防於取出關鍵中文詞時耗時過長，遂同時搭配了預建中文字庫作為篩選之輔助。取得預建字詞庫與關鍵字詞相對應之出現頻率後，以其頻率建立一向量資訊，並依重要性提高關鍵字詞之權重，利用向量餘弦夾角比對法計算文件間之相似度，若其值大於1則視為1，而若此值高於一門檻值則視為相似。

一種基於相似度比對之內容分析方法，其用於偵測相似文件之發生，該內容分析方法包括下列步驟；先針對文件進行前處理，依序進行字詞正規化、斷詞，以及建立停用字詞庫過濾停用字詞之動作；再根據取詞之策略，依各字詞出現頻率建立一文件向量資訊，其中包括預建中文詞庫、預建英文字庫、高頻關鍵中文詞、以及高頻關鍵英文字之出現次數；以該文件向量為基礎，計算待比對文件與其他文件間之相似度；取得兩文件之相似度後，判斷其值是否高於一門檻值，若為是，則視兩文件為相似文件，歸於同類以協助文件分類工作。其中該字詞正規化，係包括統一待分析文件之英文大小寫，以及刪除各式標點符號。該停用字詞庫，係包括虛字、連接字、無意義字或無需比較之字彙。該取詞以建立向量資訊之步驟係為利用預建中文字庫、中文詞庫以及英文字庫計算各字詞於文件中之出現次數，而未出現於該預建字詞庫者，則以關鍵字詞之名義，另行計算其出現次數，取高出現頻率者，協同預建字詞庫之出現頻率構成向量資訊。該預建字詞庫，係依主要之文件領域，以該領域之常用字詞建立。取出關鍵中文詞之流程，為避免取出時耗時過長，取出詞時係以二字詞為單位，並搭配預建中文字庫作為篩選之輔助。

其中為避免出現次數不多之該關鍵字詞，反造成相似度之偏移，因而取出該高頻關鍵字詞之流程，搭配了預建字詞庫作為篩選之輔助。該相似度之計算方式，係包括向量餘弦夾角比對法，以及以偵測是否有擷取段落進行抄襲行為之修改版向量餘弦夾角比對法。該計算方式，係包含依重要性提高該關鍵字詞權重之步驟。該兩文件之相似度，係為介於0與1之間，若大於1則取為1。其中更包括將該相似文件歸於同類，找出所有相似之文件，並用以完成文件分類工作。

本發明所提供之一種基於相似度比對的內容分析方法，與前述引證案及其他習用技術相互比較時，更具有下列之優點：

1.　本發明之一種基於相似度比對的內容分析方法採用了統計分析方式進行研究開發，可處理非結構化內文，並不為字詞順序所影響。

2.　本發明之一種基於相似度比對的內容分析方法提出同時使用預建字詞庫以及內文關鍵字詞進行斷詞取詞之概念，融合了兩種方式優點，使之可在低耗時的狀況下，取得內文關鍵字詞與預建字詞庫內容作為搭配，同時依其重要性給予不同的權重，進而產生準確率更高之運算結果。

3.　本發明之一種基於相似度比對的內容分析方法於文件相似度超過一定門檻時，即視為等價之文件，以此方式節省大量文件間之計算複雜度，使我們能提高系統實用性，以更有效率之方式完成文件分類之工作。

請參考圖一所示，為本發明一種基於相似度比對的內容分析方法之擷取文件特徵流程圖，待分析文件進入系統後，即進入字詞正規化處理110，中文字不進行處理，英文部分則將大小寫皆統一為小寫，另刪除各式無關字義的全半型標點符號，並以空白置於各中英文字之間，以供能以空白進行斷詞120，切分出所有中英文字；於切分出所有中英文字後，進行停用字詞過濾130，將虛字、連接字、無意義字或無需比較之字彙剔除之，避免文件特徵被無關文意之字詞所影響。

至此可開始進行取詞與計算出現頻率之動作，本發明以預建字詞庫之方式為基礎，而為解決無法取得關鍵字詞之問題，本發明佐以未有預建字詞庫狀況之方式為輔，亦即在計算完預建字詞庫之出現頻率後，對未出現在字詞庫中的字詞進行取詞並計算頻率。

整體觀念為此，接著進行細部設定與解說，本發明支援中英文之解析，在取文件特徵時，中文部份我們選擇以二字詞為單位，原因一是中文一般以詞為單位來表達意思，原因二是若取詞的長度不固定將導致時間複雜度大幅上升，在此二前提下，中文取二字詞為單位；英文部分則沒有這樣的問題，故英文部分我們以字為單位。此一設定下，在取關鍵中文詞時，可能因為未重複的二字詞過多，導致比對的時間複雜度過高，拖慢整體效能，如此一來就失去了本發明使用預建字詞庫的目的。故在取關鍵中文詞時，本發明利用最終關鍵字詞有高出現頻率的特性，預先使用預建中文字庫取出高頻中文字，若任一二字詞未出現於預建中文詞庫中，又其第一字為高頻中文字，則將其記錄為關鍵中文詞，藉此來提升效能。

於了解本發明之演算法設計後，繼續進入後續的流程，在完成停用字詞過濾130之後，依據前文中提到的設計方式，依主要之文件領域，以該領域之常用字詞建立預建字詞庫，計算預建中文字庫中各中文字出現狀況，得到預建中文字庫出現次數140，並設定一定數N，取出現次數前N多的中文字，設定為高頻中文字150，為後續取出關鍵中文詞作準備；另一方面則計算預建中文詞庫出現次數160、預建英文字庫出現次數170，並接著取關鍵中文詞與關鍵英文字，中文二字詞的部份，進行以高頻中文字為基礎，取出關鍵中文詞出現次數180的條件檢查：若任一二字詞未出現於預建中文詞庫中，又其第一字為高頻中文字，則將其記錄為關鍵中文詞，並累計其出現次數；英文字的部份則未做特殊處理，僅進行計算關鍵英文字出現次數190的條件檢查：若任一英文字未出現於預建英文字庫中，則將其記錄為關鍵英文字，並累計其出現次數。至此，完成本發明之文件特徵擷取流程。

請參考圖二所示，為本發明一種基於相似度比對的內容分析方法之計算相似度流程圖，包含預建中文詞庫出現次數210、關鍵中文詞出現次數220、預建英文字庫出現次數230、關鍵英文字出現次數240四組字詞頻率已知資料，而關鍵字詞的部份，並不取全部的關鍵字詞來做相似度運算，出現次數不多的關鍵字詞反而會造成相似度的偏移，故在此本發明以與前述相似之方式取出高頻關鍵字詞作為相似度運算的參數，設定一定數M，執行以預建中文詞庫出現次數210第M多者為基準，出現次數超過此值之關鍵中文詞，記錄為高頻關鍵中文詞出現次數250，以及以預建英文字庫出現次數230第M次者為基準，出現次數超過此值之關鍵英文字，記錄為高頻關鍵英文字出現次數260，最後取預建中文詞庫出現次數210、預建英文字庫出現次數230、高頻關鍵中文詞出現次數250、高頻關鍵英文字出現次數260組成文件向量270，此時以文件向量270，與待比對之文件向量280，即可進行文件相似度290的運算。

文件相似度290部分主要利用向量餘弦夾角比對法計算之，文件D與文件E之相似度公式為：

其中F_db代表該文件的預建中文詞庫出現次數210、預建英文字庫出現次數230，F_kw代表該文件之高頻關鍵中文詞出現次數250、高頻關鍵英文字出現次數260，而α則表示於此一演算法中，關鍵字詞之於預建字詞庫之重要性，由於關鍵字詞為未出現於預建字詞庫之高頻字詞，故其表達了該文件在特定領域的特性，具有指標意義，因此一般將α設為一大於1之值，以彰顯關鍵字詞之重要性。接著藉此一相似度公式計算出文件相似度290，其值須落於0與1之間，若大於1則取為1，而當其值高於某一門檻值時，則視為相似文件歸於同類，以協助文件分類工作。

另外為偵測是否有擷取段落進行抄襲之行為，可以另一概念相近之相似度公式進行相似度之運算：若於兩文件中有同一字詞出現，且其出現次數具有下列特性：

其中ε為一定數，由使用者調整。若符合該特性，則稱此一字詞屬於集合S，在此一前提之下，提出另一相似度公式如下：

若此一相似度高於某一指定門檻值，則表示文件E擷取了文件D之段落進行抄襲，故分子才會與分母相近；反之，在此相似度公式取文件E為分母時，若相似度高於某一門檻值，則表示文件D擷取了文件E的段落進行抄襲。

至此，以上述流程，最終可得到文件與文件間之相似度，可得知兩篇文章間之相似程度，抑或是其抄襲狀況，藉此發展資料防護系統、文件分類系統等，以防範機密文件之外流。

上列詳細說明乃針對本發明之一可行實施例進行具體說明，惟該實施例並非用以限制本發明之專利範圍，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不僅於技術思想上確屬創新，並具備習用之傳統方法所不及之上述多項功效，已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請　貴局核准本件發明專利申請案，以勵發明，至感德便。

110．．．字詞正規化處理

120．．．斷詞

130．．．停用字詞過濾

140．．．預建中文字庫出現次數

150．．．高頻中文字

160．．．預建中文詞庫出現次數

170．．．預建英文字庫出現次數

180．．．關鍵中文詞出現次數

190．．．關鍵英文字出現次數

210．．．預建中文詞庫出現次數

220．．．關鍵中文詞出現次數

230．．．預建英文字庫出現次數

240．．．關鍵英文字出現次數

250．．．高頻關鍵中文詞出現次數

260．．．高頻關鍵英文字出現次數

270．．．文件向量

280．．．待比對之文件向量

290．．．文件相似度

請參閱有關本發明之詳細說明及其附圖，將可進一步瞭解本發明之技術內容及其目的功效；有關附圖為：

圖一為本發明一種基於相似度比對之內容分析方法之擷取文件特徵流程圖。

圖二為本發明一種基於相似度比對之內容分析方法之計算相似度流程圖。