TWI482038B

TWI482038B - 近似複本之偵測方法

Info

Publication number: TWI482038B
Application number: TW101146988A
Authority: TW
Inventors: Shie Jue Lee; Ting Yi Liao
Original assignee: Univ Nat Sun Yat Sen
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2015-04-21
Also published as: TW201423448A

Description

近似複本之偵測方法

本發明是有關於一種近似複本的偵測方法，特別是有關於一種以字串之特徵集合為判別基礎且具有特徵索引表之近似複本的偵測方法。

使用者於搜尋引擎或是具有大量資料之資料庫搜尋資料時，經常出現相同內容或是內容稍作修改的多份文件，而造成搜尋上困難及增加搜尋所需的運算資源，因此，搜尋引擎或資料庫會先進行資料庫中文件之近似複本的偵測，以排除相同的文件重複出現於一搜尋結果的情況，習知近似複本的偵測方法是藉由分割文件中的字元作為文件的特徵，再由比較兩個文件的特徵判定是否為近似複本。例如以兩個字元作為分割字元的策略時，可將「不要在颱風天出門」分割為「不要」、「要在」、「在颱」、「颱風」、「風天」、「天出」及「出門」七個單元，並以這七個單元作為「不要在颱風天出門」的特徵，而另一文件「颱風天不要出門」分割為「颱風」、「風天」、「天不」、「不要」「要出」、及「出門」六個單元，並以這六個單元作為「颱風天不要出門」的特徵，再藉由特徵比對後，可得知此兩個字串具有「颱風」、「風天」及「不要」三個相同特徵，而「颱風天不要出門」共有六個單元，其中三個單元為相同特徵，經由比較後可判定「颱風天不要出門」為「不要在颱風天出門」的相似文件，但以此分割法進行相似複本的偵測，需比對之字元數相當多，因此運算資源非常龐大，而導致偵測的過程冗長，且因切割的字元可能不具有任何涵義而導致可信度不高。

本發明之主要目的在於提供一種近似複本之偵測方法，由訓練文件中的訓練字串代表訓練文件的特徵，並由特徵索引表中訓練字串之訓練特徵集合的排序方式可快速偵測待測文件之待測字串與訓練文件之訓練字串之間的相似度，並透過判定步驟即可判定待測文件是否為訓練文件的近似複本，可減少偵測時所需之計算資源，進而使得偵測近似複本快速且可信度高。

本發明之一種近似複本之偵測方法包含「對訓練文件進行前處理」、「對訓練文件模型進行特徵擷取」、「建立特徵索引表」、「對待測文件進行前處理」、「對待測文件模型進行特徵擷取」、「將待測特徵集合於特徵索引表中歸類」及「判斷待測文件是否為訓練文件之近似複本」，首先對一訓練文件進行前處理，以得到具有複數個訓練字串的一訓練文件模型，接著對該訓練文件模型之該些訓練字串進行特徵擷取，以分別得到各該訓練字串之複數個特徵詞彙，並以各該訓練字串之該些特徵詞彙做為代表該訓練字串之複數個訓練特徵集合，接著建立具有複數個序列的一特徵索引表，將該些訓練特徵集合於該特徵索引表中歸類，並將具有相同特徵詞彙的該些訓練特徵集合歸類於相同的序列中，接著對該待測文件進行前處理，以得到具有複數個待測字串的一待測文件模型，並對該待測文件模型之該些待測字串進行特徵擷取，以分別得到各該待測字串之複數個特徵詞彙，並以各該待測字串之該些特徵詞彙做為代表該待測字串之複數個待測特徵集合，接著將該些待測特徵集合於該特徵索引表中歸類，並將具有相同特徵詞彙的該些待測特徵集合歸類於相同的序列中，最後以一判定步驟計算該待測文件的相似值，並以該待測文件之相似值與一基準值比對，以判定待測文件是否為訓練文件之近似複本。

本發明藉由將該訓練字串之該些訓練特徵集合作為該訓練文件之特徵，並以該待測字串之該些待測特徵集合作為該待測文件之特徵，不但可提高近似複本偵測時的可信度，更可大幅減少所需儲存之資料量，而可快速建立該特徵索引表，並藉由該特徵索引表的建立，可使於判定步驟中計算相似特徵數量時所需之運算資源較少，本發明之近似複本之偵測方法所需的時間與傳統之偵測方法所需的時間相比，減少了10倍以上的偵測時間，以符合搜尋引擎或大型資料庫之快速搜索的需求。

請參閱第1圖，為本發明之一實施例，一種近似複本之偵測方法10，其包含「對訓練文件進行前處理」11、「對訓練文件模型進行特徵擷取」12、「建立特徵索引表」13、「對待測文件進行前處理」14、「對待測文件模型進行特徵擷取」15、「將待測特徵集合於特徵索引表中歸類」16及「判斷待測文件是否為訓練文件之近似複本」17。

請參閱第1圖及第2圖，於「對訓練文件進行前處理」11的步驟，在本實施例中，是將一訓練文件A中不必要之字元去除(例如：標點符號、數字、虛詞、量詞及單位詞...等等)，或在另一實施例中，同時將所有字元轉為相同格式(例如：大小寫轉換、簡繁體轉換及字型轉換...等等)，請參閱第3圖，該訓練文件A經由前處理後可得到具有複數個訓練字串110的訓練文件模型100，在該訓練字串110中具有複數個詞彙111，若以該些詞彙111作為該訓練字串110之特徵，則用以儲存該些詞彙111的記憶位元將會過多，且後續判別的過程所需的運算資源亦過於龐大，因此，在完成「對訓練文件進行前處理」11的步驟後，進行「對訓練文件模型進行特徵擷取」12之步驟，對訓練文件模型100之訓練字串110進行特徵擷取，以分別得到訓練字串110之特徵詞彙，請參閱第4圖，其為第3圖中該訓練文件模型100之第一個訓練字串110中該些詞彙110的權重值，在本實施例中，是以詞彙頻率-逆向文件頻率(TF-IDF)的加權方法計算該些詞彙111的權重植，或在其他實施例中，可使用詞彙頻率(TF)計算該些詞彙111的權重植，並將該些詞彙111依權重值進行排序，並選取權重值較高的複數個詞彙111作為該訓練字串110的特徵詞彙112，在本實施例中，是採用權重值較高的4個詞彙111作為該訓練字串110的特徵詞彙112，在其他實施例中，可採用不同數量之該些詞彙111作為該訓練字串110的特徵詞彙112，請參閱第5圖，以該訓練字串110之該特徵詞彙112做為代表訓練字串110之訓練特徵集合113，再將該些訓練特徵集合113代表該訓練文件A，可有效降低所需儲存之資料量，且藉由該些詞彙111的權重排序，可使該些特徵詞彙112能正確的代表該些訓練字串100，進而增加後續之複本偵測的可信度。

請參閱第1圖，接著進行「建立特徵索引表」 13之步驟，請參閱第6圖，該特徵索引表200具有複數個序列210，將該訓練文件100之該些訓練特徵集合113於該特徵索引表200中歸類，並將具有相同特徵詞彙112的該些訓練特徵集合113歸類於相同的該序列210中，在本實施例中，是以一訓練文件A建立該特徵索引表200，在另一實施例中，亦可由複數個訓練文件A建立該特徵索引表200，藉由該特徵索引表200的建立，於後續計算相同之特徵集合113之序列的數量時，可快速且有效率的計算出所需之數值，進而大幅降低複本偵測所需之時間。

請參閱第1及7圖，完成「對訓練文件進行前處理」11、「對訓練文件模型進行特徵擷取」12及「建立特徵索引表」13的步驟後，接著是對一待測文件B進行判斷，以判斷該待測文件B是否為該訓練文件A的近似複本，首先，「對待測文件進行前處理」14，對待測文件B進行前處理的方法與對訓練文件A進行前處理的方法相同，請參閱第8圖，將該待測文件B中不必要之字元去除(例如：標點符號、數字、虛詞、量詞及單位詞...等等)，或同時將所有字元轉為相同格式(例如：大小寫轉換、簡繁體轉換及字型轉換...等等)，以得到具有複數個待測字串310的待測文件模型300，接著，「對待測文件模型進行特徵擷取」15，對該待測文件模型300之該些待測字串310進行特徵擷取與對該訓練文件模型100之該些訓練字串110進行特徵擷取的方法相同，是以詞彙頻率-逆向文件頻率(TF-IDF)的加權方法計算該些詞彙311的權重植，並將該些詞彙311依權重值進行排序，並選取權重值較高的4個詞彙311作為該待測字串310的特徵詞彙312，以分別得到該待測字串310之複數個特徵詞彙312，並以該待測字串310之該些特徵詞彙312做為代表待測字串310之待測特徵集合313，請參閱第9圖，其為該待測文件B之該些待測特徵集合313。

接著請參閱第1及10圖，接著進行「將待測特徵集合於特徵索引表中歸類」16，將該些待測特徵集合313於該特徵索引表200中歸類，是將具有相同特徵詞彙312的待測特徵集合313歸類於相同的序列210中，最後，進行「判斷待測文件是否為訓練文件之近似複本」17的步驟，以判定該待測文件B是否為該訓練文件A的進似複本，在本實施例中，是以一判定步驟計算該待測文件B的相似值，該判定步驟包含計算該待測文件B的比值，並將相似比值經由一分類器計算，以得到該待測文件B的近似值，其中該相似比值的計算是將待測文件B之待測特徵集合313與特徵索引表200之訓練特徵集合113相同的序列數量除以特徵索引113表中所有訓練特徵集合113及代測特徵集合131的序列數量，或在其他實施例中，可選自Extend jaccard方程式、Cosine方程式、Dice方程式或Euclidean度量之一，以計算該待測文件B之該相似比值，再將相似比值代入該分類器中以求得相似值，或在另一實施例中，將該待測文件之相似比值直接作為該待測文件之相似值，並與一基準值比較，即可得到該待測文件B是否為該訓練文件A之近似複本，而在本實施例中，是將該待測文件B之近似比值經由一分類器計算得到該待測文件B之近似值，而該分類器則是由該訓練文件A經由支持向量機(Support vector machine)計算而得，其運算過程如下，首先假設X 有M 筆訓練文件：計算L _p 最小值的結果為：其中w 是最佳超平面的係數向量，C 是penalty factor，ξ ^j 0,1 j M ，為差額變數，而差額變數受到下式限制：其中Φ(x )=((x ),(x ),...,(x ))是從r 維度的x 空間映射到h 維度的z 空間：z =Φ(x )相同於z _i =(x ),1 i h ，超平面在h 維度的z 空間，g (z )=0，並且需要區別在x空間的結果：將上式轉換為對偶模型：以quadratic optimization的方法求解上式，可由下式求得該分類器：

請參閱第10圖，由該特徵索引表200可快速的計算出該待測文件B之待測特徵集合313與該特徵索引表200之訓練特徵集合113相同之序列數量及該特徵索引表200中所有訓練特徵集合113與待測特徵集合313的序列數量，在本實施例中，該待測文件B之待測特徵集合313與特徵索引表200之訓練特徵集合113相同之序列數量為3，而該特徵索引表200中所有訓練特徵集合113及待測特徵集合313的序列數量為5，因此，該待測文件B之近似比值為3/5=0.60，而在本實例中，該分類器為g (x )=x -0.5，將該待測文件B之近似比值代入後，可得到該待測文件B之近似值為0.10，與本實施例之基準值進行比較，若該待測文件B之近似值大於基準值，則代表該待測文件B為該訓練文件A的近似複本，反之，若該待測文件B之近似值不大於基準值，則代表該待測文件B並非該訓練文件A的近似複本，在本實施例中，該基準值為0，因此可判定該待測文件B為該訓練文件之近似複本。

於完成判斷該待測文件B是否為該訓練文件A之近似複本後，其中已歸類於該特徵索引表200中的該些待測特徵集合313則可作為對下一個文件進行近似複本判定之比對文件，以使另一待測文件C進行近似複本偵測時，可選擇是對該訓練文件A、對該近似複本B或同時對訓練文件A及近似複本B進行近似複本比對。

請參閱第11、12、13及14圖，為另一代測文件C進行近似複本偵測，對該待測文件C進行前處理、特徵擷取及將該待測文件C之待測特徵集合於該特徵索引表200中歸類，即可快速的判定出該待測文件C是否為該訓練文件A之近似複本或為該待測文件B之近似複本，其中該待測文件C與該訓練文件A進行比對，請參閱第14圖，由該特徵索引表200可得知該待測文件C與該訓練文件A之相同之序列數量為1，而該待測文件C與該訓練文件A總序列數量為11，因此，經由判定步驟計算後，可得到該待測文件C對於該訓練文件A之近似值為-0.41，再與基準值0進行比對後，可判定該待測文件C並非該訓練文件A之近似複本，該待測文件C與該待測文件B進行比對，由該特徵索引表200可得知該待測文件C與該待測文件B之相同之序列數量為3，而該待測文件C與該待測文件B總序列數量為11，因此，經由判定步驟計算後，可得到該待測文件C對於該待測文件B之近似值為-0.23，再與基準值0進行比對後，可判定該待測文件C並非該待測文件B之近似複本。

本發明藉由將該訓練字串110之該些訓練特徵集合113作為該訓練文件A之特徵，並以該待測字串310之該些待測特徵集合313作為該待測文件B之特徵，不但可提高近似複本偵測時的可信度，更可大幅減少所需儲存之資料量，而可快速建立該特徵索引表200，並藉由該特徵索引表200的建立，可使於判定步驟中計算相似特徵數量時所需之運算資源較少，本發明之近似複本之偵測方法10所需的時間與傳統之偵測方法所需的時間相比，減少了10倍以上的偵測時間，以符合搜尋引擎或大型資料庫之快速搜索的需求。

本發明之保護範圍當視後附之申請專利範圍所界定者為準，任何熟知此項技藝者，在不脫離本發明之精神和範圍內所作之任何變化與修改，均屬於本發明之保護範圍。

10‧‧‧近似複本之偵測方法

11‧‧‧對訓練文件進行前處理

12‧‧‧對訓練文件模型進行特徵擷取

13‧‧‧建立特徵索引表

14‧‧‧對待測文件進行前處理

15‧‧‧對待測文件模型進行特徵擷取

16‧‧‧將待測特徵集合於特徵索引表中歸類

17‧‧‧判斷待測文件是否為訓練文件之近似複本

A‧‧‧訓練文件

B‧‧‧待測文件

C‧‧‧待測文件

100‧‧‧訓練文件模型

110‧‧‧訓練字串

111‧‧‧詞彙

112‧‧‧特徵詞彙

113‧‧‧訓練特徵集合

200‧‧‧特徵索引表

210‧‧‧序列

300‧‧‧待測文件模型

310‧‧‧待測字串

311‧‧‧詞彙

312‧‧‧特徵詞彙

313‧‧‧待測特徵集合

400‧‧‧待測文件模型

410‧‧‧待測字串

411‧‧‧詞彙

412‧‧‧特徵詞彙

413‧‧‧待測特徵集合

第1圖：依據本發明之一實施例，一種近似複本之偵測方法的流程圖。

第2圖：依據本發明之一實施例，一訓練文件之示意圖。

第3圖：依據本發明之一實施例，一訓練文件模型之示意圖。

第4圖：依據本發明之一實施例，複數個詞彙的權重值之示意圖。

第5圖：依據本發明之一實施例，複數個訓練特徵集合之示意圖。

第6圖：依據本發明之一實施例，一特徵索引表之示意圖。

第7圖：依據本發明之一實施例，一待測文件之示意圖。

第8圖：依據本發明之一實施例，一待測文件模型之示意圖。

第9圖：依據本發明之一實施例，複數個待測特徵集合之示意圖。

第10圖：依據本發明之一實施例，該特徵索引表之示意圖。

第11圖：依據本發明之一實施例，一待測文件之示意圖。

第12圖：依據本發明之一實施例，一待測文件模型之示意圖。

第13圖：依據本發明之一實施例，複數個待測特徵集合之示意圖。

第14圖：依據本發明之一實施例，該特徵索引表之示意圖。