TWI404374B

TWI404374B - 用以訓練偵測垃圾網站之分類器之方法

Info

Publication number: TWI404374B
Application number: TW098142508A
Authority: TW
Inventors: Shi Jinn Horng; Wan Shu Liao
Original assignee: Univ Nat Taiwan Science Tech
Priority date: 2009-12-11
Filing date: 2009-12-11
Publication date: 2013-08-01
Also published as: TW201121262A

Description

用以訓練偵測垃圾網站之分類器之方法

本發明係與一種用以訓練偵測垃圾網站之分類器之方法有關，並且特別地，本發明係與一種能對於分佈不平均之資料集，訓練出具有較佳分類率之分類器的方法有關。

近年來隨著網際網路蓬勃發展，網際網路成為人們發佈或取得資訊的主要平台之一，因此，出現了新的商務模式：網路廣告。一個廣告是否成功，端看於此廣告是否能帶給消費者深刻的印象以及廣告本身的曝光率，對於網路廣告而言，刊登在點閱率高的網站會大幅增加網路廣告的曝光率。另外，網際網路上的使用者會依賴如Google等等之搜尋引擎(search engine)，來更快速且精確地自龐大的資料量中獲取所需的資料。

當人們使用搜尋引擎查詢資料時，有很大的機會僅看搜尋引擎所回報的前十筆資料，亦即，大多數時候使用者並不會看超過前十筆的資訊。因此對於網路廣告而言，刊登於排名領先的網站具有較高的曝光率，相對的也會為網站所有人帶來龐大的商業利益。

因此，部分搜尋引擎優化(Search Engine Optimizer,SEO)業者號稱可增加網站的曝光率，其係利用搜尋引擎的特性，以人為的方式不正當地提高網站在搜尋引擎上的排名(Rank)。提高網站在搜尋引擎上的排名除了作為廣告用途外，甚至可能作為釣魚網站或惡意網站，而在使用者瀏覽網站之網頁時植入木馬、病毒或是後門程式等，進而達成商業或惡意入侵的目的。此類網站如同垃圾郵件一般影響人們在網際網路上有效地搜尋所需的資訊，因此，這些「蓄意以人為方法竄改網頁內容以提高網頁搜尋排名」的網站被稱之為垃圾網站(Webspam)。

因此，為了能更有效地提升搜尋引擎的效率以避免降低搜尋引擎的名聲，搜尋引擎公司的當前要務即為如何偵測出垃圾網站，並進而防止搜尋出太多垃圾網站。然而，受限於真實環境中正常網站與垃圾網站的訓練樣本數量相差懸殊，目前係難以訓練出一種好的分類器。

本發明之一範疇在於提供一種訓練偵測垃圾網站之分類器的方法，以解決上述問題。

根據本發明之一具體實施例，一種用以訓練偵測垃圾網站之分類器的方法係包含下列步驟：以資訊增益(Information Gain)方法自一資料集所提供之複數個特徵中，選取複數個第一特徵；以及，根據第一特徵以支援向量機(Support Vector Machine,SVM)方法以及適應性漸進演算法(Adaboost)對資料集進行訓練，以獲得此分類器。

實務中，若資料集的網站比例(正常網站與垃圾網站的比例)差距太大，將會造成資料集分佈不平均，進而增加分類器的誤判率。因此，於本具體實施例中，先擴大(amplifying)垃圾網站的樣本數，再進行上述訓練法而獲得此分類器，因而將可提升偵測率。

根據另一具體實施例，本發明之用以訓練偵測垃圾網站之分類器之方法也可先將資料集分群，再進行上述訓練方法：以資訊增益法選出第一特徵，並根據第一特徵以支援向量機方法以及適應性漸進演算法，來對資料集進行訓練以獲得此分類器。本具體實施例之方法同樣可提升偵測率。

關於本發明之優點與精神可以藉由以下的發明詳述及所附圖式得到進一步的瞭解。

請參閱圖一，圖一係繪示根據本發明之一具體實施例之用於訓練偵測垃圾網站之分類器之方法的步驟流程圖。如圖一所示，本具體實施例之方法包含下列步驟：於步驟S10中，以資料增益(Information gain,IG)方法自網站資料集中所提供的特徵中，擷取特定數量的特徵。

舉例而言，本具體實施例之方法的步驟S10，係對網站資料集WEBSPAM UK2007擷取特徵，其中，WEBSPAM UK2007提供274個特徵，步驟S10則可自274個特徵中選取21個特徵出來。請注意，於實務中所選取出的特徵數量，係根據使用者或設計者需求而定，本發明並未侷限於此。

接著，於本具體實施例之方法之步驟S12中，將網站資料集分成垃圾網站資料集以及正常網站資料集，並且判斷兩者間之比例是否差距過大。請注意，實務中判斷比例是否過大的標準，同樣係以使用者或設計者需求作為依據，舉例來說，上述網站資料集WEBSPAM UK2007所區分出的正常網站資料集與垃圾網站資料集比例為18：1，因此可判別為比例差距過大。

當步驟S12判斷正常網站資料集以及垃圾網站資料集的比例差距過大時，於步驟S140中以分群(clustering)法將正常網站資料集分成複數群組。於實務中，分群(clustering)係主要為了縮小訓練時正常樣本的個數，並找出性質相同的正常網站族群來加以切割。

要同時提高偵測率以及降低誤判率，所分割之群組數量以及群組的大小搭配相當重要，決定群組數量的同時需檢視每群組大小的比例，群組數量太少無法得到上述效果；相反地，群組數量太多則會造成數量很多的小群，而會造成訓練時的困難。此外，在群組數量遠小於垃圾資料集數量時，仍會造成樣本分佈不平衡之狀況。

此外，當步驟S12判斷正常網站資料集的比例接近垃圾網站資料集時(亦即，正常網站資料集與垃圾網站資料集之比例差距並不過大)，本方法之步驟S160將根據支援向量機方法(Support Vector Machine,SVM)以及適應性漸進演算法(Adaboost)對網站資料集進行訓練，進而獲得分類器。此分類器即可實際用來偵測垃圾網站。

於本具體實施例中，步驟S140將正常網站資料集分成複數群組後，於步驟S142中，將各群組依其佔總正常網站的比例萃取出部分軸心資料。接著，於步驟S162中，以支援向量機方法以及適應性漸進演算法，來對這些部分軸心資料以及垃圾網站資料集裡的資料進行訓練，進而獲得分類器。

請參閱圖二，圖二係繪示根據本發明之另一具體實施例的用以訓練偵測垃圾網站之分類器的方法之步驟流程圖。如圖二所示，本具體實施例之方法包含下列步驟：於步驟S20中，以資料增益方法自網站資料集中所提供的特徵中擷取特定數量的特徵。

接著，於步驟S22中，將網站資料集分成垃圾網站資料集以及正常網站資料集，並且判斷兩者間之比例是否差距過大。當步驟S22判斷正常網站資料集的比例接近垃圾網站資料集時，於步驟S260根據支援向量機方法以及適應性漸進演算法來對網站資料集進行訓練，進而獲得分類器。

本具體實施例與上述具體實施例不同處，在於當本具體實施例之步驟S22在判斷正常網站資料集以及垃圾網站資料集的比例差距過大時，將於步驟S240中以分群法將正常網站資料集分成複數群組。之後，步驟S242係分別對各群組進行訓練，以獲得複數個子分類器。接著，於步驟S262中，以投票方式決定最終的分類結果，進而獲得分類器。此分類器即可直接用於偵測垃圾網站。

請參閱圖三，圖三係繪示根據本發明之另一具體實施例之用以訓練偵測垃圾網站的分類器之方法的步驟流程圖。如圖三所示，本具體實施例之方法包含下列步驟：於步驟S30中，以資料增益方法自網站資料集中所提供的特徵中擷取特定數量的特徵。

接著，於步驟S32中，將網站資料集分成垃圾網站資料集以及正常網站資料集，並且判斷兩者間之比例是否差距過大。當步驟S32判斷正常網站資料集的比例接近垃圾網站資料集時，於步驟S36根據支援向量機方法以及適應性漸進演算法對網站資料集進行訓練，進而獲得分類器。

本具體實施例與上述具體實施例不同處，在於當本具體實施例之步驟S32判斷正常網站資料集以及垃圾網站資料集的比例差距過大時，將於步驟S340中，擴大網站資料集之垃圾網站的樣本數量，而使得正常網站資料集與垃圾網站資料集比例相當。接著，於步驟S36再根據支援向量機方法以及適應性漸進演算法，來對網站資料集進行訓練，進而獲得分類器。

以下係以實例說明上述具體實施例所獲得的分類器之垃圾網站偵測率以及正常網站的誤判率。請注意，以下各實例係以WEBSPAM UK2007作為網站資料集，並且，除了以支援向量機方法以及適應性漸進演算法訓練出來分類器之外，J48決策樹(Decision tree J48)方法訓練網站資料集獲得的分類器亦於本說明書中提出以作為對照。

請參閱表一，表一係為以支援向量機方法(SVM)以及決策樹方法對於網站資料集進行訓練，所獲得的分類器其垃圾網站偵測率以及正常網站誤判率的圖表。請注意，網站資料集先經過資訊增益方法，係自網站資料集所提供的274個特徵中擷取21個特徵。支援向量機方法所使用的參數係c=1，並且其採用RBF kernel參數gamma=2.3，此外，J48決策樹的confidence factor=0.25。

如表一所示，當網站資料集在分佈不平均(垃圾網站：正常網站=1：18)的狀況下，J48決策樹法所訓練出的分類器所具有之垃圾網站偵測率，係優於支援向量機方法所訓練出的分類器所具有的垃圾網站偵測率。然而，當網站資料集數量分佈平均的情況下，J48決策樹法所訓練出的分類器並無法提高垃圾網站偵測率，相對地，支援向量機法所訓練出的分類器卻可得到較好的垃圾網站偵測率。

請參閱表二，表二係以分群法、支援向量機方法以及適應性漸進演算法(Adaboost)，對於網站資料集進行訓練，所獲得的分類器之垃圾網站偵測率以及正常網站誤判率的圖表。請注意，網站資料集先經過資訊增益方法，自網站資料集所提供的274個特徵中擷取21個特徵。支援向量機方法所使用的參數係c=1，並且其採用RBF kernel參數gamma=2.3。

如表二所示，以分群法來分成五群而言，同時使用支援向量機方法以及適應性漸進演算法所訓練出之分類器，係比僅使用支援向量機方法所訓練出之分類器，具有較高的垃圾網站偵測率，因此，適應性漸進演算法確實可提高分類器的垃圾網站偵測率。此外，以分成不同群數而言，於本具體實施例中，分成五群所訓練出的分類器較分成其他群組數量，所訓練出的分類器係具有較高的垃圾網站偵測率。

請參閱表三，表三係為以分群法、支援向量機方法以及適應性漸進演算法對於網站資料集進行訓練，所獲得的分類器其垃圾網站偵測率以及正常網站誤判率的圖表，其中，分群後係以投票或萃取方式對網站資料集進行訓練以獲得分類器。請注意，網站資料集係先經過資訊增益方法，而自網站資料集所提供的274個特徵中擷取21個特徵。支援向量機方法所使用的參數係c=1，並且其採用RBF kernel參數gamma=2.3。

如表三所示，以投票方式所獲得的分類器係具有極高的垃圾網站偵測率，然而，其正常網站誤判率亦高達0.98。以萃取各群組部分軸心資料加上全部的垃圾網站資料來一起訓練之方法，亦同樣具有相當高的垃圾網站偵測率，同時其正常網站誤判率降低到0.349。

請參閱表四，其表示係以支援向量機方法以及適應性漸進演算法對於網站資料集進行訓練，所獲得的分類器其之垃圾網站偵測率以及正常網站誤判率的圖表。請注意，網站資料集係先經過資訊增益方法，自網站資料集所提供的274個特徵中擷取21個特徵、22個特徵或274個特徵。支援向量機方法所使用的參數係c=1，並且其採用RBF kernel參數gamma=2.3。

如表四所示，其顯示選取特徵後利用支援向量機方法以及適應性漸進演算法所獲得的分類器，可大幅降低正常網站的誤判率。

相較於先前技術，本發明之用以訓練偵測垃圾網站之分類器之方法，係針對網站資料集分佈不平均的狀況，整合監督式(支援向量機方法)以及非監督式(分群法)的機械學習方式，並輔以適應性漸進演算法，以獲得具有良好垃圾網站偵測率以及正常網站誤判率的分類器。因此，可以增進搜尋引擎的搜尋效率，並避免搜尋引擎使用者遭到惡意入侵的狀況發生。

藉由以上較佳具體實施例之詳細說明，係希望能更加清楚描述本發明之特徵與精神，而並非以上述所揭露的較佳具體實施例，來限制本發明之範圍。相反地，其之目的是希望能於本發明所欲申請之專利範圍的範圍內，涵蓋各種改變及具等效性之架構。因此，本發明所申請之專利範圍的範疇應該根據上述的說明作最寬廣的解釋，以使其得以涵蓋所有可能的變化以及等效性架構。

S1O～S162．．．流程步驟

S20～S262．．．流程步驟

S30～S36．．．流程步驟

圖一係繪示根據本發明之一具體實施例之用以訓練偵測垃圾網站之分類器之方法的步驟流程圖。

圖二係繪示根據本發明之另一具體實施例之用以訓練偵測垃圾網站之分類器之方法的步驟流程圖。

圖三係繪示根據本發明之另一具體實施例之用以訓練偵測垃圾網站之分類器之方法的步驟流程圖。

S10～S162．．．流程步驟

Claims

一種用以訓練偵測垃圾網站之一分類器的方法，其包含下列步驟：以資訊增益(Information Gain)方法自一資料集所提供之複數個特徵中，選取複數個第一特徵；將該資料集分成一正常網站資料集以及一垃圾網站資料集，並判斷該正常網站資料集及該垃圾網站資料集的樣本數比例是否大於一預定比例；若該正常網站資料集及該垃圾網站資料集的樣本數比例大於該預定比例，擴大該垃圾網站資料集之樣本數；以及根據該等第一特徵以支援向量機(Support Vector Machine,SVM)方法以及適應性漸進演算法(Adaboost)，對該資料集進行訓練以獲得該分類器。
如申請專利範圍第1項所述之方法，進一步包含下列步驟：使該資料集之該垃圾網站資料集之樣本數，大體上等同於該正常網站資料集之樣本數。