TW200849045A

TW200849045A - Web spam page classification using query-dependent data

Info

Publication number: TW200849045A
Application number: TW097115108A
Authority: TW
Inventors: Krysta Svore; Chris Burges
Original assignee: Microsoft Corp
Priority date: 2007-04-30
Filing date: 2008-04-24
Publication date: 2008-12-16
Also published as: TWI437452B; WO2008134172A1; US7853589B2; US20080270376A1; CL2008001189A1

Description

200849045 九、發明說明：【發明所屬之技術領域】本發明是有關於利用查詢相關性資料的垃圾網頁分類。【先前技術】隨著全球資訊網上的資訊量不斷成長，利用搜尋引擎以尋獲相關資訊變得愈來愈重要。一搜尋引擎藉由比較網頁的屬性，連同其他像是錨定文字的特性，以擷取與一使用者之查詢相關的網頁，並且送返和該查詢為最佳地匹配者。然後通常會向該使用者顯示以一每頁約1 〇到20項間之「通用資源定位器（URL)」的排階列表。由搜尋引擎所進行的網頁排階既經證明為使用者如何地進行網路瀏覽的一項關鍵要素。此一情況不僅是出現自使用者的簡單資訊收集，而亦發生在因搜尋活動所獲致的商業交易方面。有些商業公司為提高其網站訊務而雇請搜尋引擎最佳化（SEO)公司俾改善其網站排階。有許多方式可用以改善一網站的排階，這些可概泛地歸類為白帽及灰帽（或黑帽） SEO技術。白帽 SEO方法是聚焦於改善網頁的品質及内容，因而網頁上的資訊可適用於許多使用者。此一用以改善一網站之排階的方法係為改善該網站的内容，因而使得該者對於使用者所會針對的查詢看似最為相關。然而，確有許多用以改善排階的方法。灰帽及黑帽SEO 技術包含像是鏈結填塞、關鍵字填塞、著套（Cloaking)、 5 200849045 網頁佈植（Web Farming)等等的方法。鏈結填塞係產生具有微少内容或複製内容之網頁的實作，而所有該等結至一單一最佳化目標網頁。基於鏈結結構的排階處藉由因為許多頁面鏈結於此之故認定該目標頁面為一頁面而被鏈結填塞頁面所愚弄。關鍵字填塞是將一頁入以查詢詞彙，而令其看似與一其查詢含有該等詞彙或更多者的搜尋非常相關，即使是該頁面的實際相關能很低亦然。由於一關鍵字填塞頁面看似具有與該查關的内容，因而該者將被較高地排階。對於頁面上的詞彙，該頁面會在搜尋結果中將出現在較高處，並且地吸引使用者以點按於其網站上。對使用者而言，白帽技術可獲致較佳的網頁搜驗。尤其，可根據該搜尋查詢之原始目的以向該使用供令人滿意的結果。相對地，灰帽或黑帽技術可能會 (derail )使用者的搜尋程序，而希望說服使用者購買該等使用者並未尋求者。【發明内容】茲說明一種垃圾網頁分類器，此者可根據一搜尋及網頁組對之特性以識別出垃圾網頁。該網頁係由一所識別。該特性可為依據會傷及一使用者之搜尋體驗圾散發技術而識別。可自演訓實例以摘取出該等特性且可運用一演訓演算法以開發該分類器。在運作過程可將經識別為垃圾網頁的頁面自一相關性排階列表中許多皆鏈理可較佳面填之一性可詢相過載最終尋體者提歧引原先查詢 URL 的垃，並中，予以 6 200849045 降階及/或移除。本「概述」係經提供以介紹一種按一簡化形式，後文「詳細說明」所進一步描述的概念。本「概述」為以識別所主張之標的的各項關鍵特點或基本特性，為以用於決定所主張標的之範圍的輔助。【實施方式】第1圖係一搜尋引擎系統1 〇〇之區塊圖，該者係收一搜尋查詢，並且根據該搜尋查詢以呈現一結果列在運作過程中，該系統 1 〇〇自一使用者接收一搜尋 102。該搜尋查詢包含該使用者想要對其而取得進一步的一或更多詞彙。在一些實例裡，該使用者可操作一行動裝置或個人電腦之計算裝置以供輸入該搜尋 1 02。而接著又會經由適當的通訊方式而將該搜尋查詢發送至一搜尋查詢模組1 04。該搜尋查詢模組1 04處搜尋查詢 1 0 2，藉以摘取及/或識別出該查詢的特性性，並且將該等特性提供至一排階模組1 0 6和一垃圾分類模組 1 0 8。在此雖係按如分別模組所說明及討論確可視需要將該排階模組1 06及該垃圾網頁分類模組合併為一單一模組。該排階模組1 0 6存取一包含有關於複數個網頁之的索引110。網頁係藉由一 URL所唯一地識別。該含有一特定網域以及一連至該特定頁面的路徑。現有已知方法以建立一可根據一搜尋查詢而存取之網頁而在並非亦非為接表。查詢資訊像是查詢 102 理該或屬網頁，缺 108 資訊 URL 多種的索 7 200849045 引。除其他項目以外，該索引11 〇可對字詞、標題、子標題、超籤記及/或任何其他有關於一特定網頁和其相對應之網域的資訊加以分類。根據該搜尋查詢1 02對該索引11 0 的比較結果，該排階模組1 0 6輸出一該等網頁之經排階列表 11 2，此者是按照對於該查詢的相關性所排階。該排階列表11 2可為呈現於一網頁之内，其中頂前結果（亦即前面的1 0或20項結果）係經呈現以連至該等網頁的超鏈結。

該排階模組1 〇 6可為由一排階演算法所驅動，該者可識別出該搜尋查詢 1 〇 2、所考量之網頁以及該搜尋查詢内之詞彙與該等網頁之内容間的關係之多項特性。範例特性可包含該網頁之内的最頻繁詞彙、一特定詞彙出現在該網頁内的次數、一與該網頁相關聯的網域名稱（亦即 www.example.com)、指向該頁面的鏈結數目、一查詢詞彙是否出現在該網頁之標題内等等。根據這些特性，該排階演算法可執行一計算作業（相關於給定一查詢之一頁面的相關性數值）。可按如特性向量之函數以執行此計算作業。在一些實例裡，該經排階列表1 1 2可能含有一或更多的垃圾網頁。這些垃圾網頁係經設計以根據該排階模組 1 06而提高排階，而並不會增加該頁面的品質或内容。這些垃圾網頁對於使用者而言僅具備有限價值，同時不會顯露出如一實際相關頁面般的高品質内容。而基於數項理由，自搜尋結果中消除垃圾網頁可為重要。若垃圾網頁竟獲收高度排階，則使用者可能會選擇使用不同的搜尋引擎，並且其他的合法網站可能運用垃圾散發技術以改善評 8 200849045 比。最終地，垃圾網頁負面地影響到使用者體驗、頁階及處理成本。為迎戰垃圾頁面，該系統1 0 0運用該垃圾網頁分組108，藉以按如該搜尋查詢102之函數及對該索引的比較結果識別出一垃圾網頁列表 1 1 4。或另者，該網頁分類模組1 〇 8可自該排階列表1 1 2直接地識別垃面。可將該等列表Π 2及11 4加以合併，俾提供一可予該使用者的經更新列表1 1 6。該更新列表1 1 6可將網頁降階至該列表1 1 2裡的一較低位置，及/或自該列消除垃圾網頁。該垃圾網頁分類模組1 0 8可為由一分所驅動，此者係經設計以將一給定網頁籤註為垃圾或圾。在一範例裡，該分類器可為根據由與該排階模組相關聯之排階演算法所運用的相同或類似特性來執行算作業。由於既已摘取出對於查詢及頁面的特性以供階模組1 06操作，因而此一特性運用方式可為有利。此藉由針對於這些特性以演訓一分類器來定位垃圾網頁度排階.頁面之分佈的外圍者即為垃圾網頁的表示。例一為提高其相關性排階之目的而將無數關鍵字填塞入面内的網頁將可能對於一特定關鍵字而具有相較一合站還要更多的關鍵字。藉由演訓該分類器以辨識這況，即可更正確地識別出垃圾網頁。第2圖係一由該系統1 0 0執行藉以向該使用者提表116的方法200。在步驟202，由該搜尋查詢模組面排類模 110 垃圾圾頁提供垃圾表中類器非垃 106 一計該排，外，，面如，其頁法網些情供列 104 200849045 存取該搜尋查詢 1 〇 2。在網際網路式搜尋引擎裡，一使用者係位於該搜尋引擎模組的遠端處，並且將該搜尋查詢輸入至一適當的網頁瀏覽器内。在步驟 2 0 4，將來自於該搜尋查詢102之查詢詞彙比較於該索引110,並且在步驟206 提供相關頁面的經排階列表。然後在步驟2 0 8利用該垃圾網頁分類模組1 〇 8以識別出垃圾網頁，並且在步驟2 1 0提供一經更新之排階列表。若識別出一或更多的垃圾網頁，則將該等自該經排階列表移除，或是降階至該列表内的例如1 0、2 0、2 5或以上之位置的較低排階處。在步驟2 1 2，將該經更新列表輸出予該使用者。第3圖係一用以演訓該垃圾網頁分類模組1 0 8之一分類器的系統300區塊圖。該系統300含有一演訓模組302，此者接收按演訓實例3 04之形式的輸入，以及一特性模型 3 06。可根據該等演訓實例304及該特性模型306以輸出一分類器308。該特性模型306含有垃圾式特性3 1 0、排階時間查詢無關特性3 1 2以及排階時間查詢相關特性3 1 4。為偵測垃圾網頁，該分類器3 0 8可將一給定網頁籤註為垃圾或非垃圾。為發展一分類器 3 0 8，該演訓模組可運用演訓及測試資料，該者是由數個經籤註實例3 04或樣本所組成，其中各個樣本具有一屬性或特性向量。在一範例裡，該等標籤是由人類判斷所決定。分類作業是牽涉到在演訓過程中產生一特性模型 3 06，藉以預測在一給定僅該等特性值向量之集合裡於該測試中各實例的標籤。為建構該分類器3 0 8，可利用該等演訓實例3 04以決定該分類器 10 200849045 3 0 8的參數。在測試過程中，該分類器3 0 8聯合特性向量，藉以根據該等特性值決定一網頁是圾。可藉由比較由該分類器所給定之標籤與該實配標籤以在測試過程裡對該分類器3 0 8進行評算可利用一適當學習方法以對該分類器3 0 8進其一範例為支援向量機器（SVM)。然而，可有許類演算法亦能夠用以偵測垃圾網頁。在一高階處可在一經轉換版本的特性空間裡對於兩種類別才垃圾及非垃圾）而在該等特性向量之間產生一線平面。然後根據該等一經轉換版本的特性空間裡以將實例加以分類。該SVM找出在該高維度空間大邊際的劃分超平面。該分類器3 0 8係根據頁面層級、内容式分類同於主機層級分類或鏈結層級分類。值得注意的器3 0 8可併同於一網域層級或鏈結層級分類器而如藉由在排階時間使用該分類器3 08而在索引產用另一分類器。然而，可將根據網域及鏈結資訊用於該分類器中。該等演訓實例3 04含有一眾多 (查詢，URL)組對的集合，然亦可運用其他用以演訓實例3 04的方式。在一實例裡，可藉由查核尋引擎之搜尋引擎查詢曰誌以決定查詢，像是美州 Redmond 市 Microsoft Corporation 所提供的 Live Search (可於 www.live.com 處獲用）。可對該以取樣，使得該等查詢的集合表現出使用者會遞地檢視一否確為垃例之經指〇行演訓。多不同分，一 SVM I籤（亦即性劃分超位於何處之内具最，即如不是該分類運用，例生時間使的特性運人類籤註獲得該等對於一搜國華盛頓 Microsoft 等查詢加交至一搜 11 /

200849045 尋引擎之查詢的實際分佈情況。可自工具列資料以及查曰諸決定查詢頻率。查詢包含商業性查詢、垃圾查詢及商業性查詢。當利用人類標籤時，一人類判斷者被給予該查詢表，並且將各個查詢發送至一搜尋引擎。可向該判斷者示一 1 0項結果片段的送返列表。對於出現在前1 0個送搜尋結果内的各個URL，該判斷者可將該URL籤註為圾、非垃圾或未知。該判斷係根據内容品質、顯明垃圾術的運用，以及該結果是否應出現在前1 0名之内。該等垃圾特性3 1 0含有頁面層級屬性。該等屬性包網域層級特性、頁面層級特性及鏈結資訊。可藉由探掘該測試及演訓集合内之各個 URL的特性資訊以決定這特性的數值。此等特性之範例包含鏈結内垃圾的數目、網站的頂層網域、該文件内之語句的品質以及關鍵字的度（垃圾詞彙）。該鏈結内垃圾的數目係來自於經籤註垃頁面之鏈結内的數目。該文件内之語句的品質為表述在頁面上之詞彙品質的分數。該關鍵字密度係表述在該頁上有多少詞彙為垃圾詞彙的分數。除垃圾特性3 1 0以外，該特性模型3 06亦含有排階間特性。排階時間特性為經摘取以用於排階演算法裡的性。大量的垃圾網頁出現在排階搜尋結果裡。為收到一度排階，垃圾網頁必須要含有「愚弄」用以產佈該索引用以將搜尋結果加以排階之演算法的内容。這些演算法用特性向量作為輸入，其中該等特性向量在該特性集合詢非列顯返垃技含在些該密圾該面時特高並採上 12 200849045 具有一特定分佈。對於垃圾發送者而言，若無爬行、索引及排階演算法究係如何地運作的知識，則確難以配合於該分佈。雖該排階模組1 0 6相信該垃圾網頁為高度相關，然經演訓以垃圾標籤之分類器 3 0 8，以相同的特性資料作為輸入而應能夠簡易地識別出垃圾網頁，這是因為該等將為該分佈的外圍者。由於該排階模組1 06係經演訓以解決不同問題，亦即相關頁面的排序處理而非垃圾網頁識別，因此藉由利用一個別而經演訓以捕捉垃圾網頁的分類器，可在該經排序結果中將垃圾網頁予以降階及/或移除。可將排階時間特性區分成查詢無關特性3 1 2及查詢相關特性3 1 4。該等查詢無關排階時間特性3 1 2可經群組化為頁面層級特性、網域層級特性、錫定特性、知名度特性及時間特性。頁面層級特性為可由僅查核一頁面或 URL所決定的特性。頁面層級特性的範例包含靜態排階特性、最頻繁詞彙之計數、唯一詞彙之數目的計數、詞彙總數、路徑内之字詞的數目以及標題内之字詞的數目。網域層級特性係經計算如跨於一網域中之所有頁面的平均值，而確可利用其他的計算模式。網域層級特性的範例包含該網域之排階、字詞數目之平均值以及頂層網域。知名度特性為透過使用者資料以測量頁面知名度的特性。知名度特性可為自工具列資料所導算出，其中該使用者既已同意提供對在一登入會期過程中所收集之資料的存取。知名度特性可包含網域層級及頁面層級特性。範例特 13 200849045 性為在一網域内之敲擊的數目、一網域之使用者的數目、在一 URL上敲擊的數目以及一 URL之使用者的數目。時間特性包含爬行該URL之曰期、頁面改變之最後日期以及自從爬行過該頁面後的時間。亦可使用像是頻繁詞彙計數、錨定文字特性等等的其他特性。示範性排階時間查詢無關特性可如表1所列出。頁面層級 ·· 靜態排階、最頻繁 .詞 1彙、唯- -詞彙數目、詞彙總數路徑内之字詞的數 a 標題内之字詞的數目網域層級 ·· 網域排階、字詞平均數、頂層網域知名度 : 網域敲擊 > 網域使用者時間 : 爬行曰期最後變更曰期、自從前次爬行後時間表1 排階時間無關特性。

查詢相關特性3 1 4為關聯於該搜尋查詢1 0 2内之一或更多詞彙的内容特性。此特性集合可含有數百個查詢相關特性。查詢相關特性為自該查詢、文件内容及URL所產生。查詢相關特性可為僅根據該查詢，或是根據查詢與文件性質之間的匹配結果。查詢相關特性的範例包含該標題内之查詢詞彙的數目和該頁面上之查詢詞彙的頻率，以及查詢詞彙跨於所有文件上之出現性的各種計數、含有該查詢詞彙之文件的數目，以及在該等查詢詞彙及該文件上的 η元性。表2列出許多可用於該分類器3 0 8之内的範例查詢相關特性。 14 200849045

表2 排階時間相關特性。雖於該分類器3 〇 8中運用查詢相關特性，然一垃圾標籤並不必然地具有查詢相關性。不過，在目前該分類器3 0 8 f 係經運用以使得發出一查詢，然後檢視各個所送返頁面俾決定此者是否為垃圾。在其中不同查詢產生出不同結果的實例裡，若有需要，則可對於一頁面是否為垃圾加以校正。第4圖係一用以輸出該分類器3 0 8的方法4 0 0，而該者可由該垃圾網頁分類模組1 08加以運用。在步驟402，獲得含有一查詢及一 URL的經籤註演訓實例。這些實例包含非垃圾網頁及垃圾網頁兩者。在步驟4 0 4獲得一特性式模型，藉此識別出網頁的特性以及在查詢與網頁間之關係的特性。在步驟 406，給定一查詢，該分類器係經演訓以 / 、識別垃圾網頁。此外，在步驟4 0 8，輸出該分類器。利用一基於查詢詞彙的經延伸特性集合，（亦即）在垃圾網頁分類作業上，排階時間内容可為有效。由於一垃圾發送之一目標係為產生資料以愚弄搜尋引擎排階演算法，因此可由次級分類器偵測出在垃圾網頁内之資料的識別說故事（Tell-Tale)性質。前述之示範性具體實施例說明係根據一搜尋引擎而描述，該者接收一查詢，並按如該查詢之函數以決定一給定 15 200849045 頁面是否為垃圾網頁。底下說明一適當計算環境，此併入，並受惠於該等具體實施例，例如該等系統1 〇〇及之内或是執行該等方法200及400。第5圖所示之計境係一可用以實作該等系統及/或方法之一局部或全範例。在第5圖裡，該計算系統環境5 00僅為一適當計境之單一範例，而並非為意指任何有關於所主張之標使用範圍或功能性的限制。亦不應將該計算環境500 為具有任何與該示範性計算環境5 00中所述各元件之者或組合相關聯的依賴性或要求性。該計算環境 5 0 0說明一通用目的計算系統環境態。可適用於服務代理器或一客戶端裝置的眾知計統、環境及/或組態範例包含個人電腦、伺服器電腦、式或膝上型裝置、多重處理器系統、微處理器式系統頂盒、可程式化消費性電子裝置、網路PC、迷你電腦型主機、電話系統、可含有任何前述系統或裝置的分計算環境等等，然不限於此。本揭所呈現之概念可按如各電腦可執行指令，像式模組，而由一電腦所執行的一般情境所描述。一般額程式模組包含執行特定任務或實作特定抽象資料型態程式、程式、物件、元件、資料結構等等。一些具體例係經設計以在一分散式計算環境中實作，其中是由一通訊網路所鏈結之遠端處理裝置來執行各項任務。分散式計算環境裡，程式模組位在含有記憶體儲存裝者可 300 算環部的算環的的解譯任一或組算系手持、機、大散式是程，來，之副實施透過在一置之 16 200849045 本地及遠端兩者處的電腦儲存媒體内。為以實作前述具體實施例之示範性環境5〇〇包含—a -電腦510之形式的—般目的性計算裝置。肖電腦‘ 元件可包含，然不限於此’一處理單元52〇、—系統兮的體53 0以及-系統匯流排521，此者可將包含該系體在内的各種系統元件耦接至該處理單元5 2 〇。思 17茨承統匯流排521可為任何多種型態之匯流排結 ^ ^ έ己憶I# 匯流排或記憶體控制器、一週邊匯流排，以及一利用任各種匯流排架構之本地匯流排。藉由範例，然不限於此饤此等架構包含「工業標準架構（ISA)」匯流排、「微通道牟構（MCA)」匯流排、「強化iSA (EISA)」匯流排、「視子標準協會（VESA)」區域匯流排，以及「週邊元件^電 (pci)」匯流排，此者又稱為Mezzanine匯流排。連該電腦5 1 0通常含有各種電腦可讀取媒體。電腦可^ 取媒體可為可由該電腦51。所存取的任何可用媒體：並項包含揮發性及非揮發性媒體、可移除及非可移除媒體且者。藉由範例，而非限制，電腦可讀取媒體可包 1兩存媒體及通訊媒體。電腦儲存媒體包含揮發性开谭發性兩者、可移除及非可移除媒體，該等可按任何方法 _ ^ , 或技術所實作，以供儲存像是電腦可讀取指令、資料結構、。、模組或其他資料之資訊。 1 该系統§己憶體5 3 0包含按揮發性及/或非揮發性—己e 體之形式的電腦健存媒體，像是唯讀記憶體（r 〇 M) 5 5丨及隨機存取記憶體（RAM) 552。該電腦510亦可含有其他的 17 200849045 可移除/非可移除、揮發性/非揮發性電腦儲存媒體。非可移除非揮發性儲存媒體通常是透過—非可移除記憶體介面，像是介面54〇，連接至該系統匯流排521。而可移除非揮發〖生儲存媒體則通常是透過一可移除記憶體介面，像是介面5 5 0 ’連接至該系統匯流排5 2 1。

使用者可透過輸入裝置，像是一鍵盤562、一麥克風563、一即如滑鼠、執跡球或觸控板之點指裝置561，以及一視訊相機564,而將命令及資訊輸入至該電腦51〇内。這一及其他輸入裝置經常是透過一使用者輸入介面以連接至該處理單元520，此介面係耦接於該系統匯流排，然亦可為由其他介面和匯流排結構所連接，像是平行連接埠或一通用序列匯流排（USB)。亦可透過一介面，像是一視訊’丨面590，以將一監視器591或其他類型之顯示裝置連接至該系統匯流排521。除該監視器外，該電腦51〇亦可a有其他像是喇π八597的週邊輸出裝置，而這些可為透過一輸出週邊介面595所連接。當按如一客戶端裝置或如一服務代理器所實作時，該電細510可利用接至一或更多台遠端電腦像是一遠端電腦則，之邏輯連接卩在一網接環境中㈣。該遠端電腦彻可為-個人電腦、-手持式裝置、一飼服器一路由器、-網路PC、一點端裝置或其他常用的網路節點，並且通常含有許多或全部如前對於該電腦51〇所描述的構件。第5圖中所描述的邏輯連接包含—區域網路（lan) 571及 -廣域網路(WAN) 573’然亦可包含其他網路。此等網路 18 200849045 環境常見於辦公室、泛企業性電腦網路、企業内網際網路。當用於一 LAN網接環境内時，該電腦5 1 0係透路介面或配接器 570而連接至該 LAN 571。而當 WAN網接觸環境内時，該電腦5 1 0通常含有一數掮或其他裝置，藉以在像是網際網路之WAN 5 73上建作業。該數據機5 72可為内建式或外接式，此者可使用者輸入介面 560，或是其他的適當機制，而連系統匯流排5 2 1。在一網接環境裡，可將相關於該Ί 或其局部所描述之程式模組儲存在該遠端記憶體儲内。藉由範例，而非限制，第5圖將遠端應用程式明如常駐於遠端電腦5 8 0上。然將可暸解所示之網為示範性質，並且可利用其他為以在多台電腦之間訊鏈結的方式。雖既已按照特定於結構特性及/或方法動作之描述本發明之標的，然應暸解在後載申請專利範圍義主題事項並非必然地受限於前述各項特定特性或相反地，上述各項特定特性及動作係按如實作該申範圍之範例形式所揭示。【圖式簡單說明】第1圖為一搜尋引擎系統的區塊圖。第2圖為一根據一查詢而向一使用者呈現搜尋方法的流程圖。路及網過一網用於一機572 立通訊透過該接至該腦5 10 存裝置 5 85說路連接建立通語言來中所定動作。請專利結果之 19 200849045 區塊圖。之方法的流程圖。塊圖。第3圖為一分類器演訓系統第4圖為一用以演訓一分類第5圖係一常用計算環境之【主要元件符號說明】 100 搜尋引擎系統 102 搜尋查詢 104 搜尋查詢模組 106 排階模組 10 8 垃圾網頁分類模組 110 索引 112 排階列表 114 垃圾網頁列表 116 更新列表 300 分類器系統 302 演訓模組 304 演訓實例 306 特性模型 308 分類器 310 垃圾式特性 312 排階時間查詢無關特性 314 排階時間查詢相關特性 500 計算系統環境 510 電腦 20 200849045 520 處理單元 521 系統匯流排 530 系統記憶體 540 非可移除非揮發性記憶體介面 550 可移除非揮發性記憶體介面 551 唯讀記憶體（ROM) 552 隨機存取記憶體（RAM) 560 使用者輸入介面 561 點指裝置 562 鍵盤 563 麥克風 564 視訊相機 570 網路介面 571 區域網路（LAN) 572 數據機 573 廣域網路（WAN) 580 遠端電腦 585 遠端應用程式 590 視訊介面 591 監視器 595 輸出週邊介面 5 97 口刺口八 21

Claims

200849045 十、申請專利範圍： 1. 一種處理網頁的方法，其中包含以下步驟·· 接收一搜尋查詢，該搜尋查詢含有至少一詞彙 (term )；比較該搜尋查詢與對應於複數個網頁的資訊；按如在該搜尋查詢中之該至少一詞彙以及對應於該等複數個網頁之資訊的函數，自該等複數個網頁中識別出垃 / 圾網頁；以及 \ 、按如該搜尋查詢及所識別之垃圾網頁的一函數，以自該等複數個網頁提供一網頁排階列表。 2. 如申請專利範圍第1項所述之方法，並且進一步包含以下步驟：按如該至少一詞彙及對應於該等複數個垃圾網頁之資訊的函數，摘取該搜尋查詢的特性；，根據所摘取之特性執行一對於各網頁的計算作業，以 v 將該網頁分類為垃圾網頁或非垃圾網頁。 3. 如申請專利範圍第2項所述之方法，其中該等特性包含如下至少一者，即在各網頁之標題裡該搜尋查詢中之詞彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計數、在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁計數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網頁 22 200849045 兩者内之多個詞彙的網頁數目。 4. 如申請專利範圍第2項所述之方法，其中該等含表示垃圾網頁的特性、與搜尋查詢無關的特性以尋查言旬相關的特性。 5. 如申請專利範圍第2項所述之方法，其中該等 f 含頁面層級、網域層級、知名度特性及時間式特性 6. 如申請專利範圍第1項所述之方法，且進一步下步驟：根據該搜尋查詢和對應於該等複數個網頁之資較結果，識別出一與該搜尋查詢相關之多個網頁的列表；以及根據所識別之垃圾網頁以更新該相關性列表， (供該排階列表。 7. 如申請專利範圍第6項所述之方法，其中該更包含如下步驟之一者，即降低垃圾網頁在該相關性的排階，以及將垃圾網頁自該相關性列表中移除。 8. 一種處理網頁的系統，其中包含：一搜尋引擎模組，此者係經調適以接收一搜尋特性包及與搜特性包〇包含以訊的比相關性藉此提新步驟列表内查詢， 23 200849045 該搜尋查詢含有至少一詞彙；一排階模組，此者係經調適以比較該搜尋查詢與對應於複數個網頁的資訊；一垃圾網頁分類模組，此者係經調適以按如在該搜尋查詢中之至少一詞彙以及對應於該等複數個網頁之資訊的函數，自該等複數個網頁中識別出垃圾網頁；以及一輸出模組，此者係經調適以按如一該搜尋查詢及所識別之垃圾網頁的函數，自該等複數個網頁提供一網頁排階列表。 9. 如申請專利範圍第8項所述之系統，進一步包含其中該排階模組係經調適以按如在該搜尋查詢中之該至少一詞彙及對應於該等複數個網頁之資訊的函數摘取該搜尋查詢的特性，以及其中該垃圾網頁分類模組係經調適以根據所摘取之特性執行一對於各網頁的計算作業，以將該網頁分類為垃圾網頁或非垃圾網頁。 10·如申請專利範圍第9項所述之系統，其中該等特性包含如下至少一者，即在各網頁之標題裡該搜尋查詢中之詞彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計數、在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁計數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網頁兩者内之多個詞彙的網頁數目。 24 200849045 11. 如申請專利範圍第9項所述之系統，其中該等特含表示垃圾網頁的特性、與搜尋查詢無關的特性以及尋查詢相關的特性。 12. 如申請專利範圍第9項所述之系統，其中該等特含頁面層級、網域層級、知名度特性及時間式特性。 13. 如申請專利範圍第8項所述之系統，其中該排階係經調適以根據該搜尋查詢和對應於該等複數個網頁訊的比較結果而識別出一與該搜尋查詢相關之多個網相關性列表，以及其中該垃圾網頁分類模組係經調適據所識別之垃圾網頁以更新該相關性列表，藉此提供階列表。 1 4 ·如申請專利範圍第1 3項所述之系統，其中該垃圾分類模組執行如下之一者，即降低垃圾網頁在該相關表内的排階，以及將垃圾網頁自該相關性列表中移除 15.如申請專利範圍第8項所述之系統，其中對應於複數個網頁之資訊係經儲存在一可由該排階模組存取引内。性包與搜性包模組之資頁的以根該排網頁性列〇該等的索 25 200849045 16. 一種用以建構一分類器的演訓系統，其中包含：一演訓實例集合，各實例含有一查詢識別碼及一頁面識別碼；一特性模型，此者可識別出與網頁相關聯並且與該查詢識別碼和該等網頁内資訊間之關係相關聯的特性；以及一演訓模組，此者係經調適以存取該演訓實例集合及該特性模型，藉此輸出一分類器以將一給定網頁籤註為垃圾或非垃圾。 17.如申請專利範圍第1 6項所述之演訓系統，其中該演訓模組運用一支援向量機器以按如該等特性的一函數識別出一超平面俾建構該分類器。 1 8·如申請專利範圍第1 6項所述之演訓系統，其中該等特性包含表示垃圾網頁的特性、與搜尋查詢無關的特性以及與搜尋查詢相關的特性。 1 9.如申請專利範圍第1 6項所述之演訓系統，其中該等特性包含如下至少一者，即在各網頁之標題裡該搜尋查詢中之詞彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計數、在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁計數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網頁兩者内之多個詞彙的網頁數目。 26 200849045 20.如申請專利範圍第1 6項所述之演訓系統，其中該等特性包含頁面層級、網域層級、知名度特性及時間式特性。

27