TW200849045A - Web spam page classification using query-dependent data - Google Patents

Web spam page classification using query-dependent data Download PDF

Info

Publication number
TW200849045A
TW200849045A TW097115108A TW97115108A TW200849045A TW 200849045 A TW200849045 A TW 200849045A TW 097115108 A TW097115108 A TW 097115108A TW 97115108 A TW97115108 A TW 97115108A TW 200849045 A TW200849045 A TW 200849045A
Authority
TW
Taiwan
Prior art keywords
search query
page
spam
query
pages
Prior art date
Application number
TW097115108A
Other languages
English (en)
Other versions
TWI437452B (zh
Inventor
Krysta Svore
Chris Burges
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200849045A publication Critical patent/TW200849045A/zh
Application granted granted Critical
Publication of TWI437452B publication Critical patent/TWI437452B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Description

200849045 九、發明說明: 【發明所屬之技術領域】 本發明是有關於利用查詢相關性資料的垃圾網頁分 類。 【先前技術】 隨著全球資訊網上的資訊量不斷成長,利用搜尋引擎 以尋獲相關資訊變得愈來愈重要。一搜尋引擎藉由比較網 頁的屬性,連同其他像是錨定文字的特性,以擷取與一使 用者之查詢相關的網頁,並且送返和該查詢為最佳地匹配 者。然後通常會向該使用者顯示以一每頁約1 〇到20項間 之「通用資源定位器(URL)」的排階列表。由搜尋引擎所 進行的網頁排階既經證明為使用者如何地進行網路瀏覽的 一項關鍵要素。此一情況不僅是出現自使用者的簡單資訊 收集,而亦發生在因搜尋活動所獲致的商業交易方面。 有些商業公司為提高其網站訊務而雇請搜尋引擎最佳 化(SEO)公司俾改善其網站排階。有許多方式可用以改善 一網站的排階,這些可概泛地歸類為白帽及灰帽(或黑帽) SEO技術。白帽 SEO方法是聚焦於改善網頁的品質及内 容,因而網頁上的資訊可適用於許多使用者。此一用以改 善一網站之排階的方法係為改善該網站的内容,因而使得 該者對於使用者所會針對的查詢看似最為相關。 然而,確有許多用以改善排階的方法。灰帽及黑帽SEO 技術包含像是鏈結填塞、關鍵字填塞、著套(Cloaking)、 5 200849045 網頁佈植(Web Farming)等等的方法。鏈結填塞係產生 具有微少内容或複製内容之網頁的實作,而所有該等 結至一單一最佳化目標網頁。基於鏈結結構的排階處 藉由因為許多頁面鏈結於此之故認定該目標頁面為一 頁面而被鏈結填塞頁面所愚弄。關鍵字填塞是將一頁 入以查詢詞彙,而令其看似與一其查詢含有該等詞彙 或更多者的搜尋非常相關,即使是該頁面的實際相關 能很低亦然。由於一關鍵字填塞頁面看似具有與該查 關的内容,因而該者將被較高地排階。對於頁面上的 詞彙,該頁面會在搜尋結果中將出現在較高處,並且 地吸引使用者以點按於其網站上。 對使用者而言,白帽技術可獲致較佳的網頁搜 驗。尤其,可根據該搜尋查詢之原始目的以向該使用 供令人滿意的結果。相對地,灰帽或黑帽技術可能會 (derail )使用者的搜尋程序,而希望說服使用者購買 該等使用者並未尋求者。 【發明内容】 茲說明一種垃圾網頁分類器,此者可根據一搜尋 及網頁組對之特性以識別出垃圾網頁。該網頁係由一 所識別。該特性可為依據會傷及一使用者之搜尋體驗 圾散發技術而識別。可自演訓實例以摘取出該等特性 且可運用一演訓演算法以開發該分類器。在運作過程 可將經識別為垃圾網頁的頁面自一相關性排階列表中 許多 皆鏈 理可 較佳 面填 之一 性可 詢相 過載 最終 尋體 者提 歧引 原先 查詢 URL 的垃 ,並 中, 予以 6 200849045 降階及/或移除。 本「概述」係經提供以介紹一種按一簡化形式, 後文「詳細說明」所進一步描述的概念。本「概述」 為以識別所主張之標的的各項關鍵特點或基本特性, 為以用於決定所主張標的之範圍的輔助。 【實施方式】 第1圖係一搜尋引擎系統1 〇〇之區塊圖,該者係 收一搜尋查詢,並且根據該搜尋查詢以呈現一結果列 在運作過程中,該系統 1 〇〇自一使用者接收一搜尋 102。該搜尋查詢包含該使用者想要對其而取得進一步 的一或更多詞彙。在一些實例裡,該使用者可操作一 行動裝置或個人電腦之計算裝置以供輸入該搜尋 1 02。而接著又會經由適當的通訊方式而將該搜尋查詢 發送至一搜尋查詢模組1 04。該搜尋查詢模組1 04處 搜尋查詢 1 0 2,藉以摘取及/或識別出該查詢的特性 性,並且將該等特性提供至一排階模組1 0 6和一垃圾 分類模組 1 0 8。在此雖係按如分別模組所說明及討論 確可視需要將該排階模組1 06及該垃圾網頁分類模組 合併為一單一模組。 該排階模組1 0 6存取一包含有關於複數個網頁之 的索引110。網頁係藉由一 URL所唯一地識別。該 含有一特定網域以及一連至該特定頁面的路徑。現有 已知方法以建立一可根據一搜尋查詢而存取之網頁 而在 並非 亦非 為接 表。 查詢 資訊 像是 查詢 102 理該 或屬 網頁 , 缺 108 資訊 URL 多種 的索 7 200849045 引。除其他項目以外,該索引11 〇可對字詞、標題、子標 題、超籤記及/或任何其他有關於一特定網頁和其相對應之 網域的資訊加以分類。根據該搜尋查詢1 02對該索引11 0 的比較結果,該排階模組1 0 6輸出一該等網頁之經排階列 表 11 2,此者是按照對於該查詢的相關性所排階。該排階 列表11 2可為呈現於一網頁之内,其中頂前結果(亦即前面 的1 0或20項結果)係經呈現以連至該等網頁的超鏈結。
該排階模組1 〇 6可為由一排階演算法所驅動,該者可 識別出該搜尋查詢 1 〇 2、所考量之網頁以及該搜尋查詢内 之詞彙與該等網頁之内容間的關係之多項特性。範例特性 可包含該網頁之内的最頻繁詞彙、一特定詞彙出現在該網 頁内的次數、一與該網頁相關聯的網域名稱(亦即 www.example.com)、指向該頁面的鏈結數目、一查詢詞彙 是否出現在該網頁之標題内等等。根據這些特性,該排階 演算法可執行一計算作業(相關於給定一查詢之一頁面的 相關性數值)。可按如特性向量之函數以執行此計算作業。 在一些實例裡,該經排階列表1 1 2可能含有一或更多 的垃圾網頁。這些垃圾網頁係經設計以根據該排階模組 1 06而提高排階,而並不會增加該頁面的品質或内容。這 些垃圾網頁對於使用者而言僅具備有限價值,同時不會顯 露出如一實際相關頁面般的高品質内容。而基於數項理 由,自搜尋結果中消除垃圾網頁可為重要。若垃圾網頁竟 獲收高度排階,則使用者可能會選擇使用不同的搜尋引 擎,並且其他的合法網站可能運用垃圾散發技術以改善評 8 200849045 比。最終地,垃圾網頁負面地影響到使用者體驗、頁 階及處理成本。 為迎戰垃圾頁面,該系統1 0 0運用該垃圾網頁分 組108,藉以按如該搜尋查詢102之函數及對該索引 的比較結果識別出一垃圾網頁列表 1 1 4。或另者,該 網頁分類模組1 〇 8可自該排階列表1 1 2直接地識別垃 面。可將該等列表Π 2及11 4加以合併,俾提供一可 予該使用者的經更新列表1 1 6。該更新列表1 1 6可將 網頁降階至該列表1 1 2裡的一較低位置,及/或自該列 消除垃圾網頁。該垃圾網頁分類模組1 0 8可為由一分 所驅動,此者係經設計以將一給定網頁籤註為垃圾或 圾。 在一範例裡,該分類器可為根據由與該排階模組 相關聯之排階演算法所運用的相同或類似特性來執行 算作業。由於既已摘取出對於查詢及頁面的特性以供 階模組1 06操作,因而此一特性運用方式可為有利。此 藉由針對於這些特性以演訓一分類器來定位垃圾網頁 度排階.頁面之分佈的外圍者即為垃圾網頁的表示。例 一為提高其相關性排階之目的而將無數關鍵字填塞入 面内的網頁將可能對於一特定關鍵字而具有相較一合 站還要更多的關鍵字。藉由演訓該分類器以辨識這 況,即可更正確地識別出垃圾網頁。 第2圖係一由該系統1 0 0執行藉以向該使用者提 表116的方法200。在步驟202,由該搜尋查詢模組 面排 類模 110 垃圾 圾頁 提供 垃圾 表中 類器 非垃 106 一計 該排 ,外, ,面 如, 其頁 法網 些情 供列 104 200849045 存取該搜尋查詢 1 〇 2。在網際網路式搜尋引擎裡,一使用 者係位於該搜尋引擎模組的遠端處,並且將該搜尋查詢輸 入至一適當的網頁瀏覽器内。在步驟 2 0 4,將來自於該搜 尋查詢102之查詢詞彙比較於該索引110,並且在步驟206 提供相關頁面的經排階列表。然後在步驟2 0 8利用該垃圾 網頁分類模組1 〇 8以識別出垃圾網頁,並且在步驟2 1 0提 供一經更新之排階列表。若識別出一或更多的垃圾網頁, 則將該等自該經排階列表移除,或是降階至該列表内的例 如1 0、2 0、2 5或以上之位置的較低排階處。在步驟2 1 2, 將該經更新列表輸出予該使用者。 第3圖係一用以演訓該垃圾網頁分類模組1 0 8之一分 類器的系統300區塊圖。該系統300含有一演訓模組302, 此者接收按演訓實例3 04之形式的輸入,以及一特性模型 3 06。可根據該等演訓實例304及該特性模型306以輸出一 分類器308。該特性模型306含有垃圾式特性3 1 0、排階時 間查詢無關特性3 1 2以及排階時間查詢相關特性3 1 4。 為偵測垃圾網頁,該分類器3 0 8可將一給定網頁籤註 為垃圾或非垃圾。為發展一分類器 3 0 8,該演訓模組可運 用演訓及測試資料,該者是由數個經籤註實例3 04或樣本 所組成,其中各個樣本具有一屬性或特性向量。在一範例 裡,該等標籤是由人類判斷所決定。分類作業是牽涉到在 演訓過程中產生一特性模型 3 06,藉以預測在一給定僅該 等特性值向量之集合裡於該測試中各實例的標籤。為建構 該分類器3 0 8,可利用該等演訓實例3 04以決定該分類器 10 200849045 3 0 8的參數。在測試過程中,該分類器3 0 8聯合 特性向量,藉以根據該等特性值決定一網頁是 圾。可藉由比較由該分類器所給定之標籤與該實 配標籤以在測試過程裡對該分類器3 0 8進行評算 可利用一適當學習方法以對該分類器3 0 8進 其一範例為支援向量機器(SVM)。然而,可有許 類演算法亦能夠用以偵測垃圾網頁。在一高階處 可在一經轉換版本的特性空間裡對於兩種類別才 垃圾及非垃圾)而在該等特性向量之間產生一線 平面。然後根據該等一經轉換版本的特性空間裡 以將實例加以分類。該SVM找出在該高維度空間 大邊際的劃分超平面。 該分類器3 0 8係根據頁面層級、内容式分類 同於主機層級分類或鏈結層級分類。值得注意的 器3 0 8可併同於一網域層級或鏈結層級分類器而 如藉由在排階時間使用該分類器3 08而在索引產 用另一分類器。然而,可將根據網域及鏈結資訊 用於該分類器中。該等演訓實例3 04含有一眾多 (查詢,URL)組對的集合,然亦可運用其他用以 演訓實例3 04的方式。在一實例裡,可藉由查核 尋引擎之搜尋引擎查詢曰誌以決定查詢,像是美 州 Redmond 市 Microsoft Corporation 所提供的 Live Search (可於 www.live.com 處獲用)。可對該 以取樣,使得該等查詢的集合表現出使用者會遞 地檢視一 否確為垃 例之經指 〇 行演訓。 多不同分 ,一 SVM I籤(亦即 性劃分超 位於何處 之内具最 ,即如不 是該分類 運用,例 生時間使 的特性運 人類籤註 獲得該等 對於一搜 國華盛頓 Microsoft 等查詢加 交至一搜 11 /
200849045 尋引擎之查詢的實際分佈情況。可自工具列資料以及查 曰諸決定查詢頻率。查詢包含商業性查詢、垃圾查詢及 商業性查詢。 當利用人類標籤時,一人類判斷者被給予該查詢 表,並且將各個查詢發送至一搜尋引擎。可向該判斷者 示一 1 0項結果片段的送返列表。對於出現在前1 0個送 搜尋結果内的各個URL,該判斷者可將該URL籤註為 圾、非垃圾或未知。該判斷係根據内容品質、顯明垃圾 術的運用,以及該結果是否應出現在前1 0名之内。 該等垃圾特性3 1 0含有頁面層級屬性。該等屬性包 網域層級特性、頁面層級特性及鏈結資訊。可藉由探掘 該測試及演訓集合内之各個 URL的特性資訊以決定這 特性的數值。此等特性之範例包含鏈結内垃圾的數目、 網站的頂層網域、該文件内之語句的品質以及關鍵字的 度(垃圾詞彙)。該鏈結内垃圾的數目係來自於經籤註垃 頁面之鏈結内的數目。該文件内之語句的品質為表述在 頁面上之詞彙品質的分數。該關鍵字密度係表述在該頁 上有多少詞彙為垃圾詞彙的分數。 除垃圾特性3 1 0以外,該特性模型3 06亦含有排階 間特性。排階時間特性為經摘取以用於排階演算法裡的 性。大量的垃圾網頁出現在排階搜尋結果裡。為收到一 度排階,垃圾網頁必須要含有「愚弄」用以產佈該索引 用以將搜尋結果加以排階之演算法的内容。這些演算法 用特性向量作為輸入,其中該等特性向量在該特性集合 詢 非 列 顯 返 垃 技 含 在 些 該 密 圾 該 面 時 特 高 並 採 上 12 200849045 具有一特定分佈。對於垃圾發送者而言,若無爬行、索引 及排階演算法究係如何地運作的知識,則確難以配合於該 分佈。雖該排階模組1 0 6相信該垃圾網頁為高度相關,然 經演訓以垃圾標籤之分類器 3 0 8,以相同的特性資料作為 輸入而應能夠簡易地識別出垃圾網頁,這是因為該等將為 該分佈的外圍者。由於該排階模組1 06係經演訓以解決不 同問題,亦即相關頁面的排序處理而非垃圾網頁識別,因 此藉由利用一個別而經演訓以捕捉垃圾網頁的分類器,可 在該經排序結果中將垃圾網頁予以降階及/或移除。 可將排階時間特性區分成查詢無關特性3 1 2及查詢相 關特性3 1 4。該等查詢無關排階時間特性3 1 2可經群組化 為頁面層級特性、網域層級特性、錫定特性、知名度特性 及時間特性。 頁面層級特性為可由僅查核一頁面或 URL所決定的 特性。頁面層級特性的範例包含靜態排階特性、最頻繁詞 彙之計數、唯一詞彙之數目的計數、詞彙總數、路徑内之 字詞的數目以及標題内之字詞的數目。 網域層級特性係經計算如跨於一網域中之所有頁面的 平均值,而確可利用其他的計算模式。網域層級特性的範 例包含該網域之排階、字詞數目之平均值以及頂層網域。 知名度特性為透過使用者資料以測量頁面知名度的特 性。知名度特性可為自工具列資料所導算出,其中該使用 者既已同意提供對在一登入會期過程中所收集之資料的存 取。知名度特性可包含網域層級及頁面層級特性。範例特 13 200849045 性為在一網域内之敲擊的數目、一網域之使用者的數目、 在一 URL上敲擊的數目以及一 URL之使用者的數目。時 間特性包含爬行該URL之曰期、頁面改變之最後日期以及 自從爬行過該頁面後的時間。亦可使用像是頻繁詞彙計 數、錨定文字特性等等的其他特性。示範性排階時間查詢 無關特性可如表1所列出。 頁 面 層 級 ·· 靜 態 排 階 、最頻 繁 .詞 1彙、唯- -詞彙數目、詞 彙 總 數 路 徑 内 之 字 詞的數 a 標題内之 字 詞的數目 網 域 層 級 ·· 網 域 排 階 、字詞 平 均 數、頂層 網 域 知 名 度 : 網 域 敲 擊 > 網域使 用 者 時 間 : 爬 行 曰 期 最 後變更 曰 期 、自從前 次 爬行後時間 表1 排階時 間 無 關特性。
查詢相關特性3 1 4為關聯於該搜尋查詢1 0 2内之一或 更多詞彙的内容特性。此特性集合可含有數百個查詢相關 特性。查詢相關特性為自該查詢、文件内容及URL所產 生。查詢相關特性可為僅根據該查詢,或是根據查詢與文 件性質之間的匹配結果。查詢相關特性的範例包含該標題 内之查詢詞彙的數目和該頁面上之查詢詞彙的頻率,以及 查詢詞彙跨於所有文件上之出現性的各種計數、含有該查 詢詞彙之文件的數目,以及在該等查詢詞彙及該文件上的 η元性。表2列出許多可用於該分類器3 0 8之内的範例查 詢相關特性。 14 200849045
表2 排階時間相關特性。 雖於該分類器3 〇 8中運用查詢相關特性,然一垃圾標 籤並不必然地具有查詢相關性。不過,在目前該分類器3 0 8 f 係經運用以使得發出一查詢,然後檢視各個所送返頁面俾 決定此者是否為垃圾。在其中不同查詢產生出不同結果的 實例裡,若有需要,則可對於一頁面是否為垃圾加以校正。 第4圖係一用以輸出該分類器3 0 8的方法4 0 0,而該 者可由該垃圾網頁分類模組1 08加以運用。在步驟402, 獲得含有一查詢及一 URL的經籤註演訓實例。這些實例包 含非垃圾網頁及垃圾網頁兩者。在步驟4 0 4獲得一特性式 模型,藉此識別出網頁的特性以及在查詢與網頁間之關係 的特性。在步驟 406,給定一查詢,該分類器係經演訓以 / 、 識別垃圾網頁。此外,在步驟4 0 8,輸出該分類器。 利用一基於查詢詞彙的經延伸特性集合,(亦即)在垃 圾網頁分類作業上,排階時間内容可為有效。由於一垃圾 發送之一目標係為產生資料以愚弄搜尋引擎排階演算法, 因此可由次級分類器偵測出在垃圾網頁内之資料的識別說 故事(Tell-Tale)性質。 前述之示範性具體實施例說明係根據一搜尋引擎而描 述,該者接收一查詢,並按如該查詢之函數以決定一給定 15 200849045 頁面是否為垃圾網頁。底下說明一適當計算環境,此 併入,並受惠於該等具體實施例,例如該等系統1 〇 〇及 之内或是執行該等方法200及400。第5圖所示之計 境係一可用以實作該等系統及/或方法之一局部或全 範例。 在第5圖裡,該計算系統環境5 00僅為一適當計 境之單一範例,而並非為意指任何有關於所主張之標 使用範圍或功能性的限制。亦不應將該計算環境500 為具有任何與該示範性計算環境5 00中所述各元件之 者或組合相關聯的依賴性或要求性。 該計算環境 5 0 0說明一通用目的計算系統環境 態。可適用於服務代理器或一客戶端裝置的眾知計 統、環境及/或組態範例包含個人電腦、伺服器電腦、 式或膝上型裝置、多重處理器系統、微處理器式系統 頂盒、可程式化消費性電子裝置、網路PC、迷你電腦 型主機、電話系統、可含有任何前述系統或裝置的分 計算環境等等,然不限於此。 本揭所呈現之概念可按如各電腦可執行指令,像 式模組,而由一電腦所執行的一般情境所描述。一般額 程式模組包含執行特定任務或實作特定抽象資料型態 程式、程式、物件、元件、資料結構等等。一些具體 例係經設計以在一分散式計算環境中實作,其中是由 一通訊網路所鏈結之遠端處理裝置來執行各項任務。 分散式計算環境裡,程式模組位在含有記憶體儲存裝 者可 300 算環 部的 算環 的的 解譯 任一 或組 算系 手持 、機 、大 散式 是程 ,來, 之副 實施 透過 在一 置之 16 200849045 本地及遠端兩者處的電腦儲存媒體内。 為以實作前述具體實施例之示範性環境5〇〇包含—a -電腦510之形式的—般目的性計算裝置。肖電腦‘ 元件可包含,然不限於此’一處理單元52〇、—系統兮的 體53 0以及-系統匯流排521,此者可將包含該系 體在内的各種系統元件耦接至該處理單元5 2 〇。 思 17茨承統匯 流排521可為任何多種型態之匯流排結 ^ ^ έ己憶I# 匯流排或記憶體控制器、一週邊匯流排,以及一利用任 各種匯流排架構之本地匯流排。藉由範例,然不限於此饤 此等架構包含「工業標準架構(ISA)」匯流排、「微通道牟 構(MCA)」匯流排、「強化iSA (EISA)」匯流排、「視 子標準協會(VESA)」區域匯流排,以及「週邊元件^電 (pci)」匯流排,此者又稱為Mezzanine匯流排。 連 該電腦5 1 0通常含有各種電腦可讀取媒體。電腦可^ 取媒體可為可由該電腦51。所存取的任何可用媒體:並項 包含揮發性及非揮發性媒體、可移除及非可移除媒體且 者。藉由範例,而非限制,電腦可讀取媒體可包 1兩 存媒體及通訊媒體。電腦儲存媒體包含揮發性 开谭發性 兩者、可移除及非可移除媒體,該等可按任何方法 _ ^ , 或技術 所實作,以供儲存像是電腦可讀取指令、資料結構、。、 模組或其他資料之資訊。 1 该系統§己憶體5 3 0包含按揮發性及/或非揮發性—己e 體之形式的電腦健存媒體,像是唯讀記憶體(r 〇 M) 5 5丨及 隨機存取記憶體(RAM) 552。該電腦510亦可含有其他的 17 200849045 可移除/非可移除、揮發性/非揮發性電腦儲存媒體。非可 移除非揮發性儲存媒體通常是透過—非可移除記憶體介 面,像是介面54〇,連接至該系統匯流排521。而可移除非 揮發〖生儲存媒體則通常是透過一可移除記憶體介面,像是 介面5 5 0 ’連接至該系統匯流排5 2 1。
使用者可透過輸入裝置,像是一鍵盤562、一麥克 風563、一即如滑鼠、執跡球或觸控板之點指裝置561,以 及一視訊相機564,而將命令及資訊輸入至該電腦51〇内。 這一及其他輸入裝置經常是透過一使用者輸入介面以 連接至該處理單元520,此介面係耦接於該系統匯流排, 然亦可為由其他介面和匯流排結構所連接,像是平行連接 埠或一通用序列匯流排(USB)。亦可透過一介面,像是一 視訊’丨面590,以將一監視器591或其他類型之顯示裝置 連接至該系統匯流排521。除該監視器外,該電腦51〇亦 可a有其他像是喇π八597的週邊輸出裝置,而這些可為透 過一輸出週邊介面595所連接。 當按如一客戶端裝置或如一服務代理器所實作時,該 電細510可利用接至一或更多台遠端電腦像是一遠端電 腦則,之邏輯連接卩在一網接環境中㈣。該遠端電腦 彻可為-個人電腦、-手持式裝置、一飼服器一路由 器、-網路PC、一點端裝置或其他常用的網路節點,並且 通常含有許多或全部如前對於該電腦51〇所描述的構件。 第5圖中所描述的邏輯連接包含—區域網路(lan) 571及 -廣域網路(WAN) 573’然亦可包含其他網路。此等網路 18 200849045 環境常見於辦公室、泛企業性電腦網路、企業内網 際網路。 當用於一 LAN網接環境内時,該電腦5 1 0係透 路介面或配接器 570而連接至該 LAN 571。而當 WAN網接觸環境内時,該電腦5 1 0通常含有一數掮 或其他裝置,藉以在像是網際網路之WAN 5 73上建 作業。該數據機5 72可為内建式或外接式,此者可 使用者輸入介面 560,或是其他的適當機制,而連 系統匯流排5 2 1。在一網接環境裡,可將相關於該Ί 或其局部所描述之程式模組儲存在該遠端記憶體儲 内。藉由範例,而非限制,第5圖將遠端應用程式 明如常駐於遠端電腦5 8 0上。然將可暸解所示之網 為示範性質,並且可利用其他為以在多台電腦之間 訊鏈結的方式。 雖既已按照特定於結構特性及/或方法動作之 描述本發明之標的,然應暸解在後載申請專利範圍 義主題事項並非必然地受限於前述各項特定特性或 相反地,上述各項特定特性及動作係按如實作該申 範圍之範例形式所揭示。 【圖式簡單說明】 第1圖為一搜尋引擎系統的區塊圖。 第2圖為一根據一查詢而向一使用者呈現搜尋 方法的流程圖。 路及網 過一網 用於一 機572 立通訊 透過該 接至該 腦5 10 存裝置 5 85說 路連接 建立通 語言來 中所定 動作。 請專利 結果之 19 200849045 區塊圖。 之方法的流程圖。 塊圖。 第3圖為一分類器演訓系統 第4圖為一用以演訓一分類 第5圖係一常用計算環境之 【主要元件符號說明】 100 搜尋引擎系統 102 搜尋查詢 104 搜尋查詢模組 106 排階模組 10 8 垃圾網頁分類模組 110 索引 112 排階列表 114 垃圾網頁列表 116 更新列表 300 分類器系統 302 演訓模組 304 演訓實例 306 特性模型 308 分類器 310 垃圾式特性 312 排階時間查詢無關特性 314 排階時間查詢相關特性 500 計算系統環境 510 電腦 20 200849045 520 處理單元 521 系統匯流排 530 系統記憶體 540 非可移除非揮發性記憶體介面 550 可移除非揮發性記憶體介面 551 唯讀記憶體(ROM) 552 隨機存取記憶體(RAM) 560 使用者輸入介面 561 點指裝置 562 鍵盤 563 麥克風 564 視訊相機 570 網路介面 571 區域網路(LAN) 572 數據機 573 廣域網路(WAN) 580 遠端電腦 585 遠端應用程式 590 視訊介面 591 監視器 595 輸出週邊介面 5 97 口刺口八 21

Claims (1)

  1. 200849045 十、申請專利範圍: 1. 一種處理網頁的方法,其中包含以下步驟·· 接收一搜尋查詢,該搜尋查詢含有至少一詞彙 (term ); 比較該搜尋查詢與對應於複數個網頁的資訊; 按如在該搜尋查詢中之該至少一詞彙以及對應於該等 複數個網頁之資訊的函數,自該等複數個網頁中識別出垃 / 圾網頁;以及 \ 、 按如該搜尋查詢及所識別之垃圾網頁的一函數,以自 該等複數個網頁提供一網頁排階列表。 2. 如申請專利範圍第1項所述之方法,並且進一步包含 以下步驟: 按如該至少一詞彙及對應於該等複數個垃圾網頁之資 訊的函數,摘取該搜尋查詢的特性; ,根據所摘取之特性執行一對於各網頁的計算作業,以 v 將該網頁分類為垃圾網頁或非垃圾網頁。 3. 如申請專利範圍第2項所述之方法,其中該等特性包 含如下至少一者,即在各網頁之標題裡該搜尋查詢中之詞 彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計數、 在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁計 數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網頁 22 200849045 兩者内之多個詞彙的網頁數目。 4. 如申請專利範圍第2項所述之方法,其中該等 含表示垃圾網頁的特性、與搜尋查詢無關的特性以 尋查言旬相關的特性。 5. 如申請專利範圍第2項所述之方法,其中該等 f 含頁面層級、網域層級、知名度特性及時間式特性 6. 如申請專利範圍第1項所述之方法,且進一步 下步驟: 根據該搜尋查詢和對應於該等複數個網頁之資 較結果,識別出一與該搜尋查詢相關之多個網頁的 列表;以及 根據所識別之垃圾網頁以更新該相關性列表, (供該排階列表。 7. 如申請專利範圍第6項所述之方法,其中該更 包含如下步驟之一者,即降低垃圾網頁在該相關性 的排階,以及將垃圾網頁自該相關性列表中移除。 8. 一種處理網頁的系統,其中包含: 一搜尋引擎模組,此者係經調適以接收一搜尋 特性包 及與搜 特性包 〇 包含以 訊的比 相關性 藉此提 新步驟 列表内 查詢, 23 200849045 該搜尋查詢含有至少一詞彙; 一排階模組,此者係經調適以比較該搜尋查詢與對應 於複數個網頁的資訊; 一垃圾網頁分類模組,此者係經調適以按如在該搜尋 查詢中之至少一詞彙以及對應於該等複數個網頁之資訊的 函數,自該等複數個網頁中識別出垃圾網頁;以及 一輸出模組,此者係經調適以按如一該搜尋查詢及所 識別之垃圾網頁的函數,自該等複數個網頁提供一網頁排 階列表。 9. 如申請專利範圍第8項所述之系統,進一步包含其中 該排階模組係經調適以按如在該搜尋查詢中之該至少一詞 彙及對應於該等複數個網頁之資訊的函數摘取該搜尋查詢 的特性,以及其中該垃圾網頁分類模組係經調適以根據所 摘取之特性執行一對於各網頁的計算作業,以將該網頁分 類為垃圾網頁或非垃圾網頁。 10·如申請專利範圍第9項所述之系統,其中該等特性包 含如下至少一者,即在各網頁之標題裡該搜尋查詢中之詞 彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計數、 在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁計 數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網頁 兩者内之多個詞彙的網頁數目。 24 200849045 11. 如申請專利範圍第9項所述之系統,其中該等特 含表示垃圾網頁的特性、與搜尋查詢無關的特性以及 尋查詢相關的特性。 12. 如申請專利範圍第9項所述之系統,其中該等特 含頁面層級、網域層級、知名度特性及時間式特性。 13. 如申請專利範圍第8項所述之系統,其中該排階 係經調適以根據該搜尋查詢和對應於該等複數個網頁 訊的比較結果而識別出一與該搜尋查詢相關之多個網 相關性列表,以及其中該垃圾網頁分類模組係經調適 據所識別之垃圾網頁以更新該相關性列表,藉此提供 階列表。 1 4 ·如申請專利範圍第1 3項所述之系統,其中該垃圾 分類模組執行如下之一者,即降低垃圾網頁在該相關 表内的排階,以及將垃圾網頁自該相關性列表中移除 15.如申請專利範圍第8項所述之系統,其中對應於 複數個網頁之資訊係經儲存在一可由該排階模組存取 引内。 性包 與搜 性包 模組 之資 頁的 以根 該排 網頁 性列 〇 該等 的索 25 200849045 16. 一種用以建構一分類器的演訓系統,其中包含: 一演訓實例集合,各實例含有一查詢識別碼及一頁面 識別碼; 一特性模型,此者可識別出與網頁相關聯並且與該查 詢識別碼和該等網頁内資訊間之關係相關聯的特性;以及 一演訓模組,此者係經調適以存取該演訓實例集合及 該特性模型,藉此輸出一分類器以將一給定網頁籤註為垃 圾或非垃圾。 17.如申請專利範圍第1 6項所述之演訓系統,其中該演訓 模組運用一支援向量機器以按如該等特性的一函數識別出 一超平面俾建構該分類器。 1 8·如申請專利範圍第1 6項所述之演訓系統,其中該等特 性包含表示垃圾網頁的特性、與搜尋查詢無關的特性以及 與搜尋查詢相關的特性。 1 9.如申請專利範圍第1 6項所述之演訓系統,其中該等特 性包含如下至少一者,即在各網頁之標題裡該搜尋查詢中 之詞彙數目、在該搜尋查詢中之詞彙於各網頁内的頻繁計 數、在該搜尋查詢中之詞彙於一網域之所有網頁内的頻繁 計數、含有該搜尋查詢内之詞彙以及在該搜尋查詢及各網 頁兩者内之多個詞彙的網頁數目。 26 200849045 20.如申請專利範圍第1 6項所述之演訓系統,其中該等特 性包含頁面層級、網域層級、知名度特性及時間式特性。
    27
TW097115108A 2007-04-30 2008-04-24 使用查詢相關性資料的垃圾網頁分類 TWI437452B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/742,156 US7853589B2 (en) 2007-04-30 2007-04-30 Web spam page classification using query-dependent data

Publications (2)

Publication Number Publication Date
TW200849045A true TW200849045A (en) 2008-12-16
TWI437452B TWI437452B (zh) 2014-05-11

Family

ID=39888207

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097115108A TWI437452B (zh) 2007-04-30 2008-04-24 使用查詢相關性資料的垃圾網頁分類

Country Status (4)

Country Link
US (1) US7853589B2 (zh)
CL (1) CL2008001189A1 (zh)
TW (1) TWI437452B (zh)
WO (1) WO2008134172A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI404374B (zh) * 2009-12-11 2013-08-01 Univ Nat Taiwan Science Tech 用以訓練偵測垃圾網站之分類器之方法
TWI601024B (zh) * 2009-07-06 2017-10-01 Alibaba Group Holding Ltd Sampling methods, systems and equipment

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545076A (ja) * 2006-07-24 2009-12-17 チャチャ サーチ,インク. 情報検索システムにおけるポッドキャスティング及びビデオトレーニングの為の方法、システム及びコンピュータ読込可能ストレージ
US7680745B2 (en) * 2007-01-29 2010-03-16 4Homemedia, Inc. Automatic configuration and control of devices using metadata
US8458165B2 (en) * 2007-06-28 2013-06-04 Oracle International Corporation System and method for applying ranking SVM in query relaxation
US8078617B1 (en) * 2009-01-20 2011-12-13 Google Inc. Model based ad targeting
US8346800B2 (en) * 2009-04-02 2013-01-01 Microsoft Corporation Content-based information retrieval
US8219539B2 (en) * 2009-04-07 2012-07-10 Microsoft Corporation Search queries with shifting intent
US8935258B2 (en) * 2009-06-15 2015-01-13 Microsoft Corporation Identification of sample data items for re-judging
US20110040769A1 (en) * 2009-08-13 2011-02-17 Yahoo! Inc. Query-URL N-Gram Features in Web Ranking
US9020936B2 (en) * 2009-08-14 2015-04-28 Microsoft Technology Licensing, Llc Using categorical metadata to rank search results
US9576251B2 (en) * 2009-11-13 2017-02-21 Hewlett Packard Enterprise Development Lp Method and system for processing web activity data
US8639773B2 (en) * 2010-06-17 2014-01-28 Microsoft Corporation Discrepancy detection for web crawling
US8706738B2 (en) * 2010-08-13 2014-04-22 Demand Media, Inc. Systems, methods and machine readable mediums to select a title for content production
JP4939637B2 (ja) * 2010-08-20 2012-05-30 楽天株式会社 情報提供装置、情報提供方法、プログラム、ならびに、情報記録媒体
US8606769B1 (en) * 2010-12-07 2013-12-10 Conductor, Inc. Ranking a URL based on a location in a search engine results page
US8762365B1 (en) * 2011-08-05 2014-06-24 Amazon Technologies, Inc. Classifying network sites using search queries
US8655883B1 (en) * 2011-09-27 2014-02-18 Google Inc. Automatic detection of similar business updates by using similarity to past rejected updates
KR101510647B1 (ko) * 2011-10-07 2015-04-10 한국전자통신연구원 이슈 템플릿 추출 기반의 웹 동향 분석 방법 및 장치
US9244931B2 (en) 2011-10-11 2016-01-26 Microsoft Technology Licensing, Llc Time-aware ranking adapted to a search engine application
US8868536B1 (en) 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9659095B2 (en) 2012-03-04 2017-05-23 International Business Machines Corporation Managing search-engine-optimization content in web pages
CN102801709B (zh) * 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
US9483566B2 (en) * 2013-01-23 2016-11-01 Google Inc. System and method for determining the legitimacy of a listing
US9405803B2 (en) * 2013-04-23 2016-08-02 Google Inc. Ranking signals in mixed corpora environments
US20150039599A1 (en) * 2013-08-01 2015-02-05 Go Daddy Operating Company, LLC Methods and systems for recommending top level and second level domains
US10530671B2 (en) * 2015-01-15 2020-01-07 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for generating and using a web page classification model
US10229219B2 (en) * 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
US11675795B2 (en) * 2015-05-15 2023-06-13 Yahoo Assets Llc Method and system for ranking search content
US11609949B2 (en) 2018-11-20 2023-03-21 Google Llc Methods, systems, and media for modifying search results based on search query risk

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US6480837B1 (en) * 1999-12-16 2002-11-12 International Business Machines Corporation Method, system, and program for ordering search results using a popularity weighting
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
KR100486821B1 (ko) 2003-02-08 2005-04-29 디프소프트 주식회사 링크 유알엘 접속을 통한 스팸메일 자동 차단 방법
US7219148B2 (en) 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7197497B2 (en) 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US20050015626A1 (en) 2003-07-15 2005-01-20 Chasin C. Scott System and method for identifying and filtering junk e-mail messages or spam based on URL content
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
KR20040103763A (ko) 2004-01-15 2004-12-09 엔에이치엔(주) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법
US20050216564A1 (en) * 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
US7349901B2 (en) * 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US7664819B2 (en) 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7533092B2 (en) 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7962510B2 (en) 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US7562304B2 (en) 2005-05-03 2009-07-14 Mcafee, Inc. Indicating website reputations during website manipulation of user information
US7769751B1 (en) * 2006-01-17 2010-08-03 Google Inc. Method and apparatus for classifying documents based on user inputs

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI601024B (zh) * 2009-07-06 2017-10-01 Alibaba Group Holding Ltd Sampling methods, systems and equipment
TWI404374B (zh) * 2009-12-11 2013-08-01 Univ Nat Taiwan Science Tech 用以訓練偵測垃圾網站之分類器之方法

Also Published As

Publication number Publication date
TWI437452B (zh) 2014-05-11
WO2008134172A1 (en) 2008-11-06
US7853589B2 (en) 2010-12-14
US20080270376A1 (en) 2008-10-30
CL2008001189A1 (es) 2008-12-26

Similar Documents

Publication Publication Date Title
TW200849045A (en) Web spam page classification using query-dependent data
US11176124B2 (en) Managing a search
Mandal et al. Measuring similarity among legal court case documents
US9367604B2 (en) Systems, methods, and interfaces for extending legal search results
US8296295B2 (en) Relevance ranked faceted metadata search method
US8108204B2 (en) Text categorization using external knowledge
US8819047B2 (en) Fact verification engine
US7725451B2 (en) Generating clusters of images for search results
US7657546B2 (en) Knowledge management system, program product and method
Wang et al. Evaluating contents-link coupled web page clustering for web search results
US8135708B2 (en) Relevance ranked faceted metadata search engine
CN110637316B (zh) 用于预期对象识别的系统和方法
US20140180934A1 (en) Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
RU2473119C1 (ru) Способ и система семантического поиска электронных документов
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
Fuxman et al. Improving classification accuracy using automatically extracted training data
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Conde et al. Inferring user intent in web search by exploiting social annotations
JP2008226204A (ja) Web情報収集装置、Web情報収集方法、Web情報収集プログラム
Zou et al. Evaluating the Use of Project Glossaries in Automated Trace Retrieval.
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム
Rajdeepa et al. An Analysis of Web Mining and its types besides Comparison of Link Mining Algorithms in addition to its specifications
Karhade Introduction to information retrieval systems
Srinivasan et al. Improving Search Results Through Reducing Replica in User Profile
Keikha et al. Effectiveness of aggregation methods in blog distillation

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees