TWI451273B - 用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體 - Google Patents

用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體 Download PDF

Info

Publication number
TWI451273B
TWI451273B TW097116072A TW97116072A TWI451273B TW I451273 B TWI451273 B TW I451273B TW 097116072 A TW097116072 A TW 097116072A TW 97116072 A TW97116072 A TW 97116072A TW I451273 B TWI451273 B TW I451273B
Authority
TW
Taiwan
Prior art keywords
pages
training
page
nodes
directed graph
Prior art date
Application number
TW097116072A
Other languages
English (en)
Other versions
TW200900958A (en
Inventor
Dengyong Zhou
Christopher J C Burges
Tao Tao
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200900958A publication Critical patent/TW200900958A/zh
Application granted granted Critical
Publication of TWI451273B publication Critical patent/TWI451273B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Description

用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體
本發明係有關使用平滑分類函式的垃圾連結偵測。
現今網頁搜尋引擎被廣泛使用,且其用於回應使用者輸入之搜尋查詢而回傳網站排序清單。在各種不同查詢下,若能使某一網頁能在回傳的網頁排序清單中取得高排序,為非常有價值的。如此將可增加使用者查看特定網頁之可能性。
因此,為了增加特定網站之網頁流量,某些網站之網頁編寫者會試圖人為地操控搜尋引擎回傳之排序清單,使得其編寫之網站取得比正常排序時還要高的排序。這些編寫者使用的特定操控技術須視某特定搜尋引擎如何針對特定查詢進行排序頁面而定。這些編寫者使用的任何不同的操控技術皆稱為「垃圾頁面(spamming)」技術。
某些搜尋引擎使用連結分析演算法,以建立回應查詢而回傳的網頁排序清單。一般來說,連結分析演算法依據指向該網頁之連結數量來識別特定網頁之種要性。假設相關網頁(有著相關內容之網頁)互相具有連結關係。因此,有愈多連結指向某網頁,則搜尋引擎會視該網頁為愈重要。
為了操控此類型之搜尋引擎,網頁垃圾頁面者(使用垃圾頁面技術者)有時藉由將不相關網頁(網頁具有不相關內容)連結至其網頁,企圖建立大量連結至其網頁。此可使用 自動化技術將連至其網站的連結貼到其它網頁上來達成,或者只要藉由建立大量他們自己的網頁及網站,然後將連結放置於這些網頁及網站中而連結至所有其它自己建立的網頁及網站而達成。如此可增加該編寫者所建立的特定網頁或網站的連結量,不管之間是否具有相關內容。同樣地,某些網站相互交換連結。當二個不相關網站交換連結時,其中至少一者或可能兩者很可能為垃圾網頁(獲得垃圾頁面技術好處的網站)。
可知垃圾頁面技術可產生垃圾網頁,而誤導搜尋引擎回應查詢而回傳低品質或甚至全然無關的資訊予使用者。因此,已發展出多種技術用以識別垃圾網頁,希望能將其自搜尋引擎回傳的排序搜尋結果中移除。例如,人類專家一般可有效地識別垃圾網頁。然而,垃圾網頁編寫者可相當輕易地建立大量垃圾網頁,且操控其連結結構。因此,僅靠人判斷偵測垃圾網頁不切實際。因此,已發展出某些自動化方法用以識別垃圾網頁。此種方法之一類稱作監督法,某些垃圾網頁實例提供至使用此方之系統,該系統會學習識別這些實例中的垃圾網頁。
一種此類技術將建立一排序方法,以於使用者上隨機依據網頁間超連結來製作網頁模型。此排序方法為廣為人知的「網頁排序(PageRank)」法,其係Google搜尋引擎所使用的方法。在每一網頁,模型化使用者可依特定機率平均隨機地選擇對外連結,或者依剩餘機率跳躍至從所有網頁中平均隨機地選擇出的新網頁。「隨機漫步」中網頁的 固定機率(stationary probabilities)視為該網頁的排序積分。此一技術需有基本假設,即由一網頁至另一網頁的超連結會建議由第一頁面之編寫者所編寫的第二頁面。當遞迴式施用此建議時,若這多重要網頁指向某一網頁,則它會被視為具重要性。
藉由使用隨機跳躍至平均選擇的網頁,此系統可解決某些高品質頁面不具對外連結之問題,儘管有許多其它網頁指向他們。
另一方面,採用隨機跳躍概念來解決垃圾網頁問題。基本上,上述隨機使用者被允許可跳躍至一組頁面(種子頁面),其被人類專家評估為高品質、一般頁面。假設選擇隨機跳躍,則網頁之固定機率被視為其信賴積分,且一網頁其信賴積分低於一特定臨界值時,該網頁被視為垃圾網頁。
此類系統亦可理解成以下途述:起初,僅選定的優良種子頁面具有信賴積分為1,而其它網頁之信賴積分為零。每一種子頁面接著重覆傳播其信賴積分至其鄰近者,且其鄰近者又傳播他們所接收的積分至他們的鄰近者。此演算法之基本假設為高品質網頁極少指向垃圾頁面。
此演算法之一對應演算法允許隨機網頁使用者可反向地依特定機率平均隨機地選擇對內連結,或者依剩餘機率跳躍至從被人類專家評估為垃圾網頁之網頁集中平均隨機地選擇出的新網頁。此系統中,網頁之固定機率係指其反信賴排序或反信賴積分。若網頁之積分比一所選定的臨界值大,則該網頁將被歸類成垃圾網頁。在傳播方面,此系 統之積分沿著對內連結反方向進行傳播。此類系統之基本假設為:指向垃圾頁面之網頁本身很可能為垃圾頁面。
另一系統稱作函式排序系統。該系統考慮一般排序函式,其係依據某些基於所選擇的隨距離減少的阻尼函式而進行加權的各種不同長度的進入路徑。換句話說,來自距離主要網頁較遠的頁面的連結其加權值減少量比接近的網頁之加權值減少量還少。也就是說,在僅依據連結至頁面的連結數而進行排序的系統下,垃圾頁面可人為地獲得高積分,這是因為垃圾頁面可使用垃圾網頁技術來形成,而因此具有許多來自緊鄰頁面的進入連結。然而,若使用此系統,藉由選擇一阻尼函式其可忽略來自緊鄰的特定頁面的連結的直接貢獻,且僅採納開始於至少與主要頁面距離一連結之連結,則此類垃圾頁面可被降級。
在另一技術中所考慮的係一般機器學習技術。在此技術中,必須選擇可用於偵測垃圾網頁的特徵,且每一網頁表示成一向量,其具有一類垃圾網頁特徵所描述的每一元件。該等特徵可為對內連結數、對外連結數、在前述演算法下所得積分等。接著選定一分類器,如神經網路、選擇樹、支援向量機(support vector machine,SVM)等,且其係以一組具有一般網頁及垃圾網頁(已由人類專家評估)之實例進行訓練。經訓練分類器接著被用來預測特定網頁是否為垃圾網頁(即為垃圾網頁或內容網頁)。此技術方法的一困難為一垃圾網頁特徵之效率一般僅在非由整個網頁平均隨機取樣得的網頁上為有效,而是在由大型網站及高排序 網頁取樣得的網頁上為有效。因此,經訓練分類器係偏向那些所選定頁面,而無法一般化至整個網頁。
上述說明僅是提供用來說明一般背景資訊,且無意用作幫助決定本發明主張標的之範圍。
將網頁集合視為有向圖,其中頁面本身為節點而頁面間超連結為圖中之有向邊緣(directed edge)。可信任實體識別訓練實例中之垃圾頁面及一般頁面。於有向圖中執行隨機漫步。建立於隨機漫步上的分類器估測一分類函式,其在有向圖內密集連結的子圖上變化緩慢。該分類函式對有向圖中每一節點指派一值,且依據該值是否達到某一特定函式臨界值,識別他們為垃圾頁面或為一般頁面。
提供此「發明內容」以簡單介紹本發明之多種概念,其將於下文之「實施方式」作進一步詳細說明。此「發明內容」無意確定本發明之關鍵特徵或必要特徵,也無意用來幫助決定本發明之範圍。本發明所主張標的不限於解決在「先前技術」中所述的任一或所有缺點之實施方式。
本發明之垃圾連結偵測係以有向圖上進行分類的機器學習問題來說明。第1圖為垃圾連結偵測系統100實施範例方塊圖。系統100示出受信任實體102、有向圖104、隨機漫步組件106、分類器訓練組件108、垃圾頁面分類器 110及垃圾頁面偵測系統112。
在系統100中,亦示出網頁集合114。網頁集合114可視為有向圖,其中集合114中網頁本身為圖中節點,而這些網頁間起連結為有向圖中有向邊緣(directed edge)。當然,應認知本系統亦可應用於網域/主機(domain/host)階層,其中網域/主機為圖中節點而網域/主機中網頁間超連結為為有向邊緣。然而,為了說明目的及僅以舉例方式說明,將參照集合113中網頁作為節點以及這些網頁間超連結作為有向邊緣的方式進行說明。
第2圖為第1圖所示系統100之操作實施範例流程圖。第1圖及第2圖將彼此配合進行說明。
首先將注意到,若網頁集合114無法形成強連結圖,則它首先會分解成強連結組件,而本程序基於每一強有向組件繼續進行。強連結圖或強連結組件之精確定義說明於下。然而,簡單來說,一圖可視為強連結,係當圖中每一頂點(或節點)藉由有向邊緣某些路徑連結至圖中其它每一頂點(或節點)。將有向圖分解為強連結組件之步驟例示說明於第2圖方塊150中,且顯示於幽靈(phantom)中指示其僅被執行,若需要的話。
亦提供網頁集合114予受信任實體102,如人類專家,以識別垃圾連結。受信任實體102接著識別網頁集合114中某些垃圾網頁實例為垃圾頁面訓練實例116。受信任實體102亦識別網頁集合114中優良網頁(或一般網頁)為一般訓練實例118。取得這些實例之步驟由第2圖方塊152 表示。
隨機漫步組件106接著接收有向圖104上隨機漫步之一定義(或有向圖104中每一強連結組件),該隨機漫步係由轉換機率(transition probabilities)定義(說明於下文之第20-22式)。接收此定義之步驟係由第1圖方塊153表示。依據所定義的隨機漫步,組件106取得關聯有向圖104中每一節點之固定機率。固定機率係由第1圖中方塊120表示。取得有向圖104的這些機率之步驟係由第2圖方塊154表示,而取得固定機率之步驟係藉由於有向圖104中執行定義的隨機漫步而達成。這些將於下文參考第3圖作詳細說明。
在任一情況下,一旦取得實例116與118及機率120及122,分類器訓練組件108訓練一分類器可用於垃圾連結偵測。分類器顯示於第1圖中且作為垃圾頁面分類器110。在一實施例中,藉著在所偵測的圖上依據機率120及122建立平滑分類函式,來執行訓練分類器。在建立分類函式時,要求分類函式之值接近實例116及118之已知值。換句話說,要求分類函式之值接近用於指示在圖中節點上之垃圾頁面及一般頁面之值,該等節點實際上已由受信任實體102識別為垃圾頁面及一般頁面。例如,假設值-l指示節點為垃圾頁面,而值1指示節點為一般內容頁面。則要求分類函式分別至少接近已知為一般及垃圾頁面之頁面上之值1或-1。此步驟係由第2圖中方塊156指示。
分類函式與已知值間之接近程序可使用多種方式進行 量測。例如,可使用最小平方損失(least square loss)、鉸鏈損失(hinge loss)、精準性/回復測量、F1積分、ROC積分或AUC積分。
依據一實施例,分類函式不只接近已知節點之已知值,且其相當平滑而在密集連結子圖上變化相當緩慢。換句話說,子圖上節點位置相互靠近可能互相具有相當接近之值。然而,若已知他們分別為垃圾頁面節點及一般頁面節點,則分類函式於這些節點間改變相當大,但所選定的最佳化成本函式中將懲罰此種缺乏平滑性。
此處可提供優於習知系統之重大優點。例如在習知系統中,與垃圾頁面極度關聯的這些網頁視為垃圾頁面,而其它所有頁面視為一般頁面。在另一習知系統中,接近一般頁面的這些頁面視為一般頁面,而其它所有頁面視為垃圾頁面。本系統包括關聯一般頁面及垃圾頁面兩者之資訊,以分類特定頁面為內容頁面或垃圾頁面。此外,由於假設有向圖上相互間相當接近之頁面屬於同樣類型(靠近已知垃圾頁面之頁面可能為垃圾頁面,而靠近已知一般頁面之頁面可能為一般頁面),而使得函式為平滑且變化相當慢,靠近已知一般內容頁面之有向子圖中頁面將具有分類函式值,該等值很可能指示其為一般內容頁面。同樣地,靠近垃圾頁面之有向子圖中頁面將具有分類函式值,該等值很可能指示其為垃圾頁面。需要時,分類函式值可突然改變。然而再次說明,這樣會被懲罰。
在任一情況下,垃圾頁面分類器接著可分別指派一值 給有向圖中104所有未經標籤節點。可設定臨界值,且達到分類臨界值之頁面可視為一般頁面,而未達到臨界值之頁面視為垃圾頁面。在一實施例中,僅利用使用分類函式計算得的值之符號來決定相關節點是垃圾頁面或內容頁面。此處有效地設定分類函式臨界值為0。然而,希望設定為0以外之值。例如,若想要在一特定應用下將垃圾頁面誤分類成一般頁面,則可設定臨界值低於0。相反的,若一特定應用想要將一般頁面誤分類為垃圾頁面,則可設定臨界值高於0,等等不同應用。使用垃圾分類器110中實現的分類函式以執行垃圾頁面偵測,係表示於第2圖中方塊158。
第3圖為一隨機漫步組件實施範例流程圖,以取得固定機率120。在一實施例中,隨機漫步組件106於有向圖104中即隨機選擇一開始節點。此步驟由第3圖方塊180表示。組件106接著由選定的開始節點開始隨機地依循圖104中連結。方塊182表示此步驟。應注意到,在每一步驟,組件106可依循來自特定平均隨機網頁的對內連結或對外連結。若依循對外連結,則組件106僅依循由目前頁面透過對外連結而連接至另一頁面的連結。然而,若使用對內連結,則組件106沿著連接至目前頁面的連結反向行進,而到達產生對內連結之網頁。為了目前說明方便,將依循對外連結,儘管可依需要使用對內連結或對外連結。
組件106持續平均隨機地依循連結,直到達到足夠時間量。方塊184表示此步驟。時間量將視網頁集合114大 小而定。當組件106正執行此隨機漫步時,其估計圖104中各種節點的固定機率分佈。「轉換機率」為由圖104中任一給定節點轉換至另一節點之機率。「固定機率分佈」假設組件106由圖104中一隨機選定節點開始,藉由選擇一對外連結而跳至一鄰近節點。在一實例中,假設針對圖104中各種節點如此重覆許多次。則若圖104係連結的(即,使用此隨機漫步,任一點可從任何其它點到達),則組件106在某特定節點所花的時間片段會趨至一固定數(其中所有節點之相對應數總合為1),且該固定數實際上與所選定的開始節點無關。換句話說,固定機率分佈為有向圖104上任一特定節點中之機率。
組件106可使用任一特定度量來決定其是否已執行隨機漫步足夠長的距離。例如,在固定機率無法改變一特定量的情況下(即他們在每一特定重覆跳躍時僅微小改變或改變非常慢),則組件106可視其已執行隨機漫步夠長。在任一情況下,一旦已執行隨機漫步達足夠長的距離,組件106將估算最終固定機率120,而將其輸出至分類器訓練組件108。此步驟由第3圖中方塊186表示。
一開始於大型有向圖中執行分類,似乎可能需要花相當大量時間。已發現可相當快速地完成分類,其係使用相當少量的訓練實例。例如,在一具有二千萬網頁的有向圖中,該等網頁係藉由有向邊緣(連結)所連結,而該等有向邊緣(連結)具有一萬個垃圾網頁實例及二萬個內容網頁實例,可在數分鐘內執行分類。
因此,已直覺式說明垃圾頁面之轉換式(transductive)偵測,現將以更一般方式來進行說明。首先,將說明某些特定項的標示記號。
G =(V,E )表示一有向圖,其中V 為頂點集,E 為邊緣集。在一特定邊緣e E ;將初始頂點e 表示成e ,而最終頂點e 表示成e +。亦將從頂點u 至頂點v 之邊緣表示為(u,v )。清楚地,無向圖可視為每一邊緣為雙向的有向圖。圖G 係符合以下條件則會被加權:若其關聯一函式wE→ R ,其指派一正數w (e )給圖G 中每一邊緣eG =(V,E,w )表示一加權式有向圖。函式w 稱作圖G 之加權函式:頂點vV 的進入(in-degree)d 及出去(out-degree)d 分別由以下式子定義:
路徑為頂點(v 1 ,v 2 , ...,v p )之變數值組,特性為(v i ,v i +1 ) E ,1ip-1。一有向圖為強連結,需符合以下條件:對於每一對頂點uv ,存在一路徑其中v 1=uv p v 。對於一強連結圖,存在一整數k 1及一唯一分隔VV 0 V 1 V k -1 ,使得對於所有0 r k -1,每一邊緣(u,v ) Eu V r ,則v V r +1 ,其中V k V 0 ;且k 為最大值,即不存在其它此類分隔具有k '>k
k =1時,圖為非週期性;否則該圖為週期性。
對於一特定加權有向圖,圖上存在一自然隨機漫步,其具有轉換機率函式pV ×V ,由下式定義:
對於所有(u,v ) E ,否則為0。若圖為強連結,則存在一唯一函式π:V ,其滿足以下式子:
第3式中第一個方程式稱為平衡方程式,π稱作Perron向量。對於一般有向圖,不存在π的封閉解。若圖為強連結且為非週期性,則第2式定義的隨機漫步趨於Perron向量π。除非另有說明,所考慮的有向圖常假設為強連結。一強連結圖實施例顯示於第4圖。節點(頂點)標籤為1-9,而邊緣以箭頭顯示。
現在,將定義有向圖上之多個離散運算子。運算子為Riemannian manifolds上對應的差分運算子之離散類比。如下文所述,離散運算子接著用於發展傳統正規化(regularization)理論。因此,如同於向量空間中其它正規化式機器學習演算法中(例如,支援向量機(SVM)),用於有向圖之本分類演算法係取自離散正規化。
在任一情況下,F (V )表示V 上所有實數值函式集;而F (E )表示E 上所有實數值函式集。函式集F ( )可視為一Hilbert空間H ( ),其具有內積定義如下:
其中φ, F (V ).。c (e )=π(e )p (e ).。c (e )稱為e 上之遍歷流(ergodic flow)。可輕易確認遍歷流為一循環,即:
F (E )上一Hilbert空間可以下式定義之內積來建立:
其中,Ψ F (E ).。
離散梯度▽:H (V )→H (E )係定義成一運算子:
為了簡化,(▽φ)(e )亦可表示成▽ e φ。為了取得此定義之直覺性,可想像一組水桶,他們中某些係經由水管連接。假設一水管e 連接水桶e e ,水桶e e 中液體量為φ(e )及φ(e )。則透過水管的水流應正比於壓力差,即正比於φ(e )-φ(e )。當液體於水桶中平均分佈,即φ為常數,則壓力差將消失而因此水管內不再有水流,即各處皆不存在▽φ。
在連續情況下,離散的散度(divergence)div:H (E )→H (V )可定義成雙變數-▽,即:
其中φ H (V ),Ψ H (E )。藉由直接計算,可得到下式:
藉由依循上述液體模型,散度可用以測量水桶之總流 量。現在可依據散度來一般化循環之概念。若且唯若divΨ =0,則該函式Ψ H (E )稱作循環。
離散Laplacian△:H (V )→H (V )由下式定義:
與連續情況下之對應式比較,第10式中額外因子係由於有向性邊緣。由第10式:
需注意第11式中第一方程式為一Green公式之離散類比。此外,第11式指示△為自我伴隨運算子。特別是,當φ=時,則:
其指示△為半正肯定(positive semi-definite)運算子。將第7式及第9式代入第10式,可得:
當圖為無向圖時,即每一邊緣為雙向性,第13式可簡化為:
第14式已廣泛用於定義無向圖之Laplacian。目前,定義{δ v } v V 函式群組為δ v (u )=I uv ,其明顯為H(V)之基底。△依據此基底之矩陣形式具有以下組件:
此矩陣不具對稱性。然而,若選定另一基底{π-1/2 (v v } v V ,則△可表示為對稱性矩陣:
此矩陣已用於定義有向圖之Laplacian。
現在將說明使用前述分析在有向圖上的學習。給定一有向圖G=(V,E,w),及一離散標籤集L={-1,1},則子集S V 中頂點具有L之標籤。任務為預測Sc (S之補集)中未經分類頂點之標籤。本發明之垃圾連結偵測問題可視為有向圖上之分類。例如,第5圖示出第4圖所示圖之頂點(或節點)分類為垃圾頁面或一般頁面。實體節點歸類為一般頁面,然而這些節點顯示於幽靈(phantom)中時為垃圾頁面。
定義一函式y為y(v)=1或-1,若v S ,且為0,若v S c 。為了將Sc 中未經分類頂點進行分類,定義一離散正規化:
其中C>0為正規化參數。在目標函式中,第一項要求分類函式具相當平滑性,且可能儘量平滑,而第二項要求分類函式儘量符合特定標籤。
當選擇基底{δ v } v V 時,第17式可寫成:
再次說明,第一項使函式對於所有節點皆相當平滑,而第二項要求函式達到想要的密切程度以符合經標籤節點。若H(V)中每一函式以因子π-1/2 進行縮放(換句話說,選擇另一基底{π-1/2 (v v },),則第18式可轉換成:
然而,可觀察到第18式比第19式更自然。
特定有向圖之隨機漫步可以多種方式來定義。三種用於垃圾偵測的隨機漫步類型為:1.平均隨機地依循對外連結。正規地,定義隨機漫步為:
如上述參照第3圖所描述的。
2.平均隨機地依循連結而不管方向性。正規地, 定義隨機漫步為:
3.平均隨機地依循對內連結。正規地,定義隨機漫步為: 亦可選擇使用其它隨機漫步。
在有向圖104中指派值給節點,一般需要選擇一隨機漫步定義(轉換機率),並針對每一節點求得第18式。此已於上文參照第2圖說明過。以下將說明針對反向依循連結之隨機漫步,使用第1表虛擬碼來正規地解得第18式。為了求得第18式之最佳化問題,將此目標函式對φ進行微分而得到:△ am φ+C (φ-y )=0 第23式
其中左手邊第一項係經由內積之微分規則由第11式獲得。上述方程式可寫成:(CI +△ am )φ=Cy 第24式
其中I為單位矩陣。此線性系統具有封閉解:φ=C (CI +△ am )-1 y 第25式然而直接解出線性系統可能比算出反矩陣更有效率。
在以下的第1表之演算法中,使用α]0,1[參數取代C ]0,∞[.。α與C間之關係可表示成:
在第1表最後步驟中,分類係依據每一頂點之函式值符號。如前述參照第2圖之說明,這樣的方式等同於將分類臨界值設定為0。
第1表 轉換式垃圾連結偵測 給定一網頁圖G=(V,E),某些網頁S V 已經由人工方式標示為內容網頁或垃圾網頁。該圖為強連結。否則,它會分解成強連結組件。V中其餘未經分類網頁可分類如下:1.定義一隨機漫步,其平均隨機地選擇一對內連結來依循。正規地,此隨機漫步具有轉換機率: 對任何V中u,v。以π表示向量滿足下式:
2.以P表示矩陣,其具有元素p(u,v),且Π表示對角矩陣,其對角元素為固定機率π(u)且其餘位置元素為0。形成下列矩陣:
其中α為在]0,1[間之參數。
3.於V上定義一函式y,y(v)=1或-1,視網頁v標示為內容頁面或垃圾頁面而定。若v未標示則為0。解出下列線性系統:L φ=Πy ,並以符號φ(v ).將每一未標示網頁v進行分類。
第6圖例示說明一適當運算系統環境300範例,其上可實現具體實施例。運算系統環境300僅作為一適當運算環境實例,並無意圖對本發明之使用範圍或功能作任何限制。運算環境300也不應解讀為需依賴或必須具備操作環境300範例中所示出之任一組件或該等組件之組合。可配合多種不同的通用或專用運算系統環境或組態來操作實施例。適合使用於各種實施例之習知運算系統、環境及/或組態實例包括(但不限於)個人電腦、伺服器電腦、手持或膝上裝置、多處理器系統、微處理器式系統、機上盒、可程式化消費性電子產品、網路PC、微電腦、主機電腦、電通系統及包括上述任一系統或裝置之分散式運算環境,等等。
實施例可以電腦執行之電腦可執行指令(像是程式模組)的一般性概念來描述。概言之,程式模組包括例式、程式、物件、組件、資料結構等,其可執行特殊工作或實施 特定的摘要資料型態。本技術亦可實施在分散式運算環境中,其中工作係由透過一通信網路鏈結的遠端處理裝置執行。在一分散式運算環境中,程式模組可以同時位於本地及遠端運算儲存媒體中,其包括記憶體儲存裝置。
參照第6圖,用於實施某些具體實施例的一示例性系統包括一型式為電腦310之一通用型運算裝置。電腦310的組件可包括(但不限於)一處理單元320、一系統記憶體330及一系統匯流排321,其可耦合多種系統組件(包括系統記憶體)到該處理單元320。該系統匯流排321可為數種匯流排結構之任何一種,其中包括一記憶體匯流排或記憶體控制器、一周邊匯流排、及使用多種匯流排架構之一本地匯流排。舉例來說(而非限制),這種架構包括工業標準架構(ISA,“Industry Standard Architecture”)匯流排、微通道架構(MCA,“Micro Channel Architecture”)匯流排、增強ISA(EISA,“Enhanced ISA”)匯流排、視頻電子標準協會(VESA.“Video Electronics Standards Association”)本地匯流排、及周邊組件戶連(PCI,“Peripheral Component Interconnect”)匯流排,亦稱之為Mezzanine匯流排。
電腦310基本上包括多種電腦可讀取媒體。電腦可讀取媒體可為任何可由電腦310存取的媒體,其同時包括揮發性與非揮發性媒體、可移除與不可移除媒體。舉例來說(而非限制),電腦可讀取媒體可包含電腦儲存媒體與通信媒體。電腦儲存媒體同時包括揮發性與非揮發性、可移除 與不可移除媒體,其可以任何方法或技術來實施以儲存資訊,例如電腦可讀取指令、資料結構、程式模組或其它資料。電腦儲存媒體包括(但不限於)RAM、ROM、EEPROM、快閃記憶體或其它記憶體技術,CD-ROM、數位多功能碟片(DVD,“Digital versatile disk”)或其它光碟儲存元、磁匣、磁帶、磁碟儲存元或其它磁性儲存裝置,或任何其它可用於儲存所想要資訊並可由電腦310存取之媒體。通信媒體基本上包含了電腦可讀取指令、資料結構、程式模組或其它在一調變資料信號中的資料,例如載波或其它輸送機制,並包括任何資訊傳遞媒體。該術語「調變資料信號」代表一信號中其一或多項特性為利用方法設定或改變以在該信號中編碼資訊。舉例來說(而非限制),通信媒體包括有線媒體,像是有線網路或直接線路連線,以及無線媒體,像是聲波、RF、紅外線及其它無線媒體。任何上述的組合亦必須包含在電腦可讀取媒體的範疇內。
系統記憶體330包括型式為揮發性及/或非揮發性記憶體的電腦儲存媒體,例如唯讀記憶體(ROM,“Read only memory”)331及隨機存取記憶體(RAM,“Random access memory”)332。一基本輸入/輸出系統333(BIOS,Basic input/output system)包含有基本的例式來協助電腦310之內元件之間的資訊轉換,例如在開機期間,其基本上是儲存在ROM 131中。RAM 332基本上包含資料及/或程式模組,其可由處理單元320立即存取及/或目前在處理單元 上運作。舉例來說(而非限制),第6圖例示了作業系統334、應用程式335、其它程式模組336及程式資料337。
電腦310亦可包括其它可移除/不可移除、揮發性/非揮發性電腦儲存媒體。僅舉例來說,第6圖例示一硬碟機341,其可讀取或寫入不可移除、非揮發性磁性媒體,一磁碟機351可讀取或寫入一可移除非揮發性磁碟片352,及一光碟機355,其可讀取或寫入一可移除非揮發性光碟片356,例如CD-ROM或其它光學媒體。可用於該示例性作業環境中的其它可移除/不可移除、揮發性/非揮發性電腦儲存媒體包括(但不限於)磁帶匣、快閃記憶卡、數位多功能碟片、數位錄影帶、固態RAM、固態ROM及類似者。硬碟機341基本上透過一不可移除記憶體介面來連接到系統匯流排321,例如介面340,磁碟機351及光碟機355,其基本上透過一可移除記憶體介面連接到系統匯流排321,例如介面350。
上述及第6圖所例示的驅動器及其相關的電腦儲存媒體提供了電腦可讀取指令、資料結構、程式模組及其它電腦310之資料的儲存。在第6圖中,例如硬碟機341係例示成儲存作業系統344、應用程式345、其它程式模組346及程式資料347。請注意這些組件可相同於作業系統334、應用程式335、其它程式模組336及程式資料337等,亦可不同。作業系統344、應用程式345、其它程式模組346及程式資料347在此給定不同編號來至少例示出他們為不同的複本。
使用者可經由輸入裝置輸入指令及資訊到電腦310,像是一鍵盤362、一麥克風363及一指向裝置361,像是滑鼠、軌跡球或觸控板。其它輸入裝置(未示出)可包括搖桿、遊戲板、衛星碟、掃描器等等。這些及其它輸入裝置通常連接到該處理單元320,其透過耦合到系統匯流排之一使用者輸入介面360,但亦可由其它介面及匯流排結構做連接,像是平行埠、遊戲埠或一通用序列匯流排(USB,“Universal serial bus”)。一監視器391或其它種類的顯示裝置亦可經由一介面連接到系統匯流排321,例如視訊介面390。除了監視器之外,電腦亦可包括其它周邊輸出裝置,像是喇叭397及印表機396,其可透過一輸出周邊介面395連接。
電腦310可使用邏輯連線到一或多部遠端電腦(例如遠端電腦380)而在一網路化環境中操作。遠端電腦380可為一個人電腦、掌上型裝置、伺服器、路由器、網路PC、一對等裝置或其它常見網路節點,且基本上包括許多或所有上述關於電腦310之元件。在第6圖中所示的邏輯連線包括一區域網路(LAN,“Local area network”)371及一廣域網路(WAN,“Wide area networrk”)373,但亦可包括其它網路。這些網路化環境常見於辦公室、企業化電腦網路、企業內網路及網際網路。
當用於LAN網路環境中時,電腦310經由一網路介面或配接卡370連接到LAN 371。當用於WAN網路環境中時,電腦310基本上包括一數據機372或其它構件,用於 在WAN 373上建立通信,例如網際網路。數據機372可為內接或外接式,其可透過使用者輸入介面360或其它適當的機制連接到系統匯流排321。在一網路化環境中,相對於電腦310或其一部份所述之程式模組可儲存在該遠端記憶體儲存裝置中。舉例來說(而非限制),第6圖例示遠端應用程式385為存在於遠端電腦380上。應可瞭解到所示之網路連線僅為示例性,可使用其它構件來建立電腦之間的通信鏈結。
儘管本發明已使用結構特徵及/或方法步驟之特定語言進行說明,但應理解在隨附申請專利範圍中定義之本發明,無須受限於所描述之該等特定特徵或步驟。確切地說,該等特定特徵及步驟係揭示作為實施本發明之較佳形式。
100‧‧‧垃圾連結偵測系統
102‧‧‧可信任實體
104‧‧‧有向圖
106‧‧‧隨機漫步組件
108‧‧‧分類器訓練組件
110‧‧‧垃圾頁面分類器
112‧‧‧垃圾頁面偵測系統
114‧‧‧網頁集合
116‧‧‧垃圾頁面訓練實例
118‧‧‧一般內容訓練實例
120‧‧‧固定機率
122‧‧‧轉換機率
300‧‧‧運算系統環境
310‧‧‧電腦
321‧‧‧系統匯流排
330‧‧‧記憶體單元
331‧‧‧唯讀記憶體(ROM)
332‧‧‧隨機存取記憶體(RAM)
333‧‧‧基本輸入/輸出系統
334,344‧‧‧作業系統
335,345‧‧‧應用程式
336,346‧‧‧其他程式模組
337,347‧‧‧程式資料
340,350,360,370,390‧‧‧介面
341‧‧‧硬碟機
351‧‧‧磁碟機
352‧‧‧磁碟
355‧‧‧光碟機
356‧‧‧光碟
361‧‧‧指向裝置
362‧‧‧鍵盤
371‧‧‧區域網路(LAN)
372‧‧‧數據機
373‧‧‧廣域網路(WAN)
380‧‧‧遠端電腦
321‧‧‧記憶裝置
385‧‧‧遠端應用程式
391‧‧‧顯示器
396‧‧‧印表機
397‧‧‧喇叭
第1圖為垃圾連結偵測系統實施範例方塊圖。
第2圖為第1圖中系統之總體操作實施範例流程圖。
第3圖為取得有向圖之固定及轉換機率之實施範例流程圖。
第4圖為強連結有向網頁圖之實施例。
第5圖為第4圖中所示網頁圖進行分類後之實施範例。
第6圖為運算環境實施範例方塊圖。
100‧‧‧垃圾連結偵測系統
102‧‧‧可信任實體
104‧‧‧有向圖
106‧‧‧隨機漫步組件
108‧‧‧分類器訓練組件
110‧‧‧垃圾頁面分類器
112‧‧‧垃圾頁面偵測系統
114‧‧‧網頁集合
116‧‧‧垃圾頁面訓練實例
118‧‧‧一般內容訓練實例
120‧‧‧固定機率
122‧‧‧轉換機率

Claims (19)

  1. 一種將一網頁集合分組成複數個群組之電腦實施方法,其包含以下步驟:取得該等複數個群組中網頁之訓練實例,每一個訓練實例具有一目標函式值,其中取得訓練實例之步驟包含取得該網頁集合中被一受信任實體標示為垃圾訓練頁面(spam training page)之複數個網頁,且取得訓練實例之步驟也進一步包含取得該網頁集合中被該受信任實體標示為一般訓練頁面(normal training page)之複數個網頁;執行遍及表示該網頁集合之一有向圖的一隨機漫步,以取得關聯該有向圖中節點之穩態機率(stationary probabilities),該等節點表示該集合中之網頁;識別一分類函式,該函式依據關聯該等節點之該等穩態機率、依據分派給該有向圖中其它節點之分類函式值、及依據目標函式值,以分派一分類函式值給該有向圖中該等節點中之每一者;及依據由該識別的分類函式所分派給該等節點之分類函式值,將該有向圖中節點標示為屬於該等複數個群組中之一者。
  2. 如申請專利範圍第1項所述之方法,其中識別一分類函式之步驟包含以下步驟: 依據該有向圖中節點之間分類函式值差異之大小,最佳化一成本函式以分派一懲罰(penalty)。
  3. 如申請專利範圍第2項所述之方法,其中識別一分類函式之少驟包含以下少驟:最佳化一成本函式,該成本函式依據分派給表示該等訓練實例之節點之分類函式值與該等節點的目標函式值之間的差異,分派一懲罰。
  4. 如申請專利範圍第3項所述之方法,其中執行一隨機漫步之步驟包含以下步驟:取得一隨機漫步定義,該隨機漫步定義界定遍及該有向圖中節點之隨機漫步。
  5. 如申請專利範圍第4項所述之方法,其中該隨機漫步定義明確指出關聯該有向圖之轉移機率(transitionary probabilities)。
  6. 如申請專利範圍第5項所述之方法,其中標示步驟包含以下步驟:將該有向圖中節點分類成表示垃圾頁面或一般頁面。
  7. 如申請專利範圍第1項所述之方法,更包含以下步驟: 在執行該隨機漫步之前,將該有向圖分解成強連結圖組件(Strongly connected components)。
  8. 一種經配置以偵測一網頁集合中垃圾頁面及一般頁面之垃圾網頁偵測之系統,其包含:一分類器訓練組件,其係經配置以(i)接收標示為一般頁面(normal pages)之一第一組訓練頁面(training pages),及標示為垃圾頁面(spam pages)之一第二組訓練頁面,並(ii)依據該第一組訓練頁面及該第二組訓練頁面二者,訓練一網頁分類器;及一垃圾網頁偵測器,其係經配置以接收未標示網頁,並使用該網頁分類器將該等未標示網頁分類成垃圾頁面或一般頁面。
  9. 如申請專利範圍第8項所述之系統,更包含:一隨機漫步組件,其執行遍及一有向圖的一隨機漫步,其中該圖具有表示該網頁集合中網頁的節點,及表示該集合中網頁間之連結的邊緣,以取得該等網頁之穩態機率(stationary probabilities)。
  10. 如申請專利範圍第9項所述之系統,其中表示該第一組訓練頁面之節點係以代表一一般頁面的一第一訓練值標示,及其中表示該第二組訓練頁面之節點係以代表一垃圾 頁面的一第二訓練值標示。
  11. 如申請專利範圍第10項所述之系統,其中該分類器訓練組件係經配置以最佳化一成本函式,該成本函式懲罰表示該第一組訓練頁面之節點之分類器函式值與該第一訓練值之間之差異,及懲罰表示該第二組訓練頁面之節點之分類器函式值與該第二訓練值之間之差異。
  12. 如申請專利範圍第11項所述之系統,其中該分類器訓練組件係更經配置以最佳化該成本函式,以懲罰該有向圖中節點對節點之函式值差異。
  13. 如申請專利範圍第9項所述之系統,其中該隨機漫步組件係經配置以將該有向圖分解成多數強連結有向圖組件。
  14. 一種儲存多數指令的電腦可讀取媒體,當一電腦執行該等指令時,可藉由執行以下步驟來偵測一網頁集合中之垃圾連結(link spam):接收被一可信任實體標示為垃圾網頁(spam)之該網頁集合之一第一子集合;接收被該可信任實體標示為內容網頁(content)之該網頁集合之一第二子集合;識別一分類器函式,其係藉由(i)使用一成本函式懲 罰,來促進該第一子集合中網頁採用接近一垃圾網頁值的一值,及來促進該第二子集合中網頁採用接近一內容網頁值的一值,且(ii)使用成本函式,來懲罰該網頁集合中各節點之函式值間之差異;依據分派的分類器函式值,將該集合中網頁分類為垃圾網頁或內容網頁;及輸出將該等網頁分類為垃圾網頁或內容網頁的一指示,以供一使用者使用。
  15. 如申請專利範圍第14項所述之電腦可讀取媒體,其中識別該分類器函式之步驟包括以下列步驟而執行遍及該等網頁的一隨機漫步:於一有向圖中選擇一起始點,該有向圖具有表示該集合中網頁的節點及具有表示該等節點間連結的邊緣;及藉由以隨機方式平均地選擇(i)是否依循該有向圖中由一目前節點至另一節點之一連結,或(ii)是否隨機地跳躍至該有向圖中另一節點,重覆地移動至一新節點。
  16. 如申請專利範圍第15項所述之電腦可讀取媒體,其中分派該分類器函式值給所有網頁之步驟包含以下步驟:依據一連結及節點多久被選到的情況,計算出穩態機率及轉移機率。
  17. 如申請專利範圍第16項所述之電腦可讀取媒體,其中選擇是否依循一連結之步驟係依據一預先定義的隨機漫步定義達成。
  18. 如申請專利範圍第17項所述之電腦可讀取媒體,其中該預先定義的隨機漫步定義至少包含:以下一者:由該目前節點出發的對外連結、到達該目前節點的對內連結、及不管相對於該目前節點為何方向的對內連結或對外連結。
  19. 如申請專利範圍第15項所述之電腦可讀取媒體,更包含:將該有向圖分解成強連結組件,使得在任一給定強連結組件中每一節點具有至少一路徑,該路徑透過該給定強連結組件中之連結可到達該給定強連結組件中每一其它節點。
TW097116072A 2007-05-04 2008-05-01 用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體 TWI451273B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US92764707P 2007-05-04 2007-05-04
US11/901,072 US7941391B2 (en) 2007-05-04 2007-09-14 Link spam detection using smooth classification function

Publications (2)

Publication Number Publication Date
TW200900958A TW200900958A (en) 2009-01-01
TWI451273B true TWI451273B (zh) 2014-09-01

Family

ID=39940290

Family Applications (1)

Application Number Title Priority Date Filing Date
TW097116072A TWI451273B (zh) 2007-05-04 2008-05-01 用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體

Country Status (3)

Country Link
US (3) US7941391B2 (zh)
TW (1) TWI451273B (zh)
WO (1) WO2008137360A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US20090089285A1 (en) * 2007-09-28 2009-04-02 Yahoo! Inc. Method of detecting spam hosts based on propagating prediction labels
US20090089373A1 (en) * 2007-09-28 2009-04-02 Yahoo! Inc. System and method for identifying spam hosts using stacked graphical learning
JP4636473B2 (ja) * 2008-08-21 2011-02-23 Necビッグローブ株式会社 リンク情報抽出装置、リンク情報抽出方法およびプログラム
US20100057717A1 (en) * 2008-09-02 2010-03-04 Parashuram Kulkami System And Method For Generating A Search Ranking Score For A Web Page
WO2010065108A1 (en) * 2008-12-01 2010-06-10 Topsy Labs, Inc Estimating influence
JP5640015B2 (ja) 2008-12-01 2014-12-10 トプシー ラブズ インコーポレイテッド 計算された評判又は影響度スコアに基づくランキング及び選択エンティティ
WO2010065109A1 (en) 2008-12-01 2010-06-10 Topsy Labs, Inc. Advertising based on influence
US8010521B2 (en) * 2009-03-23 2011-08-30 Sap Ag Systems and methods for managing foreign key constraints
US8260062B2 (en) * 2009-05-07 2012-09-04 Fuji Xerox Co., Ltd. System and method for identifying document genres
US9183384B1 (en) 2009-11-02 2015-11-10 Symantec Corporation Leveraging indexed document matching to automatically train SVM classifiers
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US11036810B2 (en) 2009-12-01 2021-06-15 Apple Inc. System and method for determining quality of cited objects in search results based on the influence of citing subjects
US9280597B2 (en) 2009-12-01 2016-03-08 Apple Inc. System and method for customizing search results from user's perspective
US9129017B2 (en) 2009-12-01 2015-09-08 Apple Inc. System and method for metadata transfer among search entities
US8892541B2 (en) 2009-12-01 2014-11-18 Topsy Labs, Inc. System and method for query temporality analysis
US9110979B2 (en) 2009-12-01 2015-08-18 Apple Inc. Search of sources and targets based on relative expertise of the sources
US9454586B2 (en) 2009-12-01 2016-09-27 Apple Inc. System and method for customizing analytics based on users media affiliation status
GB2502736A (en) 2011-02-23 2013-12-04 Bottlenose Inc System and method for analyzing messages in a network or across networks
US9442881B1 (en) * 2011-08-31 2016-09-13 Yahoo! Inc. Anti-spam transient entity classification
US9189797B2 (en) 2011-10-26 2015-11-17 Apple Inc. Systems and methods for sentiment detection, measurement, and normalization over social networks
CN104077353B (zh) * 2011-12-30 2017-08-25 北京奇虎科技有限公司 一种黑链检测的方法及装置
US8832092B2 (en) 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
CN102682097A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页中暗链的方法和设备
US9002832B1 (en) 2012-06-04 2015-04-07 Google Inc. Classifying sites as low quality sites
US9009126B2 (en) 2012-07-31 2015-04-14 Bottlenose, Inc. Discovering and ranking trending links about topics
US9652875B2 (en) * 2012-10-29 2017-05-16 Yahoo! Inc. Systems and methods for generating a dense graph
US8762302B1 (en) 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
KR20150019370A (ko) * 2013-08-13 2015-02-25 삼성전자주식회사 휴대 장치에서 3차원 방식의 페이지 탐색 방법 및 이를 위한 휴대 장치
US10013655B1 (en) 2014-03-11 2018-07-03 Applied Underwriters, Inc. Artificial intelligence expert system for anomaly detection
CN104503962B (zh) * 2014-06-18 2017-11-03 北京邮电大学 一种网页暗链检测方法
WO2018022986A1 (en) * 2016-07-29 2018-02-01 The Dun & Bradstreet Corporation Diagnostic engine to enhance derandomized entity behavior identification and classification
US10454807B2 (en) * 2016-10-13 2019-10-22 Futurewei Technologies, Inc. Connection minimization for distributed system
US10469504B1 (en) 2017-09-08 2019-11-05 Stripe, Inc. Systems and methods for using one or more networks to assess a metric about an entity
US11269929B2 (en) * 2018-05-04 2022-03-08 International Business Machines Corporation Combining semantic relationship information with entities and non-entities for predictive analytics in a cognitive system
WO2020033804A1 (en) * 2018-08-09 2020-02-13 Walmart Apollo, Llc System and method for electronic text classification
CN111914201B (zh) * 2020-08-07 2023-11-07 腾讯科技(深圳)有限公司 网络页面的处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161802A1 (en) * 2001-02-27 2002-10-31 Gabrick Kurt A. Web presentation management system
TWI234081B (en) * 2002-12-10 2005-06-11 Ibm Apparatus and method for classification of web sites
TWI238329B (en) * 2002-09-11 2005-08-21 Ibm Methods and apparatus for root cause identification and problem determination in distributed systems
TW200715152A (en) * 2005-08-03 2007-04-16 Wink Technologies Inc Systems for and methods of finding relevant documents by analyzing tags

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743045B2 (en) 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US6990485B2 (en) * 2002-08-02 2006-01-24 Hewlett-Packard Development Company, L.P. System and method for inducing a top-down hierarchical categorizer
US7415445B2 (en) * 2002-09-24 2008-08-19 Hewlett-Packard Development Company, L.P. Feature selection for two-class classification systems
US7720781B2 (en) * 2003-01-29 2010-05-18 Hewlett-Packard Development Company, L.P. Feature selection method and apparatus
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7739281B2 (en) 2003-09-16 2010-06-15 Microsoft Corporation Systems and methods for ranking documents based upon structurally interrelated information
KR100462292B1 (ko) 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7349901B2 (en) 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US20060069667A1 (en) 2004-09-30 2006-03-30 Microsoft Corporation Content evaluation
US7533092B2 (en) 2004-10-28 2009-05-12 Yahoo! Inc. Link-based spam detection
US20060122957A1 (en) 2004-12-03 2006-06-08 Johnny Chen Method and system to detect e-mail spam using concept categorization of linked content
US20060168056A1 (en) 2004-12-20 2006-07-27 Yahoo!, Inc. System and method for providing improved access to SPAM-control feature in mail-enabled application
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US20060212142A1 (en) * 2005-03-16 2006-09-21 Omid Madani System and method for providing interactive feature selection for training a document classification system
US20070078939A1 (en) 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam
US7827052B2 (en) * 2005-09-30 2010-11-02 Google Inc. Systems and methods for reputation management
US7562060B2 (en) * 2006-03-31 2009-07-14 Yahoo! Inc. Large scale semi-supervised linear support vector machines
US8595204B2 (en) * 2007-03-05 2013-11-26 Microsoft Corporation Spam score propagation for web spam detection
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161802A1 (en) * 2001-02-27 2002-10-31 Gabrick Kurt A. Web presentation management system
TWI238329B (en) * 2002-09-11 2005-08-21 Ibm Methods and apparatus for root cause identification and problem determination in distributed systems
TWI234081B (en) * 2002-12-10 2005-06-11 Ibm Apparatus and method for classification of web sites
TW200715152A (en) * 2005-08-03 2007-04-16 Wink Technologies Inc Systems for and methods of finding relevant documents by analyzing tags

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
D. Zhou, J. Huang, and B. Schölkopf. "Learning from labeled and unlabeled data on a directed graph", ICML '05 Proceedings of the 22nd international conference on Machine learning, 2005年, pp. 1036-1043. D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Schölkopf. "Semi-supervised learning by maximizing smoothness", Journal of Machine Learning Research (submitted), 2004年. *

Also Published As

Publication number Publication date
WO2008137360A1 (en) 2008-11-13
US20110282816A1 (en) 2011-11-17
US7941391B2 (en) 2011-05-10
TW200900958A (en) 2009-01-01
US20080275833A1 (en) 2008-11-06
US20130282632A1 (en) 2013-10-24
US8805754B2 (en) 2014-08-12
US8494998B2 (en) 2013-07-23

Similar Documents

Publication Publication Date Title
TWI451273B (zh) 用於使用平滑分類函式的垃圾網頁連結偵測的方法、系統及電腦可讀取媒體
Bedi et al. Community detection in social networks
Tu et al. A unified framework for community detection and network representation learning
Bhattacharjee et al. Active learning based news veracity detection with feature weighting and deep-shallow fusion
Jindal et al. Techniques for text classification: Literature review and current trends.
Casamayor et al. Identification of non-functional requirements in textual specifications: A semi-supervised learning approach
US8503769B2 (en) Matching text to images
US7809705B2 (en) System and method for determining web page quality using collective inference based on local and global information
Rad et al. Identifying controversial articles in Wikipedia: A comparative study
EP3918472B1 (en) Techniques to detect fusible operators with machine learning
US20080275890A1 (en) System and method for smoothing hierarchical data using isotonic regression
Ghai et al. Spam detection using rating and review processing method
Han et al. Sentiment analysis via semi-supervised learning: a model based on dynamic threshold and multi-classifiers
Boididou et al. Learning to detect misleading content on twitter
Pan et al. Clustering of designers based on building information modeling event logs
Lee et al. Improving bug report triage performance using artificial intelligence based document generation model
US20090319457A1 (en) Method and apparatus for structural data classification
Alghanmi et al. Machine learning approaches for anomaly detection in IoT: an overview and future research directions
US20150161187A1 (en) Evaluation of Nodes
Jung Exploiting geotagged resources for spatial clustering on social network services
Cheng et al. Blocking bug prediction based on XGBoost with enhanced features
US20120076416A1 (en) Determining correlations between slow stream and fast stream information
Spahiu et al. Topic profiling benchmarks in the linked open data cloud: Issues and lessons learned
Hamdi et al. BERT and word embedding for interest mining of instagram users
Abudalfa et al. Semi-supervised target-dependent sentiment classification for micro-blogs