TWI667581B - URL classification method and computer program product - Google Patents

URL classification method and computer program product Download PDF

Info

Publication number
TWI667581B
TWI667581B TW105140768A TW105140768A TWI667581B TW I667581 B TWI667581 B TW I667581B TW 105140768 A TW105140768 A TW 105140768A TW 105140768 A TW105140768 A TW 105140768A TW I667581 B TWI667581 B TW I667581B
Authority
TW
Taiwan
Prior art keywords
url
category
keyword
keywords
classification
Prior art date
Application number
TW105140768A
Other languages
English (en)
Other versions
TW201822030A (zh
Inventor
楊富丞
呂栢頤
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW105140768A priority Critical patent/TWI667581B/zh
Publication of TW201822030A publication Critical patent/TW201822030A/zh
Application granted granted Critical
Publication of TWI667581B publication Critical patent/TWI667581B/zh

Links

Abstract

本發明係提供一種網址分類方法及其電腦程式產品。前述方法在目標網址可取得網址描述內容條件下,則擷取一個或複數個網址描述資訊,並分析各網址描述資訊與欲分類類別之一個或多個類別關鍵字之間的關聯度,以依據關聯度將目標網址分類至類別。藉由上述之操作得以進行自動化網址分類作業,以取代習知技術透過人工進行分類之方式。

Description

網址分類方法及其電腦程式產品
本發明係一種網址分類方法及其電腦程式產品,尤指一種可毋需藉由人工即可自動化進行分類之網址分類方法及其電腦程式產品。
在諸多的網路管理應用中,例如:垃圾或色情網頁過濾等,需由網路服務業者對大量的網路藉由人工進行分類,而隨著網站數量日益增加,使得習知分類方式在執行上面臨極大的挑戰。
此外,習知分類方案通常在訓練階段時,需要提供完整網頁與類別,並配置一對一對的人工標記結果,而當類別更動時則需全部重新標記,使得執行網址分類作業之成本一直居高不下。
綜上所述,如何提供一種可解決前述問題之方案乃本領域亟需解決之技術問題。
為解決前揭之問題,本發明之目的係提供一種用於網址分類之技術方案。
為達上述目的,本發明提出一種網址分類方法。其包含在目標網址可取得網址描述內容條件下,則擷取一個或複數個網址描述資訊,並分析各網址描述資訊與欲分類類別之一個或多個類別關鍵字之間的關聯度,以依據關聯度將目標網址分類至類別。
為達上述目的,本發明提出一種網址分類電腦程式產品,當電腦裝置載入並執行電腦程式產品,可完成前述方法所述之步驟。
綜上所述,本發明之網址分類方法及其電腦程式產品透過分析網址描述資訊與類別關鍵字之間的關聯度,並依據關聯度自動將目標網址分類至特定類別,得以降低一對一網址與類別人工標記之成本。
S1000~S1200‧‧‧步驟
圖1為本案實施範例之建立分類模式流程圖。
圖2為本案實施範例之網址分類模型建立流程圖。
圖3為網址描述擷取與前處理之步驟流程圖。
圖4為本案網址分類模型建立與執行之步驟流程圖。
圖5為本案判斷新網址類別並產生新網址分類結果之步驟流程圖。
以下將描述具體之實施例以說明本發明之實施態樣,惟其並非用以限制本發明所欲保護之範疇。
本發明於第一實施例提供一種網址分類方法。此方法包含在目標網址可取得網址描述內容條件下,則擷取一個或複數個網址描述資訊,並分析各網址描述資訊與欲分類類別之一個或多個類別關鍵字之間的關聯度,以依據關聯度將目標網址分類至類別。
於另一實施例中,前述方法在目標網址未能取得網址描述內容條件下,則由目標網址萃取一個或多個網址關鍵字,並將網址關鍵字與 一個或多個訓練集網址關鍵字進行比對,以將目標網址分類至具關聯性之訓練集網址關鍵字所對應的類別內。
於另一實施例中,前述方法依據網址關鍵字與訓練集網址關鍵字其吻合字串之數量以分析其關聯性。於另一實施例中,前述方法係依據吻合字串所座落之網址層級以分析其關聯度。於另一實施例中,前述方法依據吻合字串之數量以及所座落之網址層級進行權重計算,以分析其關聯度。
於另一實施例中,前述方法係分析各網址描述資訊與類別關鍵字間的機率分佈,以計算關聯度。於另一實施例中,前述方法係基於潛在狄利克雷分配模型分析機率分佈。於另一實施例中,前述方法之潛在狄利克雷分配模型係採用Gibbs sampling推估關聯度。於另一實施例中,前述方法更對目標網址之關鍵字進行翻譯,以進行分類作業。
本發明於第二實施例更提供一種網址分類電腦程式產品,當電腦裝置載入並執行電腦程式產品,可完成前述方法所述之步驟。
以下本發明茲以第一實施例之網址分類方法進行範例說明,惟第二實施例之網址分類電腦程式產品亦可達到相同或相似之技術功效。
請參閱圖1,其為本案實施範例之建立分類模式流程圖。其步驟說明如下:
S1000:建立分類模型並輸出其模型訓練結果。
S1200:判斷新網址類別,並產生新網址分類結果。
請參閱圖2,為本案網址分類模型建立之流程圖,包括下列 步驟:
S1110:建立網址訓練集。
S1120:網址描述擷取與前處理。
S1130:產生網址描述集。
S1140:建立類別知識。
S1150:網址分類模型建立與執行等步驟。
前述S1100至S1130為資料整備階段。首先,S1110建立訓練集網址中,收集一群可擷取網址描述的網址。接著,S1120執行擷取網址描述內容並對其內容進行前處理。圖3表示S1120之詳細步驟流程圖。首先,S1121針對網址訓練集中的每個網址擷取其網址描述,網址描述可透過不同方法獲得,例如利用網路爬蟲技術擷取網址內容等。S1122則利用自然語言技術將網址描述內容進行斷詞並且進行詞性還原。S1123則判斷已還原詞性之斷字是否為停用字(停用字通常被認為不重要或無鑑別力之字眼)。最後S1124進一步去除特定詞性的字眼,只保留有興趣之特定詞性。本案稱經過S1122到1124處理後所留下的字為關鍵字。S1130收集所有的網址描述關鍵字後集合產生單一檔案。
S1140建立類別知識中可提供興趣類別以及其各個類別數個關鍵字、已知類別網址分類知識與已知類似網址庫,此步驟可協助S1150網址分類模型建立與執行,可視為半監督式方法。
在獲得S1130網址描述集以及S1140類別知識後,則一同視為模型輸入資料並執行S1150以建立網址分類模型,此處之網址分類建模機制是基於潛在狄利克雷分配模型(Latent Dirichlet allocation;LDA)。LDA是一 種可用來識別大規模文件集中潛藏的主題訊息的機率生成模型,該模型假設一篇文件是由一組詞構成的一個集合,且詞與詞之間沒有先後順序關係,而一篇文件可以包含多個主題,文件中每一個詞都由其中的一個主題生成。原始LDA是一種非監督式學習算法,即不需要手工標記資訊,需要的僅僅是文件集以及指定主題的數量即可。本案運用此一相同概念於找出大規模網址描述中所隱藏的數個類別,即文件為網址、文件集為網址描述集、主題為類別。其模型最終產出兩個矩陣,分別為網址-類別關係矩陣θ和類別-關鍵字關係矩陣φ,而此兩矩陣可通過機率推論方法獲得。
本案用於LDA機率推論方法為Gibbs sampling,其執行過程中不斷透過重覆估計每個關鍵字屬於各類別的機率,並基於此類別機率分佈最終挑選一個類別並給此關鍵字(即形成關鍵字與類別之對應),這整個流程則是S1150所執行。給定K={k1,k2,...,kn}為所有類別種類,W={w1,w2,...,wv}為所有關鍵字之集合,D={d1,d2,...,dm}為所有網址描述之集合,以下為簡化符號均使用k代表某個類別kj,1jn;w代表某個關鍵字wi,1iv;d代表某篇網址描述df,1fm。如方程式(1)所示,關鍵字w屬於類別k的機率p(w→k)是由兩項式子共同估計,p(w|k)為關鍵字w於類別k的機率;dw={df:wdf};p(k|dw)為被指定給類別k之關鍵字數量佔w所屬的網址描述dw所有關鍵字之比例。
於S1150中,當所有的關鍵字都透過公式(1)與類別建立對應連結時稱作為一回合,當訓練回合數達到設定門檻值時則終止訓練階段,依據每個關鍵字與類別之對應,可計算出網址-類別關係矩陣θ和類別-關鍵 字關係矩陣φ,其中θ描述每個網址的類別機率分佈,φ則描述每個關鍵字於類別機率分佈。
於S1140類別知識應先收集興趣類別與其關鍵字(已知類別關鍵字),一個興趣類別可由多個關鍵字所組成。此步驟亦可利用其他已知知識進一步提升分類模型之效能,包括網址分類知識以及類似網址庫。已知網址分類知識描述網址與其類別之對應,如www.youtube.com.tw被認為屬於影音娛樂類別;已知類似網址庫記錄網址與其他類似網址之對應,舉例來說,www.youtube.com類似網址有www.vimeo.com與www.dailymotion.com。
在S1150網址分類模型建立與執行中,本案則利用S1140類別知識中興趣類別與其關鍵字之對應取代方程式(1)的機率方式,直接產生對應;利用已知網址類別與已知類似網址庫等知識來調整方程式(1)。S1150細節如圖4所示,S1150A針對訓練集中每個關鍵字w,S1150B則在w已經被包含於類別k中的關鍵字集合,則執行S1151直接將w指定給類別k;在如果沒有,但如果同時擁有已知網址類別與已知類似網址庫知識(S1150C),則執行S1152,利用公式(2)決定w的類別並對訓練集下一個關鍵字重複進行一樣步驟,(k|dw)為已知網址分類知識,(k|Rdw)為已知類似網址庫知識(S1150D),其中代表已知機率。如果均無類別知識,則執行S1153利用公式(1)決定w的類別並對訓練集下一個關鍵字重複進行一樣步驟;如果只擁有已知網址分類知識,則執行S1154利用公式(3)決定w的類別並對訓練集下一個關鍵字重複進行一樣步驟;如果只擁有已知類似網址庫,則執行S1155利用公式(4)決定w的類別並對訓練集下一個關鍵字重複進行一樣步驟。
概括來說,網址分類模型的輸入網址描述集,搭配已知類別關鍵字、已知網址類別知識與已知類似網址庫來協助改善模型,其最終產出為分類模型,即θ與φ。S1140類別知識中,已知興趣類別與其關鍵字直接決定Gibbs sampling中關鍵字與類別之對應,使得該關鍵字不會被分配到其他不相關的類別,當此對應關係之形成也會連帶影響到處於同一個網址描述的其他關鍵字之類別對應,又接著影響到擁有相同關鍵字的其他網址描述之類別分佈。即使當關鍵字不屬於任何已知類別關鍵字,透過已知網址分類知識以及類似網址庫可協助此關鍵字被分配到更合適的類別。透過本案之設計改良可增進分類模型之效能。同時,θ記錄每個網址屬於各類別的機率,打破過去一網址一個類別的限制。
請參閱圖5,其為表示S1200判斷新網址類別之流程圖。針對新網址的分類問題時,基於S1100所獲得的模型訓練結果,本案提供兩種分類機制,分別為線上分類機制與離線分類機制。若新網址擁有可擷取網址描述時(S1200A,S1200B),則使用線上式分類機制;反之,則使用離線式分類機制。
當拿到新網址時,S1210如同S1120將網址描述進行前處理後萃取關鍵字,只留下較有意義之字稱為關鍵字集合d。接著,S1220中使用翻譯技術將所有在d的關鍵字翻譯成對應語言並將結合原網址描述之關鍵字形成一個擴增網址描述d'。最後,S1230將針對每個在d'中的關鍵字計 算它屬於各類別的機率,如方程式(5)所示,|d'|為d'中關鍵字的數量,E(wg)為第g個關鍵字wg的權重,其值應介於[0,1],p(wg|k)則是從θ中獲得。權重計算應視使用情境決定,能達到相同功效之權重變形應視為本方法的等效實施。換言之,公式(5)反應如果d'中多數關鍵字出現在社交類的機率很大,則代表d'在社交類機率也比較大。值得注意的是,因為經S1100所得到模型結果中每個網址或關鍵字都可以屬於多個類別,所以新網址透過此設計也可以被歸屬多個類別,如果使用者只希望將一個網址歸類到一個類別,則可直接選擁有最大機率之類別即可。
當需要即時網址類別辨識或者動態的網址描述擷取並非允許時,則使用離線式分類機制。其背後設計精神是對於兩個相似的網址,其所屬類別應該也相似。因此,離線式分類機制將在所有訓練集中訓練網址與新網址比對最相似的網址,並將其最相似網址之類別分佈指定給其新網址。本案將網址中每個用”.”或”/”隔開的都視為一個字串,而兩個網址之相似度則是定義成最長字串吻合之數量,其最長吻合的循序字串又稱為最長共同子序列,其序列中的字串個數定義成長度。舉例來說,如表一所示,假設新網址mod.cht.com.tw/channelrw/01.php,其分別與s1、s2、s3與s4相似度為6、4、3、6。另外,本案定義一個網址能被”/”分割分段的單位為層,如mod.cht.com.tw/channelrw/01.php共有三層,分別為mod.cht.com.tw、channelrw與01.php。字串在網址中不同層也有不同重要性,一般而言,通常屬於越前面層的字串越具代表性與獨特性。因此,本案考 慮一個依照吻合字串所處的層級之權重計算機制來調整相似度,其關鍵字w的權重為{1}/{w所屬之層級}。如表二,新網址與s1、s2、s3與s4的相似度則更改為4.83、4、3與4.67。能達到相同功效之權重變形應視為本方法的等效實施。
總結來說,S1240將針對一個新網址,辨識它與訓練集中每個網址的最長子序列長度與吻合字串之層級來計算相似度。最後,S1250找出擁有最高相似度之網址並將其網址於類別分佈指定給新網址。表二例子中s1與新網址最為相似,因此新網址的類別機率分佈與s1相同。當擁有共同最大相似度的網址不只一個時,則加總平均這些網址的類別分佈再指定給新的網址。
S1110中先建立一堆訓練集網址,如表三中第一欄所表示,在此僅列出三筆代表。經過S1120擷取網址描述與前處理後,可以得到S1130的網址描述集,即表三的第二欄所表示。
表四、五與六為S1140類別知識例子。表四為已知類別關鍵字例子,共分為社交類、影音類與電子商務類三類,其關鍵字之應視應用與目標制訂。表五為一已知網址分類知識例子,假設是經由多人標記網址所屬之類別獲得,而類別機率之計算方法為{認為類別k的人數}/{參與回饋的人數}。表六為一已知類似網址庫例子,假設透過google搜尋結果獲得。
接著,執行S1150模型建立,模型建立過程就是依據不同給定條件不斷調整每個關鍵字與類別之對應關係。流程如圖4所示,先判別該 關鍵字是否已經被包含於某個類別的關鍵字裡,如果是則直接產生類別與關鍵字對應;如果沒有,應依照搭配已知知識條件選擇使用公式(1)、(2)、(3)或(4)來決定其對應關係,如該關鍵字並非於關鍵字時且其所處之網址描述皆無已知分類知識與類似網址庫時,則使用公式(1)來決定其類別;當該關鍵字並非於關鍵字且其所處之網址同時擁有已知分類知識與已知類似網址庫時,則使用公式(2);當該關鍵字並非於關鍵字時且該字所處之網址只擁有已知網址分類知識時,則使用公式(3);當該關鍵字並非於關鍵字且所處之網址只擁有已知類似網址庫時,則使用公式(4)。經執行S1150,類別-關鍵字矩陣φ為其結果之一。
表七中利用所獲得的φ,各類別中本案可以找出具代表性的關鍵字來表示表示這個類別,而類別關鍵字代表性是由該類別中此關鍵字之機率決定,換言之,機率越大越能代表此類別,此表僅列出機率前五高的關鍵字表示。表八則為分類模型結果之二,即網址-類別關係矩陣θ,列出各網址的類別機率分佈。特別注意的是,此類別機率分佈與已知網址類別分類知識不同,此類別機率是由網址描述中的關鍵字與類別對應中所計算獲得。因模型假設關係,每個網址均有一定機率屬於每個類別,但如果機率太低,在此暫用0表示。
最後所獲得的模型結果在S1200辨識新網址的類別。假設欲辨識新網址shopping.friday.tw屬於哪個類別,首先S1210先擷取其網址描述,表九第一欄所示(此表示僅舉例,網址描述可依個別情境不同),經過S1220斷詞與去除特殊詞性後形成關鍵字,表九第二欄所示。S1230利用自動翻譯技術將關鍵字進行翻譯,翻譯之語言應視情境決定,在此使用英文為例。最後,再將原關鍵字與翻譯的關鍵字一起形成擴增網址描述,表九第三欄所表示。假設關鍵字w的權重是採用{w於dw中出現次數×}公式計算得到,如表七中各類別之第三欄,並針對擴增網址 描述之中的每個關鍵字再去表七尋找於各類別之機率,最後利用依照公式(5)加權平均獲得此網址於類別之機率。舉例來說,shopping.friday.tw根據擴增網址描述利用公式(5)計算,其分類機率分佈可能為{社交=0.05,影音=0.05,電子商務=0.9},因為其關鍵字在電子商務類出現機率較大。另外,假設新網址www.momoshop.com.tw/category/food並無(或無法獲取)網址描述,S1240則去對表八跟所有的訓練集網址計算相似度,其相似度分別為0、0與1。
因此,S1250則將www.momoshop.com.tw的類別機率指定給此新網址。最終,此新網址類別機率則為{社交=0.01,影音=0.01,電子商務=0.98}。如果每個網址只分成一類,其分類結果可設定為擁有機率最大的類別,即電子商務類。
上列詳細說明係針對本發明之一可行實施例之具體說明,惟該實施例並非用以限制本發明之專利範圍,凡未脫離本發明技藝精神所為之等效實施或變更,均應包含於本案之專利範圍中。

Claims (10)

  1. 一種網址分類方法,包含:在目標網址可取得網址描述內容條件下,則擷取一個或複數個網址描述資訊,並分析各該網址描述資訊與多個類別的每一類別之一個或多個類別關鍵字之間的關聯度以獲得該目標網址對應每個該些類別的一機率值,並將該目標網址分類至該些類別中該機率值最大的一第一類別,其中各該網址描述資訊包括一單詞。
  2. 如請求項1所述之網址分類方法,更在該在目標網址未能取得該網址描述內容條件下,則由該目標網址萃取一個或多個網址關鍵字,並將該網址關鍵字與一個或多個訓練集網址關鍵字進行比對,以將該目標網址分類至具關聯性之該訓練集網址關鍵字所對應的該類別內。
  3. 如請求項2所述之網址分類方法,係依據該網址關鍵字與該訓練集網址關鍵字其吻合字串之數量以分析其關聯性。
  4. 如請求項3所述之網址分類方法,係依據該吻合字串所座落之網址層級以分析其關聯度。
  5. 如請求項4所述之網址分類方法,係依據該吻合字串之數量以及所座落之網址層級進行權重計算,以分析其關聯度。
  6. 如請求項1所述之網址分類方法,係分析各該網址描述資訊與該類別關鍵字間的機率分佈,以計算該關聯度。
  7. 如請求項6所述之網址分類方法,係基於潛在狄利克雷分配模型分析該機率分佈。
  8. 如請求項7所述之網址分類方法,其中該潛在狄利克雷分配模型係採用 Gibbs sampling推估關聯度。
  9. 如請求項1所述之網址分類方法,更對目標網址之關鍵字進行翻譯,以進行分類作業。
  10. 一種網址分類電腦程式產品,當電腦裝置載入並執行該電腦程式產品,可完成如請求項1至9任一項所述之方法。
TW105140768A 2016-12-09 2016-12-09 URL classification method and computer program product TWI667581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105140768A TWI667581B (zh) 2016-12-09 2016-12-09 URL classification method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105140768A TWI667581B (zh) 2016-12-09 2016-12-09 URL classification method and computer program product

Publications (2)

Publication Number Publication Date
TW201822030A TW201822030A (zh) 2018-06-16
TWI667581B true TWI667581B (zh) 2019-08-01

Family

ID=63258388

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105140768A TWI667581B (zh) 2016-12-09 2016-12-09 URL classification method and computer program product

Country Status (1)

Country Link
TW (1) TWI667581B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691163B1 (en) * 1999-12-23 2004-02-10 Alexa Internet Use of web usage trail data to identify related links
US6721747B2 (en) * 2000-01-14 2004-04-13 Saba Software, Inc. Method and apparatus for an information server
US7299274B2 (en) * 2000-12-11 2007-11-20 Microsoft Corporation Method and system for management of multiple network resources
US20120323898A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Surfacing applications based on browsing activity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691163B1 (en) * 1999-12-23 2004-02-10 Alexa Internet Use of web usage trail data to identify related links
US6721747B2 (en) * 2000-01-14 2004-04-13 Saba Software, Inc. Method and apparatus for an information server
US7299274B2 (en) * 2000-12-11 2007-11-20 Microsoft Corporation Method and system for management of multiple network resources
US20120323898A1 (en) * 2011-06-16 2012-12-20 Microsoft Corporation Surfacing applications based on browsing activity

Also Published As

Publication number Publication date
TW201822030A (zh) 2018-06-16

Similar Documents

Publication Publication Date Title
Kanakaraj et al. NLP based sentiment analysis on Twitter data using ensemble classifiers
Qian et al. Social event classification via boosted multimodal supervised latent dirichlet allocation
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Suresh An unsupervised fuzzy clustering method for twitter sentiment analysis
CN109408743B (zh) 文本链接嵌入方法
US20110113032A1 (en) Generating a conceptual association graph from large-scale loosely-grouped content
CN107844533A (zh) 一种智能问答系统及分析方法
CN113055386B (zh) 一种攻击组织的识别分析方法和装置
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN111563373B (zh) 聚焦属性相关文本的属性级情感分类方法
Rajalakshmi et al. An effective and discriminative feature learning for URL based web page classification
CN111597423B (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
TWI667581B (zh) URL classification method and computer program product
Hürriyetoǧlu et al. Relevancer: Finding and labeling relevant information in tweet collections
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
Mesquita et al. Extracting information networks from the blogosphere: State-of-the-art and challenges
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Zubiaga Exploiting class labels to boost performance on embedding-based text classification
Shi et al. Story disambiguation: Tracking evolving news stories across news and social streams
Hashim et al. An implementation method for Arabic keyword tendency using decision tree
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
Song et al. LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop