TWI452477B

TWI452477B - 以模糊相似度與ｋ最近鄰居法為基礎之多標籤文件分類方法

Info

Publication number: TWI452477B
Application number: TW100113975A
Authority: TW
Inventors: Shie Jue Lee; Jung Yi Jiang; Shian Chi Tsai
Original assignee: Univ Nat Sun Yat Sen
Priority date: 2011-04-22
Filing date: 2011-04-22
Publication date: 2014-09-11
Also published as: TW201243627A

Description

以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法

本發明係關於一種多標籤文件分類方法，特別是一種以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法。

在網路資訊爆炸的時代，搜尋引擎成為人們獲得資訊不可或缺的工具。好的搜尋引擎不僅要找出跟查詢相關的網頁文件，還要盡可能的提高查詢的效率，在各種改善方法中，事先對網頁文件內容進行分類是主要的方法之一。一般網頁資料通常以文件格式儲存，包含其內容、程式區塊、鏈結等訊息。利用文件內容來表示一個網頁，可以透過文件分類方法找出垃圾網頁內容跟一般網頁內容之間的辨別方式。

在處理文件資料時通常以向量空間模型(vector space model)來描述一個文件內容。現有的文件分類方法大多以單標籤資料為訓練樣本下所開發出來的自動分類方法。然而事實上，每一個文件可以同時屬於多個類別的資料，我們稱之為多標籤(multi-label)文件。

在2000年，Schapire與Singer[1]針對多標籤文件自動辨認提出一個延伸自ADABOOST[2]名為BOOSTEXTER的方法，透過調整一組對於訓練樣本與標籤配對資料的權重值，來訓練辨認模組。

1999年，McCallum[3]，2003年Ueda與Saito[4]分別提出基於特徵頻率所架設的模型形成的兩種對於多標籤文件的自動辨認方法。McCallum[3]利用一個混合機率模型與EM演算法來學習混合式權重值與單字在每一個混合成分中的分佈。

Ueda與Saito[4]使用兩種機率產生方式，他們假設在多標籤的文件中具有特殊的單字，且這些單字會出現在多標籤文件所包含的所有單標籤類別中。

2004年Gao[5]等人提出一個圖優異的方法，利用合併辨認模組的各種參數形成一個連續可微分函數來模擬特定的效能價值，並藉由優化此函數來達成對辨認模組的訓練。

2003年Comit[6]等人延伸決策樹方法，將其當作ADABOOST.MH[7]中的基礎學習機，來訓練多標籤辨認模組。

2006年Zhang與Zhou[8]利用一個新的誤差函數來訓練倒傳遞網路，使其可以用在多標籤自動辨認上。

2005年，McCallum[9]與Zhu[10]等人分別延伸最大熵模型，利用增加一個二次限制式以取得類別之間的相關性來處理多標籤資料。

2004年Godbole與Sarawagi[12]延伸以支援向量機為基礎的文件自動辨認方法，利用組合原始文件特徵的異種特徵集合建立一個核心函數來訓練支援向量機多標籤辨認模組。

Kazawa[12]等人透過將多標籤資料轉換成多類別單標籤資料集合來處理多標籤文件自動辨認問題。

除了在文件自動辨認上已經有上述學者在進行多標籤資料自動辨認工作外，在生物資訊與場景自動辨認上，多標籤學習方式也顯示其優良的效果。

在2001年，Clare與King[13]採用C4.5決策樹以改變熵的定義來處理多標籤基因表示問題，其學習得到的決策樹產生的規則可以與已知的生物知識相提並論。

2002年，Elisseeff與Weston[14]定義一個特殊的多標籤差數，並提出一個核心實現多標籤自動辨認方法RANKSVM，且在Yeast基因函式資料集合中測試。

2007年，Brinker[15]介紹以成對比較式學習方法對於多標籤場景的自動辨認。

在2004年，Boutell[16]等人應用多標籤自動辨認學習技術到場景自動辨認上，他們將多標籤自動辨認問題分割成多個獨立的二元自動辨認問題並且提供若干標籤準則來組合由這些二元辨認模組產生的結果。

在2007年，Qi[17]等人研習自動多標籤影像註解問題，他們將輸入樣本轉換到高維度向量將輸入與輸出的相關性編碼，並提出一個最大邊界類型演算法來學習這些經過轉換的資料。Zhang與其共同研究者們在最近這幾年透過將傳統單標籤自動辨認技術修改適用到多標籤自動辨認上做出相當多的貢獻。

在2007年[18]提出一個以K最近鄰居法為基礎，以機率計算的方式求得是否屬於某類別的機率，以此來判斷物件的類別的MLKNN自動辨認方法。

在2009年[20]，分別提出以貝氏辨認模組為基礎加上特徵選取方法的MLNB自動辨認方法；與以RBF類神經網路為基礎，透過歐氏距離對每一個類別進行K-means群聚訓練找出K個群聚中心，建立第一層網路節點，並利用解決最小平方法的方式來求得第一層到第二層的權重值，以形成的類神經網路來進行多標籤自動辨認的MLRBF方法[19]。

然而，上述習知方法必需花費大量之執行分類工作的訓練與測試時間，同時也增加了所需成本。

因此，有必要提供一創新且具進步性的以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，以解決上述問題。

上述之參考先前技術文獻羅列如下：

1.　R. E. Schapire,Y. Singer,"Boostexter: a boosting-based system for text categorization." Machine Learning 39(2/3) pp 135-168,2000.

2.　Y. Freund,R. E. Schapire," A decision-theoretic generalization of on-line learning and an application to boosting." Journal of Computer and System Sciences 55(1),pp 119-139,1997.

3.　A. McCallum,"Multi-label text classification with a mixture model trained by EM." In: Working notes of the AAAI’99 workshop on text learning,1999.

4.　N. Ueda,K. Saito," Parametric mixturemodels formulti-label text." Advances in neural information processing systems,vol 15. MIT Press,Cambridge,MA,pp 721-728,2003.

5.　S. Gao,W. Wu,C-H. Lee,T-S. Chua,"A MFoM learning approach to robust multiclass multi-label text categorization." 21st international conference on machine learning,pp 329-336,2004.

6.　F. D. Comit,R. Gilleron,M. Tommasi,"Learning multi-label alternating decision tree from texts and data." Lecture notes in computer science,vol 2734. Springer,Berlin,pp 35-49,2003.

7.　R. E. Schapire,Y. Singer,"Improved boosting algorithms using confidence-rated predictions." 11th annual conference on computational learning theory,pp 80-91,1998.

8.　M. L. Zhang,Z-H. Zhou,"Multilabel neural networks with applications to functional genomics and text categorization." IEEE Transactions on Knowledge and Data Engineering 18(10):1338-1351,2006.

9.　N. Ghamrawi,A. McCallum,"Collective multi-label classification." 14th ACM international conference on information and knowledge management,pp 195-200,2005.

10. S. Zhu,X. Ji,W. Xu,Y. Gong,"Multi-labelled classification using maximum entropy method." 28th annual international ACM SIGIR conference on research and development in information retrieval,pp 274-281,2005.

11. S. Godbole,S. Sarawagi,"Discriminative methods formulti-labeled classification." Lecture notes in artificial intelligence,vol 3056,pp 22-30,2004.

12. H. Kazawa,T. Izumitani,H. Taira,E. Maeda,"Maximal margin labeling for multi-topic text categorization." Advances in neural information processing systems,vol 17. MIT Press,Cambridge,MA pp 649-656,2005.

13. A. Clare,R. D. King,"Knowledge discovery in multi-label phenotype data." Lecture notes in computer science,vol 2168. Springer,Berlin pp 42-53,2001.

14. A. Elisseeff,J. Weston,"A kernel method for multi-labelled classification." Advances in neural information processing systems,vol 14. MIT Press,Cambridge,MA,pp 681-687,2002.

15. K. Brinker,E. Hllermeier,"Case-based multilabel ranking." 20th international joint conference on artificial intelligence,pp 702-707,2007.

16. M. R. Boutell,J. Luo,X. Shen,C. M. Brown,"Learning multi-label scene classification." Pattern Recognition 37(9):1757-1771,2004.

17. G-J. Qi,X-S. Hua,Y. Rui,J. Tang,T. Mei,H-J Zhang,"Correlative multi-label video annotation." 15th ACM international conference on multimedia,pp 17-26,2007.

18. M. L. Zhang and Z. H. Zhou. ML-kNN: A lazy learning approach to multi-label learning. Pattern Recognition,40(7),pp 2038-2048,2007.

19. M. L. Zhang. ML-RBF: RBF neural networks for multi-label learning. Neural Processing Letters,29(2),pp 61-74,2009.

20. J. M. P. n. M. L. Zhang and V. Robles. Feature selection for multi-label naive bayes classification. Information Sciences,179(19),pp 3218-3229,2009.

本發明係提供一種以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，包括以下步驟：(a)依據每一訓練文件資料之每一特徵對於每一類別的歸屬度及每一特徵對於每一訓練文件資料的歸屬度，計算每一訓練文件資料對於每一類別的模糊相似度；(b)依據該等模糊相似度對所有訓練文件資料進行分群；(c)依據一未知文件資料及該等模糊相似度，利用K最近鄰居法計算該未知文件資料之K個最近鄰居的類別分佈；及(d)依據K個最近鄰居的類別分佈判斷該未知文件資料屬於之類別。

本發明之方法係透過模糊相似度的運算，在進行最近K鄰居法進行分類時優先選擇較相似的分群，利用這些較相似分群中的資料來進行最近K鄰居法的訓練與測試，如此可以提升分類方法的執行效能。

並且，本發明以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，可以減少執行分類工作的訓練與測試時間，故可以節省大量的時間成本。

在資訊檢索的過程中，必須對資訊本身進行分析，建立索引(indexing)以幫助檢索之進行。索引主要在表示文件的內容，同時給予索引詞彙一定的權重，以反應該詞彙在文件內容識別的重要性與價值。在目前大部分使用向量空間模型的文件資訊檢索系統中，屬性大多代表某一個詞彙或概念。而屬性值則為該詞彙或概念在文件中的統計資訊。既然一篇文件是由許多的辭彙所組成，因此可以找出文件中有意義的索引詞彙(即關鍵詞彙)組合成文件向量，而此文件向量即代表在向量空間模型中的一篇文件。

在一個文件集中，每個索引詞彙即代表空間中的一個維度，而每個維度上的值則代表該文件在這個維度上的重要程度，這個值稱為索引詞彙的「顯著值(Term Significances)」或是「權重」，可以由計算文件詞彙統計資料而得到，例如索引詞彙出現的頻率(Term Frequency,TF)。採用向量代表各個文件，不僅可以方便表現出各個文件間的關係，且容易計算彼此間的相似度，意義相近的文件，所用的辭彙可能有多處相同，若表示成空間中的向量時，這些向量亦較接近。

在向量空間模型中，既然是用一組詞彙來代表一篇文件，那麼辭彙的選擇就格外重要。辭彙的權重可用來區別哪些詞彙在文件當中較具代表性，可能為文件的關鍵詞彙。一般常用的詞彙權重計算方式有詞彙頻率(Term Frequency)、文件頻率(Document Frequency)。詞彙頻率為某一詞彙在一篇文件中出現的次數，其值越高代表該詞彙在文件中越重要；文件頻率為某一詞彙在文件集的所有文件中出現的文件次數，其值越低代表該詞彙越能將某文件與其他文件區別，越具代表性。

在文件資料的特徵表示中，由於使用文字出現在文件中的次數來計算特徵值，因此與一般的資料有很大的差別。例如，在資料中某個特徵值為0與特徵值1的差異跟2與3的差異雖然都是1，但是很明顯的在一個文件中沒出現(特徵值0)與有出現一次(特徵值1)的差異遠大於出現2次與3次的差異。因此，在測量一個文件與某個類別的相似度時，也必須採用特殊的方法，而模糊相似度測量方法在衡量文件資料時具有不錯的效果。

圖1顯示本發明以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法之流程圖。參考步驟S11，依據每一訓練文件資料之每一特徵對於每一類別的歸屬度及每一特徵對於每一訓練文件資料的歸屬度，計算每一訓練文件資料對於每一類別的模糊相似度。

配合參考圖2及3，在本實施例中，假設訓練文件資料為d ₁ ,d ₂ ,...,d _n ，n為訓練文件資料數，這些訓練文件資料分佈在p個類別(在圖3中具有c ₁ ~c ₃ 共3個類別)中，每個訓練文件資料可以屬於一個或多個類別。每個訓練文件資料由m個特徵t ₁ ,t ₂ ,...,t _m 來表示，其中每個特徵代表一個文字w。令dt (t _i ,c _j )與dd (t _i ,c _j )分別代表特徵t _i 在類別c _j 中的分怖比例，其可表示為：

dt (t _i ,c _j )代表所有特徵出現在屬於類別c _j 的訓練文件資料之出現頻率佔此特徵t _i 出現頻率總次數的比例；dd (t _i ,c _j )代表所有特徵出現在屬於類別c _j 的訓練文件資料數佔此類別c _j 的總訓練文件資料數之比例。

其中，y _jv 的值代表第v個訓練文件資料是否屬於類別c _j ，屬於的話值為1否則為0；sgn(w _iv )的值在w _iv >0時為1，否則為0。

利用dt (t _i ,c _j )與dd (t _i ,c _j )兩個分佈情形，可以用來衡量一個持徵t _i 對於類別c _j 的歸屬度μ_R (t _i ,c _j )，其算式可表示為：

在本實施例中，此歸屬度μ_R (t _i ,c _j )為利用正規化後的dt (t _i ,c _j )與dd (t _i ,c _j )相乘求得。而對於一筆訓練文件資料d =<w ₁ ,w ₂ ,...,w _m >而言，此訓練文件資料對於類別c _j 的相似度Sim (d ,c _j )可表示為：

μ_d (t _i )代表特徵t _i 對於訓練文件資料的歸屬度，其可表示為：

其中，與⊕分別為模糊運算子，其運算法則定義如下：

最後，定義訓練文件資料屬於類別c _j 的模糊相似度(d )為：

則(d )為計算訓練文件資料對於類別c _j 的模糊相似度之值。

以圖2所示之訓練文件資料為d ₁ ,d ₂ ,...,d _n 為例，訓練文件資料d₁ 對於類別c ₁ ~c ₃ 的模糊相似度分別為(d ₁ )、(d ₁ )、(d ₁ )；訓練文件資料d₂ 對於類別c ₁ ~c ₃ 的模糊相似度分別為(d ₂ )、(d ₂ )、(d ₂ )；...；訓練文件資料d_n 對於類別c ₁ ~c ₃ 的模糊相似度分別為(d _n )、(d _n )、(d _n )(如圖3所示)。

參考步驟S12，依據該等模糊相似度對所有訓練文件資料進行分群。在取得所有訓練文件資料對於各個類別的模糊相似度之後，利用該等模糊相似度對所有訓練文件資料進行分群。此分群的工作有兩種效果，不但可以縮減在尋找相近的文件時的搜尋範圍提高搜尋速度，還可以達到事先過濾的效果，增加準確度。利用模糊相似度進行分群，每一分群代表對於某一類別具有相當程度相似度的文件資料集合。

參考步驟S13，依據一未知文件資料及該等模糊相似度，利用K最近鄰居法計算該未知文件資料之K個最近鄰居的類別分佈。

當所有訓練文件資料分群完畢之後，透過尋找K個(例如2個)最近鄰居，可以得到所有訓練文件資料事前的統計機率，在尋找K最近鄰居時，由於事先對訓練文件資料進行過分群，因此只需要尋找相似度高於一門檻值的分群資料即可，如此可以提高搜尋的效能。

參考步驟S14，依據K個最近鄰居的類別分佈判斷該未知文件資料屬於之類別。當一個未知文件資料需要進行自動辨認時，找到其K個最近鄰居，經過統計得到這K個鄰居中屬於各個類別的個數{n ₁ ,n ₂ ,...,n _p }，則此未知文件資料是否屬於類別c _j 可以下式來判斷：

其中，P代表機率；H _j 為0或1，代表一訓練文件資料屬於類別c _j 的事件；E為K最近鄰居中屬於類別c _j 有E個的事件；R為一隨機函數，隨機輸出0或1。由於

其中，b可以為0或1，因此式(7)可以改寫為：

而P (H _j =b )與P (E =n _j |H _j =b )可以依據該等訓練文件資料中計算得到。上述K最近鄰居法為本技術領域所熟知之技術，在此不再加以敘述。

在進行訓練階段中得到所有訓練文件資料事前的統計機率後，一個多標籤文件的自動辨認模組已經產生。當一未知文件資料需要自動辨認時，首先對該未知文件資料擷取特徵並計算模糊相似度(透過式(1)至式(6))，再以與其模糊相似度最接近的分群找到最近K個鄰居，透過K個鄰居中的類別分佈，可以讓自動辨認模組給予自動辨認的判斷，得到此未知文件資料所應該屬於的類別。

舉例說明，假設有c ₁ ~c ₃ 共3個類別，依據式(1)至式(6)所計算之相應訓練文件資料d₁ ~d₃ 之模糊相似度如圖4所示。若設定之相似度門檻值α=0.5，則訓練文件資料d₁ 之模糊相似度(d ₁ )、(d ₁ )、(d ₁ )相對類別c ₁ 之y 值分別為[1 0 1]、訓練文件資料d₂ 之模糊相似度(d ₂ )、(d ₂ )、(d ₂ )相對類別c ₂ 之y 值分別為[1 1 0]、訓練文件資料d₃ 之模糊相似度(d ₃ )、(d ₃ )、(d ₃ )相對類別c ₃ 之y 值分別為[0 1 1]，y 值為1，表示該文件資料屬於該相對類別之分群，y 值為0則否。如圖5結果所示，相對類別c ₁ 之分群G_c1 包含訓練文件資料d₁ 及d₂ ，相對類別c ₂ 之分群G_c2 包含訓練文件資料d₂ 及d₃ ，相對類別c ₃ 之分群G_c3 包含訓練文件資料d₁ 及d₃ 。

假設對於該未知文件資料及其包含之特徵而言，依據式(1)至式(6)及該相似度門檻值α所計算之相應該未知文件資料d之模糊相似度(d )、(d )、(d )，其相對類別c ₁ ~c ₃ 之y 值為[1 0 1]，由於相對類別c ₂ 之y 值為0，因此僅需考慮分群G_c1 及G_c3 ，而不需考慮分群G_c2 。由於本發明之方法事先對訓練文件資料d₁ ~d₃ 進行過分群，因此只需要尋找模糊相似度高於該門檻值α的分群資料即可。如此，可簡單且快速地判斷出該未知文件資料d應該屬於的類別。

上述實施例僅為說明本發明之原理及其功效，並非限制本發明，因此習於此技術之人士對上述實施例進行修改及變化仍不脫本發明之精神。本發明之權利範圍應如後述之申請專利範圍所列。

(無元件符號說明)

圖1顯示本發明以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法之流程圖；

圖2顯示本發明一實施例中訓練文件資料與其所含特徵之示意圖；

圖3顯示本發明一實施例中相應訓練文件資料之模糊相似度與其所屬類別之示意圖；

圖4顯示本發明相應3個訓練文件資料之模糊相似度與其所屬類別之示意圖；

圖5顯示本發明相應3個訓練文件資料之模糊相似度經一相似度門檻值處理後與其所屬類別之示意圖；及

圖6顯示本發明3個訓練文件資料之分群結果示意圖。

(無元件符號說明)

Claims

一種以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，包括以下步驟：(a)　依據每一訓練文件資料之每一特徵對於每一類別的歸屬度及每一特徵對於每一訓練文件資料的歸屬度，計算每一訓練文件資料對於每一類別的模糊相似度；(b)　依據該等模糊相似度對所有訓練文件資料進行分群；(c)　依據一未知文件資料及該等模糊相似度，利用K最近鄰居法計算該未知文件資料之K個最近鄰居的類別分佈；及(d)　依據K個最近鄰居的類別分佈判斷該未知文件資料屬於之類別。
如請求項1之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中在步驟(a)中，該等訓練文件資料為d ₁ ,d ₂ ,...,d _n ，n為訓練文件資料數，該等文件分佈在p個類別中，每個文件係屬於一個或多個類別，每個文件係由m個特徵t ₁ ,t ₂ ,...,t _m 來表示，其中每個特徵代表一個文字w，令dt (t _i ,c _j )與dd (t _i ,c _j )分別代表特徵t _i 在類別c _j 中的分怖比例，其表示為：其中，v=1~n，dt (t _i ,c _j )代表所有特徵出現在屬於類別c _j 的訓練文件資料之出現頻率佔此特徵t _i 出現頻率總次數的比例；dd (t _i ,c _j )代表所有特徵出現在屬於類別c _j 的訓練文件資料數佔此類別c _j 的總訓練文件資料數之比例；y _jv 的值代表第v個訓練文件資料是否屬於類別c _j ，若第v個訓練文件資料屬於類別c _j ，y _jv 的值為1，否則為0；sgn(w _iv )的值在w _iv >0時為1，否則為0。
如請求項2之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中每一特徵對於每一類別的歸屬度μ_R (t _i ,c _j )表示為：其中，max表示取最大值。
如請求項3之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中對於一筆訓練文件資料d =<w ₁ ,w ₂ ,...,w _m >，此筆訓練文件資料對於類別c _j 的相似度Sim (d ,c _j )表示為：其中，μ_d (t _i )代表特徵t _i 對於訓練文件資料d的歸屬度，其表示為，與⊕分別為模糊運算子，其運算法則定義為：x y =x ×y ,x ⊕y =x +y -x ×y 。
如請求項4之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中每一訓練文件資料對於每一類別的模糊相似度(d )定義為：
如請求項1之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中在步驟(b)中，每一分群代表對於某一類別具有相當程度相似度的文件集合。
如請求項1之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中在步驟(c)中另包括一依據一相似度門檻值尋找出所需分群資料之步驟。
如請求項1之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中在步驟(c)中係依據K個鄰居中屬於各個類別的個數{n ₁ ,n ₂ ,...,n _p }，依據y _j 之值判斷該未知文件資料是否屬於類別c _j ，p為類別數目，其中，P代表機率；H _j 為0或1，代表一訓練文件資料屬於類別c _j 的事件；E為K最近鄰居中屬於類別c _j 有E個的事件；R為一隨機函數，隨機輸出0或1。
如請求項8之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中P表示為：其中，b為0或1。
如請求項9之以模糊相似度與K最近鄰居法為基礎之多標籤文件分類方法，其中y _j 之值表示為：