TWI828928B - 高擴展性、多標籤的文本分類方法和裝置 - Google Patents
高擴展性、多標籤的文本分類方法和裝置 Download PDFInfo
- Publication number
- TWI828928B TWI828928B TW109123565A TW109123565A TWI828928B TW I828928 B TWI828928 B TW I828928B TW 109123565 A TW109123565 A TW 109123565A TW 109123565 A TW109123565 A TW 109123565A TW I828928 B TWI828928 B TW I828928B
- Authority
- TW
- Taiwan
- Prior art keywords
- topic
- word
- text
- classification template
- template
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000010276 construction Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 11
- 235000019580 granularity Nutrition 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 10
- 238000003915 air pollution Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000003912 environmental pollution Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 1
- 208000029039 cyanide poisoning Diseases 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- NNFCIKHAZHQZJG-UHFFFAOYSA-N potassium cyanide Chemical compound [K+].N#[C-] NNFCIKHAZHQZJG-UHFFFAOYSA-N 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明提供一種高擴展性的多標籤的文本分類方法和裝置,包括多標籤文本分類的方法和裝置,以及多標籤文本分類方法和裝置可使用的構建話題分類範本的方法和裝置。多標籤文本分類的方法包括:對接收到的待分類的文本進行預處理;計算經過所述預處理後的文本中每個詞語的詞向量與文本中心語義向量之間的第一相似度;計算經過所述預處理後的文本中每個詞語的詞向量和一個話題分類範本中每個話題的中心語義向量之間的第二相似度;根據上述第一相似度和第二相似度計算所述文本在所述話題分類範本中每個話題下的得分;根據所述得分過濾不具代表性的話題標籤;以及根據上述過濾結果輸出最終的話題標籤以及每個標籤的得分。
Description
本發明涉及互聯網文本領域,特別涉及一種互聯網文本分類和標注的方法。
隨著網路時代和大資料時代的到來,人們逐漸離不開網路並且每天都會在網上進行多種操作,例如在中國,大部分城市內的付費已經基本上是使用手機支付來完成的。而人們每天在網路上留下的痕跡使得網路上的資訊變得特別的有價值,大資料時代就是針對這些資訊進行分析來獲取有價值的資訊或情報。在網路發展到如今的時代,網路上充斥著大量的文本資訊,這些文本信息量龐大,如需要將這些大量的資訊進行資料分析,則首先需要對這些資訊進行有效分類。對這些網路資訊進行分類則需對網路上這些非結構化的文本字元轉化為結構化的內容、話題、或語義標籤,例如,將非結構化的文本字元提取出最重要的資訊,並將這重要資訊轉化成標籤的形式就是對這些資訊進行標注,這樣才能更好地被利用起來進行後續的資料分析與挖掘。而網路上的大量文本資訊並不是嚴格遵守語法和平時用語習慣的,因此需要使用一些特殊分類的方法才能把網路文本資訊進行分類並抓取出關鍵字詞來對資訊進行標注。
目前市場上已存在很多不同種類的互聯網文本資訊分類方式,這些分類技術主要分為兩種方式,一種是傳統的基於關鍵詞匹配和關鍵詞的組
合邏輯的文本分類方法,另一種是傳統的基於機器學習(含深度學習)的文本分類方法。而這兩種方式都各有缺點。
對於基於關鍵詞匹配和關鍵詞的組合邏輯的分類方法,首先,這種方法需要人工提前設置關鍵詞和關鍵詞的組合邏輯,不僅效率低而且人工成本高,並且無法分析文本中非預先設定關鍵詞的內容以及無法處理文本中的多義詞,例如“蘋果”一詞,可以指一種水果也可以指的是全球知名的蘋果公司,用此類組合邏輯是無法分析“蘋果”指的到底是哪一個,而只能根據預先設定的解釋來判斷此單詞;其次,這種方法還無法解讀複雜的語言表述結構以及複雜的分類,例如此方法可以處理單一的分類如“破產”,卻無法處理“行業政策”這種更加細化的分類。
而對於基於機器學習的文本分類方法,此方法更是需要依賴大量的人工標注資料來訓練,成本非常高並且擴展性差,一旦訓練資料不足,則會造成分類器無法對未知數據進行判斷;同時,如上面的組合邏輯一樣,機器學習的分類方法對於概念寬泛的分類如“財經”、“體育”等判斷準確性很高,但對於概念細微的文本局部內容低層級分類例如“氰化鉀中毒”等判斷準確率低,並且由於機器學習是需要大量訓練的,因此其擴展性較差,每當出現一個新的分類都需要重新訓練模型,因此導致此類分類方法更新慢並且成本高。
因此,市場上需要一種新的分類方法,此分類方法要求能降低分類成本,並且能夠根據文本去分析詞彙,而且具有高準確率細化分類的高擴展性。
為了解決上述技術問題,本發明提供了一種文本分類的方法和系統。除了能最大限度降低人工標注的要求,還可以支持用戶任意增添新詞到詞向量模型、增添/修改話題、話題和詞語的對應關係及話題層級關係,以及定義話題組合規則來實現主題的擴展技術方案。
一種多標籤文本分類的方法,所述方法包括:對接收到的待分類的文本進行預處理;計算經過所述預處理後的文本中每個詞語的詞向量與文本中心語義向量之間的第一相似度;計算經過所述預處理後的文本中每個詞語的詞向量和一個話題分類範本中每個話題的中心語義向量之間的第二相似度;根據上述第一相似度和第二相似度計算所述文本在所述話題分類範本中每個話題下的得分;根據所述得分過濾不具代表性的話題標籤;以及根據上述過濾結果輸出最終的話題標籤以及每個標籤的得分。
所述預處理包括:對所述文本中無用的欄位進行過濾,並對所述過濾後的文本進行分詞處理,以及過濾所述分詞處理結果中沒有語義的資訊。
所述得分由所述第一相似度與所述第二相似度相乘得到。
所述話題分類範本具有自訂話題組合規則。
根據所述自訂話題組合規則,獲取所述文本符合的組合話題並計算其得分。
所述過濾對所述得分進行再計算,以得到輸入文本的話題分佈向量,並對所述話題分佈向量進行篩選來實現過濾。
所述再計算為將所述預處理後的文本中每個話題的得分歸一化,將所述歸一化得分由高至低重新排序,並算出所述歸一化得分的轉折度,過濾掉大於預定閥值的轉折度與其之後的話題。
一種多標籤文本分類的裝置,所述裝置包括:預處理模組,用於對接收到的待分類的文本進行預處理;第一計算模組,用於計算經過所述預處理後的文本中每個詞語的詞向量與文本中心語義向量的第一相似度;第二計算模組,用於計算經過所述預處理後的文本所述文本中每個詞語的詞向量詞語義向量和一個話題分類範本中每個話題類別話題的中心語義向量之間的第二相似度;第三計算模組,用於根據上述第一相似度和第二相似度,計算所述文本在所述話題分類範本中每一個話題下的得分;過濾模組,根據所述得分過濾不具代表性的話題標籤;以及輸出模組,用於根據上述過濾結果,輸出最終的話題標籤以及每個標籤的得分。
所述預處理模組用於對所述文本中無用的欄位進行過濾,並對所述過濾後的文本進行分詞處理,以及再過濾所述分詞處理結果中沒有語義的資訊。
所述第三計算模組用於將所述第一相似度與所述第二相似度相乘得到所述得分。
所述第三計算模組具有第一處理單元,所述第一處理單元用於處理自訂話題組合規則。
所述第一處理單元用於獲取所述文本符合的組合話題並計算其得分。
所述過濾模組用於對所述得分進行再計算,以得到輸入文本的話題分佈向量,並對所述話題分佈向量進行篩選來實現過濾。
所述再計算為將所述預處理後的文本中每個話題的得分歸一化,將所述歸一化得分由高至低重新排序,並算出所述歸一化得分的轉折度,過濾掉大於預定閥值的轉折度與其之後的話題。
一種話題分類範本的構建方法,所述方法包括:構建基本話題分類範本,所述基本話題分類範本構建流程包括:獲取大量無標注文本進行詞向量訓練;對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;以及獲取有標注話題的資料,以構建定制化話題分類範本,並添加到所述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本。
所述聚類為進行基於詞向量相似性的聚類以得到不同的詞語集合,根據所述詞語集合進一步進行層級化聚類,從而得到候選話題及其層級關係。
使用者可以在所述基本話題分類範本以及所述定制化話題分類範本的基礎上,通過圖形化使用者介面檢視話題分類範本,並且按需求進行自訂。
構建所述定制化話題分類範本:對一篇話題已標注文章集合進行預處理及詞向量表示;計算所述文章中每個詞語在每篇文章中的權重;
收集等量的、不屬於當前話題的文章集合,並計算所述每個詞語對於判斷當前話題的貢獻指標;計算所述每個詞語的綜合權重;對所述每個詞語進行基於詞向量相似性的聚類,從而得到不同的詞語集合;計算所述每個詞語集合中所有詞語的平均綜合權重;以及輸出幾個數值最大的所述詞語集合作為當前話題的詞語集合,並添加到所述基本話題分類範本。
根據所述層級關係可針對不同的需求輸出不同顆粒度的話題標籤。
一種話題分類範本的構建裝置,所述裝置包括:第一構建模組,用於構建基本話題分類範本,所述第一構建模組包括:獲取模組,用於獲取大量無標注文本進行詞向量訓練;聚類別模組,用於對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;標注模組,用於對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;以及第二構建模組,用於獲取有標注話題的資料,以構建定制化話題分類範本,並添加到所述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本。
所述聚類別模組用於進行基於詞向量相似性的聚類以得到不同的詞語集合,根據所述詞語集合進一步進行層級化聚類,從而得到候選話題及其層級關係。
還可包括第一自訂模組,其可使使用者在所述基本話題分類範本以及所述定制化話題分類範本的基礎上,通過圖形化使用者介面檢視話題分類範本,並且按需求進行自訂。
所述第二構建模組用於構建所述定制化話題分類範本:對一篇話題已標注文章集合進行預處理及詞向量表示;計算所述文章中每個詞語在每篇文章中的權重;收集等量的、不屬於當前話題的文章集合,並計算所述每個詞語對於判斷當前話題的貢獻指標;計算所述每個詞語的綜合權重;對所述每個詞語進行基於詞向量相似性的聚類,從而得到不同的詞語集合;計算所述每個詞語集合中所有詞語的平均綜合權重;以及輸出幾個數值最大的所述詞語集合作為當前話題的詞語集合,並添加到所述基本話題分類範本。
還可包括第一輸出模組,其根據所述層級關係可針對不同的需求輸出不同顆粒度的話題標籤。
101、102、103、104、105、106、107:步驟
201、202、203、204、205:步驟
2041、2042、2043、2044、2045、2046、2047:步驟
以下將結合附圖以具體實施例的方式闡述本發明,其中:第一圖是本發明的對文本進行話題分類的演算法流程的示意圖;第二圖是本發明的話題分類範本的構建流程的示意圖;第三圖是本發明的構建話題分類範本步驟204的流程示意圖。
為使本發明的目的、技術方案和優點更加清楚,下面將結合附圖對本發明實施方式作進一步的詳細描述。
本發明分為兩大部分,第一部分為對文本進行話題分類,第二部分為可用在第一部分中的話題分類範本的構建。第一圖為本發明對文本進行話題分類的演算法流程圖,其中演算法流程又分為7個步驟,即步驟101至步驟107。第二圖為本發明話題分類範本的構建流程,分為基本話題分類範本的構建以及定制化話題分類範本的構建,總共為5個步驟,即步驟201至步驟205。
步驟101為:對待分類的文本進行預處理,這些文本預處理方法包括:1.應用垃圾廣告檢測技術自動過濾文本中垃圾、廣告或者無用的欄位;2.採用現有分詞工具對所述文本進行分詞處理,可選地,利用自訂字典進行關鍵詞匹配,重新組合因為分詞錯誤而被拆開的詞或短語,以保證自訂關鍵詞不會因為分詞的問題而被遺漏;3.過濾分詞結果中沒有明顯語義資訊且對文本分類無太大貢獻的部分,包括停用詞、標點符號和數位等。上述預處理結束後,將會得到處理後留下的有意義的詞語。
步驟102為:根據一個預先訓練好的詞語義向量模型,計算經過步驟101預處理後的文本中每個詞語的詞語義向量(即詞向量)與文本中心語義向量的相似度,此相似度為第一相似度。在互聯網領域,經常要比較詞或者文本之間的相關性,為了做此類比較,我們需要把詞或文本表示成電腦適合處理的方式,最合適的方式之一便是向量。這裡,每個所述詞向量代表每個詞本身的向量,所述文本中心語義向量代表當前輸入文本的語義的向量。因此這裡的詞向量、語義向量以及下述其他向量均是用來將語言中的詞或文本進行數學化的一種方式。第一相似度計算公式為:
其中,p代表文本中詞語的個數。
公式(1)在此實施方式中使用的是多種演算法中的一種,其也可選用其它的已知向量相似度計算方法。
步驟103為:與步驟102類似的,根據一個預先定義好的話題分類範本(此話題分類範本可用已知範本也可用本發明下述第二部分的範本,使用下述第二部分的本發明的話題分類範本可得到更加精確的結果),計算輸入文本中每個詞語的詞向量和分類範本中每個話題的中心語義向量即“話題中心向量”之間的相似度,即第二相似度,計算公式為(3):
其中Rij代表詞語i和話題j的語義相似度,即第二相似度;Wi為詞語i的詞向量;Tj為話題j的話題中心向量,其計算方法為把分類範本中所有屬於話題j的詞語的詞向量Wjt取平均值,即求出所有屬於話題j的詞向量的和,然後除以話題j中的詞語的個數,計算公式為(4):
其中,qj代表話題j中詞語的個數。
公式(3)也可選用其它已知向量相似度計算方法。
步驟104為:根據上述步驟102和步驟103所得到的第一相似度與第二相似度,計算輸入文本在話題分類範本中每一個話題下的得分。根據本發明
的一個實施例,所述得分可以由Si乘以Rij的乘積得到,即第一相似度乘以第二相似度,計算公式為:D j =Σ i S i *R ij …(5)
Dj代表輸入文本在話題j的得分,得分越高代表文本內容和該話題越相關。
當然,本發明不限於上述相乘的計算方法,也可以採用其他方法根據第一相似度和第二相似度來計算話題得分。
接下來需要判斷當前話題分類範本是否有自訂話題組合規則,即可以由使用者自由決定話題組合的規則,使用者可決定包含以及不包含哪些話題。如果有所述自訂話題組合規則,則進行步驟105,再進行步驟106;如果沒有則直接進行步驟106。
步驟105為:在步驟104結束後,立刻檢查當前模型是否有自訂話題組合規則,如果有,則根據所述自訂話題組合規則,利用規則解析引擎來組合不同話題以構成新的話題,即組合話題,並建立此組合話題的話題標籤,同時找出輸入文本所符合的話題標籤並計算其得分。在話題分類範本中,每個話題都有對應的標籤以方便進行運算,例如查找、統計和計算等等,如若不需要節省電腦資源和時間,也可以不需要使用標籤,此實施例為了節省資源和時間使用了標籤。話題分類範本本身就帶有一一對應的話題和標籤,當使用者自訂新的話題時,所述範本會生成新的標籤。自訂話題組合規則定義的格式如下:
其中i代表不同的話題,而數位k代表的是子條件,是基本的操作邏輯,包括布林邏輯中的與或非,是規則裡邊的子條件,而Li則是滿足該規則之後輸出的新的組合話題的話題標籤,其得分Di與上述步驟104中所提到的第一得分意義相同,同樣是輸入文本在話題i的得分,得分越高代表文本內容和該話
題越相關,但演算法有所不同,可以是基於輸入文本在規則所涉及的各個話題下的得分計算,包括取其平均、總和、最大值等,下面將詳細舉例說明。
話題的組合可由不同的條件達成,例如在一個話題分類範本裡,使用者可自訂:在滿分為1分的前提下,當輸入的文本在話題“空氣品質”中得分高於0.3並且在話題“環境污染”中得分高於0.5時,即組合成一個新的組合話題“空氣污染”。以平均得分方法為例,假設輸入文本在“空氣品質”以及“環境污染”話題下的得分分別為0.4和0.6,即所述文本符合“空氣污染”的話題規則,得分為(0.4+0.6)/2=0.5。這裡也可以使用其他合適的計算方法,採用平均數計算僅為最簡單的計算方法之一。這裡運用公式(6)為“L 1:”,L1為“空氣污染”,為子條件“輸入文本在話題‘空氣品質’中得分高於0.3”,為邏輯“AND”,“AND”為左右兩邊條件必須同時滿足,為子條件“輸入文本在在話題‘環境污染’中得分高於0.5”,當和同時滿足時,便符合條件並可組合成組合話題L1,此例為“空氣污染”。
這些組合話題是通過人為定義的話題組合規則得到的。例如在上述實施例中,我們定義“空氣污染”這個話題是由兩個子條件組成的:一個是文本屬於話題“空氣品質”,另外一個是文本屬於話題“環境污染”。如果這兩個子條件同時成立,那麼這個文本就會被打上“空氣污染”這個標籤。得分0.5是子條件話題的平均分數,也就是這個組合話題“空氣污染”的平均得分,對應眾多得分Di中的一個。而D是一個向量的集合,涉及所有步驟104中所算出的Di,即所有組合話題和其他需要輸出的單獨話題的得分,具體將在下述步驟106中解釋,例如之前的“空氣品質”和“環境污染”也可以包含在Di中,這取決於範本輸出的配置是否包含這兩個話題,在每個話題分類範本中,可以定義每個話題作為最終輸出,或是只作為中間結果標籤來輔助組合話題的創建。以上定義並非限定性的,本領域技術人員完全可以使用其他定義方法來獲得話題組合規則。
步驟106為:根據上述步驟最終得到的話題標籤,過濾其中不具代表性的話題標籤。首先把輸入文本在步驟104和105針對每個話題的得分進行歸一化,以得到輸入文本的話題分佈向量。這裡的演算法依然有不止一種演算法,這裡為了闡述方便使用了其中一種較為簡單的計算方法:D=[D 1 ,D 2 ,..,D n ]/(D 1+…+D n )…(7)
這裡的公式代表指把每一個分數Di除以(D 1+…+D n )。D為經過歸一化處理的輸入文本的所有話題分佈向量,n代表一共有n個數量的不同的話題。
其次,將D中的各話題按得分由高至低進行排序,然後計算話題得分的轉折度,利用轉折度來統計出最後要輸出的話題,此處可使用不同的計算方式來計算轉折度。為了簡單,此實施例中所使用的是計算斜率的公式,計算公式如下:
其中Slope(i)是第i個位置的轉折度,而為經過得分排序後話題分佈向量第i個話題的得分。如果Slope(i)大於預定的閥值,即意味著在第i個位置所代表的話題的得分比其在前一個位置所代表的話題的得分有大幅度的下降,則過濾在第i個位置和之後的話題標籤並直接到步驟107。如果Slope(i)出現永遠是1的情況,例如D的值分別為:16,8,4,2,1…,那Slope(i)在這個情況下永遠是1,這裡雖然實際上D減小的值是逐漸減緩的,這種情況下會保留所有的話題。如果Slope(i)最終全部小於設定值的情況下(即沒有觸發大於閥值這個條件),無論Slope(i)是否為不變的值或者其中的變化有大有小,都將會由預定義的配置保留前N個話題。這裡N為使用者自訂的數字。
步驟107為:輸出最終結果。根據步驟103中所使用話題分類範本的話題層級關係以及上述步驟106最終得出的結果,輸出最終的話題標籤以及每個標籤的得分,所述層級關係是在話題分類範本中預設的不同話題間的層級關
係,具體可參考下述本發明的第二部分的話題分類範本中的層級關係。經過此步驟,即可輸出最終的話題標籤及其得分。
接下來進行本發明中所涉及到的一種全新話題分類範本構建流程的解釋。此流程總共分為5個步驟,其中包括基本話題分類範本的構建、以及在基本話題分類範本的基礎上構建定制化話題範本。下面首先介紹步驟201-203,其涉及基本話題分類範本的構建,即整個範本的基礎框架:
步驟201為:主要進行詞語義向量的訓練。首先獲取大量的、覆蓋範圍廣泛、覆蓋不同話題內容的文本,包括紙媒、社交媒體以及自媒體等不同媒體和不同平臺。具體獲取方法可包括資料爬蟲、資料API(Application Programming Interface)服務,或直接通過資料提供商獲取。接下來採用任何已知分詞工具對每篇所述文本進行分詞。可選地,利用自訂字典進行關鍵字匹配,重新組合因為分詞錯誤而被拆開的詞或短語,以保證自訂關鍵字不會因為分詞的問題而被遺漏。然後採用任何通用的現有技術詞嵌入技術,例如Word2vec、GloVe以及fastText等方法訓練詞向量模型,以獲取各詞語的詞向量。
步驟202為:對上述步驟201中的詞向量模型中的詞語進行聚類,以挖掘候選話題及其層級關係。首先針對步驟201訓練好的詞向量模型中的詞語,進行基於詞向量相似性的聚類,從而得到不同的詞語集合。此步驟可採用任何已知文本聚類演算法實現,包括k-means以及高斯混合模型等,聚類的數量可以根據應用調整。其次,計算每個詞語集合的中心向量(即集合裡所有詞語的詞向量的平均值)作為其特徵,進一步對詞語集合進行層級化聚類,從而得到候選話題及其層級關係。此步驟也可採用任何已知文本層級化聚類演算法實現,例如聚合式階層分群法及分裂式階層分群法。所述的全部已知演算法皆可採用為本領域公知的演算法。
步驟203為:對步驟202得到的每個候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本。較佳地,可以由使用者通過圖形介面按應用需求進行標注。由於只需要在話題的級別進行標注,這樣話題標注的數量比訓練一般話題分類器所需的文本的數量少很多(一般話題分類器每個話題往往需要標注至少數百篇文章),因此可以節省大量的人工標注時間。也可以利用現有統計學習方法、例如卡方檢驗選取每個話題中最具代表性的關鍵詞作為該話題的標籤。例如,現有候選話題:“電腦”、“電子”、“通信和資訊技術”,將所有話題進行層次化聚類之後,這些候選話題會聚成同一類,從而得到其上層標注話題“IT互聯網”,而“IT互聯網”這一層級下包含候選話題“電腦”、“電子”、“通信和資訊技術”。“IT互聯網”和其他同一層的話題經過聚類之後,可以得到更高一層的標注話題例如“科技”。這種層級分類可針對不同的需求輸出不同顆粒度的話題標籤,資料的顆粒度是用於表示某資料集的組成的最小單元,例如,上述的“IT互聯網”相較於其下層級“電腦”細化程度低,因此顆粒度為大。再例如針對一篇5G技術的文章,我們可以輸出不同顆粒度的標籤。我們既可以輸出最上層的標籤“科技”,也可以打上最細顆粒的標籤“通信”。而且這個輸出顆粒度可以根據不同應用或需求而靈活配置。
步驟204:下面介紹定制化話題範本的構建。傳統話題分類範本無法有效判斷文本中不同詞與文本的關聯度,因此有時會輸出與當前文本關係不大的標籤,此步驟使得上述步驟201-203所構建的基本話題分類範本能夠更加有效地區分文本中不同詞與當前文本的關聯度,以使範本更加精確,達到普通範本無法達到的技術效果。步驟204為定制化話題分類範本的構建:獲取有標注話題的資料,構建定制化話題分類範本。對於已有的傳統話題分類方法使用的標注資料(文章集合),本發明進一步提出一種自動獲取每個話題下的詞語集合以構建定制化話題分類範本的方法,如圖3所示,具體包括以下流程步驟:
2041.根據一個話題已標注文章集合,首先對文章進行預處理及詞向量表示。具體地,使用任何已知分詞工具,對每篇文章進行分詞;查詢預先訓練好的詞語義向量模型,以獲取文章中各個詞語的詞向量;將已標注文章集合中所有文章的所述詞語的並集,標記為V。
2042.利用任何已知關鍵字重要性計算方法,例如TF-IDF以及TextRank演算法等,計算並獲取V中每個詞語在每篇文章中的權重,然後對權重進行歸一化處理,作為其在當前話題文章中的重要性分數。如果一個詞語出現在多篇文章中,則計算其在不同文章中的歸一化後的權重的總和,作為其重要性分數。
2043.收集等量的、不屬於當前話題的文章集合,以計算V中每個詞語對於判斷當前話題的貢獻指標。通過一些適合用於特徵選取的數學指標例如卡方統計值、資訊增益值等,直接或間接對比V中每個詞語和“屬於當前話題”與“不屬於當前話題”這兩類的相關度,然後選取出V中最有助於判斷“屬於當前話題”這個類的詞,並對結果進行歸一化處理。通過收集等量的、不屬於當前話題的文章集合,可以獲取當前文章中區分度最高的詞,即和話題最相關的詞。例如,輸入的文本是與5G通信相關的文章,其中的“通信”、“網路”等詞則為區分度高的詞語,其他詞“消息”、“造成”、“最大”等等詞彙可能也出現在不屬於當前話題的文章,所以區分度比較低因此重要性就比較低。
2044.計算V中每個詞語的綜合權重。計算方法可以是但不限於為每個詞語的重要性分數(上述2043)及特徵選擇指標(上述2044)算出其總和、平均、或加權平均。
2045.對V中的詞語進行基於詞向量相似性的聚類,從而得到不同的詞語集合。可採用任何已知文本聚類演算法實現,包括k-means以及高斯混合模型等,聚類的數量可以根據應用調整。
2046.基於以上步驟2044及2045的結果,計算每個詞語集合中所有詞語的平均綜合權重,從而對詞語集合進行排序,以反映其對於判別當前話題的重要性。
2047.輸出前M個數值最大的詞語集合作為當前話題的詞語集合,添加到上述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本。M的數值可根據應用需求設定。對於有多於一個話題的已標注文章集,可分別對每個話題重複上述(a)-(g)的操作,直至完成構建話題分類範本。至此,定制化話題範本已構建完成並可直接使用。
步驟205為可選的:使用者可以在步驟201-203構建的基本話題分類範本以及204構建的定制化話題分類範本的基礎上,進一步通過圖形化使用者介面檢視話題分類範本,並且按應用需求進行自訂,包括:自訂以及修改話題的標籤、層級結構以及每個話題和詞語的對應關係,以定制化話題分類範本;在各個話題下自由添加新詞語,如果所添加的詞語不被預訓練的詞向量模型所覆蓋,使用者可在詞向量模型中選擇和該新詞語義最相近的詞,以其詞向量作為所述新詞的詞向量,以擴充詞語義模型以及話題分類範本所能覆蓋的詞語;自訂話題分類的組合規則,其形式和用法如上述步驟105。通過支援使用者自由添加新詞語、話題、話題和詞語的對應關係以及話題層級關係和話題組合規則,定制化話題分類範本以對新輸入文本進行多標籤分類,本發明得以實現高擴展性的話題分類方法和系統。
101、102、103、104、105、106、107:步驟
Claims (24)
- 一種多標籤文本分類的方法,所述方法包括:對接收到的待分類的文本進行預處理;計算經過所述預處理後的文本中每個詞語的詞向量與文本中心語義向量之間的第一相似度;計算經過所述預處理後的文本中每個詞語的詞向量和一個話題分類範本中每個話題的中心語義向量之間的第二相似度;其中,所述話題分類範本之構建方法包括構建基本話題分類範本,以及獲取有標注話題的資料,以構建定制化話題分類範本,並添加到所述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本;所述基本話題分類範本構建流程包括:獲取大量無標注文本進行詞向量訓練;對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;根據上述第一相似度和第二相似度計算所述文本在所述話題分類範本中每個話題下的得分;根據所述得分過濾不具代表性的話題標籤;以及根據上述過濾結果輸出最終的話題標籤以及每個標籤的得分。
- 如請求項1所述的方法,其特徵在於,所述預處理包括:對所述文本中無用的欄位進行過濾,並對所述過濾後的文本進行分詞處理,以及過濾所述分詞處理結果中沒有語義的資訊。
- 如請求項1所述的方法,其特徵在於,所述得分由所述第一相似度與所述第二相似度相乘得到。
- 如請求項1所述的方法,其特徵在於,所述話題分類範本具有自訂話題組合規則。
- 如請求項4所述的方法,其特徵在於,根據所述自訂話題組合規則,獲取所述文本符合的組合話題並計算其得分。
- 如請求項1所述的方法,其特徵在於,所述過濾對所述得分進行再計算,以得到輸入文本的話題分佈向量,並對所述話題分佈向量進行篩選來實現過濾。
- 如請求項6所述的方法,其特徵在於,所述再計算為將所述預處理後的文本中每個話題的得分歸一化,將所述歸一化得分由高至低重新排序,並算出所述歸一化得分的轉折度,過濾掉大於預定閥值的轉折度與其之後的話題。
- 一種多標籤文本分類的裝置,所述裝置包括:預處理模組,用於對接收到的待分類的文本進行預處理;第一計算模組,用於計算經過所述預處理後的文本中每個詞語的詞向量與文本中心語義向量的第一相似度;第二計算模組,用於計算經過所述預處理後的文本所述文本中每個詞語的詞向量詞語義向量和一個話題分類範本中每個話題類別話題的中心語義向量之間的第二相似度,其中所述話題分類範本包含基本話題分類範本,且其中進一步包含第一構建模組,用於構建所述基本話題分類範本,所述第一構建模組包括:獲取模組,用於獲取大量無標注文本進行詞向量訓練;聚類別模組,用於對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;及 標注模組,用於對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;第三計算模組,用於根據上述第一相似度和第二相似度,計算所述文本在所述話題分類範本中每一個話題下的得分;過濾模組,根據所述得分過濾不具代表性的話題標籤;以及輸出模組,用於根據上述過濾結果,輸出最終的話題標籤以及每個標籤的得分。
- 如請求項8所述的裝置,其特徵在於,所述預處理模組用於對所述文本中無用的欄位進行過濾,並對所述過濾後的文本進行分詞處理,以及再過濾所述分詞處理結果中沒有語義的資訊。
- 如請求項8所述的裝置,其特徵在於,所述第三計算模組用於將所述第一相似度與所述第二相似度相乘得到所述得分。
- 如請求項8所述的裝置,其特徵在於,所述第三計算模組具有第一處理單元,所述第一處理單元用於處理自訂話題組合規則。
- 如請求項11所述的裝置,其特徵在於,所述第一處理單元用於獲取所述文本符合的組合話題並計算其得分。
- 如請求項8所述的裝置,其特徵在於,所述過濾模組用於對所述得分進行再計算,以得到輸入文本的話題分佈向量,並對所述話題分佈向量進行篩選來實現過濾。
- 如請求項13所述的裝置,其特徵在於,所述再計算為將所述預處理後的文本中每個話題的得分歸一化,將所述歸一化得分由高至低重新排序,並算出所述歸一化得分的轉折度,過濾掉大於預定閥值的轉折度與其之後的話題。
- 一種話題分類範本的構建方法,所述方法包括: 構建基本話題分類範本,所述基本話題分類範本構建流程包括:獲取大量無標注文本進行詞向量訓練;對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;以及獲取有標注話題的資料,以構建定制化話題分類範本,並添加到所述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本。
- 如請求項15所述的話題分類範本的構建方法,其特徵在於,所述聚類為進行基於詞向量相似性的聚類以得到不同的詞語集合,根據所述詞語集合進一步進行層級化聚類,從而得到候選話題及其層級關係。
- 如請求項15所述的話題分類範本的構建方法,其特徵在於,使用者可以在所述基本話題分類範本以及所述定制化話題分類範本的基礎上,通過圖形化使用者介面檢視話題分類範本,並且按需求進行自訂。
- 如請求項15所述的話題分類範本的構建方法,其特徵在於,構建所述定制化話題分類範本:對一篇話題已標注文章集合進行預處理及詞向量表示;計算所述文章中每個詞語在每篇文章中的權重;收集等量的、不屬於當前話題的文章集合,並計算所述每個詞語對於判斷當前話題的貢獻指標;計算所述每個詞語的綜合權重;對所述每個詞語進行基於詞向量相似性的聚類,從而得到不同的詞語集合;計算所述每個詞語集合中所有詞語的平均綜合權重;以及輸出幾個數值最大的所述詞語集合作為當前話題的詞語集合,並添加到所述基本話題分類範本。
- 如請求項15所述的話題分類範本的構建方法,其特徵在於,根據所述層級關係可針對不同的需求輸出不同顆粒度的話題標籤。
- 一種話題分類範本的構建裝置,所述裝置包括:第一構建模組,用於構建基本話題分類範本,所述第一構建模組包括:獲取模組,用於獲取大量無標注文本進行詞向量訓練;聚類別模組,用於對經過所述詞向量訓練的詞語進行聚類,以構建候選話題及其層級關係;標注模組,用於對所述候選話題及其層級關係進行話題標注,從而得到話題分類的基本範本;以及第二構建模組,用於獲取有標注話題的資料,以構建定制化話題分類範本,並添加到所述基本話題分類範本或現有話題分類範本或用以構建新話題分類範本。
- 如請求項20所述的話題分類範本的構建裝置,其特徵在於,所述聚類別模組用於進行基於詞向量相似性的聚類以得到不同的詞語集合,根據所述詞語集合進一步進行層級化聚類,從而得到候選話題及其層級關係。
- 如請求項20所述的話題分類範本的構建裝置,其特徵在於,還可包括第一自訂模組,其可使使用者在所述基本話題分類範本以及所述定制化話題分類範本的基礎上,通過圖形化使用者介面檢視話題分類範本,並且按需求進行自訂。
- 如請求項20所述的話題分類範本的構建裝置,其特徵在於,所述第二構建模組用於構建所述定制化話題分類範本:對一篇話題已標注文章集合進行預處理及詞向量表示;計算所述文章中每個詞語在每篇文章中的權重; 收集等量的、不屬於當前話題的文章集合,並計算所述每個詞語對於判斷當前話題的貢獻指標;計算所述每個詞語的綜合權重;對所述每個詞語進行基於詞向量相似性的聚類,從而得到不同的詞語集合;計算所述每個詞語集合中所有詞語的平均綜合權重;以及輸出幾個數值最大的所述詞語集合作為當前話題的詞語集合,並添加到所述基本話題分類範本。
- 如請求項20所述的話題分類範本的構建裝置,其特徵在於,還可包括第一輸出模組,其根據所述層級關係可針對不同的需求輸出不同顆粒度的話題標籤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910857101.3A CN112579730A (zh) | 2019-09-11 | 2019-09-11 | 高扩展性、多标签的文本分类方法和装置 |
CN201910857101.3 | 2019-09-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202111569A TW202111569A (zh) | 2021-03-16 |
TWI828928B true TWI828928B (zh) | 2024-01-11 |
Family
ID=75109924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW109123565A TWI828928B (zh) | 2019-09-11 | 2020-07-13 | 高擴展性、多標籤的文本分類方法和裝置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112579730A (zh) |
TW (1) | TWI828928B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443850B (zh) * | 2022-04-06 | 2022-07-22 | 杭州费尔斯通科技有限公司 | 基于语义相似模型的标签生成方法、系统、装置和介质 |
CN115269855B (zh) * | 2022-09-29 | 2023-01-03 | 北京邮电大学 | 基于预训练编码器的论文细粒度化多标签标注方法及装置 |
CN115964658B (zh) * | 2022-10-11 | 2023-10-20 | 北京睿企信息科技有限公司 | 一种基于聚类的分类标签更新方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
US20180159804A1 (en) * | 2015-05-29 | 2018-06-07 | Microsoft Technology Licensing, Llc | Systems and methods for providing a comment-centered news reader |
TW201917602A (zh) * | 2017-10-27 | 2019-05-01 | 香港商阿里巴巴集團服務有限公司 | 文本語義編碼方法及裝置 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468713B (zh) * | 2015-11-19 | 2018-07-17 | 西安交通大学 | 一种多模型融合的短文本分类方法 |
CN108959431B (zh) * | 2018-06-11 | 2022-07-05 | 中国科学院上海高等研究院 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
CN109145089B (zh) * | 2018-08-30 | 2021-07-30 | 中国科学院遥感与数字地球研究所 | 一种基于自然语言处理的层次化专题属性抽取方法 |
CN109783818B (zh) * | 2019-01-17 | 2023-04-07 | 上海三零卫士信息安全有限公司 | 一种企业行业分类方法 |
CN110119786B (zh) * | 2019-05-20 | 2021-11-16 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
-
2019
- 2019-09-11 CN CN201910857101.3A patent/CN112579730A/zh active Pending
-
2020
- 2020-07-13 TW TW109123565A patent/TWI828928B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180159804A1 (en) * | 2015-05-29 | 2018-06-07 | Microsoft Technology Licensing, Llc | Systems and methods for providing a comment-centered news reader |
CN106446179A (zh) * | 2016-09-28 | 2017-02-22 | 东软集团股份有限公司 | 热点话题的生成方法及装置 |
CN107491541A (zh) * | 2017-08-24 | 2017-12-19 | 北京丁牛科技有限公司 | 文本分类方法及装置 |
TW201917602A (zh) * | 2017-10-27 | 2019-05-01 | 香港商阿里巴巴集團服務有限公司 | 文本語義編碼方法及裝置 |
CN107992477A (zh) * | 2017-11-30 | 2018-05-04 | 北京神州泰岳软件股份有限公司 | 文本主题确定方法、装置及电子设备 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202111569A (zh) | 2021-03-16 |
CN112579730A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
TWI828928B (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN106326212B (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
CN102789498B (zh) | 基于集成学习的中文评论文本的情感分类方法与系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
WO2022134794A1 (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN112580332B (zh) | 一种基于标签分层延深建模的企业画像方法 | |
CN113360582A (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN116451114A (zh) | 基于企业多源实体特征信息的物联网企业分类系统及方法 | |
CN109359299A (zh) | 一种基于商品数据的物联网设备能力本体自构建方法 | |
CN114840766A (zh) | 一种用户画像构建方法、系统、设备及存储介质 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
WO2023207566A1 (zh) | 语音房质量评估方法及其装置、设备、介质、产品 | |
WO2023093116A1 (zh) | 企业的产业链节点确定方法、装置、终端及存储介质 | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
CN106991171A (zh) | 基于智慧校园信息服务平台的话题发现方法 | |
CN115238709A (zh) | 一种政策公告网络评论情感分析方法、系统及设备 |