TWI807661B - 從文本中識別行業專有名詞的方法和裝置 - Google Patents

從文本中識別行業專有名詞的方法和裝置 Download PDF

Info

Publication number
TWI807661B
TWI807661B TW111107453A TW111107453A TWI807661B TW I807661 B TWI807661 B TW I807661B TW 111107453 A TW111107453 A TW 111107453A TW 111107453 A TW111107453 A TW 111107453A TW I807661 B TWI807661 B TW I807661B
Authority
TW
Taiwan
Prior art keywords
word
text
folder
candidate
words
Prior art date
Application number
TW111107453A
Other languages
English (en)
Other versions
TW202238414A (zh
Inventor
張家豪
吳亦振
許達果
Original Assignee
香港商慧科訊業有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商慧科訊業有限公司 filed Critical 香港商慧科訊業有限公司
Publication of TW202238414A publication Critical patent/TW202238414A/zh
Application granted granted Critical
Publication of TWI807661B publication Critical patent/TWI807661B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

本公開涉及從文本中識別行業專有名詞的方法和裝置。該方法包括:對文本進行斷詞(11),獲得經斷詞的文本;從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾(12),所述種子詞是已知的行業專有名詞;從文本中抽取詞夾所夾的詞語作為候選詞(13);根據候選詞對應的詞夾計算候選詞分數(14);根據候選詞分數從候選詞中選取行業專有名詞(15)。本公開的技術方案利用已知的行業專有名詞作為種子詞從文本中抽取詞夾,進而利用詞夾從文本中抽取行業專有名詞的候選詞並且計算候選詞分數,使得能夠根據候選詞分數高效且準確地從候選詞中選取行業專有名詞。

Description

從文本中識別行業專有名詞的方法和裝置
本公開涉及自然語言處理領域,尤其涉及一種從文本中識別行業專有名詞的方法和裝置。
現代通信和傳播技術的快速發展大大提高了資訊傳播的速度和廣度。隨著互聯網技術的發展,信息量呈爆炸式的增長。從浩如煙海的資訊中獲取需要的資訊變得越來越困難。為了方便資訊檢索,現有技術中通過識別資訊中的關鍵字為資訊建立主題標籤,從而可以判斷資訊所涉及的主題。例如,當一篇文章中出現“煤炭”、“石油”以及“液化石油”等能源行業的專有名詞時,可以將該文章與“能源”主題相關聯。相關行業中使用的專有名詞可以從中國產業資訊網上提供的行業字典中獲得。另外,淘寶關鍵字詞典也是行業專有名詞的一個重要來源。
然而,由於每天世界上都會產生大量新的資訊,這些新的資訊中可能包括各行業的新的專有名詞,因此需要隨時補充完善現有的行業專有名詞詞庫,以便有效地為各種資訊建立主題標籤。
現有技術中使用新詞凝固度演算法識別文章中的行業專有名詞。然而,凝固度演算法對計算資源的要求較高,對於海量資訊的處理效率較低。另外,現有技術的技術方案對於行業專有名詞的識別的準確度較低,不能達到令人滿意的識別效果。
因此,需要提供一種能夠準確且高效地從文本資訊中識別行業專有名詞的方法。
有鑑於此,本公開提出了一種從文本中識別行業專有名詞的方法和裝置,其能夠解決以上技術問題。
本公開的技術方案如下 一種從文本中識別行業專有名詞的方法,包括: 對文本進行斷詞,獲得經斷詞的文本; 從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾,所述種子詞是已知的行業專有名詞; 從文本中抽取詞夾所夾的詞語作為候選詞; 根據候選詞對應的詞夾計算候選詞分數; 根據候選詞分數從候選詞中選取行業專有名詞。
根據優選的實施例,所述方法還包括:根據標點符號將文本拆分成子句,所述對文本進行斷詞包括:對子句進行斷詞,獲得經斷詞的子句。
根據優選的實施例,所述方法還包括: 識別文本中的新詞; 將識別出的新詞加入斷詞詞庫,用於對文本進行斷詞。
根據優選的實施例,所述根據候選詞對應的詞夾計算候選詞分數包括: 根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾分數S; 根據詞夾分數S計算候選詞分數。
根據優選的實施例,詞夾所夾的候選詞與種子詞的相似程度由詞夾組內分數S 1表示: 其中,N s表示在文本中種子詞出現在詞夾中的次數,N t表示詞夾在文本中出現的總次數, 詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S 2表示: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。
根據優選的實施例,詞夾分數S = S 1+ S 2
根據優選的實施例,候選詞分數等於候選詞所對應的每組詞夾的詞夾分數之和。
根據優選的實施例,所述方法還包括:將選取的行業專有名詞作為種子詞反覆運算執行所述方法。
一種從文本中識別行業專有名詞的裝置,包括: 斷詞單元,用於對文本進行斷詞,獲得經斷詞的文本; 詞夾抽取單元,用於從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾,所述種子詞是已知的行業專有名詞; 候選詞抽取單元,用於從文本中抽取詞夾所夾的詞語作為候選詞; 計算單元,用於根據候選詞對應的詞夾計算候選詞分數; 選取單元,用於根據候選詞分數從候選詞中選取行業專有名詞。
根據優選的實施例,所述裝置還包括:文本拆分單元,用於根據標點符號將文本拆分成子句,所述斷詞單元被配置為對子句進行斷詞,獲得經斷詞的子句。
根據優選的實施例,所述裝置還包括: 新詞識別單元,用於識別文本中的新詞,並且將識別出的新詞加入斷詞詞庫,用於對文本進行斷詞。
根據優選的實施例,所述計算單元包括: 詞夾分數計算單元,用於根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾分數S; 候選詞分數計算單元,用於根據詞夾分數S計算候選詞分數。
根據優選的實施例,詞夾所夾的候選詞與種子詞的相似程度由詞夾組內分數S 1表示: 其中,N s表示在文本中種子詞出現在詞夾中的次數,N t表示詞夾在文本中出現的總次數, 詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S 2表示: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。
根據優選的實施例,詞夾分數S = S 1+ S 2
根據優選的實施例,候選詞分數等於候選詞所對應的每組詞夾的詞夾分數之和。
一種從文本中識別不同類型的行業專有名詞的系統,包括: 至少兩個以上描述的裝置,分別用於識別不同類型的行業專有名詞; 與每個所述裝置對應的種子詞庫和詞庫更新單元;以及 所述至少兩個裝置共用的分詞詞庫, 其中每個所述詞庫更新單元被配置為利用其所對應的裝置識別出的專有名詞更新對應的種子詞庫和所述分詞詞庫。
一種電腦可讀存儲介質,其上存儲有電腦程式,其特徵在於,所述電腦程式被處理器執行時執行以上描述的方法。
由以上技術方案可以看出,本公開的技術方案利用已知的行業專有名詞作為種子詞從文本中抽取詞夾,進而利用詞夾從文本中抽取行業專有名詞的候選詞並且計算候選詞分數,使得能夠根據候選詞分數高效且準確地從候選詞中選取行業專有名詞。本公開的技術方案可以應用于來自任意來源的中文文本或中英文參雜文本,在保持高準確度和召回率的情況下,快速地識別文本中的任意特定行業的專有名詞。
為了使本公開的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本公開進行詳細描述。
圖1為根據本公開的實施例的從文本中識別行業專有名詞的方法的流程圖。如圖1所示,該方法包括以下步驟: 步驟11:對文本(例如文章中的文本)進行斷詞,獲得經斷詞的文本; 步驟12:從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾,種子詞是已知的行業專有名詞; 步驟13:從文本中抽取詞夾所夾的詞語作為候選詞; 步驟14:根據候選詞對應的詞夾計算候選詞分數; 步驟15:根據候選詞分數從候選詞中選取行業專有名詞。
在步驟11中,對輸入的文本進行斷詞處理,從而獲得經斷詞的文本。輸入的文本可以是任意來源的文本。典型地,輸入文本可以是來自互聯網上的文章。斷詞處理可以採用本領域常用的斷詞套件(例如Jieba)執行,將文本中構成句子的連續的詞語切斷,形成以單獨的詞語構成的文本。
優選地,根據本實施例的方法在步驟11之前還可以包括步驟101:根據標點符號將文本拆分成子句。由於文本中的標點符號將文本中相互連接的詞語分隔開,因此可以根據標點符號將文本拆分成多個子句。子句是文本中由連續詞語組成的最小單位。拆分子句的步驟特別適合於處理篇幅較大的文本。將文本拆分成子句後可以對每個子句加上頭尾識別符號以便識別子句。例如,當輸入的文本為:“蘋果支持安卓手機以舊換新,頂配P30 Pro最高抵1700元”時,可以將文本拆分由逗號分開的兩個子句,並且分別在兩個子句的首位加上頭尾識別符號。對以上文本執行文本拆分步驟後的輸出為:["^蘋果支持安卓手機以舊換新$","^頂配P30 Pro最高抵1700元$"],其中符號“^”表示子句開頭,符號“$”表示子句結尾。對以上子句進行斷詞處理可以將子句中連續的詞語切斷,形成以單獨的詞語構成的子句。對於以上子句,斷詞處理的輸出分別為:["^","蘋果","支持","安卓","手機","以舊換新","$"]和["^","頂配","P30","Pro","最高","抵","1700","元","$"]。
優選地,根據本實施例的方法在步驟11之前還可以包括步驟102:識別文本中的新詞;將識別出的新詞加入斷詞詞庫,用於對文本進行斷詞。當種子詞是新詞時,識別出的新詞會包括種子詞。可選地,可以將種子詞直接加入斷詞詞庫。由於對文本的斷詞處理需要使用斷詞詞庫,因此及時更新斷詞詞庫有助於提高斷詞處理的準確性。事實上,如果文本中包括斷詞詞庫中未包括的新詞,將會導致斷詞結果中出現錯誤,從而影響專有名詞識別結果的準確性。因此,在進行斷詞處理前,可以首先對本文執行新詞識別處理,以便識別出文本中的新詞。新詞識別處理可以採用人工輸入、按規則抽取或者新詞識別演算法(例如凝固度演算法)的方式獲取文本中出現的新詞。隨後,將識別出的新詞加入斷詞詞庫,用於後續的斷詞處理。使用更新的斷詞詞庫可以確保斷詞結果的準確性,進而提高專有名詞識別結果的準確性。另外,還可以將種子詞加入斷詞詞庫,從而避免斷詞步驟錯誤地將種子詞斷開。可選地,還可以將用戶自訂的詞(例如存儲在自訂字典中)添加到斷詞詞庫。
在步驟12中,從經斷詞的文本中抽取種子詞前後相鄰(即左右相鄰)的詞語作為詞夾。種子詞可以是預先存儲在種子詞詞庫中的已知的行業專有名詞。根據本實施例的方法可以根據已知的行業專有名詞(即種子詞),從文本中識別出新的行業專有名詞。詞夾指種子詞前後相鄰的兩個詞語。由於前後兩個詞語將種子詞夾在中間,因此形象地將這兩個詞語稱為詞夾。一組詞夾中包括兩個詞語,在種子詞前的詞語稱為前詞夾,在種子詞後的詞語稱為後詞夾。需要理解的是,以上介紹的子句的頭尾識別符號也可以作為前詞夾或後詞夾。例如,當種子詞出現在子句的句首時,子句的頭識別字和種子詞後面的詞語後構成一組詞夾;當種子詞出現在子句的句尾時,種子詞前面的詞語和子句的尾識別字構成一組詞夾。例如,當經斷句的文本包括經斷句的子句["^","蘋果","支持","安卓","手機","以舊換新","$"]和["^","安卓","廠商","要","罵娘","了","$"],且種子詞為“安卓”時,從文本中可以抽取出兩組詞夾:["支援","手機"]和["^","廠商"]。
在步驟13中,從文本中抽取詞夾所夾的詞語作為候選詞。在文本中,通常同一個詞夾之間不僅包括種子詞,還有可能包括其他詞語。例如,以詞夾["^","廠商"]為例,當文本中包括子句["^安卓廠商要罵娘了$"]和["^華為廠商通道配置回執$"]時,詞夾["^","廠商"]中不僅出現了種子詞“安卓”,而且還出現了詞語“華為”。因此“安卓”和“華為”可以作為行業專有名詞的候選詞。
在步驟14中,根據候選詞對應的詞夾計算候選詞分數。候選詞分數可以作為該候選詞是行業專有名詞的可能性的量化表示。候選詞分數越高,該候選詞是行業專有名詞的可能性越高。候選詞所對應的詞夾在文本中的使用情況可以反映候選詞是行業專有名詞的可能性,因此可以根據候選詞所對應的詞夾在文本中的使用情況計算候選詞分數。在本實施例中,還可以定義詞夾分數,用於表示候選詞對應的詞夾在文本中的使用情況。詞夾分數通過詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率來計算。因此,在步驟14可以包括步驟141:根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾分數S;以及步驟142:根據詞夾分數計算候選詞分數。詞夾所夾的候選詞與種子詞的相似程度可以由詞夾組內分數S 1表示: 其中,N s表示在文本中種子詞出現在詞夾中的次數,N t表示詞夾在文本中出現的總次數。詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S 2表示: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。詞夾分數S可以定義為詞夾組內分數S 1與詞夾組間分數S 2之和: 候選詞分數可以定義為候選詞所對應的每組詞夾的詞夾分數之和。因此,可以通過計算每個候選詞所對應的一組或多組詞夾的分數並將其累加,得到每個候選詞分數。
在步驟15中,根據候選詞分數從候選詞中選取行業專有名詞。由於候選詞分數反映了候選詞是行業專有名詞的可能性,因此可以按照候選詞分數對候選詞進行降冪排序,選取分數最高的n個候選詞作為行業專有名詞,或者選取候選詞分數高於預定閾值的候選詞作為行業專有名詞。在對候選詞按照分數進行排序前,可以首先利用斷詞工具對候選詞進行斷詞並分析候選詞詞性,將特定詞性(例如助詞或代名詞)的候選詞刪除,從而可以縮小候選詞的範圍,提高候選詞的識別效率。例如,當候選詞為“的症狀”時,不能直接得到這個候選詞的詞性。在這種情況下,需要對“的症狀”進行切詞,得到“的”和“症狀”。由於“的”的詞性為介詞,所以候選詞“的症狀”不屬於候選詞。步驟15中選取的行業專有名詞可以補充到斷詞詞庫和種子詞詞庫中,用於反覆運算執行根據本實施例的方法。
具體地,在步驟15之後,可以將步驟15中選取的行業專有名詞作為新的種子詞反覆運算地執行以上描述的方法,以便從文本中獲得更多的行業專有名詞。
以下將結合示例文本,具體介紹從該示例文本中識別行業專有名詞的過程。為了簡化的目的,在此使用的示例文本是從網路的文章中截取的數段描述新冠肺炎的文字:“有人發燒怎麼辦?有人咳嗽怎麼辦?有人倦怠怎麼辦?沒人買怎麼辦?出現喉嚨痛症狀。出現感冒症狀。出現倦怠症狀。出現身體不適症狀。從喉嚨痛難以推斷。”。
在步驟101中,依據標點符號將文本拆分成子句。對每個子句加入首符號“^”和尾符號“$”,並且以逗號分隔開。步驟101獲得了以下九個子句: [^有人發燒怎麼辦$,^有人咳嗽怎麼辦$,^有人倦怠怎麼辦$,^沒人買怎麼辦$,^出現喉嚨痛症狀$,^出現感冒症狀$,^出現倦怠症狀$,^出現身體不適症狀$,^從喉嚨痛難以推斷$]在步驟102中,對文本進行新詞識別處理,從文本中發現新詞:“有人”、“沒人”、“難以推斷”和“怎麼辦”,然後將新詞加入斷詞詞庫(例如Jieba)。另外, 種子詞“發燒”和“喉嚨痛”也被加入到斷詞詞庫中,以便提高後續斷詞處理的準確性。
在步驟11中,利用斷詞詞庫對文本中的子句進行斷詞處理,獲得經斷詞的子句。子句中的詞語通過逗號斷開。文本中的經斷詞的九個子句為:[[^,有人,發燒,怎麼辦,$],[^,有人,咳嗽,怎麼辦,$],[^,有人,倦怠,怎麼辦,$],[^,沒人,買,怎麼辦,$],[^,出現,喉嚨痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨痛,難以推斷,$]]。
由於步驟102(新詞識別)是可選的,若不執行步驟102,則斷詞詞庫不包括新詞“有人”、“沒人”、“難以推斷”、“喉嚨痛”和“怎麼辦”。在這種情況下,對子句進行斷詞處理的輸出結果如下:[[^,有,人,發燒,怎麼,辦,$],[^,有,人,咳嗽,怎麼,辦,$],[^,有,人,倦怠,怎麼,辦,$],[^,沒,人,買,怎麼,辦,$],[^,出現,喉嚨,痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨,痛,難以,推斷,$]]。
在步驟12中,從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾。以下列出含有種子詞的子句: [[^,有人,發燒,怎麼辦,$] ,[^,出現,喉嚨痛,症狀,$],[^,從,喉嚨痛,難以推斷,$]]在以上子句中,對種子詞“發燒”和“喉嚨痛”前後相鄰的詞語(詞夾)添加了底線。從以上子句中抽取得到以下三組詞夾:[[有人, 怎麼辦],[ 出現, 症狀], [從, 難以推斷]]。若不執行步驟102,得到的詞夾為以下一組詞夾:[[人, 怎麼]]。
在步驟13中,從文本中抽取詞夾所夾的詞語作為候選詞。從文本的子句中可以找出以下包括詞夾的子句: [[^,有人,發燒,怎麼辦,$],[^,有人,咳嗽,怎麼辦,$],[^,有人,倦怠,怎麼辦,$] ,[^,出現,喉嚨痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨痛,難以推斷,$]] 利用以上三組詞夾從以上子句中可以分別獲得如下候選詞: A. 詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B. 詞夾[出現, 症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C. 詞夾[從, 難以推斷]:[喉嚨痛] 需要注意的是,以上抽取候選詞的過程中,將夾在詞夾 [出現, 症狀]中的兩個詞語“身體”和“不適”提取為候選詞“身體不適”。可見候選詞抽取步驟中,可以抽取詞夾中的一個或多個詞語。通過步驟13得到了如下候選詞(包括重複的候選詞): [發燒, 咳嗽, 倦怠, 喉嚨痛, 感冒, 倦怠, 身體不適, 喉嚨痛]。如果未執行步驟102(更新斷詞詞庫),則步驟13得到的候選詞為:[發燒, 咳嗽, 倦怠, 買],其中不包括候選詞[喉嚨痛, 感冒, 身體不適],且還抓取出錯誤的候選詞“買”。由此可見,步驟102的執行可以使後續步驟13獲得更多的候選詞並且增加候選詞準確度。
步驟14包括計算詞夾分數(步驟141)以及根據詞夾分數計算候選詞分數(步驟142)。詞夾分數S為詞夾組內分數S 1與詞夾組間分數S 2之和。 詞夾的組內分數S 1的計算公式如下: 其中,N s表示在文本中種子詞出現在詞夾中的次數,N t表示詞夾在文本中出現的總次數。示例文本中的三組詞夾以及所夾的候選詞如下: A. 詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B. 詞夾[出現,症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C. 詞夾[從,難以推斷]:[喉嚨痛] 對於詞夾[有人,怎麼辦],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現3次,即抽取出3個候選詞(計入重複的候選詞),因此N t= 3。代入詞夾的組內分數S 1的計算公式可知詞夾[有人,怎麼辦]的詞夾組內分數為:1 2⁄3 = 0.33。
對於詞夾[出現,症狀],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現4次,即抽取出4個候選詞,因此N t= 4。代入詞夾的組內分數S 1的計算公式可知詞夾[出現,症狀]的詞夾組內分數為:1 2⁄4 = 0.25。
對於詞夾[從,難以推斷],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現1次,即抽取出1個候選詞,因此N t= 1。代入詞夾的組內分數S 1的計算公式可知詞夾[從,難以推斷]的詞夾組內分數為:1 2⁄1=1。
詞夾的組間分數S 2的計算公式如下: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。
從以上描述的步驟13(詞夾抽取)中可知,示例文本中出現的詞夾為(計入重複的詞夾):[ [[有人,怎麼辦],[有人,怎麼辦],[有人,怎麼辦],[出現,症狀],[出現,症狀],[出現,症狀],[出現,症狀],[從,難以推斷]]。
對於詞夾[有人,怎麼辦],詞夾在示例文本中出現了3次數, F c = 3。前詞夾在示例文本中出現了3次,因此 F f = 3。後詞夾在示例文本中出現了3次,因此 F b =3。代入詞夾的組間分數S 2 的計算公式可知詞夾[有人,怎麼辦]的詞夾組間分數為:3⁄((3∙3) ) = 0.33。
對於詞夾[出現,症狀],詞夾在示例文本中出現了4次數, F c = 4。前詞夾在示例文本中出現了4次,因此 F f = 4。後詞夾在示例文本中出現了4次,因此 F b = 4。代入詞夾的組間分數S 2的計算公式可知詞夾[出現,症狀]的詞夾組間分數為:4⁄((4∙4) ) = 0.25。
對於詞夾[從,難以推斷],詞夾在示例文本中出現了1次數, F c = 1。前詞夾在示例文本中出現了1次,因此 F f =1。後詞夾在示例文本中出現了1次,因此 F b= 1。代入詞夾的組間分數S 2的計算公式可知詞夾[從,難以推斷]的詞夾組間分數為:1⁄((1∙1) )=1。
根據以上計算的各詞夾的詞夾組內分數和詞夾組間分數的結果,各詞夾的詞夾分數計算如下: 詞夾[有人,怎麼辦]的詞夾分數為: 0.33+0.33=0.66 詞夾[出現,症狀]的詞夾分數為: 0.25+0.25=0.5 詞夾[從,難以推斷]詞夾分數為: 1+1=2
候選詞分數為候選詞所對應的每組詞夾的詞夾分數之和。示例文本中的三組詞夾以及所夾的候選詞如下: A. 詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B. 詞夾[出現,症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C. 詞夾[從,難以推斷]:[喉嚨痛]
從以上列出的詞夾和相應的候選詞可知: 候選詞“咳嗽”對應的詞夾為[有人,怎麼辦],因此候選詞“咳嗽”的候選詞分數等於詞夾[有人,怎麼辦]的詞夾分數,即等於0.66。
候選詞“倦怠”對應的詞夾為[有人,怎麼辦]和[出現,症狀],因此候選詞“倦怠”的候選詞分數等於詞夾[有人,怎麼辦]和[出現,症狀]的詞夾分數之和,即等於0.66+0.5=1.16。
候選詞“感冒”對應的詞夾為[出現,症狀],因此候選詞“感冒”的候選詞分數等於詞夾[出現,症狀]的詞夾分數,即等於0.5。
候選詞“身體不適”對應的詞夾為[出現,症狀],因此候選詞“身體不適”的候選詞分數等於詞夾[出現,症狀]的詞夾分數,即等於0.5。
由於種子詞是已知行業專有名詞,因此可以不計算種子詞的候選詞分數。
在步驟15中,根據候選詞分數從候選詞中選取行業專有名詞。例如,可以選取候選詞分數高於預定閾值的候選詞作為行業專有名詞。下表按照候選詞分數降冪排列,列出了各候選詞。如果預定閾值設定為0.1,那麼候選詞“咳嗽”、“倦怠”、“感冒”和、“身體不適”將被選取為行業專有名詞。
候選詞 候選詞分數
倦怠 1.16
咳嗽 0.66
感冒 0.5
身體不適 0.5
以上是對本公開實施例所提供的方法進行的詳細描述,下面結合實施例對本公開實施例提供的裝置進行詳細描述。
圖2為根據本公開的實施例的從文本中識別行業專有名詞的裝置的結構圖。如圖2所示,該裝置3包括以下單元: 斷詞單元31,用於對文本(例如文章中的文本)進行斷詞,獲得經斷詞的文本; 詞夾抽取單元32,用於從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾,種子詞是已知的行業專有名詞; 候選詞抽取單元33,用於從文本中抽取詞夾所夾的詞語作為候選詞; 計算單元34,用於根據候選詞對應的詞夾計算候選詞分數; 選取單元35,用於根據候選詞分數從候選詞中選取行業專有名詞。
斷詞單元31可以對輸入的文本進行斷詞處理,從而獲得經斷詞的文本。輸入的文本可以是任意來源的文本。典型地,輸入文本可以是來自互聯網上的文章。斷詞處理可以採用本領域常用的斷詞套件(例如Jieba)執行,將文本中構成句子的連續的詞語切斷,形成以單獨的詞語構成的文本。
優選地,根據本實施例的裝置還可以包括文本拆分單元301。本拆分單元301可以根據標點符號將文本拆分成子句。由於文本中的標點符號將文本中相互連接的詞語分隔開,因此可以根據標點符號將文本拆分成多個子句。子句是文本中由連續詞語組成的最小單位。拆分子句的步驟特別適合於處理篇幅較大的文本。將文本拆分成子句後可以對每個子句加上頭尾識別符號以便識別子句。例如,當輸入的文本為:“蘋果支持安卓手機以舊換新,頂配P30 Pro最高抵1700元”時,可以將文本拆分由逗號分開的兩個子句,並且分別在兩個子句的首位加上頭尾識別符號。對以上文本執行文本拆分後的輸出為:["^蘋果支持安卓手機以舊換新$","^頂配P30 Pro最高抵1700元$"],其中符號“^”表示子句開頭,符號“$”表示子句結尾。對以上子句進行斷詞處理可以將子句中連續的詞語切斷,形成以單獨的詞語構成的子句。對於以上子句,斷詞處理的輸出分別為:["^","蘋果","支持","安卓","手機","以舊換新","$"]和["^","頂配","P30","Pro","最高","抵","1700","元","$"]。
優選地,根據本實施例的裝置還可以包括新詞識別單元302。新詞識別單元302可以識別文本中的新詞;並且將識別出的新詞加入斷詞詞庫,用於對文本進行斷詞。當種子詞是新詞時,識別出的新詞會包括種子詞。可選地,可以將種子詞直接加入斷詞詞庫。由於對文本的斷詞處理需要使用斷詞詞庫,因此及時更新斷詞詞庫有助於提高斷詞處理的準確性。事實上,如果文本中包括斷詞詞庫中未包括的新詞,將會導致斷詞結果中出現錯誤,從而影響專有名詞識別結果的準確性。因此,在進行斷詞處理前,可以首先對本文執行新詞識別處理,以便識別出文本中的新詞。新詞識別處理可以採用人工輸入、按規則抽取或者新詞識別演算法(例如凝固度演算法)的方式獲取文本中出現的新詞。隨後,將識別出的新詞加入斷詞詞庫,用於後續的斷詞處理。使用更新的斷詞詞庫可以確保斷詞結果的準確性,進而提高專有名詞識別結果的準確性。另外,還可以將種子詞加入斷詞詞庫,從而避免斷詞單元31錯誤地將種子詞斷開。可選地,還可以將用戶自訂的詞(例如存儲在自訂字典中)添加到斷詞詞庫。
詞夾抽取單元32可以從經斷詞的文本中抽取種子詞前後相鄰(即左右相鄰)的詞語作為詞夾。種子詞可以是預先存儲在種子詞詞庫中的已知的行業專有名詞。根據本實施例的裝置可以根據已知的行業專有名詞(即種子詞),從文本中識別出新的行業專有名詞。詞夾指種子詞前後相鄰的兩個詞語。由於前後兩個詞語將種子詞夾在中間,因此形象地將這兩個詞語稱為詞夾。一組詞夾中包括兩個詞語,在種子詞前的詞語稱為前詞夾,在種子詞後的詞語稱為後詞夾。需要理解的是,以上介紹的子句的頭尾識別符號也可以作為前詞夾或後詞夾。例如,當種子詞出現在子句的句首時,子句的頭識別字和種子詞後面的詞語後構成一組詞夾;當種子詞出現在子句的句尾時,種子詞前面的詞語和子句的尾識別字構成一組詞夾。例如,當經斷句的文本包括經斷句的子句["^","蘋果","支持","安卓","手機","以舊換新","$"]和["^","安卓","廠商","要","罵娘","了","$"],且種子詞為“安卓”時,從文本中可以抽取出兩組詞夾:["支援","手機"]和["^","廠商"]。
候選詞抽取單元33可以從文本中抽取詞夾所夾的詞語作為候選詞。在文本中,通常同一個詞夾之間不僅包括種子詞,還有可能包括其他詞語。例如,以詞夾["^","廠商"]為例,當文本中包括子句["^安卓廠商要罵娘了$"]和["^華為廠商通道配置回執$"]時,詞夾["^","廠商"]中不僅出現了種子詞“安卓”,而且還出現了詞語“華為”。因此“安卓”和“華為”可以作為行業專有名詞的候選詞。
計算單元34可以根據候選詞對應的詞夾計算候選詞分數。候選詞分數可以作為該候選詞是行業專有名詞的可能性的量化表示。候選詞分數越高,該候選詞是行業專有名詞的可能性越高。候選詞所對應的詞夾在文本中的使用情況可以反映候選詞是行業專有名詞的可能性,因此可以根據候選詞所對應的詞夾在文本中的使用情況計算候選詞分數。在本實施例中,還可以定義詞夾分數,用於表示候選詞對應的詞夾在文本中的使用情況。詞夾分數通過詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率來計算。因此,計算單元34可以包括詞夾分數計算單元341,用於根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾分數S;以及候選詞分數計算單元342,用於根據詞夾分數計算候選詞分數。詞夾所夾的候選詞與種子詞的相似程度可以由詞夾組內分數S 1表示: 其中,N s 表示在文本中種子詞出現在詞夾中的次數,N t 表示詞夾在文本中出現的總次數。詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S 2表示: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。詞夾分數S可以定義為詞夾組內分數S 1與詞夾組間分數S 2之和: S = S 1+S 2候選詞分數可以定義為候選詞所對應的每組詞夾的詞夾分數之和。因此,可以通過計算每個候選詞所對應的一組或多組詞夾的分數並將其累加,得到每個候選詞分數。
選取單元34可以根據候選詞分數從候選詞中選取行業專有名詞。由於候選詞分數反映了候選詞是行業專有名詞的可能性,因此可以按照候選詞分數對候選詞進行降冪排序,選取分數最高的n個候選詞作為行業專有名詞,或者選取候選詞分數高於預定閾值的候選詞作為行業專有名詞。在對候選詞按照分數進行排序前,可以首先利用斷詞工具對候選詞進行斷詞並分析候選詞詞性,將特定詞性(例如助詞或代名詞)的候選詞刪除,從而可以縮小候選詞的範圍,提高候選詞的識別效率。例如,當候選詞為“的症狀”時,不能直接得到這個候選詞的詞性。在這種情況下,需要對“的症狀”進行切詞,得到“的”和“症狀”。由於“的”的詞性為介詞,所以候選詞“的症狀”不屬於候選詞。選取單元35選取的行業專有名詞可以補充到斷詞詞庫和種子詞詞庫中,以便利用新的種子詞反覆運算地執行以上識別行業專有名詞的過程。
具體地,裝置3還可以包括詞庫更新模組,用於將選取單元35選取的行業專有名詞添加到斷詞詞庫和種子詞庫中。因此,選取單元35選取的行業專有名詞可以作為新的種子詞反覆運算地執行以上描述的過程,以便從文本中獲得更多的行業專有名詞。
以下將結合示例文本,具體介紹從該示例文本中識別行業專有名詞的過程。為了簡化的目的,在此使用的示例文本是從網路的文章中截取的數段描述新冠肺炎的文字:“有人發燒怎麼辦?有人咳嗽怎麼辦?有人倦怠怎麼辦?沒人要買怎麼辦?出現喉嚨痛症狀。出現感冒症狀。出現倦怠症狀。出現身體不適症狀。從喉嚨痛難以推斷。”。
文本拆分單元301依據標點符號將文本拆分成子句。對每個子句加入首符號“^”和尾符號“$”,並且以逗號分隔開。文本拆分單元301獲得了以下九個子句: [[^,有人,發燒,怎麼辦,$],[^,有人,咳嗽,怎麼辦,$],[^,有人,倦怠,怎麼辦,$],[^,沒人,買,怎麼辦,$],[^,出現,喉嚨痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨痛,難以推斷,$]]新詞識別單元302對文本進行新詞識別處理,從文本中發現新詞:“有人”、“沒人”、“難以推斷”和“怎麼辦”,然後將新詞加入斷詞詞庫(例如Jieba)。另外, 種子詞“發燒”和“喉嚨痛”也被加入到斷詞詞庫中,以便提高後續斷詞處理的準確性。
斷詞單元31利用斷詞詞庫對文本中的子句進行斷詞處理,獲得經斷詞的子句。子句中的詞語通過逗號斷開。文本中的經斷詞的九個子句為:[[^,有人,發燒,怎麼辦,$],[^,有人,咳嗽,怎麼辦,$],[^,有人,倦怠,怎麼辦,$],[^,沒人,買,怎麼辦,$],[^,出現,喉嚨痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨痛,難以推斷,$]]。
由於新詞識別單元302是可選的,若裝置3不包括新詞識別單元302,則斷詞詞庫不包括新詞“有人”、“沒人”、“喉嚨痛”、“難以推斷”和“怎麼辦”。在這種情況下,對子句進行斷詞處理的輸出結果如下:[[^,有,人,發燒,怎麼,辦,$],[^,有,人,咳嗽,怎麼,辦,$],[^,有,人,倦怠,怎麼,辦,$],[^,沒,人,買,怎麼,辦,$],[^,出現,喉嚨,痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨,痛,難以,推斷,$]]。
詞夾抽取單元32從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾。以下列出含有種子詞的子句: [[^,有人,發燒,怎麼辦,$],[^,出現,喉嚨痛,症狀,$],[^,從,喉嚨痛,難以推斷,$]]在以上子句中,對種子詞“發燒”和“喉嚨痛”前後相鄰的詞語(詞夾)添加了底線。從以上子句中抽取得到以下三組詞夾:[[有人,怎麼辦],[出現,症狀],[從,難以推斷]]。若裝置3不包括新詞識別單元302,得到的詞夾為以下一組詞夾:[[人, 怎麼]]。
候選詞抽取單元33從文本中抽取詞夾所夾的詞語作為候選詞。從文本的子句中可以找出以下包括詞夾的子句: [[^,有人,發燒,怎麼辦,$],[^,有人,咳嗽,怎麼辦,$],[^,有人,倦怠,怎麼辦,$],[^,出現,喉嚨痛,症狀,$],[^,出現,感冒,症狀,$],[^,出現,倦怠,症狀,$],[^,出現,身體,不適,症狀,$],[^,從,喉嚨痛,難以推斷,$]]
利用以上三組詞夾從以上子句中可以分別獲得如下候選詞: A.    詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B.    詞夾 [出現,症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C.    詞夾[從,難以推斷]:[喉嚨痛]
需要注意的是,以上抽取候選詞的過程中,將夾在詞夾[出現,症狀]中的兩個詞語“身體”和“不適”提取為候選詞“身體不適”。可見候選詞抽取單元33可以抽取詞夾中的一個或多個詞語。通過候選詞抽取單元33得到了如下候選詞(包括重複的候選詞):[發燒、咳嗽、倦怠、喉嚨痛、感冒、倦怠、身體不適、喉嚨痛]。如果裝置3不包括新詞識別單元302,則候選詞抽取單元33得到的候選詞為:[發燒、咳嗽、倦怠、買],其中不包括候選詞[喉嚨痛, 感冒, 身體不適],且還抓取出錯誤的候選詞“買”。由此可見,新詞識別單元302可以使候選詞抽取單元33獲得更多的候選詞並且增加候選詞準確度。
計算單元34包括詞夾分數計算單元341以及候選詞分數計算單元342。詞夾分數S為詞夾組內分數S 1與詞夾組間分數S 2之和。 詞夾的組內分數S 1的計算公式如下: 其中,N s表示在文本中種子詞出現在詞夾中的次數,N t表示詞夾在文本中出現的總次數。示例文本中的三組詞夾以及所夾的候選詞如下: A. 詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B. 詞夾[出現,症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C. 詞夾[從,難以推斷]:[喉嚨痛]
對於詞夾[有人,怎麼辦],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現3次,即抽取出3個候選詞(計入重複的候選詞),因此N t= 3。代入詞夾的組內分數S 1的計算公式可知詞夾[有人,怎麼辦]的詞夾組內分數為:1 2⁄3=0.33。
對於詞夾[出現,症狀],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現4次,即抽取出4個候選詞,因此N t= 4。代入詞夾的組內分數S 1的計算公式可知詞夾[出現,症狀]的詞夾組內分數為:1 2⁄4 = 0.25。
對於詞夾[從,難以推斷],種子詞“發燒”和“喉嚨痛”出現在詞夾中1次,因此N s= 1。詞夾在示例文本中共出現1次,即抽取出1個候選詞,因此N t= 1。代入詞夾的組內分數S 1的計算公式可知詞夾[從,難以推斷]的詞夾組內分數為:1 2⁄1=1。
詞夾的組間分數S 2的計算公式如下: 其中, F c 表示詞夾在文本中出現的次數, F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數。
從以上描述的候選詞抽取單元33可知,示例文本中出現的詞夾為(計入重複的詞夾):[[有人,怎麼辦],[有人,怎麼辦],[有人,怎麼辦],[出現,症狀],[出現,症狀],[出現,症狀],[出現,症狀],[從,難以推斷]]。
對於詞夾[有人,怎麼辦],詞夾在示例文本中出現了3次數, F c = 3。前詞夾在示例文本中出現了3次,因此 F f = 3。後詞夾在示例文本中出現了3次,因此 F b = 3。代入詞夾的組間分數S 2的計算公式可知詞夾[有人,怎麼辦]的詞夾組間分數為:3⁄((3∙3) ) = 0.33。
對於詞夾[出現,症狀],詞夾在示例文本中出現了4次數, F c = 4。前詞夾在示例文本中出現了4次,因此 F f = 4。後詞夾在示例文本中出現了4次,因此 F b = 4。代入詞夾的組間分數S 2的計算公式可知詞夾[出現,症狀]的詞夾組間分數為:4⁄((4∙4) ) = 0.25。
對於詞夾[從,難以推斷],詞夾在示例文本中出現了1次數, F c = 1。前詞夾在示例文本中出現了1次,因此 F f = 1。後詞夾在示例文本中出現了1次,因此 F b = 1。代入詞夾的組間分數S 2的計算公式可知詞夾[從,難以推斷]的詞夾組間分數為:1⁄((1∙1) ) = 1。
根據以上計算的各詞夾的詞夾組內分數和詞夾組間分數的結果,各詞夾的詞夾分數計算如下: 詞夾[有人,怎麼辦]的詞夾分數為: 0.33+0.33 = 0.66 詞夾[出現,症狀]的詞夾分數為: 0.25+0.25 = 0.5 詞夾[從,難以推斷]詞夾分數為: 1+1 = 2
候選詞分數為候選詞所對應的每組詞夾的詞夾分數之和。示例文本中的三組詞夾以及所夾的候選詞如下: A. 詞夾[有人,怎麼辦]:[發燒, 咳嗽, 倦怠] B. 詞夾[出現,症狀]:[喉嚨痛, 感冒, 倦怠, 身體不適] C. 詞夾[從,難以推斷]:[喉嚨痛]
從以上列出的詞夾和相應的候選詞可知: 候選詞“咳嗽”對應的詞夾為[有人,怎麼辦],因此候選詞“咳嗽”的候選詞分數等於詞夾[有人,怎麼辦]的詞夾分數,即等於0.66。
候選詞“倦怠”對應的詞夾為[有人,怎麼辦]和 [出現,症狀],因此候選詞“倦怠”的候選詞分數等於詞夾[有人,怎麼辦]和 [出現,症狀]的詞夾分數之和,即等於0.66+0.5 = 1.16。
候選詞“感冒”對應的詞夾為[出現,症狀],因此候選詞“感冒”的候選詞分數等於詞夾[出現,症狀]的詞夾分數,即等於0.5。
候選詞“身體不適”對應的詞夾為[出現,症狀],因此候選詞“身體不適”的候選詞分數等於詞夾[出現,症狀]的詞夾分數,即等於0.5。
由於種子詞是已知行業專有名詞,因此可以不計算種子詞的候選詞分數。
選取單元35根據候選詞分數從候選詞中選取行業專有名詞。例如,可以選取候選詞分數高於預定閾值的候選詞作為行業專有名詞。下表按照候選詞分數降冪排列,列出了各候選詞。如果預定閾值設定為0.1,那麼候選詞“咳嗽”、“倦怠”、“感冒”和、“身體不適”將被選取為行業專有名詞。
候選詞 候選詞分數
倦怠 1.16
咳嗽 0.66
感冒 0.5
身體不適 0.5
圖3是根據本公開實施例的從文本中識別不同類型的行業專有名詞的系統的結構圖。如圖3所示,該系統中包括專有名詞識別裝置A和專有名詞識別裝置B。該系統還可以包括更多專有名詞識別裝置。這些專有名詞識別裝置可以並行地運行,以便識別文本中不同類型的專有名詞。在本實施例中以兩個專有名詞識別裝置A和B為示例對該系統進行描述。專有名詞識別裝置A和 B用於識別兩種類型的行業專有名詞。例如,專有名詞識別裝置A可以用於識別新公司或新品牌名稱,而專有名詞識別裝置B可以用於識別新的產品名稱。該系統包括一個公共的斷詞詞庫供所有專有名詞識別裝置使用。每個專有名詞識別裝置都與相應的種子詞庫連接,以便接收種子詞。每個專有名詞識別裝置識別出的專有名詞都輸出到相應的專有名詞詞集中。在該系統中,每個專有名詞識別裝置都對應一個詞庫更新模組,用於更新與相應的專有名詞識別裝置對應的種子詞庫和公共的斷詞詞庫。在系統反覆運算地運行過程中,專有名詞識別裝置A識別出的新公司或品牌名稱將有可能成為專有名詞識別裝置B生成的詞夾的一部分(即成為前夾或後夾),進而提升專有名詞識別裝置B識別新產品名稱的準確性。例如,專有名詞識別裝置A為判別運動品牌名稱可透過相關文章抽取出如“愛迪達”、“耐克”、“匹克”等品牌。在專有名詞識別裝置B中為識別新產品名稱任務,若在文章中出現“耐克AJ1好看”,可拆分為“耐克”、“AJ1”和“好看”,而非“耐”、“克”、“AJ1”和“好看”,若種子詞為“AJ1”,可抽取出詞夾[耐克,好看]而非[克,好看]。而“匹克AJ1好看”,可拆分為“匹克”、“AJ1”和“好看”,而非“匹”、“克”、“AJ1”和“好看”,若種子詞為“AJ1”,可抽取出詞夾[匹克,好看]而非[克,好看]。在新的文章中“耐克boostV2好看”,可透過正確的詞夾區分出“boostV2”為“耐克”的品牌而非“匹克”的品牌。因此可避免由於斷詞詞庫沒有相關品牌關鍵字導致的品牌分類誤植。反之亦然,專有名詞識別裝置B的反覆運算結果也可以提升專有名詞識別裝置A的準確性。因此,多個專有名詞識別裝置共同更新同一個斷詞詞庫可以使斷詞詞庫更加豐富全面。每個專有名詞識別裝置都可以進行更準確的斷詞,從而提高每個專有名詞識別裝置的準確性。以上描述的裝置實施例僅是示意性的。各單元的劃分可以是基於邏輯功能的劃分,在實際實現時可以採用其他的劃分方式。例如多個單元可以結合或者可以集成到另一個單元或系統中。上述各個單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
上述各個單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個電腦可讀存儲介質中。基於這樣的理解,本公開的技術方案可以採用軟體產品的形式體現,該電腦軟體產品存儲在一個存儲介質中,包括若干指令用以使電腦設備的處理器執行本公開各個實施例的方法的全部或部分步驟。存儲介質包括但不限於快閃記憶體盤、唯讀記憶體(ROM)、隨機存取記憶體(RAM)、移動硬碟、磁片或者光碟等可以存儲程式碼的介質。
以上所述僅為本公開的較佳實施例而已,並不用以限制本公開,凡在本公開的精神和原則之內所做的任何修改、等同替換、改進等,均應包含在本公開保護的範圍之內。
3:從文本中識別行業專有名詞的裝置 31:斷詞單元 32:詞夾抽取單元 33:候選詞抽取單元 34:計算單元 35:選取單元 301:本拆分單元 302:新詞識別單元 341:詞夾分數計算單元 342:候選詞分數計算單元
參照附圖,本公開的內容將變得更易理解。本領域技術人員容易理解的是,這些附圖僅僅用於舉例說明本公開的技術方案,而並非意在對本公開的保護範圍構成限定。在附圖中: 圖1為根據本公開實施例的從文本中識別行業專有名詞的方法的流程圖; 圖2為根據本公開實施例的從文本中識別行業專有名詞的裝置的結構圖; 圖3為根據本公開實施例的從文本中識別不同類型的行業專有名詞的系統的結構圖。
11、12、13、14、15:步驟
101、102、141、142:步驟

Claims (13)

  1. 一種從文本中識別行業專有名詞的方法,包括:執行斷詞步驟,係根據斷詞詞庫,對文本進行斷詞(11),獲得經斷詞的文本;執行詞夾抽取步驟,係根據種子詞庫,從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾(12),其中所述種子詞是存儲在所述種子詞庫的已知的行業專有名詞;執行候選詞抽取步驟,係根據被抽取的詞夾,從文本中抽取詞夾所夾的詞語作為候選詞(13);根據候選詞對應的詞夾計算候選詞分數(14),包括:根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾分數S(141),根據詞夾分數S(141)計算候選詞分數(142);其中,詞夾所夾的候選詞與種子詞的相似程度由詞夾組內分數S1表示:
    Figure 111107453-A0305-02-0029-6
    其中,Ns表示在文本中種子詞出現在詞夾中的次數,Nt表示詞夾在文本中出現的總次數,詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S2表示:
    Figure 111107453-A0305-02-0029-5
    其中,F c 表示詞夾在文本中出現的次數,F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數; 根據候選詞分數從候選詞中選取行業專有名詞(15)。
  2. 根據請求項1所述的方法,其特徵在於,所述方法還包括:執行子句拆分步驟,係根據標點符號將文本拆分成子句(101),所述執行斷詞步驟包括:對子句進行斷詞,獲得經斷詞的子句。
  3. 根據請求項1所述的方法,其特徵在於,所述方法還包括:執行新詞識別步驟,係對文本進行新詞識別處理,以獲取文本中出現的新詞;將識別出的新詞加入斷詞詞庫(102),用於對文本進行斷詞。
  4. 根據請求項1所述的方法,其特徵在於,詞夾分數S=S 1+S 2
  5. 根據請求項4所述的方法,其特徵在於,候選詞分數等於候選詞所對應的每組詞夾的詞夾分數之和。
  6. 根據請求項1至5中任一項所述的方法,其特徵在於,所述方法還包括:將選取的行業專有名詞作為種子詞反覆運算執行所述方法。
  7. 一種從文本中識別行業專有名詞的裝置,包括:斷詞單元(31),用於對文本進行斷詞,獲得經斷詞的文本;詞夾抽取單元(32),用於從經斷詞的文本中抽取種子詞前後相鄰的詞語作為詞夾,所述種子詞是已知的行業專有名詞;候選詞抽取單元(33),用於從文本中抽取詞夾所夾的詞語作為候選詞;計算單元(34),用於根據候選詞對應的詞夾計算候選詞分數,所述計算單元(34)包括:詞夾分數計算單元(341),用於根據詞夾所夾的候選詞與種子詞的相似程度以及詞夾中的前詞夾與後詞夾在文本中的共現率計算詞夾的詞夾 分數S;其中詞夾所夾的候選詞與種子詞的相似程度由詞夾組內分數S1表示:
    Figure 111107453-A0305-02-0031-3
    其中,Ns表示在文本中種子詞出現在詞夾中的次數,Nt表示詞夾在文本中出現的總次數,詞夾中的前詞夾與後詞夾在文本中的共現率由詞夾組間分數S2表示:
    Figure 111107453-A0305-02-0031-4
    其中,F c 表示詞夾在文本中出現的次數,F f F b 分別表示詞夾中的前詞夾和後詞夾在文本出現的次數;以及候選詞分數計算單元(342),用於根據詞夾分數S計算候選詞分數;選取單元(35),用於根據候選詞分數從候選詞中選取行業專有名詞。
  8. 根據請求項7所述的裝置,其特徵在於,所述裝置還包括:文本拆分單元(301),用於根據標點符號將文本拆分成子句,所述斷詞單元(32)被配置為對子句進行斷詞,獲得經斷詞的子句。
  9. 根據請求項7所述的裝置,其特徵在於,所述裝置還包括:新詞識別單元(302),用於識別文本中的新詞,並且將識別出的新詞加入斷詞詞庫,用於對文本進行斷詞。
  10. 根據請求項7所述的裝置,其特徵在於,詞夾分數S=S1+S2
  11. 根據請求項10所述的裝置,其特徵在於,候選詞分數等於候選詞所對應的每組詞夾的詞夾分數之和。
  12. 一種從文本中識別不同類型的行業專有名詞的系統,包括: 至少兩個根據請求項7所述的裝置,分別用於識別不同類型的行業專有名詞;與每個所述裝置對應的種子詞庫和詞庫更新單元;以及所述至少兩個裝置共用的分詞詞庫,其中每個所述詞庫更新單元被配置為利用其所對應的裝置識別出的專有名詞更新對應的種子詞庫和所述分詞詞庫。
  13. 一種電腦可讀存儲介質,其上存儲有電腦程式,其特徵在於,所述電腦程式被處理器執行時執行請求項1至6中任一項所述的方法。
TW111107453A 2021-03-15 2022-03-02 從文本中識別行業專有名詞的方法和裝置 TWI807661B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110274914.7 2021-03-15
CN202110274914.7A CN115081442A (zh) 2021-03-15 2021-03-15 从文本中识别行业专有名词的方法和装置

Publications (2)

Publication Number Publication Date
TW202238414A TW202238414A (zh) 2022-10-01
TWI807661B true TWI807661B (zh) 2023-07-01

Family

ID=83241156

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111107453A TWI807661B (zh) 2021-03-15 2022-03-02 從文本中識別行業專有名詞的方法和裝置

Country Status (2)

Country Link
CN (1) CN115081442A (zh)
TW (1) TWI807661B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3282367A1 (en) * 2016-08-09 2018-02-14 Panasonic Intellectual Property Management Co., Ltd. Method for controlling identification and identification control apparatus
TW202020691A (zh) * 2018-11-26 2020-06-01 香港商阿里巴巴集團服務有限公司 特徵詞的確定方法、裝置和伺服器
CN111899829A (zh) * 2020-07-31 2020-11-06 青岛百洋智能科技股份有限公司 一种基于icd9/10分词词库的全文检索匹配引擎
CN112185544A (zh) * 2020-09-10 2021-01-05 浙江传媒学院 基于语义的家庭医疗咨询决策支持方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3282367A1 (en) * 2016-08-09 2018-02-14 Panasonic Intellectual Property Management Co., Ltd. Method for controlling identification and identification control apparatus
TW202020691A (zh) * 2018-11-26 2020-06-01 香港商阿里巴巴集團服務有限公司 特徵詞的確定方法、裝置和伺服器
CN111899829A (zh) * 2020-07-31 2020-11-06 青岛百洋智能科技股份有限公司 一种基于icd9/10分词词库的全文检索匹配引擎
CN112185544A (zh) * 2020-09-10 2021-01-05 浙江传媒学院 基于语义的家庭医疗咨询决策支持方法

Also Published As

Publication number Publication date
TW202238414A (zh) 2022-10-01
CN115081442A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN108491462B (zh) 一种基于word2vec的语义查询扩展方法及装置
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
JP6596517B2 (ja) 口語語義解析システム及び方法
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
TW201841121A (zh) 一種自動生成語義相近句子樣本的方法
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
WO2014117553A1 (en) Method and system of adding punctuation and establishing language model
CN107357777B (zh) 提取标签信息的方法和装置
CN109213998A (zh) 中文错字检测方法及系统
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN114266256A (zh) 一种领域新词的提取方法及系统
CN107239455B (zh) 核心词识别方法及装置
US9965546B2 (en) Fast substring fulltext search
CN107229611B (zh) 一种基于词对齐的历史典籍分词方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
TWI807661B (zh) 從文本中識別行業專有名詞的方法和裝置
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
TW202219791A (zh) 新詞識別方法和裝置
JP5916666B2 (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
CN110909128A (zh) 一种利用词根表进行数据查询的方法、设备、及存储介质
Zou et al. Evaluation of Stop Word Lists in Chinese Language.