WO2017185674A1 - 新词发现方法及装置 - Google Patents

新词发现方法及装置 Download PDF

Info

Publication number
WO2017185674A1
WO2017185674A1 PCT/CN2016/102448 CN2016102448W WO2017185674A1 WO 2017185674 A1 WO2017185674 A1 WO 2017185674A1 CN 2016102448 W CN2016102448 W CN 2016102448W WO 2017185674 A1 WO2017185674 A1 WO 2017185674A1
Authority
WO
WIPO (PCT)
Prior art keywords
morpheme
word
morphemes
subset
candidate
Prior art date
Application number
PCT/CN2016/102448
Other languages
English (en)
French (fr)
Inventor
康潮明
Original Assignee
乐视控股(北京)有限公司
乐视网信息技术(北京)股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司 filed Critical 乐视控股(北京)有限公司
Publication of WO2017185674A1 publication Critical patent/WO2017185674A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Definitions

  • the present invention relates to the field of natural language processing technologies, and in particular, to a new word discovery method and apparatus.
  • the technical problem to be solved by the present invention is to provide a new word discovery method to effectively improve the accuracy of new word discovery.
  • a further technical problem to be solved by the present invention is to provide a new word discovery device to effectively improve the accuracy of new word discovery.
  • a new word discovery method including the following steps:
  • Parsing the target text in the target text library extracting morphemes from the target text, constructing a morpheme set H, counting the frequency of occurrence of the morphemes, and expressing the morphemes and the frequency of occurrence of the morphemes as a form of a two-group Forming a binary set T;
  • Association rules algorithm to compute the set of tuples for each tuple in the T morpheme t i and confidence support, the support and confidence greater than or equal to a minimum threshold corresponding to the aggregated form a second morpheme t i Candidate set W t ;
  • the intersection of the first candidate word set W s and the second candidate word set W t is obtained as the candidate new word set W h , and then the candidate new word set W h is filtered, and the extracted new words are saved as a new word set W.
  • the analyzing and processing the target text in the target text library, and extracting the morpheme from the target text to construct the morpheme set specifically includes:
  • the subset C i of the extracted set P is segmented according to characters to construct a morpheme set h i , and the morpheme sets respectively constructed by each subset in the set P are aggregated to obtain the target text.
  • the morpheme set H ⁇ h 1 , h 2 ... h n ⁇ , where h i is a morpheme set constructed by means of C i for each element in the P set;
  • the morpheme set H is constructed separately for all the target texts as described above.
  • the context correlation degree d min ⁇ H(L), H(R) ⁇ corresponding to the subset w is obtained.
  • the morphemes t i in the two selected two groups are recorded as wordA and wordB, respectively, and the support and confidence of the two words wordA and wordB are calculated respectively;
  • Morpheme tuple morpheme resultant determination computation tuple t of the support and confidence of i is greater than or equal to the corresponding minimum threshold, the support and confidence greater than or equal to the corresponding minimum threshold value t i added to The second candidate word set W t .
  • the embodiment of the invention further provides a new word discovery device, which comprises:
  • a two-tuple set construction module analyzing and processing target text in the target text library, extracting morphemes from the target text, constructing a morpheme set H, counting frequency of occurrence of the morphemes, and frequency of occurrence of the morphemes and the morphemes Representing the form of a binary group, forming a set of two sets of T;
  • An information entropy algorithm analysis module acquires a left neighbor word and a right neighbor word of the subset w of the morphemes t i in each of the two sets of the binary set T, and calculates a subset of the morphemes t i according to the information entropy algorithm Context-dependent degree d, and a subset w of morphemes t i whose value of the context-related degree d is greater than or equal to the preset relevance threshold is aggregated to form a first candidate word set W s ;
  • the association rule algorithm analysis module uses the association rule algorithm to calculate the support and confidence of the morpheme t i in each of the two sets of the tuple set T, and the morphemes whose support degree and confidence are both greater than or equal to the corresponding minimum threshold t i is aggregated to form a second set of candidate words W t ;
  • the new word extraction module obtains the intersection of the first candidate word set W s and the second candidate word set W t as the candidate new word set W h , and then filters the candidate new word set W h to extract the new word and save it as a new word. Collection W.
  • the dual group set construction module further includes:
  • the morpheme set construction unit keeps the order of each character in C i unchanged, and the subset C i of the extracted set P is segmented according to characters to construct a morpheme set h i , and the morpheme sets respectively constructed by each subset in the set P are summarized.
  • Obtaining a morpheme set H ⁇ h 1 , h 2 ... h n ⁇ of the target text, wherein h i is a morpheme set constructed by means of C i for each element in the P set;
  • the summary unit collects the morpheme sets H separately constructed in accordance with the above manner for all the target texts to obtain a total morpheme set.
  • the information entropy algorithm analysis module includes:
  • An information entropy calculation unit calculates a probability p(l i ) of occurrence of each left neighbor word l i in the L set, and then uses an information entropy formula to calculate an information entropy H(l i ) of the left neighbor word, and a neighbor word corresponding to w
  • association rule algorithm analysis module includes:
  • the support degree and confidence calculation unit records the morphemes t i in the two selected two groups as wordA and wordB, respectively, and calculates the support degree and confidence of wordA and wordB, respectively;
  • the judging and summarizing unit determines whether the support degree and the confidence of the calculated morpheme t i of the binary group are greater than or equal to a corresponding minimum threshold, and the duality of the support degree and the confidence degree are greater than or equal to the corresponding minimum threshold
  • the morpheme t i is added to the second candidate word set W t .
  • An embodiment of the present invention provides an electronic device, including:
  • At least one processor At least one processor
  • At least one memory communicatively coupled to the processor; wherein
  • the processor and the memory complete communication with each other through the bus;
  • the memory stores program instructions executable by the processor, the processor invoking the program instructions to perform the method as described above.
  • Embodiments of the present invention provide a computer program product, the computer program product comprising a computer program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions, when the program instructions are executed by a computer Causing the computer to perform the method as described above.
  • Embodiments of the present invention provide a non-transitory computer readable storage medium storing computer instructions that cause the computer to perform the method as described above.
  • the embodiment of the present invention has at least the following beneficial effects:
  • the embodiment of the present invention is an unstructured text new word discovery method based on computer information processing technology, and the method and device of the embodiment of the present invention pass information
  • the entropy algorithm analyzes the context adjacency of the morphemes extracted from the target text, and makes full use of the structural information of the text, which can effectively improve the accuracy of judging the new word boundary.
  • the embodiment of the present invention also uses the association rule algorithm to select candidates. The internal and external information of the word is fully combined, which effectively improves the accuracy of the new word discovery.
  • FIG. 1 is a schematic flow chart of steps of a new word discovery method according to an embodiment of the present invention
  • FIG. 2 is a block diagram showing the system configuration of a new word discovery apparatus according to an embodiment of the present invention
  • FIG. 3 is a schematic structural block diagram of an information entropy algorithm analysis module of a new word discovery apparatus according to an embodiment of the present invention
  • FIG. 4 is a schematic block diagram showing the system configuration of an association rule algorithm analysis module of a new word discovery apparatus according to an embodiment of the present invention
  • FIG. 5 is a structural block diagram of an electronic device according to an embodiment of the present invention.
  • an embodiment of the present invention provides a new word discovery method, including the following steps;
  • Step S1 analyzing the target text in the target text library, extracting morphemes from the morpheme, and constructing a morpheme set H.
  • a morpheme set H When there are multiple target texts, combining the obtained morpheme sets H corresponding to the target texts, and then counting the morphemes
  • the frequency of occurrence, the frequency of occurrence of the morphemes and the morphemes is expressed as a form of a two-group, forming a set of two sets T;
  • Step S2 Obtain a left neighbor word and a right neighbor word of the subset w of the morphemes t i in each of the two sets of the binary set T, and calculate a subset w of the morphemes t i according to an information entropy algorithm.
  • Context-dependent degree d, and a subset w of morphemes t i whose value of the context-related degree d is greater than or equal to the preset relevance threshold is aggregated to form a first candidate word set W s ;
  • Step S3 the association rules algorithm to calculate the set of tuples for each tuple in the T morpheme t i and confidence support, the support and confidence greater than or equal to the corresponding minimum threshold morpheme t i Summary Forming a second set of candidate words W t ;
  • step S4 the intersection of the first candidate word set W s and the second candidate word set W t is obtained as the candidate new word set W h , and then the candidate new word set W h is filtered, and the new word is saved as a new word set W. .
  • Step S1 constructing a morpheme set
  • the specific operation of analyzing and analyzing a target text includes the following steps:
  • Step S11 segment the target text by using a predetermined segmentation symbol as a segmentation criterion to obtain a sentence set S.
  • step S13 the order of each character in C i is kept unchanged, and the subset C i of the extracted set P is segmented according to characters to construct a morpheme set h i , and the morpheme sets respectively constructed in each subset of the set P are obtained.
  • the morpheme set of the target text H ⁇ h 1 , h 2 ... h n ⁇ , where h i is a morpheme set constructed in such a manner that each subset in the P set is C i ;
  • Step S14 constructing a morpheme set H for all the target texts according to the above manner, and then combining the extracted morpheme sets H corresponding to all the target texts, and separately counting the frequency of occurrence of each morpheme in the set, each morpheme representation
  • T a set of two sets of all binary groups
  • C1 c 1 c 2 c 3 c 4
  • h 1 ⁇ c 1 , c 2 , c 3 , c 4 , c 1 c 2 , c 2 c 3 , c 3 c 4 , c 1 c 2 c 3 , c 2 c 3 c 4 ⁇
  • the morpheme set hi is constructed in the manner of C1
  • the total morpheme set T of the text is obtained.
  • Step S2 analyzing context adjacencies through an information entropy algorithm
  • Information entropy is a relatively abstract concept that can be understood as the probability of occurrence of a particular kind of information, which can reflect the amount of information brought about by a variable. Calculated as follows:
  • H(x i ) ⁇ p(x i )log(p(x i )), where p(x i ) represents the probability of occurrence of event x i .
  • the left and right information entropy of a string reflects the degree of contextual relevance of the string. If a string has a high left and right entropy, it means that its contextual matching object is rich, and it has greater flexibility and independence in use. An independent term may have these features in itself. Therefore, the embodiment of the present invention determines whether the word is a new word by calculating the left and right information entropy of the string.
  • step S2 for the subset w of the morphemes t i in each of the two sets of the tuple set T, the specific steps of calculating the contextual relevance d of the subset w of the morphemes t i using the information entropy algorithm are as follows:
  • the left adjacent word c 1 and the right adjacent word c n of (c 2 ... c n-1 );
  • Step S3 Mining an frequent item set of morphemes using an association rule algorithm
  • the association rule algorithm (Apriori algorithm) was proposed by Dr. Rakesh Agrawal and Ramakrishnan Srikant in 1994.
  • the core idea of the algorithm is a recursive method based on frequency set theory, which aims to mine those support from the data. And the relationship between the item and the item whose confidence level is not lower than the given minimum support threshold and minimum confidence threshold.
  • the Apriori algorithm is usually divided into the following steps:
  • count(A ⁇ B) indicates the frequency at which A and B occur simultaneously
  • count(A) indicates the frequency at which A appears
  • count(B) indicates the frequency at which B appears.
  • P(A, B) is the support degree calculated in the previous step
  • P(A) is the probability of occurrence of A.
  • step (2) Get the set of related items.
  • A) is greater than the preset minimum confidence threshold is satisfied as the last associated item set.
  • step S3 the association rule algorithm is used to calculate the support degree and confidence of the morpheme t i in each of the two sets of the tuple set T, and the specific steps are as follows: :
  • Step S31 selecting any two from the set of two sets T is analyzed from the same target text.
  • the resulting two-group preferably, the two selected two-tuples are preferably obtained in the same short sentence;
  • Step S32 the morphemes t i in the two selected two groups are respectively recorded as wordA and wordB, and respectively calculate the support degree and confidence of the two words wordA and wordB, that is, the morphemes of the corresponding two groups. i 's support and confidence;
  • Step S33 determining whether the degree of support and confidence of the calculated morpheme t i of the binary group is greater than or equal to a corresponding minimum threshold, and selecting a morpheme t of the dual group whose support degree and confidence are greater than or equal to the corresponding minimum threshold. i is added to the second set of candidate words W t .
  • Step S4 filtering and extracting new words
  • the candidate word set is filtered by using a common word dictionary, and the new word assembly new word set is extracted, and the specific operation includes:
  • Step S41 obtaining an intersection of the first candidate word set W s and the second candidate word set W t as a candidate new word set W h ;
  • Step S42 Filter the candidate new word set W h using the common word dictionary, remove the words already included in the common word dictionary, and save the remaining words as the extracted new words into the new word set W.
  • the embodiment of the present invention further provides a new word discovery device, which includes:
  • the tuple set construction module 10 analyzes each target text in the target text library one by one, extracts a morpheme from the morpheme set H, and combines the obtained morpheme sets H corresponding to each target text, and then counts each morpheme.
  • the frequency of occurrence, each morpheme represents a form of a two-group, forming a set of two sets of T;
  • the information entropy algorithm analysis module 20 calculates the context association degree of the subset w of the morphemes t i in each of the two sets of the tuple set T using the information entropy algorithm, and sets the context association degree to be greater than or equal to the preset relevance degree threshold.
  • the subset of elements w is aggregated to form a first set of candidate words W s ;
  • the association rule algorithm analysis module 30 uses the association rule algorithm to calculate the support degree and confidence of the morpheme t i in each of the two sets of the tuple set T, and the support degree and the confidence are both greater than or equal to the corresponding minimum threshold.
  • the morphemes t i are aggregated to form a second set of candidate words W t ;
  • the new word extraction module 40 obtains the intersection of the first candidate word set W s and the second candidate word set W t as the candidate new word set W h , and then filters the candidate new word set W h to extract the new word and save it as new. Word collection W.
  • the dual group set construction module 10 further includes:
  • the segmentation unit 100 divides the target text by using a predetermined segmentation symbol as a segmentation criterion to obtain a sentence set S.
  • the summary unit 106 aggregates the morpheme sets H respectively constructed in accordance with the above manner for all the target texts to obtain a total morpheme set.
  • the information entropy algorithm analysis module 20 may further include:
  • the information entropy calculation unit 204 calculates a probability p(l i ) of occurrence of each left neighbor word l i in the L set, and then calculates an information entropy H(l i ) of the left neighbor word by using an information entropy formula, and the left neighbor corresponding to w
  • the word information entropy H(L) ⁇ H(l i )
  • calculates the right neighbor word information entropy H(R) ⁇ H(r i ) corresponding to w;
  • the association rule algorithm analysis module 30 may further include:
  • the selecting unit 300 selects any two binary groups obtained from the analysis of the same target text from the set of binary sets T, and preferably selects two binary groups obtained by analyzing in the same short sentence;
  • the support degree and confidence calculation unit 302 records the morphemes t i in the two selected two groups as wordA and wordB, respectively, and calculates the support degree and confidence of the wordA and wordB, that is, the corresponding dual groups.
  • the determining and summarizing unit 304 determines whether the support degree and the confidence of the calculated morpheme t i of the binary group are greater than or equal to the corresponding minimum threshold, and the duality group whose support degree and confidence are both greater than or equal to the corresponding minimum threshold The morpheme t i is added to the second candidate word set W t .
  • an embodiment of the present invention further provides a structural block diagram of an electronic device.
  • the electronic device includes: at least one processor 501; and at least one memory 502 communicatively coupled to the processor, wherein:
  • the processor 501 and the memory 502 complete communication with each other through the bus 503;
  • the processor 501 is configured to invoke the program instructions in the memory 502 to perform the methods provided by the foregoing method embodiments, for example, including: analyzing target text in a target text library, and extracting morphemes from the target text. Constructing a morpheme set H, counting the frequency of occurrence of the morpheme, expressing the morphemes and the frequency of occurrence of the morphemes as a form of a two-tuple, forming a set of tuples T; obtaining each of the sets of the set T The left neighbor word and the right neighbor word of the subset w of the morphemes t i in the two groups, calculate the context correlation degree d of the subset w of the morphemes t i according to the information entropy algorithm, and set the value of the context association degree d The subset w of morphemes t i greater than or equal to the preset relevance threshold is aggregated to form a first candidate word set W s ; the association rule
  • Embodiments of the present invention provide a computer program product, the computer program product comprising a computer program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions, when the program instructions are executed by a computer
  • the computer can perform the method provided by the foregoing method embodiments, for example, including: analyzing target text in the target text library, extracting morphemes from the target text, constructing a morpheme set H, and counting frequency of occurrence of the morpheme, The frequency of occurrence of the morphemes and the morphemes is expressed in the form of a two-tuple, forming a set of tuples T; obtaining the left of the subset w of morphemes t i in each of the two sets of the set of tuples T a neighboring word and a right neighboring word, calculating a contextual relevance degree d of the subset w of the morpheme t i according to an information entropy algorithm, and setting
  • An embodiment of the present invention provides a non-transitory computer readable storage medium storing computer instructions, the computer instructions causing the computer to perform the methods provided by the foregoing method embodiments, for example
  • the method includes: analyzing target text in the target text library, extracting morphemes from the target text, constructing a morpheme set H, counting frequency of occurrence of the morphemes, and expressing the frequency of occurrence of the morphemes and the morphemes as a two-group a form, forming a set of tuples T; obtaining left and right neighbors of the subset w of morphemes t i in each of the sets of the set of tuples T, and calculating the morphemes according to an information entropy algorithm
  • the context association degree d of the subset w of t i , and the subset w of the morphemes t i whose value of the context correlation degree d is greater than or equal to the preset relevance degree threshold is aggregated
  • the method and device of the embodiment of the present invention analyze the context adjacency relationship of the morphemes extracted from the target text by using the information entropy algorithm, and fully utilize the structural information of the text, thereby effectively improving the accuracy of judging the new word boundary;
  • the embodiment of the present invention also uses an association rule algorithm The internal and external information of the candidate words are fully combined, which effectively improves the accuracy of the new word discovery.
  • the foregoing program may be stored in a computer readable storage medium, and the program is executed when executed.
  • the foregoing steps include the steps of the foregoing method embodiments; and the foregoing storage medium includes: a medium that can store program codes, such as a ROM, a RAM, a magnetic disk, or an optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及一种新词发现方法及装置,所述方法包括:从目标文本库中的目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;计算词素ti的子集w的上下文关联度d,并将d值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;计算词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,对候选新词集合Wh进行过滤,提取新词保存为新词集合W。本发明实施例有效地结合信息熵算法分析和关联规则算法分析,可有效提高新词发现的准确度。

Description

新词发现方法及装置
交叉引用
本发明引用于2016年4月29日提交的专利名称为“新词发现方法及装置”的第2016102826250号中国专利申请,其通过引用被全部并入本发明。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种新词发现方法及装置。
背景技术
利用计算机分析处理自然语言信息时,经常会碰到新词提取。目前,新词提取的方法主要有两种方式:一种是基于统计的方法,另一种是基于词典和规则相结合的方法。基于统计的方法对于查找较短的短语较为适用,但是,单纯利用统计的方法则会因为忽略了词语内部的结构和词与词之间的构词能力等特性;而基于词典和规则相结合的方法则往往局限于某个特定的领域,这是因为规则的制定一般是针对具体领域的,灵活性比较差,而全面制定出一套合适的规则是一项既费时又费力的工作。
发明内容
本发明所要解决的技术问题在于,提供一种新词发现方法,以有效提高新词发现准确率。
本发明进一步所要解决的技术问题在于,提供一种新词发现装置,以有效提高新词发现准确率。
为解决上述技术问题,本发明实施例提供如下技术方案:一种新词发现方法,包括以下步骤:
分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;
获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右 邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws
使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
进一步地,所述分析处理目标文本库中的目标文本,从所述目标文本中提取词素构建词素集合具体包括:
以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中子集Ci=cici+1ci+2…ci+m
保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个元素按照Ci的方式构建的词素集合;以及
对所有的目标文本均按照上述方式处理分别构建词素集合H。
进一步地,根据信息熵算法计算所述词素ti的子集w的上下文关联度d的具体步骤如下:
对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln},提取子集w的所有右邻字构成集合R={r1,r2,...rn};
计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算 该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
获取子集w对应的上下文关联度d=min{H(L),H(R)}。
进一步地,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度的具体步骤如下:
从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组;
将挑选出来的两个二元组中的词素ti分别记作wordA、wordB,并分别计算两个词语wordA、wordB的支持度和置信度;
判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
本发明实施例还提供了一种新词发现装置,其包括:
二元组集合构造模块,分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示二元组的形式,形成二元组集合T;
信息熵算法分析模块,获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws
关联规则算法分析模块,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
新词提取模块,求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
进一步地,所述二元组集合构造模块又包括:
分割单元,以预定的分割符号为分割标准对目标文本进行分割,得到句 子集合S,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
子集构建单元,对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中子集Ci=cici+1ci+2…ci+m
词素集合构建单元,保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个元素按照Ci的方式构建的词素集合;以及
汇总单元,对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。
进一步地,信息熵算法分析模块包括:
获取邻字单元,对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
邻字集合单元,分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln},提取子集w的所有右邻字构成集合R={r1,r2,...rn};
信息熵计算单元,计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
关联度比较及汇总单元,获取子集w对应的上下文关联度d=nin{H(L),H(R)},比较d的值与预先设置的阈值,如果大于阈值,则将子集w加入到第一候选词集合Ws中。
进一步地,关联规则算法分析模块包括:
挑选单元,从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组;
支持度和置信度计算单元,将挑选出来的两个二元组中的词素ti分别记 作wordA、wordB,并分别计算wordA、wordB的支持度和置信度;以及
判断及汇总单元,判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
本发明实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器;其中,
所述处理器、存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上文所述的方法。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上文所述的方法。
本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上文所述的方法。采用上述技术方案后,本发明实施例至少具有如下有益效果:本发明实施例是一种基于计算机信息处理技术的非结构化文本新词发现方法,本发明实施例的方法和装置一方面通过信息熵算法分析从目标文本中提取出来的词素的上下文邻接关系,充分利用文本的结构信息,能够有效地提高判断新词边界的准确率;另一方面,本发明实施例还通过关联规则算法将候选词内部与外部信息充分结合起来,有效地提高了新词发现的准确度。
附图说明
图1是本发明实施例提供的一种新词发现方法的步骤流程示意图;
图2是本发明实施例提供的一种新词发现装置的系统构成原理框图;
图3是本发明实施例提供的一种新词发现装置的信息熵算法分析模块的系统构成原理框图;
图4是本发明实施例提供的一种新词发现装置的关联规则算法分析模块的系统构成原理框图;
图5是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,以下的示意性实施例及说明仅用来解释本发明,并不作为对本发明的限定,而且,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互结合。
如图1所示,本发明实施例提供一种新词发现方法,包括以下步骤;
步骤S1,分析处理目标文本库中的目标文本,从中提取词素,构建词素集合H,有多篇目标文本时,还将所获得的各目标文本对应的词素集合H进行合并,再统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;
步骤S2,获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws
步骤S3,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
步骤S4,求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
下边对以上各步骤的具体操作分别详细描述。
步骤S1、构建词素集合
对一篇目标文本进行分析处理的具体操作又包括如下步骤:
步骤S11,以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,预定的分割符号通常是指标点符号,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
步骤S12,对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中 Ci=cici+1ci+2…ci+m
步骤S13,保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个子集按照Ci的方式构建的词素集合;以及
步骤S14,对所有的目标文本均按照上述方式进行构建词素集合H,然后将所提取的所有目标文本对应的词素集合H进行合并,再分别统计集合中每个词素出现的频次,每个词素表示成二元组<词素,频次>的形式,所有二元组汇总构成的二元组集合记作T。
在本发明的一个实施例中,设定m=4,则Ci=cici+1ci+2ci+3,以C1为例,C1=c1c2c3c4,对C1按照字符进行分割,构成词素集合h1={c1,c2,c3,c4,c1c2,c2c3,c3c4,c1c2c3,c2c3c4},对集合P中的每个子集Ci,均按照C1的方式进行构建词素集合hi,最后得到该篇文本的总词素集合T。
步骤S2、通过信息熵算法分析上下文邻接关系
信息熵是一个相对抽象的概念,可以理解成某种特定信息的出现概率,能够反映一个变量所带来信息量的大小。计算公式如下:
H(xi)=-p(xi)log(p(xi)),其中,p(xi)表示事件xi发生的概率。
在文本处理中,字串的左右信息熵体现了字串在上下文关联程度。如果某个字串具有较高的左右熵,说明它上下文搭配对象丰富,使用上具有较大的灵活性和独立性。一个独立的词语,自身会存在这些特征,因此,本发明实施例通过计算字串的左右信息熵来判断该词是否是一个新词。
在本步骤S2中,对于二元组集合T中每个二元组中的词素ti的子集w,运用信息熵算法计算词素ti的子集w的上下文关联度d的具体步骤如下:
步骤S21,对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
步骤S22,分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln},提取子集w的所有右邻字构成集合R={r1,r2,...rn};
步骤S23,计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
步骤S24,获取子集w对应的上下文关联度d=min{H(L),H(R)},比较d的值与预先设置的阈值,如果大于阈值,则将w加入到第一候选词集合Ws中;
步骤S25,对二元组集合T中的每个元素,按照上述步骤处理,最后得到集合Ws={w1,w2,...,wn}。
步骤S3、使用关联规则算法挖掘词素的频繁项集
关联规则算法(Apriori算法)是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的,该算法的核心思想是基于频集理论的一种递推方法,目的是从数据中挖掘出那些支持度和置信度都不低于给定的最小支持度阈值和最小置信度阈值的项与项之间的关联关系。
对于项A和项B,Apriori算法通常分为下面几个步骤:
(1)计算支持度,即A与B的联合概率。计算公式如下:
P(A,B)=count(A∩B)/(count(A)+count(B))
其中,count(A∩B)表示A和B同时出现的频次,count(A)表示A出现的频次,count(B)表示B出现的频次。
(2)获取频繁项集。将支持度P(A,B)大于等于预先设定最小支持度阈值的(A,B)元组,作为频繁项集。
(3)计算置信度,即在A发生条件下B发生的概率。计算公式如下:
P(B|A)=P(A,B)/P(A)
其中,P(A,B)为上一步计算得到的支持度,P(A)为A发生的概率。
(4)获取关联项集。在第(2)步得到的频繁集中,将满足置信度P(B|A)大于预先设定最小置信度阈值的元组,作为最后的关联项集。
而具体到本发明实施例的方法中,是在本步骤S3中,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,其具体步骤如下:
步骤S31,从二元组集合T中挑选任意两个从同一篇目标文本中分析获 得的二元组,优选地,所挑选的两个二元组最好是在同一个短句中分析获得的;
步骤S32,将挑选出来的两个二元组中的词素ti分别记作wordA、wordB,并分别计算两个词语wordA、wordB的支持度和置信度,也就是对应的二元组的词素ti的支持度和置信度;
步骤S33,判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
步骤S4、过滤提取新词
本步骤S4具体是利用常用词词典对候选词集合进行过滤,提取新词汇总成新词集合,其在具体操作时又包括:
步骤S41、求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh
步骤S42、使用常用词词典对候选新词集合Wh进行过滤,去掉已经包含在常用词词典里面的词语,余下的词语即作为提取出来的新词保存到新词集合W中。
为更好地实施上述方法,本发明实施例还提供了一种新词发现装置,其包括:
二元组集合构造模块10,逐篇分析处理目标文本库中的各目标文本,从中提取词素构建词素集合H,并将所获得的各目标文本对应的词素集合H进行合并,再统计每个词素出现的频次,将每个词素表示二元组的形式,形成二元组集合T;
信息熵算法分析模块20,使用信息熵算法计算二元组集合T中每个二元组中的词素ti的子集w的上下文关联度,并将上下文关联度大于或等于预设关联度阈值的元素子集w汇总形成第一候选词集合Ws
关联规则算法分析模块30,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
新词提取模块40,求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
其中,所述二元组集合构造模块10又包括:
分割单元100,以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,预定的分割符号通常是指标点符号,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
子集构建单元102,对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中子集Ci=cici+1ci+2…ci+m
词素集合构建单元104,保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个元素按照Ci的方式构建的词素集合;以及
汇总单元106,对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。
而如图3所示,所述信息熵算法分析模块20又可进一步包括:
获取邻字单元200,对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
邻字集合单元202,分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln},提取子集w的所有右邻字构成集合R={r1,r2,...rn};
信息熵计算单元204,计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
关联度比较及汇总单元206,获取子集w对应的上下文关联度d=nin{H(L),H(R)},比较d的值与预先设置的阈值,如果大于阈值,则将w 加入到集合Ws中。
如图4所示,所述关联规则算法分析模块30又还可进一步包括:
挑选单元300,从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组,优选挑选在同一个短句中分析获得的两个二元组;
支持度和置信度计算单元302,将挑选出来的两个二元组中的词素ti分别记作wordA、wordB,并分别计算wordA、wordB的支持度和置信度,也就是对应的二元组的词素ti的支持度和置信度;以及
判断及汇总单元304,判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
为更好地实施上述方法,本发明实施例还提供了电子设备的结构框图。参照图5,所述电子设备,包括:至少一个处理器(processor)501;以及与所述处理器通信连接的至少一个存储器(memory)502,其中:
所述处理器501、存储器502通过所述总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括 程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws;使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
本发明实施例的方法和装置一方面通过信息熵算法分析从目标文本中提取出来的词素的上下文邻接关系,充分利用文本的结构信息,能够有效地提高判断新词边界的准确率;另一方面,本发明实施例还通过关联规则算法将 候选词内部与外部信息充分结合起来,有效地提高了新词发现的准确度。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (11)

  1. 一种新词发现方法,其特征在于,包括以下步骤:
    分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示为二元组的形式,形成二元组集合T;
    获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值的词素ti的子集w汇总形成第一候选词集合Ws
    使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
    求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
  2. 如权利要求1所述的新词发现方法,其特征在于,所述分析处理目标文本库中的目标文本,从所述目标文本提取词素构建词素集合具体包括:
    以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
    对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中子集Ci=cici+1ci+2…ci+m
    保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个元素按照Ci的方式构建的词素集合;以及
    对所有的目标文本均按照上述方式处理分别构建词素集合H。
  3. 如权利要求1所述的新词发现方法,其特征在于,根据信息熵算法计算所述左邻字和右邻字的上下文关联度d的具体步骤如下:
    对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
    分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln},提取子集w的所有右邻字构成集合R={r1,r2,...rn};
    计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
    获取子集w对应的上下文关联度d=min{H(L),H(R)}。
  4. 如权利要求1所述的新词发现方法,其特征在于,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度的具体步骤如下:
    从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组;
    将挑选出来的两个二元组中的词素ti分别记作wordA、wordB,并分别计算两个词语wordA、wordB的支持度和置信度;
    判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
  5. 一种新词发现装置,其特征在于,包括:
    二元组集合构造模块,分析处理目标文本库中的目标文本,从所述目标文本中提取词素,构建词素集合H,统计所述词素出现的频次,将所述词素和所述词素出现的频次表示二元组的形式,形成二元组集合T;
    信息熵算法分析模块,获取所述二元组集合T中每个二元组中的词素ti的子集w的左邻字和右邻字,根据信息熵算法计算所述词素ti的子集w的上下文关联度d,并将上下文关联度d的值大于或等于预设关联度阈值 的词素ti的子集w汇总形成第一候选词集合Ws
    关联规则算法分析模块,使用关联规则算法计算二元组集合T中每个二元组中的词素ti的支持度和置信度,将支持度和置信度均大于或等于对应的最小阈值的词素ti汇总形成第二候选词集合Wt;以及
    新词提取模块,求得第一候选词集合Ws和第二候选词集合Wt的交集作为候选新词集合Wh,再对候选新词集合Wh进行过滤,提取新词保存为新词集合W。
  6. 如权利要求5所述的新词发现装置,其特征在于,所述二元组集合构造模块又包括:
    分割单元,以预定的分割符号为分割标准对目标文本进行分割,得到句子集合S,集合S中的每一个短句为Si={c1c2c3...cn},其中,ci表示句子中的每个字符;
    子集构建单元,对集合S中的每一个短句Si={c1c2c3...cn},按照字符在短句中的顺序,取窗口大小为m的子集,构建集合P={C1,C2,…,Cn},其中子集Ci=cici+1ci+2…ci+m
    词素集合构建单元,保持每个字符在Ci中的顺序不变,抽取集合P的子集Ci按照字符进行分割构建词素集合hi,将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H={h1,h2...hn},其中,hi是P集合中的每个元素按照Ci的方式构建的词素集合;以及
    汇总单元,对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。
  7. 如权利要求5所述的新词发现装置,其特征在于,信息熵算法分析模块包括:
    获取邻字单元,对二元组集合T中每个二元组中的词素ti={c1c2...cn}(n≥3)进行切割,分别获取该词素ti的子集w=(c2...cn-1)的左邻字c1和右邻字cn
    邻字集合单元,分析二元组集合T中所有二元组的词素ti,从包含子集w的词素ti中提取子集w的所有的左邻字构成集合L={l1,l2,...ln}, 提取子集w的所有右邻字构成集合R={r1,r2,...rn};
    信息熵计算单元,计算L集合中每个左邻字li出现的概率p(li),然后利用信息熵公式计算该左邻字的信息熵H(li),w对应的左邻字信息熵H(L)=ΣH(li),以相同的方式计算出w对应的右邻字信息熵H(R)=ΣH(ri);以及
    关联度比较及汇总单元,获取子集w对应的上下文关联度d=nin{H(L),H(R)},比较d的值与预先设置的阈值,如果大于阈值,则将子集w加入到第一候选词集合Ws中。
  8. 如权利要求5所述的新词发现装置,其特征在于,关联规则算法分析模块包括:
    挑选单元,从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组;
    支持度和置信度计算单元,将挑选出来的两个二元组中的词素ti分别记作wordA、wordB,并分别计算wordA、wordB的支持度和置信度;以及
    判断及汇总单元,判断计算所得的二元组的词素ti的支持度和置信度是否大于或等于相应的最小阈值,将支持度和置信度均大于或等于相应的最小阈值的二元组的词素ti加入到第二候选词集合Wt中。
  9. 一种电子设备,其特征在于,包括:
    至少一个处理器;以及
    与所述处理器通信连接的至少一个存储器,其中:
    所述处理器、存储器通过所述总线完成相互间的通信;
    所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
  10. 一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1至4任一所述的方法。
  11. 一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权 利要求1至4任一所述的方法。
PCT/CN2016/102448 2016-04-29 2016-10-18 新词发现方法及装置 WO2017185674A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610282625.0A CN105955950A (zh) 2016-04-29 2016-04-29 新词发现方法及装置
CN201610282625.0 2016-04-29

Publications (1)

Publication Number Publication Date
WO2017185674A1 true WO2017185674A1 (zh) 2017-11-02

Family

ID=56914877

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/102448 WO2017185674A1 (zh) 2016-04-29 2016-10-18 新词发现方法及装置

Country Status (2)

Country Link
CN (1) CN105955950A (zh)
WO (1) WO2017185674A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111400377A (zh) * 2020-04-27 2020-07-10 新智数字科技有限公司 一种目标数据集的确定方法及装置
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111768842A (zh) * 2020-07-06 2020-10-13 宁波方太厨具有限公司 中医证素的辨识方法、系统、电子设备及可读存储介质
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN112800173A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备
CN113051912A (zh) * 2021-04-08 2021-06-29 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法
CN117056869A (zh) * 2023-10-11 2023-11-14 轩创(广州)网络科技有限公司 一种基于人工智能的电子信息数据关联方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955950A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 新词发现方法及装置
CN110516235A (zh) * 2016-11-23 2019-11-29 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN108228712B (zh) * 2017-11-30 2019-09-06 北京三快在线科技有限公司 一种实体挖掘方法及装置,电子设备
CN108845982B (zh) * 2017-12-08 2021-08-20 昆明理工大学 一种基于词的关联特征的中文分词方法
CN110851610B (zh) * 2018-07-25 2022-09-27 百度在线网络技术(北京)有限公司 知识图谱生成方法、装置、计算机设备以及存储介质
CN110807322B (zh) * 2019-09-19 2024-03-01 平安科技(深圳)有限公司 基于信息熵识别新词的方法、装置、服务器及存储介质
CN112560448B (zh) * 2021-02-20 2021-06-22 京华信息科技股份有限公司 一种新词提取方法及装置
CN116361442B (zh) * 2023-06-02 2023-10-17 国网浙江宁波市鄞州区供电有限公司 基于人工智能的营业厅数据分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN104216874A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105955950A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 新词发现方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224682B (zh) * 2015-10-27 2018-06-05 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN105512109B (zh) * 2015-12-11 2019-04-16 北京锐安科技有限公司 新词汇的发现方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN104216874A (zh) * 2014-09-22 2014-12-17 广西教育学院 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN105260362A (zh) * 2015-10-30 2016-01-20 小米科技有限责任公司 新词提取方法和装置
CN105955950A (zh) * 2016-04-29 2016-09-21 乐视控股(北京)有限公司 新词发现方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUO, SHUAI ET AL.: "New Words Discovery in Microblog Content", PATTERN RECOGNITION AND ARTIFICIAL INTELLIGENCE, vol. 27, no. 2, 28 February 2014 (2014-02-28), pages 141 - 145 *
LI, WENKUN ET AL.: "New Word Detection Based on Inner Combination Degree and Boundary Freedom Degree of Word", APPLICATION RESEARCH OF COMPUTERS, vol. 32, no. 8, 31 August 2015 (2015-08-31), pages 2302 - 2304 and 2342 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN109992766B (zh) * 2017-12-29 2024-02-06 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN108829658B (zh) * 2018-05-02 2022-05-24 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN109492224A (zh) * 2018-11-07 2019-03-19 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109670170A (zh) * 2018-11-21 2019-04-23 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111368535B (zh) * 2018-12-26 2024-01-16 珠海金山数字网络科技有限公司 一种敏感词识别方法、装置及设备
CN111400377B (zh) * 2020-04-27 2023-09-08 新奥新智科技有限公司 一种目标数据集的确定方法及装置
CN111400377A (zh) * 2020-04-27 2020-07-10 新智数字科技有限公司 一种目标数据集的确定方法及装置
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111753531B (zh) * 2020-06-28 2024-03-12 平安科技(深圳)有限公司 基于人工智能的文本纠错方法、装置、设备及存储介质
CN111768842A (zh) * 2020-07-06 2020-10-13 宁波方太厨具有限公司 中医证素的辨识方法、系统、电子设备及可读存储介质
CN111768842B (zh) * 2020-07-06 2023-08-11 宁波方太厨具有限公司 中医证素的辨识方法、系统、电子设备及可读存储介质
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN112732934B (zh) * 2021-01-11 2022-05-27 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN113051912B (zh) * 2021-04-08 2023-01-20 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置
CN113051912A (zh) * 2021-04-08 2021-06-29 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置
CN112800173A (zh) * 2021-04-14 2021-05-14 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备
CN113609844A (zh) * 2021-07-30 2021-11-05 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN113609844B (zh) * 2021-07-30 2024-03-08 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法
CN117056869A (zh) * 2023-10-11 2023-11-14 轩创(广州)网络科技有限公司 一种基于人工智能的电子信息数据关联方法及系统

Also Published As

Publication number Publication date
CN105955950A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
WO2017185674A1 (zh) 新词发现方法及装置
CN106844640B (zh) 一种网页数据分析处理方法
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
US20170140070A1 (en) Method of searching for relevant node, and computer therefor and computer program
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
TWI547815B (zh) Information retrieval method and device
US20180060314A1 (en) Multibyte heterogeneous log preprocessing
WO2022095637A1 (zh) 一种故障日志分类方法、系统、设备以及介质
US10331648B2 (en) Method, device and medium for knowledge base construction
WO2017096777A1 (zh) 文献归一方法、文献搜索方法及对应装置、设备和存储介质
WO2016095645A1 (zh) 笔画输入方法、装置和系统
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN110929510A (zh) 一种基于字典树的中文未登录词识别方法
CN105760366A (zh) 针对特定领域的新词发现方法
CN104685493A (zh) 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序
CN101853284A (zh) 面向互联网的有意义串的提取方法及装置
CN106126495B (zh) 一种基于大规模语料提词方法和装置
CN104346382A (zh) 使用语言查询的文本分析系统和方法
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN111444713A (zh) 新闻事件内实体关系抽取方法及装置
CN111339778A (zh) 文本处理方法、装置、存储介质和处理器
US10229105B1 (en) Mobile log data parsing
CN109829158A (zh) 核心专利挖掘方法
CN106682107B (zh) 数据库表关联关系确定方法及装置
CN113157857B (zh) 面向新闻的热点话题检测方法、装置及设备

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16900182

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16900182

Country of ref document: EP

Kind code of ref document: A1