WO2017185674A1

WO2017185674A1 - 新词发现方法及装置

Info

Publication number: WO2017185674A1
Application number: PCT/CN2016/102448
Authority: WO
Inventors: 康潮明
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2016-04-29
Filing date: 2016-10-18
Publication date: 2017-11-02
Also published as: CN105955950A

Abstract

本发明实施例涉及一种新词发现方法及装置，所述方法包括：从目标文本库中的目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；计算词素t_i的子集w的上下文关联度d，并将d值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；计算词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，对候选新词集合W_h进行过滤，提取新词保存为新词集合W。本发明实施例有效地结合信息熵算法分析和关联规则算法分析，可有效提高新词发现的准确度。

Description

新词发现方法及装置

交叉引用

本发明引用于2016年4月29日提交的专利名称为“新词发现方法及装置”的第2016102826250号中国专利申请，其通过引用被全部并入本发明。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种新词发现方法及装置。

背景技术

利用计算机分析处理自然语言信息时，经常会碰到新词提取。目前，新词提取的方法主要有两种方式：一种是基于统计的方法，另一种是基于词典和规则相结合的方法。基于统计的方法对于查找较短的短语较为适用，但是，单纯利用统计的方法则会因为忽略了词语内部的结构和词与词之间的构词能力等特性；而基于词典和规则相结合的方法则往往局限于某个特定的领域，这是因为规则的制定一般是针对具体领域的，灵活性比较差，而全面制定出一套合适的规则是一项既费时又费力的工作。

发明内容

本发明所要解决的技术问题在于，提供一种新词发现方法，以有效提高新词发现准确率。

本发明进一步所要解决的技术问题在于，提供一种新词发现装置，以有效提高新词发现准确率。

为解决上述技术问题，本发明实施例提供如下技术方案：一种新词发现方法，包括以下步骤：

分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；

获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；

使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

进一步地，所述分析处理目标文本库中的目标文本，从所述目标文本中提取词素构建词素集合具体包括：

以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中子集C_i＝c_ic_i+1c_i+2…c_i+m；

保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个元素按照C_i的方式构建的词素集合；以及

对所有的目标文本均按照上述方式处理分别构建词素集合H。

进一步地，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d的具体步骤如下：

对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

获取子集w对应的上下文关联度d＝min{H(L)，H(R)}。

进一步地，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度的具体步骤如下：

从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组；

将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算两个词语wordA、wordB的支持度和置信度；

判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。

本发明实施例还提供了一种新词发现装置，其包括：

二元组集合构造模块，分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示二元组的形式，形成二元组集合T；

信息熵算法分析模块，获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；

关联规则算法分析模块，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

新词提取模块，求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

进一步地，所述二元组集合构造模块又包括：

分割单元，以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

子集构建单元，对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中子集C_i＝c_ic_i+1c_i+2…c_i+m；

词素集合构建单元，保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个元素按照C_i的方式构建的词素集合；以及

汇总单元，对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。

进一步地，信息熵算法分析模块包括：

获取邻字单元，对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

邻字集合单元，分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

信息熵计算单元，计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

关联度比较及汇总单元，获取子集w对应的上下文关联度d＝nin{H(L)，H(R)}，比较d的值与预先设置的阈值，如果大于阈值，则将子集w加入到第一候选词集合W_s中。

进一步地，关联规则算法分析模块包括：

挑选单元，从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组；

支持度和置信度计算单元，将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算wordA、wordB的支持度和置信度；以及

判断及汇总单元，判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。

本发明实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上文所述的方法。

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如上文所述的方法。

本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上文所述的方法。采用上述技术方案后，本发明实施例至少具有如下有益效果：本发明实施例是一种基于计算机信息处理技术的非结构化文本新词发现方法，本发明实施例的方法和装置一方面通过信息熵算法分析从目标文本中提取出来的词素的上下文邻接关系，充分利用文本的结构信息，能够有效地提高判断新词边界的准确率；另一方面，本发明实施例还通过关联规则算法将候选词内部与外部信息充分结合起来，有效地提高了新词发现的准确度。

附图说明

图1是本发明实施例提供的一种新词发现方法的步骤流程示意图；

图2是本发明实施例提供的一种新词发现装置的系统构成原理框图；

图3是本发明实施例提供的一种新词发现装置的信息熵算法分析模块的系统构成原理框图；

图4是本发明实施例提供的一种新词发现装置的关联规则算法分析模块的系统构成原理框图；

图5是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。应当理解，以下的示意性实施例及说明仅用来解释本发明，并不作为对本发明的限定，而且，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互结合。

如图1所示，本发明实施例提供一种新词发现方法，包括以下步骤；

步骤S1，分析处理目标文本库中的目标文本，从中提取词素，构建词素集合H，有多篇目标文本时，还将所获得的各目标文本对应的词素集合H进行合并，再统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；

步骤S2，获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；

步骤S3，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

步骤S4，求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

下边对以上各步骤的具体操作分别详细描述。

步骤S1、构建词素集合

对一篇目标文本进行分析处理的具体操作又包括如下步骤：

步骤S11，以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，预定的分割符号通常是指标点符号，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

步骤S12，对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中 C_i＝c_ic_i+1c_i+2…c_i+m；

步骤S13，保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个子集按照C_i的方式构建的词素集合；以及

步骤S14，对所有的目标文本均按照上述方式进行构建词素集合H，然后将所提取的所有目标文本对应的词素集合H进行合并，再分别统计集合中每个词素出现的频次，每个词素表示成二元组<词素，频次>的形式，所有二元组汇总构成的二元组集合记作T。

在本发明的一个实施例中，设定m＝4，则C_i＝c_ic_i+1c_i+2c_i+3，以C₁为例，C1＝c₁c₂c₃c₄，对C₁按照字符进行分割，构成词素集合h₁＝{c₁，c₂，c₃，c₄，c₁c₂，c₂c₃，c₃c₄，c₁c₂c₃，c₂c₃c₄}，对集合P中的每个子集Ci，均按照C1的方式进行构建词素集合hi，最后得到该篇文本的总词素集合T。

步骤S2、通过信息熵算法分析上下文邻接关系

信息熵是一个相对抽象的概念，可以理解成某种特定信息的出现概率，能够反映一个变量所带来信息量的大小。计算公式如下：

H(x_i)＝-p(x_i)log(p(x_i))，其中，p(x_i)表示事件x_i发生的概率。

在文本处理中，字串的左右信息熵体现了字串在上下文关联程度。如果某个字串具有较高的左右熵，说明它上下文搭配对象丰富，使用上具有较大的灵活性和独立性。一个独立的词语，自身会存在这些特征，因此，本发明实施例通过计算字串的左右信息熵来判断该词是否是一个新词。

在本步骤S2中，对于二元组集合T中每个二元组中的词素t_i的子集w，运用信息熵算法计算词素t_i的子集w的上下文关联度d的具体步骤如下：

步骤S21，对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

步骤S22，分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

步骤S23，计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

步骤S24，获取子集w对应的上下文关联度d＝min{H(L)，H(R)}，比较d的值与预先设置的阈值，如果大于阈值，则将w加入到第一候选词集合W_s中；

步骤S25，对二元组集合T中的每个元素，按照上述步骤处理，最后得到集合W_s＝{w₁，w₂，...，w_n}。

步骤S3、使用关联规则算法挖掘词素的频繁项集

关联规则算法(Apriori算法)是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的，该算法的核心思想是基于频集理论的一种递推方法，目的是从数据中挖掘出那些支持度和置信度都不低于给定的最小支持度阈值和最小置信度阈值的项与项之间的关联关系。

对于项A和项B，Apriori算法通常分为下面几个步骤：

(1)计算支持度，即A与B的联合概率。计算公式如下：

P(A，B)＝count(A∩B)/(count(A)+count(B))

其中，count(A∩B)表示A和B同时出现的频次，count(A)表示A出现的频次，count(B)表示B出现的频次。

(2)获取频繁项集。将支持度P(A，B)大于等于预先设定最小支持度阈值的(A，B)元组，作为频繁项集。

(3)计算置信度，即在A发生条件下B发生的概率。计算公式如下：

P(B|A)＝P(A,B)/P(A)

其中，P(A，B)为上一步计算得到的支持度，P(A)为A发生的概率。

(4)获取关联项集。在第(2)步得到的频繁集中，将满足置信度P(B|A)大于预先设定最小置信度阈值的元组，作为最后的关联项集。

而具体到本发明实施例的方法中，是在本步骤S3中，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，其具体步骤如下：

步骤S31，从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组，优选地，所挑选的两个二元组最好是在同一个短句中分析获得的；

步骤S32，将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算两个词语wordA、wordB的支持度和置信度，也就是对应的二元组的词素t_i的支持度和置信度；

步骤S33，判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。

步骤S4、过滤提取新词

本步骤S4具体是利用常用词词典对候选词集合进行过滤，提取新词汇总成新词集合，其在具体操作时又包括：

步骤S41、求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h；

步骤S42、使用常用词词典对候选新词集合W_h进行过滤，去掉已经包含在常用词词典里面的词语，余下的词语即作为提取出来的新词保存到新词集合W中。

为更好地实施上述方法，本发明实施例还提供了一种新词发现装置，其包括：

二元组集合构造模块10，逐篇分析处理目标文本库中的各目标文本，从中提取词素构建词素集合H，并将所获得的各目标文本对应的词素集合H进行合并，再统计每个词素出现的频次，将每个词素表示二元组的形式，形成二元组集合T；

信息熵算法分析模块20，使用信息熵算法计算二元组集合T中每个二元组中的词素t_i的子集w的上下文关联度，并将上下文关联度大于或等于预设关联度阈值的元素子集w汇总形成第一候选词集合W_s；

关联规则算法分析模块30，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

新词提取模块40，求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

其中，所述二元组集合构造模块10又包括：

分割单元100，以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，预定的分割符号通常是指标点符号，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

子集构建单元102，对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中子集C_i＝c_ic_i+1c_i+2…c_i+m；

词素集合构建单元104，保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个元素按照C_i的方式构建的词素集合；以及

汇总单元106，对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。

而如图3所示，所述信息熵算法分析模块20又可进一步包括：

获取邻字单元200，对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

邻字集合单元202，分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

信息熵计算单元204，计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

关联度比较及汇总单元206，获取子集w对应的上下文关联度d＝nin{H(L)，H(R)}，比较d的值与预先设置的阈值，如果大于阈值，则将w 加入到集合W_s中。

如图4所示，所述关联规则算法分析模块30又还可进一步包括：

挑选单元300，从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组，优选挑选在同一个短句中分析获得的两个二元组；

支持度和置信度计算单元302，将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算wordA、wordB的支持度和置信度，也就是对应的二元组的词素t_i的支持度和置信度；以及

判断及汇总单元304，判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。

为更好地实施上述方法，本发明实施例还提供了电子设备的结构框图。参照图5，所述电子设备，包括：至少一个处理器(processor)501；以及与所述处理器通信连接的至少一个存储器(memory)502，其中：

所述处理器501、存储器502通过所述总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法,例如包括：分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。

本发明实施例的方法和装置一方面通过信息熵算法分析从目标文本中提取出来的词素的上下文邻接关系，充分利用文本的结构信息，能够有效地提高判断新词边界的准确率；另一方面，本发明实施例还通过关联规则算法将候选词内部与外部信息充分结合起来，有效地提高了新词发现的准确度。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

一种新词发现方法，其特征在于，包括以下步骤：

分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示为二元组的形式，形成二元组集合T；

获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；

使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。
如权利要求1所述的新词发现方法，其特征在于，所述分析处理目标文本库中的目标文本，从所述目标文本提取词素构建词素集合具体包括：

以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中子集C_i＝c_ic_i+1c_i+2…c_i+m；

保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个元素按照C_i的方式构建的词素集合；以及

对所有的目标文本均按照上述方式处理分别构建词素集合H。
如权利要求1所述的新词发现方法，其特征在于，根据信息熵算法计算所述左邻字和右邻字的上下文关联度d的具体步骤如下：

对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

获取子集w对应的上下文关联度d＝min{H(L)，H(R)}。
如权利要求1所述的新词发现方法，其特征在于，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度的具体步骤如下：

从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组；

将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算两个词语wordA、wordB的支持度和置信度；

判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。
一种新词发现装置，其特征在于，包括：

二元组集合构造模块，分析处理目标文本库中的目标文本，从所述目标文本中提取词素，构建词素集合H，统计所述词素出现的频次，将所述词素和所述词素出现的频次表示二元组的形式，形成二元组集合T；

信息熵算法分析模块，获取所述二元组集合T中每个二元组中的词素t_i的子集w的左邻字和右邻字，根据信息熵算法计算所述词素t_i的子集w的上下文关联度d，并将上下文关联度d的值大于或等于预设关联度阈值的词素t_i的子集w汇总形成第一候选词集合W_s；

关联规则算法分析模块，使用关联规则算法计算二元组集合T中每个二元组中的词素t_i的支持度和置信度，将支持度和置信度均大于或等于对应的最小阈值的词素t_i汇总形成第二候选词集合W_t；以及

新词提取模块，求得第一候选词集合W_s和第二候选词集合W_t的交集作为候选新词集合W_h，再对候选新词集合W_h进行过滤，提取新词保存为新词集合W。
如权利要求5所述的新词发现装置，其特征在于，所述二元组集合构造模块又包括：

分割单元，以预定的分割符号为分割标准对目标文本进行分割，得到句子集合S，集合S中的每一个短句为S_i＝{c₁c₂c₃...c_n}，其中，c_i表示句子中的每个字符；

子集构建单元，对集合S中的每一个短句S_i＝{c₁c₂c₃...c_n}，按照字符在短句中的顺序，取窗口大小为m的子集，构建集合P＝{C₁，C₂，…，C_n}，其中子集C_i＝c_ic_i+1c_i+2…c_i+m；

词素集合构建单元，保持每个字符在C_i中的顺序不变，抽取集合P的子集C_i按照字符进行分割构建词素集合h_i，将集合P中的每个子集分别构建的词素集合汇总获得该目标文本的词素集合H＝{h₁，h₂...h_n}，其中，h_i是P集合中的每个元素按照C_i的方式构建的词素集合；以及

汇总单元，对所有的目标文本均按照上述方式处理分别构建的词素集合H进行汇总获得总词素集合。
如权利要求5所述的新词发现装置，其特征在于，信息熵算法分析模块包括：

获取邻字单元，对二元组集合T中每个二元组中的词素t_i＝{c₁c₂...c_n}(n≥3)进行切割，分别获取该词素t_i的子集w＝(c₂...c_n-1)的左邻字c₁和右邻字c_n；

邻字集合单元，分析二元组集合T中所有二元组的词素t_i，从包含子集w的词素t_i中提取子集w的所有的左邻字构成集合L＝{l₁，l₂，...l_n}，提取子集w的所有右邻字构成集合R＝{r₁，r₂，...r_n}；

信息熵计算单元，计算L集合中每个左邻字l_i出现的概率p(l_i)，然后利用信息熵公式计算该左邻字的信息熵H(l_i)，w对应的左邻字信息熵H(L)＝ΣH(l_i)，以相同的方式计算出w对应的右邻字信息熵H(R)＝ΣH(r_i)；以及

关联度比较及汇总单元，获取子集w对应的上下文关联度d＝nin{H(L)，H(R)}，比较d的值与预先设置的阈值，如果大于阈值，则将子集w加入到第一候选词集合W_s中。
如权利要求5所述的新词发现装置，其特征在于，关联规则算法分析模块包括：

挑选单元，从二元组集合T中挑选任意两个从同一篇目标文本中分析获得的二元组；

支持度和置信度计算单元，将挑选出来的两个二元组中的词素t_i分别记作wordA、wordB，并分别计算wordA、wordB的支持度和置信度；以及

判断及汇总单元，判断计算所得的二元组的词素t_i的支持度和置信度是否大于或等于相应的最小阈值，将支持度和置信度均大于或等于相应的最小阈值的二元组的词素t_i加入到第二候选词集合W_t中。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述处理器、存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至4任一所述的方法。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。