WO2020063071A1

WO2020063071A1 - 基于卡方检验的句向量计算方法、文本分类方法及系统

Info

Publication number: WO2020063071A1
Application number: PCT/CN2019/097187
Authority: WO
Inventors: 黄友福; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: 厦门快商通信息技术有限公司
Priority date: 2018-09-27
Filing date: 2019-07-23
Publication date: 2020-04-02
Also published as: CN109522544A

Abstract

本发明公开了一种基于卡方检验的句向量计算方法、文本分类方法及系统，其通过对当前文本进行分词处理，并去除停用词，得到分词结果；计算所述分词结果中每个词的词向量；计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量，从而提高了句向量在特征维度的权值，降低了文本信息中词向量间的相互干扰，极大的提高文本分类的准确性。

Description

基于卡方检验的句向量计算方法、文本分类方法及系统

技术领域

本发明涉及自然语言计算机自动处理技术领域，特别是一种基于卡方检验的句向量计算方法及其应用该方法的文本分类方法及系统。

背景技术

文本分类(Text categorization)是自然语言处理的一个重要步骤。文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程.20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类.人工分类非常费时，效率非常低.90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣.目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用.

早期常用的文本分类技术是通过利用独热编码(One-Hot Encoding)的方法制定一个足够长的向量，向量的每个维度代表一个词或短语。当句子中出现特定维度的所指向词汇后，向量在该维度的值为1，否则为0。通过该独热编码的方法能将句子转化为固定长度的向量，但这这种方法存在向量空间不确定、向量维度爆炸等问题，导致模型训练效率低下。

目前常用的方法是先利用中文文本分词技术将长文本分割成词语，再利用word2vec(词向量技术)将词语转化为一定维度的向量，利用句子中词向量的算术平均值作为句向量。但是，采用该句向量的算法，当句子中包含的相关词汇比较多时，可能导致句向量的特征不够明显，从而导致文本分类的准确性较低。

发明内容

本发明为解决上述问题，提供了一种基于卡方检验的句向量计算方法、文本分类方法及系统，其通过对文本中的关键特征的加强，降低文本信息中词向量间的相互干扰，提高句向量在特征维度的权值，从而提高文本分类的准确性。

为实现上述目的，本发明采用的技术方案为：

一种基于卡方检验的句向量计算方法，其包括以下步骤：

a.对当前文本进行分词处理，并去除停用词，得到分词结果；

b.计算所述分词结果中每个词的词向量；

c.计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；

d.计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；

e.根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量。

优选的，所述的步骤a中，还包括对所述当前文本进行上下文扩展得到扩展文本，再对所述扩展文本进行分词处理。

优选的，所述的步骤b中，是指利用训练好的词向量模型对所述分词结果进行计算词向量；所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果，再将所述分词结果输入到所述词向量模型中进行训练，得到所述训练语料的每个词的词向量。

优选的，所述的步骤c中，计算每个词向量与预设类别之间的卡方值，所述预设类别是指利用预设分类算法对每个词向量进行类别识别，或者通过对每个词向量进行类别标注，得到每个词向量对应的所属类别。

优选的，所述的步骤c中，根据所述卡方值将所述词向量划分为特征词和非特征词，是指将卡方值小于或等于预设值的词向量作为特征词，并将卡方值大于预设值的词向量作为非特征词；或者，按照卡方值从小到大的顺序对所述词向量进行排序，并将排序在前的预设数量的词向量作为特征词，排序在后的其他词向量作为非特征词。

优选的，所述的步骤d中，计算所述特征词在所述预设类别中的使用频率，是指将语料库按照预设类别进行分类，得到不同类别的文本集；然后计算所述特征词在每个类别的文本集中所占的比例。

优选的，所述的步骤d中，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值，是指将所述比例的最大值作为所述特征词的权值，即得到所述第一权值；并将预设常数作为所述非特征词的权值，即得到所述第二权值。

优选的，所述的步骤e中，所述句向量的计算方法为：对于对于所述当前文本中的每个词向量，若为特征词，则将特征词的词向量乘以对应的第一权值并累加；若为非特征词，则将非特征词的词向量乘以对应的第二权值并累加；最后将得到的词向量之和除以所有词向量的权值之和，得到所述句向量；即：

句向量＝(特征词1的词向量*第一权值1+特征词2的词向量*第一权值2+……+特征词m的词向量*第一权值m+非特征词1的词向量*第二权值1+非特征词2的词向量*第二权值2+……+非特征词n的词向量*第二权值n)/(第一权值1+第一权值2+……+第一权值m+第二权值1+第二权值2+……+第二权值n))。

进一步的，本发明还提供一种文本分类方法，其采用上述任一项所述的基于卡方检验的句向量计算方法，并根据所述句向量对当前文本进行文本分类；即，将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。

对应的，本发明还提供一种文本分类系统，其包括：

文本预处理模块，用于对当前文本进行分词处理，并去除停用词，得到分词结果；

词向量计算模块，用于计算所述分词结果中每个词的词向量；

卡方检验模块，用于计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；

权值设置模块，其通过计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；

句向量计算模块，其根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量；

文本分类模块，其根据所述句向量对当前文本进行文本分类；即，将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。

本发明的有益效果是：

(1)本发明通过对文本中的关键特征的加强，降低文本信息中词向量间的相互干扰，提高句向量在特征维度的权值，从而提高文本分类的准确性；

(2)本发明根据特征词与非特征词，并结合特征词的使用频率，对每个词向量的权值进行设置，从而提高句向量在特征维度的权值，减少无关词语扰动，从而提升句向量对句子语义的表达效果；

(3)本发明还进一步对所述当前文本进行上下文扩展得到扩展文本，再对所述扩展文本进行分词处理，通过增加上下文词语的权重来得到当前句子的向量，使得句向量对句子语义的表达效果更准确；

(4)本发明的文本分类方法是将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型，使得模型预测结果评价有明显提升。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于卡方检验的句向量计算方法的流程简图；

图2为本发明一种文本分类方法的流程简图；

图3为本发明一种文本分类系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种基于卡方检验的句向量计算方法，其包括以下步骤：

b.计算所述分词结果中每个词的词向量；

所述的步骤a中，还包括对所述当前文本进行上下文扩展得到扩展文本，再对所述扩展文本进行分词处理。优选的，将当前文本进行向上和/或向下扩展至三个句子以上。例如，若当前文本为文本的中间句子，则所述扩展文本包括当前句子、当前句子的上一个句子、当前句子的下一个句子；若当前文本为文本的第一个句子，则所述扩展文本包括当前句子和当前句子的下两个句子；若当前文本为文本的最后一个句子，则所述扩展文本包括当前句子和当前句子的上两个句子。所述的步骤a中，去除停用词，是通过查找停用词表，并将分词结果中存在于所述停用词表中的词语作为停用词去除；并且，进一步将去除停用词后的词语进行词性还原。所述的步骤a中，分词技术主要是采用结巴分词(Jieba)，结巴分词是对中文句子按词语粒度进行拆分，支持三种分词模式：一是精确模式，试图将句子最精确地切开，适合文本分析；二是全模式，把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义；三是搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。同时还能支持繁体分词和自定义词典。

所述的步骤b中，是指利用训练好的词向量模型对所述分词结果进行计算词向量；所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果，再将所述分词结果输入到所述词向量模型中进行训练，得到所述训练语料的每个词的词向量。本实施例中，所述词向量模型采用word2vec模型，将训练语料的分词结果输入所述模型中进行训练，得到训练好的word2vec模型，使用时，再将当前文本的分词结果输入所述训练好的word2vec模型中，将分词结果转换为词向量集合。其中，word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。word2vec主要分为CBOW(Continuous Bag of Words)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词；而Skip-Gram正好相反，是从目标字词推测出原始语句。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好，本领域技术人员可根据实际需要进行选择所需的模式。

所述的步骤c中，计算每个词向量与预设类别之间的卡方值，所述预设类别是指利用预设分类算法对每个词向量进行类别识别，或者通过对每个词向量进行类别标注，得到每个词向量对应的所属类别。其中，所述预设的分类算法可采用朴素贝叶斯(Naive Bayes,NB)、决策树(Decision Tree,DT)、K近邻(K-nearest neighbors,KNN)等等。也可采用直接对所述词向量进行人工标注所属类别。

卡方检验(Chi-square test)是现代统计学的创始人之一，英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法，可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等等。本实施例中，对于已完成类别标注的训练集文本，针对每个词语及训练集中所包含的所有文本类别分别构造一个实际值独立四格表A。

表A如下所示：:

组别	属于类别C _i	不属于类别C _i	合计
包含词语W _i	a	b	a+b
不包含词语W _i	c	d	c+d
合计	a+c	b+d	n＝a+b+c+d

因此，属于类别Ci的概率P＝(a+c)/n,同时，可以计算得出理论值独立四格表T。

表T如下所示：

组别	属于类别C _i	不属于类别C _i
包含词语W _i	ɑ＝(a+b)*P	β＝(a+b)*(1-P)
不包含词语W _i	θ＝(c+d)*P	γ＝(c+d)*(1-P)

独立四格表卡方值计算公式：

利用卡方值计算公式可以计算出与每个词语与每个类别之间的卡方值，进而判断该词语与类别之间的关联度：卡方值越大，则说明二者之间发散性越大，相关度越低；反之则说明二者相关度较高。

所述的步骤c中，根据所述卡方值将所述词向量划分为特征词和非特征词，是指将卡方值小于或等于预设值的词向量作为特征词，并将卡方值大于预设值的词向量作为非特征词；或者，按照卡方值从小到大的顺序对所述词向量进行排序，并将排序在前的预设数量的词向量作为特征词，排序在后的其他词向量作为非特征词。

所述的步骤d中，计算所述特征词在所述预设类别中的使用频率，是指将语料库按照预设类别进行分类，得到不同类别的文本集；然后计算所述特征词在每个类别的文本集中所占的比例。

所述的步骤d中，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值，是指将所述比例的最大值作为所述特征词的权值，即得到所述第一权值；并将预设常数作为所述非特征词的权值，即得到所述第二权值。

所述的步骤e中，所述句向量的计算方法为：对于对于所述当前文本中的每个词向量，若为特征词，则将特征词的词向量乘以对应的第一权值并累加；若为非特征词，则将非特征词的词向量乘以对应的第二权值并累加；最后将得到的词向量之和除以所有词向量的权值之和，得到所述句向量；即：

如图2所示，本发明还提供一种文本分类方法，其采用上述任一项所述的基于卡方检验的句向量计算方法，并根据所述句向量对当前文本进行文本分类；本实施例中，所述文本分类方法是将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。

如图3所示，本发明还提供一种文本分类系统，其包括：

文本分类模块，其根据所述句向量对当前文本进行文本分类。

本实施例中，所述文本分类模块是将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

一种基于卡方检验的句向量计算方法，其特征在于，包括以下步骤：

a.对当前文本进行分词处理，并去除停用词，得到分词结果；

b.计算所述分词结果中每个词的词向量；

c.计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；

d.计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；

e.根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量。
根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤a中，还包括对所述当前文本进行上下文扩展得到扩展文本，再对所述扩展文本进行分词处理。
根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤b中，是指利用训练好的词向量模型对所述分词结果进行计算词向量；所述词向量模型的训练是通过对训练语料进行分词处理和去除停用词得到分词结果，再将所述分词结果输入到所述词向量模型中进行训练，得到所述训练语料的每个词的词向量。
根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤c中，计算每个词向量与预设类别之间的卡方值，所述预设类别是指利用预设分类算法对每个词向量进行类别识别，或者通过对每个词向量进行类别标注，得到每个词向量对应的所属类别。
根据权利要求1或4所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤c中，根据所述卡方值将所述词向量划分为特征词和非特征词，是指将卡方值小于或等于预设值的词向量作为特征词，并将卡方值大于预设值的词向量作为非特征词；或者，按照卡方值从小到大的顺序对所述词向量进行排序，并将排序在前的预设数量的词向量作为特征词，排序在后的其他词向量作为非特征词。
根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤d中，计算所述特征词在所述预设类别中的使用频率，是指将语料库按照预设类别进行分类，得到不同类别的文本集；然后计算所述特征词在每个类别的文本集中所占的比例。
根据权利要求6所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤d中，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值，是指将所述比例的最大值作为所述特征词的权值，即得到所述第一权值；并将预设常数作为所述非特征词的权值，即得到所述第二权值。
根据权利要求1所述的一种基于卡方检验的句向量计算方法，其特征在于：所述的步骤e中，所述句向量的计算方法为：对于对于所述当前文本中的每个词向量，若为特征词，则将特征词的词向量乘以对应的第一权值并累加；若为非特征词，则将非特征词的词向量乘以对应的第二权值并累加；最后将得到的词向量之和除以所有词向量的权值之和，得到所述句向量；即：

句向量＝(特征词1的词向量*第一权值1+特征词2的词向量*第一权值2+……+特征词m的词向量*第一权值m+非特征词1的词向量*第二权值1+非特征词2的词向量*第二权值2+……+非特征词n的词向量*第二权值n)/(第一权值1+第一权值2+……+第一权值m+第二权值1+第二权值2+……+第二权值n))。
一种文本分类方法，其特征在于，采用权利要求1至7任一项所述的基于卡方检验的句向量计算方法，并根据所述句向量对当前文本进行文本分类；即，将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。
一种文本分类系统，其特征在于，包括：

文本预处理模块，用于对当前文本进行分词处理，并去除停用词，得到分词结果；

词向量计算模块，用于计算所述分词结果中每个词的词向量；

卡方检验模块，用于计算每个词向量与预设类别之间的卡方值，并根据所述卡方值将所述词向量划分为特征词和非特征词；

权值设置模块，其通过计算所述特征词在所述预设类别中的使用频率，根据所述使用频率对所述特征词赋予第一权值，并对所述非特征词赋予第二权值；且所述第一权值大于所述第二权值；

句向量计算模块，其根据所述特征词和所述非特征词的词向量及对应的权值，计算所有词向量的加权平均值，作为当前文本的句向量；

文本分类模块，其根据所述句向量对当前文本进行文本分类；即，将当前文本及对应的句向量输入基于随机森林的意图识别分类模型中进行预测，并输出当前文本的所属类型。