WO2021027218A1

WO2021027218A1 - 文本分类的方法、装置以及计算机可读介质

Info

Publication number: WO2021027218A1
Application number: PCT/CN2019/126947
Authority: WO
Inventors: 彭程
Original assignee: 北京国双科技有限公司
Priority date: 2019-08-12
Filing date: 2019-12-20
Publication date: 2021-02-18
Also published as: CN112395412A; CN112395412B

Abstract

一种文本分类的方法、装置以及计算机可读介质，通过获取输入的文本（S101）；根据输入的文本，计算得到文本的特征矩阵（S102）；根据文本的特征矩阵，计算得到文本的第一关联特征矩阵（S103）；文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量；第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性；根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵（S104）；其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量；分类预测向量用于说明每一个句子属于每一个预设标签的权重值。该方法在计算文本的分类预测矩阵时，考虑到文本中的每一个句子与文本中其他句子的关联性，因此提高了文本预测分类的准确度。

Description

文本分类的方法、装置以及计算机可读介质

本申请要求于2019年08月12日提交中国专利局、申请号为201910741430.1、发明名称为“文本分类的方法、装置以及计算机可读介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及分类预测技术领域，尤其涉及一种文本分类的方法、装置以及计算机可读介质。

背景技术

文本分类是一种按照预定义的标签，对文本中的语句进行自动分类的技术，广泛应用于涉及自然语言处理的领域中。现有的文本分类的方法大多采用朴素贝叶斯、支持向量机、非线性深度神经网络等模型进行文本分类。

然而，文本中的句子通常都具有一定的顺序，每一个句子与周围句子间也具有相关特性。而现有的文本分类方法中，只考虑了对每一个句子单独进行特征提取，没有考虑到每一个句子与周围句子的相关性特征，造成预测分类的准确度并不高。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的文本分类的方法、装置以及计算机可读介质，以通过提取每一个句子的特征向量与其他句子的特征向量间的关联特征，提高文本预测分类的准确度。

本发明第一方面公开了一种文本分类的方法，包括：

获取输入的文本；其中，所述文本由多个句子按照特定的顺序排列构成；

根据所述输入的文本，计算得到文本的特征矩阵；其中，所述文本的特征矩阵包括所述文本中每一个句子的特征向量；

根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵；其中，所述文本的第一关联特征矩阵包括所述文本中每一个句子的第一关联特征向量；所述每一个句子的第一关联特征向量用于说明所述每一个句子与所述文本中的其他句子间的关联性；

根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵；其中，所述文本的分类预测矩阵包括所述文本中每一个句子的分类预测向量；所述每一个句子的分类预测向量用于说明所述每一个句子属于每一个预设标签的权重值。

可选地，在上述文本分类的方法中，所述根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵，包括：

基于双向循环神经网络模型，根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵。

可选地，在上述文本分类的方法中，所述根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵，包括：

基于卷积神经网络模型，根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵。

可选地，在上述文本分类的方法中，所述根据所述输入的文本，计算得到文本的特征矩阵，包括：

根据嵌入矩阵，将所述文本中的每一个句子中的单词转换成相对应的单词向量，得到所述文本中的每一个句子的原始矩阵；其中，所述每一个句子的原始矩阵包括所述每一个句子中的单词对应的单词向量；

基于双向循环神经网络模型，根据所述文本中的每一个句子的原始矩阵，计算得到所述文本中的每一个句子的第二关联特征矩阵；其中，所述每一个句子的第二关联特征矩阵包括所述每一个句子中的单词对应的第二关联特征向量；每一个单词对应的第二关联特征向量用于说明所述每一个单词与句子中的其他单词的关联性；

拼接所述文本中的每一个句子的原始矩阵以及对应的所述第二关联特征矩阵，得到所述文本中的每一个句子的拼接矩阵；

基于卷积神经网络模型，利用多个卷积核对所述文本中的每一个句子的拼接矩阵进行深层特征提取，得到所述文本中的每一个句子对应的多个卷积特征向量；

对所述每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到所述每一个句子的特征向量；

按照所述特定的顺序排列，将所述文本中每一个句子的特征向量组成所述文本的特征矩阵。

可选地，在上述文本分类的方法中，所述根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵之后，还包括：

根据所述文本的分类预测矩阵，计算出所述文本中的每一个句子属于每一个预设标签的预测概率。

可选地，在上述文本分类的方法中，所述根据所述文本的分类预测矩阵，计算出所述文本中的每一个句子属于每一个预设标签的预测概率之后，还包括：

使用交叉熵作为损失函数，计算所述文本中的每一个句子属于每一个预设标签的预测概率与实际概率间的损失值；

根据所述损失值，调整所述文本分类的方法中使用的模型的参数。

本发明第二方面公开了一种文本分类的装置，包括：

获取单元，用于获取输入的文本；其中，所述文本由多个句子按照特定的顺序排列构成；

第一计算单元，用于根据所述输入的文本，计算得到文本的特征矩阵；其中，所述文本的特征矩阵包括所述文本中每一个句子的特征向量；

第二计算单元，用于根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵；其中，所述文本的第一关联特征矩阵包括所述文本中每一个句子的第一关联特征向量；所述每一个句子的第一关联特征向量用于说明所述每一个句子与所述文本中的其他句子间的关联性；

第三计算单元，用于根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵；其中，所述文本的分类预测矩阵包括所述文本中每一个句子的分类预测向量；所述每一个句子的分类预测向量用于说明所述每一个句子属于每一个预设标签的权重值。

可选地，在上述文本分类的装置中，所述第二计算单元，包括：

第一计算子单元，用于基于双向循环神经网络模型，根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵。

可选地，在上述文本分类的装置中，所述第三计算单元，包括：

第二计算子单元，用于基于卷积神经网络模型，根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵。

可选地，在上述文本分类的装置中，所述第一计算单元，包括：

嵌入单元，用于根据嵌入矩阵，将所述文本中的每一个句子中的单词转换成相对应的单词向量，得到所述文本中的每一个句子的原始矩阵；其中，所述每一个句子的原始矩阵包括所述每一个句子中的单词对应的单词向量；

第三计算子单元，用于基于双向循环神经网络模型，根据所述文本中的每一个句子的原始矩阵，计算得到所述文本中的每一个句子的第二关联特征矩阵；其中，所述每一个句子的第二关联特征矩阵包括所述每一个句子中的单词对应的第二关联特征向量；每一个单词对应的第二关联特征向量用于说明所述每一个单词与句子中的其他单词的关联性；

拼接单元，用于拼接所述文本中的每一个句子的原始矩阵以及对应的所述第二关联特征矩阵，得到所述文本中的每一个句子的拼接矩阵；

卷积单元，用于基于卷积神经网络模型，利用多个卷积核对所述文本中的每一个句子的拼接矩阵进行深层特征提取，得到所述文本中的每一个句子对应的多个卷积特征向量；

最大池化单元，用于对所述每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到所述每一个句子的特征向量；

组成单元，用于按照所述特定的顺序排列，将所述文本中每一个句子的特征向量组成所述文本的特征矩阵。

可选地，在上述文本分类的装置中，还包括：

第四计算子单元，用于根据所述文本的分类预测矩阵，计算出所述文本中的每一个句子属于每一个预设标签的预测概率。

可选地，在上述文本分类的装置中，还包括：

第五计算子单元，用于使用交叉熵作为损失函数，计算所述文本中的每一个句子属于每一个预设标签的预测概率与实际概率间的损失值；

调整单元，用于根据所述损失值，调整所述文本分类的方法中使用的模型的参数。

本发明第三方面公开了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如上述第一方面中任一所述的方法。

从上述技术方案可以看出，本申请实施例提出的文本分类的方法中，通过获取输入的文本，再根据输入的文本，得到文本的特征矩阵。其中，文本的特征矩阵包括文本中每一个句子的特征向量。根据文本的特征矩阵，可计算得到文本的第一关联特征矩阵。其中，文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量。每一个句子的第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性。根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量。其中，每一个句子的分类预测向量用于说明每一个句子属于每一个预设标签的权重值。由于本申请在计算文本的分类预测矩阵时，考虑到了文本中的每一个句子与文本中其他句子的关联性，因此提高了文本预测分类的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例公开的一种文本分类的方法的流程示意图；

图2为本发明实施例公开的一种计算文本的特征矩阵的方法的流程示意图；

图3为本发明实施例公开的一种卷积核和句子的拼接矩阵的位置关系示意图；

图4为本发明实施例公开的一种优化文本分类的方法中的模型的方法的流程示意图；

图5为本发明实施例公开的一种文本分类的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在很多场景中都需要对文本的内容进行分类，这些文本可能是来源于网络抓取，也可能是之前收录的。例如，在对从网络爬取的文本进行分析之前，要通过文本分类来确定文本的标题、正文、以及评论等部分，之后才能对不同的部分采用不同的方式进行分析，例如，确定标题和正文所涉及的对象、确定评论的情感倾向；再比如，一些论文网站为了便于用户能够快速了解到论文的核心内容，会对收集的论文进行文本分类处理，将每一篇论文的摘要文本中的句子，分成目标、背景、方法、结果和总结五类标签，并将论文的摘要文本按照分类标签呈现在网页上，以供用户阅读。用户通过分类后的摘要文本能够快速直观的了解到论文的核心内容。

然而，现有的文本分类方法只考虑了对每一个句子单独进行特征提取，没有考虑到每一个句子与周围句子的相关性特征，造成预测分类的准确度并不高。例如，对论文的摘要文本进行分类时，由于没有考虑到其中一个句子与周围句子的相关性，可能会出现将最后一个句子标记成背景标签这样的分类错误的情况，进而影响后续处理的准确性，例如，无法正确识别文本的感情倾向，错误地展示论文的核心内容。

针对上述问题，本申请公开了一种文本分类的方法、装置以及计算机可读介质。

参阅图1，本申请实施例公开了一种文本分类方法，具体包括以下步骤：

S101、获取输入的文本。

其中，文本由多个句子按照特定的顺序排列构成。步骤S101输入的文本可以是指文本序列，特定的顺序指的是一种排列顺序，即文本序列的排列结构。例如，输入的文本中包含有标题、正文以及结尾三个部分，这三个部分会按照先标题，然后到正文，最后是结尾的这一排列顺序进行排列，且每一个部分的句子也按照顺序进行排列。文本中的每一个句子由中文、英文、字符、数字等多种字符组合而成。执行步骤S101时，除了获取输入文本的字符信息外，还获取了输入的文本中的句子的排列顺序以及每一个句子中的单词的排列顺序信息。获取的输入的文本可以以句子为单位进行划分，以便后续分别对文本中每一个句子进行处理。

S102、根据输入的文本，计算得到文本的特征矩阵。

其中，文本的特征矩阵包括文本中每一个句子的特征向量。每一个句子的特征向量用于说明每一个句子的特征信息。例如，步骤S101中获取的输入文本中总共有n个句子，则文本的特征矩阵就是一个n×m的矩阵，即是一个n行m列的矩阵，由n个1×m的句子的特征向量组成。其中，m是每一个句子的特征向量的长度，具体可根据调整模型的参数值进行设定。

具体的，执行步骤S102时，分别对文本中的每一个句子进行特征提取，从句子中的单词的语义中提取到句子的特征信息，最终得到文本中每一个句子的特征向量，又按照特定顺序排列组合成文本的特征矩阵。例如，步骤S101中输入的文本一共包含有第一句子、第二句子以及第三句子。对第一句子进行特征提取后，得到第一句子的特征向量S1，对第二句子进行特征提取后，得到第二句子的特征向量S2，对第三句子进行特征提取后，得到第三句子的特征向量S3，并按照文本中本身句子的排序，将S1、S2以及S3进行组合，得到文本的特征矩阵S＝{S1，S2，S3}。

可选地，参阅图2，在本申请一具体实施例中，执行步骤S102的一种实施方式，包括：

S201、根据嵌入矩阵，将文本中的每一个句子中的单词转换成相对应的单词向量，得到文本中的每一个句子的原始矩阵。

其中，每一个句子的原始矩阵包括每一个句子中的单词对应的单词向量。而嵌入矩阵中包含有文本中所有的单词对应的单词向量，通过嵌入矩阵可将句子中的单词转换成单词向量来表示。

具体的，创建一个词汇表，词汇表中包含了多个可能会在文本中出现的单词，并按照顺序给每一个单词编号。可选地，可以采用离散的独热码给词汇表中的单词编号。然后再通过训练，将单词从离散的独热码表示映射到低维空间中的密集实值向量，即变成单词向量。并将词汇表中的单词所对应的单词向量全部堆叠在嵌入矩阵中。若词汇表中有n个单词，则嵌入矩阵为n×m的矩阵，其中m为单词向量的维度。执行步骤S201时，先是将文本中的每一个句子用单词的标识信息表示。根据单词的标识信息可以找到该单词在嵌入矩阵中的位置，进而可从嵌入矩阵中找到该单词对应的单词向量，并将该句子用单词向量进行表示，得到每一个句子的原始矩阵W＝{W1，W2，...，Wn}。其中，Wn指的是该句子中的第n个单词对应的单词向量。每一个句子的原始矩阵中都包含有句子中的单词的语义特征信息。需要说明的是，图1示出的步骤S101中输入的文本包含了多少个句子，步骤S201中就会得到多少个句子的原始矩阵。

S202、基于双向循环神经网络模型，根据文本中的每一个句子的原始矩阵，计算得到文本中的每一个句子的第二关联特征矩阵。

其中，每一个句子的第二关联特征矩阵包括每一个句子中的单词对应的第二关联特征向量。每一个单词对应的第二关联特征向量用于说明每一个单词与句子中的其他单词的关联性。例如，文本中的其中一个句子由n个单词组成，步骤S201得到的该句子的原始矩阵W＝{W1，W2，...，Wn}，将该句子的原始矩阵W输入至双向循环神经网络模型(Bidirectional Recurrent Neural Networks，Bi-RNN)中，从Bi-RNN中输出该句子的第二关联特征矩阵h＝{h1，h2，...，hn}。其中，hn为该句子第n个单词对应的第二关联特征向量，用于说明第n个单词与句子中其他单词的关联性。

Bi-RNN可以利用它内部的记忆来处理任意时序的输入序列。一个序列输入至Bi-RNN中，它当前的输出也会与之前的输出也有关。Bi-RNN会对前面的信息进行记忆，保存在网络的内部状态中，并应用于当前输出的计算中，即隐含层之间的节点是有链接的，并且隐含层的输入不仅包含输入层的输出还包含上一时刻隐含层的输出。因此，通过Bi-RNN可以处理句子中的单词间的关联性。步骤S201中得到的句子的原始矩阵W中，仅能说明句子中的单词的原始语义特征，而步骤S202得到的句子的第二关联特征矩阵，可说明了每一个句子中的单词之间的关联性。例如，对于文本中的一句“今天有火箭队的比赛”，单看句子中的“火箭”这个单词，可能会解释为一种飞行器，而联系后边的“队”这个单词，以及“比赛”这个单词，就可以得出“火箭”是指的球队名。需要说明的是，图1示出的步骤S101中输入的文本包含了多少个句子，步骤S202中就会得到多少个句子的第二关联特征矩阵。

还需要说明的是，步骤S202中可以使用的Bi-RNN的种类很多，例如双向长短期记忆神经网络(Bi-LSTM，Bidirectional Long Short-Term Memory)、双向门循环单元(Bi-GRU，Bidirectional Gated Recurrent Unit)等。

S203、拼接文本中的每一个句子的原始矩阵以及对应的第二关联特征矩阵，得到文本中的每一个句子的拼接矩阵。

将步骤S201中的每一个句子的原始矩阵以及对应的第二关联特征矩阵进行拼接，得到每一个句子的拼接矩阵。例如，文本中的其中一个句子含有n个单词，该句子从步骤S201中得到的原始矩阵为一个n×m矩阵，而该句子从步骤S202中得到的第二关联特征矩阵为一个n×l的矩阵，则拼接后的该句子的拼接矩阵为n×(m+l)的矩阵。文本中每一个句子的拼接矩阵既融合了句子原本单词的语义特征信息，又融合了句子中的单词间的关联性特征信息。

S204、基于卷积神经网络模型，利用多个卷积核对文本中的每一个句子的拼接矩阵进行深层特征提取，得到文本中的每一个句子对应的多个卷积特征向量。

其中，深层特征是相较于浅层特征而言，对分类来说更为重要的特征。卷积神经网络模型(Convolutional Neural Networks，CNN)中的卷积层由多个卷积核组成，卷积核的列数与句子的拼接矩阵的列数相同。若步骤S203中得到的句子的拼接矩阵为n×(m+l)的矩阵，那么卷积核的窗口大小就为k×(m+l)，其中k为小于n的数。具体举例说明，参阅图3，文本中的其中一个句子由8个单词构成，该句子的拼接矩阵302为8×4的大小。对该句子的拼接矩阵302进行深层特征提取时，则可采用卷积核的大小为3×4的矩阵301。卷积核301针对拼接矩阵302的这一范围内的特征组合进行深一层的特征提取，得到深层特征信息。可选地，还可以采用其他不同大小的卷积核对句子的拼接矩阵进行深层特征提取，例如，对于图3示出的拼接矩阵302，还可以采用4×4大小的卷积核、2×4大小的卷积核进行深层特征提取。

需要说明的是，卷积核中各元素的取值可以通过预先训练得到，根据最终的分类结果与实际分类的偏差对卷积核中个元素的取值进行修正，最终获得可信度较高的卷积核。

下面简要介绍利用卷积核对一个句子的拼接矩阵进行计算的过程。

以图3示出的句子的拼接矩阵302为例，根据以下公式对图3示出的8×4大小的拼接矩阵进行计算。

C _j＝σ(K _j·r _i：i+t-1+b _j)

其中，K _j为卷积核301，t为卷积区域的单词数(即卷积核的行数)，b _j为偏置项，r _i:i+t-1是句子的拼接矩阵302被卷积核301所覆盖的区域的矩阵，σ为激活函数。

图3示出卷积核K _j与拼接矩阵302的第一行对齐后，将卷积核301中的元素与拼接矩阵302中对应的元素进行相乘，即卷积核301中的一行一列的元素与拼接矩阵302中的一行一列的元素相乘、卷积核301中的一行二列的元素与拼接矩阵302中的一行二列的元素拼接相乘……这样图3示出的实施例中总共会得到3×4＝12个乘积，并将12个乘积累加后与b _j相加，得到的相加结果再代入至激活函数σ中，若相加结果大于0，即可直接将相加结果作为输出的结果，若相加结果小于或等于0，则将0作为输出的结果。需要说明的是，卷积核K _j与拼接矩阵302的第一行对齐时的输出结果为C ₁，卷积核K _j与拼接矩阵302的第二行对齐时的输出结果为C ₂……以此类推，该卷积核301最后可对齐至拼接矩阵302的第六行，因此对于句子的拼接矩阵302，通过计算可得到卷积特征向量C ¹＝{C ₁，C ₂，C ₃，C ₄，C ₅，C ₆}。其他的不同大小的卷积核的计算也与上述示出的执行过程及原理是相同的，此处不再赘述。若选用了5个不同大小的卷积核对句子的拼接矩阵进行计算，那么一共会得到5个长度不同的卷积特征向量。其中，选取卷积核的个数可根据实际情况进行调整。

还需要说明的是，偏置项b _j通过预先训练得到，根据最终的分类结果与实际分类的偏差对偏置项b _j的取值进行修正，最终获得可信度较高的偏置项b _j。

S205、对每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到每一个句子的特征向量。

具体的，将步骤S204得到的每一个句子对应的多个卷积特征向量分别提取出数值最大的一个元素，作为这个卷积特征向量处理后的结果，所有卷积特征向量的处理结果，按各卷积特征向量之间的相对位置关系排列，构成一个新的向量，就是每一个句子的特征向量。

例如，对图3示出的句子的拼接矩阵302采用卷积核301执行步骤S204的计算后，得到一个卷积特征向量C ¹＝{C ₁，C ₂，C ₃，C ₄，C ₅，C ₆}。从卷积特征向量C ¹中提取出数值最大的元素，作为卷积特征向量C ¹的最大池化操作处理的结果。同样的，对于其他不同于卷积核301大小的卷积核，也会从对应的卷积特征向量中提取出最大值的元素。最终，如果使用了5个卷积核，那么就会选取出5个元素，又按照相对位置关系排列，组成了一个大小为1×5的句子的特征向量。文本中的每一个句子经过上述转换后都会得到大小相同的特征向量。

经过最大池化操作后可得到保留了句子最主要的特征信息的向量，同时减少了参数数量，更利于后续处理。

需要说明的是，在本申请一具体实施例中，也可以直接对步骤S201得到的句子的原始矩阵或者步骤S202得到的句子的第二关联特征矩阵执行步骤S204及步骤S205。但采用步骤S203的句子的拼接矩阵计算出的句子的特征向量中，既有包含句子中的单词的原始语义特征，也包含了句子中单词间的关联性的特征，因此得到的句子的特征向量用于进行分类预测的话，准确率会更高。

S206、按照特定的顺序排列，将文本中每一个句子的特征向量组成文本的特征矩阵。

其中，步骤S206中说的特定的顺序，指的是图1示出的步骤S101文本中的句子的排列顺序。将步骤S205得到的文本中的每一个句子的特征向量，按照文本中的句子的排列顺序，组合成文本的特征矩阵。

S103、根据文本的特征矩阵，计算得到文本的第一关联特征矩阵。

其中，文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量。每一个句子的第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性。文本的特征矩阵记为S矩阵，若文本中共有P个句子，则文本的特征矩阵S＝{S1，S2，......，Sp}，其中，Sp表示为文本中第p个句子的特征向量。根据第p个句子的特征向量Sp与文本中其他句子间的关联性，可以计算得到第p个句子的第一关联特征向量Hp，文本的第一关联特征矩阵H＝{H1，H2，......，Hp}。文本的特征矩阵S中的第p个句子的特征向量Sp仅能说明第p个句子自身带有的的特征信息，而文本的第一关联特征矩阵H中的第p个句子的第一关联特征向量Hp则能结合除了第P个句子以外的其他句子的特征来说明第P个句子的特征信息。

可选地，在本申请一具体实施例中，执行步骤S103的一种实施方式，包括：

基于双向循环神经网络模型，根据文本的特征矩阵，计算得到文本的第一关联特征矩阵。

Bi-RNN可以利用它内部的记忆来处理任意时序的输入序列。一个序列输入至Bi-RNN中，它当前的输出也会与之前的输出也有关。Bi-RNN会对前面的信息进行记忆，保存在网络的内部状态中，并应用于当前输出的计算中，即隐含层之间的节点是有链接的，并且隐含层的输入不仅包含输入层的输出还包含上一时刻隐含层的输出。因此，通过Bi-RNN可以处理文本中的句子间的关联性。将步骤S102得到的文本的特征矩阵输入至Bi-RNN中，可得到能够说明句子间的关联性的文本的第一关联特征矩阵。

可选地，将文本的特征矩阵输入至Bi-RNN前，还可以先将文本的特征矩阵输入CNN中，经过卷积运算后再输入至Bi-RNN中。通过结合Bi-RNN模型以及CNN模型的优点，得到更优的文本的第一关联特征矩阵表示。

需要说明的是，步骤S103中可以使用的Bi-RNN的种类很多，例如双向长短期记忆神经网络(Bi-LSTM，Bidirectional Long Short-Term Memory)、双向门循环单元(Bi-GRU，Bidirectional Gated Recurrent Unit)等。

S104、根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。

其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量。每一个句子的分类预测向量用于说明每一个句子属于每一个预设标签的权重值。利用步骤S103得到的文本的第一关联特征矩阵H＝{H1，H2，......，Hp}，可得到文本的分类预测矩阵y＝{y1，y2，......，yp}。其中，yp表示第p个句子的分类预测向量。yp向量的长度与预设的分类标签的数目相同。例如，本申请实施例中需要将文本中的句子分成5类，那么每一个句子的分类预测向量的长度就为5，例如第p个句子的分类预测向量yp＝{yp1，yp2，yp3，yp4，yp5}。其中，yp1代表第p个句子属于第一类标签的权重值，yp2代表第p个句子属于第二类标签的权重值，yp3则代表第p个句子属于第三类标签的权重值……而yp1、yp2、yp3、yp4以及yp5中数值最大的一个，即代表着该句子的分类预测向量预测出的该句子所属的标签类别。

可选地，在本申请一具体实施例中，执行步骤S104的一种实施方式，包括：

基于卷积神经网络模型，根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。

将步骤S103得到的文本的第一关联特征矩阵输入至CNN中，经过CNN的卷积层将第一关联特征矩阵转换为实数矩阵输出，得到文本的分类预测矩阵。

需要说明的是，文本中的句子的分类标签可自定义设置。例如，可以将文本中的句子划分成正文、标题、结尾等类别，也可以依据文本中的句子具有的不同的功能进行分类。

可选地，在本申请一具体实施例中，执行步骤S104之后，还包括：

根据文本的分类预测矩阵，计算出文本中的每一个句子属于每一个预设标签的预测概率。

步骤S104得到的文本的分类预测矩阵中，每一个句子的分类预测向量中说明的是该句子属于每一个分类标签的绝对权重值，为了更直观的预测出该句子的所属的类别，需要计算出该句子属于每一个类别的预测概率。例如第p个句子的分类预测向量yp＝{yp1，yp2，yp3，yp4，yp5}，通过计算出yp1占总的权重值的比例，即可得到第p个句子属于第一类标签的预测概率。

可选地，使用以下公式来计算每一个句子属于每一个预设标签的预测概率：

其中，p _i标识该句子属于第i个类别的标签的预测概率；C指的是总的标签数；y _i指的是该句子属于第i个类别的标签的权重值。

计算出了每个类别的标签的预测概率后，选择预测概率值最大的标签作为该句子的分类标签，实现对文本的分类。

可选地，在本申请一具体实施例中，执行完步骤S104之后，还可以将文本的分类预测矩阵输入至条件随机场(Conditional Random Field，CRF)算法中，最终输出每一个句子所属的类别。虽然执行完步骤S104后，可以直接从每一个句子的分类预测向量选出权重值最大的标签作为句子所属于的类别标签。但这种方法只考虑到了针对该句子的局部最优解，而没有考虑到整体的最优解。CRF算法中使用到的转换矩阵引入了该句子属于i标签的情况下，该句子的下一个句子属于j标签的概率，因此可得到整体概率最优的一个输出结果，避免了不合理标注的情况。例如，对第3个句子标记为正文标签，对四个句子却标记为标题标签，这样的情况显然不合理，使用了CRF算法后就能避免这样的情况发生。

可选地，参阅图4，在本申请一具体实施例中，根据文本的分类预测矩阵，计算出文本中的每一个句子属于每一个预设标签的预测概率之后，还包括：

S401、使用交叉熵作为损失函数，计算文本中的每一个句子属于每一个预设标签的预测概率与实际概率间的损失值。

具体的，计算损失值的交叉熵公式为：

其中，Loss为文本分类的损失值，

是该句子属于第i类别标签的实际概率，p _i(a)为句子属于第i类别标签的预测概率，a表示文本，D表示训练数据，C表示总的类别标签数。

Loss值越小，则说明文本分类预测准确率越高。

S402、根据损失值，调整文本分类的方法中使用的模型的参数。

其中，调整文本分类的方法中使用的模型的参数指的是上述实施例中提到的Bi-RNN模型、CNN模型中的参数。通过对文本分类的方法中使用的模型进行参数调整，可提高文本分类的准确率。

具体的，执行步骤S402时，根据步骤S401得到的损失值Loss，通过反向传播算法对文本分类的方法中使用的模型的参数进行自动优化调整。直至调整后的模型符合预设的标准为止。可选地，在本申请一具体实施例中，当验证数据集的准确率、召回率等参数达到预设的标准后，即可结束对文本分类中使用到的模型进行参数优化。

本申请实施例提出的文本分类的方法中，通过获取输入的文本，再根据输入的文本，得到文本的特征矩阵。其中，文本的特征矩阵包括文本中每一个句子的特征向量。根据文本的特征矩阵，可计算得到文本的第一关联特征矩阵。其中，文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量。每一个句子的第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性。根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量。其中，每一个句子的分类预测向量用于说明每一个句子属于每一个预设标签的权重值。由于本申请在计算文本的分类预测矩阵时，考虑到了文本中的每一个句子与文本中其他句子的关联性，因此提高了文本预测分类的准确度。

参阅图5，基于上述本申请实施例公开的文本分类的方法，本申请实施例还对应公开了一种文本分类的装置500，包括：获取单元501、第一计算单元502、第二计算单元503以及第三计算单元504。

获取单元501，用于获取输入的文本。其中，文本由多个句子按照特定的顺序排列构成。

第一计算单元502，用于根据输入的文本，计算得到文本的特征矩阵。

其中，文本的特征矩阵包括文本中每一个句子的特征向量。

可选地，在本申请一具体实施例中，第一计算单元502，包括：嵌入单元、第三计算子单元、拼接单元、卷积单元、最大池化单元以及组成单元。

嵌入单元，用于根据嵌入矩阵，将文本中的每一个句子中的单词转换成相对应的单词向量，得到文本中的每一个句子的原始矩阵。其中，每一个句子的原始矩阵包括每一个句子中的单词对应的单词向量。

第三计算子单元，用于基于双向循环神经网络模型，根据文本中的每一个句子的原始矩阵，计算得到文本中的每一个句子的第二关联特征矩阵。其中，每一个句子的第二关联特征矩阵包括每一个句子中的单词对应的第二关联特征向量。每一个单词对应的第二关联特征向量用于说明每一个单词与句子中的其他单词的关联性。

拼接单元，用于拼接文本中的每一个句子的原始矩阵以及对应的第二关联特征矩阵，得到文本中的每一个句子的拼接矩阵。

卷积单元，用于基于卷积神经网络模型，利用多个卷积核对文本中的每一个句子的拼接矩阵进行深层特征提取，得到文本中的每一个句子对应的多个卷积特征向量。

最大池化单元，用于对每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到每一个句子的特征向量。

组成单元，用于按照特定的顺序排列，将所述文本中每一个句子的特征向量组成文本的特征矩阵。

第二计算单元503，用于根据文本的特征矩阵，计算得到文本的第一关联特征矩阵。其中，文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量。每一个句子的第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性。

可选地，在本申请一具体实施例中，第二计算单元503，包括：

第三计算单元504，用于根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量。每一个句子的分类预测向量用于说明每一个句子属于每一个预设标签的权重值。

可选地，在本申请一具体实施例中，第三计算单元504，包括：

第二计算子单元，用于基于卷积神经网络模型，根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。

可选地，在本申请一具体实施例中，文本分类的装置500还包括：

第四计算子单元，用于根据文本的分类预测矩阵，计算出文本中的每一个句子属于每一个预设标签的预测概率。

可选地，在本申请一具体实施例中，文本分类的装置500还包括：第五计算子单元和调整单元。

第五计算子单元，用于使用交叉熵作为损失函数，计算文本中的每一个句子属于每一个预设标签的预测概率与实际概率间的损失值。

调整单元，用于根据损失值，调整文本分类的方法中使用的模型的参数。

上述本申请实施例公开的文本分类的装置500中的具体的原理和执行过程，与上述本申请实施例公开的文本分类的方法相同，可参见上述本申请实施例公开的文本分类的方法中相应的部分，这里不再进行赘述。

本申请实施例提出的文本分类的装置500中，通过获取单元501获取输入的文本，再通过第一计算单元502根据输入的文本，得到文本的特征矩阵。其中，文本的特征矩阵包括文本中每一个句子的特征向量。第二计算单元503根据文本的特征矩阵，可计算得到文本的第一关联特征矩阵。其中，文本的第一关联特征矩阵包括文本中每一个句子的第一关联特征向量。每一个句子的第一关联特征向量用于说明每一个句子与文本中的其他句子间的关联性。第三计算单元504根据文本的第一关联特征矩阵，计算得到文本的分类预测矩阵。其中，文本的分类预测矩阵包括文本中每一个句子的分类预测向量。其中，每一个句子的分类预测向量用于说明每一个句子属于每一个预设标签的权重值。由于本申请在计算文本的分类预测矩阵时，考虑到了文本中的每一个句子与文本中其他句子的关联性，因此提高了文本预测分类的准确度。

所述文本分类的装置500包括处理器和存储器，上述获取单元501、第一计算单元502、第二计算单元503以及第三计算单元504等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高文本预测分类的准确度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本分类的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本分类的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

根据所述损失值，调整所述文本分类的方法中使用的模型。

本文中的设备可以是服务器、PC等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种文本分类的方法，其特征在于，包括：

获取输入的文本；其中，所述文本由多个句子按照特定的顺序排列构成；

根据所述输入的文本，计算得到文本的特征矩阵；其中，所述文本的特征矩阵包括所述文本中每一个句子的特征向量；

根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵；其中，所述文本的第一关联特征矩阵包括所述文本中每一个句子的第一关联特征向量；所述每一个句子的第一关联特征向量用于说明所述每一个句子与所述文本中的其他句子间的关联性；

根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵；其中，所述文本的分类预测矩阵包括所述文本中每一个句子的分类预测向量；所述每一个句子的分类预测向量用于说明所述每一个句子属于每一个预设标签的权重值。
根据权利要求1所述的方法，其特征在于，所述根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵，包括：

基于双向循环神经网络模型，根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵。
根据权利要求1所述的方法，其特征在于，所述根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵，包括：

基于卷积神经网络模型，根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵。
根据权利要求1所述的方法，其特征在于，所述根据所述输入的文本，计算得到文本的特征矩阵，包括：

根据嵌入矩阵，将所述文本中的每一个句子中的单词转换成相对应的单词向量，得到所述文本中的每一个句子的原始矩阵；其中，所述每一个句子的原始矩阵包括所述每一个句子中的单词对应的单词向量；

基于双向循环神经网络模型，根据所述文本中的每一个句子的原始矩阵，计算得到所述文本中的每一个句子的第二关联特征矩阵；其中，所述每一个句子的第二关联特征矩阵包括所述每一个句子中的单词对应的第二关联特征向量；每一个单词对应的第二关联特征向量用于说明所述每一个单词与句子中的其他单词的关联性；

拼接所述文本中的每一个句子的原始矩阵以及对应的所述第二关联特征矩阵，得到所述文本中的每一个句子的拼接矩阵；

基于卷积神经网络模型，利用多个卷积核对所述文本中的每一个句子的拼接矩阵进行深层特征提取，得到所述文本中的每一个句子对应的多个卷积特征向量；

对所述每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到所述每一个句子的特征向量；

按照所述特定的顺序排列，将所述文本中每一个句子的特征向量组成所述文本的特征矩阵。
根据权利要求1至4中任意一项所述的方法，其特征在于，所述根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵之后，还包括：

根据所述文本的分类预测矩阵，计算出所述文本中的每一个句子属于每一个预设标签的预测概率。
根据权利要求5所述的方法，其特征在于，所述根据所述文本的分类预测矩阵，计算出所述文本中的每一个句子属于每一个预设标签的预测概率之后，还包括：

使用交叉熵作为损失函数，计算所述文本中的每一个句子属于每一个预设标签的预测概率与实际概率间的损失值；

根据所述损失值，调整所述文本分类的方法中使用的模型的参数。
一种文本分类的装置，其特征在于，包括：

获取单元，用于获取输入的文本；其中，所述文本由多个句子按照特定的顺序排列构成；

第一计算单元，用于根据所述输入的文本，计算得到文本的特征矩阵；其中，所述文本的特征矩阵包括所述文本中每一个句子的特征向量；

第二计算单元，用于根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵；其中，所述文本的第一关联特征矩阵包括所述文本中每一个句子的第一关联特征向量；所述每一个句子的第一关联特征向量用于说明所述每一个句子与所述文本中的其他句子间的关联性；

第三计算单元，用于根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵；其中，所述文本的分类预测矩阵包括所述文本中每一个句子的分类预测向量；所述每一个句子的分类预测向量用于说明所述每一个句子属于每一个预设标签的权重值。
根据权利要求7所述的装置，其特征在于，所述第二计算单元，包括：

第一计算子单元，用于基于双向循环神经网络模型，根据所述文本的特征矩阵，计算得到所述文本的第一关联特征矩阵；

所述第三计算单元，包括：

第二计算子单元，用于基于卷积神经网络模型，根据所述文本的第一关联特征矩阵，计算得到所述文本的分类预测矩阵。
根据权利要求7所述的装置，其特征在于，所述第一计算单元，包括：

嵌入单元，用于根据嵌入矩阵，将所述文本中的每一个句子中的单词转换成相对应的单词向量，得到所述文本中的每一个句子的原始矩阵；其中，所述每一个句子的原始矩阵包括所述每一个句子中的单词对应的单词向量；

第三计算子单元，用于基于双向循环神经网络模型，根据所述文本中的每一个句子的原始矩阵，计算得到所述文本中的每一个句子的第二关联特征矩阵；其中，所述每一个句子的第二关联特征矩阵包括所述每一个句子中的单词对应的第二关联特征向量；每一个单词对应的第二关联特征向量用于说明所述每一个单词与句子中的其他单词的关联性；

拼接单元，用于拼接所述文本中的每一个句子的原始矩阵以及对应的所述第二关联特征矩阵，得到所述文本中的每一个句子的拼接矩阵；

卷积单元，用于基于卷积神经网络模型，利用多个卷积核对所述文本中的每一个句子的拼接矩阵进行深层特征提取，得到所述文本中的每一个句子对应的多个卷积特征向量；

最大池化单元，用于对所述每一个句子对应的多个卷积特征向量分别进行最大池化操作处理，得到所述每一个句子的特征向量；

组成单元，用于按照所述特定的顺序排列，将所述文本中每一个句子的特征向量组成所述文本的特征矩阵。
一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至6中任一所述的方法。