WO2021081945A1

WO2021081945A1 - 一种文本分类方法、装置、电子设备及存储介质

Info

Publication number: WO2021081945A1
Application number: PCT/CN2019/114871
Authority: WO
Inventors: 刘园林
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Also published as: CN114207605A

Abstract

一种文本分类方法、装置、电子设备及存储介质，该方法包括获取待分类文本；根据预先训练的文本分类模型的语义表征网络，将待分类文本转换为语义矩阵；在文本分类模型的语义分类网络的卷积层对语义矩阵进行卷积运算，得到多种尺寸的语义特征；根据多种尺寸的语义特征，在分类层确定待分类文本的文本类别。

Description

一种文本分类方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术，尤其涉及一种文本分类方法、装置、电子设备及存储介质。

背景技术

文本分类是指电子设备按照一定的分类体系或标准对文本进行自动分类，其在人们的日常生活中应用十分广泛。例如，对于电子设备的推荐业务，需要电子设备根据大量推荐内容进行文本分类。又如，在电子设备处于智能语音控制功能时，需要电子设备对由语音转换的文字内容进行文本分类。

目前，文本分类的实施离不开模型，且文本分类的准确度主要取决于模型。

发明内容

本申请提供了一种文本分类方法、装置、电子设备及存储介质，可以提高文本分类的准确度。

第一方面，本申请实施例提供了一种文本分类方法，包括：

获取待分类文本；

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；

在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。

第二方面，本申请实施例还提供了一种文本分类装置，包括：

第一获取模块，用于获取待分类文本；

第一转换模块，用于根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；

卷积运算模块，用于在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

分类模块，用于根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现文本分类方法：

获取待分类文本；

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由语义表征网络和语义分类网络构成；

第四方面，本申请实施例还提供了一种包含电子设备可执行指令的存储介质，所述电子设备可执行指令在由电子设备处理器执行时用于执行本申请实施例所述的文本分类方法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是本申请实施例提供的文本分类方法的第一流程示意图。

图2是本申请实施例提供的文本分类模型的结构示意图。

图3是本申请实施例提供的语义分类网络的第一结构示意图。

图4是本申请实施例提供的语义分类网络的第二结构示意图。

图5是本申请实施例提供的文本分类方法的第二流程示意图。

图6是本申请实施例提供的文本分类方法的第三流程示意图。

图7是本申请实施例提供的文本分类方法的第四流程示意图。

图8是本申请实施例提供的文本分类装置的结构示意图。

图9是本申请实施例提供的电子设备的第一结构示意图。

图10是本申请实施例提供的电子设备的第二结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

本申请实施例提供一种文本分类方法，该文本分类方法应用于电子设备。其中，该文本分类方法的执行主体可以是本申请实施例提供的文本分类装置，或者集成了该文本分类装置的电子设备，该文本分类装置可以采用硬件或者软件的方式实现，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

请参照图1，图1为本申请实施例提供的文本分类方法的第一流程示意图。该文本分类方法应用于本申请实施例提供的电子设备，如图1所示，本申请实施例提供的文本分类方法的流程可以如下：

101、获取待分类文本。

其中，待分类文本是用于文本分类的对象。对于待分类文本的篇幅，本申请实施例不作具体限定。例如，待分类文本可以是一个句子、一个段落、一篇文章等。对于待分类文本的语言，本申请实施例也不作具体限定。例如，待分类文本可以是中文文本、英语文本、日语文本等。

在一些实施例中，电子设备可以根据用户的选择指令，获取待分类文本。例如，根据用户的选择指令，将存储的文档1作为待分类文本。例如，根据用户的选择指令，将文档1中第7段作为待分类文本。

在一些实施例中，电子设备可以通过图像来获取待分类文本，其中，该图像携带文字信息。例如，电子设备通过摄像头获取图像，该图像中携带有“露从今夜白，月是故乡明”的文字信息，再对获取的图像进行文字识别，得到待分类文本，即待分类文本为“露从今夜白，月是故乡明”。

102、根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成。

其中，如图2所示，图2为本申请实施例提供的文本分类模型的结构示意图，文本分类模型由语义表征网络和语义分类网络构成。语义表征网络主要用于对文本进行转换。语义分类网络主要用于对文本进行分类。需要说明的是，该语义分类网络以该语义表征网络的输出作为输入。

该方案中，语义矩阵由待分类文本中各字符的语义向量组合得到。语义矩阵的行数等于待分类文本的字符数，列数等于各字符的语义向量的维数。或者，语义矩阵的行数等于各字符的语义向量的维数，列数等于待分类文本的字符数。可以理解的是，各字符语义向量的维数，主要取决于该语义表征网络中的字典。

例如，假设待分类文本是“春天到了”，“春”的语义向量为(X11，X12，X13)，“天”的语义向量为(X21，X22，X23)，“到”的语义向量为(X31，X32，X33)，“了”的语义向量为(X41，X42，X43)，那么“春天到了”的语义矩阵如下：

或

本申请实施例中，在获取待分类文本之后，电子设备将待分类文本输入预先训练的文本分类模型的语义表征网络，输出待分类文本的语义矩阵。

103、在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层。

本申请实施例中，在将所述待分类文本转换为语义矩阵之后，电子设备在语义分类网络的卷积层中，通过不同大小的多个卷积核以及多个卷积核各自对应的卷积步长对语义矩阵进行卷积运算，得到多种尺寸的语义特征。需要说明的是，该方案中的卷积运算，是一维卷积运算。

其中，语义分类网络包括具有不同超参数的卷积层和分类层，语义分类网络还可以包括输入层和输出层。可以理解的是，超参数包括卷积步长、卷积核大小以及填充尺寸。在对语义矩阵进行卷积运算时，得到的语义特征尺寸主要由超参数决定。假设语义矩阵的大小为N1×N2，其中，N1是指待分类文本的字符数，N2是指各字符的语义向量的维数，则语义特征尺寸的计算公式如下：

其中，M表示语义特征尺寸，N1表示语义矩阵的行数，P表示填充尺寸，S表示卷积步长，卷积核尺寸为F1×F2。需要说明的是，填充尺寸根据卷积核尺寸和卷积步长调整，在对语义矩阵进行卷积运算时，卷积核尺寸中的F2等于N2。

假设语义矩阵的大小为N3×N4，其中，N3是指各字符的语义向量的维数，N4是指待分类文本的字符数，则语义特征尺寸的计算公式如下：

其中，M表示语义特征尺寸，N4表示语义矩阵的列数，P表示填充尺寸，S表示卷积步长，卷积核尺寸为F3×F4。需要说明的是，填充尺寸根据卷积核尺寸和卷积步长调整，在对语义矩阵进行卷积运算时，卷积核尺寸中的F3等于N3。

本实施例中，通过调整上述多个超参数中的一个或者多个超参数，使得卷积层输出多种尺寸的语义特征。

例如，通过调整超参数中的卷积核尺寸，使得卷积层输出多种尺寸的语义特征。比如，语义矩阵为100×100，电子设备在卷积神经网络的卷积层，基于大小为100*3的卷积核、S＝2的卷积步长、P＝1的填充尺寸对语义矩阵进行卷积计算，可得到1×50尺寸的语义特征。电子设备在卷积层基于大小为100*5的卷积核、S＝2的卷积步长、P＝3的填充尺寸对语义矩阵进行卷积计算，可得到1×50尺寸的语义特征。不同大小的卷积核对应的感受野不同，比如，较大的卷积核相对于较小的卷积核，具有更大的感受野，可以提取到更丰富的信息。因此，该例子中，通过一大一小两种卷积核进行特征的提取，使得获取到的整体语义特征中包含有更丰富的信息，可以提高文本分类的准确度。

又例如，通过调整超参数中的卷积核尺寸和步长，使得卷积层输出多种尺寸的语义特征。比如，语义矩阵为100×100，电子设备在卷积神经网络的卷积层，基于大小为100*3的卷积核、S＝2的卷积步长、P＝1的填充尺寸对语义矩阵进行卷积计算，可得到1×50尺寸的语义特征。电子设备在卷积层基于大小为100*5的卷积核、S＝3的卷积步长、P＝4的填充尺寸对语义矩阵进行卷积计算，可得到1×34尺寸的语义特征。该例子中，在调整卷积核尺寸的同时，还可以进一步调整步长，在丰富待分类文本的语义特征的同时，对特征进行了降维，提高网络的计算效率。

在一些实施例中，请参阅图3，图3为本申请实施例提供的语义分类网络的第一结构示意图。语义分类网络中的一个卷积层可以包括多个子卷积层，其中，每个子卷积层具有不同的超参数。例如，多个子卷积层的卷积核的大小不相同，多个子卷积层的卷积步长不相同。该方案中，电子设备可以同时在同一个卷积层的多个子卷积层中对语义矩阵进行卷积运算，得到多种尺寸的语义特征。其中，基于一个子卷积层对语义矩阵进行卷积运算，得到一种尺寸的语义特征。可以理解的是，该实施例中的语义分类网络可以具有多个卷积层，其中，每一个卷积层由多个子卷积层构成，且多个子卷积层的卷积核的大小不相同。

在一些实施例中，请参阅图4，图4为本申请实施例提供的语义分类网络的第二结构示意图。语义分类网络的一个卷积层可以具有多种卷积核，每个卷积核可以按照各自对应的卷积步长和填充尺寸进行卷积运算。例如，电子设备可以在该卷积层中通过不同大小的多个卷积核以及多个卷积核各自对应的卷积步长，对语义矩阵进行卷积运算，得到多种尺寸的语义特征。其中，每通过一个卷积核以及该个卷积核对应的卷积步长，对语义矩阵进行卷积运算，得到一种尺寸的语义特征。可以理解的是，该实施例中的语义分类网络可以具有多个卷积层，其中，每一个卷积层可以具有多种卷积核，每个卷积核可以按照各自对应的卷积步长和填充尺寸进行卷积运算。

104、根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。

本申请实施例中，在得到多种尺寸的语义特征之后，电子设备可以根据多种尺寸的语义特征，在语义分类网络的分类层对待分类文本进行分类处理，以确定待分类文本的文本类别。例如，请参阅图3，在分类时，结合第一卷积层和第二卷积层输出的语义特征，在语义分类网络的分类层中确定待分类文本的类别标签，以确定待分类文本的文本类别。

由上可知，本申请实施例中，电子设备在获取待分类文本之后，根据预先训练的文本分类模型的语义表征网络，将待分类文本转换为语义矩阵，然后在文本分类模型的语义分类网络的卷积层对语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，语义分类网络包括具有不同超参数的卷积层，最后根据多种尺寸的语义特征，在语义分类网络的分类层对待分类文本进行分类处理，以确定待分类文本的文本类别。本方案在进行卷积运算时，基于不同超参数的卷积层得到多种尺寸的语义特征，可以丰富待分类文本的语义特征，防止由待分类文本语义特征少引起的文本分类准确度低，从而提高文本分类的准确度。

请参阅图5，图5为本申请实施例提供的文本分类方法的第二流程示意图。

在一些实施例中，102可以包括1021以及1022，如下：

1021、根据预先训练的文本分类模型的语义表征网络，将所述待分类文本中的各字符转换为语义向量。

1022、基于各字符的先后顺序，将各字符的语义向量组合为语义矩阵。

本申请实施例中，在获取待分类文本之后，电子设备根据预先训练的文本分类模型的语义表征网络，将待分类文本中的各字符转换为语义向量，其中，一个字符转换为一个语义向量。在待分类文本的所有字符都转化为语义向量后，根据各字符的先后顺序，将各字符的语义向量组合成语义矩阵。

在一些实施例中，在获取待分类文本之后，将所述待分类文本中的各字符转换为语义向量之前，电子设备可以去除待分类文本中的无效字符。其中，待分类文本的无效字符包括表情字符、空格字符、乱码字符等。

在一些实施例中，语义分类网络还包括池化层，在得到多种尺寸的语义特征之后，电子设备可以在池化层，对每一种尺寸的语义特征进行池化处理，然后根据池化处理的语义特征，在所述分类层对所述待分类文本进行分类处理。

其中，电子设备在池化层可以采用max pooling的方式来对每一种尺寸的语义特征进行池化处理。电子设备在池化层也可以采用k_maxpooling的方式来对每一种尺寸的语义特征进行池化处理。

例如，电子设备将每一种尺寸的语义特征划分成多个小组，获取每小组中第一大的语义特征、第二大的语义特征……第k大的语义特征，即按照语义特征的大小，从每小组中获取k个语义特征。电子设备在池化层采用k_maxpooling的方式来对每一种尺寸的语义特征进行池化处理，可以获取更加丰富的语义特征，提高文本分类的准确度。

在一些实施例中，104可以包括1041以及1042，如下：

1041、在所述分类层根据所述多种尺寸的语义特征，计算所述待分类文本在每个预设文本类别上的概率值。

1042、将概率值最大的预设文本类别确定为所述待分类文本的文本类别。

本申请实施例中，在得到多种尺寸的语义特征之后，电子设备在分类层根据多种尺寸的语义特征和预设参数矩阵，计算待分类文本在每个预设文本类别上的概率值，将概率值最大的预设文本类别确定为待分类文本的文本类别。

其中，对于预设文本类别的数目，本申请实施例不作具体限定，如预设文本类别的数目为30。待分类文本在一个预设文本类别上的概率值是指一项事件(待分类文本为该个预设文本类别)的发生概率值。预设文本类别的数量和概率值的数量相等。可以理解的是，每次计算所得的概率值大于等于0且小于等于1。

例如，假设预设文本类别有4个，记为S1文本类别、S2文本类别、S3文本类别、S4文本类别，计算待分类文本在S1文本类别上的概率值P1，计算待分类文本在S2文本类别上的概率值P2，计算待分类文本在S3文本类别上的概率值P3，计算待分类文本在S4文本类别上的概率值P4，当得到的概率值数目等于预设文本类别时，从概率值P1、概率值P2、概率值P3、概率值P4中查找最大的概率值，将概率值最大的预设文本类别确定为待分类文本的文本类别。如假设P1>P2>P3>P4，则P1的预设文本类别(S1文本类别)是待分类文本的文本类别。

请参阅图6，图6为本申请实施例提供的文本分类方法的第三流程示意图。

在一些实施例中，102之前，还包括105、106以及107，如下：

105、获取多条第一训练文本，构成第一训练集。

106、根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵。

107、基于所述多个第一语义矩阵训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。

本申请实施例中，在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，电子设备获取多条第一训练文本，构成第一训练集。

该方案中，在构成第一训练集后，电子设备可以对预设的卷积神经网络进行有监督训练，然后将训练后的卷积神经网络作为语义分类网络，由语义表征网络和语义分类网络构成文本分类模型。

可以理解的是，若电子设备对预设的卷积神经网络进行有监督训练，则第一训练集中的第一训练文本携带有目标类别标签，该目标类别标签由用户手动设置，第一训练文本与目标类别标签一一对应。关于目标类别标签相对于文本内容的设置位置，本申请不作具体限定。例如第一训练文本的格式如下：“文本内容\目标类别标签”。例如第一训练文本的格式如下：“目标类别标签\文本内容”等。

一方面，在构成第一训练集后，电子设备根据语义表征网络，将第一训练集中的每条第一训练文本的文本内容转换为一个第一语义矩阵。当第一训练集的多条第一训练文本的文本内容转换完毕后，得到多个第一语义矩阵。

其中，在将第一训练集中的每条第一训练文本的文本内容转换为一个第一语义矩阵时，电子设备可以根据语义表征网络，将第一训练文本的文本内容转换为语义向量。然后基于文本内容中各字符的先后顺序，将各字符的语义向量组合为第一语义矩阵。

例如，以一条第一训练文本为例，假设该条第一训练文本是“庆祝中华人民共和国成立七十周年\国庆”，基于文本分类模型的语义表征网络，第一训练文本的文本内容(“庆祝中华人民共和国成立七十周年”)中的每个字符用一个语义向量表示，并按照各字符在文本内容中的先后顺序，将各字符的语义向量组合为第一语义矩阵。其中，对于语义向量的维数，可以是大于或等于3的维数。

如第一语义矩阵可参见上方表达式，此时，语义向量的维数可以是6维，即语义向量中分量的个数是6。“庆”的语义向量为(A011，A012，A013，A014，A015，A016)，“庆”的语义向量为(A021，A022，A023，A024，A025，A026)，依次类推。

另一方面，在构成第一训练集后，电子设备根据语义表征网络，将第一训练集中的每条第一训练文本的目标类别标签转换为一个第三语义矩阵。当第一训练集的多条第一训练文本的目标类别标签转换完毕后，得到多个第三语义矩阵。

其中，在将第一训练集中的每条第一训练文本的目标类别标签转换为一个第三语义矩阵时，电子设备可以根据语义表征网络，将每条第一训练文本的目标类别标签转换为语义向量。然后基于目标类别标签中各字符的先后顺序，将各字符的语义向量组合为第三语义矩阵。

例如，继上述例子，基于文本分类模型的语义表征网络，将第一训练文本的目标类别标签(“国庆”)中的每个字符用一个语义向量表示，并按照各字符在目标类别标签中的先后顺序，将各字符的语义向量组合成第三语义矩阵。

在将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵和多个第三语义矩阵之后，基于多个第一语义矩阵和多个第三语义矩阵训练预设的卷积神经网络，将训练后的卷积神经网络作为语义分类网络，由语义表征网络和语义分类网络构成文本分类模型。

在一些实施例中，基于多个第一语义矩阵和多个训练预设的卷积神经网络时，电子设备可以基于多个第一语义矩阵和预设的损失函数，对预设的卷积神经网络进行迭代训练直至收敛。对于预设的损失函数，本申请实施例不作具体限定，如预设的损失函数为交叉熵损失函数。

例如，电子设备将多个第一语义矩阵输入至预设的卷积神经网络中，输出每个第一语义矩阵对应的第一训练文本在每个预设文本类别上的概率值。根据概率值和预设的损失函数计算目标损失值。若目标损失值未达最小，则调整卷积神经网络的模型参数，并返回执行将多个第一语义矩阵输入至预设的卷积神经网络中。若目标损失值达到最小，此时收敛。

或者，电子设备可以基于多个第一语义矩阵和预设的损失函数，对预设的卷积神经网络进行迭代训练，直至预设的损失函数的损失值最小且卷积神经网络的准确率趋于稳定。在模型收敛后，获取多个验证文本，构成验证集，通过验证集计算卷积神经网络的准确率。若准确率趋于稳定则停止训练，将训练后的卷积神经网络作为语义分类网络。若准确率未趋于稳定则调整卷积神经网络的模型参数，继续对卷积神经网络进行训练。

又者，电子设备在对预设的卷积神经网络进行迭代训练时，每调整一次模型参数，会重新使用多个第一语义矩阵对预设的卷积神经网络进行训练，并通过验证集计算卷积神经网络的当前准确率。将当前准确率与保存的历史准确率进行大小比较，若当前准确率大于历史准确率，则删除历史准确率对应的模型参数，并保存当前准确率以及当前准确率对应的模型参数，若当前准确率小于或等于历史准确率，则保存当前准确率，但不保存当前准确率对应的模型参数。若多次得到的准确率不增加，则结束训练。

需要说明的是，在基于所述多个第一语义矩阵训练预设的卷积神经网络时，更新的仅是卷积神经网络的模型参数，不改变语义表征网络的模型参数。此外，通过有监督训练卷积神经网络以构建的文本分类模型，有利于提高文本分类的准确度。

请参阅图7，图7为本申请实施例提供的文本分类方法的第四流程示意图。

在一些实施例中，106之前，还包括108、109，如下：

108、获取多条第二训练文本，构成第二训练集。

109、使用所述第二训练集对BERT网络进行训练，以更新所述BERT网络的模型参数。

本申请实施例中，文本分类模型的语义表征网络为微调训练后的BERT网络。在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，电子设备可以获取多条第二训练文本，构成第二训练集。使用所述第二训练集对所述BERT网络进行微调训练，以更新所述BERT网络的模型参数。

其中，第一训练文本和第二训练文本属于同种类型的信息，但第一训练文本不同于第二训练文本。第一训练文本用于训练预设的卷积神经网络，得到文本分类模型的语义分类网络，第二训练文本用于对BERT网络进行微调训练，得到文本分类模型的语义表征网络。

该方案中的BERT网络，是一种多层双向编码器。BERT网络包括12个transformer层，每一transformer层包括4个结构：自注意力、正则化、全连接、正则化。因为该方案中文本分类模型中的语义表征网络采用get_sequence_output函数，所以语义表征网络输出的是由字符的语义向量组成的语义矩阵。相比于输出由词语的语义向量组成的语义矩阵，输出由字符的语义向量组成的语义矩阵，可以提高短文本的分类准确度。

需要说明的是，该方案分开训练语义表征网络和语义分类网络，即电子设备首先微调训练语义表征网络，然后对语义分类网络进行训练，得到训练效果优异的文本分类模型，从而可以提高文本分类的准确度。

此外，需要说明的是，具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。例如，在一些实施例中，获取多条第一训练文本，构成第一训练集与使用所述第二训练集对所述BERT网络进行训练可以同时进行。

在一些实施例中，107包括1071和1072：

1071、获取使用所述第二训练集训练所述BERT网络时得到的多个第二语义矩阵。

1072、基于所述多个第一语义矩阵和所述多个第二语义矩阵，训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。

本申请实施例中，电子设备通过基于第一训练文本得到的多个第一语义矩阵和基于第二训练文本得到的多个第二语义矩阵，同时训练预设的卷积神经网络。即第二训练文本除了用于对BERT网络进行微调训练，还用于训练预设的卷积神经网络。

需要说明的是，该方案在对卷积神经网络训练时采用迁移学习的方式，如使用微调训练BERT网络时得到的多个第二语义矩阵对预设的卷积神经网络进行训练，能够有效防止得到的文本分类模型过拟合，提高文本分类的准确度。

在一些实施例中，所述根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，还包括：

获取源生BERT网络的模型参数，在基线BERT网络中加载所述源生BERT网络的模型参数；

获取多条第三训练文本，构成第三训练集；

使用所述第三训练集对所述基线BERT网络进行训练，以更新所述基线BERT网络的模型参数；

在所述语义表征网络中加载所述基线BERT网络更新后的模型参数。

本申请实施例中，文本分类模型的语义表征网络为BERT网络，语义表征网络、用于微调训练的基线BERT网络和源生BERT网络中的任意两个网络不是同一个网络，但是同一种类型的网络。在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，采用迁移学习的方式确定文本分类模型中语义表征网络的模型参数。

比如，在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，电子设备可以获取源生BERT网络的模型参数，在基线BERT网络中加载源生BERT网络的模型参数，并获取多条第三训练文本，构成第三训练集。然后使用第三训练集对基线BERT网络进行微调训练，以更新基线BERT网络的模型参数。接着在文本分类模型的BERT网络中加载基线BERT网络微调训练后更新的模型参数。

其中，第一训练文本、第二训练文本和第三训练文本属于同种类型的信息，第三训练文本不同于第一训练文本，第三训练文本可以不同于第二训练文本或第三训练文本也可以同于第二训练文本。

图8是本申请实施例提供的文本分类装置的结构示意图，该装置用于执行上述实施例提供的文本分类方法，具备执行方法相应的功能模块和有益效果。如图8所示，该文本分类装置200具体包括：第一获取模块201、第一转换模块202、卷积运算模块203以及分类模块204，其中：

第一获取模块201，用于获取待分类文本；

第一转换模块202，用于根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；

卷积运算模块203，用于在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

分类模块204，用于根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。

在一些实施例中，在根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵时，第一转换模块202可以用于：

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本中的各字符转换为语义向量；

基于各字符的先后顺序，将各字符的语义向量组合为语义矩阵。

在一些实施例中，在根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理时，分类模块204可以用于：

在所述分类层根据所述多种尺寸的语义特征，计算所述待分类文本在每个预设文本类别上的概率值；

将概率值最大的预设文本类别确定为所述待分类文本的文本类别。

在一些实施例中，在得到多种尺寸的语义特征之后，文本分类装置200还包括池化处理模块，所述池化处理模块用于：在所述池化层，对每一种尺寸的语义特征进行池化处理；所述分类模块204还用于：根据池化处理的语义特征，在所述分类层对所述待分类文本进行分类处理。

在一些实施例中，在根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵之前，文本分类装置200还包括去除模块，所述去除模块用于去除所述待分类文本中的无效字符。

在一些实施例中，在获取待分类文本之前，文本分类装置200还包括第二获取模块、第二转换模块以及第一训练模块：

所述第二获取模块，用于获取多条第一训练文本，构成第一训练集；

所述第二转换模块，用于根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵；

所述第一训练模块，用于基于所述多个第一语义矩阵训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。

在一些实施例中，在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，文本分类装置200还包括第三获取模块以及第二训练模块：

所述第三获取模块，用于获取多条第二训练文本，构成第二训练集；

所述第二训练模块，用于使用所述第二训练集对所述BERT网络进行训练，以更新所述BERT网络的模型参数。

在一些实施例中，在基于所述多个第一语义矩阵训练预设的卷积神经网络时，所述第一训练模块还用于：

获取使用所述第二训练集训练所述BERT网络时得到的多个第二语义矩阵；

基于所述多个第一语义矩阵和所述多个第二语义矩阵，训练预设的卷积神经网络。

在一些实施例中，在基于所述多个第一语义矩阵训练预设的卷积神经网络时，所述第一训练模块可以用于：

基于所述多个第一语义矩阵和预设的损失函数，对预设的卷积神经网络进行迭代训练直至收敛。

由上可知，本申请实施例提供的文本分类装置200，第一获取模块201获取待分类文本，然后第一转换模块202根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，接着卷积运算模块203在文本分类模型的语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层，最后分类模块204根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别，可以丰富待分类文本的语义特征，防止由待分类文本语义特征少引起的文本分类准确度低，从而提高文本分类的准确度。

应当说明的是，本申请实施例提供的文本分类装置与上文实施例中的文本分类方法属于同一构思，在文本分类装置上可以运行文本分类方法实施例中提供的任一方法，其具体实现过程详见文本分类方法实施例，此处不再赘述。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当其存储的计算机程序在计算机上执行时，使得计算机执行如本申请实施例提供的文本分类方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)或者随机存取器(Random Access Memory，RAM)等。

本申请实施例还提供一种电子设备，请参照图9，电子设备300包括处理器301和存储器302。其中，处理器301与存储器302电性连接。

处理器301是电子设备300的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行电子设备300的各种功能并处理数据。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。

此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

在本申请实施例中，电子设备300中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301运行存储在存储器302中的计算机程序，从而实现各种功能，如下：

获取待分类文本；

请参照图10，图10为本申请实施例提供的电子设备的第二结构示意图，与图9所示电子设备的区别在于，电子设备还包括：摄像组件303、射频电路304、音频电路305以及电源306。其中，摄像组件303、射频电路304、音频电路305以及电源306分别与处理器301电性连接。

摄像组件303可以包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义图像信号处理(Image Signal Processing)管线的各种处理单元。图像处理电路至少可以包括：多个摄像头、图像信号处理器(Image Signal Processor，ISP处理器)、控制逻辑器、图像存储器以及显示器等。其中每个摄像头至少可以包括一个或多个透镜和图像传感器。图像传感器可包括色彩滤镜阵列(如Bayer滤镜)。图像传感器可获取用图像传感器的每个成像像素捕捉的光强度和波长信息，并提供可由图像信号处理器处理的一组原始图像数据。

射频电路304可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

音频电路305可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

电源306可以用于给电子设备300的各个部件供电。在一些实施例中，电源306可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

获取待分类文本；

在一些实施例中，在根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵时，处理器301可以执行：

在一些实施例中，在根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理时，处理器301可以执行：

在一些实施例中，语义分类网络还包括池化层，在得到多种尺寸的语义特征之后，处理器301可以执行：

在所述池化层，对每一种尺寸的语义特征进行池化处理；

在根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理时，处理器301可以执行：

根据池化处理的语义特征，在所述分类层对所述待分类文本进行分类处理。

在一些实施例中，在根据预先训练的文本分类模型的语义表征网络，得到所述待分类文本的语义矩阵之前，处理器301可以执行：

去除所述待分类文本中的无效字符。

在一些实施例中，在获取待分类文本之前，处理器301可以执行：

获取多条第一训练文本，构成第一训练集；

根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵；

基于所述多个第一语义矩阵训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。

在一些实施例中，所述语义表征网络为BERT网络；在根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，处理器301可以执行：

获取多条第二训练文本，构成第二训练集；

使用所述第二训练集对所述BERT网络进行训练，以更新所述BERT网络的模型参数。

在一些实施例中，在基于所述多个第一语义矩阵训练预设的卷积神经网络时，处理器301可以执行：

由上述可知，本实施例提供的电子设备，在获取待分类文本之后，根据预先训练的文本分类模型的语义表征网络，将待分类文本转换为语义矩阵，然后在文本分类模型的语义分类网络的卷积层对语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，语义分类网络包括具有不同超参数的卷积层，最后根据多种尺寸的语义特征，在语义分类网络的分类层对待分类文本进行分类处理，以确定待分类文本的文本类别，可以丰富待分类文本的语义特征，防止由待分类文本语义特征少引起的文本分类准确度低，从而提高文本分类的准确度。

本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上述任一实施例中的文本分类方法，比如：获取待分类文本；根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的文本分类方法而言，本领域普通测试人员可以理解实现本申请实施例的文本分类方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如文本分类方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的文本分类装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，该存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种文本分类方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种文本分类方法，其中，所述方法包括：

获取待分类文本；

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；

在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。
根据权利要求1所述的文本分类方法，其中，所述根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，包括：

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本中的各字符转换为语义向量；

基于各字符的先后顺序，将各字符的语义向量组合为语义矩阵。
根据权利要求1所述的文本分类方法，其中，所述根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，包括：

在所述分类层根据所述多种尺寸的语义特征，计算所述待分类文本在每个预设文本类别上的概率值；

将概率值最大的预设文本类别确定为所述待分类文本的文本类别。
根据权利要求1所述的文本分类方法，其中，所述语义分类网络还包括池化层，所述得到多种尺寸的语义特征之后，还包括：

在所述池化层，对每一种尺寸的语义特征进行池化处理；

所述根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，包括：

根据池化处理的语义特征，在所述分类层对所述待分类文本进行分类处理。
根据权利要求1所述的文本分类方法，其中，所述根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵之前，还包括：

去除所述待分类文本中的无效字符。
根据权利要求1所述的文本分类方法，其中，所述获取待分类文本之前，还包括：

获取多条第一训练文本，构成第一训练集；

根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵；

基于所述多个第一语义矩阵训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。
根据权利要求6所述的文本分类方法，其中，所述语义表征网络为BERT网络；所述根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，还包括：

获取多条第二训练文本，构成第二训练集；

使用所述第二训练集对所述BERT网络进行训练，以更新所述BERT网络的模型参数。
根据权利要求7所述的文本分类方法，其中，所述基于所述多个第一语义矩阵训练预设的卷积神经网络，包括：

获取使用所述第二训练集训练所述BERT网络时得到的多个第二语义矩阵；

基于所述多个第一语义矩阵和所述多个第二语义矩阵，训练预设的卷积神经网络。
根据权利要求6所述的文本分类方法，其中，所述语义表征网络为BERT网络；所述根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，还包括：

获取源生BERT网络的模型参数，在基线BERT网络中加载所述源生BERT网络的模型参数；

获取多条第三训练文本，构成第三训练集；

使用所述第三训练集对所述基线BERT网络进行训练，以更新所述基线BERT网络的模型参数；

在所述语义表征网络中加载所述基线BERT网络更新后的模型参数。
根据权利要求6所述的文本分类方法，其中，所述基于所述多个第一语义矩阵训练预设的卷积神经网络，包括：

基于所述多个第一语义矩阵和预设的损失函数，对预设的卷积神经网络进行迭代训练直至收敛。
一种文本分类装置，其中，包括：

第一获取模块，用于获取待分类文本；

第一转换模块，用于根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由所述语义表征网络和语义分类网络构成；

卷积运算模块，用于在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

分类模块，用于根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。
一种电子设备，包括：处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现文本分类方法：

获取待分类文本；

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵，其中，所述文本分类模型由语义表征网络和语义分类网络构成；

在所述语义分类网络的卷积层对所述语义矩阵进行卷积运算，得到多种尺寸的语义特征，其中，所述语义分类网络包括具有不同超参数的卷积层和分类层；

根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理，以确定所述待分类文本的文本类别。
根据权利要求12所述的电子设备，其中，在所述根据预先训练的文本分类模型的语义表征网络，将所述待分类文本转换为语义矩阵时，所述处理器用于执行：

根据预先训练的文本分类模型的语义表征网络，将所述待分类文本中的各字符转换为语义向量；

基于各字符的先后顺序，将各字符的语义向量组合为语义矩阵。
根据权利要求12所述的电子设备，其中，在所述根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理时，所述处理器用于执行：

在所述分类层根据所述多种尺寸的语义特征，计算所述待分类文本在每个预设文本类别上的概率值；

将概率值最大的预设文本类别确定为所述待分类文本的文本类别。
根据权利要求12的电子设备，其中，所述语义分类网络还包括池化层，在所述得到多种尺寸的语义特征之后，所述处理器用于执行：

在所述池化层，对每一种尺寸的语义特征进行池化处理；

所述根据所述多种尺寸的语义特征，在所述分类层对所述待分类文本进行分类处理时，所述处理器用于执行：

根据池化处理的语义特征，在所述分类层对所述待分类文本进行分类处理。
根据权利要求12所述的电子设备，其中，在所述获取待分类文本之前，所述处理器用于执行：

获取多条第一训练文本，构成第一训练集；

根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵；

基于所述多个第一语义矩阵训练预设的卷积神经网络，并将训练后的所述卷积神经网络作为所述语义分类网络，由所述语义表征网络和语义分类网络构成所述文本分类模型。
根据权利要求16所述的电子设备，其中，所述语义表征网络为BERT网络；在所述根据所述语义表征网络，将所述第一训练集中的所述多条第一训练文本转换为多个第一语义矩阵之前，所述处理器用于执行：

获取多条第二训练文本，构成第二训练集；

使用所述第二训练集对所述BERT网络进行训练，以更新所述BERT网络的模型参数。
根据权利要求17所述的电子设备，其中，在所述基于所述多个第一语义矩阵训练预设的卷积神经网络时，所述处理器用于执行：

获取使用所述第二训练集训练所述BERT网络时得到的多个第二语义矩阵；

基于所述多个第一语义矩阵和所述多个第二语义矩阵，训练预设的卷积神经网络。
根据权利要求16所述的电子设备，其中，在所述基于所述多个第一语义矩阵训练预设的卷积神经网络时，所述处理器用于执行：

基于所述多个第一语义矩阵和预设的损失函数，对预设的卷积神经网络进行迭代训练直至收敛。
一种包含电子设备可执行指令的存储介质，其中，所述电子设备可执行指令在由电子设备处理器执行时用于执行如权利要求1至10任一项所述的文本分类方法。