WO2021135446A1

WO2021135446A1 - 文本分类方法、装置、计算机设备及存储介质

Info

Publication number: WO2021135446A1
Application number: PCT/CN2020/117597
Authority: WO
Inventors: 郑立颖; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-19
Filing date: 2020-09-25
Publication date: 2021-07-08
Also published as: CN111507099A

Abstract

涉及人工智能技术，公开了一种文本分类方法、装置、计算机设备及存储介质，用于解决文本自动分类方法存在分类不准确的技术问题。该方法包括：获取携带有标注信息的各个主题下不同类型的文本样本语料（S101）；对包含有该标注信息的该文本样本语料进行词向量训练，得到第一字向量（S102）；对包含有该标注信息的该文本样本语料进行分字处理，得到第二字向量（S103）；对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量（S104）；通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型（S105）；通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理（S106）。还涉及区块链技术，该深度学习分类模型可存储于区块链节点中。

Description

文本分类方法、装置、计算机设备及存储介质

本申请要求于2020年06月19日提交中国专利局、申请号为202010567353.5，发明名称为“文本分类方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及文本分类方法、装置、计算机设备及存储介质。

背景技术

目前对文本实现自动分类大多是基于模型来实现，通过模型对文本进行分类是自然语言处理中很普遍的一个应用，例如：文章主题分类、微博情感分类、垃圾邮件识别等等。传统的文本分类方法主要是需要人工从原始文档中提取一些特征，再通过传统分类器如SVM（Support Vector Machine，支持向量机）、LR（Logistic Regression Classifier，逻辑回归分类器）去训练分类模型，最终得到可以直接使用的文本分类模型。

发明人意识到以上基于人工提取特征的传统分类器，虽然简单易实现，但是由于其考虑的特征比较有局限性，无法有效提取文本中词与词之间的依赖关系形成整体判断，在准确率上通常表现一般，而基于深度学习的方法，由于网络参数量大，通常也需要更多的标注样本作为训练数据，否则很容易造成过拟合，在训练集上准确率高但是在测试机上分类的准确率大打折扣。

发明内容

本申请实施例提供一种文本分类方法、装置、计算机设备及存储介质，以解决现有技术中文本自动分类方法存在分类不准确的技术问题。

一种文本分类方法，该方法包括：

获取携带有标注信息的各个主题下不同类型的文本样本语料；

通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练，得到第一字向量；

通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理，得到第二字向量；

对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和；

通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。

一种文本分类装置，该装置包括：

样本获取模块，用于获取携带有标注信息的各个主题下不同类型的文本样本语料；

样本训练模块，用于通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练，得到第一字向量；

样本分字模块，用于通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理，得到第二字向量；

拼接模块，用于对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和；

训练模块，用于通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

分类处理模块，用于通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练，得到第一字向量；

通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理，得到第二字向量；

对所述第一字向量和所述第二字向量进行拼接，得到拼接后的字向量，所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和；

通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

本申请提供一种文本分类方法方法、装置、计算机设备及存储介质通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理，使得对文本进行分类的分类结果更加准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中文本分类方法的一应用环境示意图；

图2是本申请一实施例中文本分类方法的一流程图；

图3是本申请另一实施例中文本分类方法的一流程图；

图4是本申请一实施例中向量拼接的示例图；

图5是本申请一实施例中文本分类装置的结构示意图；

图6是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的文本分类方法，可应用在如图1的应用环境中，其中，计算机设备可以通过网络与外部设备进行通信。其中，该计算机设备包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一实施例中，如图2所示，提供一种文本分类方法，由其涉及一种基于人工智能的文本分类方法，以该方法应用在图1中的计算机设备中为例进行说明，包括如下步骤S101至S106。

S101 、获取携带有标注信息的各个主题下不同类型的文本样本语料。

在其中一个实施例中，所述主题包括但不限于新闻、微博情感、论文期刊等等。

进一步地，该新闻主题下包括的类型可以是军事类、娱乐类、科技类等；该微博情感主题下包括的类型可以是积极、中立、消极等；该论文期刊主题下包括的类型可以是物理学术、化学学术、计算机学术等等。

其中，该文本样本语料的标注信息可以通过用户输入得到，也可以从存储的数据中直接获取得到。

S102 、通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练，得到第一字向量。

其中，该词向量模型即词向量模型Word2vec，词向量模型Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在Word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，Word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

S103 、通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理，得到第二字向量。

其中，语言表示模型即语言表示模型BERT（Bidirectional Encoder Representations from Transformers），语言表示模型BERT是一种预训练模型，可以理解为这是一个通用的NLU(Natural Language Understanding)模型，为不同的NLP(Natural Language Processing，自然语言处理)任务提供支持。在实际使用时，只需要根据具体任务额外加入一个输出层进行微调即可，而不用为特定任务来修改模型结构。

预训练 即提前已经给了一些初始化的参数，这个参数不是随机的，而是通过其他类似数据集上面学得的，然后再用具体的数据集进行学习，得到适合该数据集的参数，随机初始化不容易得到参数结果，但是不容易得到的这个参数结果是因为随机初始化的速度太慢，而不是最终的参数结果不一样。简单地说，预训练模型就是用某个较大的数据集训练好的模型，可以用这些预训练模型用到类似的数据集上进行模型微调，就比如本实施例中的语言表示模型BERT。

其中，该词向量模型配置的分词器与该语言表示模型配置的分词器相同。词向量模型配置的分词器与该语言表示模型配置的分词器相同使得后续步骤中第一字向量和第二字向量进行拼接时，能够对应的上，图4是本申请一实施例中向量拼接的示例图，拼接后的向量如图4所示。

S104 、对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和。

为使得所述第一字向量和所述第二字向量在拼接的时候能够对应的上，所述文本分类方法进一步包括：

将所述语言表示模型BERT中的分词器tokenizer配置为所述词向量模型Word2vec中的分词器，所述词向量模型Word2vec与所述语言表示模型BERT使用相同的分词器tokenizer对所述文本语料进行处理。

tokenization 的主要思路就是相当于分词，把一个输入的文本依次按照以下步骤进行处理：

清洗：用于对文本进行第一步处理的类, 里面基本上都是预处理文本的方法，其中tokenize方法，返回的结果是经过处理的单词列表；

分词：对单词进行切分。例如如果单词长度超过200，就标记为unk，对单词切分时可以采用贪心算法进行。切分顺序是从后往前每次切1位，比如会把tokenization经过切分，变为[token,##ization]，bert字典中也许并没有tokenization这个词），将text转换成了一个被分词后用于后续步骤。

在其中的一个实施例中，词向量模型Word2vec对文章进行分字处理部分使用语言表示模型BERT中的tokenizer，词向量模型Word2vec训练部分可以直接调用gensim库中的词（字）向量训练函数，训练维度可设置为100-300之间，如bert中的字向量维度为768，词向量模型Word2vec自训练的字向量维度为300，则拼接后的字向量维度为1068。

S105 、通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型。

其中，该深度学习分类模型包括但不限于textCNN文本分类模型、LSTM（Long Short-Term Memory，长短期记忆网络）。

其中，对深度学习分类模型进行训练的基本步骤包括：

定义算法公式，也就是神经网络的前向算法。一般使用现成的网络，如inceptionV4，mobilenet等；

定义损失函数loss，选择优化器，来让损失函数loss最小；

通过拼接后的字向量对数据进行迭代训练，使损失函数loss到达最小；

在测试集或者验证集上对准确率进行评估。

S106 、通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。

将待分类文本输入至该深度学习分类模型，即可得到该待分类文本所属的主题及该主题下所属的类型。

在实施例提出的文本分类方法方法，首先获取携带有标注信息的各个主题下不同类型的文本样本语料，对该文本样本语料通过词向量模型进行训练，得到第一字向量，再对该文本样本语料通过语言表示模型进行训练，得到第二字向量，然后对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，通过拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型，由于本申请中训练模型的向量具有更多的表示维度，使得依据本申请训练好的深度学习分类模型相比现有模型，具有更高的分类精度，通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理，使得对文本进行分类的分类结果更加准确。

一个实施例中，该步骤中获取携带有标注信息的各个主题下不同类型的文本样本语料的步骤包括：

接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

根据该文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。

其中，可以根据文本分类所属的主题，对该主题下的文本样本语料进行收集，例如：如果是微博情感分类，则先收集大量微博文本语料；如果是政府公文主题分类，则先爬取大量公开政府公文。

在其中的一个实施例中，该接收用户输入的对各个主题下不同类型的文本样本语料的标注信息的步骤包括：

接收用户输入的对该文本样本语料的主题标注信息；

接收用户输入的对该文本样本语料的类型标注信息；

保存该文本样本语料的主题标注信息和该类型标注信息。

图3是本申请另一实施例中文本分类方法的一流程图，下面结合图3详细描述根据本申请另一实施例中文本分类方法，如图3所示，该文本分类方法在包括上述步骤S101至S106的基础上，还包括以下步骤S301和S302。

S301 、获取该词向量模型的嵌入层。

其中，该词向量模型的嵌入层即embedding层。

S302 、通过深度学习分类模型框架在该词向量模型的嵌入层之上构建分类模型层，得到该深度学习分类模型。

其中，Word2vec中的embedding就是要从数据中自动学习到输入节点之间的相互关系，例如girl与woman之间的关系，并用向量表示。该深度学习分类模型包括嵌入层、平坦层、隐藏层和输出层，本实施例中该深度学习分类模型的嵌入层选用词向量模型的嵌入层。

在其中一个实施例中，该文本分类方法还包括：

将所述深度学习分类模型存储于区块链节点中。

本实施例提出的文本分类方法针对少量标注样本的文本分类方法，在少量样本的情况下，利用BERT预训练模型，获取丰富的预训练字向量信息，同时结合该领域下特有的文本训练而成的字向量信息，更加全面的对文本中的字进行向量表征，从而达到在少量样本情况下尽可能获取外部知识获得较高的文本分类精度的效果。相比传统分类方法能够更好的捕捉文本的语义信息，相比于经典深度学习方法可以减少网络参数，降低过拟合影响分类精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种文本分类装置，该文本分类装置与上述实施例中文本分类方法一一对应。如图5所示，该文本分类装置100包括样本获取模块11、样本训练模块12、样本分字模块13、拼接模块14、训练模块15和分类处理模块16。各功能模块详细说明如下：

样本获取模块11，用于获取携带有标注信息的各个主题下不同类型的文本样本语料。

其中，所述主题包括但不限于新闻、微博情感、论文期刊等等。

样本训练模块12，用于通过词向量模型对包含有该标注信息的该文本样本语料进行词向量训练，得到第一字向量。

样本分字模块13，用于通过语言表示模型对包含有该标注信息的该文本样本语料进行分字处理，得到第二字向量。

其中，该词向量模型配置的分词器与该语言表示模型配置的分词器相同。词向量模型配置的分词器与该语言表示模型配置的分词器相同使得后续步骤中第一字向量和第二字向量进行拼接时，能够对应的上。

拼接模块14，用于对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，该拼接后的字向量的维度为该第一字向量的维度与该第二字向量的维度之和。

为使得所述第一字向量和所述第二字向量在拼接的时候能够对应的上，所述文本分类装置100进一步包括：

配置模块，用于将所述语言表示模型BERT中的分词器tokenizer配置为所述词向量模型Word2vec中的分词器，所述词向量模型Word2vec与所述语言表示模型BERT使用相同的分词器tokenizer对所述文本语料进行处理。

训练模块15，用于通过该拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型。

分类处理模块16，用于通过训练好的该深度学习分类模型对各主题下的待分类文本进行分类处理。

用于将待分类文本输入至该深度学习分类模型，即可得到该待分类文本所属的主题及该主题下所属的类型。

在其中的一个实施例中，该词向量模型配置的分词器与该语言表示模型配置的分词器相同。

在其中的一个实施例中，该样本获取模块11具体包括：

标注接收单元，用于接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

样本获取单元，用于根据该文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。

在其中的一个实施例中，该标注接收单元具体用于：

接收用户输入的对该文本样本语料的主题标注信息；

接收用户输入的对该文本样本语料的类型标注信息；

保存该文本样本语料的主题标注信息和该类型标注信息。

在其中一个实施例中，该文本分类装置100还包括：

嵌入层获取模块，用于获取该词向量模型的嵌入层。其中该词向量模型的嵌入层即embedding层；

模型搭建模块，用于通过深度学习分类模型框架在该词向量模型的嵌入层之上构建分类模型层，得到该深度学习分类模型。

其中，Word2vec中的embedding就是要从数据中自动学习到输入节点之间的相互关系，例如girl与woman之间的关系，并用向量表示。

本实施例提出的文本分类装置针对少量标注样本的文本分类方法，在少量样本的情况下，利用BERT预训练模型，获取丰富的预训练字向量信息，同时结合该领域下特有的文本训练而成的字向量信息，更加全面的对文本中的字进行向量表征，从而达到在少量样本情况下尽可能获取外部知识获得较高的文本分类精度的效果。相比传统分类方法能够更好的捕捉文本的语义信息，相比于经典深度学习方法可以减少网络参数，降低过拟合影响分类精度。

其中，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定，在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、易失性可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部设备通过网络连接通信。该计算机可读指令被处理器执行时以实现一种文本分类方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中文本分类方法的步骤，例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机可读指令时实现上述实施例中文本分类装置的各模块/单元的功能，例如图6所示模块11至模块16的功能。具体地，该处理器执行计算机可读指令时实现以下步骤：

进一步地，该处理器执行所述计算机可读指令时还实现如下步骤：

根据所述文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。

接收用户输入的对所述文本样本语料的主题标注信息；

接收用户输入的对所述文本样本语料的类型标注信息；

保存所述文本样本语料的主题标注信息和所述类型标注信息。

获取所述词向量模型的嵌入层；

通过深度学习分类模型框架在所述词向量模型的嵌入层之上构建分类模型层，得到所述深度学习分类模型。

将所述深度学习分类模型存储于区块链节点中。

进一步地，该词向量模型配置的分词器与所述语言表示模型配置的分词器相同。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机可读指令和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、视频数据等）等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行例如图2所示的步骤101至步骤106及该方法的其它扩展和相关步骤的延伸。或者，计算机可读指令被处理器执行时实现上述实施例中文本分类装置的各模块/单元的功能，例如图5所示模块11至模块16的功能。具体地，该计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

进一步地，该计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

接收用户输入的对所述文本样本语料的主题标注信息；

接收用户输入的对所述文本样本语料的类型标注信息；

获取所述词向量模型的嵌入层；

将所述深度学习分类模型存储于区块链节点中。

本实施例提供一种文本分类方法方法、装置、计算机设备及存储介质，首先获取携带有标注信息的各个主题下不同类型的文本样本语料，对该文本样本语料通过词向量模型进行训练，得到第一字向量，再对该文本样本语料通过语言表示模型进行训练，得到第二字向量，然后对该第一字向量和该第二字向量进行拼接，得到拼接后的字向量，通过拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型，由于本申请中训练模型的向量具有更多的表示维度，使得依据本申请训练好的深度学习分类模型相比现有模型，具有更高的分类精度，通过本申请训练好的深度学习分类模型对各主题下的待分类文本进行分类处理，使得对文本进行分类的分类结果更加准确。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种文本分类方法，其中，所述方法包括：

获取携带有标注信息的各个主题下不同类型的文本样本语料；

通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练，得到第一字向量；

通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理，得到第二字向量；

对所述第一字向量和所述第二字向量进行拼接，得到拼接后的字向量，所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和；

通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
根据权利要求1所述的文本分类方法，其中，所述获取携带有标注信息的各个主题下不同类型的文本样本语料的步骤包括：

接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

根据所述文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。
根据权利要求2所述的文本分类方法，其中，所述接收用户输入的对各个主题下不同类型的文本样本语料的标注信息的步骤包括：

接收用户输入的对所述文本样本语料的主题标注信息；

接收用户输入的对所述文本样本语料的类型标注信息；

保存所述文本样本语料的主题标注信息和所述类型标注信息。
根据权利要求1所述的文本分类方法，其中，搭建所述深度学习分类模型的步骤包括：

获取所述词向量模型的嵌入层；

通过深度学习分类模型框架在所述词向量模型的嵌入层之上构建分类模型层，得到所述深度学习分类模型。
根据权利要求4所述的文本分类方法，其中，所述方法还包括：

将所述深度学习分类模型存储于区块链节点中。
根据权利要求1至5任一项所述的文本分类方法，其中，所述词向量模型配置的分词器与所述语言表示模型配置的分词器相同。
一种文本分类装置，其中，所述装置包括：

样本获取模块，用于获取携带有标注信息的各个主题下不同类型的文本样本语料；

样本训练模块，用于通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练，得到第一字向量；

样本分字模块，用于通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理，得到第二字向量；

拼接模块，用于对所述第一字向量和所述第二字向量进行拼接，得到拼接后的字向量，所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和；

训练模块，用于通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

分类处理模块，用于通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
根据权利要求7所述的文本分类装置，其中，所述样本获取模块具体包括：

标注接收单元，用于接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

样本获取单元，用于根据所述文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取携带有标注信息的各个主题下不同类型的文本样本语料；

通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练，得到第一字向量；

通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理，得到第二字向量；

对所述第一字向量和所述第二字向量进行拼接，得到拼接后的字向量，所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和；

通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
根据权利要求11所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

根据所述文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。
根据权利要求10所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

接收用户输入的对所述文本样本语料的主题标注信息；

接收用户输入的对所述文本样本语料的类型标注信息；

保存所述文本样本语料的主题标注信息和所述类型标注信息。
根据权利要求9所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取所述词向量模型的嵌入层；

通过深度学习分类模型框架在所述词向量模型的嵌入层之上构建分类模型层，得到所述深度学习分类模型。
根据权利要求12所述的计算机设备，其中，所述处理器执行所述计算机可读指令时还实现如下步骤：

将所述深度学习分类模型存储于区块链节点中。
根据权利要求9至13任一项所述的计算机设备，其中，所述词向量模型配置的分词器与所述语言表示模型配置的分词器相同。
一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取携带有标注信息的各个主题下不同类型的文本样本语料；

通过词向量模型对包含有所述标注信息的所述文本样本语料进行词向量训练，得到第一字向量；

通过语言表示模型对包含有所述标注信息的所述文本样本语料进行分字处理，得到第二字向量；

对所述第一字向量和所述第二字向量进行拼接，得到拼接后的字向量，所述拼接后的字向量的维度为所述第一字向量的维度与所述第二字向量的维度之和；

通过所述拼接后的字向量对预先搭建的深度学习分类模型进行训练，得到训练好的深度学习分类模型；

通过训练好的所述深度学习分类模型对各主题下的待分类文本进行分类处理。
根据权利要求15所述的一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

接收用户输入的对各个主题下不同类型的文本样本语料的标注信息；

根据所述文本样本语料所属的主题，获取各主题下不同类型的文本样本语料。
根据权利要求16所述的一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

接收用户输入的对所述文本样本语料的主题标注信息；

接收用户输入的对所述文本样本语料的类型标注信息；

保存所述文本样本语料的主题标注信息和所述类型标注信息。
根据权利要求15所述的一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取所述词向量模型的嵌入层；

通过深度学习分类模型框架在所述词向量模型的嵌入层之上构建分类模型层，得到所述深度学习分类模型。
根据权利要求18所述的一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

将所述深度学习分类模型存储于区块链节点中。
根据权利要求15至19任一项所述的一个或多个存储有计算机可读指令的可读存储介质，其中，所述词向量模型配置的分词器与所述语言表示模型配置的分词器相同。