WO2021189974A1

WO2021189974A1 - 模型训练方法、文本分类方法、装置、计算机设备和介质

Info

Publication number: WO2021189974A1
Application number: PCT/CN2020/136314
Authority: WO
Inventors: 李志韬; 王健宗; 吴天博; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-10-21
Filing date: 2020-12-15
Publication date: 2021-09-30
Also published as: CN112256874B; CN112256874A

Abstract

一种文本分类模型训练方法、文本分类方法、装置、计算机设备和介质，涉及人工智能和模型构建领域，通过将本地分类模型的模型参数和本地分类结果上传至联邦学习服务器进行联合学习，可以提高文本数据在模型训练过程中的安全性。该训练方法包括：获取文本训练集合，根据文本训练集合对本地分类模型进行文本分类训练；将训练后的本地分类模型的模型参数和本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数；接收联邦学习服务器发送的学习参数，并根据学习参数更新训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。还涉及区块链技术，文本训练集合可存储于区块链中。

Description

模型训练方法、文本分类方法、装置、计算机设备和介质

本申请要求于2020年10月21日提交中国专利局、申请号为2020111339791，发明名称为“模型训练方法、文本分类方法、装置、计算机设备和介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，尤其涉及一种文本分类模型训练方法、文本分类方法、装置、计算机设备和介质。

背景技术

随着互联网的高速发展和大数据时代的到来，文本分类等文本挖掘技术应用于越来越多的领域。发明人意识到现有的文本分类技术一般是通过训练后的文本分类模型，实现对大量的半结构化、非结构化的文本数据进行分类处理。在对文本分类模型进行训练的过程中，需要用到不同客户端中大量的文本数据。由于在实际业务场景中，很多文本数据中都涉及到用户隐私，但是现有的文本分类模型不能做到数据隔离和避免数据泄露，无法保证文本数据的安全性。

因此如何提高文本数据在模型训练过程中的安全性成为亟需解决的问题。

发明内容

本申请提供了一种文本分类模型训练方法，所述方法包括：

获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

本申请还提供了一种基于文本分类模型的文本分类方法，所述文本分类模型为根据上述的文本分类模型训练方法训练得到，所述方法包括：

获取待分类文本；

将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。

本申请还提供了一种文本分类模型训练装置，所述装置包括：

模型训练模块，用于获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

数据上传模块，用于将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

模型更新模块，用于接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤：

接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型；

或如下步骤：

获取待分类文本；

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如下步骤：

或如下步骤：

获取待分类文本；

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种文本分类模型训练方法的示意流程图；

图2是本申请实施例提供的一种本地分类模型的训练过程的示意图；

图3是本申请实施例提供的一种对本地分类模型进行文本分类训练的子步骤的示意性流程图；

图4是本申请的实施例提供的一种对相似文本模型进行相似文本预测训练的子步骤的示意性流程图；

图5是本申请实施例提供的一种上传加密数据至联邦学习服务器的示意图；

图6是本申请实施例提供的一种接收联邦学习服务器的学习参数的示意图；

图7是本申请的实施例提供的一种文本分类方法的示意性流程图；

图8是本申请实施例提供的一种文本分类模型训练装置的示意性框图；

图9是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种文本分类模型训练方法、文本分类方法、装置、计算机设备和介质。其中，该文本分类模型训练方法可以应用于多个客户端中，多个客户端可以根据本地的文本训练集合对本地分类模型进行文本分类训练，然后将训练后的本地分类模型和本地分类结果上传至联邦学习服务器中进行联合学习，实现对不同客户端的文本数据进行隔离和避免数据泄露，从而提高了文本数据的安全性；还可以丰富训练的文本数据，提高了训练完成的文本分类模型的分类准确性。

其中，客户端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，文本分类模型训练方法包括步骤S10至步骤S30。

步骤S10、获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果。

示例性的，客户端可以将本地的文本数据作为文本训练集合；其中，文本训练集合包括多个训练文本，可以作为本地分类模型的训练数据。

需要说明的是，客户端本地的文本数据可以是客户端采集的用户数据。在对本地分类模型进行训练时，为了提高文本分类的准确性，需要将不同用户数据进行训练。但是在医疗、金融以及财险等场景中，用户数据涉及到用户的个人信息或隐私保护，因此，不能将不同用户数据一起作为训练数据进行训练。在本申请实施例中，可以在客户端中分别根据本地的文本数据进行本地分类模型的训练，然后将训练后的本地分类模型的模型参数和本地分类结果加密后上传至联邦学习服务器进行联合学习，实现对不同客户端的文本数据进行隔离和避免数据泄露，最大限度地保证了用户数据的安全，还可以提高训练完成的文本分类模型的分类准确性。

需要强调的是，为进一步保证上述文本训练集合的私密和安全性，上述文本训练集合还可以存储于一区块链的节点中。

在本申请实施例中，本地分类模型包括词向量模型、聚类模型以及相似文本模型三个部分。因此，在本地分类模型训练时，需要分别对词向量模型、聚类模型和相似文本模型进行训练。

示例性的，如图2所示，图2是本申请实施例提供的一种本地分类模型的训练过程的示意图。在图2中，将文本训练集合输入词向量模型中，将输出的词向量预测结果作为聚类模型的输入，聚类模型在训练后输出聚类预测结果；将聚类预测结果和文本训练集合输入相似文本模型中训练，相似文本模型输出文本类别预测结果。

请参阅图3，图3是步骤S10中根据文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果的子步骤的示意性流程图，具体可以包括以下步骤S101至步骤S104。

步骤S101、根据所述文本训练集合对所述词向量模型进行向量化训练，得到训练后的词向量模型和词向量预测结果。

示例性的，词向量模型可以包括BERT(Bidirectional Encoder Representations from Transformer)模型。

需要说明的是，在训练时，BERT模型可以通过Attention(注意力)机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的向量表示、上下文各个字的向量表示以及目标字与上下文各个字的原始值表示，然后计算目标字的向量与上下文各个字的向量的相似度作为权重，加权融合目标字的向量和上下文各个字的向量，作为Attention的输出，即目标字的增强语义向量表示。

示例性的，在本申请实施例中，可以将训练文本集合中的训练文本输入BERT模型中，由BERT模型通过查询字向量表将训练文本中的每个字转换为一维向量，作为BERT模型的输入进行训练；在训练后，BERT模型输出的是输入的各字对应的融合全文语义信息后的向量。

示例性的，训练后的词向量模型的模型参数包括注意力权重；词向量预测结果包括每个训练文本对应的词组的词向量。

通过根据训练文本集合对词向量模型进行向量化训练，考虑了文本的语义信息，可以提高训练后的词向量模型的预测词向量的准确性，还可以得到训练后的词向量模型和表示语义的词向量预测结果。

步骤S102、基于所述词向量预测结果对所述聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果。

示例性的，词向量预测结果包括训练文本对应的预测词向量。

需要说明的是，在本申请实施例中，通过聚类模型根据每个训练文本对应的预测词向量，计算预测词向量与预设的聚类中心之间的最小化平方误差，以将训练文本集合中的各训练文本划分为至少一个聚类簇。

示例性的，聚类模型可以包括但不限于层次聚类算法、原型聚类算法以及密度聚类算法等等。其中，原型聚类算法可以包括k均值算法、学习向量量化以及高斯混合聚类。在本申请实施例中，以聚类模型为k均值算法为例进行说明。其中，k均值算法是一种简单的迭代型聚类算法，采用距离作为相似性指标，从而得到给定数据集中的k个聚类簇，且每个聚类簇的聚类中心是根据聚类簇中所有值的均值得到。

示例性的，给定样本集D＝{x ₁,x ₂,…,x _m}，k均值算法对聚类所得簇划分 C＝{C ₁,C ₂,…,C _k}最小化平方误差的计算公式如下：

式中，m表示样本的个数；k表示聚类簇的个数；

表示聚类簇C _i的均值向量。

示例性的，k均值算法的训练过程包括：(1)选取数据空间中的k个对象作为初始中心，每个对象代表一个聚类中心；(2)对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心(最相似)所对应的聚类簇；(3)将每个聚类簇中所有对象所对应的均值作为该聚类簇的聚类中心，计算目标函数的值；(4)判断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，返回步骤(2)。

示例性的，基于训练文本对应的预测词向量对聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果。其中，训练后的聚类模型的模型参数包括至少一个聚类中心。聚类预测结果包括每个训练文本对应的聚类簇，每个聚类簇包括多个语义相似的训练文本。例如，对于训练文本A，训练文本A对应的聚类簇可以包括与训练文本A语义相似的训练文本B、训练文本C以及训练文本D等等。

通过基于预测词向量对聚类模型进行文本聚类训练，可以得到训练后的聚类模型和聚类中心，提高了聚类模型的聚类准确性；后续可以根据每个训练文本对应的聚类簇，确定每个训练文本多个语义相似的相似文本。

步骤S103、基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果。

示例性的，相似文本模型为根据词频-逆文档频率算法建立的。需要说明的是，相似文本模型用于根据每个训练文本的关键词，确定每个训练文本在对应的聚类簇中的多个相似文本。

通过基于词频-逆文档频率算法，根据聚类预测结果和文本训练集合对相似文本模型进行训练，可以实现将文本的语义信息与关键词进行结合来预测文本的类别，进而有效提高了文本类别的预测准确性。

请参阅图4，图4是步骤S103中基于聚类预测结果和文本训练集合对相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果的子步骤的示意性流程图，具体可以包括以下步骤S1031至步骤S1035。

步骤S1031、基于所述相似文本模型，根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本。

需要说明的是，在词频-逆文档频率(TF-IDF)算法中，TF表示词频(Term Frequency)，IDF表示逆文档频率(Inverse Document Frequency)。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术，可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。

示例性的，词频TF的计算公式，如下所示：

式中，n表示某个词在文章中的出现次数；m表示文章的总词数。

在一个语料库中，逆文档频率的计算公式，如下所示：

式中，w表示语料库的文档总数；W表示包含该词的文档数。

示例性的，TF-IDF值的计算公式，如下所示：

需要说明的是，TF-IDF值与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。因此，提取关键词的过程可以理解为计算出文档的每个词对应的TF-IDF值，然后根据TF-IDF值对每个词降序排列，将排在最前面的几个词作为关键词。

在一些实施例中，根据词频-逆文档频率算法确定每个训练文本在对应的聚类簇中的相似文本，可以包括：根据词频-逆文档频率算法确定每个训练文本对应的第一关键词，以及确定每个训练文本对应的聚类簇中的其他文本对应的第二关键词；若第二关键词与第一关键词匹配，则将第二关键词对应的其他文本确定为每个训练文本的相似文本。

示例性的，根据TF-IDF算法计算每个训练文本中的各词对应的TF-IDF值，将对应的TF-IDF值大于预设的TF-IDF阈值的词，确定为每个训练文本对应的第一关键词。根据TF-IDF算法，计算每个训练文本对应的聚类簇中的其他文本的各词对应的TF-IDF值，将对应的TF-IDF值大于预设的TF-IDF阈值的词，确定为其他文本对应的第二关键词。

其中，预设的TF-IDF阈值可以根据实际情况设定，具体数值在此不作限定。

示例性的，对于训练文本A，其它文本可以包括训练文本B、训练文本C以及训练文本D等等。

示例性的，在确定第一关键词与第二关键词之后，需要判断第二关键词与第一关键词是否匹配。例如，若第一关键词与第二关键词相同，则判定第一关键词与第二关键词匹配。

在一些实施例中，若判定第二关键词与第一关键词匹配，则将第二关键词对应的其他文本确定为每个训练文本的相似文本。

例如，若训练文本A对应的第一关键词与训练文本B对应的第二关键词匹配，则可以确定训练文本B为训练文本A对应的相似文本。

例如，若训练文本A对应的第一关键词与训练文本C对应的第二关键词匹配，则还可以确定训练文本C为训练文本A对应的相似文本。

又例如，若训练文本A对应的第一关键词与训练文本D对应的第二关键词不匹配，则不将训练文本D作为训练文本A对应的相似文本。

通过根据词频-逆文档频率算法确定每个训练文本对应的第一关键词，以及确定每个训练文本对应的聚类簇中的其他文本对应的第二关键词，可以准确且快速地确定每个训练文本的相似文本。

步骤S1032、确定每个所述训练文本对应的相似文本的个数。

示例性的，在根据词频-逆文档频率算法确定每个训练文本在对应的聚类簇中的相似文本之后，分别确定每个训练文本对应的相似文本的个数。

例如，训练文本A对应的相似文本包括训练文本B和训练文本C两个。

步骤S1033、当存在所述训练文本对应的相似文本的个数小于预设个数时，调整所述词频-逆文档频率算法的参数，直至基于调整后的所述词频-逆文档频率算法，确定每个所述训练文本的相似文本的个数大于或等于所述预设个数，结束训练，得到所述训练后的相似文本模型。

示例性的，预设个数可以根据实际情况设定，具体数值在此不作限定。

示例性的，调整词频-逆文档频率算法的参数，可以调整逆文档频率的权重比，也可以调整语料库的文档总数。

示例性的，当每个训练文本对应的相似文本的个数小于预设个数时，调整词频-逆文档频率算法的参数；然后基于调整后的词频-逆文档频率算法，确定每个训练文本在对应的聚类簇中的相似文本，直至确定每个训练文本的相似文本的个数大于或等于预设个数，结束训练，得到训练后的相似文本模型。

通过调整词频-逆文档频率算法的参数，使得每个训练文本的相似文本的个数大于或等于预设个数，可以保证每个训练文本有足够多的相似文本，从而提高了后续根据相似文本确定每个训练文本对应的文本类别的准确性。

步骤S1034、根据预设的相似度算法，计算每个所述训练文本与每个所述训练文本的相似文本之间的相似度。

示例性的，预设的相似度算法可以包括但不限于欧式距离、余弦相似度、曼哈顿距离以及切比雪夫距离等算法进行计算。

需要说明的是，在本申请实施例中，可以根据余弦相似度算法计算每个训练文本的相似文本与每个训练文本之间的相似度。可以理解的是，余弦相似度算法用向量空间中两个向量的夹角余弦值作为衡量两个向量间相似程度的大小。

示例性的，夹角余弦值的计算公式为：

式中，θ表示向量V ₁和向量V ₂之间的夹角，n表示向量V ₁和向量V ₂中的维数；夹角余弦值cosθ的值域为[0，1]。

在一些实施例中，获取每个训练文本对应的全部词的词向量矩阵V ₁，以及获取每个训练文本对应的相似文本的全部词的词向量矩阵V ₂；根据夹角余弦值，计算词向量矩阵V ₁与词向量矩阵V ₂之间的相似度，即得到计算每个训练文本与每个训练文本的相似文本之间的相似度。

在另一些实施例中，获取每个训练文本对应的第一关键词的词向量矩阵V ₁，以及获取每个训练文本对应的相似文本的第二关键词的词向量矩阵V ₂；根据夹角余弦值，计算词向量矩阵V ₁与词向量矩阵V ₂之间的相似度，即得到计算每个训练文本与每个训练文本的相似文本之间的相似度。通过根据每个训练文本对应的第一关键词的词向量矩阵和相似文本的第二关键词的词向量矩阵计算相似度，可以大大减少计算量，提高了相似度的计算效率。

步骤S1035、将最大相似度对应的相似文本的文本类别，确定为每个所述训练文本对应的文本类别预测结果。

示例性的，可以预先对训练文本集合中的各训练文本添加文本类别标签。通过训练文本携带的文本类别标签可以确定训练文本对应的文本类别。

示例性的，文本类别可以包括但不限于保险、医疗、金融、旅游、体育以及汽车等等类别。

示例性的，在计算每个训练文本与每个训练文本的相似文本之间的相似度后，可以将最大相似度对应的相似文本的文本类别，作为每个训练文本对应的文本类别预测结果。例如，若最大相似度对应的相似文本携带的文本类别标签为“医疗”，则可以确定训练文本对应的文本类别预测结果为“医疗”。

步骤S104、将所述训练后的词向量模型、所述训练后的聚类模型以及所述训练后的相似文本模型合并得到所述训练后的本地分类模型，以及根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果。

需要说明的是，在本申请实施例，由于本地分类模型包括词向量模型、聚类模型和相似文本模型三个部分，因此，各个客户端可以将训练后的词向量模型、训练后的聚类模型和训练后的相似文本模型进行合并，得到训练后的本地分类模型。同样，根据词向量预测结果、聚类预测结果和文本类别预测结果生成本地分类结果。

在一些实施例，根据词向量预测结果、聚类预测结果和文本类别预测结果生成本地分类结果，可以包括：基于预设的权重计算公式，对词向量预测结果、聚类预测结果和文本类别预测结果进行加权求和，得到本地分类结果。

需要说明的是，由于本地分类模型包括词向量模型、聚类模型和相似文本模型三个部分，因此，本地分类模型可以按照预先设置的权重系数，分别将词向量预测结果、聚类预测结果和文本类别预测结果按照权重系数进行计算，从而得到最终的本地分类结果。

示例性的，权重计算公式如下所示：

J＝λ ₁P _a+λ ₂P _b+λ ₃P _c

其中，J表示本地分类结果，P _a表示词向量预测结果中概率最大的结果，λ ₁表示概率最大结果P _a的权重系数，P _b表示聚类预测结果中概率最大的结果，λ ₂表示概率最大结果P _b的权重系数；P _c表示文本类别预测结果中相似度最大的结果，λ ₃表示相似度最大结果P _c的权重系数。

通过基于预设的权重计算公式对词向量预测结果、聚类预测结果和文本类别预测结果进行加权求和，实现将各模型的预测结果按照不同的权重进行融合，可以提高后续的联合学习的准确性。

步骤S20、将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习。

请参阅图5，图5是本申请实施例提供的一种上传加密数据至联邦学习服务器的示意图。如图5所示，各个客户端在本地得到训练后的本地分类模型后，需要将本地分类模型的模型参数和本地分类结果进行加密；然后将加密数据上传至联邦学习服务器，由联邦学习服务器根据接收到的这些加密数据进行联合学习，得到学习参数。

其中，联邦学习服务器包括联邦学习模型。示例性的，联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习等类型。

需要说明的是，联邦学习是指通过联合不同的客户端或参与者进行机器学习建模的方法。在联邦学习中，客户端不需要向其它客户端和协调者(也称为服务器)暴露自己所拥有的数据，因而联邦学习可以很好的保护用户隐私和保障数据安全，并可以解决数据孤岛问题。联邦学习具有以下优势：数据隔离，数据不会泄露到外部，满足用户隐私保护和数据安全的需求；能够保证联邦学习模型的质量无损，不会出现负迁移，保证联邦学习模型比割裂的独立模型效果好；能够保证各客户端在保持独立性的情况下，进行信息与模型参数的加密交换，并同时获得成长。

示例性的，本地分类模型的模型参数包括词向量模型中的注意力权重、聚类模型中的聚类中心以及相似文本模型中的逆文档频率。

在一些实施例中，将训练后的本地分类模型的模型参数和本地分类结果上传至联邦学习服务器进行联合学习之前，需要对模型参数和本地分类结果进行加密得到加密数据；然后将加密数据上传至联邦学习服务器中进行联合学习。

示例性的，在进行数据加密时，可以采用同态加密、差分隐私或多方安全计算等隐私计算方法。需要说明的是，当采用同态加密时，联邦学习服务器可以不对加密数据进行解密，直接根据加密数据进行联合学习。

可以理解的是，通过将训练后的本地分类模型的模型参数和本地分类结果加密后上传至联邦学习服务器进行联合学习，实现间接地根据不同客户端中的用户数据进行训练，扩充训练模型时的样本数量；不仅可以避免数据泄露，最大限度地保证了用户数据的安全，而且可以提高训练完成的文本分类模型的分类准确性。

示例性的，联邦学习服务器在接收到各个客户端上传的加密数据后，对加密数据进行解密处理，得到解密后的数据信息；然后基于联邦学习模型，根据解密后的数据信息进行联合学习，得到学习参数。

在具体实施方式中，联邦学习服务器可以采用全局平均法进行联合学习，得到学习参数。例如，分别计算本地分类模型中模型参数的平均值，然后对于一些与平均值相差过大的模型参数调低其参数权重，以得到学习参数。其中，本地分类结果可以用于确定联邦学习模型的损失函数值，以根据损失函数值调整联邦学习的参数。

步骤S30、接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

请参阅图6，图6是本申请实施例提供的一种接收联邦学习服务器的学习参数的示意图。在图6中，各个客户端接收联邦学习服务器发送的学习参数，并且根据学习参数更新本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

示例性的，根据学习参数分别更新训练后的词向量模型、训练后的聚类模型以及训练后的相似文本模型，例如，更新各个模型的模型参数，得到更新后的词向量模型、更新后的聚类模型以及更新后的相似文本模型。

需要强调的是，为进一步保证上述更新后的本地分类模型的私密和安全性，上述更新后的本地分类模型还可以存储于一区块链的节点中。

通过根据学习参数更新本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型，可以进一步提高文本分类模型在文本分类时的准确性。

上述实施例提供的文本分类模型训练方法，通过根据训练文本集合对词向量模型进行向量化训练，考虑了文本的语义信息，可以提高训练后的词向量模型的预测词向量的准确性，还可以得到训练后的词向量模型和表示语义的词向量预测结果；通过基于预测词向量对聚类模型进行文本聚类训练，可以得到训练后的聚类模型和聚类中心，提高了聚类模型的聚类准确性，后续可以根据每个训练文本对应的聚类簇，确定每个训练文本多个语义相似的相似文本；通过基于词频-逆文档频率算法，根据聚类预测结果和文本训练集合对相似文本模型进行训练，可以实现将文本的语义信息与关键词进行结合来预测文本的类别，进而有效提高了文本类别的预测准确性；通过根据词频-逆文档频率算法确定每个训练文本对应的第一关键词，以及确定每个训练文本对应的聚类簇中的其他文本对应的第二关键词，可以准确且快速地确定每个训练文本的相似文本；通过调整词频-逆文档频率算法的参数，使得每个训练文本的相似文本的个数大于或等于预设个数，可以保证每个训练文本有足够多的相似文本，从而提高了后续根据相似文本确定每个训练文本对应的文本类别的准确性；通过将训练后的本地分类模型的模型参数和本地分类结果加密后上传至联邦学习服务器进行联合学习，实现间接地根据不同客户端中的用户数据进行训练，扩充训练模型时的样本数量；不仅可以避免数据泄露，最大限度地保证了用户数据的安全，而且可以提高训练完成的文本分类模型的分类准确性；通过根据学习参数更新本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型，可以进一步提高文本分类模型在文本分类时的准确性。

请参阅图7，图7是本申请实施例提供的一种文本分类方法。如图7所示，该文本分类方法，具体包括：步骤S401和步骤S402。

步骤S401、获取待分类文本。

需要说明的是，可以在客户端中设置对外查询文本类别的文本类别查询界面。用户可以在文本类别查询界面查询相关文本的文本类别。

示例性的，当客户端接收到用户在文本类别查询界面中的文本输入操作时，根据文本输入操作获取用户输入的文本数据，将获取的文本数据作为待分类文本。

步骤S402、将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。

其中，文本分类模型为根据上述的文本分类模型训练方法训练得到。

示例性的，可以调用训练完成的文本分类模型对待分类文本进行分类预测。其中，文本分类模型包括更新后的词向量模型、更新后的聚类模型以及更新后的相似文本模型。

在一些实施例中，对待分类文本进行分类预测，可以包括：将待分类文本输入更新后的词向量模型中进行向量化处理，得到待分类文本对应的词向量；将待分类文本对应的词向量输入更新后的聚类模型中进行聚类分析，得到待分类文本对应的聚类簇；将待分类文本输入更新后的相似文本模型中进行相似文本预测，得到待分类文本在对应的聚类簇中的至少一个相似文本；计算待分类文本与每个相似文本之间的相似度，将最大相似度对应的相似文本的文本类别，确定为待分类文本对应的文本类别。

上述实施例提供的文本分类方法，通过将待分类文本输入更新后的词向量模型、更新后的聚类模型以及更新后的相似文本模型中进行分级预测，可以结合待分类文本的语义信息和关键词信息进行预测，从而提高了预测待分类文本对应的文本类别的准确性。

请参阅图8，图8是本申请的实施例还提供一种文本分类模型训练装置100的示意性框图，该文本分类模型训练装置用于执行前述的文本分类模型训练方法。其中，该文本分类模型训练装置可以配置于服务器或终端中。

如图8所示，该文本分类模型训练装置100，包括：模型训练模块101、数据上传模块102和模型更新模块103。

模型训练模块101，用于获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果。

数据上传模块102，用于将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习。

模型更新模块103，用于接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图9所示的计算机设备上运行。

请参阅图9，图9是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

请参阅图9，该计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种文本分类模型训练方法或文本分类方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。

在一个实施例中，所述本地分类模型包括词向量模型、聚类模型以及相似文本模型；所述处理器在实现根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果时，用于实现：

根据所述文本训练集合对所述词向量模型进行向量化训练，得到训练后的词向量模型和词向量预测结果；基于所述词向量预测结果对所述聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果；基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果；将所述训练后的词向量模型、所述训练后的聚类模型以及所述训练后的相似文本模型合并得到所述训练后的本地分类模型，以及根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果。

在一个实施例中，所述文本训练集合包括多个训练文本，所述聚类预测结果包括每个训练文本对应的聚类簇，所述相似文本模型为根据词频-逆文档频率算法建立的；所述处理器在实现基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果时，用于实现：

基于所述相似文本模型，根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本；确定每个所述训练文本对应的相似文本的个数；当存在所述训练文本对应的相似文本的个数小于预设个数时，调整所述词频-逆文档频率算法的参数，直至基于调整后的所述词频-逆文档频率算法，确定每个所述训练文本的相似文本的个数大于或等于所述预设个数，结束训练，得到所述训练后的相似文本模型；根据预设的相似度算法，计算每个所述训练文本与每个所述训练文本的相似文本之间的相似度；将最大相似度对应的相似文本的文本类别，确定为每个所述训练文本对应的文本类别预测结果。

在一个实施例中，所述处理器在实现根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本时，用于实现：

根据所述词频-逆文档频率算法确定每个所述训练文本对应的第一关键词，以及确定每个所述训练文本对应的聚类簇中的其他文本对应的第二关键词；若所述第二关键词与所述第一关键词匹配，则将所述第二关键词对应的所述其他文本确定为每个所述训练文本的相似文本。

在一个实施例中，所述处理器在实现根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果时，用于实现：

基于预设的权重计算公式，对所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果进行加权求和，得到所述本地分类结果。

在一个实施例中，所述处理器还用于实现：

获取待分类文本；将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项文本分类模型训练方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种文本分类模型训练方法，其中，包括：

获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。
根据权利要求1所述的文本分类模型训练方法，其中，所述本地分类模型包括词向量模型、聚类模型以及相似文本模型；所述根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果，包括：

根据所述文本训练集合对所述词向量模型进行向量化训练，得到训练后的词向量模型和词向量预测结果；

基于所述词向量预测结果对所述聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果；

基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果；

将所述训练后的词向量模型、所述训练后的聚类模型以及所述训练后的相似文本模型合并得到所述训练后的本地分类模型，以及根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果。
根据权利要求2所述的文本分类模型训练方法，其中，所述文本训练集合包括多个训练文本，所述聚类预测结果包括每个训练文本对应的聚类簇，所述相似文本模型为根据词频-逆文档频率算法建立的；

所述基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果，包括：

基于所述相似文本模型，根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本；

确定每个所述训练文本对应的相似文本的个数；

当存在所述训练文本对应的相似文本的个数小于预设个数时，调整所述词频-逆文档频率算法的参数，直至基于调整后的所述词频-逆文档频率算法，确定每个所述训练文本的相似文本的个数大于或等于所述预设个数，结束训练，得到所述训练后的相似文本模型；

根据预设的相似度算法，计算每个所述训练文本与每个所述训练文本的相似文本之间的相似度；

将最大相似度对应的相似文本的文本类别，确定为每个所述训练文本对应的文本类别预测结果。
根据权利要求3所述的文本分类模型训练方法，其中，所述根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本，包括：

根据所述词频-逆文档频率算法确定每个所述训练文本对应的第一关键词，以及确定每个所述训练文本对应的聚类簇中的其他文本对应的第二关键词；

若所述第二关键词与所述第一关键词匹配，则将所述第二关键词对应的所述其他文本确定为每个所述训练文本的相似文本。
根据权利要求2所述的文本分类模型训练方法，其中，所述根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果，包括：

基于预设的权重计算公式，对所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果进行加权求和，得到所述本地分类结果。
根据权利要求2所述的文本分类模型训练方法，其中，所述本地分类模型的模型参数包括所述词向量模型中的注意力权重、所述聚类模型中的聚类中心以及所述相似文本模型中的逆文档频率。
一种基于文本分类模型的文本分类方法，其中，所述文本分类模型为根据权利要求1至6任一项所述的文本分类模型训练方法训练得到，所述文本分类方法包括：

获取待分类文本；

将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。
一种文本分类模型训练装置，其中，包括：

模型训练模块，用于获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

数据上传模块，用于将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

模型更新模块，用于接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型。
一种计算机设备，其中，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现：

如下步骤：获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型；或

如下步骤：

获取待分类文本；

将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。
根据权利要求9所述的计算机设备，其中，所述本地分类模型包括词向量模型、聚类模型以及相似文本模型；所述根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果，包括：

根据所述文本训练集合对所述词向量模型进行向量化训练，得到训练后的词向量模型和词向量预测结果；

基于所述词向量预测结果对所述聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果；

基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果；

将所述训练后的词向量模型、所述训练后的聚类模型以及所述训练后的相似文本模型合并得到所述训练后的本地分类模型，以及根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果。
根据权利要求10所述的计算机设备，其中，所述文本训练集合包括多个训练文本，所述聚类预测结果包括每个训练文本对应的聚类簇，所述相似文本模型为根据词频-逆文档频率算法建立的；

所述基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果，包括：

基于所述相似文本模型，根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本；

确定每个所述训练文本对应的相似文本的个数；

当存在所述训练文本对应的相似文本的个数小于预设个数时，调整所述词频-逆文档频率算法的参数，直至基于调整后的所述词频-逆文档频率算法，确定每个所述训练文本的相似文本的个数大于或等于所述预设个数，结束训练，得到所述训练后的相似文本模型；

根据预设的相似度算法，计算每个所述训练文本与每个所述训练文本的相似文本之间的相似度；

将最大相似度对应的相似文本的文本类别，确定为每个所述训练文本对应的文本类别预测结果。
根据权利要求11所述的计算机设备，其中，所述根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本，包括：

根据所述词频-逆文档频率算法确定每个所述训练文本对应的第一关键词，以及确定每个所述训练文本对应的聚类簇中的其他文本对应的第二关键词；

若所述第二关键词与所述第一关键词匹配，则将所述第二关键词对应的所述其他文本确定为每个所述训练文本的相似文本。
根据权利要求10所述的计算机设备，其中，所述根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果，包括：

基于预设的权重计算公式，对所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果进行加权求和，得到所述本地分类结果。
根据权利要求10所述的计算机设备，其中，所述本地分类模型的模型参数包括所述词向量模型中的注意力权重、所述聚类模型中的聚类中心以及所述相似文本模型中的逆文档频率。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现：

如下步骤：获取文本训练集合，根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果；

将所述训练后的本地分类模型的模型参数和所述本地分类结果加密后上传至联邦学习服务器进行联合学习，以得到学习参数，其中，所述联邦学习服务器用于根据不同客户端上传的加密数据进行联合学习；

接收所述联邦学习服务器发送的所述学习参数，并根据所述学习参数更新所述训练后的本地分类模型，将更新后的本地分类模型作为训练完成的文本分类模型；或

如下步骤：

获取待分类文本；

将所述待分类文本输入所述文本分类模型中进行分类预测，得到所述待分类文本对应的文本类别。
根据权利要求15所述的计算机可读存储介质，其中，所述本地分类模型包括词向量模型、聚类模型以及相似文本模型；所述根据所述文本训练集合对本地分类模型进行文本分类训练，得到训练后的本地分类模型和本地分类结果，包括：

根据所述文本训练集合对所述词向量模型进行向量化训练，得到训练后的词向量模型和词向量预测结果；

基于所述词向量预测结果对所述聚类模型进行文本聚类训练，得到训练后的聚类模型和聚类预测结果；

基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果；

将所述训练后的词向量模型、所述训练后的聚类模型以及所述训练后的相似文本模型合并得到所述训练后的本地分类模型，以及根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果。
根据权利要求16所述的计算机可读存储介质，其中，所述文本训练集合包括多个训练文本，所述聚类预测结果包括每个训练文本对应的聚类簇，所述相似文本模型为根据词频-逆文档频率算法建立的；

所述基于所述聚类预测结果和所述文本训练集合对所述相似文本模型进行相似文本预测训练，得到训练后的相似文本模型和文本类别预测结果，包括：

基于所述相似文本模型，根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本；

确定每个所述训练文本对应的相似文本的个数；

当存在所述训练文本对应的相似文本的个数小于预设个数时，调整所述词频-逆文档频率算法的参数，直至基于调整后的所述词频-逆文档频率算法，确定每个所述训练文本的相似文本的个数大于或等于所述预设个数，结束训练，得到所述训练后的相似文本模型；

根据预设的相似度算法，计算每个所述训练文本与每个所述训练文本的相似文本之间的相似度；

将最大相似度对应的相似文本的文本类别，确定为每个所述训练文本对应的文本类别预测结果。
根据权利要求17所述的计算机可读存储介质，其中，所述根据所述词频-逆文档频率算法确定每个所述训练文本在对应的聚类簇中的相似文本，包括：

根据所述词频-逆文档频率算法确定每个所述训练文本对应的第一关键词，以及确定每个所述训练文本对应的聚类簇中的其他文本对应的第二关键词；

若所述第二关键词与所述第一关键词匹配，则将所述第二关键词对应的所述其他文本确定为每个所述训练文本的相似文本。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果生成所述本地分类结果，包括：

基于预设的权重计算公式，对所述词向量预测结果、所述聚类预测结果和所述文本类别预测结果进行加权求和，得到所述本地分类结果。
根据权利要求16所述的计算机可读存储介质，其中，所述本地分类模型的模型参数包括所述词向量模型中的注意力权重、所述聚类模型中的聚类中心以及所述相似文本模型中的逆文档频率。