WO2022095682A1

WO2022095682A1 - 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品

Info

Publication number: WO2022095682A1
Application number: PCT/CN2021/124335
Authority: WO
Inventors: 缪畅宇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-11-04
Filing date: 2021-10-18
Publication date: 2022-05-12
Also published as: JP2023539532A; CN112214604A; US20230025317A1

Abstract

一种文本分类模型的训练方法、文本分类方法、装置、电子设备及计算机可读存储介质；涉及人工智能技术；方法包括：通过机器翻译模型对第一语言的多个第一文本样本进行机器翻译处理，得到与多个第一文本样本一一对应的多个第二文本样本（101）；其中，多个第二文本样本采用不同于第一语言的第二语言；基于第二语言的多个第三文本样本以及分别对应的类别标签，训练用于第二语言的第一文本分类模型（102）；通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理（103）；基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型（104）。

Description

文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品

相关申请的交叉引用

本申请实施例基于申请号为202011217057.9、申请日为2020年11月04日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请实施例作为参考。

技术领域

本申请涉及人工智能技术，尤其涉及一种文本分类模型的训练方法、文本分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

文本分类模型是人工智能领域的重要应用之一，文本分类模型可以识别出文本所属的类别。文本分类模型在新闻推荐、意图识别系统等中都有广泛的应用，即文本分类模型是这些复杂系统的基础组件。

但是，相关技术中的文本分类模型是针对某一种语言，当将文本分类模型扩展到其他语言的文本分类时，该文本分类模型将会面临缺乏其他语言的标注样本的压力，无法顺利进行其他语言的文本分类任务。

发明内容

本申请实施例提供一种文本分类模型的训练方法、文本分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够自动获取跨语言的文本样本，提高文本分类的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种文本分类模型的训练方法，包括：

对第一语言的多个第一文本样本进行机器翻译处理，得到与所述多个第一文本样本一一对应的多个第二文本样本；

其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；

基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；

通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；

基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；

其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。

本申请实施例提供一种文本分类方法，包括：

获取待分类文本；

其中，所述待分类文本采用不同于第一语言的第二语言；

通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理，得到所述待分类文本的编码向量；

对所述待分类文本的编码向量进行非线性映射，得到所述待分类文本对应的类别；

其中，所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的，所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。

本申请实施例提供一种文本分类模型的训练装置，包括：

翻译模块，配置为对第一语言的多个第一文本样本进行机器翻译处理，得到与所述多个第一文本样本一一对应的多个第二文本样本；

第一训练模块，配置为基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；

筛选模块，配置为通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；

第二训练模块，配置为基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。

本申请实施例提供一种文本分类装置，包括：

获取模块，配置为获取待分类文本；其中，所述待分类文本采用不同于第一语言的第二语言；

处理模块，配置为通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理，得到所述待分类文本的编码向量；对所述待分类文本的编码向量进行非线性映射，得到所述待分类文本对应的类别；其中，所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的，所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。

本申请实施例提供一种用于文本分类模型训练的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的文本分类模型的训练方法，或文本分类方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的文本分类模型的训练方法，或文本分类方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现本申请实施例提供的文本分类模型的训练方法，或文本分类方法。

本申请实施例具有以下有益效果：

通过机器翻译获取采用不同于第一语言的第二语言的第二文本样本，并通过第一文本分类模型对第二文本样本进行筛选，从而实现自动获取跨语言的文本样本，降低由于缺乏文本样本所带来的压力；并且，通过筛选得到的优质文本样本训练第二文本分类模型，使得第二文本分类模型能够进行准确的文本分类，提高文本分类的准确性。

附图说明

图1是本申请实施例提供的文本分类系统的应用场景示意图；

图2是本申请实施例提供的用于文本分类模型训练的电子设备的结构示意图；

图3-5是本申请实施例提供的基于文本分类模型的训练方法的流程示意图；

图6是本申请实施例提供的迭代训练的流程示意图；

图7是本申请实施例提供的层次softmax的示意图；

图8是本申请实施例提供的级联的编码器的示意图；

图9是本申请实施例提供的文本集A和文本集B的示意图；

图10是本申请实施例提供的文本集B1的示意图；

图11是本申请实施例提供的主动学习的流程示意图；

图12是本申请实施例提供的增强学习的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积神经网络(CNN，Convolutional Neural Networks)：一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入图像进行平移不变分类(shift-invariant classification)。

2)跨语言少量(few shot)文本分类：当从A语言场景迁移到B语言场景、且有少量预算来做B语言样本标注时，只需少量的B语言的标注文本、大量A语言标注文本，便可以实现B语言文本的大规模标注，通过B语言文本的大规模标注训练文本分类模型，以实现B语言文本分类。

3)跨语言零次(zero shot)文本分类：当从A语言场景迁移到B语言场景、且缺乏预算(没有人工或产品推广时间紧迫)时，无法对B语言样本进行标注，即：仅借助大量A语言标注文本，来实现B语言的大规模标注，并通过B语言文本的大规模标注训练文本分类模型，以实现B语言文本分类。

文本分类被广泛应用在内容相关的产品中，例如新闻分类、文章分类、意图分类、信息流产品、论坛、社区、电商等等。一般情况下，文本分类都是针对某一种语言的文本，例如中文、英文等等，但当产品需要拓展其他语言业务时，在产品初期会遇到标注文本不足的问题，例如，将新闻阅读产品从中文市场推广到英文市场时，则需要快速地对英文领域的新闻打上相应的标签；对中文用户的评论进行正负情感分析时，随着用户数增多，或者将产品推向海外市场时，会出现很多不是中文的评论，因此这些评论也需要标注出相应的情感极性。

虽然从更长时间的尺度看，这些其他语言文本，可以通过人工运营等方式，慢慢积累一定体量的标注数据，然后进行模型训练以及预测。但在早期，只通过人工来给文本进行标注，非常耗时且浪费人力，不利于产品的快速迭代。所以在初期时，希望通过算法、借助已有语言的标注文本积累，来实现大量文本的自动标注。

相关技术中，都是围绕同一种语言的few shot文本分类或zero shot文本分类，也就是只解决同一种语言标注样本不足的问题，缺乏跨语言的文本分类。

为了解决上述问题，本申请实施例提供了一种文本分类模型的训练方法、文本分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够自动获取跨语言的文本样本，提高文本分类的准确性。

本申请实施例所提供的文本分类模型的训练方法和文本分类方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的文本分类模型的训练方法，或者，终端向服务器发送针对某语言的文本分类请求，服务器根据接收的该某语言的文本分类执行文本分类模型的训练方法，并基于训练后的文本分类模型进行该语言的文本分类任务。

本申请实施例提供的用于文本分类模型训练的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AiaaS，AI as a Service)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为文本分类模型训练服务，即云端的服务器封装有本申请实施例提供的文本分类模型训练的程序。用户通过终端(运行有客户端，例如新闻客户端、阅读客户端等)调用云服务中的文本分类模型训练服务，以使部署在云端的服务器调用封装的文本分类模型训练的程序，基于第一语言的第一文本样本，通过机器翻译模型，获取采用不同于第一语言的第二语言的第二文本样本，并通过第一文本分类模型对第二文本样本进行筛选，通过筛选得到的第二文本样本训练第二文本分类模型，通过训练的第二文本样本进行文本分类，以进行后续新闻应用、阅读应用等，例如，对于新闻应用，文本为英文新闻，通过训练的第二文本分类模型(用于英文的新闻分类)确定各待推荐的新闻的类别，例如娱乐新闻、体育新闻等，从而基于新闻的类别对各待推荐的新闻进行筛选，以获得用于推荐的新闻，并向用户展示用于推荐的新闻，以实现针对性的新闻推荐；对于阅读应用，文本为中文文章，通过训练的第二文本分类模型(用于中文的文章分类)确定各待推荐的文章的类别，例如心灵鸡汤、法律文章、教育文章等，从而基于文章的类别对各待推荐的文章进行筛选，以获得用于推荐的文章，并向用户展示用于推荐的文章，以实现针对性的文章推荐。

参见图1，图1是本申请实施例提供的文本分类系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200(运行有客户端，例如新闻客户端)可以被用来获取某语言的待分类文本，例如，开发人员通过终端输入某语言的待分类文本，终端自动获取针对某语言的文本分类请求。

在一些实施例中，终端中运行的客户端中可以植入有文本分类模型训练插件，用以在客户端本地实现文本分类模型的训练方法。例如，终端200获取不同于第一语言的第二语言的待分类文本后，调用文本分类模型训练插件，以实现文本分类模型的训练方法，通过机器翻译模型获取采用与第一文本样本(采用第一语言)对应的第二文本样本(采用第二语言)，并通过第一文本分类模型对第二文本样本进行筛选，通过筛选得到的第二文本样本训练第二文本分类模型，基于训练的第二文本样本进行文本分类，以进行后续新闻应用、阅读应用等。

在一些实施例中，终端200针对某语言的文本分类请求后，调用服务器100的文本分类模型训练接口(可以提供为云服务的形式，即文本分类模型训练服务)，服务器100通过机器翻译模型获取采用与第一文本样本(采用第一语言)对应的第二文本样本(采用第二语言)，并通过第一文本分类模型对第二文本样本进行筛选，通过筛选得到的第二文本样本训练第二文本分类模型，基于训练的第二文本样本进行文本分类，以进行后续新闻应用、阅读应用等。

下面说明本申请实施例提供的用于文本分类模型训练的电子设备的结构，参见图2，图2是本申请实施例提供的用于文本分类模型训练的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于文本分类模型训练的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块553，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的文本分类模型的训练装置可以采用软件方式实现，例如，可以是上文所述的终端中的文本分类模型训练插件，可以是上文所述的服务器中文本分类模型训练服务。当然，不局限于此，本申请实施例提供的文本分类模型的训练装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的文本分类模型的训练装置555，其可以是程序和插件等形式的软件，例如文本分类模型训练插件，并包括一系列的模块，包括翻译模块5551、第一训练模块5552、筛选模块5553以及第二训练模块5554；其中，翻译模块5551、第一训练模块5552、筛选模块5553、第二训练模块5554用于实现本申请实施例提供的文本分类模型的训练功能。

如前所述，本申请实施例提供的文本分类模型的训练方法可以由各种类型的电子设备实施。参见图3，图3是本申请实施例提供的基于文本分类模型的训练方法的流程示意图，结合图3示出的步骤进行说明。

在下面的步骤中，第二文本分类模型的网络深度大于第一文本分类模型的网络深度，即第二文本分类模型的文本分类能力强于第一文本分类模型的分类能力，因此，用于训练第二文本分类模型所需的文本样本的数量大于用于训练第一文本分类模型所需的文本样本的数量。

在下面的步骤中，第一文本样本采用第一语言，第二文本样本以及第三文本样本采用不同于第一语言的第二语言，例如第一文本样本为中文样本，第二文本样本以及第三文本样本为英文样本。

在步骤101中，对第一语言的多个第一文本样本进行机器翻译处理，得到与多个第一文本样本一一对应的多个第二文本样本。

例如，当开发人员通过终端输入第二语言的文本分类指令，终端自动获取针对第二语言的文本分类请求，并将第二语言的文本分类请求发送至服务器，服务器接收到第二语言的文本分类请求后，从样本库中获取有大量标注的第一文本样本，但是第一文本样本采用的是不同于第二语言的第一语言，并调用机器翻译模型对多个第一文本样本进行机器翻译，以获取与多个第一文本样本一一对应的多个第二文本样本，其中，第二文本样本的类别标注继承对应第一文本样本的类别标注，即不需要进行人工标注，大大节省了人工标注多带来的标注压力。

在步骤102中，基于第二语言的多个第三文本样本以及分别对应的类别标签，训练用于第二语言的第一文本分类模型。

其中，步骤101和步骤102并无明显的先后顺序。在服务器接收到第二语言的文本分类请求后，从样本库中获取有少量标注的第三文本样本，通过多个第三文本样本以及对应的类别标签，训练第一文本分类模型，使得训练后的第一文本分类模型可以基于第二语言进行文本分类。

在一些实施例中，基于第二语言的多个第三文本样本以及分别对应的类别标签，训练用于第二语言的第一文本分类模型，包括：基于第二语言的多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行第t次训练；通过第t次训练的第一文本分类模型对多个第二文本样本进行基于置信度的第t次筛选处理；基于前t次筛选结果、多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行第t+1次训练；将第T次训练的第一文本分类模型作为训练后的第一文本分类模型；其中，t为依次递增的正整数、且取值范围满足1≤t≤T-1，T为大于2的整数、且用于表示迭代训练的总次数。

例如，基于第二语言的多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行迭代训练，以通过逐渐优化的第一文本分类模型筛选出更多优质的第三文本样本，以进行后续的增强训练，对第二文本分类模型进行训练。

如图6所示，基于第二语言的多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行第1次训练，通过第1次训练的第一文本分类模型对多个第二文本样本进行基于置信度的第1次筛选处理，基于第1次筛选结果、多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行第2次训练，通过第2次训练的第一文本分类模型对多个第二文本样本中除第1次筛选结果外的第二文本样本进行基于置信度的第2次筛选处理，将前2次筛选结果、多个第三文本样本以及分别对应的类别标签，对第一文本分类模型进行第3次训练，迭代上述训练过程，直至对第一文本分类模型进行第T次训练，将第T次训练的第一文本分类模型作为训练后的第一文本分类模型。

参见图4，图4是本申请实施例提供的文本分类模型的训练方法的一个可选的流程示意图，图4示出图3中的步骤102可以通过图4示出的步骤1021至步骤1023实现：在步骤1021中，通过第一文本分类模型对第二语言的多个第三文本样本进行预测处理，得到多个第三文本样本分别对应的预测类别的置信度；在步骤1022中，基于预测类别的置信度以及第三文本样本的类别标签，构建第一文本分类模型的损失函数；在步骤1023中，更新第一文本分类模型的参数直至损失函数收敛，将损失函数收敛时第一文本分类模型的更新的参数，作为训练后的第一文本分类模型的参数。

例如，基于预测类别的置信度以及第三文本样本的类别标签，确定第一文本分类模型的损失函数的值后，可以判断第一文本分类模型的损失函数的值是否超出预设阈值，当第一文本分类模型的损失函数的值超出预设阈值时，基于第一文本分类模型的损失函数确定第一文本分类模型的误差信号，将误差信息在第一文本分类模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。其中，第一文本分类模型属于神经网络模型。

在一些实施例中，通过第一文本分类模型对第二语言的多个第三文本样本进行预测处理，得到多个第三文本样本分别对应的预测类别的置信度，包括：针对多个第三文本样本中的任一第三文本样本执行以下处理：通过第一文本分类模型执行以下处理：对第三文本样本进行编码处理，得到第三文本样本的编码向量；对第三文本样本的编码向量进行融合处理，得到融合向量；对融合向量进行非线性映射处理，得到第三文本样本对应的预测类别的置信度。

例如，第一文本分类模型为快速文本分类模型(fasttext)，本申请实施例中的第一文本分类模型并不局限于fasttext，fasttext包括输入层、隐藏层以及输出层，通过少量的第三文本样本可以快速训练fasttext，以使fasttext能够快速进行第二语言的文本分类任务。例如，通过输入层对第三文本样本进行编码，得到第三文本样本的编码向量；再通过隐藏层对第三文本样本的编码向量进行融合，得到融合向量；最后，通过输出层对融合向量进行非线性映射(即通过激活函数(例如softmax)进行映射处理)，得到第三文本样本对应的预测类别的置信度。

在一些实施例中，第一文本分类模型包括多个级联的激活层；对融合向量进行非线性映射处理，得到第三文本样本对应的预测类别的置信度，包括：通过多个级联的激活层的第一个激活层，对融合向量进行第一个激活层的映射处理；将第一个激活层的映射结果输出到后续级联的激活层，通过后续级联的激活层继续进行映射处理和映射结果输出，直至输出到最后一个激活层；将最后一个激活层输出的激活结果作为第三文本样本对应的预测类别的置信度。

如图7所示，通过层次softmax进行激活运算，可以避免通过一次性的激活运算，得到预测类别的置信度，而是通过多层的激活运算，从而降低计算复杂度。例如，层次softmax包括T层激活层，每一层激活层都进行一次层次softmax运算，通过第1个激活层对融合向量进行第1个激活层的映射，得到第1个映射结果，将第1个映射结果输出至第2个激活层，通过第2个激活层对第1个映射结果进行第2个激活层的映射，得到第2个映射结果，直至输出到第T个激活层，将第T个激活层输出的激活结果作为第三文本样本对应的预测类别的置信度。其中，T为激活层的总数。

在一些实施例中，对第三文本样本进行编码处理，得到第三文本样本的编码向量，包括：对第三文本样本进行窗口滑动处理，得到多个片段序列；其中，窗口的大小为N，N为自然数；基于词表库对多个片段序列进行映射处理，得到多个片段序列分别对应的序列向量；对多个片段序列分别对应的序列向量进行组合处理，得到第三文本样本的编码向量。

承接上述示例，片段序列包括N个字，则对第三文本样本进行窗口滑动处理，得到多个片段序列，包括：针对第三文本样本中的第i个字执行以下处理：获取第三文本样本中的第i个字至第i+N-1个字；对第i个字至第i+N-1个字进行组合，将组合结果作为片段序列；其中，0<i≤M-N+1，M为第三文本样本的字数，M为自然数，从而为罕见的字生成更好的编码向量，在词库表中，即使字没有出现在训练语料库中，仍然可以从字粒度的窗口构造对应字粒度的编码向量，还可以让第一文本分类模型学习到局部字顺序的部分信息，这样会让第一文本分类模型在训练的时候保持字序信息。

承接上述示例，片段序列包括N个词语，则对第三文本样本进行窗口滑动处理，得到多个片段序列，包括：针对第三文本样本中的第j个词语执行以下处理：获取第三文本样本中的第j个词语至第j+N-1个词语；对第j个词语至第j+N-1个词语进行组合，将组合结果作为片段序列；其中，0<j≤K-N+1，K为第三文本样本中的词语的数量，K为自然数。从而为罕见的词(语句)生成更好的编码向量，在词库表中，即使语句没有出现在训练语料库中，仍然可以从词粒度的窗口构造对应词粒度的编码向量，还可以让第一文本分类模型学习到局部词顺序的部分信息，这样会让第一文本分类模型在训练的时候保持词序信息。

在步骤103中，通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理。

例如，在服务器通过第三文本样本，得到训练后的第一文本分类模型后，可以通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理，以筛选出优质的第二文本样本，以通过优质的第二文本样本训练第二文本分类模型。

在一些实施例中，通过训练后的第一文本分类模型对多个第二文本样本进行基于置信度的筛选处理，包括：针对多个第二文本样本中的任一第二文本样本执行以下处理：通过训练后的第一文本分类模型对第二文本样本进行预测处理，得到第二文本样本对应的多个预测类别的置信度；将第二文本样本对应的第一文本样本的类别标签确定为第二文本样本的类别标签；基于第二文本样本对应的多个预测类别的置信度以及第二文本样本的类别标签，将超出置信度阈值的第二文本样本作为筛选处理得到的第二文本样本。

例如，通过训练后的第一文本分类模型对第二文本样本进行编码处理，得到第二文本样本的编码向量，对第二文本样本的编码向量进行融合处理，得到融合向量，对融合向量进行非线性映射处理，得到第二文本样本对应的多个预测类别的置信度，从第二文本样本对应的多个预测类别中，确定与第二文本样本的类别标签匹配的预测类别，当匹配的预测类别的置信度超出置信度阈值时，将第二文本样本作为筛选处理得到的第二文本样本。

在步骤104中，基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型。

例如，在服务器通过训练后的第一文本分类模型筛选出大量优质的第二文本样本后，则实现自动构建跨语言的文本样本(即第二语言的第二文本样本，其带有对应的第一文本样本的类别标注，即无需进行人工标注)，通过大量优质的第二文本样本对第二文本分类模型进行训练，以使训练后的第二文本分类模型进行准确的基于第二语言的文本分类，提高第二语言的文本分类的准确性。

由于通过本申请实施例的训练方法可以得到充足的第二文本样本用于训练第二文本分类模型，因此，本申请实施例可以仅通过筛选处理得到的第二文本样本，对第二文本分类模型进行训练即可。

其中，在服务器得到训练后的第二文本分类模型后，响应于针对第二语言的文本分类请求，对待分类文本进行文本分类，即通过训练后的第二文本分类模型对该待分类文本进行编码处理，得到待分类文本的编码向量，并对待分类文本的编码向量进行非线性映射，以得到待分类文本对应的类别，还可以通过待分类文本对应的类别进行后续新闻应用、阅读应用等。

参见图5，图5是本申请实施例提供的文本分类模型的训练方法的一个可选的流程示意图，图5示出图3中的步骤104可以通过图5示出的步骤1041至步骤1043实现：在步骤1041中，确定筛选处理得到的第二文本样本在多个类别的分布；在步骤1042中，当筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且在每个类别的数量超出对应的类别数量阈值时，从筛选处理得到的第二文本样本中的每个类别的文本样本中，随机抽取对应类别数量阈值的文本样本以构建训练集；在步骤1043中，基于训练集训练用于第二语言的第二文本分类模型。

例如，在服务器获得大量用于训练第二文本分类模型的第二文本样本后，分析筛选处理得到的第二文本样本在在多个类别的分布，以确定是否满足分布均衡条件，即不同类别的数量的抖动情况，例如使用均方差衡量不同类别的数量的抖动情况，抖动越大，则说明文本样本在多个类别的分布越不均衡。当筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且每个类别的数量超出类别数量阈值，则从筛选处理得到的第二文本样本中的每个类别的文本样本中，抽取对应类别数量阈值的文本样本以构建训练集，从而提高文本分类的精度。

在一些实施例中，基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型，包括：当筛选处理得到的第二文本样本在多个类别的分布不满足分布均衡条件，针对分布少的类别的第二文本样本进行基于近义词的扩充处理，以使扩充处理得到的第二文本样本在多个类别的分布满足分布均衡条件；基于扩充处理得到的第二文本样本构建训练集；基于训练集训练用于所述第二语言的第二文本分类模型。

当筛选处理得到的第二文本样本在每个类别的数量低于对应的类别数量阈值时，针对对应类别的第二文本样本进行基于近义词的扩充处理，以使扩充处理得到的第二文本样本在每个类别的数量超出对应的类别数量阈值；基于扩充处理得到的第二文本样本构建训练集。

其中，具体的扩充过程如下所示：针对多个第三文本样本以及筛选处理得到的第二文本样本中的任一文本样本执行以下处理：将近义词词典(包括各种近义词之间的对应关系)与文本样本中的词语进行匹配处理，得到与文本样本中的词语对应的匹配词；基于匹配词对文本样本中的词语进行替换处理，得到新的文本样本；将文本样本对应的类别标签作为新的文本样本的类别标签。通过近义词替换的方式，可以大大扩充第二语言的文本样本，以实现对第二文本分类模型的训练。

在一些实施例中，基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型，包括：基于多个第三文本样本以及筛选处理得到的第二文本样本构建训练集，基于训练集训练用于第二语言的第二文本分类模型。

例如，基于多个第三文本样本以及筛选处理得到的第二文本样本构建训练集，包括：遍历筛选处理得到的第二文本样本的每个类别，执行以下处理：当类别中的第二文本样本的数量低于类别的类别数量阈值时，将从多个第三文本样本中随机抽取类别的第三文本样本补充到类别的第二文本样本中，以更新筛选处理得到的第二文本样本；基于更新后的筛选处理得到的第二文本样本，构建训练集。

承接上述示例，当在某些类别的文本样本比较少时，或者在某些类别的分布不均衡时，可以通过第三文本样本来补充。例如当类别中的第二文本样本的数量低于类别的类别数量阈值时，则说明该类别的文本样本比较少，可以将从多个第三文本样本中随机抽取该类别的第三文本样本补充到该类别的第二文本样本中，以更新筛选处理得到的第二文本样本，使得第二文本样本中该类别的文本样本更加充足。

在一些实施例中，为了避免通过大量的样本训练第二分类模型造成过拟合的问题，可以通过第二文本分类模型的算力，匹配对应的文本样本数量进行适当的训练。基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型之前，根据文本分类模型的算力(计算能力)与在单位时间内所能够运算的文本样本的数量的对应关系，确定与训练第二文本分类模型所能够使用的算力匹配的目标样本数量；从基于筛选处理得到的第二文本样本构建的训练集中，筛选出对应目标样本数量的文本样本，以作为训练用于第二语言的第二文本分类模型的样本。

在一些实施例中，基于筛选处理得到的第二文本样本，训练用于第二语言的第二文本分类模型，包括：通过第二文本分类模型对筛选处理得到的第二文本样本进行预测处理，得到筛选处理得到的第二文本样本对应的预测类别；基于筛选处理得到的第二文本样本对应的预测类别以及对应的类别标签，构建第二文本分类模型的损失函数；更新第二文本分类模型的参数直至损失函数收敛，将损失函数收敛时第二文本分类模型的更新的参数，作为训练后的第二文本分类模型的参数。

例如，基于筛选处理得到的第二文本样本对应的预测类别以及对应的类别标签，确定第二文本分类模型的损失函数的值后，可以判断第二文本分类模型的损失函数的值是否超出预设阈值，当第二文本分类模型的损失函数的值超出预设阈值时，基于第二文本分类模型的损失函数确定第二文本分类模型的误差信号，将误差信息在第二文本分类模型中反向传播，并在传播的过程中更新各个层的模型参数。

在一些实施例中，第二文本分类模型包括多个级联的编码器；通过第二文本分类模型对筛选处理得到的第二文本样本进行预测处理，得到筛选处理得到的第二文本样本对应的预测类别，包括：针对筛选处理得到的第二文本样本中的任一文本样本执行以下处理：通过多个级联的编码器的第一个编码器，对文本样本进行第一个编码器的编码处理；将第一个编码器的编码结果输出到后续级联的编码器，通过后续级联的编码器继续进行编码处理和编码结果输出，直至输出到最后一个编码器；将最后一个编码器输出的编码结果作为对应文本样本的编码向量；对文本样本的编码向量进行非线性映射，得到文本样本对应的预测类别。

如图8所示，通过级联的编码器进行编码运算，可以提取丰富的文本样本的特征信息。例如，通过第1个编码器对文本样本进行第1个编码器的编码处理，得到第1个编码结果，将第1个编码结果输出至第2个编码器，通过第2个编码器对第1个编码结果进行第2个编码器的编码，得到第2个编码结果，直至输出到第S个编码器，最后对文本样本的编码向量进行非线性映射，即可得到文本样本对应的预测类别。其中，S为编码器的总数。

承接上述示例，在后续级联的编码器中继续进行编码处理和编码结果输出，包括：通过多个级联的编码器的第y个编码器执行以下处理：对第y-1个编码器的编码结果进行自注意力处理，得到第y个自注意力向量；对第y个自注意力向量以及第y-1个编码器的编码结果进行残差连接处理，得到第y个残差向量；对第y个残差向量进行非线性映射处理，得到第y个映射向量；对第y个映射向量以及第y个残差向量进行残差连接处理，将残差连接的结果作为第y个编码器的编码结果，并将第y个编码器的编码结果输出到第y+1个编码器；其中，y为依次递增的正整数、且取值范围满足2≤y≤H-1，H为大于2的整数、且用于表示多个级联的编码器的数量。

需要说明的是，获取训练后的第二文本分类模型后，通过训练后的第二文本分类模型进行第二语言的文本分类，文本分类方法如下所示：获取待分类文本；其中，待分类文本采用不同于第一语言的第二语言；通过网络深度大于第一文本分类模型的第二文本分类模型对待分类文本进行编码处理，得到待分类文本的编码向量；对待分类文本的编码向量进行非线性映射，得到待分类文本对应的类别；其中，第二文本分类模型是通过第一文本分类模型筛选得到的第二语言的文本样本训练得到的，第二语言的文本样本是通过对第一语言的文本样本进行机器翻译得到的。

承接上述示例，第二文本分类模型包括多个级联的编码器。针对待分类文本执行以下处理：通过多个级联的编码器的第一个编码器，对待分类文本进行第一个编码器的编码处理；将第一个编码器的编码结果输出到后续级联的编码器，通过后续级联的编码器继续进行编码处理和编码结果输出，直至输出到最后一个编码器；将最后一个编码器输出的编码结果作为对应待分类文本的编码向量；对待分类文本的编码向量进行非线性映射，得到待分类文本对应的类别。

例如，通过级联的编码器进行编码运算，可以提取丰富的待分类文本的特征信息。例如，通过第1个编码器对待分类文本进行第1个编码器的编码处理，得到第1个编码结果，将第1个编码结果输出至第2个编码器，通过第2个编码器对第1个编码结果进行第2个编码器的编码，得到第2个编码结果，直至输出到第S个编码器，最后对待分类文本的编码向量进行非线性映射，即可得到待分类文本对应的类别。其中，S为编码器的总数。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

文本分类被广泛应用在内容相关的产品中，例如新闻分类、文章分类、意图分类、信息流产品、论坛、社区、电商等等，从而基于文本分类的类别进行文本推荐、感情疏导等。一般情况下，文本分类都是针对某一种语言的文本，例如中文、英文等等，产品需要拓展其他语言业务，例如，将新闻阅读产品从中文市场推广到英文市场，在用户进行新闻阅读时，能够基于英文新闻的标签进行新闻推荐，从而向用户推荐符合用户兴趣的英文新闻；对中文用户的评论进行正负情感分析时，将产品推向海外市场时，在用户进行评论时，能够基于英文评论的标签对用户进行适当的感情疏导，避免用户不断产生负面情绪。

下面结合上述应用场景具体说明本申请实施例提出一种文本分类模型的训练方法、文本分类方法，通过已有的机器翻译模型，来通过A语言的样本增加B语言的样本量。但由于通过算法翻译得到的文本是有一定偏差和错误的，所以采用主动学习的方法，从翻译的文本中挑出高质量的样本，以进行后续的训练。

下面具体说明本申请实施例提出一种文本分类模型的训练方法、文本分类方法方法，该方法包括两个部分，即A)数据准备、B)算法框架以及C)预测：

A)数据准备

本申请实施例针对的是没有大量样本(无标注)的情形，所以无法训练大型的预训练模型来提取文本内容。如图9所示，本申请实施例存在部分文本集A(Text A，A语言的文本集)(包括第一文本样本)和少量文本集B(Text B，B语言的文本集)(包括第三文本样本)，其中，Text A和Text B为有类别标注的样本，相对于Text A，Text B只有少量标注，因此占比很小。

其中，将Text A里面的标注样本记做<X_A，Y>，Text B记做<X_B，Y>，其中，X_A表示Text A中的文本，X_B表示Text B中的文本，Text A和Text B的标签是共通的，都用Y表示，例如类别0(Y＝0)表示娱乐类型的新闻，类别1(Y＝1)表示体育类的新闻，这里的0和1是通用的，跟语言无关。

B)算法框架

其中，本申请实施例中的算法框架包括：1)样本增强、2)主动学习以及3)增强训练。下面具体说明样本增强、主动学习以及增强训练：

1)样本增强

首先，如图10所示，借助的机器翻译模型(用于将A语言翻译为B语言)，将Text A里面的每个A语言的文本X_A，都转换成B语言的文本，以形成对应的文本集B1(Text B1，翻译所形成的B语言的文本集)。

通过这种样本增强的方法，得到两类标注文本，一类是原有的、少量人工标注的样本集Text B，其人工标注是非常准确的；一类是通过机器翻译模型进行转换之后得到的、大量标注(其标注与Text A中的标注对应)样本Text B1(包括第二文本样本)，Text B1中可能包含噪音、错误等等，没有Text B的内容准确。

2)主动学习

为了能将Text B1里的优质样本过滤出来，采取主动学习的方法，整个过程如图11所示：

步骤1，先用人工标注的Text B，训练出一个弱分类器(第一文本分类模型)(例如fasttext这种浅层分类器)，然后将弱分类器作用在Text B1上进行预测，从Text B1中筛选出置信度较高的样本，例如假设置信度阈值是0.8，如果Text B1里的某个样本X_B1预测出来的标签Y＝2的置信度是0.87(比0.8大)，则认为样本X_B1的类别是2，从而得到带标注的训练样本<X_B1，Y＝2>。

步骤2，将这些置信度高的、带标签的样本，构成新的训练样本集(文本集B1'，Text B1')，基于Text B1'和Text B，继续训练弱分类器，训练完成后，重复步骤1，将弱分类器作用在Text B1筛选所剩下的样本(所剩下的样本是指从Text B1中挑选出置信度高的样本后所剩下的文本)上。

步骤3，直到预测Text B1中的样本所得到的置信度，无法再高于指定的置信度阈值，即认为Text B1筛选所剩下的样本都是质量较差的样本，此时停止迭代训练。

3)增强训练

如图12所示，将上面步骤得到的Text B'和Text B混合在一起，再训练一个强分类器(第二文本分类模型)(例如深层神经网络(BERT，Bidirectional Encoder Representations from Transformers))。

C)预测

将训练得到的强分类器作为最终的文本分类模型，用于B语言的文本分类。例如，将新闻阅读产品从中文市场推广到英文(B语言)市场时，通过训练得到的强分类器快速地对英文新闻打上相应的标签，在用户进行新闻阅读时，能够基于英文新闻的标签进行新闻推荐，从而向用户推荐符合用户兴趣的英文新闻；对中文用户的评论进行正负情感分析时，将产品推向海外市场(B语言)时，会出现很多不是中文的评论，即英文评论，通过训练得到的强分类器快速地对英文评论打上相应的情感标签，在用户进行评论时，能够基于英文评论的标签对用户进行适当的感情疏导，避免用户不断产生负面情绪。

综上，本申请实施例文本分类模型的训练方法、文本分类方法通过机器翻译模型，获取采用不同于A语言的B语言的第二文本样本，并通过弱分类器对第二文本样本进行筛选，从而实现自动获取跨语言的文本样本，降低由于缺乏文本样本所带来的压力；并且，通过筛选得到的优质文本样本训练强分类器，使得强分类器能够进行准确的文本分类，提高文本分类的准确性。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的文本分类模型的训练方法。本申请实施例还提供文本分类模型的训练装置，实际应用中，文本分类模型的训练装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的文本分类模型的训练装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

示例一、文本分类模型的训练装置是移动端应用程序及模块

本申请实施例中的文本分类模型的训练装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中，由移动端的处理器执行)，从而直接使用移动端自身的计算资源完成相关的信息推荐任务，并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器，或者在移动端本地保存。

示例二、文本分类模型的训练装置是服务器应用程序及平台

本申请实施例中的文本分类模型的训练装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行)，服务器使用自身的计算资源完成相关的信息推荐任务。

本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI，User Interface)，形成供个人、群体或单位使用的信息推荐平台(用于推荐列表)等。

示例三、文本分类模型的训练装置是服务器端应用程序接口(API，Application Program Interface)及插件

本申请实施例中的文本分类模型的训练装置555可提供为服务器端的API或插件，以供用户调用，以执行本申请实施例的文本分类模型的训练方法，并嵌入到各类应用程序中。

示例四、文本分类模型的训练装置是移动设备客户端API及插件

本申请实施例中的文本分类模型的训练装置555可提供为移动设备端的API或插件，以供用户调用，以执行本申请实施例的文本分类模型的训练方法。

示例五、文本分类模型的训练装置是云端开放服务

本申请实施例中的文本分类模型的训练装置555可提供为向用户开发的信息推荐云服务，供个人、群体或单位获取推荐列表。

其中，文本分类模型的训练装置555包括一系列的模块，包括翻译模块5551、第一训练模块5552、筛选模块5553、第二训练模块5554。下面继续说明本申请实施例提供的文本分类模型的训练装置555中各个模块配合实现文本分类模型的训练方案。

翻译模块5551，配置为通过机器翻译模型对第一语言的多个第一文本样本进行机器翻译处理，得到与所述多个第一文本样本一一对应的多个第二文本样本；其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；第一训练模块5552，配置为基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；筛选模块5553，配置为通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；第二训练模块5554，配置为基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。

在一些实施例中，所述第一训练模块5552还配置为基于所述第二语言的多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t次训练；通过第t次训练的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的第t次筛选处理；基于前t次筛选结果、所述多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t+1次训练；将第T次训练的所述第一文本分类模型作为所述训练后的所述第一文本分类模型；其中，t为依次递增的正整数、且取值范围满足1≤t≤T-1，T为大于2的整数、且用于表示迭代训练的总次数。

在一些实施例中，所述第二训练模块5554还配置为确定所述筛选处理得到的第二文本样本在多个类别的分布；当所述筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且在每个类别的数量超出对应的类别数量阈值时，从所述筛选处理得到的第二文本样本中的每个类别的文本样本中，基于随机抽取对应所述类别数量阈值的文本样本构建训练集；基于所述训练集训练用于所述第二语言的第二文本分类模型。

在一些实施例中，所述第二训练模块5554还配置为当所述筛选处理得到的第二文本样本在多个类别的分布不满足分布均衡条件，针对分布少的类别的第二文本样本进行基于近义词的扩充处理；其中，所述扩充处理得到的第二文本样本在多个类别的分布满足所述分布均衡条件；基于所述扩充处理得到的第二文本样本构建训练集；基于所述训练集训练用于所述第二语言的第二文本分类模型。

在一些实施例中，所述第二训练模块5554还配置为基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集，基于所述训练集训练用于所述第二语言的第二文本分类模型。

在一些实施例中，所述第二训练模块5554还配置为遍历所述筛选处理得到的第二文本样本的每个类别，执行以下处理：当所述类别中的第二文本样本的数量低于所述类别的类别数量阈值时，将从所述多个第三文本样本中随机抽取所述类别的第三文本样本补充到所述类别的第二文本样本中，以更新所述筛选处理得到的第二文本样本；基于更新后的所述筛选处理得到的第二文本样本，构建训练集。

在一些实施例中，所述第二训练模块5554还配置为根据文本分类模型的算力与在单位时间内所能够运算的文本样本的数量的对应关系，确定与训练所述第二文本分类模型所能够使用的算力匹配的目标样本数量；从基于所述筛选处理得到的第二文本样本构建的训练集中，筛选出对应所述目标样本数量的文本样本，以作为训练用于所述第二语言的第二文本分类模型的样本。

在一些实施例中，所述第一训练模块5552还配置为通过所述第一文本分类模型对所述第二语言的多个第三文本样本进行预测处理，得到所述多个第三文本样本分别对应的预测类别的置信度；基于所述预测类别的置信度以及所述第三文本样本的类别标签，构建所述第一文本分类模型的损失函数；更新所述第一文本分类模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述第一文本分类模型的更新的参数，作为所述训练后的所述第一文本分类模型的参数。

在一些实施例中，所述第一训练模块5552还配置为针对所述多个第三文本样本中的任一第三文本样本执行以下处理：通过所述第一文本分类模型执行以下处理：对所述第三文本样本进行编码处理，得到所述第三文本样本的编码向量；对所述第三文本样本的编码向量进行融合处理，得到融合向量；对所述融合向量进行非线性映射处理，得到所述第三文本样本对应的预测类别的置信度。

在一些实施例中，所述第一文本分类模型包括多个级联的激活层；第一训练模块5552还配置为通过所述多个级联的激活层的第一个激活层，对所述融合向量进行所述第一个激活层的映射处理；将所述第一个激活层的映射结果输出到后续级联的激活层，通过所述后续级联的激活层继续进行映射处理和映射结果输出，直至输出到最后一个激活层；将所述最后一个激活层输出的激活结果作为所述第三文本样本对应的预测类别的置信度。

在一些实施例中，所述筛选模块5553还配置为针对所述多个第二文本样本中的任一第二文本样本执行以下处理：通过所述训练后的所述第一文本分类模型对所述第二文本样本进行预测处理，得到所述第二文本样本对应的多个预测类别的置信度；将所述第二文本样本对应的第一文本样本的类别标签确定为所述第二文本样本的类别标签；基于所述第二文本样本对应的多个预测类别的置信度以及所述第二文本样本的类别标签，将超出置信度阈值的第二文本样本作为所述筛选处理得到的第二文本样本。

在一些实施例中，所述第二训练模块5554还配置为通过所述第二文本分类模型对所述筛选处理得到的第二文本样本进行预测处理，得到所述筛选处理得到的第二文本样本对应的预测类别；基于所述筛选处理得到的第二文本样本对应的预测类别以及对应的类别标签，构建所述第二文本分类模型的损失函数；更新所述第二文本分类模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述第二文本分类模型的更新的参数，作为训练后的所述第二文本分类模型的参数。

在一些实施例中，所述第二文本分类模型包括多个级联的编码器；第二训练模块5554还配置为针对所述筛选处理得到的第二文本样本中的任一文本样本执行以下处理：通过所述多个级联的编码器的第一个编码器，对所述文本样本进行所述第一个编码器的编码处理；将所述第一个编码器的编码结果输出到后续级联的编码器，通过所述后续级联的编码器继续进行编码处理和编码结果输出，直至输出到最后一个编码器；将所述最后一个编码器输出的编码结果作为对应所述文本样本的编码向量；对所述文本样本的编码向量进行非线性映射，得到所述文本样本对应的预测类别。

在一些实施例中，所述第二训练模块5554还配置为通过所述多个级联的编码器的第y个编码器执行以下处理：对第y-1个编码器的编码结果进行自注意力处理，得到第y个自注意力向量；对所述第y个自注意力向量以及所述第y-1个编码器的编码结果进行残差连接处理，得到第y个残差向量；对所述第y个残差向量进行非线性映射处理，得到第y个映射向量；对所述第y个映射向量以及所述第y个残差向量进行残差连接处理，将残差连接的结果作为所述第y个编码器的编码结果，并将所述第y个编码器的编码结果输出到第y+1个编码器；其中，y为依次递增的正整数、且取值范围满足2≤y≤H-1，H为大于2的整数、且用于表示所述多个级联的编码器的数量。

其中，本申请实施例还提供一种文本分类装置，文本分类装置包括一系列的模块，包括获取模块以及处理模块。其中，获取模块，配置为获取待分类文本；其中，所述待分类文本采用不同于第一语言的第二语言；处理模块，配置为通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理，得到所述待分类文本的编码向量；对所述待分类文本的编码向量进行非线性映射，得到所述待分类文本对应的类别；其中，所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的，所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的文本分类模型的训练方法，或者文本分类方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的信息推荐方法，或者文本分类方法，例如，如图3-5示出的文本分类模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

一种文本分类模型的训练方法，包括：

对第一语言的多个第一文本样本进行机器翻译处理，得到与所述多个第一文本样本一一对应的多个第二文本样本；

其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；

基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；

通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；

基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；

其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。
根据权利要求1所述的方法，其中，所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型，包括：

基于所述第二语言的多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t次训练；

通过第t次训练的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的第t次筛选处理；

基于前t次筛选结果、所述多个第三文本样本以及分别对应的类别标签，对所述第一文本分类模型进行第t+1次训练；

将第T次训练的所述第一文本分类模型作为所述训练后的所述第一文本分类模型；

其中，t为依次递增的正整数、且取值范围满足1≤t≤T-1，T为大于2的整数、且用于表示迭代训练的总次数。
根据权利要求1所述的方法，其中，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：

确定所述筛选处理得到的第二文本样本在多个类别的分布；

当所述筛选处理得到的第二文本样本在多个类别的分布满足分布均衡条件、且在每个类别的数量超出对应的类别数量阈值时，从所述筛选处理得到的第二文本样本中的每个类别的文本样本中，基于随机抽取对应所述类别数量阈值的文本样本构建训练集；

基于所述训练集训练用于所述第二语言的第二文本分类模型。
根据权利要求1所述的方法，其中，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：

当所述筛选处理得到的第二文本样本在多个类别的分布不满足分布均衡条件，针对分布少的类别的第二文本样本进行基于近义词的扩充处理；

其中，所述扩充处理得到的第二文本样本在多个类别的分布满足所述分布均衡条件；

基于所述扩充处理得到的第二文本样本构建训练集；

基于所述训练集训练用于所述第二语言的第二文本分类模型。
根据权利要求1所述的方法，其中，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：

基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集，基于所述训练集训练用于所述第二语言的第二文本分类模型。
根据权利要求5所述的方法，其中，所述基于所述多个第三文本样本以及所述筛选处理得到的第二文本样本构建训练集，包括：

遍历所述筛选处理得到的第二文本样本的每个类别，执行以下处理：

当所述类别中的第二文本样本的数量低于所述类别的类别数量阈值时，将从所述多个第三文本样本中随机抽取所述类别的第三文本样本补充到所述类别的第二文本样本中，以更新所述筛选处理得到的第二文本样本；

基于更新后的所述筛选处理得到的第二文本样本，构建训练集。
根据权利要求1所述的方法，其中，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型之前，所述方法还包括：

根据文本分类模型的算力与在单位时间内所能够运算的文本样本的数量的对应关系，确定与训练所述第二文本分类模型所能够使用的算力匹配的目标样本数量；

从基于所述筛选处理得到的第二文本样本构建的训练集中，筛选出对应所述目标样本数量的文本样本，以作为训练用于所述第二语言的第二文本分类模型的样本。
根据权利要求1所述的方法，其中，所述基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型，包括：

通过所述第一文本分类模型对所述第二语言的多个第三文本样本进行预测处理，得到所述多个第三文本样本分别对应的预测类别的置信度；

基于所述预测类别的置信度以及所述第三文本样本的类别标签，构建所述第一文本分类模型的损失函数；

更新所述第一文本分类模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述第一文本分类模型的更新的参数，作为所述训练后的所述第一文本分类模型的参数。
根据权利要求8所述的方法，其中，所述通过所述第一文本分类模型对所述第二语言的多个第三文本样本进行预测处理，得到所述多个第三文本样本分别对应的预测类别的置信度，包括：

针对所述多个第三文本样本中的任一第三文本样本执行以下处理：

通过所述第一文本分类模型执行以下处理：

对所述第三文本样本进行编码处理，得到所述第三文本样本的编码向量；

对所述第三文本样本的编码向量进行融合处理，得到融合向量；

对所述融合向量进行非线性映射处理，得到所述第三文本样本对应的预测类别的置信度。
根据权利要求9所述的方法，其中，

所述第一文本分类模型包括多个级联的激活层；

所述对所述融合向量进行非线性映射处理，得到所述第三文本样本对应的预测类别的置信度，包括：

通过所述多个级联的激活层的第一个激活层，对所述融合向量进行所述第一个激活层的映射处理；

将所述第一个激活层的映射结果输出到后续级联的激活层，通过所述后续级联的激活层继续进行映射处理和映射结果输出，直至输出到最后一个激活层；

将所述最后一个激活层输出的激活结果作为所述第三文本样本对应的预测类别的置信度。
根据权利要求1所述的方法，其中，所述通过所述训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理，包括：

针对所述多个第二文本样本中的任一第二文本样本执行以下处理：

通过所述训练后的所述第一文本分类模型对所述第二文本样本进行预测处理，得到所述第二文本样本对应的多个预测类别的置信度；

将所述第二文本样本对应的第一文本样本的类别标签确定为所述第二文本样本的类别标签；

基于所述第二文本样本对应的多个预测类别的置信度以及所述第二文本样本的类别标签，将超出置信度阈值的第二文本样本作为所述筛选处理得到的第二文本样本。
根据权利要求1所述的方法，其中，所述基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型，包括：

通过所述第二文本分类模型对所述筛选处理得到的第二文本样本进行预测处理，得到所述筛选处理得到的第二文本样本对应的预测类别；

基于所述筛选处理得到的第二文本样本对应的预测类别以及对应的类别标签，构建所述第二文本分类模型的损失函数；

更新所述第二文本分类模型的参数直至所述损失函数收敛，将所述损失函数收敛时所述第二文本分类模型的更新的参数，作为训练后的所述第二文本分类模型的参数。
根据权利要求12所述的方法，其中，

所述第二文本分类模型包括多个级联的编码器；

所述通过所述第二文本分类模型对所述筛选处理得到的第二文本样本进行预测处理，得到所述筛选处理得到的第二文本样本对应的预测类别，包括：

针对所述筛选处理得到的第二文本样本中的任一文本样本执行以下处理：

通过所述多个级联的编码器的第一个编码器，对所述文本样本进行所述第一个编码器的编码处理；

将所述第一个编码器的编码结果输出到后续级联的编码器，通过所述后续级联的编码器继续进行编码处理和编码结果输出，直至输出到最后一个编码器；

将所述最后一个编码器输出的编码结果作为对应所述文本样本的编码向量；

对所述文本样本的编码向量进行非线性映射，得到所述文本样本对应的预测类别。
根据权利要求13所述的方法，其中，所述通过所述后续级联的编码器继续进行编码处理和编码结果输出，包括：

通过所述多个级联的编码器的第y个编码器执行以下处理：

对第y-1个编码器的编码结果进行自注意力处理，得到第y个自注意力向量；

对所述第y个自注意力向量以及所述第y-1个编码器的编码结果进行残差连接处理，得到第y个残差向量；

对所述第y个残差向量进行非线性映射处理，得到第y个映射向量；

对所述第y个映射向量以及所述第y个残差向量进行残差连接处理，将残差连接的结果作为所述第y个编码器的编码结果，并将所述第y个编码器的编码结果输出到第y+1个编码器；

其中，y为依次递增的正整数、且取值范围满足2≤y≤H-1，H为大于2的整数、且用于表示所述多个级联的编码器的数量。
一种文本分类方法，所述方法包括：

获取待分类文本；

其中，所述待分类文本采用不同于第一语言的第二语言；

通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理，得到所述待分类文本的编码向量；

对所述待分类文本的编码向量进行非线性映射，得到所述待分类文本对应的类别；

其中，所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的，所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。
一种文本分类模型的训练装置，所述装置包括：

翻译模块，配置为对第一语言的多个第一文本样本进行机器翻译处理，得到与所述多个第一文本样本一一对应的多个第二文本样本；其中，所述多个第二文本样本采用不同于所述第一语言的第二语言；

第一训练模块，配置为基于所述第二语言的多个第三文本样本以及分别对应的类别标签，训练用于所述第二语言的第一文本分类模型；

筛选模块，用于通过训练后的所述第一文本分类模型对所述多个第二文本样本进行基于置信度的筛选处理；

第二训练模块，配置为基于所述筛选处理得到的第二文本样本，训练用于所述第二语言的第二文本分类模型；其中，所述第二文本分类模型的网络深度大于所述第一文本分类模型的网络深度。
一种文本分类装置，所述装置包括：

获取模块，配置为获取待分类文本；其中，所述待分类文本采用不同于第一语言的第二语言；

处理模块，配置为通过网络深度大于第一文本分类模型的第二文本分类模型对所述待分类文本进行编码处理，得到所述待分类文本的编码向量；对所述待分类文本的编码向量进行非线性映射，得到所述待分类文本对应的类别；其中，所述第二文本分类模型是通过所述第一文本分类模型筛选得到的第二语言的文本样本训练得到的，所述第二语言的文本样本是通过对所述第一语言的文本样本进行机器翻译得到的。
一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至14任一项所述的文本分类模型的训练方法，或权利要求15所述的文本分类方法。
一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现权利要求1至14任一项所述的文本分类模型的训练方法，或权利要求15所述的文本分类方法。
一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现权利要求1至14任一项所述的文本分类模型的训练方法，或权利要求15所述的文本分类方法。