WO2021139250A1

WO2021139250A1 - 一种数据增强模型的训练方法及装置

Info

Publication number: WO2021139250A1
Application number: PCT/CN2020/118525
Authority: WO
Inventors: 郑立颖; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-31
Filing date: 2020-09-28
Publication date: 2021-07-15
Also published as: CN111914552A

Abstract

本申请涉及人工智能和自然语言处理，提供了一种数据增强模型的训练方法及装置，方法包括：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；将第一语料数据和第三语料数据分别输入文本分类模型进行识别得到分类结果；根据分类结果计算损失值，利用损失值优化三个模型的参数；循环迭代直至满足预设终止条件停止。由于文本分类模型和数据增强模型的训练是一个博弈过程，文本分类模型的训练目的是让生成的新语料不容易被文本分类模型区分，而数据增强模型的训练目的是能够精准的区分是原始语料还是生成的新语料，因此能够使数据增强模型生成效果更好的语料，对原始语料起到真正的增强和扩充目的。

Description

一种数据增强模型的训练方法及装置

本申请要求于2020年07月31日提交中国专利局、申请号为202010760950.X，发明名称为“一种数据增强模型的训练方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，具体涉及一种数据增强模型的训练方法及装置。

背景技术

数据增强(Data Augmentation)是一种通过让有限的数据产生更多的等价数据来扩展训练数据集的技术。它是克服训练数据不足的有效手段，目前在深度学习的各个领域中应用广泛。在自然语言处理领域中，由于自然语言本身是离散的抽象符号，微小的变化就可能会导致含义的巨大偏差，所以自然语言的数据增强算法值得我们深入研究。

目前，常用的自然语言的数据增强方式包括利用翻译工具回译、同义词替换或插入、随机删除词语、添加噪音词语、词语位置变换。但是发明人发现这些数据增强方式的生成效果均一般，生成的文本与原始文本几乎都一样，相当于没有对原始文本做太多的增强和扩充工作，从而利用这些文本也无法训练得到精度高的自然语言处理任务模型。

技术问题

本申请的目的是提出一种增强数据模型的训练方法及装置，旨在解决如何使数据增强模型可以生成效果更好的语料的问题。

技术解决方案

本申请提出了一种增强数据模型的训练方法，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述方法包括：

将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

将第一语料数据和第三语料数据分别输入文本分类模型；

通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据；

根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型。

本申请提出了一种自然语言处理任务模型的训练方法，所述方法包括：

获取中文语料集；

将所述中文语料集中的每一中文语料依次输入训练好的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法包括：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型；

将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。

本申请提出了一种增强数据模型的训练装置，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述装置包括：

生成模块，用于将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

判别模块，用于将第一语料数据和第三语料数据分别输入文本分类模型；通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据；

参数优化模块，用于根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

终止判断模块，用于循环迭代上述生成模块、判别模块、参数优化模块的过程，直至满足预设终止条件时得到训练好的数据增强模型。

本申请提出了一种自然语言处理任务模型的训练装置，所述装置包括：

获取模块，用于获取中文语料集；

数据增强模块，用于将所述中文语料集中的每一中文语料依次输入数据增强模型的训练装置训练得到的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练装置包括生成模块、判别模块、参数优化模块和终止判断模块；所述生成模块，用于将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；所述判别模块，用于将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据；所述参数优化模块，用于根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；所述终止判断模块，用于循环迭代上述生成模块、判别模块、参数优化模块的过程，直至满足预设终止条件时得到训练好的数据增强模型；

训练模块，用于将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。

本申请提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种数据增强模型的训练方法；

其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法的步骤包括：

将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种自然语言处理任务模型的训练方法；

其中，所述自然语言处理任务模型的训练方法的步骤包括：

获取中文语料集；

本申请提出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现一种数据增强模型的训练方法；

本申请还提出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现一种自然语言处理任务模型的训练方法；

其中，所述自然语言处理任务模型的训练方法的步骤包括：

获取中文语料集；

有益效果

基于上述数据增强模型的训练方法、自然语言处理任务模型的训练方法、数据增强模型的训练装置、自然语言处理任务模型的训练装置、计算机设备和计算机可读存储介质，基于文本分类模型和数据增强模型的训练过程是一个博弈过程，而文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分，以及数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据，因此采用这种对抗方式能够根据文本分类模型的判别结果的好坏不断地更新数据增强模型生成的语料数据的效果，进而使得训练得到的数据增强模型生成效果更好的新语料数据，对原始语料数据起到真正的增强和扩充目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请根据一示例性实施例示出的一种数据增强模型的训练方法的实施例流程图；

图2为本申请根据图1所示实施例示出的一种数据增强模型的训练结构示意图；

图3为本申请示出的门控循环网络的结构示意图；

图4为本申请示出的一种Seq2seq模型的结构示意图；

图5为本申请根据一示例性实施例示出的一种自然语言处理任务模型的训练方法的实施例流程图；

图6为本申请根据一示例性实施例示出的一种数据增强模型的训练装置的实施例流程图；

图7为本申请根据一示例性实施例示出的一种自然语言处理任务模型的训练装置的实施例流程图。

本发明的最佳实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

目前，常用的数据增强方式中，利用翻译工具回译的方式是最为有效的数据增强手段，即利用翻译工具将原始文本翻译为其他语种的文本，然后再利用翻译工具将其他语种的文本再翻译回与原始文本语种一样的新文本。

随着深度学习的发展，人们开始利用机器翻译网络模型来代替翻译工具进行翻译，如基于编码器-解码器机制的seq2seq模型。然而，用于进行数据增强的机器翻译模型均是采用常规的训练方式得到，由机器翻译模型翻译得到的新文本的信息都来自于原始文本，与原始文本几乎都一样，相当于没有对原始文本做太多的增强和扩充工作，无法判断新文本对原始文本是否有帮助作用，因此将这些原始文本和生成的新文本作为训练样本集应用到后续任务(如分类任务、关系抽取任务等)中，在准确率和召回率的提升效果上不佳。经实验测试，在精确率和召回率的提升上只有大约0.02左右。

为解决上述技术问题，本申请提出一种数据增强模型的训练方法，通过将数据增强模型输出的新语料数据和输入数据增强模型的原始语料数据，再输入文本分类模型判断新语料数据是原始语料数据还是由数据增强模型生成的数据，得到分类结果，并根据分类结果进行损失计算，并将计算结果代入优化算法优化数据增强模型和文本分类模型的参数，由于文本分类模型和数据增强模型的训练过程是一个博弈过程，文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分，而数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据，因此采用这种对抗方式能够根据文本分类模型的判别结果的好坏不断地更新数据增强模型生成的语料数据的效果，进而使得训练得到的数据增强模型生成效果更好的新语料数据，对原始语料数据起到真正的增强和扩充目的。

下面以具体实施例对本申请提出的数据增强模型的训练方法进行详细阐述。

图1为本申请根据一示例性实施例示出的一种数据增强模型的训练方法的实施例流程图，该数据增强模型的训练方法可以应用在计算机设备上，在本实施例中，该数据增强模型包括第一seq2seq模型和第二seq2seq模型，以保证数据增强的精度。结合图2所示的训练结构示意图，该训练方法包括如下步骤：

步骤101：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据。

其中，第一seq2seq模型和第二seq2seq模型可以为经过常规训练方式预训练得到的模型，即这两个模型可以进行一些基本的翻译操作。

值得注意的是，第一语料数据和第三语料数据均属于同一语种，第二语料数据属于另一种不同的语种。

例如，第一语料数据属于的中文语种，通过第一seq2seq模型进行转译后，得到的第二语料数据属于英文语种，再通过第二seq2seq模型进行转译之后，得到的第三语料数据属于中文语种，只是说第一语料数据经过两次转译之后，得到的第三语料数据虽然也属于中文语种，但是其包括的具体文字内容及文字排序，与第一语料数据都不同了。

在一些实施例中，第一seq2seq模型和第二seq2seq模型可以均包括编码器和解码器机制的模型，其工作原理为：编码器对输入的样本序列进行编码获得一组隐层特征向量，并将该隐层特征向量输入至解码器进行解码输出。

基于此，在步骤101中，针对将第一语料数据输入第一seq2seq模型得到第二语料数据的过程，可通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量，并输出给第一seq2seq模型中的解码器，然后再通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据。

基于同样的原理，针对将第二语料数据输入第二seq2seq模型得到第三语料数据的过程，可通过第二seq2seq模型中的编码器将第二语料数据编码为第二特征向量，并输出给第二seq2seq模型中的解码器，然后再通过第二seq2seq模型中的解码器将第二特征向量解码为第三语料数据。

在一些实施例中，编码器和解码器可以均采用门控循环网络(GRU，Gated Recurrent Unit)，参见图3所示的GRU网络结构，GRU包括更新门rt和重置门zt，更新门用于控制前一时刻的隐层状态ht-1的信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的信息带入越大，重置门用于控制忽略前一时刻的信息的程度，重置门的值越小说明忽略的越多。

GRU中包括的更新门rt和重置门zt的计算公式如下：

z _t＝σ(W _z·[h _t-1,x _t])

r _t＝σ(W _r·[h _t-1,x _t])

其中，W _z和W _r分别表示重置门和更新门的权重参数，x _t表示当前时刻t的输入。

GRU中包括的tanh激活函数公式如下：

其中，W为激活函数的权重参数。

GRU的输出计算公式如下：

基于此，针对通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量的过程，具体通过编码器中门控循环网络对第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取隐层状态序列中的最后一个隐层状态作为第一特征向量输出。

针对通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据的过程，具体通过解码器中门控循环网络对第一特征向量进行转换得到长度为m的隐层状态序列，并基于隐层状态序列输出长度为m的第二语料数据序列。

需要说明的是，对于第二seq2seq模型对输入的语料数据进行的转译原理与第一seq2seq模型的转译原理相同。

参见图4所示的seq2seq模型结构，以第一seq2seq模型的转译过程为例，针对编码器的编码原理：

作为第一语料数据的x1～xn序列依次输入编码器中的GRU1，输入x1时，GRU1基于初始状态h0和x1可得到隐层状态h1，输入x2时，GRU1基于隐层状态h1和x2可得到隐层状态h2，以此类推，直至输入xn时，GRU1可得到隐层状态hn，并输出该隐层状态hn，即第一特征向量，也即向量c，该向量c编码了所有输入序列x1～xn的信息；

针对解码器的解码原理：GRU2接收到向量c后，GRU2基于初始状态h0’和向量c可得到隐层状态h1’，并基于隐层状态h1’输出y1，GRU2再基于隐层状态h1’、向量c和前一个输出y1可得到隐层状态h2’，并基于隐层状态h2’输出y2，以此类推，直至输出m个序列时结束，获得作为第二语料数据的y1～ym。

本领域技术人员可以理解的是，上述图4所示的seq2seq模型结构仅为示例性说明，本申请还可采用其他结构的seq2seq模型进行转译处理。

步骤102：将第一语料数据和第三语料数据分别输入文本分类模型，并通过文本分类模型进行识别，得到分类结果。

其中，文本分类模型的分类结果包括两种，一种是分类结果为真，即表示第三语料数据是第一语料数据；另一种分类结果为假，即表示第三语料数据是由数据增强模型生成的语料数据。

在一些实施例中，文本分类模型可以为TextCNN网络，可通过TextCNN网络中的至少一个卷积层分别对第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征，再通过TextCNN网络中的池化层分别对第一卷积特征和第二卷积特征进行池化处理，最后通过TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。

具体地，TextCNN可以包括4层卷积层，第一层卷积层包括三个一维卷积核，各一维卷积核的长度分别为1、3、5，各一维卷积核均有128通道，共384通道，后续的三层卷积层，分别包括长度为3的一维卷积核，各一维卷积核分别有384个通道，最终将卷积输出进行池化与全连接层映射，得到最终的分类结果，即0或1的输出形式。

步骤103：根据分类结果计算损失值，并通过预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数。

针对步骤102的过程，分类结果如果为真，则表示文本分类模型将输入的第三语料数据判别为第一语料数据，分类结果如果为假，则表示文本分类模型将输入的第三语料数据判别为是由数据增强模型生成的文本语料。

在优化两个seq模型和文本分类模型中的参数时，根据分类结果计算损失值的损失函数可以采用交叉熵，公式如下：

其中，p(x)表示当前样本x所属真实类别的概率，q(x)表示判别网络将当前样本x判断为真实类别的概率。

如果文本分类模型的分类准确度高(如远大于0.5)，则说明数据增强模型的语料生成效果比较差，文本分类模型很容易就判断出是通过数据增强模型生成的语料数据还是原始语料数据了，如果文本分类模型的分类准确度比较低(如0.5左右)，则说明数据增强模型的生成效果很好，文本分类模型已经很难区分出是通过数据增强模型生成的语料数据还是原始语料数据了。

因此，预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数的目标是，让两个seq2seq模型生成的第三语料数据不容易被文本分类模型区分，让文本分类模型能够精准的区分第三语料数据是原始语料数据还是生成的语料数据。

示例性的，预设优化算法可以是Adam算法，也可以其他模型优化算法，本申请对此不进行具体限定。

步骤104：循环迭代上述步骤101至步骤103，直至满足预设终止条件时得到训练好的数据增强模型。

在一些实施例中，预设终止条件可以是训练迭代次数达到预设次数。例如，预设次数可以为50次。

在另一些实施例中，预设终止条件还可以是文本分类模型的分类准确度与预设阈值的差值位于预设范围内。例如，预设阈值可以为0.5。

本领域技术人员可以理解的是，还可以是上述两个终止条件中任一项满足，即停止训练。

基于上述步骤101至步骤104的整个训练过程，参见图2所示的整体训练结构，每次训练均是将已有的第一语料数据输入数据增强模型，经过数据增强模型中的第一seq2seq模型和第二seq2seq模型输出第三语料数据，再将第一语料数据和第三语料数据输入文本分类模型，由文本分类模型输出分类结果，根据分类结果计算损失值，进而根据损失值更新第一seq2seq模型和第二seq2seq模型的参数，以及文本分类模型的参数，不断的迭代循环上述过程并更新第一seq2seq模型、第二seq2seq模型和文本分类模型的的参数，直至满足预设终止条件时停止训练。

与一些常规数据增强方法相比，例如将“这道菜做得很好”这一语料通过一些简单方法，例如调换顺序，或者随机删去部分词语，得到“这菜做得”，这样的方式虽然也能得到更多样本，但是这样的样本存在更多噪音，会影响训练自然语言处理任务模型的精度。

而本申请将对抗学习中的生成器改为由两个seq2seq模型组成的数据增强模型，输出的是语料的转译结果而非随机生成对象，例如将“这道菜做得很好”输入采用上述步骤101至步骤104对抗训练得到的数据增强模型生成的新样本“这道菜做得很不错”效果比较好。

至此，完成上述图1所示的数据增强模型的训练流程，通过将数据增强模型输出的新语料数据和输入数据增强模型的原始语料数据，再输入文本分类模型判断新语料数据是原始语料数据还是由数据增强模型生成的数据，得到分类结果，并根据分类结果进行损失计算，并将计算结果代入优化算法优化数据增强模型和文本分类模型的参数，由于文本分类模型和数据增强模型的训练过程是一个博弈过程，文本分类模型的训练目的是让生成的新语料数据不容易被文本分类模型区分，而数据增强模型的训练目的是能够精准的区分是原始语料数据还是生成的新语料数据，因此采用这种对抗方式训练得到的数据增强模型，能够使数据增强模型生成效果更好的新语料数据，对原始语料数据起到真正的增强和扩充目的。

下面以使用上述图1所示的训练方法训练得到的数据增强模型重构中文语料为例：

图5为本申请根据一示例性实施例示出的一种自然语言处理任务模型的训练方法的实施例流程图，该自然语言处理任务模型的训练方法包括如下步骤：

步骤501：获取中文语料集。

步骤502：将中文语料集中的每一中文语料依次输入采用上述图1所示的训练方法训练得到的数据增强模型，重构新中文语料并输出。

步骤503：将输出的新中文语料和中文语料集作为训练集训练自然语言处理任务模型。

以自然语言处理任务模型为文本分类任务为例，需建立模型将文本分类为褒义、贬义、中性，假设语料集中有一样本为“这道菜做得很好”，标注的标签为“褒义”，如果直接基于语料集中这些类似样本建模，数据量会影响文本分类任务模型精度，现采用上述方法训练得到的数据增强模型，将“这道菜做得很好”进行转译，经过中译英，英译中，得到新样本“这道菜做得很不错”，通过这一过程获得更多同标注，文本存在差异的新样本，结合原始样本与增强样本训练文本分类任务模型，从而能够获得更好鲁棒性的模型。

至此，完成上述图5所示流程，由于采用上述图1所描述的数据增强模型对用于训练自然语言处理任务模型的语料数据进行更好的扩充增强，能够生成更多更好的样本，由此利用扩充后的训练集进行自然语言处理任务训练，可以给自然语言处理任务模型的精度带来很好的提升。

与前述数据增强模型的训练方法的实施例相对应，本申请还提供了数据增强模型的训练装置的实施例。

图6为本申请根据一示例性实施例示出的一种数据增强模型的训练装置的实施例流程图，数据增强模型包括第一seq2seq模型和第二seq2seq模型，该数据增强模型的训练装置包括：

生成模块610，用于将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

判别模块620，用于将第一语料数据和第三语料数据分别输入文本分类模型；通过文本分类模型进行识别，得到分类结果，分类结果用于表征第三语料数据是第一语料数据或由生成网络生成的语料数据；

参数优化模块630，用于根据分类结果计算损失值，并通过预设优化算法利用损失值优化第一seq2seq模型、第二seq2seq模型和文本分类模型的参数；

终止判断模块640，用于循环迭代上述生成模块、判别模块、参数优化模块的过程，直至满足预设终止条件时得到训练好的数据增强模型。

在一可选实现方式中，第一seq2seq模型和第二seq2seq模型均包括编码器和解码器；

生成模块610，具体用于在将第一语料数据输入第一seq2seq模型得到第二语料数据过程中，通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量，并输出给第一seq2seq模型中的解码器；通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据；

生成模块610，具体用于在将第二语料数据输入第二seq2seq模型得到第三语料数据过程中，通过第二seq2seq模型中的编码器将第二语料数据编码为第二特征向量，并输出给第二seq2seq模型中的解码器；通过第二seq2seq模型中的解码器将第二特征向量解码为第三语料数据。

在一可选实现方式中，解码器和编码器均包括门控循环网络；

生成模块610，具体用于在通过第一seq2seq模型中的编码器将第一语料数据编码为第一特征向量过程中，通过编码器中门控循环网络对第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取隐层状态序列中的最后一个隐层状态作为第一特征向量输出；

生成模块610，具体用于在通过第一seq2seq模型中的解码器将第一特征向量解码为第二语料数据过程中，通过解码器中门控循环网络对第一特征向量进行转换得到长度为m的隐层状态序列，并基于隐层状态序列输出长度为m的第二语料数据序列。

在一可选实现方式中，文本分类模型为TextCNN网络，判别模块620，具体用于通过TextCNN网络中的至少一个卷积层分别对第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征；通过TextCNN网络中的池化层分别对第一卷积特征和第二卷积特征进行池化处理；通过TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。

与前述自然语言处理任务模型的训练方法的实施例相对应，本申请还提供了自然语言处理任务模型的训练装置的实施例。

图7为本申请根据一示例性实施例示出的一种自然语言处理任务模型的训练装置的实施例流程图，该装置包括：

获取模块710，用于获取中文语料集；

数据增强模块720，用于将中文语料集中的每一中文语料依次输入采用上述图6的训练装置训练得到的数据增强模型，重构新中文语料并输出；

训练模块730，用于将输出的新中文语料和中文语料集作为训练集训练自然语言处理任务模型。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请还提供了另一种实施方式，即提供一种计算机设备，计算机设备包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述任意一种数据增强模型的训练方法的步骤或自然语言处理任务模型的训练方法的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，所述计算机可读存储介质上存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行上述任意一种数据增强模型的训练方法的步骤或自然语言处理任务模型的训练方法的步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种数据增强模型的训练方法，其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述方法包括：

将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；

根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型。
根据权利要求1所述的方法，其中，所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器；

将第一语料数据输入第一seq2seq模型得到第二语料数据，包括：

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，并输出给所述第一seq2seq模型中的解码器；

通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据；

将所述第二语料数据输入第二seq2seq模型得到第三语料数据，包括：

通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量，并输出给所述第二seq2seq模型中的解码器；

通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
根据权利要求2所述的方法，其中，所述解码器和所述编码器均包括门控循环网络；

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，包括：

通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出；

所述通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据，包括：

通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列，并基于所述隐层状态序列输出长度为m的第二语料数据序列。
根据权利要求1所述的方法，其中，所述文本分类模型为TextCNN网络，所述通过所述文本分类模型进行识别，得到分类结果，包括：

通过所述TextCNN网络中的至少一个卷积层分别对所述第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征；

通过所述TextCNN网络中的池化层分别对所述第一卷积特征和第二卷积特征进行池化处理；

通过所述TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。
一种自然语言处理任务模型的训练方法，其中，所述方法包括：

获取中文语料集；

将所述中文语料集中的每一中文语料依次输入训练好的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法包括：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型；

将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
根据权利要求5所述的自然语言处理任务模型的训练方法，其中，所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器；

将第一语料数据输入第一seq2seq模型得到第二语料数据，包括：

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，并输出给所述第一seq2seq模型中的解码器；

通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据；

将所述第二语料数据输入第二seq2seq模型得到第三语料数据，包括：

通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量，并输出给所述第二seq2seq模型中的解码器；

通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
根据权利要求6所述的自然语言处理任务模型的训练方法，其中，所述解码器和所述编码器均包括门控循环网络；

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，包括：

通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出；

所述通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据，包括：

通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列，并基于所述隐层状态序列输出长度为m的第二语料数据序列。
根据权利要求5所述的自然语言处理任务模型的训练方法，其中，所述文本分类模型为TextCNN网络，所述通过所述文本分类模型进行识别，得到分类结果，包括：

通过所述TextCNN网络中的至少一个卷积层分别对所述第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征；

通过所述TextCNN网络中的池化层分别对所述第一卷积特征和第二卷积特征进行池化处理；

通过所述TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。
一种数据增强模型的训练装置，其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述装置包括：

生成模块，用于将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

判别模块，用于将第一语料数据和第三语料数据分别输入文本分类模型；通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据；

参数优化模块，用于根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

终止判断模块，用于循环迭代上述生成模块、判别模块、参数优化模块的过程，直至满足预设终止条件时得到训练好的数据增强模型。
一种自然语言处理任务模型的训练装置，其中，所述装置包括：

获取模块，用于获取中文语料集；

数据增强模块，用于将所述中文语料集中的每一中文语料依次输入数据增强模型的训练装置训练得到的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练装置包括生成模块、判别模块、参数优化模块和终止判断模块；所述生成模块，用于将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；所述判别模块，用于将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述生成网络生成的语料数据；所述参数优化模块，用于根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；所述终止判断模块，用于循环迭代上述生成模块、判别模块、参数优化模块的过程，直至满足预设终止条件时得到训练好的数据增强模型；

训练模块，用于将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种数据增强模型的训练方法；

其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法的步骤包括：

将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；

根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型。
根据权利要求11所述的计算机设备，其中，所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器；

将第一语料数据输入第一seq2seq模型得到第二语料数据，包括：

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，并输出给所述第一seq2seq模型中的解码器；

通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据；

将所述第二语料数据输入第二seq2seq模型得到第三语料数据，包括：

通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量，并输出给所述第二seq2seq模型中的解码器；

通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
根据权利要求12所述的计算机设备，其中，所述解码器和所述编码器均包括门控循环网络；

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，包括：

通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出；

所述通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据，包括：

通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列，并基于所述隐层状态序列输出长度为m的第二语料数据序列。
根据权利要求11所述的计算机设备，其中，所述文本分类模型为TextCNN网络，所述通过所述文本分类模型进行识别，得到分类结果，包括：

通过所述TextCNN网络中的至少一个卷积层分别对所述第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征；

通过所述TextCNN网络中的池化层分别对所述第一卷积特征和第二卷积特征进行池化处理；

通过所述TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现一种自然语言处理任务模型的训练方法；

其中，所述自然语言处理任务模型的训练方法的步骤包括：

获取中文语料集；

将所述中文语料集中的每一中文语料依次输入训练好的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法包括：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型；

将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现一种数据增强模型的训练方法；

其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法的步骤包括：

将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；

将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；

根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；

循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型。
根据权利要求16所述的计算机可读存储介质，其中，所述第一seq2seq模型和第二seq2seq模型均包括编码器和解码器；

将第一语料数据输入第一seq2seq模型得到第二语料数据，包括：

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，并输出给所述第一seq2seq模型中的解码器；

通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据；

将所述第二语料数据输入第二seq2seq模型得到第三语料数据，包括：

通过所述第二seq2seq模型中的编码器将所述第二语料数据编码为第二特征向量，并输出给所述第二seq2seq模型中的解码器；

通过所述第二seq2seq模型中的解码器将所述第二特征向量解码为第三语料数据。
根据权利要求17所述的计算机可读存储介质，其中，所述解码器和所述编码器均包括门控循环网络；

通过所述第一seq2seq模型中的编码器将所述第一语料数据编码为第一特征向量，包括：

通过所述编码器中门控循环网络对所述第一语料数据包含的长度为n的字符序列生成长度为n的隐层状态序列，并选取所述隐层状态序列中的最后一个隐层状态作为第一特征向量输出；

所述通过所述第一seq2seq模型中的解码器将所述第一特征向量解码为第二语料数据，包括：

通过所述解码器中门控循环网络对所述第一特征向量进行转换得到长度为m的隐层状态序列，并基于所述隐层状态序列输出长度为m的第二语料数据序列。
根据权利要求16所述的计算机可读存储介质，其中，所述文本分类模型为TextCNN网络，所述通过所述文本分类模型进行识别，得到分类结果，包括：

通过所述TextCNN网络中的至少一个卷积层分别对所述第一语料数据和第三语料数据进行卷积运算，得到第一卷积特征和第二卷积特征；

通过所述TextCNN网络中的池化层分别对所述第一卷积特征和第二卷积特征进行池化处理；

通过所述TextCNN网络中的全连接层对池化后的第一卷积特征和第二卷积特征进行二分类，得到分类结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现一种自然语言处理任务模型的训练方法；

其中，所述自然语言处理任务模型的训练方法的步骤包括：

获取中文语料集；

将所述中文语料集中的每一中文语料依次输入训练好的数据增强模型，重构新中文语料并输出；其中，所述数据增强模型包括第一seq2seq模型和第二seq2seq模型，所述数据增强模型的训练方法包括：将第一语料数据输入第一seq2seq模型得到第二语料数据，将第二语料数据输入第二seq2seq模型得到第三语料数据；将第一语料数据和第三语料数据分别输入文本分类模型，并通过所述文本分类模型进行识别，得到分类结果，所述分类结果用于表征第三语料数据是第一语料数据或由所述数据增强模型生成的语料数据；根据所述分类结果计算损失值，并通过预设优化算法利用所述损失值优化所述第一seq2seq模型、第二seq2seq模型和所述文本分类模型的参数；循环迭代上述步骤，直至满足预设终止条件时得到训练好的数据增强模型；

将输出的新中文语料和所述中文语料集作为训练集训练所述自然语言处理任务模型。