WO2021139233A1

WO2021139233A1 - 数据扩充混合策略生成方法、装置和计算机设备

Info

Publication number: WO2021139233A1
Application number: PCT/CN2020/118140
Authority: WO
Inventors: 朱威; 李恬静
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-16
Filing date: 2020-09-27
Publication date: 2021-07-15
Also published as: CN111931492A

Abstract

本申请涉及人工智能技术领域，提供一种数据扩充混合策略生成方法、装置和计算机设备。所述方法包括：获取当前时间的策略反馈数据和训练数据，将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到数据扩充混合策略，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据，将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据，将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。采用上述方法能提高数据扩充效率。

Description

数据扩充混合策略生成方法、装置和计算机设备

本申请要求于2020年07月16日提交中国专利局、申请号为202010686538.8，发明名称为“数据扩充混合策略生成方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据扩充混合策略生成方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的不断发展，深度学习算法和机器学习也迎来了发展热潮。深度学习算法比如神经网络模型需要大量的训练数据，以保证模型的泛化能力。数据增强（数据扩充）是机器学习和深度学习中常见的数据处理手段，其能让有限的数据产生更多的数据，增加训练样本的数量以及多样性（噪声数据），提升模型鲁棒性。在自然语言处理任务中，常见的数据扩充的方式包括同义词替换和反向翻译。

发明人意识到，目前，在自然语言处理任务中，标注数据的采集需要花费大量的人力成本，且收集的数据具有局限性，数据扩充混合策略通常是人为设计的，往往会出现策略与数据集不适合、或扩充量太大，使得训练的模型产生过拟合现象，使得自然语言数据扩充效率较低。

技术问题

基于此，有必要针对上述技术问题，提供一种能够提高自然语言数据扩充效率的数据扩充混合策略生成方法、装置、计算机设备和存储介质。

技术解决方案

一种数据扩充混合策略生成方法，方法包括：

获取当前时间的策略反馈数据和训练数据；

将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据；

将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

在其中一个实施例中，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据包括：

使用已训练的MLM模型将训练数据中句子中的任一字符替换为掩码字符；

根据预训练的语言模型，预测掩码字符所对应的字符，得到预测字符；

若预测字符的置信度大于预设阈值，则将包含预测字符的训练数据作为扩充后的训练数据。

将训练数据中的词语表示为词向量；

随机将训练数据中任一句子的字节片段表示为目标向量；

计算目标向量与词向量的相似度、并基于相似度查找出目标向量的同义词向量；

将字节片段替换为同义词向量对应的词语，得到扩充后的训练数据。

基于训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，预训练的生成模型基于历史句子数据训练得到。

在其中一个实施例中，基于训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据包括：

随机去除训练数据中任一句子的字节片段，得到目标句子；

针对目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。

在其中一个实施例中，将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略包括：

将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数；

基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。

在其中一个实施例中，更新预设混合策略搜索模型的参数包括：

根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。

一种数据扩充混合策略生成装置，装置包括：

数据获取模块，用于获取当前时间的策略反馈数据和训练数据；

混合策略获取模块，用于将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

数据扩充模块，用于根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据；

策略反馈数据更新模块，用于将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

混合策略更新模块，用于将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，唤醒混合策略获取模块执行将当前时间的策略反馈数据输入至预设混合策略搜索模型的操作，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取当前时间的策略反馈数据和训练数据；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取当前时间的策略反馈数据和训练数据；

有益效果

上述数据扩充混合策略生成方法、装置、计算机设备和存储介质，将策略反馈数据输入至预设混合策略搜索模型，初步生成数据扩充混合策略，再根据生成的数据扩充混合策略扩充训练数据，进一步将扩充后的训练数据输入至预设循环神经，以更新策略反馈数据，循环上述步骤，将更新后的策略反馈数据输入至预设混合策略搜索模型，以更新混合策略搜索模型的参数，使模型趋于成熟，进而得到最优的数据扩充混合策略。上述方案能够减少策略搜索耗时，且能够根据训练数据，自动构建最优的数据扩充混合策略，提升模型的精度和鲁棒性，进而提高自然语言数据扩充的效率，节省人力成本和算力成本。

附图说明

图1为一个实施例中数据扩充混合策略生成方法的应用环境图；

图2为一个实施例中数据扩充混合策略生成方法的流程示意图；

图3为一个实施例中根据数据扩充混合策略扩充训练数据步骤的流程示意图；

图4为另一个根据数据扩充混合策略扩充训练数据步骤的流程示意图；

图5为一个实施例中数据扩充混合策略生成装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

本发明的最佳实施方式

本申请提供的数据扩充混合策略生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。具体可以是用户通过将由自然语言数据构建的训练数据和策略反馈数据通过终端102上传至服务器104，再于终端102的操作界面进行相应操作，发送数据扩充混合策略生成消息至服务器104，服务器104响应该消息，获取当前时间的策略反馈数据和训练数据，将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据，将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据，将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据扩充混合策略生成方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取当前时间的策略反馈数据和训练数据。

数据增强策略对于提升训练样本数据量、改善模型稳定性和鲁棒性，提高模型对于真实世界的适应性和泛化性具有重要的作用。在数据准备阶段，准备有训练集、开发集（即验证集）。本申请意为通过反馈机制在训练数据上进行数据扩充（增强）策略搜索和验证集的性能测试来寻找最优的数据扩充混合策略。算法执行之初，当前时间的策略反馈数据为预先采集的初始的数据扩充混合策略反馈数据。所谓初始数据扩充混合策略反馈数据即指对预设循环神经网络基于历史数据扩充混合策略在开发集上的表现得到的反馈数据。训练数据即为待数据扩充的数据，其可以是不同类型的数据。本实施例中，对于不同类型的训练数据预设有对应的用于训练该训练数据的循环神经网络。若选取某一类型的训练数据，则对应选取用于训练该类型数据的循环神经网络。例如，若训练数据为分类任务数据集，则训练该分类数据的循环神经网络可以是用于数据分类的模型Text-CNN，其中，Text-CNN网络参数在数据扩充混合策略搜索过程中是共享的。

步骤204，将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略。

本实施例中，混合策略搜索模型为控制器，其是由一个循环神经网络组成。该混合策略搜索模型部署有定义好的数据扩充子策略，数据扩充子策略的数量为多个。在获取当前时间的策略反馈数据之后，将当前时间的策略反馈数据作为上述混合策略搜索模型的输入数据，该网络每一步的隐含状态输入到一个分类器，决定混合策略的每个参数。控制器随机初始化，随机生成一个当前时间的数据扩充混合策略。

步骤206，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据。

当得到数据扩充混合策略后，根据该数据扩充混合策略扩充训练数据，进而得到扩充后的训练数据，达到更新训练数据的效果。具体的，混合数据扩充混合策略可以包括使用数据翻译、生成模型生成新句子、基于增强语义的同义词替换以及预测字符替换等数据扩充混合策略的任意组合形式。

步骤208，将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据。

本实施例中，训练数据以分类任务数据集为例，与分类任务数据集对应的循环神经网络则可以是分类网络，具体的，可以为Text-CNN网络。使用数据扩充混合策略对数据进行扩充后，以扩充后的数据为新的训练数据，将其输入至对应的Text-CNN网络，由Text-CNN网络对扩充的训练数据进行分类训练，然后，对比训练数据在开发集上的表现，得到反馈数据，具体可以是模型预测开发集的数据的标签，然后与标准答案作对比，依据准确率等进行打分，得到策略反馈数据。

步骤210，将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回步骤204，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

为挑选出最优的数据扩充混合策略，在得到数据扩充混合策略的反馈数据后，可将反馈数据作为当前时间的数据扩充混合策略的回报（reward）再次输入至混合策略搜索模型，更新混合策略搜索模型的参数，以更新当前时间的数据扩充混合策略。再根据更新后生成的数据扩充混合策略去扩充训练数据，再将扩充后的训练数据重新输入Text-CNN网络，得到新的策略反馈数据，进而再将新的策略反馈数据再次输入至混合策略搜索模型，重复上述步骤，直至模型训练次数达到预设次数，终止训练，从各轮训练得到的策略反馈数据（准确率）中，挑选出准确率最高时对应的数据扩充混合策略，作为最优数据扩充混合策略，至此，筛选出最优的数据扩充混合策略。

上述数据扩充混合策略生成方法中，将策略反馈数据输入至预设混合策略搜索模型，生成数据扩充混合策略，再根据生成的数据扩充混合策略扩充训练数据，进一步将扩充后的训练数据输入至预设循环神经，以更新策略反馈数据，循环上述步骤，将更新后的策略反馈数据输入至预设混合策略搜索模型，以更新混合策略搜索模型的参数，使模型趋于成熟，进而得到最优的数据扩充混合策略。上述方案能够减少策略搜索耗时，且能够根据训练数据，自动构建最优的数据扩充混合策略，提升模型的精度和鲁棒性，进而提高自然语言数据扩充的效率，节省人力成本和算力成本。

如图3所示，在其中一个实施例中，混合策略搜索模型部署多个数据扩充子策略；

根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据包括：

步骤226，使用已训练的MLM模型将训练数据中句子中的任一字符替换为掩码字符；

步骤246，根据预训练的语言模型，预测掩码字符所对应的字符，得到预测字符；

步骤266，若预测字符的置信度大于预设阈值，则将包含预测字符的训练数据作为扩充后的训练数据。

具体实施时，数据扩充子策略有多个，生成的数据充混合策略为包括多个数据扩充子策略的组合，具体的，数据扩充子策略包括使用MLM模型扩充句子数据策略。具体的，可以是使用已训练的MLM（Masked Language Model，遮蔽语言模型），将训练数据中一个句子中的某个字换为“[MASK]”字符（掩码字符），由预训练的语言模型预测这个除去的地方应该是什么字，得到预测字符，且该字的confidence（置信度）大于0.85，则将这个包含预测字符的新的句子扩充进来，得到扩充后的训练数据。具体的，预测出的新的字符是根据语言模型预训练的参数LMHead，其预测出一个“[MASK]”字符地方对应的字是其词汇表中的某个字的概率，取概率最大的那个作为预测的新字符。本实施例中，通过使用区别于传统数据扩充方式的MLM模型进行字符替换，能够快速生成新的句子达到扩充训练数据的效果。

如图4所示，在其中一个实施例中，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据包括：

步骤216，将训练数据中的词语表示为词向量；

步骤236，随机将训练数据中任一句子的字节片段表示为目标向量；

步骤256，计算目标向量与词向量的相似度、并基于相似度查找出目标向量的同义词向量；

步骤276，将字节片段替换为同义词向量对应的词语，得到扩充后的训练数据。

具体实施时，数据扩充子策略还包括基于增强语意的同义词替换策略。使用基于增强语意的同义词替换策略将扩充训练数据可以是：首先，微调一个预训练模型，微调任务是判断两个短语(词语)是否是同义词。然后，将预设知识库中的所有词语用预训练模型表示为词向量。然后，随机选取一个句子中的某个n-gram，使用预训练模型对其进行向量表示，得到目标向量，再基于目标向量到预设知识库中进行检索，即计算目标向量与预设知识库中词向量的相似度，查看是否存在与目标向量相似（同义）的词向量，本实施例中，可以是若二者向量相似度在0.95以上，则表征二者为同义词，预设知识库中的该词向量对应的词语可以与选取的句子中的n-gram替换，形成一个新的句子。可以理解的是，在其他实施例中，相似度还可以是0.96、0.97以及其他数值，具体可根据实际情况而定，在此不做限定。本实施例中，以此方式，对训练数据中的句子进行扩充，得到扩充后的训练数据，丰富训练数据。

在实际应用中，数据扩充子策略还可以包括基于训练数据的句子，使用生成模型生成新的句子策略。在另一个实施例中，可以是：随机去除训练数据中任一句子的字节片段，得到目标句子，针对目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。具体的，可以是先随机选择训练数据中一个句子的后半段的3-gram（字节片段），去除3-gram。再由预训练的生成模型针对去除的3-gram预测3个新的字符，组成一个新的句子。本实施例中，以此方式，对训练数据中的句子进行扩充，生成新的句子，能够快速得到扩充后的训练数据，扩展训练数据。

具体实施时，当前时间的反馈数据可表现为基于历史数据扩充混合策略在开发集上进行扩充得到扩充数据后，由混合策略搜索模型在扩充数据上训练1轮，得到训练结果（标签数据），再对比得到的标签数据和事先已知的标准标签数据，得到正确率，基于正确率进行打分，将得分作为该数据扩充混合策略的回报（reward）即反馈数据再次输入至预设混合策略搜索模型，更新该网络的参数，使得网络生成新的数据扩充混合策略。在一个实施例中，更新预设混合策略搜索模型的参数包括：根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。具体的，预设混合策略搜索模型的参数更新策略可以如下：假设预设混合策略搜索模型的参数为向量θ，策略为π(θ)，其能得到的期望回报是R= E[ π(θ)* r ┤| θ ]，其中，r表示当前时间的反馈数据（也就是回报reward），则期望回报对参数的梯度为E[ ∇_θπ(θ)* r ┤| θ ]，∇_θπ(θ)为π(θ)对应的梯度。具体采用∇_(θ_i ) π(θ_i )* r_i来近似估计，于是参数更新就是θ_(i+1)=θ_i- ∇_(θ_i ) π(θ_i )* r_i。预设混合策略搜索模型经过更新参数，逐渐成熟，可以更好的生成数据扩充混合策略。这样的循环经过50-80 epoch ，便能完成较好的训练。其中，训练次数是根据已有资源进行调整。一般来说，训练时在训练集上面滚动一轮叫一个epoch。一个模型充分训练需要100个epoch左右，算法工程师一般会使用200epoch的时间来随意的选择一个数据扩充策略。但是这种策略一般是离最优还相差很远，一般还有3-4个点的精度提升空间。混合数据扩充策略有多于1e+5的选择，如果简单地训练所有的可能性，那么需要1e+5 * 100 epoch的耗时训练。而本实施例中，采用上述REINFORCE策略梯度算法更新模型的参数，在50次训练之后，混合策略搜索模型得到了较好的训练。最终，使用训练好的混合策略搜索模型生成最优的数据扩充混合策略。这样，通过不到一个训练普通神经网络的耗时，可以得到一个优化的数据扩充混合策略，使模型精度得到显著提高。通过使用REINFORCE策略梯度算法更新参数，能够更好的拟合数据，快速地训练策略。

在实际应用中，数据扩充子策略并不局限于上述列举的三种数据扩充子策略。若将上述三类数据扩充子策略记为s_0，s_1， s_2，对于每个策略s_i，其作用在每条数据上的概率为p_i (0 <= p_i<= 5)，这里指利用这个策略，将原训练数据扩充p_i倍。p_i< 1 时，随机地对一部分数据做扩充。其影响程度d_i (0 <d_i<= 5)，指这个扩充策略会影响某条数据中多少个字。例如，d_0 = 2 指随机去除一个句子中的两个字。所以，需要确定p_i和d_i这两个数值。为方便起见，可将p_i离散化为 0到5之间等距的10个数字。基于上述原理，包含三类上述策略的混合数据扩充策略，对应有(10 * 5)^3 = 1e+5种选择，使得模型能够根据不同的数据任务集，给出相匹配的最优的数据扩充策略。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图5所示，提供了一种数据扩充策略生成装置，包括：数据获取模块510、混合策略获取模块520、数据扩充模块530、策略反馈数据更新模块540和混合策略更新模块550，其中：

数据获取模块510，用于获取当前时间的策略反馈数据和训练数据。

混合策略获取模块520，用于将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略。

数据扩充模块530，用于根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据。

策略反馈数据更新模块540，用于将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据。

混合策略更新模块550，用于将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，唤醒混合策略获取模块执行将当前时间的策略反馈数据输入至预设混合策略搜索模型的操作，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

在其中一个实施例中，数据扩充模块530还用于使用已训练的MLM模型将训练数据中句子中的任一字符替换为掩码字符，根据预训练的语言模型，预测掩码字符所对应的字符，得到预测字符，若预测字符的置信度大于预设阈值，则将包含预测字符的训练数据作为扩充后的训练数据。

在其中一个实施例中，数据扩充模块530还用于将训练数据中的词语表示为词向量，随机将训练数据中任一句子的字节片段表示为目标向量，计算目标向量与词向量的相似度、并基于相似度查找出目标向量的同义词向量，将字节片段替换为同义词向量对应的词语，得到扩充后的训练数据。

在其中一个实施例中，数据扩充模块530还用于基于训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，预训练的生成模型基于历史句子数据训练得到。

在其中一个实施例中，数据扩充模块530还用于随机去除训练数据中任一句子的字节片段，得到目标句子，针对目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。

在其中一个实施例中，混合策略更新模块550还用于将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数；基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。

在其中一个实施例中，混合策略更新模块550还用于根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。

关于数据扩充混合策略生成装置的具体限定可以参见上文中对于数据扩充混合策略生成方法的限定，在此不再赘述。上述数据扩充混合策略生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储反馈数据、训练数据以及混合策略搜索模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据扩充混合策略生成方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取当前时间的策略反馈数据和训练数据，将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据，将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据，将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：使用已训练的MLM模型将训练数据中句子中的任一字符替换为掩码字符，根据预训练的语言模型，预测掩码字符所对应的字符，得到预测字符，若预测字符的置信度大于预设阈值，则将包含预测字符的训练数据作为扩充后的训练数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：将训练数据中的词语表示为词向量，随机将训练数据中任一句子的字节片段表示为目标向量，计算目标向量与词向量的相似度、并基于相似度查找出目标向量的同义词向量，将字节片段替换为同义词向量对应的词语，得到扩充后的训练数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：基于训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，预训练的生成模型基于历史句子数据训练得到。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：随机去除训练数据中任一句子的字节片段，得到目标句子，针对目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数，基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。

在其中一个实施例中，处理器执行计算机程序时还实现以下步骤：根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。

在一个实施例中，提供了一种计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取当前时间的策略反馈数据和训练数据，将当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略，根据数据扩充混合策略扩充训练数据，得到扩充后的训练数据，将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据，将数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：使用已训练的MLM模型将训练数据中句子中的任一字符替换为掩码字符，根据预训练的语言模型，预测掩码字符所对应的字符，得到预测字符，若预测字符的置信度大于预设阈值，则将包含预测字符的训练数据作为扩充后的训练数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：将训练数据中的词语表示为词向量，随机将训练数据中任一句子的字节片段表示为目标向量，计算目标向量与词向量的相似度、并基于相似度查找出目标向量的同义词向量，将字节片段替换为同义词向量对应的词语，得到扩充后的训练数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，预训练的生成模型基于历史句子数据训练得到。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：随机去除训练数据中任一句子的字节片段，得到目标句子，针对目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数，基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。

Claims

一种数据扩充混合策略生成方法，其中，所述方法包括：

获取当前时间的策略反馈数据和训练数据；

将所述当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据；

将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

将所述数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至所述预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。
根据权利要求1所述的方法，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

使用已训练的MLM模型将所述训练数据中句子中的任一字符替换为掩码字符；

根据预训练的语言模型，预测所述掩码字符所对应的字符，得到预测字符；

若所述预测字符的置信度大于预设阈值，则将包含所述预测字符的训练数据作为扩充后的训练数据。
根据权利要求1所述的方法，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

将所述训练数据中的词语表示为词向量；

随机将所述训练数据中任一句子的字节片段表示为目标向量；

计算所述目标向量与所述词向量的相似度、并基于相似度查找出所述目标向量的同义词向量；

将所述字节片段替换为所述同义词向量对应的词语，得到扩充后的训练数据。
根据权利要求1所述的方法，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，所述预训练的生成模型基于历史句子数据训练得到。
根据权利要求4所述的方法，其中，所述基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据包括：

随机去除所述训练数据中任一句子的字节片段，得到目标句子；

针对所述目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。
根据权利要求1所述的方法，其中，所述将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略包括：

将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数；

基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。
根据权利要求6所述的方法，其中，所述更新预设混合策略搜索模型的参数包括：

根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。
一种数据扩充混合策略生成装置，其中，所述装置包括：

数据获取模块，用于获取当前时间的策略反馈数据和训练数据；

混合策略获取模块，用于将所述当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

数据扩充模块，用于根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据；

策略反馈数据更新模块，用于将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

混合策略更新模块，用于将所述数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，唤醒混合策略获取模块执行将当前时间的策略反馈数据输入至预设混合策略搜索模型的操作，以更新数据扩充混合策略，直至所述预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现数据扩充混合策略生成方法的步骤：

获取当前时间的策略反馈数据和训练数据；

将所述当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据；

将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

将所述数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至所述预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。
根据权利要求9所述的计算机设备，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

使用已训练的MLM模型将所述训练数据中句子中的任一字符替换为掩码字符；

根据预训练的语言模型，预测所述掩码字符所对应的字符，得到预测字符；

若所述预测字符的置信度大于预设阈值，则将包含所述预测字符的训练数据作为扩充后的训练数据。
根据权利要求9所述的计算机设备，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

将所述训练数据中的词语表示为词向量；

随机将所述训练数据中任一句子的字节片段表示为目标向量；

计算所述目标向量与所述词向量的相似度、并基于相似度查找出所述目标向量的同义词向量；

将所述字节片段替换为所述同义词向量对应的词语，得到扩充后的训练数据。
根据权利要求9所述的计算机设备，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，所述预训练的生成模型基于历史句子数据训练得到。
根据权利要求12所述的计算机设备，其中，所述基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据包括：

随机去除所述训练数据中任一句子的字节片段，得到目标句子；

针对所述目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。
根据权利要求9所述的计算机设备，其中，所述将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略包括：

将当前时间的反馈数据作为回报数据再次输入至预设混合策略搜索模型，更新预设混合策略搜索模型的参数；

基于参数更新后的混合策略搜索模型，生成新的数据扩充混合策略。
根据权利要求14所述的计算机设备，其中，所述更新预设混合策略搜索模型的参数包括：

根据REINFORCE策略梯度算法，更新预设混合策略搜索模型的参数。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现数据扩充混合策略生成方法的步骤：

获取当前时间的策略反馈数据和训练数据；

将所述当前时间的策略反馈数据输入至预设混合策略搜索模型，得到当前时间的数据扩充混合策略；

根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据；

将扩充后的训练数据输入至预设循环神经网络进行训练，得到数据扩充混合策略对应的策略反馈数据；

将所述数据扩充混合策略对应的策略反馈数据作为当前时间的策略反馈数据，返回将当前时间的策略反馈数据输入至预设混合策略搜索模型的步骤，以更新数据扩充混合策略，直至所述预设混合策略搜索模型的训练次数达到预设训练次数，得到最优的数据扩充混合策略。
根据权利要求1所述的计算机可读存储介质，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

使用已训练的MLM模型将所述训练数据中句子中的任一字符替换为掩码字符；

根据预训练的语言模型，预测所述掩码字符所对应的字符，得到预测字符；

若所述预测字符的置信度大于预设阈值，则将包含所述预测字符的训练数据作为扩充后的训练数据。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

将所述训练数据中的词语表示为词向量；

随机将所述训练数据中任一句子的字节片段表示为目标向量；

计算所述目标向量与所述词向量的相似度、并基于相似度查找出所述目标向量的同义词向量；

将所述字节片段替换为所述同义词向量对应的词语，得到扩充后的训练数据。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述数据扩充混合策略扩充所述训练数据，得到扩充后的训练数据包括：

基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据，所述预训练的生成模型基于历史句子数据训练得到。
根据权利要求19所述的计算机可读存储介质，其中，所述基于所述训练数据，使用预训练的生成模型生成新的训练数据，得到扩充后的训练数据包括：

随机去除所述训练数据中任一句子的字节片段，得到目标句子；

针对所述目标句子中去除的字节片段，采用预训练的生成模型预测出对应的新字符，得到扩充后的训练数据。