WO2021169366A1

WO2021169366A1 - 数据增强方法和装置

Info

Publication number: WO2021169366A1
Application number: PCT/CN2020/125338
Authority: WO
Inventors: 张新雨; 袁鹏; 钟钊
Original assignee: 华为技术有限公司
Priority date: 2020-02-25
Filing date: 2020-10-30
Publication date: 2021-09-02
Also published as: CN113379045A; CN113379045B

Abstract

一种数据增强方法和装置。该方法包括：获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标（步骤101），根据至少一个第一向量和至少一个向量对应的性能指标，确定至少一个第二向量（步骤102），根据至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，确定至少一个目标向量（步骤103），该至少一个目标向量对应的性能指标高于至少一个第一向量和至少一个第二向量中除至少一个目标向量之外的其他向量对应的性能指标，每个目标向量表示一组目标增强，至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，该目标训练数据用于训练得到目标神经网络模型。该方法可以实现基于训练数据自动化确定相应的增强策略，以扩充训练数据，提升目标神经网络模型的性能。

Description

数据增强方法和装置

本申请要求于2020年2月25日提交中国专利局、申请号为202010117866.6、申请名称为“数据增强方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，特别涉及一种数据增强方法和装置。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

近年来，机器学习技术在各个领域都取得了重大的突破，如金融，医疗和交通等。其中，通过神经网络模型实现的机器学习技术，被广泛应用，该神经网络模型可以支持处理图像、文本、语音以及序列等多种类型的数据，以实现分类、回归和预测等。通过提高训练数据的质量、多样性和数量，可以有效地提高神经网络模型的性能。

然而，为了提高训练数据的质量、多样性和数量，通常需要人类专家根据任务需求手动设计数据增强方法，以扩充训练数据，提升神经网络模型的性能。这样的方式存在设计成本高且数据增强方法的可迁移性差的问题。

发明内容

本申请提供一种数据增强方法和装置，以实现基于训练数据自动化确定相应的增强策略。

第一方面，本申请实施例提供一种数据增强方法，该方法可以包括：获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标，每个第一向量用于表示一组第一增强策略，该每个第一向量对应的性能指标包括第一神经网络模型的性能指标，该第一神经网络模型是由第二训练数据训练得到的，该第二训练数据为使用该第一增强策略对该第一训练数据进行增强处理后得到的训练数据。根据该至少一个第一向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量，每个第二向量用于表示一组第二增强策略。根据该至少一个第一向量对应的性能指标和该至少一个第二向量对应的性能指标，确定至少一个目标向量，每个第二向量对应的性能指标包括第二神经网络模型的性能指标，该第二神经网络模型是由第三训练数据训练得到的，该第三训练数据为使用该第二增强策略对该第一训练数据进行增强处理后得到的训练数据。其中，该至少一个目标向量对应的性能指标高于该至少一个第一向量和该至少一个第二向量中除该至少一个目标向量之外的其他向量对应的性能指标，每个目标向量表示一组目标增强策略，该至少一个目标向量表示的至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，该目标训练数据用于训练得到目标神经网络模型。

本实现方式，根据至少一个第一向量和至少一个第一向量对应的性能指标，预测得到该至少一个第二向量，再结合该至少一个第二向量的实际性能指标，选取性能指标较高的向量作为目标向量，该实际性能指标为将该至少一个第二向量所表示的增强策略应用于第一训练数据所得到的神经网络模型的实际性能指标，可以实现基于训练数据自动化确定相应的增强策略，以扩充训练数据，提升目标神经网络模型的性能。

在一种可能的设计中，根据该至少一个第一向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量，可以包括：将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量。根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量。

本实现方式，相较于在离散的增强策略的搜索空间中搜索指标性能更高的增强策略，通过将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量，根据该至少一个第三向量和该性能指标预测性能指标更高的至少一个第二向量，可以提升采样效率，即少量的采样便可以得到性能指标更高的增强策略，还可以降低资源消耗，即降低预处理过程中所需要的TPU或CPU的资源。

在一种可能的设计中，根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量，可以包括：根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定该第三向量与该至少一个第一向量对应的性能指标之间的映射关系。根据该映射关系，确定至少一个第二向量。

本实现方式，通过该第三向量与该至少一个第一向量对应的性能指标之间的映射关系，搜索确定性能指标更高的至少一个第二向量，可以提升搜索性能指标更高的增强策略的搜索效率，降低资源消耗。

在一种可能的设计中，根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定该第三向量与该至少一个第一向量对应的性能指标之间的映射关系，可以包括：将该至少一个第三向量和该至少一个第一向量对应的性能指标输入至第三神经网络模型，输出该第三向量与该性能指标之间的映射关系。

本实现方式，通过神经网络模型确定该第三向量与该性能指标之间的映射关系，可以提升映射关系的准确性，有利于搜索预测性能指标更高的该至少一个第二向量。

在一种可能的设计中，根据该映射关系，确定至少一个第二向量，可以包括：根据该映射关系，确定至少一个第四向量。将该至少一个第四向量从该连续的参数空间映射至该离散的参数空间，获取该至少一个第二向量。

在一种可能的设计中，根据该映射关系，确定至少一个第四向量，包括：采用梯度更新的方式，在该映射关系中，确定该至少一个第四向量。

本实现方式，采用梯度更新的方式在连续的参数空间内确定性能指标更高的增强策略，可以提升增强策略的搜索效率，提升增强策略的采样效率。

在一种可能的设计中，将该至少一个第四向量从该连续的参数空间映射至该离散的参数空间，获取该至少一个第二向量，可以包括：将该至少一个第四向量分别输入至第四神经网络模型，输出该至少一个第二向量，该第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间。

本实现方式，通过神经网络模型将第四向量从连续的参数空间映射至离散的参数空间，可以提升映射的效率和准确性。

在一种可能的设计中，该方法还可以包括：判断是否满足预设条件，若不满足预设条件，则将该至少一个第二向量和该至少一个第一向量作为至少一个第一向量，执行该获取至少一个第一向量和每个第一向量对应的性能指标的步骤。

在一种可能的设计中，将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量，可以包括：将该至少一个第一向量分别输入至第五神经网络模型，输出该至少一个第三向量，该第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间。

本实现方式，通过神经网络模型将第一向量从离散的参数空间映射至连续的参数空间，可以提升映射的效率和准确性，以准确确定该第三向量与该至少一个第一向量对应的性能指标之间的映射关系，进而基于该映射关系预测性能指标更高的至少一个第二向量。

在一种可能的设计中，获取至少一个第一向量，可以包括：在数据增强策略的搜索空间内，随机采样，获取该至少一个第一向量。

在一种可能的设计中，该方法还可以包括：向测试装置发送神经网络模型配置信息，该神经网络模型配置信息用于配置该第一神经网络模型。接收该测试装置发送的该第一神经网络模型的性能指标。

本实现方式，通过测试装置反馈第一神经网络模型的性能指标，该第一神经网络模型为由应用第一向量所表示的第一增强策略的训练数据训练得到的，有利于对增强策略的搜索空间进行准确建模，进而确定性能指标更高的增强策略，将性能指标更高的增强策略应用于训练流程中的预处理过程中，以扩充训练数据，提升目标神经网络模型的性能。

在一种可能的设计中，该方法还可以包括：使用该至少一组目标增强策略对该第一训练数据进行增强处理，获取目标训练数据。使用该目标训练数据对初始神经网络模型进行训练，获取该目标神经网络模型。发送目标模型配置信息，该目标模型配置信息用于配置该目标神经网络模型。

本实现方式，通过将该至少一组目标增强策略应用于获取目标神经网络模型的训练流程中的预处理操作中，可以扩充训练数据，提升目标神经网络模型的性能。将训练得到的目标神经网络模型配置给相应的模型应用装置，例如，服务器或终端设备等，可以提升模型应用装置的处理性能。

第二方面，本申请实施例提供一种数据增强装置，该数据增强装置用于执行上述第一方面或第一方面的任一可能的设计中的数据增强方法。具体地，该数据增强装置可以包括用于执行第一方面或第一方面的任一可能的设计中的数据增强方法的模块。例如，获取模块、预测模块、增强策略确定模块等。

第三方面，本申请实施例提供一种电子设备，该电子设备包括存储器和处理器，该存储器用于存储指令，该处理器用于执行所述存储器存储的指令，并且对该存储器中存储的指令的执行使得该处理器执行上述第一方面或第一方面的任一可能的设计中的数据增强方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现第一方面或第一方面的任一可能的设计中的方法。

第五方面，本申请提供一种计算机程序产品，该计算机程序产品包括指令，在计算机上运行时，使得计算机执行上述第一方面中任一项所述的方法。

第六方面，本申请提供一种芯片，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如上述第一方面中任一项所述的方法。

本申请实施例的数据增强方法和装置，通过获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标，根据至少一个第一向量和至少一个向量对应的性能指标，确定至少一个第二向量，根据至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，确定至少一个目标向量，该至少一个目标向量对应的性能指标高于至少一个第一向量和至少一个第二向量中除至少一个目标向量之外的其他向量对应的性能指标，每个目标向量表示一组目标增强，至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，该目标训练数据用于训练得到目标神经网络模型，可以实现基于训练数据自动化确定相应的增强策略，以扩充训练数据，提升目标神经网络模型的性能。

附图说明

图1为本申请实施例提供的一种人工智能主体框架示意图；

图2A为本申请实施例提供的一种应用环境示意图；

图2B为本申请实施例提供的一种应用环境示意图；

图3为本申请实施例提供的一组增强策略的示意图；

图4为本申请实施例的一种数据增强方法的流程图；

图5为本申请实施例的另一种数据增强方法的流程图；

图6A为本申请实施例的一种数据增强装置的示意图；

图6B为本申请实施例的一种数据增强方法的示意图；

图7为本申请实施例的一种增强处理的示意图；

图8为本申请实施例的另一种数据增强方法的流程图；

图9为本申请实施例的一种数据增强装置的示意图；

图10为本申请实施例的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

参见附图2A，本申请实施例提供了一种系统架构200。数据采集设备260用于采集目标数据(下文也称之为训练数据)并存入数据库230，训练设备220基于数据库230中维护的目标数据生成目标模型/规则201。下面将详细地描述训练设备220如何基于目标数据得到目标模型/规则201，目标模型/规则201能够应用于计算机视觉(例如，图像分类)、语音识别、文本识别等。

训练设备220通过本申请实施例的数据增强方法对训练流程中的预处理过程进行优化，以实现自动化的确定与不同训练数据相对应的增强策略，无需人工手动设计数据增强方法。训练设备220可以根据训练数据确定预处理过程中所使用的增强策略，使用该增强策略对训练数据进行增强处理，获取增强处理后的训练数据，使用增强处理后的训练数据对神经网络模型进行训练，得到目标模型/规则。例如，使用增强处理后的训练数据，在搜索空间内搜索神经网络模型结构和损失函数，得到目标模型/规则。该搜索空间包括多个神经网络模型结构、以及多个损失函数等。

对增强策略的搜索空间进行解释说明，该增强策略的搜索空间可以包括多组增强策略，每组增强策略可以包括N个子策略，每个子策略包括两步依次执行的处理操作(操作1和操作2)，而每个操作又关联着两个参数：1)应用该操作的概率，2)该操作的强度值。以该处理操作为图像处理操作为例，该处理操作的类型可以包括：旋转、平移、亮度调整等16种。每种处理操作的可选强度值共有10种可能性。每种处理操作的可选概率值共有11种可能性。所以，训练数据为图像的增强策略的搜索空间内，共有(16×10×11) ^2N种可供选择的增强策略。N为任意自然数。

以N＝5为例，一组增强策略的示意图如图3所示，该增强策略包括5个子策略，每个子策略包括两步依次执行的处理操作，例如，如图3所示的第二个子策略包括的操作1和操作2，其他子策略所包括的处理操作未示出。训练数据为图像的增强策略的搜索空间内，共有(16×10×11) ¹⁰种可供选择的增强策略。通过本申请实施例的数据增强方法，可以对该增强策略的搜索空间进行搜索，以确定性能指标较好的增强策略，使用该性能指标较好的增强策略对训练数据进行增强处理，以扩充训练数据，提升神经网络模型的性能。

训练设备220得到的目标模型/规则可以应用不同的系统或设备中。在附图2A中，执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

计算模块211使用目标模型/规则201对输入的数据进行处理，通过I/O接口212将处理结果返回给客户设备240，提供给用户。

更深层地，训练设备220可以针对不同的目标，基于不同的数据生成相应的目标模型/规则201，以给用户提供更佳的结果。

在附图2A中所示情况下，用户可以手动指定输入执行设备210中的数据，例如，在I/O接口212提供的界面中操作。另一种情况下，客户设备240可以自动地向I/O接口212输入数据并获得结果，如果客户设备240自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到目标数据存入数据库230。

值得注意的，附图2A仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图2A中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

再例如，参见附图2B，本申请实施例提供了另一种系统架构400，该系统架构400可以包括客户设备410和服务器420，该客户设备410可以与服务器420建立连接，服务器420可以通过本申请实施例的数据增强方法对训练数据进行预处理，进行根据数据增强后的训练数据生成目标模型/规则，将目标模型/规则提供给客户设备410。在一些实施例中，可以由客户设备410将目标模型/规则配置到相应的执行设备上，例如，嵌入式神经网络处理器(Neural-network Processing Unit，NPU)。

本申请可以通过如下所述的数据增强方法优化目标神经网络模型的训练流程中的预处理过程。根据训练数据确定预处理过程中所使用的增强策略，使用该增强策略对训练数据进行增强处理，获取增强处理后的训练数据，使用增强处理后的训练数据训练得到目标神经网络模型，该目标神经网络模型可以应用于场景识别、人体属性识别、自动化机器学习(AutoML)等场景中。应用于场景识别，例如，手机相册分类、手机识物等，即可以在终端设备(例如智能手机)中应用该目标神经网络模型。应用于人体属性识别，例如，智慧城市所涉及的行人属性识别、骑行属性识别等，即可以在智慧城市所涉及的终端设备(例如，摄像设备、计算中心、服务器等)中应用该目标神经网络模型。应用于自动化机器学习(AutoML)，即可以在自动化机器学习(AutoML)所涉及的服务器中应用该目标神经网络模型，为用户提供定制化的数据增强服务。本申请实施例的数据增强方法的具体解释说明可以参见下述实施例。

图4为本申请实施例的一种数据增强方法的流程图，如图4所示，本实施例的方法可以由如图2A所示的训练设备220或训练设备220的处理器执行，或者，可以由如图2B所示的服务器420或服务器420的处理器执行，本实施例的方法可以包括：

步骤101、获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标。

该第一训练数据可以是原始的训练数据，也即未经过数据增强处理的训练数据。例如，该第一训练数据可以是如图2A所示的数据库230中维护的训练数据。再例如，该第一训练数据可以是如图2B所示的客户设备410发送给服务器420的训练数据，以使得服务器420基于该训练数据，将目标神经网络模型反馈给客户设备410。

该至少一个第一向量中的每个第一向量用于表示一组第一增强策略，例如如图3所示的一组增强策略。本申请实施例可以在增强策略的搜索空间中，选取一个或多个第一向量，例如随机采样选取一个或多个第一向量。每个第一向量对应的性能指标包括第一神经网络模型的性能指标。该性能指标可以包括正确率、召回率、时延等任意一项或其组合。该第一神经网络模型是由第二训练数据训练得到的，该第二训练数据为使用该第一增强策略对第一训练数据进行增强处理后得到的训练数据。

示例性的，以一个第一向量为例，可以使用该第一向量所表示的第一增强策略对第一训练数据进行增强处理，得到第二训练数据(即预处理之后的训练数据)。使用第二训练数据对神经网络模型进行训练，得到第一神经网络模型，使用测试数据确定该第一神经网络模型的性能指标，该第一神经网络模型的性能指标即为该第一向量对应的性能指标。

步骤102、根据至少一个第一向量和至少一个第一向量对应的性能指标，确定至少一个第二向量。

根据至少一个第一向量和至少一个第一向量对应的性能指标，预测得到该至少一个第二向量，每个第二向量用于表示一组第二增强策略。例如，根据至少一个第一向量和至少一个第一向量对应的性能指标，确定第一向量与性能指标的对应关系，优化性能指标，预测得到该至少一个第二向量。例如，可以在离散的参数空间优化预测得到该至少一个第二向量，也可以采用如下的一种可实现方式预测得到该至少一个第二向量。

一种可实现方式，将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量，根据该至少一个第三向量和该至少一个向量对应的性能指标，确定至少一个第二向量。由于增强策略的搜索空间内的各组增强策略是离散的，所以该至少第一向量所表示的增强策略为离散的参数空间内的增强策略。对于离散空间内的第一向量的性能指标的优化，可以先将离散的增强策略(第一向量)映射至连续的参数空间，从而获取至少一个第三向量，该至少一个第三向量即表示连续的参数空间内的增强策略，也可称为增强策略的连续表示。再根据连续的参数空间内的第三向量和对应的性能指标，预测该至少一个第二向量。本申请实施例根据连续的参数空间的至少一个第三向量和与其对应的性能指标，可以搜索预测出性能指标更高的至少一个第二向量。

在一些实施例中，可以根据至少一个第三向量和性能指标，确定第三向量与性能指标之间的映射关系，根据该映射关系，确定至少一个第二向量。第三向量与性能指标之间的映射关系可以是连续的参数空间内的映射函数，可以在该映射函数中搜索预测出性能更高的第二向量。

根据该映射关系，确定至少一个第二向量的一种可实现方式可以为：根据所述映射关系，确定至少一个第四向量，将该至少一个第四向量从连续的参数空间映射至离散的参数空间，获取至少一个第二向量。例如，可以采用梯度更新的方式，在该映射关系中，确定该至少一个第四向量。该第四向量为连续的参数空间内的增强策略，该第二向量为第四向量在离散的参数空间内的表示。

步骤103、根据至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，确定至少一个目标向量。

每个第二向量对应的性能指标包括第二神经网络模型的性能指标，也即第二向量对应的实际性能指标，该第二神经网络模型是由第三训练数据训练得到的，该第三训练数据为使用第二增强策略对第一训练数据进行增强处理后得到的训练数据。

该至少一个目标向量对应的性能指标高于至少一个第一向量和至少一个第二向量中除所述至少一个目标向量之外的其他向量对应的性能指标。

示例性的，以一个第二向量为例，在通过步骤102得到一个第二向量后，可以使用该第二向量所表示的第二增强策略对第一训练数据进行增强处理，得到第三训练数据(即预处理之后的训练数据)。使用第三训练数据对神经网络模型进行训练，得到第二神经网络模型，使用测试数据确定该第二神经网络模型的性能指标，该第二神经网络模型的性能指标即为该第二向量对应的性能指标。

本申请实施例可以基于至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，从中选取性能指标较好的M个向量作为该至少一个目标向量，M为正整数。将该至少一个目标向量所表示的目标增强策略作为用于获取目标神经网络模型的训练流程中的预处理操作。

本实施例，通过获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标，根据至少一个第一向量和至少一个向量对应的性能指标，确定至少一个第二向量，根据至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，确定至少一个目标向量，该至少一个目标向量对应的性能指标高于至少一个第一向量和至少一个第二向量中除至少一个目标向量之外的其他向量对应的性能指标，每个目标向量表示一组目标增强策略，至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，该目标训练数据用于训练得到目标神经网络模型，可以实现基于训练数据自动化确定相应的增强策略，以扩充训练数据，提升目标神经网络模型的性能。

基于离散的参数空间内的第一向量和其对应的性能指标，对增强策略的搜索空间进行建模，将离散的参数空间内的第一向量映射至连续的参数空间，在连续的参数空间内预测性能指标更高的增强策略，将性能指标更高的增强策略应用于训练流程中的预处理过程中，以扩充训练数据，提升目标神经网络模型的性能。

相较于在离散的增强策略的搜索空间中搜索指标性能更高的增强策略，通过将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量，根据该至少一个第三向量和该性能指标预测性能指标更高的至少一个第二向量，可以提升采样效率，即少量的采样便可以得到性能指标更高的增强策略，还可以降低资源消耗，即降低预处理过程中所需要的TPU或CPU的资源。

图5为本申请实施例的另一种数据增强方法的流程图，如图5所示，本实施例的方法可以由如图2A所示的训练设备220或训练设备220的处理器执行，或者，可以由如图2B所示的服务器420或服务器420的处理器执行，本实施例可以通过两个神经网络模型将离散的参数空间内的增强策略映射至连续的参数空间，并学习得到连续的参数空间内的增强策略与性能指标之间的关系，进而基于增强策略与性能指标之间的关系搜索得到性能指标更高的增强策略，本实施例的方法可以包括：

步骤201、获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标。

其中，步骤201的解释说明可以参见图4所示实施例的步骤101，此处不再赘述。

步骤202、将该至少一个第一向量分别输入至第五神经网络模型，输出至少一个第三向量，该第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间。

该第五神经网络模型可以是任意的神经网络模型，该第五神经网络模型可以由离散的参数空间内的增强策略的向量表示，和与其对应的连续的参数空间的增强策略向量表示训练得到的。本申请实施例将至少一个第一向量分别输入至第五神经网络模型，输出至少一个第三向量，即输出离散的参数空间内的增强策略在连续的参数空间内的向量表示。

例如，该第五神经网络模型可以包括嵌入层(Embedding)、长短期记忆网络(Long Short-Term Memory，LSTM)和全连接层(Linear)。当然可以理解的，该第五神经网络模型也可以是其他具体的形式，本申请实施例不一一举例说明。

步骤203、将至少一个第三向量和该性能指标输入至第三神经网络模型，输出第三向量与性能指标之间的映射关系。

该第三神经网络模型可以是任意的神经网络模型，该第三神经网络模型可以连续的参数空间的增强策略向量表示、对应的性能指标和二者之间的映射关系训练得到的。本申请实施例将至少一个第三向量和该至少一个第一向量对应的性能指标输入至第二神经网络模型，输出第三向量与性能指标之间的映射关系。

例如，该第三神经网络模型可以是多层感知器(Multi-Layer Perception，MLP)。

步骤204、采用梯度更新的方式，在映射关系中，确定至少一个第四向量。

基于该映射关系，利用梯度更新的方式，预测性能指标更高的至少一组增强策略在连续的参数空间的向量表示，也即该至少一个第四向量，该第四向量为连续的参数空间内的增强策略。

步骤205、将至少一个第四向量分别输入至第四神经网络模型，输出至少一个第二向量，该第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间。

该第四神经网络模型可以是任意的神经网络模型，该第四神经网络模型可以由连续的参数空间内的增强策略的向量表示，和与其对应的离散的参数空间的增强策略向量表示训练得到的。本申请实施例将至少一个第四向量分别输入至第四神经网络模型，输出至少一个第二向量，即输出离散的参数空间内的增强策略的向量表示。

例如，该第四神经网络模型可以包括长短期记忆网络(LSTM)和全连接层(Linear)。当然可以理解的，该第四神经网络模型也可以是其他具体的形式，本申请实施例不一一举例说明。

需要说明的是，第五神经网络模型和第四神经网络模型还可以进行联合训练，即第五神经网络模型的输出作为第四神经网络模型的输入。该第五神经网络模型和第四神经网络模型可以由离散的参数空间内的增强策略的向量表示训练得到，训练所得到的第五神经网络模型的输入与第四神经网络模型的输出相同。

步骤206、判断是否满足预设条件，若不满足预设条件，则将至少一个第二向量和至少一个第一向量作为下一次迭代的至少一个第一向量，并执行步骤201，若满足预设条件，则停止搜索，执行步骤207。

该预设条件可以包括收敛条件和搜索终止条件。示例性的，该收敛条件可以是随着搜索的不断继续，无法继续搜索到性能指标更优的增强策略，例如，至少一个第二向量对应的性能指标中没有高于任意一个第一向量对应的性能指标。该搜索终止条件可以是搜索(迭代)步数达到设定的阈值。

不满足收敛条件和搜索终止条件，则将至少一个第二向量和至少一个第一向量作为下一次迭代的至少一个第一向量，并执行步骤201至步骤205，预测下一轮性能指标更高的增强策略。

满足收敛条件或搜索终止条件中任意一项，则停止搜索，在该至少一个第二向量和该至少一个第一向量中选取性能指标较高的向量，作为目标向量，将该目标向量所表示的增强策略应用于训练流程中的预处理过程中，以训练得到目标神经网络模型。

步骤207、根据至少一个第一向量对应的性能指标和至少一个第二向量对应的性能指标，确定至少一个目标向量。

其中，步骤207的解释说明可以参见图4所示实施例的步骤103，此处不再赘述。即通过步骤207，在上述步骤搜索得到的第二向量和第一向量中选取性能指标较高的向量作为目标向量，以扩充训练数据，提升目标神经网络模型的性能。

本实施例，通过获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标，将该至少一个第一向量分别输入至第五神经网络模型，输出至少一个第三向量，该第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间，将至少一个第三向量和该性能指标输入至第三神经网络模型，输出第三向量与性能指标之间的映射关系，采用梯度更新的方式，在映射关系中，确定至少一个第四向量，将至少一个第四向量分别输入至第四神经网络模型，输出至少一个第二向量，该第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间，判断是否满足预设条件，若不满足预设条件，则将至少一个第三向量和至少一个第一向量作为下一次迭代的至少一个第一向量，并执行获取至少一个第一向量和每个第一向量对应的性能指标，若满足预设条件，则停止搜索。基于离散的参数空间内的第一向量和其对应的性能指标，对增强策略的搜索空间进行建模，将离散的参数空间内的第一向量映射至连续的参数空间，在连续的参数空间内预测性能指标更高的增强策略，将性能指标更高的增强策略应用于训练流程中的预处理过程中，以扩充训练数据，提升目标神经网络模型的性能。

采用梯度更新的方式在连续的参数空间内确定性能指标更高的增强策略，可以提升增强策略的搜索效率，提升增强策略的采样效率。

参考图6，本发明实施例提供一种数据增强装置以实现前述数据增强方法。该数据增强装置包括随机策略生成模块61、策略评估模块62、编码器63、预测器64和解码器65。该数据增强装置可以是执行本申请实施例的数据增强方法的执行主体，该数据增强装置可以是如图2A所示的训练设备220或训练设备220的处理器，或者如图2B所示的服务器420或服务器420的处理器。如图6A所示，随机策略生成模块61可以在增强策略的搜索空间内，随机采样M组增强策略，即获取M个第一向量。策略评估模块62向测试装置发送神经网络模型配置信息，该神经网络模型配置信息用于配置M个第一神经网络模型，该M个第一神经网络模型是由使用该M个第一向量所表示的增强策略训练得到的，测试装置根据神经网络模型配置信息还原出该M个第一神经网络模型，测试装置测量该M个神经网络模型的性能指标，例如，正确率、时延等，并将M个第一神经网络模型的性能指标发送给策略评估模块62，策略评估模块62得到M个第一向量与性能指标的组合。编码器63将M个第一向量从离散的参数空间映射至连续的参数空间，得到M个第三向量，即不同增强策略的连续表示。结合图6B所示，编码器63将M个第一向量通过嵌入层、LSTM和全连接层，输出M个第三向量。预测器64学习增强策略的连续表示与性能指标之间的关系，并利用梯度更新的方式，预测性能更优的K组增强策略的连续表示，即得到K个第四向量。结合图6B所示，编码器的输出(M个第二向量)和性能指标作为MLP的输入，经过MLP学习增强策略的连续表示与性能指标之间的关系，并利用梯度更新的方式，预测性能更优的K组增强策略的连续表示(K个第四向量)。解码器65将该K个第四向量解码成离散的增强策略，即K个上述第二向量。结合图6B所示，解码器65通过嵌入层、LSTM和全连接层输出预测的离散的增强向量。

在一些实施例中，得到该K个第二向量后，通过上述步骤206确定不满足收敛条件或搜索终止条件，则将M个第一向量和K个第二向量作为下一次迭代的第一向量，循环迭代，搜索性能指标更高的增强策略，直至满足收敛条件或搜索终止条件。

本实施例，采用编码器将离散的增强策略映射至连续的参数空间，利用预测器学习策略的连续表示和性能指标之间的关系，选择当前性能最优的增强策略，根据其连续表示，采用梯度更新的方式预测性能更优的增强策略的连续表示，利用解码器将预测的连续表示解码成离散的增强策略，从而通过少量的增强策略采样对增强策略的搜索空间进行有效建模，将其映射成连续参数空间，采用高效的梯度更新方式进行增强策略搜索，可以提升增强策略的搜索效率，提升增强策略的采样效率，还可以降低资源消耗，即降低预处理过程中所需要的TPU或CPU的资源。

需要说明的是，该测试装置可以是服务器或服务器的内部芯片、也可以是终端设备或终端设备的内部芯片，例如，该终端设备可以是无线通信设备、物联网(Internet of Things，IoT)设备、可穿戴设备或车载设备、移动终端、客户终端设备(Customer Premise Equipment，CPE)等。

图8为本申请实施例的另一种数据增强方法的流程图，如图8所示，本申请实施例涉及数据增强装置和模型应用装置。该数据增强装置可以是如图2A所示的训练设备220或训练设备220的处理器，或者如图2B所示的服务器420或服务器420的处理器。该模型应用装置可以是如图2A所示的执行设备210或执行设备210的处理器，或者如图2B所示的客户设备410或客户设备410的处理器。在上述任一实施例的基础上，本申请实施例的数据增强方法还可以包括：

步骤301、数据增强装置使用至少一组目标增强策略对第一训练数据进行增强处理，获取目标训练数据。

在实施例之前，数据增强装置可以通过上述任一实施例的方法确定至少一组目标增强策略，在本实施例中，数据增强装置可以将该至少一组目标增强策略应用至训练流程中的预处理过程中，即使用至少一组目标增强策略对第一训练数据进行增强处理，获取目标训练数据。

以训练得到的目标神经网络模型应用于手机相册分类的场景为例，如图7所示，数据集A即为本申请实施例的第一训练数据，使用至少一组目标增强策略对该数据集A进行增强处理，可以获取数据集A’。其中，数据集A可以包括手机所采集的各种图片，如图7中最左侧的一张图片，该图片经过增强处理后，可以如图7最右侧的一张图片。

步骤302、数据增强装置使用目标训练数据训练神经网络模型，获取目标神经网络模型。

使用目标训练数据训练神经网络模型包括但不限于：神经网络模型结构搜索、神经网络模型参数(例如，权重、偏置等)搜索等。

步骤303、数据增强装置向模型应用装置发送目标模型配置信息，该目标模型配置信息用于配置所述目标神经网络模型。

相应的，模型应用装置接收数据增强装置发送的目标模型配置信息，模型应用装置可以根据该神经网络模型配置信息还原出目标神经网络模型，并使用该目标神经网络模型处理相应的数据，例如，使用该目标神经网络模型处理手机相册中的图片，进行相册分类等。

本实施例，通过使用至少一组目标增强策略对第一训练数据进行增强处理，获取目标训练数据，使用目标训练数据对初始神经网络模型进行训练，获取目标神经网络模型，可以提升目标神经网络模型的性能，进而提升使用该目标神经网络模型的模型应用装置的处理性能。

参见图9，图9为本申请提供的数据增强装置900的示意性框图。数据增强装置900包括获取模块901、预测模块902和增强策略确定模块903。

在一个实施例中，数据增强装置900具有方法实施例中训练设备或服务器的功能。例如，，数据增强装置900可以执行如图4或图5实施例的方法，或者执行如图8实施例的数据增强装置所执行的方法。此时，数据增强装置900的各单元分别用于执行如下操作和/或处理。

获取模块901，用于获取第一训练数据、至少一个第一向量和每个第一向量对应的性能指标，每个第一向量用于表示一组第一增强策略，该每个第一向量对应的性能指标包括第一神经网络模型的性能指标，该第一神经网络模型是由第二训练数据训练得到的，该第二训练数据为使用该第一增强策略对该第一训练数据进行增强处理后得到的训练数据。

预测模块902，用于根据该至少一个第一向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量，每个第二向量用于表示一组第二增强策略。

增强策略确定模块903，用于根据该至少一个第一向量对应的性能指标和该至少一个第二向量对应的性能指标，确定至少一个目标向量，每个第二向量对应的性能指标包括第二神经网络模型的性能指标，该第二神经网络模型是由第三训练数据训练得到的，该第三训练数据为使用该第二增强策略对该第一训练数据进行增强处理后得到的训练数据。

其中，该至少一个目标向量对应的性能指标高于该至少一个第一向量和该至少一个第二向量中除该至少一个目标向量之外的其他向量对应的性能指标，每个目标向量表示一组目标增强策略，至少一个目标向量表示的至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，该目标训练数据用于训练得到目标神经网络模型。

在一些实施例中，预测模块902用于：将该至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量；根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定至少一个第二向量。

在一些实施例中，预测模块902用于：根据该至少一个第三向量和该至少一个第一向量对应的性能指标，确定该第三向量与该性能指标之间的映射关系；根据该映射关系，确定至少一个第二向量。

在一些实施例中，该预测模块902用于：将该至少一个第三向量和该至少一个第一向量对应的性能指标输入至第三神经网络模型，输出该第三向量与该性能指标之间的映射关系。

在一些实施例中，预测模块902用于：根据该映射关系，确定至少一个第四向量；将该至少一个第四向量从该连续的参数空间映射至该离散的参数空间，获取该至少一个第二向量。

在一些实施例中，预测模块902用于：采用梯度更新的方式，在该映射关系中，确定该至少一个第四向量。

在一些实施例中，预测模块902用于：将该至少一个第四向量分别输入至第四神经网络模型，输出该至少一个第二向量，该第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间。

在一些实施例中，获取模块901还用于：判断是否满足预设条件，若不满足预设条件，则将该至少一个第二向量和该至少一个第一向量作为至少一个第一向量，执行该获取至少一个第一向量和每个第一向量对应的性能指标的步骤。

在一些实施例中，预测模块902用于：将该至少一个第一向量分别输入至第五神经网络模型，输出该至少一个第三向量，该第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间。

在一些实施例中，获取模块901用于：在数据增强策略的搜索空间内，随机采样，获取该至少一个第一向量。

在一些实施例中，该装置还包括：收发模块904。该收发模块904用于向测试装置发送神经网络模型配置信息，该神经网络模型配置信息用于配置该第一神经网络模型。收发模块904还用于接收该测试装置发送的该第一神经网络模型的性能指标。

在一些实施例中，该装置还包括：预处理模块905和训练模块906。

预处理模块905，用于使用该至少一组目标增强策略对该第一训练数据进行增强处理，获取目标训练数据。训练模块906用于使用该目标训练数据对初始神经网络模型进行训练，获取该目标神经网络模型。收发模块904还用于发送目标模型配置信息，该目标模型配置信息用于配置该目标神经网络模型。

可选地，数据增强装置900也可以同时具有方法实施例中的其它功能。类似说明可以参考前述方法实施例的描述。为避免重复，这里不再赘述。

可选地，获取模块901、预测模块902、增强策略确定模块903、预处理模块905和训练模块906可以是处理器，收发模块904可以是收发器。收发器包括接收器和发射器，同时具有发送和接收的功能。

可选地，获取模块901、预测模块902、增强策略确定模块903、预处理模块905和训练模块906可以是一个处理装置或多个处理装置，处理装置的功能可以部分或全部通过软件实现。

在一种可能的实现方式中，处理装置的功能可以部分或全部通过软件实现。此时，处理装置可以包括存储器和处理器。其中，存储器用于存储计算机程序，处理器读取并执行存储器中存储的计算机程序，以执行各方法实施例中的步骤。

可选地，在一种可能的实现方式中，处理装置包括处理器。用于存储计算机程序的存储器位于处理装置之外，处理器通过电路/电线与存储器连接，以读取并执行存储器中存储的计算机程序。

在另一个实施例中，数据增强装置900可以为芯片。此时，收发模块904具体可以为通信接口或者收发电路。

参见图10，图10为本申请提供的电子设备1000的示意性结构图。如图10所示，电子设备1000包括处理器1001和收发器1002。

可选地，电子设备1000还包括存储器1003。其中，处理器1001、收发器1002和存储器1003之间可以通过内部连接通路互相通信，传递控制信号和/或数据信号。

其中，存储器1003用于存储计算机程序。处理器1001用于执行存储器1703中存储的计算机程序，从而实现上述装置实施例中数据增强装置900的各功能。

具体地，处理器1001可以用于执行装置实施例(例如，图9)中描述的由获取模块901、预测模块902、增强策略确定模块903、预处理模块905和训练模块906执行的操作和/或处理，而收发器1002用于执行由收发模块904执行操作和/处理。

可选地，存储器1003也可以集成在处理器1001中，或者独立于处理器1001。

本实施例的电子设备可以执行上述方法实施例的数据增强方法，其技术原理和技术效果可以参见上述实施例的解释说明，此处不再赘述。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机执行时，使得计算机执行上述任一方法实施例中的步骤和/或处理。

本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述任一方法实施例中的步骤和/或处理。

本申请还提供一种芯片，所述芯片包括处理器。用于存储计算机程序的存储器独立于芯片而设置，处理器用于执行存储器中存储的计算机程序，以执行任一方法实施例中的步骤和/或处理。

进一步地，所述芯片还可以包括存储器和通信接口。所述通信接口可以是输入/输出接口、管脚或输入/输出电路等。

以上各实施例中提及的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signal processor,DSP)、特定应用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请实施例公开的方法的步骤可以直接体现为硬件编码处理器执行完成，或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种数据增强方法，其特征在于，包括：

获取第一训练数据、至少一个第一向量和每个所述第一向量对应的性能指标，每个所述第一向量用于表示一组第一增强策略，所述每个第一向量对应的性能指标包括第一神经网络模型的性能指标，所述第一神经网络模型是由第二训练数据训练得到的，所述第二训练数据为使用所述第一增强策略对所述第一训练数据进行增强处理后得到的训练数据；

根据所述至少一个第一向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量，每个所述第二向量用于表示一组第二增强策略；

根据所述至少一个第一向量对应的性能指标和所述至少一个第二向量对应的性能指标，确定至少一个目标向量，每个第二向量对应的性能指标包括第二神经网络模型的性能指标，所述第二神经网络模型是由第三训练数据训练得到的，所述第三训练数据为使用所述第二增强策略对所述第一训练数据进行增强处理后得到的训练数据；

其中，所述至少一个目标向量对应的性能指标高于所述至少一个第一向量和所述至少一个第二向量中除所述至少一个目标向量之外的其他向量对应的性能指标，每个所述目标向量表示一组目标增强策略，所述至少一个目标向量表示的至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，所述目标训练数据用于训练得到目标神经网络模型。
根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第一向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量，包括：

将所述至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量；

根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量。
根据权利要求2所述的方法，其特征在于，所述根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量，包括：

根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定所述第三向量与所述至少一个第一向量对应的性能指标之间的映射关系；

根据所述映射关系，确定至少一个第二向量。
根据权利要求3所述的方法，其特征在于，所述根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定所述第三向量与所述至少一个第一向量对应的性能指标之间的映射关系，包括：

将所述至少一个第三向量和所述至少一个第一向量对应的性能指标输入至第三神经网络模型，输出所述第三向量与所述性能指标之间的映射关系。
根据权利要求3或4所述的方法，其特征在于，所述根据所述映射关系，确定至少一个第二向量，包括：

根据所述映射关系，确定至少一个第四向量；

将所述至少一个第四向量从所述连续的参数空间映射至所述离散的参数空间，获取所述至少一个第二向量。
根据权利要求5所述的方法，其特征在于，所述根据所述映射关系，确定至少一个第四向量，包括：

采用梯度更新的方式，在所述映射关系中，确定所述至少一个第四向量。
根据权利要求5或6所述的方法，其特征在于，所述将所述至少一个第四向量从所述连续的参数空间映射至所述离散的参数空间，获取所述至少一个第二向量，包括：

将所述至少一个第四向量分别输入至第四神经网络模型，输出所述至少一个第二向量，所述第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间。
根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

判断是否满足预设条件，若不满足预设条件，则将所述至少一个第二向量和所述至少一个第一向量作为至少一个第一向量，执行所述获取至少一个第一向量和每个所述第一向量对应的性能指标的步骤。
根据权利要求2至7任一项所述的方法，其特征在于，所述将所述至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量，包括：

将所述至少一个第一向量分别输入至第五神经网络模型，输出所述至少一个第三向量，所述第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间。
根据权利要求1至7任一项所述的方法，其特征在于，所述获取至少一个第一向量，包括：

在数据增强策略的搜索空间内，随机采样，获取所述至少一个第一向量。
根据权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

向测试装置发送神经网络模型配置信息，所述神经网络模型配置信息用于配置所述第一神经网络模型；

接收所述测试装置发送的所述第一神经网络模型的性能指标。
根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：

使用所述至少一组目标增强策略对所述第一训练数据进行增强处理，获取目标训练数据；

使用所述目标训练数据对初始神经网络模型进行训练，获取所述目标神经网络模型；

发送目标模型配置信息，所述目标模型配置信息用于配置所述目标神经网络模型。
一种数据增强装置，其特征在于，包括：

获取模块，用于获取第一训练数据、至少一个第一向量和每个所述第一向量对应的性能指标，每个第一向量用于表示一组第一增强策略，所述每个第一向量对应的性能指标包括第一神经网络模型的性能指标，所述第一神经网络模型是由第二训练数据训练得到的，所述第二训练数据为使用所述第一增强策略对所述第一训练数据进行增强处理后得到的训练数据；

预测模块，用于根据所述至少一个第一向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量，每个所述第二向量用于表示一组第二增强策略；

增强策略确定模块，用于根据所述至少一个第一向量对应的性能指标和所述至少一个第二向量对应的性能指标，确定至少一个目标向量，每个第二向量对应的性能指标包括第二神经网络模型的性能指标，所述第二神经网络模型是由第三训练数据训练得到的，所述第三训练数据为使用所述第二增强策略对所述第一训练数据进行增强处理后得到的训练数据；

其中，所述至少一个目标向量对应的性能指标高于所述至少一个第一向量和所述至少一个第二向量中除所述至少一个目标向量之外的其他向量对应的性能指标，每个所述目标向量表示一组目标增强策略，所述至少一个目标向量表示的至少一组目标增强策略用于对第一训练数据进行增强处理获取目标训练数据，所述目标训练数据用于训练得到目标神经网络模型。
根据权利要求13所述的装置，其特征在于，所述预测模块用于：将所述至少一个第一向量从离散的参数空间映射至连续的参数空间，获取至少一个第三向量；根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定至少一个第二向量。
根据权利要求14所述的装置，其特征在于，所述预测模块用于：根据所述至少一个第三向量和所述至少一个第一向量对应的性能指标，确定所述第三向量与所述至少一个第一向量对应的性能指标之间的映射关系；根据所述映射关系，确定至少一个第二向量。
根据权利要求15所述的装置，其特征在于，所述预测模块用于：将所述至少一个第三向量和所述至少一个第一向量对应的性能指标输入至第三神经网络模型，输出所述第三向量与所述性能指标之间的映射关系。
根据权利要求15或16所述的装置，其特征在于，所述预测模块用于：根据所述映射关系，确定至少一个第四向量；将所述至少一个第四向量从所述连续的参数空间映射至所述离散的参数空间，获取所述至少一个第二向量。
根据权利要求17所述的装置，其特征在于，所述预测模块用于：采用梯度更新的方式，在所述映射关系中，确定所述至少一个第四向量。
根据权利要求17或18所述的装置，其特征在于，所述预测模块用于：将所述至少一个第四向量分别输入至第四神经网络模型，输出所述至少一个第二向量，所述第四神经网络模型用于将每个第四向量从连续的参数空间映射至离散的参数空间。
根据权利要求13至19任一项所述的装置，其特征在于，所述获取模块还用于：判断是否满足预设条件，若不满足预设条件，则将所述至少一个第二向量和所述至少一个第一向量作为至少一个第一向量，执行所述获取至少一个第一向量和每个所述第一向量对应的性能指标的步骤。
根据权利要求14至19任一项所述的装置，其特征在于，所述预测模块用于：将所述至少一个第一向量分别输入至第五神经网络模型，输出所述至少一个第三向量，所述第五神经网络模型用于将每个第一向量从离散的参数空间映射至连续的参数空间。
根据权利要求13至19任一项所述的装置，其特征在于，所述获取模块用于：在数据增强策略的搜索空间内，随机采样，获取所述至少一个第一向量。
根据权利要求13至22任一项所述的装置，其特征在于，所述装置还包括：收发模块；

所述收发模块用于向测试装置发送神经网络模型配置信息，所述神经网络模型配置信息用于配置所述第一神经网络模型；

所述收发模块还用于接收所述测试装置发送的所述第一神经网络模型的性能指标。
根据权利要求13至23任一项所述的装置，其特征在于，所述装置还包括：预处理模块和训练模块；

所述预处理模块，用于使用所述至少一组目标增强策略对所述第一训练数据进行增强处理，获取目标训练数据；

所述训练模块用于使用所述目标训练数据对初始神经网络模型进行训练，获取所述目标神经网络模型；

收发模块还用于发送目标模型配置信息，所述目标模型配置信息用于配置所述目标神经网络模型。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-12中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序，所述计算机程序在计算机上被执行时，使得所述计算机执行权利要求1-12中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，在计算机上运行时，使得计算机执行如权利要求1-12中任一项所述的方法。
一种芯片，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行如权利要求1-12中任一项所述的方法。