WO2021169478A1

WO2021169478A1 - 神经网络模型的融合训练方法及装置

Info

Publication number: WO2021169478A1
Application number: PCT/CN2020/134777
Authority: WO
Inventors: 蒋亮; 温祖杰; 梁忠平; 张家兴
Original assignee: 支付宝(杭州)信息技术有限公司
Priority date: 2020-02-28
Filing date: 2020-12-09
Publication date: 2021-09-02
Also published as: CN111291886A; WO2021169478A9; CN111291886B

Abstract

本说明书实施例提供一种神经网络模型的融合训练方法及装置。通过神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程，神经网络模型用于对输入的业务数据进行业务预测。在当前的第一训练周期中，当第一训练周期不是第一个训练周期时，基于第一训练周期之前的训练周期训练结束时得到的神经网络模型对第一样本数据的预测数据的累积，而得到的第一目标预测数据，即根据第一目标预测数据对待训练神经网络模型的训练过程进行调整，更新待训练神经网络模型。

Description

神经网络模型的融合训练方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种神经网络模型的融合训练方法及装置。

背景技术

深度学习在计算机视觉、自然语言处理领域都取得了远超传统方法的效果，现在已经成为人工智能领域非常主流的方法。通常来讲，神经网络的深度越深，期望的预测效果越好。在对神经网络模型进行训练时，可以采集大量的文本、图像、视频等样本数据，并依据针对样本数据标注的标签，对神经网络模型进行训练，以使得神经网络模型对输入数据的预测结果与标注的标签逐渐接近。

因此，希望能有改进的方案，可以提高神经网络模型训练的有效性，在使用神经网络模型对业务数据进行业务预测时可以提高业务预测的准确性。

发明内容

本说明书一个或多个实施例描述了神经网络模型的融合训练方法及装置，可以提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。具体的技术方案如下。

第一方面，实施例提供了一种神经网络模型的融合训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测，所述方法包括：获取当前的第一训练周期的待训练神经网络模型；获取所述训练样本集中的第一样本数据和对应的第一标注数据，将所述第一样本数据输入所述待训练神经网络模型，并得到所述第一样本数据的第一预测数据；当所述第一训练周期不是第一个训练周期时，获取针对所述第一样本数据的第一目标预测数据；其中，所述第一目标预测数据基于对第一历史预测数据的累积而得到，所述第一历史预测数据包括所述第一训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据；根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，该方法还包括：检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；如果是，则将更新后的待训练神经网络模型确定为所述第一训练周期训练结束时得到的第一神经网络模型。

在一种实施方式中，该方法还包括：将所述第一样本数据输入所述第一神经网络模型，得到第三预测数据；将所述第三预测数据与所述第一目标预测数据融合，得到下一训练周期时针对所述第一样本数据的目标预测数据。

在一种实施方式中，该方法还包括：当所述第一训练周期是第一个训练周期时，直接根据所述第一标注数据和所述第一预测数据之间的比较，确定第二预测损失；向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，所述获取针对所述第一样本数据的第一目标预测数据的步骤，包括：获取第二神经网络模型针对所述第一样本数据确定的第二预测数据；其中，所述第二神经网络模型在第二训练周期训练结束时得到，所述第二训练周期为所述第一训练周期的前一训练周期；当所述第二训练周期不是第一个训练周期时，获取针对所述第一样本数据的第二目标预测数据；其中，所述第二目标预测数据基于所述第二训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据的累积而得到；基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据的步骤，包括：获取所述第二目标预测数据的第一权重，以及所述第二预测数据的第二权重；基于所述第一权重和所述第二权重，对所述第二目标预测数据和所述第二预测数据进行加权平均，得到针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述第一权重小于所述第二权重。

在一种实施方式中，所述获取针对所述第一样本数据的第一目标预测数据的步骤，还包括：当所述第二训练周期是第一个训练周期时，基于所述第二预测数据，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失的步骤，包括：根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失；根据所述第一目标预测数据与所述第一预测数据之间的比较，确定第二子预测损失；根据所述第一子预测损失和所述第二子预测损失的和值，确定第一预测损失。

在一种实施方式中，所述第一标注数据为标注值；所述根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失的步骤，包括：采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述第一标注数据为标注分类；所述根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失的步骤，包括：采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；所述业务数据包括：文本、图像、音频、对象数据中的至少一种。

第二方面，实施例提供了一种神经网络模型的融合训练装置，部署在计算机中，所述神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测，所述装置包括：第一获取模块，配置为获取当前的第一训练周期的待训练神经网络模型；第二获取模块，配置为获取所述训练样本集中的第一样本数据和对应的第一标注数据，将所述第一样本数据输入所述待训练神经网络模型，并得到所述第一样本数据的第一预测数据；第三获取模块，配置为当所述第一训练周期不是第一个训练周期时，获取针对所述第一样本数据的第一目标预测数据；其中，所述第一目标预测数据基于对第一历史预测数据的累积而得到，所述第一历史预测数据包括所述第一训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据；第一确定模块，配置为根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；第一更新模块，配置为向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，装置还包括：第一检测模块，配置为检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；第二确定模块，配置为当所述第一样本数据是所述训练样本集中的最后一个样本数据时，将更新后的待训练神经网络模型确定为所述第一训练周期训练结束时得到的第一神经网络模型。

在一种实施方式中，装置还包括：第三确定模块，配置为将所述第一样本数据输入所述第一神经网络模型，得到第三预测数据；将所述第三预测数据与所述第一目标预测数据融合，得到下一训练周期时针对所述第一样本数据的目标预测数据。

在一种实施方式中，装置还包括：第四确定模块，配置为当所述第一训练周期是第一个训练周期时，直接根据所述第一标注数据和所述第一预测数据之间的比较，确定第二预测损失；第二更新模块，配置为向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，所述第三获取模块，具体配置为：获取第二神经网络模型针对所述第一样本数据确定的第二预测数据；其中，所述第二神经网络模型在第二训练周期训练结束时得到，所述第二训练周期为所述第一训练周期的前一训练周期；当所述第二训练周期不是第一个训练周期时，获取针对所述第一样本数据的第二目标预测数据；其中，所述第二目标预测数据基于所述第二训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据的累积而得到；基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述第三获取模块，基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据时，包括：获取所述第二目标预测数据的第一权重，以及所述第二预测数据的第二权重；基于所述第一权重和所述第二权重，对所述第二目标预测数据和所述第二预测数据进行加权平均，得到针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述第一权重小于所述第二权重。

在一种实施方式中，所述第三获取模块，还配置为：当所述第二训练周期是第一个训练周期时，基于所述第二预测数据，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述第一确定模块，具体配置为：根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失；根据所述第一目标预测数据与所述第一预测数据之间的比较，确定第二子预测损失；根据所述第一子预测损失和所述第二子预测损失的和值，确定第一预测损失。

在一种实施方式中，所述第一标注数据为标注值；所述第一确定模块，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述第一标注数据为标注分类；所述第一确定模块，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

第三方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面提供的任一方法。

第四方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面提供的任一方法。

在本说明书实施例提供的方法和装置中，可以将第一训练周期之前的训练周期得到的若干神经网络模型作为老师模型，将若干老师模型对第一样本数据的预测数据进行累积，根据累积得到的目标预测数据，对当前的第一训练周期的模型训练进行调整。本说明书实施例在训练神经网络模型的过程中，不仅要使得待训练神经网络模型的预测数据与标注数据尽可能接近，还要使得模型的预测数据与累积的预测数据尽可能相似，这考虑了前一阶段训练得到的若干神经网络模型对待训练神经网络模型的指导，因此能够减少模型训练过程中的震荡问题，提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例提供的模型训练阶段的流程示意图；

图2为一个实施例提供的模型预测阶段的流程示意图；

图3为一个实施例提供的模型训练过程的原理示意图；

图4为一个实施例提供的神经网络模型的融合训练方法的流程示意图；

图5为一个实施例提供的神经网络模型的融合训练装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

神经网络模型包含一系列运算和运算中的参数，这些参数可以称为模型参数。与神经网络模型相关的处理过程，通常可以包括模型训练阶段和模型预测阶段。对神经网络模型进行训练，是不断地调整模型参数，使得通过神经网络模型对样本数据进行预测时，预测数据与标注数据能够尽可能一致的过程。图1为一个实施例提供的模型训练阶段的流程示意图。其中，训练样本集包含大量的样本数据和对应的标签(label)，标签也可称为标注数据。样本数据可以包括文本、图像、音频、对象数据中的至少一种。对象数据可以理解为与实体对象相关的数据，例如注册用户数据(例如用户属性、行为等数据)、城市道路数据(例如道路拥堵、道路建设等数据)。在一轮模型训练中，可以将样本数据输入神经网络模型，得到预测数据，将预测数据与标签进行比较，并根据比较结果对神经网络模型进行更新。

当神经网络模型训练好之后，神经网络模型可以用于对输入的业务数据进行业务预测。业务数据可以包括文本、图像、音频、对象数据中的至少一种。业务预测可以包括很多种，例如预测图像中的行人、车辆、障碍物，预测音频对应的文字等。图2为一个实施例提供的模型预测阶段的流程示意图。其中，将图像输入神经网络模型，可以得到神经网络模型输出的预测结果，即图像中的行人区域。图2仅仅是对模型业务预测的一种举例，在实际场景中可以训练多种神经网络模型，用于执行很多种类的业务预测。

本说明书实施例提供了神经网络模型的融合训练方法。其中，神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程。

在模型训练过程中，可以根据模型的预测数据与标注数据之间的差异，对模型进行调整。为了减少模型训练过程中可能产生的训练震荡等问题，本实施例引入老师模型，可以将模型训练过程中前一阶段得到的历史神经网络模型作为后一阶段训练过程的老师模型。使用老师模型对模型训练过程进行一定的指导，使得在确定预测损失时，不仅可以考虑预测数据与标注数据之间的差异，还可以考虑老师模型的预测数据与待训练神经网络模型的预测数据之间的差异，进而减少模型训练过程中可能产生的训练震荡等问题。

前一阶段得到的若干历史神经网络模型都可以作为老师模型。其中，距离待训练神经网络模型较近的模型质量较好，距离待训练神经网络模型较远的模型与待训练神经网络模型的差异性较好。为了通过若干历史神经网络模型对待训练神经网络模型进行指导，可以将若干历史神经网络模型针对样本数据的历史预测数据进行累积，并将累积得到的预测数据作为目标预测数据，通过该目标预测数据对模型训练过程进行指导。

图3为本说明书实施例提供的融合训练方法的一种原理示意图。其中，在任意一个训练周期中，使用训练样本集中的所有样本数据Si对待训练神经网络模型NN进行训练。在以下表述中，将“模型NN”作为“待训练神经网络模型NN”的简称。Di表示模型NN针对样本数据Si确定的预测数据。模型NN1、模型NN2、模型NN3分别为训练周期1、训练周期2、训练周期3训练结束时得到的神经网络模型。虽然图3中只示出了4个训练周期，但是在实际场景中，模型训练过程可以包含更多的训练周期。至于整个模型训练过程具体包含多少个训练周期，可以在待训练神经网络模型的训练满足收敛条件时确定。

在训练周期1中，将样本数据Si输入模型NN之后，模型NN可以确定样本数据Si的预测数据Di，根据预测数据Di与标注数据的比较确定损失，向减小损失的方向更新模型NN。

训练周期1训练结束时可以得到模型NN1，模型NN1可以作为后续训练周期的历史神经网络模型。此时再将样本数据Si输入模型NN1，可以得到历史预测数据HD1，此过程并不对模型NN1进行更新。

历史预测数据HD1可以直接作为目标预测数据TD1，也可以将历史预测数据HD1与初始预测数据的累积结果作为目标预测数据TD1。

在训练周期2中，将样本数据Si输入模型NN之后，模型NN可以确定样本数据Si的预测数据Di，根据预测数据Di与标注数据的比较，以及预测数据Di与目标预测数据TD1的比较，确定损失，向减小损失的方向更新模型NN。

训练周期2训练结束时可以得到模型NN2，模型NN2可以作为后续训练周期的历史神经网络模型。此时再将样本数据Si输入模型NN2，可以得到历史预测数据HD2，此过程并不对模型NN2进行更新。

将历史预测数据HD2与目标预测数据TD1的累积结果作为更新的目标预测数据 TD2。更新的目标预测数据TD2实现了对历史预测数据HD1和历史预测数据HD2的累积。

在训练周期3中，将样本数据Si输入模型NN之后，模型NN可以确定样本数据Si的预测数据Di，根据预测数据Di与标注数据的比较，以及预测数据Di与目标预测数据TD2的比较，确定损失，向减小损失的方向更新模型NN。

训练周期3训练结束时可以得到模型NN3，模型NN3可以作为后续训练周期的历史神经网络模型。此时再将样本数据Si输入模型NN3，可以得到历史预测数据HD3，此过程并不对模型NN3进行更新。

将历史预测数据HD3与目标预测数据TD2的累积结果作为更新的目标预测数据TD3。更新的目标预测数据TD3实现了对历史预测数据HD1、历史预测数据HD2和历史预测数据HD3的累积。此后过程依次进行，直至模型NN收敛。

以上内容为结合图3对本说明书实施例进行的简略说明。下面再结合图4的流程示意图，对本说明书实施例提供的融合训练方法进行详细说明。该方法通过计算机执行，执行主体具体可以为任何具有计算、处理能力的装置、设备、平台或设备集群。针对当前的第一训练周期，当第一训练周期是第一个训练周期时，训练过程无历史神经网络模型的指导，此为无老师模式。当第一训练周期是其他训练周期时，有历史神经网络模型的指导，此为有老师模式。在有老师模式中，可以通过以下步骤S410～S450对模型训练方法进行说明。

步骤S410，获取当前的第一训练周期的待训练神经网络模型NN。

由于第一训练周期并不是第一个训练周期，因此待训练神经网络模型NN中的模型参数已经过多次训练，但是还不够准确。本实施例中可以不断地对待训练神经网络模型NN的模型参数进行调整，直至模型收敛。

步骤S420，获取训练样本集中的第一样本数据S1和对应的第一标注数据X1，将第一样本数据S1输入待训练神经网络模型NN，并得到第一样本数据S1的第一预测数据D1。

其中，第一样本数据S1可以是一个，也可以是多个(即一批)。第一样本数据可以是用于标识样本的特征数据。例如，当样本为图像时，第一样本数据可以包括图像的像素点的像素值；当样本为注册用户时，第一样本数据可以包括属性特征和行为特征等数据，属性特征可以包括用户的注册时间、性别、职业等，行为特征可以从与用户相关的行为数据中提取。

在具体实现时，第一标注数据X1可以对应不同的数据类型，例如可以是标注值，也可以是标注分类。当第一标注数据是标注值时，待训练神经网络模型为回归模型，第一预测数据D1为预测值；当第一标注数据是标注分类时，待训练神经网络模型为分类模型，第一预测数据D1通常包括所预测的各个分类下的概率分布。例如，当分类类别包含三个时，第一标注数据可以为(0,0,1)、(0,1,0)或者(1,0,0)。

待训练神经网络模型NN可以根据模型参数确定输入的第一样本数据S1的第一预测数据D1。当第一样本数据S1的数量为多个时，可以分别通过待训练神经网络模型NN得到每一个第一样本数据S1的第一预测数据D1。

步骤S430，获取针对第一样本数据S1的第一目标预测数据。例如，当第一训练周期为训练周期3时，第一目标预测数据可以为图3中的TD2。

其中，第一目标预测数据基于对第一历史预测数据的累积而得到，第一历史预测数据包括第一训练周期之前的训练周期训练结束时得到的神经网络模型对第一样本数据的预测数据。如果将第一训练周期之前的训练周期训练结束时得到的神经网络模型作为历史神经网络模型，则第一历史预测数据包括若干历史神经网络模型对第一样本数据的预测数据。

当第一训练周期为训练周期3时，训练周期3之前的训练周期包括训练周期1和训练周期2。训练周期1和训练周期2训练结束时得到的历史神经网络模型分别为模型NN1和模型NN2。模型NN1对第一样本数据S1的预测数据为HD1，模型NN2对第一样本数据S1的预测数据为HD2。预测数据HD1和预测数据HD2也可以称为历史预测数据。第一历史预测数据包括预测数据HD1和预测数据HD2。

上述步骤S430可以在步骤S420中获取第一标注数据X1之后，将第一样本数据S1输入待训练神经网络模型NN之前执行，也可以在将第一样本数据S1输入待训练神经网络模型NN之后执行。

步骤S440，根据第一标注数据X1和第一目标预测数据(例如可以为TD2)分别与第一预测数据D1之间的比较，确定第一预测损失Loss1。

当第一样本数据S1的数量为多个时，例如针对两个第一样本数据S11和S12，分别采用步骤S440的方式确定第一样本数据S11的第一预测损失Loss11，以及第一样本数据S12的第一预测损失Loss12，对第一预测损失Loss11和Loss12进行融合，得到融合后的第一预测损失Loss1。

根据第一预测数据D1与第一标注数据X1的比较，也可以更新待训练神经网络模型。但是，本实施例中不仅要使得第一预测数据D1与第一标注数据X1逐渐接近，还要使得第一预测数据D1与第一目标预测数据尽量接近。这样能够减少模型训练过程中的过拟合、训练震荡等问题。

步骤S450，向使得第一预测损失Loss1减小的方向，更新待训练神经网络模型NN。更新待训练神经网络模型NN，可以理解为调整待训练神经网络模型NN的模型参数，使得预测损失减小。

以上步骤S410～S450实现了对模型的一次更新，其可以理解为模型训练过程中的一轮训练，采用上述方式可以对训练样本集中的所有样本数据进行训练。

当针对待训练神经网络模型NN的训练次数大于预设次数阈值，即训练次数足够多，或者第一预测损失Loss1小于预设损失阈值时，可以确定模型训练完成，达到收敛的条件。

由上述内容可见，本实施例中，可以将第一训练周期之前的训练周期得到的若干神经网络模型作为老师模型，将若干老师模型对第一样本数据的预测数据进行累积，根据累积得到的目标预测数据，对当前的第一训练周期的模型训练进行调整。本实施例在训练神经网络模型的过程中，不仅要使得待训练神经网络模型的预测数据与标注数据尽可能接近，还要使得模型的预测数据与累积的预测数据尽可能相似，这考虑了前一阶段训练得到的若干神经网络模型对待训练神经网络模型的指导，因此能够减少模型训练过程中的震荡问题，提高神经网络模型训练的有效性，进而使得神经网络模型对业务数据的业务预测更准确。

在模型训练过程中，还可以检测第一样本数据S1是否为训练样本集中的最后一个样本数据。如果是，则将更新后的待训练神经网络模型NN确定为第一训练周期训练结束时得到的第一神经网络模型。例如，当第一训练周期为训练周期3时，训练周期3训练结束时得到神经网络模型NN3。该检测操作可以按照预设时长周期性进行。

在得到第一神经网络模型之后，还可以将第一样本数据S1输入第一神经网络模型，得到第三预测数据；将第三预测数据与第一目标预测数据融合，得到下一训练周期时针对第一样本数据的目标预测数据。

下面继续对上述实施例中若干步骤的具体实施方式进行说明。在一种实施方式中，步骤S430，获取针对第一样本数据S1的第一目标预测数据时，可以获取第一训练周期之前的训练周期训练结束时得到的神经网络模型，将第一样本数据S1输入该神经网络模型，分别得到针对第一样本数据S1的预测数据，基于得到的预测数据的均值确定第一目标预测数据。例如，当第一训练周期为训练周期3时，可以获取训练周期3之前的训练周期训练结束时得到的神经网络模型NN2和NN1，将第一样本数据S1输入模型NN2和NN1，分别得到针对第一样本数据S1的预测数据HD2和HD1，基于预测数据HD2和HD1的均值得到第一目标预测数据TD2。

上述实施方式中，在每个训练周期都需要将样本数据输入历史神经网络模型，并对若干历史预测数据进行累积。为了避免重复计算，提高处理效率，当第一训练周期不是第一和第二个训练周期时，即不是训练周期1和训练周期2时，步骤S430获取针对第一样本数据S1的第一目标预测数据时，可以采用以下步骤1a～步骤3a所示的实施方式。

步骤1a，获取第二神经网络模型针对第一样本数据S1确定的第二预测数据。其中，第二神经网络模型在第二训练周期训练结束时得到。第二训练周期为第一训练周期的前一训练周期。例如，当第一训练周期为图3中的训练周期3时，第二训练周期为训练周期2。第二神经网络模型为模型NN2，第二预测数据可以为HD2。

本步骤中，可以预先将训练样本集中的各个样本数据输入第二神经网络模型，得到对应的预测数据集合。例如，可以在训练周期2训练结束且得到模型NN2之后，将训练样本集中各个样本数据输入模型NN2，得到对应的预测数据集合。

在步骤1a中，获取模型NN2针对第一样本数据S1确定的第二预测数据HD2时，从上述预测数据集合中读取保存的与第一样本数据S1对应的第二预测数据HD2即可。

在步骤2a中，也可以直接将第一样本数据S1输入第二神经网络模型NN2，通过第二神经网络模型NN2得到第一样本数据S1的第二预测数据HD2。

步骤2a，获取针对第一样本数据S1的第二目标预测数据。

其中，第二目标预测数据基于第二训练周期之前的训练周期训练结束时得到的神经网络模型对第一样本数据的预测数据的累积而得到。其中，第二目标预测数据可以基于对第二历史预测数据的累积而得到。第二历史预测数据包括第二训练周期之前的训练周期训练结束时得到的神经网络模型对第一样本数据S1的预测数据。例如，训练周期2之前的训练周期包括训练周期1，训练周期1训练结束时得到的神经网络模型为模型NN1。模型NN1针对第一样本数据的预测数据为HD1。因此，第二历史预测数据包括预测数据HD1。即第二目标预测数据TD1基于对预测数据HD1的累积得到。

本实施例中，第二训练周期不是第一个训练周期。当第二训练周期不是第一个训练周期时，第二训练周期之前还存在其他训练周期，因此可以获得基于第二训练周期之前的训练周期训练结束时得到的神经网络模型对第一样本数据的预测数据的累积而得到的第二目标预测数据。

步骤3a，基于第二目标预测数据与第二预测数据的融合，确定针对第一样本数据S1的第一目标预测数据。

本步骤中，可以直接对第二目标预测数据与第二预测数据求均值，将该均值确定为第一目标预测数据。也可以获取第二目标预测数据的第一权重w1，以及第二预测数据的第二权重w2，基于第一权重w1和第二权重w2，对第二目标预测数据和第二预测数据进行加权平均，得到针对第一样本数据S1的第一目标预测数据。第一权重w1和第二权重w2可以预先设定。

仍然以第二训练周期为训练周期3为例，本步骤可以基于第二目标预测数据TD1与第二预测数据HD2的融合，确定针对第一样本数据S1的第一目标预测数据TD2。更具体的，可以直接对第二目标预测数据TD1与第二预测数据HD2求均值，将该均值确定为第一目标预测数据TD2。也可以获取第二目标预测数据TD1的第一权重w1，以及第二预测数据HD2的第二权重w2，基于第一权重w1和第二权重w2，对第二目标预测数据TD1和第二预测数据HD2进行加权平均，得到针对第一样本数据S1的第一目标预测数据TD2。

上述步骤1a～步骤3a可以在第二训练周期训练结束之后执行。针对训练样本集中的所有样本数据，均执行上述步骤1a～步骤3a的过程，得到针对训练样本集的所有样本数据的第一目标预测数据集。在第一训练周期的步骤S430中直接从保存的第一目标预测数据集中获取针对第一样本数据S1的第一目标预测数据。

如前所述的例子中，第二预测数据HD2是通过模型NN2确定，第二目标预测数据是通过模型NN2之前的历史神经网络模型确定。在模型训练过程中，模型NN2距离待训练神经网络模型NN更近，其质量更高，因此在设定权重时，可以更看重第二预测数据HD2在累积中的权重，即，使得第一权重w1小于第二权重w2。这样，能够使得越新的预测数据在第一目标预测数据中的比重越大，模型训练过程中的稳定性更好。

当当前的第一训练周期为第二个训练周期，第二训练周期是第一个训练周期时，步骤S430中，获取针对第一样本数据S1的第一目标预测数据的具体步骤可以包括：

获取第二神经网络模型针对第一样本数据S1确定的第二预测数据；基于第二预测数据，确定针对第一样本数据S1的第一目标预测数据。

具体的，基于第二预测数据，确定针对第一样本数据S1的第一目标预测数据时，可以直接将第二预测数据确定为针对第一样本数据S1的第一目标预测数据；也可以将第二预测数据与初始预测数据的累积结果作为第一目标预测数据。

其中，在回归模型中，初始预测数据可以包括预设值。在分类模型中，初始预测数据可以包括均匀的概率分布。

例如，当第一训练周期为训练周期2，第二训练周期为训练周期1时，可以获取第二神经网络模型NN1针对第一样本数据S1确定的第二预测数据HD1；基于第二预测数据HD1，确定针对第一样本数据S1的第一目标预测数据TD1。

具体的，基于第二预测数据HD1，确定针对第一样本数据S1的第一目标预测数据TD1时，可以直接将第二预测数据HD1确定为针对第一样本数据S1的第一目标预测数据TD1；也可以将第二预测数据HD1与初始预测数据的累积结果作为第一目标预测数据TD1。

当第二训练周期为第一个训练周期时，第二训练周期之前不存在其他训练周期，因此可以直接基于第二神经网络模型得到的第二预测数据，确定针对第一样本数据的第一目标预测数据。

下面继续对图4实施例的具体实施方式进行说明，仍旧以当前的第一训练周期为训练周期3作为例子。步骤S440，根据第一标注数据X1和第一目标预测数据分别与第一预测数据D1之间的比较，确定第一预测损失Loss1的步骤，具体可以包括以下步骤2b～3b所示的实施方式。

步骤1b，根据第一标注数据X1与第一预测数据D1之间的比较，确定第一子预测损失Loss_1。

当第一标注数据X1为标注值时，第一预测数据D1为预测值，即在回归模型的训练中，步骤1b可以包括，采用平方误差函数、对数损失函数中的一种，对第一标注数据X1与第一预测数据D1进行比较，得到第一子预测损失Loss_1。

当第一标注数据X1为标注分类时，第一预测数据D1为预测分类，即在分类模型中，步骤1b可以包括，采用KL距离、交叉熵、JS距离中的一种，对第一标注数据X1与第一预测数据D1进行比较，得到第一子预测损失Loss_1。

步骤2b，根据第一目标预测数据与第一预测数据D1之间的比较，确定第二子预测损失Loss_2。

在回归模型和分类模型的训练中，本步骤2b也可以采用与步骤1b中对应的损失函数进行计算。

步骤3b，根据第一子预测损失Loss_1和第二子预测损失Loss_1的和值，确定第一预测损失Loss1。

本步骤中，可以直接将第一子预测损失Loss_1和第二子预测损失Loss_2的和值，确定为第一预测损失Loss1。也可以依据对该和值进行预设处理后的结果确定为第一预测损失Loss1。

在无老师模式中，即当第一训练周期是第一个训练周期时，例如在图3中的训练周期1中，由于训练周期1不存在前一训练周期，因此可以直接根据第一标注数据X1和第一预测数据D1之间的比较，确定第二预测损失Loss2，向使得第二预测损失Loss2减小的方向，更新待训练神经网络模型NN。

上述待训练神经网络模型可以包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)和基于Transformer模型的双向编码器表征(Bidirectional Encoder Representations from Transformers，BERT)模型中的一种。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图5为本实施例提供的神经网络模型的融合训练装置的示意性框图。该装置500部署在计算机中，该装置实施例与图3～图4所示方法实施例相对应。其中，神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程，所述神经网络模型用于对输入的业务数据进行业务预测。装置500包括以下模块。

第一获取模块510，配置为获取当前的第一训练周期的待训练神经网络模型。

第二获取模块520，配置为获取所述训练样本集中的第一样本数据和对应的第一标注数据，将所述第一样本数据输入所述待训练神经网络模型，并得到所述第一样本数据的第一预测数据。

第三获取模块530，配置为当所述第一训练周期不是第一个训练周期时，获取针对所述第一样本数据的第一目标预测数据；其中，所述第一目标预测数据基于对第一历史预测数据的累积而得到，所述第一历史预测数据包括所述第一训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据。

第一确定模块540，配置为根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失。

第一更新模块550，配置为向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，装置500还包括：第一检测模块(图中未示出)，配置为检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；第二确定模块(图中未示出)，配置为当所述第一样本数据是所述训练样本集中的最后一个样本数据时，将更新后的待训练神经网络模型确定为所述第一训练周期训练结束时得到的第一神经网络模型。

在一种实施方式中，装置500还包括：第三确定模块(图中未示出)，配置为将所述第一样本数据输入所述第一神经网络模型，得到第三预测数据；将所述第三预测数据与所述第一目标预测数据融合，得到下一训练周期时针对所述第一样本数据的目标预测数据。

在一种实施方式中，装置500还包括：第四确定模块531，配置为当所述第一训练周期是第一个训练周期时，直接根据所述第一标注数据和所述第一预测数据之间的比较，确定第二预测损失；第二更新模块541，配置为向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。

在一种实施方式中，第三获取模块530具体配置为：获取第二神经网络模型针对所述第一样本数据确定的第二预测数据；其中，所述第二神经网络模型在第二训练周期训练结束时得到，所述第二训练周期为所述第一训练周期的前一训练周期；当所述第二训练周期不是第一个训练周期时，获取针对所述第一样本数据的第二目标预测数据；其中，所述第二目标预测数据基于所述第二训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据的累积而得到；基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，第三获取模块530，基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据时，包括：获取所述第二目标预测数据的第一权重，以及所述第二预测数据的第二权重；基于所述第一权重和所述第二权重，对所述第二目标预测数据和所述第二预测数据进行加权平均，得到针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，所述第一权重小于所述第二权重。

在一种实施方式中，第三获取模块530还配置为：当所述第二训练周期是第一个训练周期时，基于所述第二预测数据，确定针对所述第一样本数据的第一目标预测数据。

在一种实施方式中，第一确定模块540具体配置为：根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失；根据所述第一目标预测数据与所述第一预测数据之间的比较，确定第二子预测损失；根据所述第一子预测损失和所述第二子预测损失的和值，确定第一预测损失。

在一种实施方式中，所述第一标注数据为标注值；所述第一确定模块540，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述第一标注数据为标注分类；所述第一确定模块540，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。

在一种实施方式中，所述待训练神经网络模型包括DNN、CNN、RNN和BERT模型中的一种；所述业务数据包括：文本、图像、音频、对象数据中的至少一种。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

在本说明书的另一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图3～图4描述的方法。

在本说明书的另一实施例中，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图3～图4描述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本申请实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本申请实施例的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种神经网络模型的融合训练方法，通过计算机执行，所述神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测，所述方法包括：

获取当前的第一训练周期的待训练神经网络模型；

获取所述训练样本集中的第一样本数据和对应的第一标注数据，将所述第一样本数据输入所述待训练神经网络模型，并得到所述第一样本数据的第一预测数据；

当所述第一训练周期不是第一个训练周期时，获取针对所述第一样本数据的第一目标预测数据；其中，所述第一目标预测数据基于对第一历史预测数据的累积而得到，所述第一历史预测数据包括所述第一训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据；

根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；

向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。
根据权利要求1所述的方法，还包括：

检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；

如果是，则将更新后的待训练神经网络模型确定为所述第一训练周期训练结束时得到的第一神经网络模型。
根据权利要求2所述的方法，还包括：

将所述第一样本数据输入所述第一神经网络模型，得到第三预测数据；

将所述第三预测数据与所述第一目标预测数据融合，得到下一训练周期时针对所述第一样本数据的目标预测数据。
根据权利要求1所述的方法，还包括：

当所述第一训练周期是第一个训练周期时，直接根据所述第一标注数据和所述第一预测数据之间的比较，确定第二预测损失；

向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。
根据权利要求1所述的方法，所述获取针对所述第一样本数据的第一目标预测数据的步骤，包括：

获取第二神经网络模型针对所述第一样本数据确定的第二预测数据；其中，所述第二神经网络模型在第二训练周期训练结束时得到，所述第二训练周期为所述第一训练周期的前一训练周期；

当所述第二训练周期不是第一个训练周期时，获取针对所述第一样本数据的第二目标预测数据；其中，所述第二目标预测数据基于所述第二训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据的累积而得到；

基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据。
根据权利要求5所述的方法，所述基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据的步骤，包括：

获取所述第二目标预测数据的第一权重，以及所述第二预测数据的第二权重；

基于所述第一权重和所述第二权重，对所述第二目标预测数据和所述第二预测数据进行加权平均，得到针对所述第一样本数据的第一目标预测数据。
根据权利要求6所述的方法，其中，所述第一权重小于所述第二权重。
根据权利要求5所述的方法，所述获取针对所述第一样本数据的第一目标预测数据的步骤，还包括：

当所述第二训练周期是第一个训练周期时，基于所述第二预测数据，确定针对所述第一样本数据的第一目标预测数据。
根据权利要求1所述的方法，所述根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失的步骤，包括：

根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失；

根据所述第一目标预测数据与所述第一预测数据之间的比较，确定第二子预测损失；

根据所述第一子预测损失和所述第二子预测损失的和值，确定第一预测损失。
根据权利要求9所述的方法，所述第一标注数据为标注值；所述根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失的步骤，包括：

采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。
根据权利要求9所述的方法，所述第一标注数据为标注分类；所述根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失的步骤，包括：

采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。
根据权利要求1所述的方法，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；

所述业务数据包括：文本、图像、音频、对象数据中的至少一种。
一种神经网络模型的融合训练装置，部署在计算机中，所述神经网络模型的模型训练过程包括若干训练周期，每个训练周期对应于使用训练样本集中所有样本数据进行模型训练的过程；所述神经网络模型用于对输入的业务数据进行业务预测，所述装置包括：

第一获取模块，配置为获取当前的第一训练周期的待训练神经网络模型；

第二获取模块，配置为获取所述训练样本集中的第一样本数据和对应的第一标注数据，将所述第一样本数据输入所述待训练神经网络模型，并得到所述第一样本数据的第一预测数据；

第三获取模块，配置为当所述第一训练周期不是第一个训练周期时，获取针对所述第一样本数据的第一目标预测数据；其中，所述第一目标预测数据基于对第一历史预测数据的累积而得到，所述第一历史预测数据包括所述第一训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据；

第一确定模块，配置为根据所述第一标注数据和所述第一目标预测数据分别与所述第一预测数据之间的比较，确定第一预测损失；

第一更新模块，配置为向使得所述第一预测损失减小的方向，更新所述待训练神经网络模型。
根据权利要求13所述的装置，还包括：

第一检测模块，配置为检测所述第一样本数据是否为所述训练样本集中的最后一个样本数据；

第二确定模块，配置为当所述第一样本数据是所述训练样本集中的最后一个样本数据时，将更新后的待训练神经网络模型确定为所述第一训练周期训练结束时得到的第一神经网络模型。
根据权利要求14所述的装置，还包括：

第三确定模块，配置为将所述第一样本数据输入所述第一神经网络模型，得到第三预测数据；将所述第三预测数据与所述第一目标预测数据融合，得到下一训练周期时针对所述第一样本数据的目标预测数据。
根据权利要求13所述的装置，还包括：

第四确定模块，配置为当所述第一训练周期是第一个训练周期时，直接根据所述第一标注数据和所述第一预测数据之间的比较，确定第二预测损失；

第二更新模块，配置为向使得所述第二预测损失减小的方向，更新所述待训练神经网络模型。
根据权利要求13所述的装置，所述第三获取模块，具体配置为：

获取第二神经网络模型针对所述第一样本数据确定的第二预测数据；其中，所述第二神经网络模型在第二训练周期训练结束时得到，所述第二训练周期为所述第一训练周期的前一训练周期；

当所述第二训练周期不是第一个训练周期时，获取针对所述第一样本数据的第二目标预测数据；其中，所述第二目标预测数据基于所述第二训练周期之前的训练周期训练结束时得到的神经网络模型对所述第一样本数据的预测数据的累积而得到；

基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据。
根据权利要求17所述的装置，所述第三获取模块，基于所述第二目标预测数据与所述第二预测数据的融合，确定针对所述第一样本数据的第一目标预测数据时，包括：

获取所述第二目标预测数据的第一权重，以及所述第二预测数据的第二权重；

基于所述第一权重和所述第二权重，对所述第二目标预测数据和所述第二预测数据进行加权平均，得到针对所述第一样本数据的第一目标预测数据。
根据权利要求18所述的装置，其中，所述第一权重小于所述第二权重。
根据权利要求17所述的装置，所述第三获取模块，还配置为：

当所述第二训练周期是第一个训练周期时，基于所述第二预测数据，确定针对所述第一样本数据的第一目标预测数据。
根据权利要求13所述的装置，所述第一确定模块，具体配置为：

根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失；

根据所述第一目标预测数据与所述第一预测数据之间的比较，确定第二子预测损失；

根据所述第一子预测损失和所述第二子预测损失的和值，确定第一预测损失。
根据权利要求21所述的装置，所述第一标注数据为标注值；所述第一确定模块，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：

采用平方误差函数、对数损失函数中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。
根据权利要求21所述的装置，所述第一标注数据为标注分类；所述第一确定模块，根据所述第一标注数据与所述第一预测数据之间的比较，确定第一子预测损失时，包括：

采用KL距离、交叉熵、JS距离中的一种，对所述第一标注数据与所述第一预测数据进行比较，得到第一子预测损失。
根据权利要求13所述的装置，所述待训练神经网络模型包括深度神经网络DNN、卷积神经网络CNN、循环神经网络RNN和BERT模型中的一种；

所述业务数据包括：文本、图像、音频、对象数据中的至少一种。
一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项所述的方法。
一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。