WO2024051456A1

WO2024051456A1 - 多方协同模型训练方法、装置、设备和介质

Info

Publication number: WO2024051456A1
Application number: PCT/CN2023/113287
Authority: WO
Inventors: 鲁云飞; 郑会钿; 刘洋; 王聪; 吴烨
Original assignee: 北京火山引擎科技有限公司
Priority date: 2022-09-05
Filing date: 2023-08-16
Publication date: 2024-03-14
Also published as: CN115640517A

Abstract

本公开涉及多方协同模型训练方法、装置、电子设备和存储介质，包括：参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型；通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型；第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。

Description

多方协同模型训练方法、装置、设备和介质

相关申请的交叉引用

本申请是以中国申请号为202211079219.6，申请日为2022年9月5日的申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及神经网络技术领域，尤其涉及一种多方协同模型训练方法、装置、设备和介质。

背景技术

由于数据常常是以孤岛的形式存在，联邦学习为解决数据孤岛的问题，提出多方联合建模，即共同建立联合模型。

但联邦学习提出的多方联合建模需要利用信任第三方进行中间数据的加解密，然而在现实生活中，找到合作双方共同信任的第三方协作者是困难的，此外还需要第三方具备支持联邦学习的技术、算力和人力资源，提升了联合建模的成本。

发明内容

第一方面，本公开实施例提供了一种多方协同模型训练方法，包括：

参与模型训练的第一方构建第一模型，所述第一模型与第二模型串联堆叠生成联合模型，所述第一模型位于所述第二模型的下方，所述第二模型为参与模型训练的第二方构建；

通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至所述第一模型；所述第一模型和所述第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；

接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件。

可选的，所述第一模型的输出与所述第二模型的输入连接，所述第一模型的输入为所述联合模型的输入，所述第二模型的输出为所述联合模型的输出。

可选的，所述第一模型与第三模型并联堆叠后，再与所述第二模型串联堆叠生成所述联合模型；则所述方法还包括：

通过所述第三模型预测第二样本数据得到第二特征向量，将所述第二特征向量和所述第一特征向量合并得到目标特征向量；

将所述目标特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的目标特征向量正向传播训练，并确定目标特征向量梯度；

根据所述第一特征向量和所述第二特征向量的大小对所述目标特征向量梯度进行分割后分别反向传递至所述第一模型和所述第三模型。

可选的，所述通过所述第三模型预测第二样本数据得到第二特征向量，将所述第二特征向量和所述第一特征向量合并得到目标特征向量，包括：

通过所述第三模型预测第二样本数据得到第二特征向量；

依次将所述第一特征向量和所述第二特征向量中位于同一行的特征向量进行拼接组合后得到目标特征向量。

可选的，所述通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，包括：

通过所述第一模型预测第一样本数据得到第一特征向量；

根据所述第一特征向量和第一预设噪声函数确定第一扰动噪声；

将所述第一特征向量和第一扰动噪声进行相加后传递至所述第二模型。

可选的，所述根据所述第一特征向量和预设噪声函数确定扰动噪声，包括：

从所述第一特征向量中选取每一组特征向量的最大值以及最小值，分别组成最大值数组和最小值数组；

根据所述最大值数组和所述最小值数组确定所述预设噪声函数的敏感度；

基于所述敏感度和所述预设隐私预算确定扰动噪声。

可选的，还包括：

所述将对应的第一特征向量梯度反向传递至所述第一模型之前，获取所述第二模型输出的预测样本标签数据；

基于所述预测样本标签数据与所述第一样本数据对应的训练样本标签数据的关系，确定损失函数值。

可选的，所述接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件，包括：

在所述损失函数值大于预设阈值时，将对应的第一特征向量梯度和扰动噪声进行相加后反向传递至所述第一模型，并作为所述第一样本特征数据输入至所述第一模型再次进行正向传播训练；

在所述损失函数值小于或等于预设阈值时，确定目标联合模型的参数为第一方构建的第一模型以及第二方构建的第二模型的初始参数。

可选的，所述将对应的第一特征向量梯度反向传递至所述第一模型，包括：

根据所述第一特征向量梯度和第二预设噪声函数确定第二扰动噪声；

所述第一特征向量梯度和第二扰动噪声进行相加后反向传递至所述第一模型。

可选的，噪声扰动处理包括基于拉普拉斯噪声扰动或基于高斯噪声扰动的处理中的至少一种。

第二方面，本公开实施例提供一种多方协同模型训练装置，包括：

模型构建模块，用于参与模型训练的第一方构建第一模型，所述第一模型与第二模型串联堆叠生成联合模型，所述第一模型位于所述第二模型的下方，所述第二模型为参与模型训练的第二方构建；

训练模块，用于通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至所述第一模型；所述第一模型和所述第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；

参数优化模块，用于接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件。

第三方面，本公开实施例提供一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中任一所述的方法。

第五方面，本公开实施例提供一种计算机程序，包括：

指令，所述指令当由处理器执行时使所述处理器执行前述任一种方法。

第六方面，本公开实施例提供一种计算机程序产品，包括指令，所述指令当由处理器执行时使所述处理器执行前述任一种方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种多方协同模型训练方法的流程示意图；

图2是本公开实施例提供的另一种多方协同模型训练方法的流程示意图；

图3是本公开实施例提供的一种多方协同模型训练装置的结构示意图；

图4是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

为了解决利用第三方进行联邦学习时所存在的问题，本公开实施例提供一种多方协同模型训练方法，参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型，第一模型位于第二模型的下方，第二模型为参与模型训练的第二方构建；通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型；第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。即联合模型包括第一模型和第二模型，第一模型和第二模型串联堆叠生成联合模型，当将第一样本特征数据输入至第一模型得到与第一样本特征数据对应的第一特征向量后，将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型，由于第一特征向量和第一特征向量基于预设隐私预算进行噪声扰动处理，保证第一模型和第二模型之间传递的数据的隐私性，相比较建立的联合模型需要信任的第三方进行中间数据的加解密的方式，本公开实施例提出的多方协同模型训练方法，仅仅基于预设噪声算法对联合模型的中间数据进行处理，保证了数据的隐私性，降低了联合建模的成本。

下面参照附图描述本公开的方案。

图1是本公开实施例提供的一种多方协同模型训练方法的流程示意图。本实施例方法可由多方协同模型训练装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。可实现本申请任意实施例所述的多方协同模型训练方法。如图1所示，该方法具体包括S10～S30。

S10、参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型，第一模型位于第二模型的下方，第二模型为参与模型训练的第二方构建。

本公开实施例提供的联合模型包括第一模型和第二模型，第一模型和第二模型串联连接，训练样本数据包括第一样本数据以及第一样本数据对应的样本标签数据。

示例性的，联合模型包括第一模型和第二模型，第一模型和第二模型串联连接，即第一模型的输出与第二模型的输入连接，将第一样本数据输入至第一模型，第一模型的输入为联合模型的输入，第一模型输出的第一特征向量作为第二模型的输入，第二模型的输出与第一样本数据对应的训练样本标签数据，即第二模型的输出为联合模型的输出。

通过设置联合模型包括第一模型和第二模型，即当输入第一样本数据至联合模型后，首先联合模型的第一模型对输入的第一样本数据进行处理得到第一样本数据对应的第一特征向量。

S20、通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型。

第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的。

噪声扰动处理示例性包括基于拉普拉斯噪声扰动和基于高斯噪声扰动等。

本公开实施例提供的多方协同模型训练方法，在通过第一模型预测第一样本数据得到第一特征向量后，基于预设隐私预算对第一特征向量和第一特征向量梯度进行噪声扰动处理，再将噪声扰动处理后的第一特征向量向上传递至第二模型，以及将噪声扰动处理后的第一特征向量梯度反向传递至第一模型，即基于预设隐私预算进行噪声扰动处理，保证由第一模型和第二模型之间传递的数据的隐私性。

具体的，隐私保护程度和数据可用性是最重要的衡量指标，为了平衡隐私保护程度和数据可用性，需要引入形式化定义对隐私进行量化，顺应这一发展趋势，有研究者提出了差分隐私技术。作为一种隐私保护模型，其严格定义了隐私保护的强度，即任意一条记录的添加或删除，都不会影响最终的查询结果，但是，传统的差分隐私技术将原始数据集中到一个数据中心然后发布满足差分隐私的相关统计信息，被称为中心化差分隐私(CDP，Centralized Differential Privacy)技术。中心化差分隐私对于敏感信息的保护始终基于一个前提假设：可信的第三方数据收集者，而这在很多场景是无法满足的。所以在中心化差分隐私基础上，又发展出本地化差分隐私技术(LDP，Local Differential Privacy)，该模型中，每个用户首先对数据进行隐私化处理，再将处理后的数据发送给数据收集者，在对数据进行统计分析的同时，保证了个体的隐私信息不被泄露。

本地化差分隐私的形式化定义如下：

给定n个用户，每个用户对应一条记录，给定一个隐私算法M及其定义域Dom(M)和值域Ran(M)，若算法M在任意两条记录t和t′(t,t′∈Dom(M))上得到相同的输出结果满足下列不等式(1)，则M满足ε-本地化差分隐私。
Pr[M(t)＝t*]≤e^ε×Pr[M(t′)＝t*]+δ (1)

从上述定义中可以看出，本地化差分隐私技术通过控制任意两条记录的输出结果的相似性，从而确保算法M满足本地化差分隐私。简言之，根据隐私算法M的某个输出结果，几乎无法推理出其输入数据为哪一条记录。

在具体的实施方式中，使用拉普拉斯算法(或者高斯算法等)对输入至联合模型的训练样本数据进行扰动。

拉普拉斯算法如公式(2)～(4)所示：
Δf＝max(f(t)-f(t′)) (2)
M(t)＝f(t)+Y (3)

f为被保护的函数过程，例如为模型的正向传播或反向传播的输出结果，t和t’为两份数据集；M(t)表示加扰动之后的输出结果；ε为隐私预算，即泄漏隐私的度量，Y表示拉普拉斯分布的噪声，可以满足(ε，0)差分隐私。

在本申请中引入差分隐私机制的步骤如下：

输入至联合模型的训练样本数据包括若干次批次，对于一个训练批次，训练样本数据组成集合X∶(X₁,X₂,…,X_m)，按序号下标的每个元素为向量X_i∶(x_i1,x_i2,…,x_im)，从而集合X构成了一个矩阵。对X按列计算的最大值-最小值，得到ΔF:(f₁,f₂,…,f_m)，其中f_j＝max(x_1j,…,x_mj)-min(x_1j,…,x_mj)，

然后根据计算的ΔF计算拉普拉斯噪声：最后将计算的拉普拉斯噪声附加到每个训练样本数据中，实现输入至联合模型中数据的隐私性。

因此，在获取到第一模型输出的第一样本数据对应的第一特征向量以及第一特征向量梯度后，将该第一特征向量输入至第二模型之前以及将第一特征向量梯度反向传递至第一模型之前，可基于预设隐私预算进行噪声扰动处理对该第一特征向量以及第一特征向量梯度添加噪声扰动，即将计算的噪声附加到每个第一特征向量中，保证第一模型和第二模型之间传递的数据的隐私性。

S30、接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。

在基于预设隐私预算对第一模型输出的第一特征向量以及第一特征向量梯度进行噪声扰动处理后，将处理后到的第一特征向量正向传递至第二模型，第二模型通过对第一特征向量进行特征提取、特征分析后，输出该第一特征向量对应的预测样本标签数据，然后基于预测样本标签数据与第一样本数据对应的训练样本标签数据的关系，确定损失函数值；在损失函数值大于预设阈值时，将对应的第一特征向量梯度反向传递至第一模型，并作为第一样本特征数据输入至第一模型再次进行正向传播训练；在损失函数值小于或等于预设阈值时，确定目标联合模型的参数为第一方构建的第一模型以及第二方构建的第二模型的初始参数。

本公开实施例提供一种多方协同模型训练方法，参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型，第一模型位于第二模型的下方，第二模型为参与模型训练的第二方构建；通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型；第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。即联合模型包括第一模型和第二模型，第一模型和第二模型串联堆叠生成联合模型，当将第一样本特征数据输入至第一模型得到与第一样本特征数据对应的第一特征向量后，将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型，由于第一特征向量和第一特征向量基于预设隐私预算进行噪声扰动处理，保证第一模型和第二模型之间传递的数据的隐私性，相比较建立的联合模型需要信任的第三方进行中间数据的加解密的方式，本公开实施例提出的多方协同模型训练方法，仅仅基于预设噪声算法对联合模型的中间数据进行处理，保证了数据的隐私性，降低了联合建模的成本。

需要说明的是，上述公开的实施例示例性说明联合模型包括第一模型和第二模型，第一模型和第二模型串联连接，在具体的可实施方式中，联合模型也可以为其它结构，示例性的，第一模型包括第一子模型和第二子模型，第一子模型和第二子模型串联连接，第二子模型和第二模型串联连接，又或者第一模型包括第一子模型和第二子模型，第一子模型和第二子模型并联连接，第二模型和第一子模型以及第二子模型串联连接等，此外，第一模型包括的子模型的数量本公开实施例不对此进行具体限定。

作为一种可实施方式，可选的，通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量向上传递至第二模型，包括：

通过第一模型预测第一样本数据得到第一特征向量；根据第一特征向量和第一预设噪声函数确定第一扰动噪声；将第一特征向量和第一扰动噪声进行相加后传递至第二模型。

根据第一特征向量和预设噪声函数确定扰动噪声，包括：从第一特征向量中选取每一组特征向量的最大值以及最小值，分别组成最大值数组和最小值数组；根据最大值数组和最小值数组确定预设噪声函数的敏感度；基于敏感度和预设隐私预算确定扰动噪声。

当联合模型中位于第二模型下方仅仅包括第一模型时，训练样本数据包括N行第一样本数据，此时将第一样本数据输入至第一模型后得到与第一样本数据对应的第一特征向量，通过将第一特征向量和第一扰动噪声进行相加得到第一目标特征向量后传递至第二模型。

第一模型通过对第一样本数据进行深度学习、特征提取后得到与第一样本数据对应的第一特征向量，第一特征向量表征第一样本数据的特征。

示例性的，如下表1所示，第一样本数据为：

表1

第一样本数据组成的集合X∶(X₁，X₂，X₃)，其中，X₁(男，15，高中)，X₂(女，21，本科)，X₃(女，6，小学)，首先通过将X₁、X₂和X₃组成的第一样本数据输入至第一模型，第一模型对第一样本数据进行处理并映射到多维空间得到该第一样本数据在多维空间对应的空间向量表示即特征向量，然后对第一模型输出的第一特征向量按列计算最大值-最小值，得到ΔF:(f₁,f₂,f₃)，最后根据计算的ΔF计算拉普拉斯噪声：其中，ε为预设隐私预算，ΔF为预设噪声函数的敏感度，将计算的拉普拉斯噪声附加到每个特征向量中后输入至第二模型，即通过对第一模型输出的第一特征向量增加噪声后再输入至第二模型，保证第一模型和第二模型之间数据的隐私性。

上述实施例中，第一预设噪声函数示例性采用拉普拉斯函数，在其它可实施方式中，第一预设噪声函数可以为高斯函数，本公开实施例不对此进行具体限定。

当对第一模型输出的第一特征向量增加噪声后输入至第二模型后，此时第二模型对增加噪声的第一特征向量进行处理得到预测样本标签特征向量，预测样本标签特征向量用于表征第一样本数据经过该联合模型后预测得到的样本标签的特征。

需要说明的是，上述实施例示例性表示第一样本数据包括三组训练样本数据，在具体的实施方式中，训练样本数据包括多组，本公开实施例不对此进行具体限定。

图2是本公开实施例提供的另一种多方协同模型训练方法的流程示意图，本公开实施例是在上述实施例的基础上，如图2所示，步骤S20的具体实现方式还包括步骤 S201～S203。

S201、通过第一模型预测第一样本数据得到第一特征向量，通过第三模型预测第二样本数据得到第二特征向量，将第二特征向量和第一特征向量合并得到目标特征向量。

作为一种可实施方式，当联合模型包括第一模型、第二模型和第三模型，第一模型与第三模型串联堆叠后，再与第二模型串联堆叠生成联合模型时，训练样本特征数据包括N行第一样本数据和N行第二样本数据，且第一样本数据对应的列向量和第二样本数据的列向量的特征不相交。此时将第一样本数据输入至第一模型后得到与第一样本数据对应的第一特征向量，将第二样本数据输入至第三模型后得到与第三样本数据对应的第二特征向量。第一模型通过对第一样本数据进行深度学习、特征提取后得到与第一样本数据对应的第一特征向量，第三模型通过对第二样本数据进行深度学习、特征提取后得到与第二样本数据对应的第二特征向量，第一特征向量表征第一样本数据的特征，第二特征向量表征第二样本数据的特征。

示例性的，如表2所示，第一样本数据为：

表2

示例性的，如下表3所示，第二样本数据为：

表3

上述表中，第一样本数据包括的特征分别为性别、年龄和学历，第二样本数据包括的特征分别为浏览产品类型、时间段以及相同产品浏览次数，即第一样本数据和第二样本数据所对应的特征不相交。通过设置第一模型和第三模型包括特征不相交，进而保证联合模型输出的预测样本标签数据的精度。

示例性的，第一样本数据组成的集合X1∶(X₁₁，X₁₂，X₁₃)，其中，X₁₁(男，15，高中)，X₁₂(女，21，本科)，X₁₃(女，6，小学)，第二样本数据组成的集合X2:(X₂₁，X₂₂，X₂₃)，其中，X₂₁(15，8:30-9:30，5)，X₂₂(2，10:30-11:30，1)，X₂₃(2，10:30-11:30，1)，通过将X₁₁、X₁₂和X₁₃组成的第一样本数据输入至第一模型，第一模型对第一样本数据进行处理并映射到多维空间得到该第一样本数据在多维空间对应的空间向量表示即第一特征向量，通过将X₂₁、X₂₂和X₂₃组成的第二样本数据输入至第三模型，第三模型对第二样本数据进行处理并映射到多维空间得到该第二样本数据在多维空间对应的空间向量表示即第二特征向量。

在具体的实施方式中，需要基于预设噪声函数对第一特征向量和第二特征向量进行处理，即在第一模型输出第一特征向量后，通过预设噪声函数对第一特征向量进行处理，示例性的，第一样本数据X1∶(X₁₁，X₁₂，X₁₃)经第一模型预测得到第一特征向量为Y1∶(Y₁₁，Y₁₂，Y₁₃)，预设噪声函数对第一特征向量进行处理得到的第一目标特征向量为Y1'∶(Y₁₁′，Y₁₂′，Y₁₃′)。在第三模型输出第二特征向量后，通过预设噪声算法对第二特征向量进行处理。示例性的，第二样本数据X2∶(X₂₁，X₂₂，X₂₃)经第三模型预测得到第二特征向量Y2∶(Y₂₁，Y₂₂，Y₂₃)，预设噪声算法对第二特征向量进行处理得到的第二目标特征向量为Y2'∶(Y₂₁′，Y₂₂′，Y₂₃′)。

在基于预设噪声算法对第一特征向量进行处理得到第一目标特征向量以及对第二特征向量进行处理得到第二目标特征向量后，通过将将第一目标特征向量和第二目标特征向量拼接后得到目标特征向量。

需要说明的是，上述实施例中，基于预设噪声函数对第一特征向量和第二特征向量进行处理的过程中，对第一特征向量进行处理的预设噪声函数与对第二特征向量进行处理的预设噪声函数可以为相同的噪声函数，也可以为不同的噪声函数，本公开实施例不对此进行具体限定。

可选的，在具体的实施方式中，将第二特征向量和第一特征向量合并得到目标特征向量，包括：依次将第一特征向量和第二特征向量中位于同一行的特征向量进行拼接组合后得到目标特征向量。

示例性的，在对第一特征向量Y1∶(Y₁₁，Y₁₂，Y₁₃)基于预设隐私预算进行噪声扰动处理后得到的第一目标特征向量为Y1'∶(Y₁₁′，Y₁₂′，Y₁₃′)，以及对第二特征向量Y2∶(Y₂₁，Y₂₂，Y₂₃)基于预设隐私预算进行噪声扰动处理后得到的第二目标特征向量为Y2'∶(Y₂₁′，Y₂₂′，Y₂₃′)后，将第一目标特征向量和第二目标特征向量进行拼接的过程为，将第一目标特征向量中的Y₁₁′与第二目标特征向量Y₂₁′进行拼接，将第一目标特征向量中的Y₁₂′与第二目标特征向量Y₂₂′进行拼接，将第一目标特征向量中的Y₁₃′与第二目标特征向量Y₂₃′进行拼接，拼接后得到目标特征向量Y'∶(Y₁₁′+Y₂₁′，Y₁₂′+Y₂₂′，Y₁₃′+Y₂₃′)。

需要说明的是，在具体的实施方式中，将位于同一行的第一目标特征向量和第二目标特征向量进行拼接的过程中，将第二目标特征向量中的Y₂₁′拼接在第一目标特征向量Y₁₁′的后面，将第二目标特征向量中的Y₂₂′拼接在第一目标特征向量Y₁₂′的后面，将第二目标特征向量中的Y₂₃′拼接在第一目标特征向量Y₁₃′的后面。

S202、将目标特征向量正向传递至第二模型，指示第二模型基于接收到的目标特征向量正向传播训练，并确定目标特征向量梯度。

在通过第一模型预测第一样本数据得到第一特征向量，通过第三模型预测第二样本数据得到第二特征向量后，分别基于预设隐私预算对第一特征向量和第二特征向量进行噪声扰动处理，再将噪声扰动处理后的第一特征向量和第二特征向量合并后得到目标特征向量后向上传递至第二模型，以及将噪声扰动处理后的第一特征向量梯度以及第二特征向量梯度合并得到目标特征向量梯度后反向传递至第一模型和第三模型，即基于预设隐私预算进行噪声扰动处理，保证由第一模型与第三模型和第二模型之间传递的数据的隐私性。

S203、根据第一特征向量和第二特征向量的大小对目标特征向量梯度进行分割后分别反向传递至第一模型和第三模型。

在具体的实施方式中，将目标特征向量梯度反向传递至第一模型之前，需要确定联合模型包括的模型的数量，当第一模型与第二模型串联堆叠生成联合模型时，此时，将目标特征向量梯度直接反向传递至第一模型作为联合模型的输入即可，当第一模型与第三模型串联堆叠后，再与第二模型串联堆叠生成联合模型时，需要根据联合模型第二模型下方包括的模型的数量将目标特征向量梯度进行分割。

示例性的，根据联合模型中第二模型下方包括的模型的数量将目标特征向量梯度进行分割的过程为：在对第一特征向量Y1∶(Y₁₁，Y₁₂，Y₁₃)进行处理得到的第一目标特征向量为Y1'∶(Y₁₁′，Y₁₂′，Y₁₃′)，以及对第二特征向量Y2∶(Y₂₁，Y₂₂，Y₂₃)进行处理得到的第二目标特征向量为Y2'∶(Y₂₁′，Y₂₂′，Y₂₃′)后，将第一目标特征向量和第二目标特征向量进行拼接的过程为，将第一目标特征向量中的Y₁₁′与第二目标特征向量Y₂₁′进行拼接，将第一目标特征向量中的Y₁₂′与第二目标特征向量Y₂₂′进行拼接，将第一目标特征向量中的Y₁₃′与第二目标特征向量Y₂₃′进行拼接，拼接后得到目标特征向量Y'∶(Y₁₁′+Y₂₁′，Y₁₂′+Y₂₂′，Y₁₃′+Y₂₃′)，拼接后的目标特征向量Y'∶(Y₁₁′+Y₂₁′，Y₁₂′+Y₂₂′，Y₁₃′+Y₂₃′)梯度为G：其中Loss表示损失值，表示其下角标所对应的维度的预测值。通过将目标特征向量梯度值G进行分割，保证反向传递至第一模型和第三模型的数据与训练样本数据对应。例如，上述实施例中，输入至第一模型的第一样本数据中每一个样本数据均包括三个特征，输入至第三模型的第二样本数据中每个样本数据也包括三个特征，因此，首先需要将目标特征向量梯度值G中的分割成两个部分，每个部分对应三个特征，将第一部分对应的特征向量输入至第一模型，将第二部分对应的特征向量输入至第三模型，将目标特征向量梯度值G中的分割成两个部分，每个部分对应三个特征，将第一部分对应的特征向量输入至第一模型，将第二部分对应的特征向量输入至第三模型，最后，将分割后的目标特征向量梯度值分别反向传递至第一模型和第三模型。

此时，对应步骤S30的具体实现方式为S301：接收并基于附加噪声的目标特征向量梯度对第一模型和第三模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。

本公开实施例提供的多方协同模型训练方法，当联合模型包括第一模型、第二模型和第三模型，第一模型与第三模型串联堆叠后，再与第二模型串联堆叠生成联合模型时，首先将第一样本数据输入至第一模型得到与第一样本数据对应的第一特征向量，将第二样本数据输入至第三模型得到与第二样本数据对应的第二特征向量，由于输入至第一模型的第一样本数据对应的列向量和输入至第三模型的第二样本数据的列向量的特征不相交，可以保证联合模型的训练精度，此外，通过预设噪声函数对第一模型输出的第一特征向量以及第三模型输出的第二特征向量进行处理后再进行拼接，一方面保证输出至第二模型的样本数据的隐私性，另一方面保证第一模型和第三模型之间数据的隐私性。

可选的，作为一种可实施方式，将对应的第一特征向量梯度反向传递至第一模型，包括：根据第一特征向量梯度和第二预设噪声函数确定第二扰动噪声；第一特征向量梯度和第二扰动噪声进行相加后反向传递至第一模型。

示例性的，第一样本数据组成的集合X1∶(X₁₁，X₁₂，X₁₃)，其中，X₁₁(男，15，高中)，X₁₂(女，21，本科)，X₁₃(女，6，小学)，第二样本数据组成的集合X2:(X₂₁，X₂₂，X₂₃)，其中，X₂₁(15，8:30-9:30，5)，X₂₂(2，10:30-11:30，1)，X₂₃(2，10:30-11:30，1)，第一样本数据X1∶(X₁₁，X₁₂，X₁₃)经第一模型预测得到第一特征向量为Y1∶(Y₁₁，Y₁₂，Y₁₃)，第二样本数据X2∶(X₂₁，X₂₂，X₂₃)经第三模型预测得到第二特征向量Y2∶(Y₂₁，Y₂₂，Y₂₃)，然后对第一特征向量Y1和第二特征向量Y2分别按列计算最大值-最小值，得到ΔF_G:(f_G1,f_G2,f_G3)，最后根据计算的ΔF_G计算拉普拉斯噪声：其中，ε为预设隐私预算，ΔF_G为预设噪声函数的敏感度，将计算的拉普拉斯噪声附加到每个特征向量中后得到第一目标特征向量和第二目标特征向量。

图3是本公开实施例提供的一种多方协同模型训练装置的结构示意图，如图3所示，多方协同模型训练装置包括：

模型构建模块310，用于参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型，第一模型位于第二模型的下方，第二模型为参与模型训练的第二方构建；

训练模块320，用于通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型；第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；

参数优化模块330，用于接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。

本公开实施例提供的多方协同模型训练装置，参与模型训练的第一方构建第一模型，第一模型与第二模型串联堆叠生成联合模型，第一模型位于第二模型的下方，第二模型为参与模型训练的第二方构建；通过第一模型预测第一样本数据得到第一特征向量，并将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型；第一模型和第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；接收并基于附加噪声的第一特征向量梯度对第一模型进行调参优化，迭代训练直至满足联合模型的训练结束条件。即联合模型包括第一模型和第二模型，第一模型和第二模型串联堆叠生成联合模型，当将第一样本特征数据输入至第一模型得到与第一样本特征数据对应的第一特征向量后，将第一特征向量正向传递至第二模型，指示第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至第一模型，由于第一特征向量和第一特征向量基于预设隐私预算进行噪声扰动处理，保证第一模型和第二模型之间传递的数据的隐私性，相比较现有技术中建立的联合模型需要信任的第三方进行中间数据的加解密，本公开实施例提出的多方协同模型训练方法，仅仅基于预设噪声算法对联合模型的中间数据进行处理，保证了数据的隐私性，降低了联合建模的成本。

本发明实施例所提供的装置可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本公开还提供一种电子设备，包括：处理器，所述处理器用于执行存储于存储器的计算机程序，所述计算机程序被处理器执行时实现上述方法实施例的步骤。

图4为本公开提供的一种电子设备的结构示意图，图4示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图4显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：一个或者多个处理器810，系统存储器820，连接不同系统组件(包括系统存储器820和处理器)的总线830。

总线830表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备800典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备800访问的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器820可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)840和/或高速缓存存储器850。电子设备800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统860可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线830相连。系统存储器820可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块870的程序/实用工具880，可以存储在例如系统存储器820中，这样的程序模块870包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本发明实施例所描述的实施例中的功能和/或方法。

处理器810通过运行存储在系统存储器820中的多个程序中的至少一个程序，从而执行各种功能应用以及信息处理，例如实现本发明实施例所提供的方法实施例。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的步骤。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行实现上述方法实施例的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种多方协同模型训练方法，包括：

参与模型训练的第一方构建第一模型，所述第一模型与第二模型串联堆叠生成联合模型，所述第一模型位于所述第二模型的下方，所述第二模型为参与模型训练的第二方构建；

通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至所述第一模型；所述第一模型和所述第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；

接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件。
根据权利要求1所述的方法，其中，所述第一模型的输出与所述第二模型的输入连接，所述第一模型的输入为所述联合模型的输入，所述第二模型的输出为所述联合模型的输出。
根据权利要求1或2所述的方法，其中，所述第一模型与第三模型并联堆叠后，再与所述第二模型串联堆叠生成所述联合模型，所述方法还包括：

通过所述第三模型预测第二样本数据得到第二特征向量，将所述第二特征向量和所述第一特征向量合并得到目标特征向量；

将所述目标特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的目标特征向量正向传播训练，并确定目标特征向量梯度；

根据所述第一特征向量和所述第二特征向量的大小对所述目标特征向量梯度进行分割后分别反向传递至所述第一模型和所述第三模型。
根据权利要求3所述的方法，其中，所述通过所述第三模型预测第二样本数据得到第二特征向量，将所述第二特征向量和所述第一特征向量合并得到目标特征向量，包括：

通过所述第三模型预测第二样本数据得到第二特征向量；

依次将所述第一特征向量和所述第二特征向量中位于同一行的特征向量进行拼接组合后得到目标特征向量。
根据权利要求1～4中任一项所述的方法，其中，所述通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，包括：

通过所述第一模型预测第一样本数据得到第一特征向量；

根据所述第一特征向量和第一预设噪声函数确定第一扰动噪声；

将所述第一特征向量和第一扰动噪声进行相加后传递至所述第二模型。
根据权利要求5所述的方法，其中，所述根据所述第一特征向量和预设噪声函数确定扰动噪声，包括：

从所述第一特征向量中选取每一组特征向量的最大值以及最小值，分别组成最大值数组和最小值数组；

根据所述最大值数组和所述最小值数组确定所述预设噪声函数的敏感度；

基于所述敏感度和所述预设隐私预算确定扰动噪声。
根据权利要求1～6中任一项所述的方法，还包括：

所述将对应的第一特征向量梯度反向传递至所述第一模型之前，获取所述第二模型输出的预测样本标签数据；

基于所述预测样本标签数据与所述第一样本数据对应的训练样本标签数据的关系，确定损失函数值。
根据权利要求7所述的方法，其中，所述接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件，包括：

在所述损失函数值大于预设阈值时，将对应的第一特征向量梯度和扰动噪声进行相加后反向传递至所述第一模型，并作为所述第一样本特征数据输入至所述第一模型再次进行正向传播训练；

在所述损失函数值小于或等于预设阈值时，确定目标联合模型的参数为第一方构建的第一模型以及第二方构建的第二模型的初始参数。
根据权利要求1～8中任一项所述的方法，其中，所述将对应的第一特征向量梯度反向传递至所述第一模型，包括：

根据所述第一特征向量梯度和第二预设噪声函数确定第二扰动噪声；

将所述第一特征向量梯度和第二扰动噪声进行相加后反向传递至所述第一模型。
根据权利要求1～9中任一项所述的方法，其中，噪声扰动处理包括基于拉普拉斯噪声扰动或基于高斯噪声扰动的处理中的至少一种。
一种多方协同模型训练装置，包括：

模型构建模块，用于参与模型训练的第一方构建第一模型，所述第一模型与第二模型串联堆叠生成联合模型，所述第一模型位于所述第二模型的下方，所述第二模型为参与模型训练的第二方构建；

训练模块，用于通过所述第一模型预测第一样本数据得到第一特征向量，并将所述第一特征向量正向传递至所述第二模型，指示所述第二模型基于接收到的第一特征向量正向传播训练，并将对应的第一特征向量梯度反向传递至所述第一模型；所述第一模型和所述第二模型间传递的第一特征向量和/或第一特征向量梯度是基于预设隐私预算进行噪声扰动处理后进行传递的；

参数优化模块，用于接收并基于附加噪声的第一特征向量梯度对所述第一模型进行调参优化，迭代训练直至满足所述联合模型的训练结束条件。
一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～10中任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1～10中任一所述的方法。
一种计算机程序，包括：

指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1～10中任一所述的方法。
一种计算机程序产品，包括：

指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1～10中任一所述的方法。