WO2023093229A1

WO2023093229A1 - 一种联合学习参数聚合方法、装置及系统

Info

Publication number: WO2023093229A1
Application number: PCT/CN2022/119138
Authority: WO
Inventors: 杜炎; 王瑞杨
Original assignee: 新智我来网络科技有限公司
Priority date: 2021-11-29
Filing date: 2022-09-15
Publication date: 2023-06-01
Also published as: CN116226779A

Abstract

一种联合学习参数聚合方法、装置及系统。该方法包括：获取N个参与方上传的隐层参数和批标准化层参数（S201）；对每个参与方上传的隐层参数进行聚合，得到第一聚合参数（S202）；对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数（S203）；将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型（S204）。该方法能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点，并可针对性地对不同的网络层的参数进行分别聚合，使得聚合参数并返回至各参与方，使得各参与方可根据所返回的聚合参数调整其算法模型的参数，提高其算法模型的收敛速度以及泛化能力。

Description

一种联合学习参数聚合方法、装置及系统

技术领域

本公开涉及机器学习技术领域，尤其涉及一种联合学习参数聚合方法、装置及系统。

背景技术

随着深度学习网络模型的层数的增多，其隐藏层的数量也随之增加，而在训练过程中，每个隐藏层的参数会随之发生变化，所以隐藏层的输入分布总会变化，从而降低了模型学习的收敛速度，甚至会影响模型的泛化能力。据相关研究表明，通过对每一层网络的输入进行标准化，即Batch Normalization(批标准化，以下简称“BN”)能够在一定程度上减少网络内部方差偏移而导致输入分布的改变，加速模型的收敛，且模型具有较好的泛化能力。

基于深度学习的网络模型(设置有BN层)的横向联合学习，通常包括多个参与方，每个参与方会将各自训练得到的参数上传至服务器(中心节点)，然后，服务器会将各参与方的参数进行聚合，并将聚合后的参数返回至各参与方，以使各参与方根据返回的聚合参数调整其参数，从而优化其模型。

但是，现有技术中是通过服务器直接对各参与方上传的参数进行求平均值或加权平均值的聚合方式来聚合各方的参数，之后将聚合的参数返回至各参与方。显然，这种聚合方式并未考虑到各参与方的网络模型的不同网络层的特点，而各参与方根据服务器返回的聚合参数来调整其算法模型，并不能够达到预期的加速算法模型的收敛速度，以及提高算法模型的泛化能力的效果。

发明内容

有鉴于此，本公开实施例提供了一种联合学习参数聚合方法、装置及系统，以解决现有的联合学习的参数聚合方式不能够很好地帮助各参与方加速其算法模型的收敛速度和泛化能力的问题。

本公开实施例的第一方面，提供了一种联合学习参数聚合方法，包括：

获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；

对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；

对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；

将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。

本公开实施例的第二方面，提供了一种联合学习参数聚合装置，包括：

参数获取模块，被配置为获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；

第一聚合模块，被配置为对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；

第二聚合模块，被配置为对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；

参数返回模块，被配置为将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。

本公开实施例的第三方面，提供了一种联合学习参数聚合系统，包括：

服务器，服务器包括上述的联合学习参数聚合装置；以及，与服务器通信连接的N个参与方。

本公开实施例与现有技术相比存在的有益效果至少包括：通过获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型，能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点，并可针对性地对不同的网络层的参数进行分别聚合，使得聚合参数并返回至各参与方，使得各参与方可根据所返回的聚合参数调整其算法模型的参数，提高其算法模型的收敛速度以及泛化能力。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的一种联合学习的架构示意图；

图2是本公开实施例提供的一种联合学习参数聚合方法的流程示意图；

图3是本公开实施例提供的一种联合学习参数聚合方法中的参与方的算法模型的网络结构示意图；

图4是本公开实施例提供的一种联合学习参数聚合装置的结构示意图；

图5是本公开实施例提供的一种联合学习参数聚合系统的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

联合学习是指在确保数据安全及用户隐私的前提下，综合利用多种AI(Artificial Intelligence，人工智能)技术，联合多方合作共同挖掘数据价值，催生基于联合建模的新的智能业态和模式。联合学习至少具有以下特点：

(1)参与节点控制自有数据的弱中心化联合训练模式，确保共创智能过程中的数据隐私安全。

(2)在不同应用场景下，利用筛选和/或组合AI算法、隐私保护计算，建立多种模型聚合优化策略，以获取高层次、高质量的模型。

(3)在确保数据安全及用户隐私的前提下，基于多种模型聚合优化策略，获取提升联合学习引擎的效能方法，其中效能方法可以是通过解决包括计算架构并行、大规模跨域网络下的信息交互、智能感知、异常处理机制等，提升联合学习引擎的整体效能。

(4)获取各场景下多方用户的需求，通过互信机制，确定合理评估各联合参与方的真实贡献度，进行分配激励。

基于上述方式，可以建立基于联合学习的AI技术生态，充分发挥行业数据价值，推动垂直领域的场景落地。

下面将结合附图详细说明根据本公开实施例的一种联合学习参数聚合方法、装置和系统。

图1是本公开实施例的一种联合学习的架构示意图。如图1所示，联合学习的架构可以包括服务器(中心节点)101以及参与方102、参与方103和参与方104。

在联合学习过程中，基本模型可以通过服务器101建立，服务器101将该模型发送至与其建立通信连接的参与方102、参与方103和参与方104。基本模型还可以是任一参与方建立后上传至服务器101，服务器101将该模型发送至与其建立通信连接的其他参与方。参与方102、参与方103和参与方104根据下载的基本结构和模型参数构建模型，利用本地数据进行模型训练，获得更新的模型参数，并将更新的模型参数加密上传至服务器101。服务器101对参与方102、参与方103和参与方104发送的模型参数进行聚合，获得全局模型参数，并将全局模型参数传回至参与方102、参与方103和参与方104。参与方102、参与方103和参与方104根据接收的全局模型参数对各自的模型进行迭代，直到模型最终收敛，从而实现对模型的训练。在联合学习过程中，参与方102、参与方103和参与方104上传的数据为模型参数，本地数据并不会上传至服务器101，且所有参与方可以共享最终的模型参数，因此可以在保证数据隐私的基础上实现共同建模。需要说明的是，参与方的数量不限于如上的三个，而是可以根据需要进行设置，本公开实施例对此不作限制。

图2是本公开实施例提供的一种联合学习参数聚合方法的流程示意图。图2的联合学习参数聚合方法可以由图1的服务器101执行。如图2所示，该联合学习参数聚合方法包括：

步骤S201，获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数。

其中，隐层参数，是指各参与方所采用的基本模型的网络结构(例如，神经网络结构)中的隐层的参数，包括网络结构中的每个隐层的权重W和偏置b。

批标准化层参数，则是指各参与方所采用的基本模型的网络结构(例如，神经网络结构)中的批标准化层(即BN层)的参数，包括该网络结构中的每个BN层的均值E _x、方差Var _x、最小批数m、第一伸缩变化参数γ和第二伸缩变化参数β。

作为一示例，每个参与方可通过终端设备(如智能手机、个人电脑等)与服务器建立通信连接，并上传其隐层参数可批标准化层参数。

步骤S202，对每个参与方上传的隐层参数进行聚合，得到第一聚合参数。

作为一示例，假设N＝2，即有两个参与方，记为参与方A和参与方B，参与方A和B所采用的基本模型的网络结构为三层网络，依次为输入层、(批标准化层，即BN层)隐层、输出层。

首先，获取到参与方A上传的隐层参数(包括权重W _a和偏置b _a)，及其BN层的批标准化层参数(包括均值

方差

最小批数m _a、第一伸缩变化参数γ _a和第二伸缩变化参数β _a)，以及参与方B上传的隐层参数(包括权重W _b和偏置b _b)，及其BN层的批标准化层参数(包括均值

方差

最小批数m _b、第一伸缩变化参数γ _b和第二伸缩变化参数β _b)。

接着，对参与方A和参与方B的隐层参数进行聚合，具体可以是计算参与方A的隐层参数权重W _a、偏置b _a与参与方B的隐层参数权重W _b、偏置b _b的平均值或者加权平均值，即完成二者的隐层参数的聚合，得到第一聚合参数(即权重W _a、偏置b _a与权重W _b、偏置b _b的平均值或者加权平均值)。

步骤S203，对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数。

结合上述示例，对参与方A和参与方B的批标准化层参数进行聚合，具体是对参与方A的批标准化层参数均值

方差

最小批数m _a、第一伸缩变化参数γ _a和第二伸缩变化参数β _a与参与方B的批标准化层参数均值

方差

最小批数m _b、第一伸缩变化参数γ _b和第二伸缩变化参数β _b进行聚合，得到第二聚合参数。

步骤S204，将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。

结合上述示例，服务器101在对参与方A和参与方B上传的隐层参数和批标准化层参数按照上述步骤进行聚合，得到第一聚合参数和第二聚合参数后，将第一聚合参数和第二聚合参数分别返回给参与方A和参与方B。此时，参与方A和参与方B在接收到服务器101返回的第一聚合参数和第二聚合参数之后，可采用第一聚合参数对其网络模型中的隐层的参数进行更新调整，采用第二聚合参数对其网络模型中的批标准化层(BN层)的参数进行更新调整，然后再利用更新参数后的网络模型继续训练，并在训练完下一批次的训练数据后，重复上述参数聚合更新步骤，直至其算法模型达到预设的迭代次数为止，得到训练好的算法模型。

本公开实施例提供的技术方案，通过获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型，能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点，并可针对性地对不同的网络层的参数进行分别聚合，使得聚合参数并返回至各参与方，使得各参与方可根据所返回的聚合参数调整其算法模型的参数，提高其算法模型的收敛速度以及泛化能力。

在一些实施例中，N个参与方的算法模型的网络结构相同，网络结构包括输入层、批标准化层、隐层和输出层。

上述步骤S202，包括：

对每个参与方的同一隐层的隐层参数进行聚合，得到第一聚合参数，其中，第一聚合参数包括至少一个隐层聚合参数。

作为一示例，假设N＝2，有两个参与方，分别为参与方A和参与方B，其中，参与方A和参与方B的算法模型的网络结构均为4层的神经网络结构，该神经网络结构的结构示意图如图3所示。参见图3，参与方A的神经网络结构包括输入层A、第一BN层A、第一隐层A、第二BN层A、第二隐层A和输出层A；参与方B的神经网络结构包括输入层B、第一BN层B、第一隐层B、第二BN层B、第二隐层B和输出层B。其中，第一隐层A与第一隐层B为参与方A与参与方B的第一个隐层(二者属于同一隐层)，第二隐层A与第二隐层B为参与方A与参与方B的第二个隐层(二者属于同一个隐层)。

对每个参与方的同一隐层的隐层参数进行聚合，具体是指对参与方A的第一隐层A与参与方B的第一隐层B的隐层参数进行聚合，得到隐层聚合参数01；对参与方A的第二隐层A与参与方B的第二隐层B的隐层参数进行聚合，得到隐层聚合参数02。这里的第一聚合参数即包括隐层聚合参数01和隐层聚合参数02。

作为一示例，假设参与方A的第一隐层A的隐层参数为权重W _a1、偏置b _a1，第二隐层A的隐层参数为权重W _a2、偏置b _a2；参与方B的第一隐层B的隐层参数为权重W _b1、偏置b _b1，第二隐层B的隐层参数为权重W _b2、偏置b _b2。

具体地，参与方A和参与方B的隐层参数的聚合过程如下：

首先，计算参与方A和参与方B的第一隐层的权重均值

同时，计算参与方A和参与方B的第二隐层的权重均值

其次，计算参与方A和参与方B的第一隐层的偏置均值

同时，计算参与方A和参与方B的第二隐层的偏置均值

由上述可得到，参与方A和参与方B的第一隐层聚合参数为

和

第二隐层聚合参数为

和

第一聚合参数包括第一隐层聚合参数和第二隐层聚合参数。

可以理解的，假设有N个参与方(N为≥2的正整数)，每个参与方的网络结构有K层隐层(K为≥1的正整数)，那么可以根据公式

计算得到所有参与方的各隐层的权重均值；根据公式

计算得到所有参与方的各隐层偏置均值，进而得到所有参与方的隐层的第一聚合参数。

在一些实施例中，上述步骤S203包括：

对每个参与方的同一批标准化层的批标准化层参数进行聚合，得到第二聚合参数，其中，第二聚合参数包括至少一个批标准化层聚合参数，批标准化层聚合参数包括第一、第二和第三批标准化层聚合参数。

结合上述示例，结合图3，对每个参与方的同一批标准化层的批标准化层参数进行聚合，具体是指对参与方A的第一批标准化层A与参与方B的第一批标准化层B的批标准化层参数进行聚合，得到批标准化层聚合参数01；对参与方A的第二批标准化层A与参与方B的第二批标准化层B的批标准化层参数进行聚合，得到批标准化层聚合参数02。这里的第二聚合参数即包括批标准化层聚合参数01和批标准化层聚合参数02。

在一些实施例中，上述步骤对每个参与方的同一批标准化层的批标准化层参数进行聚合，得到第二聚合参数，具体包括：

对每个参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合，得到第一批标准化层聚合参数；

对每个参与方的同一批标准化层的均值进行聚合，得到第二批标准化层聚合参数；

对每个参与方的同一批标准化层的方差进行聚合，得到第三批标准化层聚合参数。

作为一示例，上述第一批标准化层聚合参数可通过下述方式计算得到：

计算每个参与方的同一批标准化层的第一伸缩变化参数的均值，以及每个参与方的同一批标准化层的第二伸缩变化参数的均值，得到第一批标准化层聚合参数。

作为一示例，结合上述示例，假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的第一伸缩变化参数分别为γ _a1和γ _b1，第二伸缩变化参数分别为β _a1和β _b1；参与方A的第二批标准化层A与参与方B的第二批标准化层B的第一伸缩变化参数分别为γ _a2和γ _b2，第二伸缩变化参数分别为β _a2和β _b2。

那么，可根据公式

计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第一伸缩变化参数的均值

根据公式

计算出参与方A的第二批标准化层A与参与方B的第二批标准化层B的第一伸缩变化参数的均值

根据公式

计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第二伸缩变化参数均值

根据公式

计算出参与方A的第二批标准化层A与参与方B的第二批标准化层B的第二伸缩变化参数均值

由上述可得到，参与方A和参与方B的第一批标准化层的第一批标准化层聚合参数为

和

第二批标准化层的第一批标准化层聚合参数为

和

可以理解的，假设有N个参与方(N为≥2的正整数)，每个参与方的网络结构有P层批标准化层(P为≥1的正整数)，那么可以根据第一批标准化层聚合参数中的第一伸缩变化参数均值的计算公式

计算得到所有参与方的各批标准化层的第一伸缩变化参数均值；根据第一批标准化层聚合参数中的第二伸缩变化参数均值的计算公式

计算得到所有参与方的各批标准化层的第二伸缩变化参数均值，进而得到所有参与方的各批标准化层的第一批标准化层聚合参数。

作为一示例，上述第二批标准化层聚合参数可通过下述方式计算得到：

计算每个参与方的同一批标准化层的均值与其最小批数的第一乘积，并计算各个参与方的第一乘积之和；

计算N个参与方的最小批数的总和，根据第一乘积之和、最小批数的总和，计算得到第二批标准化层聚合参数。

作为一示例，结合上述示例，当N＝2，即有两个参与方，分别为参与方A和参与方B，参与方A与B所采用的网络结构如图3所示。假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的均值分别为

和

最小批数分别为m _a和m _b；参与方A的第二批标准化层A与参与方B的第二批标准化层B的均值分别为

和

最小批数分别为m _a和m _b。

那么，可以根据公式

计算出参与方A与参与方B的第一批标准化层的第二批标准化层聚合参数01。根据公式

计算出参与方A与参与方B的第二批标准化层的第二批标准化层聚合参数02。

可以理解的，假设有N个参与方(N为≥2的正整数)，每个参与方的网络结构有P层批标准化层(P为≥1的正整数)，那么可以根据第二批标准化层聚合参数的计算公式

计算出所有参与方的各批标准化层的第二批标准化层聚合参数(所有参与方的各批标准化层的均值的聚合值)。

作为一示例，上述第三批标准化层聚合参数可通过下述方式计算得到：

计算每个参与方的同一批标准化层的均值与其方差的平方和，并计算平方和与参与方的最小批数的第二乘积，统计各个参与方的第二乘积之和；

计算N个参与方的最小批数的总和，根据第二乘积之和、最小批数的总和、以及第二批标准化层聚合参数，计算得到第三批标准化层聚合参数。

作为一示例，结合上述示例，当N＝2，即有两个参与方，分别为参与方A和参与方B，参与方A与B所采用的网络结构如图3所示。假设参与方A的第一批标准化层A与参与方B的第一批标准化层B的方差分别为

和

参与方A的第二批标准化层A与参与方B的第二批标准化层B的方差分别为

和

由于针对单个参与方而言，其每一BN层的方差＝平方的期望-期望的平方，即Var＝E(x ²)-E ²(x)，那么可以根据公式

计算出参与方A的第一批标准化层A与参与方B的第一批标准化层B的第三批标准化层聚合参数01(即聚合方差)；根据公式

计算出参与方A的第二批标准化层A与参与方B的第二批标准化层B的第三批标准化层聚合参数02(即聚合方差)。

可以理解的，假设有N个参与方(N为≥2的正整数)，每个参与方的网络结构有P层批标准化层(P为≥1的正整数)，那么可以根据第三批标准化层聚合参数的计算公式：

计算得到所有参与方的各层批标准化层的第三批标准化层聚合参数(即所有参与方的各批标准化层的方差的聚合值)。

本公开实施例提供的技术方案，服务器对所有参与方的批标准化层的参数进行聚合的原理如下：

其中，x _i表示第i个样本在BN层前一层的输出，m表示批次训练一个min_batch数(即最小批数)，E _x表示min-batch的均值，Var _x表示min_batch的方差，

表示normalization过程(即对第i个样本在BN层前一层的输出进行归一标准化的过程)，y _i表示BN层最终的输出，其系由

经过伸缩偏移得到的，其中，γ和β分别为

的平移参数(即第一伸缩变化参数)和缩放参数(即第二伸缩变化参数)，∈为极小值(eps)，为了防止分母为零。

具体地，首先计算出此次批量数据x的均值，接着，计算出该批量数据的方差，然后，再对该批量数据的x进行归一化处理，最后，引入平移参数和缩放参数对归一化结果进行处理，这样就能够很好地将y _i还原到归一化前的x，从而能够保证每一次数据经过归一化后还能保留原有学习来的特征，同时又能完成归一化的操作，进而达到加速模型收敛的效果，并且有利于提高模型的泛化能力。

在一些实施例中，上述步骤S204中，每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型，具体包括：

每个参与方，根据第一聚合参数调整其网络结构中的隐层的隐层参数；

每个参与方，根据第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。

作为一示例，结合上述示例，当参与方A和参与方B分别接收到服务器101返回的第一聚合参数(包括第一隐层聚合参数

和

第二隐层聚合参数

和

)和第二聚合参数(包括第一批标准化层聚合参数

第二批标准化层聚合参数

)。参与方A可以使用第一隐层聚合参数更新调整其第一隐层的原始参数，使用第二隐层聚合参数更新调整其第二隐层的原始参数，使用第一批标准化层聚合参数更新调整其第一批标准化层的原始参数，使用第二批标准化层聚合参数更新调整其第二批标准化层的原始参数，从而完成对其算法模型的网络结构的所有参数的更新调整。接下来，可使用更新参数后的算法模型对下一批次的数据进行模型训练，每训练完一批次数据后重复上述针对网络结构的各层参数的更新调整，直至达到预设的模型训练次数阈值为止，即可得到训练好的算法模型。

类似地，参与方B对于其算法模型的网络结构的各层参数的更新调整可参照上述参与方A的更新步骤，在此不再赘述。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的一种联合学习参数聚合装置的示意图。如图4所示，该联合学习参数聚合装置包括：

参数获取模块401，被配置为获取N个参与方上传的隐层参数和批标准化层参数，其中，批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；

第一聚合模块402，被配置为对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；

第二聚合模块403，被配置为对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；

参数返回模块404，被配置为将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型。

本公开实施例提供的技术方案，通过参数获取模块401获取N个参与方上传的隐层参数和批标准化层参数；第一聚合模块402对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；第二聚合模块403对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；参数返回模块404将第一聚合参数和第二聚合参数返回至各个参与方，以使每个参与方根据第一聚合参数和第二聚合参数调整优化其算法模型，能够综合考虑到各参与方的算法模型的网络结构中的不同网络层的特点，并可针对性地对不同的网络层的参数进行分别聚合，使得聚合参数并返回至各参与方，使得各参与方可根据所返回的聚合参数调整其算法模型的参数，提高其算法模型的收敛速度以及泛化能力。

在一些实施例中，N个参与方的算法模型的网络结构相同，网络结构包括输入层、批标准化层、隐层和输出层。上述第一聚合模块402包括：

隐层参数聚合单元，被配置为对每个参与方的同一隐层的隐层参数进行聚合，得到第一聚合参数，其中，第一聚合参数包括至少一个隐层聚合参数。

在一些实施例中，上述第二聚合模块403，可具体被配置为：

在一些实施例中，上述第二聚合模块403包括：

第一聚合单元，被配置为对每个参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合，得到第一批标准化层聚合参数；

第二聚合单元，被配置为对每个参与方的同一批标准化层的均值进行聚合，得到第二批标准化层聚合参数；

第三聚合单元，被配置为对每个参与方的同一批标准化层的方差进行聚合，得到第三批标准化层聚合参数。

在一些实施例中，上述第一聚合单元，可被具体配置为：

在一些实施例中，上述第二聚合单元，可被具体配置为：

在一些实施例中，上述第三聚合单元，可被具体配置为：

在一些实施例中，各个参与方可被配置为：

在接收到服务器返回的第一聚合参数和第二聚合参数后，根据第一聚合参数调整其网络结构中的隐层的隐层参数；根据第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图5是本公开实施例提供的一种联合学习参数聚合系统的结构示意图。如图5所示，该联合学习参数聚合系统包括服务器101，服务器包括上述的联合学习参数聚合装置；以及，与服务器101通信连接的N个参与方。

具体地，服务器101与每个参与方可通过网络、蓝牙等方式通信，各个参与方出于优化其某个算法模型或者想要构建某个算法模型等目的而参与联合学习，并在利用其自己构建的基本模型或者服务器下发的基本模型，利用其本地数据进行训练，并在每结束一批次数据的训练后，将其训练得到的隐层参数和批标准化层参数上传至服务器101，服务器101接收到各个参与方上传的隐层参数和批标准化层参数之后，对每个参与方上传的隐层参数进行聚合，得到第一聚合参数；并对每个参与方上传的批标准化层参数进行聚合，得到第二聚合参数；然后，将第一聚合参数和第二聚合参数返回至各个参与方，各个参与方在接收到服务器101返回的第一聚合参数和第二聚合参数之后，根据该第一聚合参数和第二聚合参数对应调整其算法模型中对应的网络结构层的原始参数，并利用更新后的算法模型网络结构继续训练下一批次的数据，直至达到模型收敛为止。

图6是本公开实施例提供的电子设备600的结构示意图。如图6所示，该实施例的电子设备600包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序603可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器602中，并由处理器601执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序603在电子设备600中的执行过程。

电子设备600可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备600可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备600的示例，并不构成对电子设备600的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器601可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器602可以是电子设备600的内部存储单元，例如，电子设备600的硬盘或内存。存储器602也可以是电子设备600的外部存储设备，例如，电子设备600上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器602还可以既包括电子设备600的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。存储器602还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

一种联合学习参数聚合方法，其特征在于，包括：

获取N个参与方上传的隐层参数和批标准化层参数，其中，所述批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；

对每个所述参与方上传的隐层参数进行聚合，得到第一聚合参数；

对每个所述参与方上传的批标准化层参数进行聚合，得到第二聚合参数；

将所述第一聚合参数和所述第二聚合参数返回至各个所述参与方，以使每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型。
根据权利要求1所述的联合学习参数聚合方法，其特征在于，所述N个参与方的算法模型的网络结构相同，所述网络结构包括输入层、批标准化层、隐层和输出层；

所述对每个所述参与方上传的隐层参数进行聚合，得到第一聚合参数，包括：

对每个所述参与方的同一隐层的隐层参数进行聚合，得到第一聚合参数，其中，所述第一聚合参数包括至少一个隐层聚合参数。
根据权利要求1所述的联合学习参数聚合方法，其特征在于，所述对每个所述参与方上传的批标准化层参数进行聚合，得到第二聚合参数，包括：

对每个所述参与方的同一批标准化层的批标准化层参数进行聚合，得到第二聚合参数，其中，所述第二聚合参数包括至少一个批标准化层聚合参数。
根据权利要求3所述的联合学习参数聚合方法，其特征在于，所述批标准化层聚合参数包括第一批标准化层聚合参数、第二批标准化层聚合参数和第三批标准化层聚合参数；

所述对每个所述参与方的同一批标准化层的批标准化层参数进行聚合，得到第二聚合参数，包括：

对每个所述参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合，得到第一批标准化层聚合参数；

对每个所述参与方的同一批标准化层的均值进行聚合，得到第二批标准化层聚合参数；

对每个所述参与方的同一批标准化层的方差进行聚合，得到第三批标准化层聚合参数。
根据权利要求4所述的联合学习参数聚合方法，其特征在于，所述对每个所述参与方的同一批标准化层的第一伸缩变化参数和第二伸缩变化参数进行聚合，得到第一批标准化层聚合参数，包括：

计算每个所述参与方的同一批标准化层的第一伸缩变化参数的均值，以及每个所述参与方的同一批标准化层的第二伸缩变化参数的均值，得到第一批标准化层聚合参数。
根据权利要求4所述的联合学习参数聚合方法，其特征在于，所述对每个所述参与方的同一批标准化层的均值进行聚合，得到第二批标准化层聚合参数，包括：

计算每个所述参与方的同一批标准化层的均值与其最小批数的第一乘积，并计算各个所述参与方的第一乘积之和；

计算所述N个参与方的最小批数的总和，根据所述第一乘积之和、所述最小批数的总和，计算得到第二批标准化层聚合参数。
根据权利要求4所述的联合学习参数聚合方法，其特征在于，所述对每个所述参与方的同一批标准化层的方差进行聚合，得到第三批标准化层聚合参数，包括：

计算每个所述参与方的同一批标准化层的均值与其方差的平方和，并计算所述平方和与所述参与方的最小批数的第二乘积，统计各个所述参与方的第二乘积之和；

计算所述N个参与方的最小批数的总和，根据所述第二乘积之和、所述最小批数的总和、以及所述第二批标准化层聚合参数，计算得到第三批标准化层聚合参数。
根据权利要求2所述的联合学习参数聚合方法，其特征在于，所述每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型，包括：

所述参与方，根据所述第一聚合参数调整其网络结构中的隐层的隐层参数；

所述参与方，根据所述第二聚合参数调整其网络结构中的批标准化层的批标准化层参数。
一种联合学习参数聚合装置，其特征在于，包括：

参数获取模块，被配置为获取N个参与方上传的隐层参数和批标准化层参数，其中，所述批标准化层参数包括均值、方差、最小批数、第一伸缩变化参数和第二伸缩变化参数，N为≥2的正整数；

第一聚合模块，被配置为对每个所述参与方上传的隐层参数进行聚合，得到第一聚合参数；

第二聚合模块，被配置为对每个所述参与方上传的批标准化层参数进行聚合，得到第二聚合参数；

参数返回模块，被配置为将所述第一聚合参数和所述第二聚合参数返回至各个所述参与方，以使每个所述参与方根据所述第一聚合参数和所述第二聚合参数调整优化其算法模型。
一种联合学习参数聚合系统，其特征在于，包括：

服务器，所述服务器包括如权利要求9所述的联合学习参数聚合装置；以及，

与所述服务器通信连接的N个参与方。