WO2022088541A1

WO2022088541A1 - 一种基于差分进化的联邦学习激励方法和系统

Info

Publication number: WO2022088541A1
Application number: PCT/CN2021/074276
Authority: WO
Inventors: 麦伟杰; 沈凤山; 危明铸; 袁峰
Original assignee: 广州中国科学院软件应用技术研究所
Priority date: 2020-10-28
Filing date: 2021-01-29
Publication date: 2022-05-05
Also published as: CN112329947A

Abstract

一种基于差分进化的联邦学习激励方法和系统，利用DE的全局优化能力及局部探测能力，使得联邦学习过程中随时间t转移，每一位参与方从联邦中获得的收益与其应得到的收益之间的差别及等待时间最小化，自动平衡联邦学习中各个参与方在实际收益和所得的回报期望差，有效促进参与方提供可靠的数据使得联邦学习长期、稳定的进行；有效地实现联邦学习总收益与各个参与方收益的动态调整，最大化可持续的经营目标，同时最小化参与方的不公平问题，避免了依靠人工干预。

Description

一种基于差分进化的联邦学习激励方法和系统

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种基于差分进化的联邦学习激励方法和系统。

背景技术

联邦学习(Federated machine learning/Federated Learning)，是指一种机器学习框架，能有效帮助多个节点(可以代表个人或机构)在满足数据隐私保护的要求下，联合训练模型。在联邦学习框架下，服务端下发模型参数给多个节点，每个节点将本地的训练样本输入模型进行一次训练，本次训练结束后，每个节点会基于本次训练结果计算得到的梯度。随后，服务端基于安全聚合(SA，Secure Aggregation)协议，可以计算得到各节点的梯度之和。

一般而言，训练人工智能应用模型所需要的数据量都是非常庞大的，但实现中与重大突发事件相关的数据信息为“小量数据”且零散地分布在不同的机构或区域，即此类数据要么规模较小；要么缺少标签或部分特征数值等重要信息；要么数据是受法律保护的隐私数据，这种现象称之为“数据孤岛”。由于这种现象的出现，导致进行联邦学习过程中需要各个参与方的共同参与才能训练出精确、可靠的模型。然而，如何使得参与方持续地参与到联邦学习中是一项重要的挑战，实现这一目标的关键是制定一种奖励方法，公平公正地与参与方分享联邦产生的利润。现有的方法为数据运营方，由产业联盟或者关键政府单位牵头成立，采用项目团队研发共享交换工具集与平台，负责数据的汇聚和管理，同时向数据的使用方收取一定比例的费用，数据的运营方、使用方构成了完整了产业体系，各单位在使用数据过程中支付相关的费用，并以资金回报的形式建立激励机制。但是，上述的激励方法很难做到随着时间的转移公平、公正、动态将联邦学习的收益合理地分配给各个参与方，并且存在大量的人工干预问题。

发明内容

本发明实施例提供一种基于差分进化的联邦学习激励方法和系统，3)有效地实现联邦学习总收益与各个参与方收益的动态调整，最大化可持续的经营目标，同时最小化参与方的不公平问题，避免了依靠人工干预。

第一方面，本发明实施例提供一种基于差分进化的联邦学习激励方法，包括：

步骤S1、获取联邦学习运行周期T中第i个周期中参与方i的期望损失偏移：

其中，U _i(t)为参与方i在第t个周期的收益；B(t)为总收益；C _i(t)为参与方i在第t个周期将数据贡献给联邦所需的代价；Y _i(t)为收益之间的差别；Q _i(t)表示等待联邦支付的时间队列；

步骤S2、初始化最大收益轮次T，收益B(t)，Y _i(t)＝0，Q _i(t)＝0；设定差分进化算法的缩放因子和交叉因子；将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’；

步骤S3、获取各参与方的C _i(t)和Q _i(t)；

步骤S4、以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，得到最小化期待损失和等待时间。

作为优选的，所述步骤S1中：

Y _i(t)为一个队列系统：

Y _i(t+1)＝max[(Y _i(t)+C _i(t)-u _i(t),0]

Q _i(t)为一个时间队列：

Q _i(t+1)＝max[(Q _i(t)+λ _i(t)-u _i(t),0]。

作为优选的，所述步骤S2中，设定差分进化算法的缩放因子F＝0.5，交叉因子CR＝0.5；

所述将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’，具体包括：

参与方的数目为n,将各个参与方的收益编码成种群的形成：

其中，每个参与方拥有的属性维度为D；把t＝0时的Y _i(t)、Q _i(t)、C _i(t)、λ _i(t)的值代入期望损失偏移中，记录初始的适宜度f(t)’的值。

作为优选的，所述获取各参与方的C _i(t)和Q _i(t)，具体包括：

从i＝1开始到n，i表示参与方，即种群个体；

如果参与方i贡献给联邦数据d _i(t)>0，则计算C _i(t)、Q _i(t)；

如果i没有提供任何数据，即C _i(t)＝0。

作为优选的，所述以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，具体包括：

步骤S41、在当代周期t中，对于每个个体u _i,t，从当前种群中随机选择三个个体向量u _r1,t，u _r2,t，u _r3,t，其中r ₁≠r ₂≠r ₃≠i，且r ₁，r ₂，r ₃∈{1,2,···,n}的随机整数；

按照下式进行变异操作生产变异个体u _i,t：

V _i,t＝u _r1,t+F·(u _r2,t-u _r3,t)

步骤S42、对目标向量u _i,t和变异变异向量V _i,t的各个分量进行随机重组交叉：

步骤S43、以个体的适应值为基础，对实验向量s _i,t U _i,g与目标向量u _i,t的适应度比较，当实验个体S _i优于目标个体u _i时，选中S _i进入下一代的进化，否则，选中u _i；

作为优选的，还包括：

步骤S5、更新参与方在t轮次的值，同时根据更新Y _i(t)、Q _i(t)的值。

作为优选的，还包括：

步骤S6、以目标函数最大的评价次数作为算法的终止条件；若满足条件，则输出最优个体，此值为最佳轮次方案解；否则，令t＝t+1，之后转向步骤S42。

第二方面，本发明实施例提供一种基于差分进化的联邦学习激励系统，包括：

期望损失模块，用于获取联邦学习运行周期T中第i个周期中参与方i的期望损失偏移：

初始化模块，初始化最大收益轮次T，收益B(t)，Y _i(t)＝0，Q _i(t)＝0；设定差分进化算法的缩放因子和交叉因子；将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’；

参与方计算模块，获取各参与方的C _i(t)和Q _i(t)；

差分进化处理模块，用于以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，得到最小化期待损失和等待时间。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述基于差分进化的联邦学习激励方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述基于差分进化的联邦学习激励方法的步骤。

本发明实施例提供的一种基于差分进化的联邦学习激励方法和系统，利用DE优秀的全局优化能力及局部探测能力，使得联邦学习过程中各个参与方随时间t转移(假设以月为周期)，每一位参与方从联邦中获得的收益与其应得到的收益之间的差别(期望损失)，最小化参与方之间“期待损失与等待时间”，自动平衡联邦学习中各个参与方在实际收益和所得的回报期望差，有效促进参与方提供可靠的数据使得联邦学习长期、稳定的进行；有效地实现联邦学习总收益与各个参与方收益的动态调整，最大化可持续的经营目标，同时最小化参与方的不公平问题，避免了依靠人工干预。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的基于差分进化的联邦学习激励方法流程框图；

图2为根据本发明实施例的服务器示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列部件或单元的系统、产品或设备没有限定于已列出的部件或单元，而是可选地还包括没有列出的部件或单元，或可选地还包括对于这些产品或设备固有的其它部件或单元。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

图1为本发明实施例提供一种基于差分进化的联邦学习激励方法，包括：

其中，U _i(t)为参与方i在第t个周期的收益；B(t)为总收益；C _i(t)为参与方i在第t个周期中将数据d(t)贡献给联邦所需的代价，假设已经可用；Y _i(t)为收益之间的差别；Q _i(t)表示等待联邦支付的时间队列；

步骤S3、获取各参与方的C _i(t)和Q _i(t)；

作为优选的，所述步骤S1中：

Y _i(t)为一个队列系统：

Y _i(t+1)＝max[(Y _i(t)+C _i(t)-u _i(t),0] (4)

Q _i(t)为一个时间队列：

Q _i(t+1)＝max[(Q _i(t)+λ _i(t)-u _i(t),0] (5)

在上述实施例的基础上，所述步骤S2中，设定差分进化算法的缩放因子F＝0.5，交叉因子CR＝0.5；

参与方的数目为n,将各个参与方的收益编码成种群的形成：

其中，每个参与方拥有的属性维度为D；把t＝0时的Y _i(t)、Q _i(t)、C _i(t)、λ _i(t)的值代入式(1)中，记录初始的适宜度f(t)’的值。

在上述实施例的基础上，所述获取各参与方的C _i(t)和Q _i(t)，具体包括：

从i＝1开始到n，i表示参与方，即种群个体；

如果参与方i贡献给联邦数据d _i(t)>0，则计算C _i(t)、Q _i(t)；

如果i没有提供任何数据，即C _i(t)＝0。

在上述实施例的基础上，所述以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，具体包括：

按照下式进行变异操作生产变异个体u _i,t：

V _i,t＝u _r1,t+F·(u _r2,t-u _r3,t) (6)

DE的交叉操作主要是为了提高种群潜在的多样性，通常的对目标向量u _i,t和变异变异向量V _i,t的各个分量进行随机重组实现，但必须确保实验向量S _i,t至少有一分量是来自于变异向量V _i,t，其它分量由参数CR控制。交叉操作按如下(7)式进行。

选择操作：根据“贪心选择”方案，DE的选择操作是以个体的适应值(本发明指参与方获得收益)为基础而进行的，实质上就是实验向量s _i,t U _i,g与目标向量u _i,t的适应度比较。即当实验个体S _i优于目标个体u _i时，S _i会被选中进入下一代的进化，否则，u _i会被选中。选择操作按(8)式进行计算。

在上述实施例的基础上，还包括：

步骤S6、以目标函数最大的评价次数作为算法的终止条件， MAX_FES＝5000*，D为自变量U的维度为D；若满足条件，则输出最优个体，此值为最佳轮次方案解；否则，令t＝t+1，之后转向步骤S42。

本发明实施例还提供一种基于差分进化的联邦学习激励系统，基于上述各实施例中的基于差分进化的联邦学习激励方法，包括：

参与方计算模块，获取各参与方的C _i(t)和Q _i(t)；

基于相同的构思，本发明实施例还提供了一种服务器，如图2所示，该服务器可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如上述各实施例所述基于差分进化的联邦学习激励方法的步骤。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

基于相同的构思，本发明实施例还提供一种非暂态计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包含至少一段代码，该至少一段代码可由主控设备执行，以控制主控设备用以实现如上述各实施例所述基于差分进化的联邦学习激励方法的步骤。

基于相同的技术构思，本申请实施例还提供一种计算机程序，当该计算机程序被主控设备执行时，用以实现上述方法实施例。

所述程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

基于相同的技术构思，本申请实施例还提供一种处理器，该处理器用以实现上述方法实施例。上述处理器可以为芯片。

综上所述，本发明实施例提供的一种基于差分进化的联邦学习激励方法和系统，利用DE优秀的全局优化能力及局部探测能力，使得联邦学习过程中各个参与方随时间t转移(假设以月为周期)，每一位参与方从联邦中获得的收益与其应得到的收益之间的差别(期望损失)，最小化参与方之间“期待损失与等待时间”，自动平衡联邦学习中各个参与方在实际收益和所得的回报期望差，有效促进参与方提供可靠的数据使得联邦学习长期、稳定的进行；有效地实现联邦学习总收益与各个参与方收益的动态调整，最大化可持续的经营目标，同时最小化参与方的不公平问题，避免了依靠人工干预。

本发明的各实施方式可以任意进行组合，以实现不同的技术效果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid StateDisk)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种基于差分进化的联邦学习激励方法，其特征在于，包括：

步骤S1、获取联邦学习运行周期T中第i个周期中参与方i的期望损失偏移：

其中，U _i(t)为参与方i在第t个周期的收益；B(t)为总收益；C _i(t)为参与方i在第t个周期将数据贡献给联邦所需的代价；Y _i(t)为收益之间的差别；Q _i(t)表示等待联邦支付的时间队列；

步骤S2、初始化最大收益轮次T，收益B(t)，Y _i(t)＝0，Q _i(t)＝0；设定差分进化算法的缩放因子和交叉因子；将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’；

步骤S3、获取各参与方的C _i(t)和Q _i(t)；

步骤S4、以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，得到最小化期待损失和等待时间。
根据权利要求1所述的基于差分进化的联邦学习激励方法，其特征在于，所述步骤S1中：

Y _i(t)为一个队列系统：

Y _i(t+1)＝max[(Y _i(t)+C _i(t)-u _i(t),0]

Q _i(t)为一个时间队列：

Q _i(t+1)＝max[(Q _i(t)+λ _i(t)-u _i(t),0]。
根据权利要求2所述的基于差分进化的联邦学习激励方法，其特征在于，所述步骤S2中，设定差分进化算法的缩放因子F＝0.5，交叉因子CR＝0.5；

所述将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’，具体包括：

参与方的数目为n,将各个参与方的收益编码成种群的形成：

其中，每个参与方拥有的属性维度为D；把t＝0时的Y _i(t)、Q _i(t)、C _i(t)、λ _i(t)的值代入期望损失偏移中，记录初始的适宜度f(t)’的值。
根据权利要求1所述的基于差分进化的联邦学习激励方法，其特征在于，所述获取各参与方的C _i(t)和Q _i(t)，具体包括：

从i＝1开始到n，i表示参与方，即种群个体；

如果参与方i贡献给联邦数据d _i(t)>0，则计算C _i(t)、Q _i(t)；

如果i没有提供任何数据，即C _i(t)＝0。
根据权利要求3所述的基于差分进化的联邦学习激励方法，其特征在于，所述以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，具体包括：

步骤S41、在当代周期t中，对于每个个体u _i,t，从当前种群中随机选择三个个体向量u _r1,t，u _r2,t，u _r3,t，其中r ₁≠r ₂≠r ₃≠i，且r ₁，r ₂，r ₃∈{1,2,···,n}的随机整数；

按照下式进行变异操作生产变异个体u _i,t：

V _i,t＝u _r1,t+F·(u _r2,t-u _r3,t)

步骤S42、对目标向量u _i,t和变异变异向量V _i,t的各个分量进行随机重组交叉：

步骤S43、以个体的适应值为基础，对实验向量s _i,t U _i,g与目标向量u _i,t的适应度比较，当实验个体S _i优于目标个体u _i时，选中S _i进入下一代的进化，否则，选中u _i；
根据权利要求5所述的基于差分进化的联邦学习激励方法，其特征在于，还包括：

步骤S5、更新参与方在t轮次的值，同时根据更新Y _i(t)、Q _i(t)的值。
根据权利要求6所述的基于差分进化的联邦学习激励方法，其特征在于，还包括：

步骤S6、以目标函数最大的评价次数作为算法的终止条件；若满足条件，则输出最优个体，此值为最佳轮次方案解；否则，令t＝t+1，之后转向步骤S42。
一种基于差分进化的联邦学习激励系统，其特征在于，包括：

期望损失模块，用于获取联邦学习运行周期T中第i个周期中参与方i的期望损失偏移：

其中，U _i(t)为参与方i在第t个周期的收益；B(t)为总收益；C _i(t)为参与方i在第t个周期将数据贡献给联邦所需的代价；Y _i(t)为收益之间的差别；Q _i(t)表示等待联邦支付的时间队列；

初始化模块，初始化最大收益轮次T，收益B(t)，Y _i(t)＝0，Q _i(t)＝0；设定差分进化算法的缩放因子和交叉因子；将各参与方的收益编码成种群形式，记录得到初始的适宜度f(t)’；

参与方计算模块，获取各参与方的C _i(t)和Q _i(t)；

差分进化处理模块，用于以f(t)为目标函数，以U _i(t)、Y _i(t)、Q _i(t)、λ _i(t)为约束条件，进行差分进化处理，得到最小化期待损失和等待时间。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于差分进化的联邦学习激励方法的步骤。
一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于差分进化的联邦学习激励方法的步骤。