WO2023082552A1

WO2023082552A1 - 分布式模型训练方法、系统及相关装置

Info

Publication number: WO2023082552A1
Application number: PCT/CN2022/088702
Authority: WO
Inventors: 任涛; 何航; 谷宁波; 牛建伟; 戴彬; 邱源; 胡哲源; 胡舒程; 姚依明; 李青锋
Original assignee: 北京航空航天大学杭州创新研究院
Priority date: 2021-11-10
Filing date: 2022-04-24
Publication date: 2023-05-19
Also published as: CN113762512B; CN113762512A

Abstract

本申请提供分布式模型训练方法、系统及相关装置中，该系统部署包括管理设备以及多个终端设备且部署有DDPG模型；DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络；而用于训练第二在线网络的策略样本采集自经验池，由各终端设备通过自身部署的第一在线网络生成，因此，策略样本的状态空间仅涉及单个终端设备，因此，该方法不仅能够避免采集全局状态所需要的耗时，而且还能降低状态空间的维度。

Description

分布式模型训练方法、系统及相关装置

相关申请的交叉引用

本申请要求于2021年11月10日提交中国国家知识产权局的申请号为202111323472.7、名称为“分布式模型训练方法、系统及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及控制领域，具体而言，涉及一种分布式模型训练方法、系统及相关装置。

背景技术

在基于边缘计算的任务卸载场景中，为了提高服务质量，需要根据各边缘设备的状态，制定任务卸载策略。该任务卸载策略用于将边缘设备中的终端任务进行重新分配。例如，将终端任务在边缘设备本地执行或者卸载至云端的服务器执行。

现有的研究与发明大多是完全集中式的调度方法。即需要获取全部边缘设备的全局状态信息之后，基于该全局状态信息对所有边缘设备的终端任务进行统一调度。然而，发明人研究发现，随着边缘设备的增加，集中式调度方法难以在同一个时间内收集所需的全局信息，并在有限的时间内制定任务卸载策略，极大的影响了算法的收敛效率。

发明内容

为了克服相关技术中的至少一个不足，本申请实施例提供一种分布式模型训练方法、系统及相关装置，可以包括：

本申请的一些实施例提供一种分布式模型训练方法，应用于部署有DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)模型的决策系统，所述决策系统包括管理设备以及多个终端设备，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法可以包括：

执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

所述模型训练流程，可以包括：

针对每个所述终端设备，所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

所述终端设备将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

所述管理设备对所述经验池进行采样，获得策略样本；

所述管理设备根据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

当满足预设同步条件，则所述管理设备将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的参数。

在一些可选的实施方式中，所述动作可以包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。

在一些可选的实施方式中，所述表达式R _t还可以配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件可以包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。

本申请的另一些实施例提供一种决策系统，所述决策系统部署有DDPG模型，所述决策系统可以包括管理设备以及多个终端设备，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络；

所述模型训练流程，可以包括：

针对每个所述终端设备，所述终端设备用于根据自身的第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

所述终端设备用于将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

所述管理设备用于对所述经验池进行采样，获得策略样本；

所述管理设备还用于根据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。

所述约束条件可以包括：

执行所述终端任务的延时不能超过时长阈值；

本申请的又一些实施例提供一种分布式模型训练方法，应用于决策系统中的管理设备，所述管理设备与所述决策系统中的多个终端设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法可以包括：

所述模型训练流程，包括：

对经验池进行采样，获得策略样本，其中，所述经验池用于存储每个所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成的策略经验，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

当满足预设同步条件，则将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

所述约束条件可以包括：

执行所述终端任务的延时不能超过时长阈值；

本申请的再一些实施例提供一种分布式模型训练方法，应用于决策系统中的终端设备，所述终端设备与所述决策系统中的管理设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法可以包括：

获取自身的第一设备状态；

根据所述第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

接收调整后的第二在线网络，其中，所述管理设备根据策略样本，通过所述Critic网络调整所述第二在线网络的模型参数，获得所述调整后的第二在线网络，所述策略样本采样自所述经验池。

将所述调整后的第二在线网络同步至所述第一在线网络，以使同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

所述约束条件可以包括：

执行所述终端任务的延时不能超过时长阈值；

本申请的再又一些本实施例提供一种分布式模型训练装置，所述管理设备与所述决策系统中的多个终端设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述分布式模型训练装置可以包括：

所述模型迭代模块，可以配置成用于执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

在所述模型训练流程，所述分布式模型训练装置还包括：

经验采样模块，可以配置成用于对经验池进行采样，获得策略样本，其中，所述经验池用于存储每个所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成的策略经验，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

模型调整模块，可以配置成用于据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

第一同步模块，可以配置成用于当满足预设同步条件，则将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的参数。

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

所述约束条件可以包括：

执行所述终端任务的延时不能超过时长阈值；

本申请的又再一些实施例提供一种分布式模型训练装置，应用于决策系统中的终端设备，所述终端设备与所述决策系统中的管理设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述分布式模型训练装置可以包括：

状态获取模块，可以配置成用于获取自身的第一设备状态；

策略生成模块，可以配置成用于根据所述第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

经验生成模块，可以配置成用于将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

第二同步模块，可以配置成用于接收调整后的第二在线网络，其中，所述管理设备根据策略样本，通过所述Critic网络调整所述第二在线网络的模型参数，获得所述调整后的第二在线网络，所述策略样本采样自所述经验池。

所述第二同步模块，还可以配置成用于将所述调整后的第二在线网络同步至所述第一在线网络，以使同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。

式中，

表示终端设备u在时间片t执行所述终端任务的任务延时，

所述约束条件可以包括：

执行所述终端任务的延时不能超过时长阈值；

本申请的又一些实施例提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现管理设备或者终端设备运行的分布式模型训练方法。

本申请的其他一些实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现管理设备或者终端设备运行的分布式模型训练方法。

相对于相关技术而言，本申请至少具有以下有益效果：

本实施例提供的部署有DDPG模型的策略系统中，包括管理设备以及多个终端设备。DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。而用于训练第二在线网络的策略样本采集自经验池，由各终端设备通过自身部署的第一在线网络生成，因此，策略样本的状态空间仅涉及单个终端设备，因此，该方法不仅能够避免采集全局状态所需要的耗时，而且还能降低状态空间的维度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的策略系统结构示意图；

图2为本申请实施例提供的应用于策略系统的分布式模型训练方法；

图3为本申请实施例提供的DDPG模型示意图；

图4为本申请实施例提供的应用于管理设备的分布式模型训练方法；

图5为本申请实施例提供的应用于管理设备的分布式模型训练装置；

图6为本申请实施例提供的应用于终端设备的分布式模型训练方法；

图7为本申请实施例提供的应用于终端设备的分布式模型训练装置；

图8为本申请实施例提供的电子设备结构示意图。

图标：101-模型迭代模块；102-经验采样模块；103-模型调整模块；104-第一同步模块；201-状态获取模块；202-策略生成模块；203-经验生成模块；204-第二同步模块；320-存储器；330-处理器；340-通信单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

在基于边缘计算的任务卸载场景中，为了提高服务质量，需要根据各边缘设备的状态，制定任务卸载策略。

例如，随着智能设备和移动应用的快速增长，越来越多的计算密集型应用要求更低的延迟。在MEC(Mobile Edge Computing，移动边缘计算)网络系统中，智能设备作为该网络中的边缘设备，可以根据任务要求、本地计算资源、基站计算资源等选择本地执行终端任务或者将终端任务卸载到服务器上远程执行，从而减少应用的体验延迟，提高网络的服务质量。

因此，有效的任务卸载策略对于MEC网络系统中实现令人满意的服务质量尤为重要。近年的相关技术中，提出了基于强化学习为MEC网络系统获得近似最优的计算卸载调度策略的技术。例如，基于DDQN(Double Deep Q Network)的任务卸载策略确定算法，该算法根据任务队列、能量队列和无线信道条件最大化累积MEC效用；基于DRL(Deep Reinforcement Learning)的任务卸载策略确定算法，该算法可以获得近似最优的任务卸载和资源分配策略，无需使用传统数值算法解决难以求解的优化问题。

或者，使用基于搜索的算法(如启发式算法、坐标下降法、遗传算法等)进行求解。例如，使用启发式算法在MEC网络系统中不断迭代调整智能设备的二元卸载决策，使得整个移动边缘计算系统的时延和能量消耗最小。

然而，上述方法大多集中在完全集中式的调度方法上，即在获取MEC网络系统中所有智能设备全局状态信息之后，对所有智能设备的任务卸载进行统一调度。由于全局状态信息的维度过大，可能会面临搜索空间规模过大而导致的维数灾难问题；其次，用于制定任务卸载策略的管理设备难以在一个时间片内收集所需的全局信息，并在有限的时间内学习到合适的任务卸载策略。

鉴于此，为了至少部分解决上述问题，本实施例提供一种分布式模型训练方法，应用于部署有DDPG模型的策略系统。该策略系统不仅限于上述MEC网络系统，还可以是安防领域的监控系统、人流激增场景下的通信系统(例如，足球场)。

由于本实施例涉及到DDPG模型，为便于本领域技术人员实施本方案，下面先对DDPG模型进行介绍。

首先，DDPG模型属于以神经网络方式实现的强化学习方法，因此，DDPG模型同样涉及强化学习领域的状态、策略、动作、即时奖励、Q值(又名动作价值，表示在状态s _t下，基于策略μ采取动作a _t后，且如果持续执行策略μ的情况下，所获得奖励的期望值)。由于，DDPG模型基于DQN模型发展而来，因此，与DQN模型类似，DDPG模型同样使用一个神经网络拟合智能体的Q值。即针对智能体当前状态以及当前状态采取的动作，通过该神经网络对其进行评价，评价结果即为Q值。

而该神经网络在DDPG模型中被称为Critic网络。与DQN模型不同的是，DQN模型中采用贪婪策略选择Q值最大的动作，而DDPG模型则通过Actor网络生成当前状态应该采取的动作。

Actor网络与Critic网络的关系具体表现为：Actor网络用于拟合策略函数，即能够根据智能体的当前状态，生成当前状态下智能体应该采取的动作。Critic网络用于拟合动作价值函数，即能够确定Actor网络基于当前状态所生成动作的Q值。

为使Actor网络经训练后能够拟合策略函数，Critic网络经训练后能够拟合动Q值函数，Actor网络被设计为包括Actor在线网络以及Actor目标网络；Critic网络被设计为包括Critic目标网络与Critic在线网络。相关技术中，通常将DDPG模型中的上述Actor在线网络、Actor目标网络、Critic目标网络、Critic在线网络部署到同一设备进行训练。

下面提供一个示例，详细阐述在相关技术中，Actor在线网络、Actor目标网络、Critic目标网络、Critic在线网络之间的关系：

1、Actor在线网络基于智能体当前状态s，生成当前状态下智能体应该采取的动作a，并依据即时奖励函数计算在当前状态s下执行动作a后，产生的即时奖励r，以及执行动作a后智能体新的状态s'。

2、将(s,a,r,s')作为一组策略经验，存放至经验池，直到经验池中策略经验的数量达到设定的数量阈值。

3、从经验池中采集预设数量的策略经验，按照Q值函数的贝尔曼方程确定Actor在线网络的训练损失L _Q，并依据训练损失L _Q通过反向梯度传播算法(Loss Gradient)调整Actor在线网络的模型参数；其中，训练损失L _Q的表达式可以表示为：

式中，N表示策略经验的预设数量，Q(s _i,a _i)表示将第i组策略经验(s _i,a _i,ri,s _i')中的(s _i,a _i)输入Critic在线网络，由Critic在线网络拟合出的Q值；

y _i表示(s _i,a _i)对应Q值的贝尔曼方程表达式，其中，a'表示在状态s _i'下所有可能采取的动作，

表示所有动作中的最大Q值，而这个最大Q值通过将(s _i',a _i')输入到Critic目标网络获得，a _i'由Actor目标网络依据状态s _i'+∈生成，其中，∈表示引入的噪声。

4、依据Actor网络确定出的Q值，以策略梯度的方式调整在Actor在线网络的模型参数。

5、当满足预设同步条件时，将Actor在线网络的模型参数同步至Actor目标网络；将Critic在线网络的模型参数同步至Critic目标网络。

6、迭代上述步骤1-5，直到DDPG模型满足收敛条件。

不同于上述相关技术中的训练方式，本实施例将DDPG模型部署到策略系统，对其进行分布式训练。如图1所示，决策系统包括管理设备以及多个终端设备，DDPG模型包括Critic网络以及Actor网络(ActorNetwork)，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，将其作为机强化学习模型中的智能体；而管理设备部署有Critic网络以及第二在线网络。由于每个终端设备所部署的第一在线网络属于Actor网络，因此，终端设备可以基于自身的当前状态，生成相应的动作，以克服集中式的调度方法所存在缺陷。

其中，在一些实施方式中，该管理设备可以是与多个终端设备通信连接的服务器。例如，Web(网站)服务器、FTP(File Transfer Protocol，文件传输协议)服务器、数据处理服务器等。此外，该服务器可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器可以是分布式系统)。在一些实施例中，服务器100相对于用户终端，可以是本地的、也可以是远程的。在一些实施例中，服务器100可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等，或者它们的任意组合。在一些实施例中，服务器100可以在具有一个或多个组件的电子设备上实现。

需要说明的是，在一些实施方式中，该管理设备可以作为终端设备卸载终端任务的服务器。当然，在一些实施方式中，用于终端设备卸载终端任务的对象可以是与管理设备不同的其他服务器。

该终端设备可以是，但不限于，移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(Point of Sale，POS)设备等，或其任意组合。

基于上述设计，下面结合图2所示的流程图对应用于策略系统的分布式模型训练方法进行详细阐述。如图2所示，该方法可以包括：

S101A，针对每个终端设备，终端设备根据自身的第一设备状态，通过第一在线网络生成与第一设备状态相对应的动作。

相较于一些相关技术中，将Actor网络与Critic网络部署到同一设备，然后，采用全集中式的调度方法为所有的终端任务生成调度策略；需要获取全部终端设备各自的第一设备状态。本实施例中，Actor网络包括第一在线网络以及第二在线网络，而第一在线网络与第二在线网络具有相同的网络结构，且满足同步关系；并且，将第一在线网络部署到每个终端设备，使得而每个终端设备生成与自身第一状态相对应的动作时，只需要关注自身的状态信息。

S102A，终端设备将第一设备状态对应的策略经验存放至经验池。

其中，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励。需要说明的是，为了便于区分终端设备的当前状态，以及执行动作后的状态；本实例中，将终端设备的当前状态称作第一设备状态，将执行动作后的状态称作第二设备状态。

在一些实施方式中，该经验池(Experience Buffer)可以是管理设备提供的预设存储空间，用于存储预设数量的策略经验。因此，终端设备可以将构建好的策略经验通过网络发送给管理设备，由管理设备将其存储至该预设存储空间。

此外，本实施例还针对策略系统的使用场景设计有相应的即时奖励函数；因此，终端设备可以将第一设备状态、第一设备状态下采取的动作以及第二设备状态发送给管理设备，使得管理设备根据第一设备状态、第一设备状态以及第二设备状态，通过即时奖励函数确定该动作的即时奖励。

在一些实施方式中，当上述决策系统为任务卸载系统，终端设备在第一设备状态需要执行的动作，包括终端任务本地执行或者卸载至服务器执行。

针对该任务卸载系统，终端设备将第一设备状态对应的策略经验存放至经验池之前，管理设备通过表达式R _t确定动作的即时奖励。即R _t为即时奖励函数，相应的表达式为：

式中，

表示执行终端任务的任务延时，

表示执行终端任务的任务能耗，λ表示预设权重。

此外，本实施例还针对该时奖励函数R _t设计有约束条件，当终端设备在执行动作后，若满足任意一条的约束条件时，则生成惩罚因子。该惩罚因子用于减小即时奖励。

约束条件包括：

执行终端任务需要的计算资源不能超过终端设备与服务器各自的资源上限；

终端任务只允许在用户终端执行或者服务器执行；

执行终端任务的延时不能超过时长阈值；

执行终端任务的能耗不能超过终端设备与服务器各自的储能上限。

S103A，管理设备对经验池进行采样，获得策略样本。

S104A，管理设备根据策略样本，通过Critic网络调整第二在线网络的模型参数。

S105A，当满足预设同步条件，则管理设备将调整后的第二在线网络同步至每个第一在线网络，以使每个同步后的第一在线网络与调整后的第二在线网络具有相同的参数。

在一些实施方式中，预设同步条件为模型训练流程的执行次数达到预设迭代周期。例如，当Actor目标网络的模型参数经过5轮的迭代后，将第5次迭代后的Actor目标网络同步至每个终端设备。由于Actor目标网络与每个终端设备中的Actor在线网络具有相同的网络结构，因此，管理设备只需将5次迭代后的Actor目标网络的模型参数下发至每个终端设备。

S106A，管理设备判断该DDPG模型是否满足预设收敛条件；若满足，则执行步骤S107A，获得预先训练的DDPG模型，若不满足，则返回S101A再次进行迭代。

如此，本实施例提供的部署有DDPG模型的策略系统中，包括管理设备以及多个终端设备。DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。而用于训练第二在线网络的策略样本采集自经验池，由各终端设备通过自身部署的第一在线网络生成，因此，策略样本的状态空间仅涉及单个终端设备，因此，该方法不仅能够避免采集全局状态所需要的耗时，而且还能降低状态空间的维度。

此外，管理设备基于策略池采集的策略样本，训练第二在线网络。由于该经验池中存储有全部终端设备产生的策略经验，因此，管理设备从经验池中采样的策略样本能够兼顾策略系统的全局信息，使得第二在线网络能够趋近于收敛；而第一在线网络与第二在线网络均属于Actor网络，且保持同步关系。因此，同步后的第一在线网络能够基于终端设备自身的状态信息，生成使得整个决策系统成本最小的动作。

假定该任务卸载系统为MEC网络系统，其中，MEC网络系统中的基站为任务卸载系统管理设备，MEC网络系统中的多个用户设备对应任务卸载系统中的多个终端设备。下面以MEC网络系统为例，对上述分布式模型训练方法进行详细示例性说明。

而应该理解的是，在对分布式模型训练方法进行介绍之前，需要先建立MEC网络系统的数学模型，具体包括系统模型、通信模型、计算模型，下面对这些数学模型进行详细说明：

1.系统模型

在MEC网络中，包含一个基站BS(Base Station)和多个用户设备UDs(User Devices)，将多个用户设备表示为集合U：

U＝(1,2,3...,u)；

将系统时间均分为多个时间片，表示为事件片集合T：

T＝(1,2,3...,t)；

建立基站BS以及多个用户设备所处环境的空间模型，该环境的二维平面以坐标xy表示，用户设备u在时间片t的位置

和基站BS的位置L ^BS分别为：

LBS＝{xBS,yBS}；

并且，假定基站BS的高度为H，用户设备u存储的能量表示为E ^u；每个时间片t，用户设备u的终端任务表示为

其中，

表示终端任务的大小(单位：bits)，

表示完成该终端任务所需的CPU周期数，

表示终端任务允许的最大延迟。

每个用户设备可以通过无线信道与基站BS进行通信，这使得用户设备u可以将其计算密集型任务

传输到基站BS上进行计算。本实施例采用二元卸载策略，即任务

只允许在在用户设备u上执行，或者在基站BS上执行。

的卸载结果表示为

当

表示将终端任务卸载到基站BS上执行；当

则表示终端任务在本地执行。

2.通信模型

在时间片t，用户设备u到基站BS之间无线数据传输速率为：

其中，

表示用户设备u在时间片t的无线传输功率，

表示在时间片t，用户设备u和BS之间的无线信道功率增益，σ ²表示背景噪声功率；并且，假定任意一个时间片，所有用户设备的噪声相同。

本实施例中，还约定在每个时间片t中，用户设备u只允许执行无线数据传输，且

小于最大功率p ^max，即：

无线信道的大规模路径损失衰减函数可以表示为：

其中，

表示在时间片t，用户设备u和BS之间的欧式距离，

表示路径损失指数。

因此，用户设备u将终端任务

卸载到基站BS计算，所需要的时间成本

和能量成本分

别可以表示为：

此外，考虑终端任务的计算结果远小于终端任务的大小，因此，为了简化运算模型，不考虑从基站BS下载终端任务的计算结果所需的时间和能量。

3.计算模型

正如前文所约定的，用户设备u产生的终端任务只允许在用户设备u上执行，或者卸载到基站BS上执行。

对于选择在用户设备u上执行任务

所需要的时间可以表示为：

其中，

表示用户设备u在时间片t所分配的计算资源，其中，

满足以下限制条件：

其中，

表示时间片t所能够分配的最大计算资源。

对于选择在用户设备u上执行任务

所需要的能量可以表示为：

其中，κ ^u和ν _u是与用户设备u的芯片架构相关的计算系数。

对于选择将终端任务

卸载到基站BS进行计算，终端任务

所需要的时间可以表示为：

其中，

表示基站BS在时间片t分配给用户设备u的计算资源，应满足以下限制条件：

其中，F ^ES表示基站BS最大可用计算资源。考虑到基站BS有充足的能量供应，因此忽略计算终端任务所消耗的能量。此外，本实施例还约定每个用户设备在等待基站BS处理终端任务期间不消耗能量。

在每个时间片t，约定系统成本为终端任务

的任务延迟和用户设备u的能量消耗，分别定义为：

因此，为了统筹任务延迟和能量消耗两种系统成本，以预设权重λ对两者进行加权求和：

则基于上述数学模型，所有用户设备在时期T内的平均系统成本C ^sys可以表示为：

本实施例的目的则在于，训练DDPG模型，使得该模型为每个用户设备制定任务卸载策略

使得所有用户设备在时期T内的平均系统成本最小，因此，可以将MEC网络系统的目标函数P表示为：

需要满足以下约束条件C1-C6：

其中，C1和C2分别表示用户设备和基站BS的计算资源约束；C3表示二元卸载约束，即终端任务

只允许选择在用户终端本地计算，或者将终端任务卸载到基站BS上运行；C5表示终端任务

的任务延迟不应大于其最大允许延迟；C6表示用户设备u从第一个时间片到当前时间片t'总的能量消耗不应该超过用户设备u所存储的最大可用能量。

基于上述的系统模型、通信模型、计算模型，本实施例针对MEC网络系统的网络平均系统成本的优化问题设计基于DDPG模型的分布式模型训练框架。如图3所示，与常规的强化学习类似，同样需要先确定DDPG模型下的状态、动作和即时奖励，相关定义如下：

状态：由于本实施例中的对DDPG模型进行分布式训练，用户设备u只能观察来自环境的有限的状态信息。该状态信息可以包括用户设备u的当前位置，最新到达的任务以及用户设备u的剩余能量。因此，在时间片t，该用户设备u的状态信息s _t可以表示为：

其中，

的表达式为：

动作：同样由于本实施例中的对DDPG模型进行分布式训练，因此，用户设备u只能决定自己的调度动作。因此，用户设备u在时间片t的动作a _t可以表示为：

奖励：用户设备u在每个时间片从环境得到的即时奖励与目标函数P的优化目标相关，而目标函数P是为了使平均系统成本C ^sys最小。因此，将即时奖励函数以R _t表示，将计算得到的即时奖励以r _t表示，其中，R _t的表达式为：

然后，针对MEC网络系统平均系统成本的优化问题，设计DDPG模型的训练损失函数和更新策略：

在强化学习中，智能体可以通过学习与环境的交互经验，以达到最大化长期奖励(累计所有时间片的奖励)的目标，从而获得在每个时间片下的最优动作策略。根据强化学习的理论，状态s _t下执行动作a _t的长期奖励可以用Q函数的贝尔曼方程来表示，即：

其中s _t+1是相较于s _t在t+1时间片的状态，a'是在状态s _t+1下所有可能的动作。γ是未来奖励的折扣因子，满足0≤γ≤1。

在DDPG模型中，使用神经网络(Neural Network)来近似Q函数。将该神经网络称为Q网络，假定Q网络的参数是θ，则可以将Q网络表示第为Q ^θ(s _t,a _t)。为了优化Q网络，用于训练该Q网络的样本数据，产生自智能体和环境的交互。假定将样本数据称为策略样本，表示为(s _t,a _t,r _t,s _t+1)。该Q网络的损失函数可以表示为：

式中，Q(s _i,a _i)表示Q网络的输出，y _i表示参考Q值；其中N是策略样本的数量。

由于动作值的连续性，在DDPG模型中发明采用了Actor-Critic框架，其中，Actor为策略网络，Critic为Q网络。策略网络来近似策略函数a _t＝π ^ω(s _t)，采用基于策略样本的策略梯度(Policy Gradient)进行更新，策略梯度的表达式为：

正如前文关于DDPG模型的介绍，为使DDPG模型训练过程中保持稳定，以避免出现震荡，Actor网络包括Actor在线网络以及Actor目标网络；Critic中包括Critic在线网络以及Critic目标网络。而本实施例中，为了实现对DDPG模型进行分布式训练，Actor在线网络包括第一在线网络以及第二在线网络。其中，第一在线网络部署在每个用户设备，第二在线网络则与Actor目标网络一起部署在基站BS。第二在线网络与Actor目标网络相互配合，采用策略梯度的方式调整二在线网络的模型参数，并与第一在线网络保持同步。

此外，与常规DDPG模型不同的是，使用了两重Critic网络减小Q值的过度估计，并采取剪辑的双Q学习和延迟策略更新来避免高方差。

相应的实施方式请继续参见图3，Critic在线网络包括Critic1、Critic2；Critic目标网络包括Target Critic1、Target Critic2。因此，针对同一策略样本，Target Critic1与Target Critic2分别会给出该策略样本的Q值，分别为Q1和Q2；Critic1、Critic2分别会给出该策略样本的Q值，分别为Q1和Q2。然后，通过min{Q ₁,Q ₂}选取其中最小的一个Q值，分别与Q1和Q2进行比较，获得Critic1的训练损失

Critic2的训练损失

然后，依据

更新Critic1的模型参数；依据

更新Critic2的模型参数；当满足更新周期时，依据Critic1的模型参数对Target Critic1的模型参数进行更新；依据Critic2的模型参数对Target Critic2进行更新。

基于上述设计，对应用于该MEC网络系统的DDPG模型进行训练，直至满足预设收敛条件。继续参见图3，其训练过程，可以包括：

1、在每个时间片中，每个用户设备分布式运行，且接收自身所部署Actor在线网络生成的任务卸载策略。用户设备采集从MEC网络系统观察到自身的状态

Actor在线网络根据策略

生成当前应该采取的动作

用户设备u执行动作

后，用户设备u会从MEC网络系统各中收到即时奖励

以及下一个状态

用户设备u将上述信息打包成策略经验

送入到经验池中。

2、从经验池中采样一小批次的样本策略

用于训练Critic网络(Critic1、Critic2)和Actor在线网络。而其他三个目标模型(Target Critic1、Target Critic2、Target Actor)无需通过训练来更新，仅通过周期性地同步Critic1、Critic2以及Target Actor的模型参数。

3、所有用户设备下载Actor在线网络的模型参数ω，即

而值得说明的是，每个用户设备下载Actor在线网络的模型参数的周期为T _explore个时间片，即用户设备u需要使用自身所部署Actor在线网络运行T _explore个时间片后，才进行一次同步操作。T _explore通过退火算法值来指定，可以使训练在开始时更加稳定，之后更加高效。

基于与分布式模型训练方法相同的发明构思，本申请实施例还提供有与该方法相应的系统、单侧方法以及装置，可以包括：

本实施例提供还提供一种决策系统，决策系统部署有DDPG模型，决策系统包括管理设备以及多个终端设备，DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络；

执行至少一次模型训练流程，直到DDPG模型满足预设收敛条件；

模型训练流程，包括：

针对每个终端设备，终端设备用于根据自身的第一设备状态，通过第一在线网络生成与第一设备状态相对应的动作；

终端设备用于将第一设备状态对应的策略经验存放至经验池，其中，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励；

管理设备用于对经验池进行采样，获得策略样本；

管理设备还用于根据策略样本，通过Critic网络调整第二在线网络的模型参数；

当满足预设同步条件，则管理设备将调整后的第二在线网络同步至每个第一在线网络，以使每个同步后的第一在线网络与调整后的第二在线网络具有相同的参数。

本实施例还提供一种分布式模型训练方法，应用于决策系统中的管理设备。

管理设备与决策系统中的多个终端设备通信连接，决策系统部署有DDPG模型，DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。如图4所示，该方法包括：

S101B，对经验池进行采样，获得策略样本。

其中，经验池用于存储每个终端设备根据自身的第一设备状态，通过第一在线网络生成的策略经验，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励；

S102B，据策略样本，通过Critic网络调整第二在线网络的模型参数。

S103B，当满足预设同步条件，则将调整后的第二在线网络同步至每个第一在线网络，以使每个同步后的第一在线网络与调整后的第二在线网络具有相同的模型参数。

S104B，判断该DDPG模型是否满足预设收敛条件；若满足，则执行步骤S105B，获得预先训练的DDPG模型，若不满足，则返回S101B再次进行迭代。

基于与应用于管理设备的分布式模型训练方法相同的发明构思，本实施例还提供一种应用于管理设备的分布式模型训练装置。

决策系统部署有DDPG模型，DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。

分布式模型训练装置包括至少一个可以软件形式存储于存储器中的功能模块。如图5所示，从功能上划分，该分布式模型训练装置可以包括：

模型迭代模块101，可以配置成用于执行至少一次模型训练流程，直到DDPG模型满足预设收敛条件；

在模型训练流程，分布式模型训练装置还包括：

经验采样模块102，可以配置成用于对经验池进行采样，获得策略样本，其中，经验池用于存储每个终端设备根据自身的第一设备状态，通过第一在线网络生成的策略经验，其中，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励；

模型调整模块103，可以配置成用于据策略样本，通过Critic网络调整第二在线网络的模型参数；

第一同步模块104，可以配置成用于当满足预设同步条件，则将调整后的第二在线网络同步至每个第一在线网络，以使每个同步后的第一在线网络与调整后的第二在线网络具有相同的参数。

需要说明的是，该分布式模型训练装置还可以包括其他软件功能模块，用于实现应用于管理设备的分布式模型训练方法的其他步骤或者子步骤；当然，模型迭代模块101、经验采样模块102、模型调整模块103以及第一同步模块104同样可以用于实现应用于管理设备的分布式模型训练方法的其他步骤或者子步骤。本示例不对此做具体的限定，本领域技术人员可以根据不同的软件模块划分标准进行适当调整。

本实施例还提供一种分布式模型训练方法，应用于决策系统中的终端设备。

终端设备与决策系统中的管理设备通信连接，决策系统部署有DDPG模型，DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。如图6所示，方法可以包括：

步骤S101C，获取自身的第一设备状态。

S102C，根据第一设备状态，通过第一在线网络生成与第一设备状态相对应的动作。

S103C，将第一设备状态对应的策略经验存放至经验池。

其中，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励。

S104C，接收调整后的第二在线网络。

其中，管理设备根据策略样本，通过Critic网络调整第二在线网络的模型参数，获得调整后的第二在线网络，策略样本采样自经验池。

S104C，将调整后的第二在线网络同步至第一在线网络，以使同步后的第一在线网络与调整后的第二在线网络具有相同的模型参数。

基于与应用于终端设备的分布式模型训练方法相同的发明构思，本实施例还提供一种应用于终端设备的分布式模型训练装置。

终端设备与决策系统中的管理设备通信连接，决策系统部署有DDPG模型，DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。

该分布式模型训练装置包括至少一个可以软件形式存储于存储器中的功能模块。如图7所示，从功能上划分，该分布式模型训练装置，可以包括：

状态获取模块201，可以配置成用于获取自身的第一设备状态；

策略生成模块202，可以配置成用于根据第一设备状态，通过第一在线网络生成与第一设备状态相对应的动作；

经验生成模块203，可以配置成用于将第一设备状态对应的策略经验存放至经验池，其中，策略经验包括第一设备状态、动作、执行动作后的第二设备状态以及动作的即时奖励；

第二同步模块204，可以配置成用于接收调整后的第二在线网络，其中，管理设备根据策略样本，通过Critic网络调整第二在线网络的模型参数，获得调整后的第二在线网络，策略样本采样自经验池。

第二同步模块204，还可以配置成用于将调整后的第二在线网络同步至第一在线网络，以使同步后的第一在线网络与调整后的第二在线网络具有相同的模型参数。

需要说明的是，该分布式模型训练装置还包括其他软件功能模块，用于实现应用于终端设备的分布式模型训练方法的其他步骤或者子步骤；同理，状态获取模块201、策略生成模块202、经验生成模块203以及第二同步模块204同样可以用于实现用于终端设备的分布式模型训练方法的其他步骤或者子步骤。本实施例不对此做具体的限定，本领域技术人员可以依据不同的软件模块划分标准进行适当调整。

本实施例还提供一种电子设备，电子设备包括处理器以及存储器，存储器存储有计算机程序。

当该电子设备为管理设备时，计算机程序被处理器执行时，实现上述管理设备运行的分布式模型训练方法。

当该电子设备为终端设备时，计算机程序被处理器执行时，实现上述终端设备运行的分布式模型训练方法。

本实施例还提该电子设备的一种结构示意图。如图8所示，该存储器320、处理器330、通信单元340。该存储器320、处理器330以及通信单元340各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，该存储器320可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器320用于存储程序，该处理器330在接收到执行指令后，执行该程序。

该通信单元340用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication，NFC)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。

该处理器330可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(Central Processing Unit，CPU)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用指令集处理器(Application Specific Instruction-set Processor，ASIP)、图形处理单元(Graphics Processing Unit，GPU)、物理处理单元(Physics Processing Unit，PPU)、数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing，RISC)、或微处理器等，或其任意组合。

本实施例还提供一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序被处理器执行时，实现上述管理设备运行的分布式模型训练方法或者上述终端设备运行的分布式模型训练方法。

综上所述，本实施例提供的部署有DDPG模型的策略系统中，包括管理设备以及多个终端设备。DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络。而用于训练第二在线网络的策略样本采集自经验池，由各终端设备通过自身部署的第一在线网络生成，因此，策略样本的状态空间仅涉及单个终端设备，因此，该方法不仅能够避免采集全局状态所需要的耗时，而且还能降低状态空间的维度。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

工业实用性

本申请提供了一种分布式模型训练方法、系统及相关装置中，该系统部署包括管理设备以及多个终端设备且部署有DDPG模型；DDPG模型包括Critic网络以及Actor网络，Actor网络包括第一在线网络以及第二在线网络，每个终端设备部署有第一在线网络，管理设备部署有Critic网络以及第二在线网络；而用于训练第二在线网络的策略样本采集自经验池，由各终端设备通过自身部署的第一在线网络生成，因此，策略样本的状态空间仅涉及单个终端设备，因此，该方法不仅能够避免采集全局状态所需要的耗时，而且还能降低状态空间的维度。

此外，可以理解的是，本申请的分布式模型训练方法、系统及相关装置是可以重现的，并且可以用在多种工业应用中。例如，本申请的分布式模型训练方法、系统及相关装置可以用于控制领域。

Claims

一种分布式模型训练方法，其特征在于，应用于部署有DDPG模型的决策系统，所述决策系统包括管理设备以及多个终端设备，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法包括：

执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

所述模型训练流程，包括：

针对每个所述终端设备，所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

所述终端设备将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

所述管理设备对所述经验池进行采样，获得策略样本；

所述管理设备根据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

当满足预设同步条件，则所述管理设备将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的参数。
根据权利要求1所述的分布式模型训练方法，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求2所述的分布式模型训练方法，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种决策系统，其特征在于，所述决策系统部署有DDPG模型，所述决策系统包括管理设备以及多个终端设备，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络；

执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

所述模型训练流程，包括：

针对每个所述终端设备，所述终端设备用于根据自身的第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

所述终端设备用于将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

所述管理设备用于对所述经验池进行采样，获得策略样本；

所述管理设备还用于根据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

当满足预设同步条件，则所述管理设备将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的参数。
根据权利要求4所述的决策系统，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求5所述的决策系统，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种分布式模型训练方法，其特征在于，应用于决策系统中的管理设备，所述管理设备与所述决策系统中的多个终端设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法包括：

执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

所述模型训练流程，包括：

对经验池进行采样，获得策略样本，其中，所述经验池用于存储每个所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成的策略经验，其中，所述策略经验包括所述第一设备状态、动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

当满足预设同步条件，则将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。
根据权利要求7所述的分布式模型训练方法，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求8所述的分布式模型训练方法，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种分布式模型训练方法，其特征在于，应用于决策系统中的终端设备，所述终端设备与所述决策系统中的管理设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述方法包括：

获取自身的第一设备状态；

根据所述第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

接收调整后的第二在线网络，其中，所述管理设备根据策略样本，通过所述Critic网络调整所述第二在线网络的模型参数，获得所述调整后的第二在线网络，所述策略样本采样自所述经验池；

将所述调整后的第二在线网络同步至所述第一在线网络，以使同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。
根据权利要求10所述的分布式模型训练方法，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求11所述的分布式模型训练方法，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种分布式模型训练装置，其特征在于，应用于决策系统中的管理设备，所述管理设备与所述决策系统中的多个终端设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，每个所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述分布式模型训练装置包括：

模型迭代模块，配置成用于执行至少一次模型训练流程，直到所述DDPG模型满足预设收敛条件；

在所述模型训练流程，所述分布式模型训练装置还包括：

经验采样模块，配置成用于对经验池进行采样，获得策略样本，其中，所述经验池用于存储每个所述终端设备根据自身的第一设备状态，通过所述第一在线网络生成的策略经验，其中，所述策略经验包括所述第一设备状态、动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

模型调整模块，配置成用于据所述策略样本，通过所述Critic网络调整所述第二在线网络的模型参数；

第一同步模块，配置成用于当满足预设同步条件，则将调整后的第二在线网络同步至每个所述第一在线网络，以使每个同步后的第一在线网络与所述调整后的第二在线网络具有相同的参数。
根据权利要求13所述的分布式模型训练装置，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求14所述的分布式模型训练装置，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种分布式模型训练装置，其特征在于，应用于决策系统中的终端设备，所述终端设备与所述决策系统中的管理设备通信连接，所述决策系统部署有DDPG模型，所述DDPG模型包括Critic网络以及Actor网络，所述Actor网络包括第一在线网络以及第二在线网络，所述终端设备部署有所述第一在线网络，所述管理设备部署有所述Critic网络以及所述第二在线网络，所述分布式模型训练装置包括：

状态获取模块，配置成用于获取自身的第一设备状态；

策略生成模块，配置成用于根据所述第一设备状态，通过所述第一在线网络生成与所述第一设备状态相对应的动作；

经验生成模块，配置成用于将所述第一设备状态对应的策略经验存放至经验池，其中，所述策略经验包括所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励；

第二同步模块，配置成用于接收调整后的第二在线网络，其中，所述管理设备根据策略样本，通过所述Critic网络调整所述第二在线网络的模型参数，获得所述调整后的第二在线网络，所述策略样本采样自所述经验池；

所述第二同步模块，还配置成用于将所述调整后的第二在线网络同步至所述第一在线网络，以使同步后的第一在线网络与所述调整后的第二在线网络具有相同的模型参数。
根据权利要求16所述的分布式模型训练装置，其特征在于，所述动作包括终端任务本地执行或者卸载至服务器执行，所述终端设备将所述第一设备状态、所述动作、执行所述动作后的第二设备状态以及所述动作的即时奖励存放至经验池之前，所述管理设备通过表达式R _t确定所述动作的即时奖励，所述表达式R _t为：

式中，
表示终端设备u在时间片t执行所述终端任务的任务延时，
表示终端设备u在时间片t执行所述终端任务的任务能耗，λ表示预设权重。
根据权利要求17所述的分布式模型训练装置，其特征在于，所述表达式R _t还配置有至少一条约束条件，当满足任意一条所述的约束条件时，则生成惩罚因子，所述惩罚因子用于减小所述即时奖励；

所述约束条件包括：

执行所述终端任务需要的计算资源不能超过所述终端设备与所述服务器各自的资源上限；

所述终端任务只允许在所述终端设备执行或者所述服务器执行；

执行所述终端任务的延时不能超过时长阈值；

执行所述终端任务的能耗不能超过终端设备与所述服务器各自的储能上限。
一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求7至9或者权利要求10至12所述的分布式模型训练方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求7至9或者权利要求10至12所述的分布式模型训练方法。