WO2021139537A1

WO2021139537A1 - 一种工业物联网中基于功率控制和资源分配的任务卸载方法

Info

Publication number: WO2021139537A1
Application number: PCT/CN2020/138947
Authority: WO
Inventors: 徐金城; 周鹏; 杨博; 陈彩莲; 关新平
Original assignee: 上海交通大学
Priority date: 2020-01-08
Filing date: 2020-12-24
Publication date: 2021-07-15
Also published as: CN111245651B; CN111245651A; US20220377137A1; US11778018B2

Abstract

一种工业物联网中基于功率控制和资源分配的任务卸载方法，包括建立计算任务在不同卸载位置的计算模型，将通信功率控制、资源分配和计算卸载问题构建为混合整数非线性规划模型，利用深度强化学习算法进行求解，得到卸载计算任务的最优策略，以实现通信功率的优化和跨域资源分配。

Description

一种工业物联网中基于功率控制和资源分配的任务卸载方法

技术领域

本发明涉及工业物联网领域，尤其涉及一种工业物联网中基于功率控制和资源分配的任务卸载方法。

背景技术

工业物联网是物联网技术在工业领域的应用和推广。相比于物联网在其他应用领域，比如智慧医疗、智能交通，工业领域对数据的实时性和可靠性有更高要求。相关研究表明：大多数收集到的工业数据需要被实时存储、处理。因此，研究有效的任务处理策略，满足低时延高可靠性的要求，是十分必要的。

工业物联网的发展对计算架构提出了更高的要求。云计算作为一种常见的计算架构，拥有丰富的计算资源和存储资源，用户把数据上传云服务器进行计算，可以降低终端设备的计算负担。然而，工业现场环境中设备众多，且设备上产生的计算密集型任务对处理时延有较高的要求，把大量数据上传到云服务器不仅会导致网络拥塞，而且会产生较大的时延。因此边缘计算成为了工业网络中一种适用的计算架构，它可以利用网络边缘设备的计算和存储能力，将云计算的能力延伸到网络边缘，在提供丰富计算资源的同时有效降低网络时延，减轻网络负载压力。边缘计算因其低时延和高带宽的优点适用于许多计算密集型和时延敏感型的场景。

工业物联网在结合了边缘计算之后，给网络中的任务处理带来了一些新的模式和挑战。首先，在工业现场的复杂环境中，底层设备的异构性导致设备的计算和通信能力不同，产生的计算任务也有不同的数据量、计算量和时延要求，设备需要确定最优的计算模式来满足任务的要求；其次，当设备选择将任务卸载到边缘服务器计算时，需要选择合适的边缘服务器提高计算效率，而边缘服务器也要对卸载到其上的任务分配相应的计算资源。以往的研究工作往往只关注计算资源的分配，而真实场景中，无线网络资源同样是限制任务卸载的关键，因此需要联合计算资源、通信资源和计算模式对任务卸载进行优化，从而得到任务卸载的最优策略。

因此，基于以上分析，在结合边缘计算与工业无线技术的工业物联网中，亟需一种有效的任务卸载方法和资源分配策略，最小化设备处理任务的开销，满足工业数据被实时存储、处理的时延要求。

因此，本领域的技术人员致力于开发一种工业物联网中基于功率控制和资源分配的任务卸载方法。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种工业物联网中的计算任务卸载的方法，以实现通信功率的优化和跨域资源分配。该方法在满足设备通信功率要求以及计算能力约束的前提下，通过不同簇域中设备的通信功率控制、边缘服务器计算资源分配以及卸载位置决策等方式，实现任务卸载开销的最小化。

为实现上述目的，本发明提供了一种工业物联网中基于功率控制和资源分配的任务卸载方法，包括以下步骤：

步骤1、配置工业物联网络；

其中，所述工业物联网络包含复数台交换机和复数台设备，所述复数台交换机之间通过有线方式通信；

根据所述复数台交换机的通信覆盖范围将所述工业物联网络分为复数个簇域；

其中，所述复数个簇域中的每一个包含一台边缘服务器和所述复数台设备中的至少一台设备，所述至少一台设备与其所在的簇域内的交换机进行无线通信；所述边缘服务器的计算能力为

所述至少一台设备中的每个的计算能力为

所述至少一台设备中的每个被配置为产生一个计算任务Q _i，所述计算任务Q _i被配置为包含任务数据量指标d _i和任务计算量指标c _i；

配置所述计算任务的卸载位置；

其中，所述卸载位置包括第一卸载位置、第二卸载位置和第三卸载位置；其中，所述第一卸载位置为所述设备本身；所述第二卸载位置为第二边缘服务器，所述第二边缘服务器包括所述设备所在的所述簇域内的所述边缘服务器，所述设备通过第二交换机将所述计算任务卸载到所述第二边缘服务器上进行计算，所述第二交换机包括所述设备所在的所述簇域内的所述交换机；所述第二边缘服务器被配置为向卸载到其上的所述计算任务分配一定比例的计算资源；所述第三卸载位置为第三边缘服务器，所述第三边缘服务器包括所述设备不在其中的其他所述簇域内的所述边缘服务器；所述设备通过所述第二交换机和第三交换机将所述计算任务卸载到所述第三边缘服务器上进行计算，所述第三交换机包括所述第三边缘服务器所在的所述簇域内的交换机；所述第三边缘服务器被配置为向卸载到其上的所述计算任务分配一定比例的计算资源；

在所述计算任务在所述第一卸载位置被执行的情况下，建立第一计算模型；

在所述计算任务在所述第二卸载位置被执行的情况下，建立第二计算模型；

在所述计算任务在所述第三卸载位置被执行的情况下，建立第三计算模型。

步骤2、根据所述第一计算模型、所述第二计算模型和所述第三计算模型建立所述工业物联网络中全部所述计算任务的总开销模型，构建目标函数，构建混合整数非线性规划问题；

步骤3、将所述步骤2中的所述非线性规划问题分解为通信功率优化问题和计算资源分配问题，在通信功率优化问题的极值点或定义域边界取到最优通信功率，利用拉格朗日乘子法和KKT条件联立方程组求得计算资源分配的最优计算资源分配策略，将所述最优通信功率和和所述最优计算资源分配策略代入所述目标函数中，得到卸载位置决策问题模型；

步骤4、根据所述步骤3得到的卸载位置决策问题模型，建立强化学习模型，利用深度强化学习算法训练深度神经网络参数，使得所述强化学习模型在多步迭代中的累计奖励最大，得到所述计算任务的最优卸载位置决策，得到包括最优通信功率、最优计算资源分配策略和最优卸载位置决策的联合优化策略。

进一步地，所述第一计算模型包括第一时间消耗、第一能量消耗和第一开销。

进一步地，所述第一时间消耗为

进一步地，所述第一能量消耗为

其中ζ _i是所述设备i执行所述计算任务的能耗密度。

进一步地，所述第一开销为

其中α _i为权重因子，α _i∈(0，1)。

进一步地，所述第二计算模型包括第二时间消耗、第二能量消耗和第二开销。

进一步地，所述第二时间消耗为

其中，γ _i表示执行所述计算任务Q _i的所述第二边缘服务器，γ _i∈{1,2,…,N}，

表示所述第二边缘服务器γ _i分配给所述计算任务Q _i计算能力的比例，

所述第二交换机S _j总的无线通信带宽为B _j，所述设备所在的所述簇域内的全部设备的集合是Ψ _j，所述设备i分配到的实际带宽大小为

其中，x _i是二进制变量，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务在所述第二边缘服务器执行；

所述设备i与所述第二交换机采用时分多址(Time division multiple access，TDMA)无线通信，数据传输速率为

其中，p _i为所述设备i的通信发射功率，g _i为所述设备i与所述交换机之间的信道增益，N ₀为信道噪声单边功率谱密度。

进一步地，所述第二能量消耗为

进一步地，所述第二开销为

其中α _i为权重因子，α _i∈(0，1)。

进一步地，所述第三计算模型包括第三时间消耗、第三能量消耗和第三开销。

进一步地，所述第二交换机与所述第三交换机之间的数据传输率为常数r _w；所述第三时间消耗为

其中，d _i/r _i为所述设备将所述计算任务卸载到所述第二交换机的传输时间；d _i/r _w为所述第二交换机将所述计算任务卸载到所述第三交换机的传输时间；

为所述计算任务在所述第三边缘服务器上的计算时间；

γ _i表示执行所述计算任务Q _i的所述第三边缘服务器，γ _i∈{1,2,…,N}，

表示所述第三边缘服务器γ _i分配给所述计算任务Q _i计算能力的比例，

其中，x _i是二进制变量，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务在所述第三边缘服务器执行；

进一步地，所述第三能量消耗为

进一步地，所述第三开销为

进一步地，所述步骤2中的建立所述工业物联网络中全部所述计算任务的总卸载开销模型包括：

定义第一决策变量x _i＝{0,1}，其中，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务被卸载到所述边缘服务器执行计算；

定义第二决策变量β _i＝{0,1}，β _i＝0表示所述计算任务在第一卸载位置或第二卸载位置被执行，β _i＝1表示所述计算任务在所述第三卸载位置被执行；

定义第三决策变量γ _i，γ _i表示执行所述计算任务的所述边缘服务器，γ _i∈{1,2,…,N}；

所述计算任务Q _i的开销为：

所述工业物联网络中全部所述计算任务的总开销为：

构建目标函数

其中，约束条件为：

x _i∈{0,1},i＝1,2,…,m；β _i∈{0,1},i＝1,2,…,m；γ _i∈{1,2,…,n}；

表示在所述边缘服务器γ _i上处理的所述计算任务的集合，优化变量

p _i为连续变量，x _i、β _i和γ _i为整数变量。

进一步地，所述步骤3包括：根据所述计算任务被执行的卸载位置，将一组可行解x ⁰、β ⁰和γ ⁰代入所述目标函数中，得到关于连续变量κ _i的函数和连续变量p _i的函数；将连续变量p _i的函数转化为通信功率优化问题，求解得到所述最优通信功率

将连续变量κ _i的函数转化为计算资源分配问题，求解得到所述最优计算资源分配策略

将所述最优通信功率和

和所述最优计算资源分配策略

代入原始的所述目标函数中，得到卸载位置决策问题，表示为：

进一步地，所述通信功率优化问题被配置为利用函数的性质求解所述最优通信功率。

进一步地，所述计算资源分配问题被配置为先利用凸优化理论进行判定，再利用拉格朗日乘子法和KKT(Karush-Kuhn-Tucker)条件求解所述最优分配策略。

进一步地，所述步骤4包括：

步骤4.1、定义状态、动作与奖励；

步骤4.2、初始化记忆缓存区，所述记忆缓存区被配置为存储至少一组记忆数据，所述记忆数据包括当前的状态、当前的动作、当前的奖励和下一步状态；初始化值函数网络的权重，使所述目标函数的网络参数与所述值函数的网络参数一致；

步骤4.3、初始化所述值函数网络状态，计算全部所述计算任务的总时间消耗T和总能量消耗E，计算结果作为状态s1，将状态s1输入所述值函数网络，得到在状态s ₁下，采取不同动作所对应的值函数的输出；

步骤4.4、利用ε-greedy策略选择当前动作；执行所述当前动作之后得到即时奖励，并到达下一步状态s _t+1；将每一组所述记忆数据储存到所述记忆缓存区中；

步骤4.5、从所述记忆缓存区中随机采样复数个所述记忆数据；在所述当前状态是最终状态的情况下，时间差分目标被配置为r _j；在所述当前状态不是最终状态的情况下，将所述复数个所述记忆数据中的每一个输入所述目标函数网络以计算所述时间差分目标，所述目标函数的网络输出为

步骤4.6、将所述值函数的所述网络输出作为估计值，将所述目标函数的所述网络输出作为标签值，利用SGD(随机梯度下降)算法更新所述值函数的所述网络参数；

其中，所述SGD算法的表达式为

所述值函数的所述网络参数被配置为根据公式θ＝θ+Δθ被更新；

步骤4.7、重复所述步骤4.4-4.6，直至所述值函数的所述网络参数被更新固定次数；将当前状态下的值函数网络参数赋值给目标函数网络，输出最优状态以及与所述最优状态相关联的动作。

进一步地，所述状态包括全部所述计算任务的总时间消耗T和总能量消耗E；所述总时间消耗T为全部所述计算任务的所述第一时间消耗、所述第二时间消耗和所述第三时间消耗之和；所述总能量消耗E为全部所述计算任务的所述第一能量消耗、所述第二能量消耗和所述第三能量消耗之和；

所述动作包括第一决策变量向量[x ₁,x ₂,…,x _m]、第二决策变量向量[β ₁,β ₂,…,β _m]和第三决策变量向量[γ ₁,γ ₂,…,γ _m]；

其中，所述第一决策变量向量被配置为决定所述计算任务是否需要卸载，所述第二决策变量向量被配置为决定所述计算任务是否在所述设备所在的簇域内的所述边缘服务器上执行计算，所述第三决策变量向量被配置为决定所述计算任务所在的边缘服务器；所述动作的动作空间为a＝[x ₁,x ₂,…,x _m,β ₁,β ₂,…,β _m,γ ₁,γ ₂,…,γ _m]；

所述奖励被配置为奖励函数

其中，U _local是全部所述计算任务都在所述第一卸载位置执行计算时的总开销， U是采用当前决策下完成全部所述计算任务所需的总开销。

本发明基于工业物联网中的跨域卸载，构建了跨域网络中的计算任务卸载模型，最小化全部计算任务的卸载开销，以满足工业环境下计算密集型任务对计算能耗和处理时延的要求。本发明考虑了通信功率优化、计算资源分配和卸载位置决策问题，建立了混合整数非线性规划问题，并且将问题分解为三个子优化问题进行求解。针对卸载位置决策问题，采用了深度强化学习算法进行求解，构建了跨域网络中任务卸载的强化学习模型，不仅能够降低任务的卸载开销，并且具有较低的时间复杂度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的基于跨域网络的计算任务卸载模型示意图；

图2是本发明的任务卸载方法流程示意图；

图3是本发明的基于深度强化学习的卸载位置决策流程图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，是一种基于跨域网络的计算任务卸载模型。

其所使用的基于功率控制和资源分配的任务卸载方法包括以下步骤，参见图2：

步骤1、配置工业物联网络；

其中，所述工业物联网络包含多台交换机和多台设备，多台交换机之间通过有线方式通信；其中，多台设备可以是工业现场所使用的任意一种设备，包括但不限于生产产品的机器，诸如AGV、吊装机械等输送产品的设备，检测设备；

根据多台交换机的通信覆盖范围将工业物联网络分为多个簇域；

其中，多个簇域中的每一个包含一台边缘服务器和至少一台设备，每一个簇域内的设备与该簇域内的交换机进行无线通信，并通过及所在簇域内的交换机把计算任务卸载到本簇域中的边缘服务器进行计算。不同簇域中的设备和交换机之间无法进行直接通信，但是不同簇域中的交换机之间可以通过有线方式通信，因此，一个簇域中的设备上的计算任务可以通过本簇域的交换机卸载到其他簇域的边缘服务器上进行计算。边缘服务器的计算能力为

一个设备的计算能力为

一个设备被配置为产生一个计算任务Q _i，所述计算任务Q _i被配置为包含任务数据量指标d _i和任务计算量指标c _i；

配置所述计算任务的卸载位置。如图1所示，以第一簇域1内的设备11为例，描述计算任务的卸载位置配置过程。应当理解，其他簇域内的设备所产生的计算任务，其卸载位置的配置过程都遵循相同的步骤。

所述卸载位置包括第一卸载位置、第二卸载位置和第三卸载位置；其中，所述第一卸载位置为产生该计算任务的设备11本身；所述第二卸载位置为第二边缘服务器，所述第二边缘服务器包括所述设备11所在的第一簇域1内的边缘服务器12，所述设备11通过第二交换机将所述计算任务卸载到所述第二边缘服务器12上进行计算，所述第二交换机包括所述设备11所在的第一簇域1内的交换机13；所述第二边缘服务器被配置为向卸载到其上的所述计算任务分配一定比例的计算资源；所述第三卸载位置为第三边缘服务器，所述第三边缘服务器包括所述设备11不在其中的其他簇域内的边缘服务器，例如第二簇域2内的边缘服务器22，或者第三簇域3内的边缘服务器23；所述设备11通过所述第二交换机和第三交换机将所述计算任务卸载到所述第三边缘服务器上进行计算，所述第三交换机包括所述设备11不在其中的其他簇域内的交换机，例如第二簇域2内的交换机23，或者第三簇域3内的边缘服务器33；所述第三边缘服务器被配置为向卸载到其上的所述计算任务分配一定比例的计算资源；

步骤2、根据所述第一计算模型、所述第二计算模型和所述第三计算模型建立所述工业物联网络中全部所述计算任务的总开销模型，以及构建混合整数非线性规划问题。

步骤4、根据所述步骤3得到的所述通信功率和所述计算资源分配策略，建立强化学习模型，利用深度强化学习算法训练深度神经网络参数，使得所述强化学习模型在多步迭代中的累计奖励最大，得到所述计算任务的最优卸载位置决策，得到包括最优通信功率、最优计算资源分配策略和最优卸载位置决策的联合优化策略。

在步骤1中，工业网络系统中布置n台交换机，根据交换机的通信覆盖范围，将网络分为n个簇域，每台交换机旁布置了一台边缘服务器，其计算能力为

网络中有m个现场设备分布在n个簇域中，现场设备的计算能力为

每个设备上会产生一个计算任务Q _i，任务Q _i包含两个指标：任务数据量大小d _i，任务计算量c _i。每个任务有三种计算方式，分别是在该设备上计算、在本簇域内的边缘服务器计算，以及在其他簇域内的边缘服务器计算。

1)在该设备上计算(第一计算模型)：

在该设备上计算的第一时间消耗为

在该设备上计算的第一能量消耗为

其中ζ _i是设备i计算的能耗密度。

在该设备上计算的第一开销为

其中α _i为权重因子，α _i∈(0,1)。

2)将计算任务卸载到设备所在的本簇域内的边缘服务器上计算(第二计算模型)

在本地簇域内边缘服务器上计算的时间消耗为任务传输时间加上计算时间，首先建立无线传输模型。

同一个簇域内，设备向交换机上传数据的过程中，使用的是同一无线频率，不同设备的上行链路之间会产生干扰，影响传输速率和传输质量，因此采用时分多址(Time division multiple access，TDMA)技术。TDMA技术把时间分割成周期性、互不重叠的帧，一个TDMA帧被分为若干个时隙，设备在各自分配好的时隙内进行数据传输，能够实现多对一的通信而不会产生互相干扰，从而提高无线信道资源的利用率，在局部网络负载较大时，能够较好的利用无线信道，保证了传输的质量以及速率，也为任务实时性提供了保障。由于簇域内设备任务的卸载位置不同，对信道资源有不同的要求，因此采用动态时隙分配算法，如果设备需要发送数据，才给设备分配时隙，避免与其他设备的上行链路产生干扰，同时提高了时隙的利用率。

TDMA帧的结构包含头比特、若干个时隙以及尾比特，每个时隙中包含同步比特、用户信息比特和保护比特等信息，这其中需要传输的数据就包含在用户信息比特中，这也是TDMA帧传输的主要部分。一个簇域内交换机j总的无线通信带宽为B _j，则一个TDMA帧的能够分配的总带宽是B _j，需要根据簇域中进行卸载的设备数量以及任务的数据量给设备分配时隙以及带宽。假设一个交换机S _j的簇域中对应的设备集合是Ψ _j，对应规则根据网络实际拓扑确定。那么根据动态时隙分配算法，给需要进行任务卸载的设备分配时隙以及带宽，分配的比例按照任务的数据量大小确定。则设备i分配到的实际带宽大小为

其中x _i是二进制变量，x _i＝0表示任务在该设备上计算，x _i＝1表示任务需要卸载到边缘服务器计算。

利用香农公式求出设备发送任务的数据传输速率，

其中B _i为设备i分配到的无线信道带宽，p _i为设备的通信发射功率，g _i为设备i与交换机之间的信道增益，N ₀为信道噪声单边功率谱密度。可以求得第二时间消耗为

其中γ _i表示计算任务Q _i的边缘服务器位置，γ _i∈{1,2,…,N}，

表示边缘服务器γ _i分配给任务Q _i计算能力的比例。因为本发明中的优化对象只考虑设备，因此能量消耗等于设备将任务传送到本簇域交换机的第二能量消耗，即为

在本簇域内计算的第二开销为

3)将计算任务卸载到其他簇域内的边缘服务器上计算(第三计算模型)

将计算任务卸载到其他簇域内的边缘服务器上，其传输路径是两跳的，即首先从设备到本地簇域内的交换机，然后从本地簇域内的交换机到目标簇域内的交换机。不同簇域的交换机之间是通过有线方式连接的，其数据传输率为常数r _w。计算任务在其他簇域的边缘服务器上计算的时间消耗分为三部分：设备将任务卸载到本簇域内交换机的传输时间，本簇域的交换机将任务卸载到目标簇域交换机的传输时间，以及任务在目标簇域内边缘服务器上的计算时间，所以第三时间消耗为

第三能量消耗为

这里同样只考虑设备将任务传送到本簇域交换机的能量消耗。

第三开销为

步骤2具体为：

根据步骤1建立的三种计算模型，构建卸载计算任务的总开销模型。首先定义决策变量x _i＝{0,1}，x _i＝0表示计算任务在本地设备计算，x _i＝1表示将计算任务卸载到边缘服务器计算；定义决策变量β _i＝{0,1}，β _i＝0表示计算任务在本簇域内的边缘服务器上执行，β _i＝1表示计算任务在其他簇域内的边缘服务器上执行，边缘服务器的位置由γ _i表示，γ _i∈{1,2,…,n}。卸载计算任务Q _i的总开销为

则工业物联网络中所有计算任务的卸载总开销为：

构建如下目标函数：

该函数的约束条件为：

x _i∈{0,1},i＝1,2,…,m；β _i∈{0,1},i＝1,2,…,m；γ _i∈{1,2,…,n}。其中，

表示在边缘服务器γ _i上处理的计算任务的集合，优化变量

p _i为连续变量，x _i、β _i和γ _i为整数变量，因此构建了一个混合整数非线性规划问题。

在步骤3中，对步骤2中所构建的混合整数非线性规划问题进行求解。

在步骤3中，给定与计算任务的卸载位置相对应的一组可行解x ⁰、β ⁰和γ ⁰，将其代入原目标函数中，假设共有l个现场设备选择将计算任务卸载到边缘服务器上处理，这其中有p个设备选择将任务卸载到其他簇域内的边缘服务器上处理，剩余的设备选择在本地进行计算，则目标函数中只剩下连续变量κ _i和p _i，将目标函数表示为

将非线性规划问题分解为通信功率优化问题和计算资源分配问题，分别得到以下函数和约束条件：

对应的约束为

以及

对应的约束为

对于通信功率优化问题g(p)，做参数代换令

q _i＝log ₂(1+C·p _i)，则

原函数化为

求一阶导数

二阶导数为

令

所以y在定义域q _i＞0上单调增，又y(q _i＝0)＝0，所以

在定义域q _i＞0中是恒成立的，因此G″(q _i)＞0，即函数G(q)是凸函数。

因为G″(q _i)＞0，所以G′(q _i)在定义域内单调增，令G′(q _i)＝0，得到使一阶导数为0的

值。则

G′(q _i)＜0，G(q)单调减；

G′(q _i)＞0，G(q)单调增；根据p _i值的约束范围，求得q _i值的约束范围为

若

则最优值为

即

否则，最优值为

即

通过求函数h(κ)关于变量κ的Hessian矩阵，可以证明函数h(κ)是关于变量κ的凸函数。并且约束条件是线性约束，所以资源分配子问题是关于变量κ的凸优化问题，构建h(κ)的拉格朗日函数

利用KKT条件求解可以得到计算资源的最优分配策略为

将最优通信功率和

和计算资源最优分配策略

代入原目标函数中，得到卸载位置决策问题，表示为：

该卸载位置决策问题是关于变量x _i、β _i和γ _i的整数线性规划问题，在步骤4中通过深度强化学习算法进行求解。强化学习有三个关键元素，状态、动作和奖励。针对本申请中的卸载位置决策问题模型，对这三个元素给出如下的定义。

状态：系统状态为所有任务的总时间消耗T和总能量消耗E。

动作：系统的动作由三部分组成，分别是决定任务是否需要卸载的变量[x ₁,x ₂,…,x _m]，决定任务是否在本簇域内边缘服务器计算的变量[β ₁,β ₂,…,β _m]，以及计算任务的边缘服务器位置的变量[γ ₁,γ ₂,…,γ _m]，因此动作空间定义为a＝[x ₁,x ₂,…,x _m,β ₁,β ₂,…,β _m,γ ₁,γ ₂,…,γ _m]。

奖励：系统位于状态s时，采取一个动作a到达下一个状态s'，获得的即时奖励为R(s,a)。强化学习的目标是通过找到一个连续最优策略使得总的奖励最大，目标函数是要求所有任务的计算开销最短，所以定义系统的奖励为

其中U _local是所有任务都在设备计算情况下的总开销，U是系统采用当前决策下完成任务需要的总开销。因此目标函数的值与奖励函数呈负相关，当奖励函数值最大时可以得到目标函数的最小值。

如图3所示，在步骤4中，深度强化学习包括以下步骤：

步骤4.1、定义状态、动作与奖励；

步骤4.3、初始化所述值函数网络状态，计算全部所述计算任务的总时间消耗T和总能量消耗E，计算结果作为状态s ₁，将状态s ₁输入所述值函数网络，得到在状态s1下，采取不同动作所对应的值函数的输出。

步骤4.4、利用ε-greedy策略进行动作的选择，以ε的概率随机选择一个动作a _t，否则就选择对应值函数最大的动作。执行动作之后得到即时奖励，并到达下一步状态s _t+1，将每一组这样的记忆数据(包括状态，动作，即时奖励，下一步状态)储存到记忆缓存区中，用于网络的训练。

其中，所述SGD算法的表达式为

步骤4.7、重复所述步骤4.4-4.6，直至所述值函数的所述网络参数被更新固定次数；将当前状态下的值函数网络参数赋值给目标函数网络，输出最优状态以及与所述最优状态相关联的动作。并且，这种赋值方式减弱了前后数据之间的关联性，提高了网络参数的稳定性。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

一种工业物联网中基于功率控制和资源分配的任务卸载方法，包括以下步骤：

步骤1、配置工业物联网络；

其中，所述工业物联网络包含复数台交换机和复数台设备，所述复数台交换机之间通过有线方式通信；

根据所述复数台交换机的通信覆盖范围将所述工业物联网络分为复数个簇域；

其中，所述复数个簇域中的每一个包含一台边缘服务器和所述复数台设备中的至少一台设备，所述至少一台设备与其所在簇域内的交换机进行无线通信；所述边缘服务器的计算能力为
所述至少一台设备中的每个的计算能力为
所述至少一台设备中的每个被配置为产生一个计算任务Q _i，所述计算任务Q _i被配置为包含任务数据量指标d _i和任务计算量指标c _i；

配置所述计算任务的卸载位置；

其中，所述卸载位置包括第一卸载位置、第二卸载位置和第三卸载位置；其中，所述第一卸载位置为所述设备本身；所述第二卸载位置为第二边缘服务器，所述第二边缘服务器包括所述设备所在的簇域内的所述边缘服务器，所述设备通过第二交换机将所述计算任务卸载到所述第二边缘服务器上进行计算，所述第二交换机包括所述设备所在的所述簇域内的所述交换机；所述第二边缘服务器被配置为向卸载到其上的所述计算任务分配计算资源；所述第三卸载位置为第三边缘服务器，所述第三边缘服务器包括所述设备不在其中的其他簇域内的所述边缘服务器；所述设备通过所述第二交换机和第三交换机将所述计算任务卸载到所述第三边缘服务器上进行计算，所述第三交换机包括所述第三边缘服务器所在的所述簇域内的交换机；所述第三边缘服务器被配置为向卸载到其上的所述计算任务分配计算资源；

在所述计算任务在所述第一卸载位置被执行的情况下，建立第一计算模型；

在所述计算任务在所述第二卸载位置被执行的情况下，建立第二计算模型；

在所述计算任务在所述第三卸载位置被执行的情况下，建立第三计算模型；

步骤2、根据所述第一计算模型、所述第二计算模型和所述第三计算模型建立所述工业物联网络中全部所述计算任务的总开销模型，构建目标函数，构建混合整数非线性规划问题；

步骤3、将所述步骤2中的所述非线性规划问题分解为通信功率优化问题和计算资源分配问题，在通信功率优化问题的极值点或定义域边界取到最优通信功率，利用拉格朗日乘子法和KKT条件联立方程组求得计算资源分配的最优计算资源分配策略，将所述最优通信功率和和所述最优计算资源分配策略代入所述目标函数中，得到卸载位置决策问题模型；

步骤4、根据所述步骤3得到的卸载位置决策问题模型，建立强化学习模型，利用深度强化学习算法训练深度神经网络参数，使得所述强化学习模型在多步迭代中的累计奖励最大，得到所述计算任务的最优卸载位置决策，得到包括最优通信功率、最优计算资源分配策略和最优卸载位置决策的联合优化策略。
如权利要求1所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第一计算模型包括第一时间消耗、第一能量消耗和第一开销。
如权利要求2所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第一时间消耗为
如权利要求3所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第一能量消耗为
其中ζ _i是设备i执行所述计算任务的能耗密度。
如权利要求4所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第一开销为
其中α _i为权重因子，α _i∈(0，1)。
如权利要求5所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第二计算模型包括第二时间消耗、第二能量消耗和第二开销。
如权利要求6所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第二时间消耗为

其中，γ _i表示执行所述计算任务Q _i的所述第二边缘服务器，γ _i∈{1,2,…，N}，
表示所述第二边缘服务器γ _i分配给所述计算任务Q _i计算能力的比例，

所述第二交换机S _j总的无线通信带宽为B _j，所述设备所在的所述簇域内的全部设备的集合是Ψ _j，所述设备i分配到的实际带宽大小为

其中，x _i是二进制变量，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务在所述第二边缘服务器执行；

所述设备i与所述第二交换机采用时分多址(TDMA)无线通信，数据传输速率为

其中，p _i为所述设备i的通信发射功率，g _i为所述设备i与所述交换机之间的信道增益，N ₀为信道噪声单边功率谱密度。
如权利要求7所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第二能量消耗为
如权利要求8所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第二开销为

其中α _i为权重因子，α _i∈(0，1)。
如权利要求9所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第三计算模型包括第三时间消耗、第三能量消耗和第三开销。
如权利要求10所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第二交换机与所述第三交换机之间的数据传输率为常数r _w；所述第三时间消耗为

其中，d _i/r _i为所述设备将所述计算任务卸载到所述第二交换机的传输时间；d _i/r _w为所述第二交换机将所述计算任务卸载到所述第三交换机的传输时间；
为所述计算任务在所述第三边缘服务器上的计算时间；

γ _i表示执行所述计算任务Q _i的所述第三边缘服务器，γ _i∈{1,2,…,N}，
表示所述第三边缘服务器γ _i分配给所述计算任务Q _i计算能力的比例，

所述第二交换机S _j总的无线通信带宽为B _j，所述设备所在的所述簇域内的全部设备的集合是Ψ _j，所述设备i分配到的实际带宽大小为

其中，x _i是二进制变量，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务在所述第三边缘服务器执行；

所述设备i与所述第二交换机采用时分多址(TDMA)无线通信，数据传输速率为

其中，p _i为所述设备i的通信发射功率，g _i为所述设备i与所述交换机之间的信道增益，N ₀为信道噪声单边功率谱密度。
如权利要求11所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第三能量消耗为
如权利要求12所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述第三开销为
如权利要求13所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述步骤2中的建立所述工业物联网络中全部所述计算任务的总卸载开销模型包括：

定义第一决策变量x _i＝{0,1}，其中，x _i＝0表示所述计算任务在所述第一卸载位置执行，x _i＝1表示所述计算任务被卸载到所述边缘服务器执行计算；

定义第二决策变量β _i＝{0,1}，β _i＝0表示所述计算任务在第一卸载位置或第二卸载位置被执行，β _i＝1表示所述计算任务在所述第三卸载位置被执行；

定义第三决策变量γ _i，γ _i表示执行所述计算任务的所述边缘服务器，γ _i∈{1,2,...,N}；

所述计算任务Q _i的开销为：

所述工业物联网络中全部所述计算任务的总开销为：
如权利要求14所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述步骤2中的构建混合整数非线性规划问题包括：

构建目标函数

其中，约束条件为：
x _i∈{0,1},i＝1,2,…,m；β _i∈{0,1},i＝1,2,…,m；γ _i∈{1,2,…,n}；
表示在所述边缘服务器γ _i上处理的所述计算任务的集合，优化变量
p _i为连续变量，x _i、β _i和γ _i为整数变量。
如权利要求15所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述步骤3包括：根据所述计算任务被执行的卸载位置，将一组可行解x ⁰、β ⁰和γ ⁰代入所述目标函数中，得到关于连续变量κ _i的函数和连续变量p _i的函数；将连续变量p _i的函数转化为通信功率优化问题，求解得到所述最优通信功率
将连续变量κ _i的函数转化为计算资源分配问题，求解得到所述最优计算资源分配策略
将所述最优通信功率和
和所述最优计算资源分配策略
代入原始的所述目标函数中，得到卸载位置决策问题，表示为：
如权利要求16所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述通信功率优化问题被配置为利用函数的性质求解所述最优通信功率。
如权利要求17所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述计算资源分配问题被配置为先利用凸优化理论进行判定，再利用拉格朗日乘子法和KKT(Karush-Kuhn-Tucker)条件求解所述最优分配策略。
如权利要求18所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述步骤4包括：

步骤4.1、定义状态、动作与奖励；

步骤4.2、初始化记忆缓存区，所述记忆缓存区被配置为存储至少一组记忆数据，所述记忆数据包括当前的状态、当前的动作、当前的奖励和下一步状态；初始化值函数网络的权重，使所述目标函数的网络参数与所述值函数的网络参数一致；

步骤4.3、初始化所述值函数网络状态，计算全部所述计算任务的总时间消耗T和总能量消耗E，计算结果作为状态s ₁，将状态s ₁输入所述值函数网络，得到在状态s ₁下，采取不同动作所对应的值函数的输出；

步骤4.4、利用ε-greedy策略选择当前动作；执行所述当前动作之后得到即时奖励，并到达下一步状态s _t+1；将每一组所述记忆数据储存到所述记忆缓存区中；

步骤4.5、从所述记忆缓存区中随机采样复数个所述记忆数据；在所述当前状态是最终状态的情况下，时间差分目标被配置为r _j；在所述当前状态不是最终状态的情况下，将所述复数个所述记忆数据中的每一个输入所述目标函数网络以计算所述时间差分目标，所述目标函数的网络输出为

步骤4.6、将所述值函数的所述网络输出作为估计值，将所述目标函数的所述网络输出作为标签值，利用SGD(随机梯度下降)算法更新所述值函数的所述网络参数；

其中，所述SGD算法的表达式为

所述值函数的所述网络参数被配置为根据公式θ＝θ+Δθ被更新；

步骤4.7、重复所述步骤4.4-4.6，直至所述值函数的所述网络参数被更新固定次数；将当前状态下的值函数网络参数赋值给目标函数网络，输出最优状态以及与所述最优状态相关联的动作。
如权利要求19所述的工业物联网中基于功率控制和资源分配的任务卸载方法，其中，所述状态包括全部所述计算任务的总时间消耗T和总能量消耗E；所述总时间消耗T为全部所述计算任务的所述第一时间消耗、所述第二时间消耗和所述第三时间消耗之和；所述总能量消耗E为全部所述计算任务的所述第一能量消耗、所述第二能量消耗和所述第三能量消耗之和；

所述动作包括第一决策变量向量[x ₁,x ₂,…,x _m]、第二决策变量向量[β ₁,β ₂,…,β _m]和第三决策变量向量[γ ₁,γ ₂,…,γ _m]；

其中，所述第一决策变量向量被配置为决定所述计算任务是否需要卸载，所述第二决策变量向量被配置为决定所述计算任务是否在所述设备所在的簇域内的所述边缘服务器上执行计算，所述第三决策变量向量被配置为决定所述计算任务所在的边缘服务器；所述动作的动作空间为a＝[x ₁,x ₂,…,x _m,β ₁,β ₂,…,β _m,γ ₁,γ ₂,…,γ _m]；

所述奖励被配置为奖励函数

其中，U _local是全部所述计算任务都在所述第一卸载位置执行计算时的总开销，U是采用当前决策下完成全部所述计算任务所需的总开销。