WO2022199032A1

WO2022199032A1 - 模型构建方法、任务分配方法、装置、设备及介质

Info

Publication number: WO2022199032A1
Application number: PCT/CN2021/128250
Authority: WO
Inventors: 任涛; 胡哲源; 谷宁波; 牛建伟; 杜东峰; 豆渊博; 李青锋
Original assignee: 北京航空航天大学杭州创新研究院
Priority date: 2021-03-22
Filing date: 2021-11-02
Publication date: 2022-09-29
Also published as: CN113032904B; CN113032904A

Abstract

模型构建方法、任务分配方法、装置、设备及介质中，训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题，使用层次强化学习交替优化对应位置模型以及任务模型，以达到降低了每个子问题的复杂度，并且提高了整体系统的学习效率与收敛效率。

Description

模型构建方法、任务分配方法、装置、设备及介质

相关申请的交叉引用

本申请要求于2021年03月22日提交中国专利局的申请号为202110302078.9、名称为“模型构建方法、任务分配方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理领域，具体而言，涉及一种模型构建方法、任务分配方法、装置、设备及介质。

背景技术

由于无人机(Unmanned Aerial Vehicles,UAVs)具有的高机动性和灵活性，近年来研究人员提出了使用无人机在多种应用场景下辅助移动边缘计算(Mobile Edge Computing,MEC)的技术。在无人机辅助的移动边缘计算领域，需要对无人机的运动轨迹和无人机与移动终端之间任务进行适当的调度以获得理想的性能。其中，在对任务调度表示将同一计算任务分配给无人机或者移动终端(下面简称任务卸载)。目前，出现了基于强化学习的方法实现动态场景下无人机辅助移动边缘计算的调度策略。

发明人研究发现，随着无人机与移动终端数量的增加，使用强化学习算法的系统状态空间与动作空间会呈指数级别增长，这大大降低了算法的收敛效率。因此，对于大规模的无人机辅助的移动边缘计算网络，很难获得易收敛的调度策略。

发明内容

本申请的一实施例提供一种模型构建方法，应用于训练设备，所述训练设备配置有待训练的位置模型以及任务分配模型，所述方法可以包括：

初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态，其中，所述第一无人机可以用于为所述第一移动终端提供边缘计算服务；

将所述位置模型以及任务分配模型进行以下迭代，直到满足预设的迭代条件：

根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态，通过所述位置模型获得所述第一无人机下一时刻的预测位置；

根据所述预测位置更新所述位置模型的模型参数；

根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态；

根据所述第二状态，通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果；

根据所述任务分配结果，更新所述任务分配模型的模型参数。

可选地，所述根据所述预测位置更新所述位置模型的模型参数，可以包括：根据所述预测位置更新所述第一状态；根据更新后的第一状态，通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值；根据所述第一奖励值，更新所述位置模型的模型参数。

可选地，所述根据更新后的第一状态，通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值，可以包括：通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值；当根据所述更新后的第一状态，确定所述第一无人机满足任意一条第一限制条件时，则通过预设第一负奖励值调整所述第一奖励值，其中，所述第一限制条件可以包括：所述第一无人机的移动速度超过速度阈值；所述第一无人机的移动频率超过频率阈值。

可选地，所述第一状态可以包括所述第一移动终端的位置、所述第一移动终端的剩余电量以及所述第一无人机的剩余电量。

可选地，所述根据所述任务分配结果，更新所述任务分配模型的模型参数，可以包括：根据所述任务分配结果更新所述第二状态；根据更新后的第二状态，通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值；根据所述第二奖励值，更新所述位置模型的模型参数。

可选地，所述根据更新后的第二状态，通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值，包括：通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值；当根据所述更新后的第二状态，确定所述第一无人机与所述第一移动终端满足意一条第二限制条件时，则通过预设第二负奖励值调整所述第二奖励值，其中，所述第二限制条件可以包括：同一任务同时在第一无人机以及第一移动终端运行；任务在第一无人机与第一移动终端之间传输时所消耗的总能量超过能量阈值；至少一个任务的完成耗时超过时长阈值。

可选地，所述第二状态可以包括所述第一无人机的预测位置、所述第一移动终端的位置、所述第一无人机的剩余电量、所述第一移动终端的剩余电量以及所述第一移动终端中的计算任务。

本申请的另一实施例提供一种任务分配方法，应用于执行设备，所述执行设备可以配置有预训练的位置模型以及任务分配模型，所述预训练的位置模型以及任务分配模型由所述的模型构建方法进行训练获得，所述方法可以包括：

获取第二无人机当前时刻的第三状态；

根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置；

根据所述第二无人机在下一时刻的预测位置，确定所述第二无人机与第二移动终端之间的第四状态；

根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。

可选地，根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置，可以包括：每间隔第一时长片段，根据第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置，其中，所述第一时长片段包括多个第二时长片段。

可选地，根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果，可以包括：针对每个第二时长片段，保持所述第二无人机的位置不变，根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。

本申请的又一实施例提供一种模型构建装置，所述模型构建装置应用于训练设备，所述训练设备配置有待训练的位置模型以及任务分配模型，所述模型构建装置可以包括：

模型初始模块，可以被配置成用于将所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态进行初始化，其中，所述第一无人机用于为所述第一移动终端提供边缘计算服务；

模型初始模块，可以被配置成用于初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态，其中，所述第一无人机用于为所述第一移动终端提供边缘计算服务；

模型训练模块，可以被配置成用于将所述位置模型以及任务分配模型进行以下迭代，直到满足预设的迭代条件：

根据所述预测位置更新所述位置模型的模型参数；

本申请的再一实施例提供一种任务调度装置，应用于执行设备，所述执行设备配置有预训练的位置模型以及任务分配模型，所述预训练的位置模型以及任务分配模型由所述的模型构建装置进行训练获得，所述任务调度装置可以包括：

状态获取模块，可以被配置成用于获取第二无人机当前时刻的第三状态；

位置确定模块，可以被配置成用于根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置；

所述状态获取模块，还可以被配置成用于根据所述第二无人机在下一时刻的预测位置，确定所述第二无人机与第二移动终端之间的第四状态；

任务分配模块，可以被配置成用于根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。

本申请的另外的实施例提供一种电子设备，所述电子设备可以包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的模型构建方法或者所述的任务分配方法。

本申请的又一另外的实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的模型构建方法或者所述的任务分配方法。

相对于相关技术而言，本申请具有至少以下有益效果：

本申请实施例提供的模型构建方法、任务分配方法、装置、设备及介质中，训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题，使用层次强化学习交替优化对应位置模型以及任务模型，以达到降低了每个子问题的复杂度，并且提高了整体系统的学习效率与收敛效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的场景示意图；

图2为本申请实施例提供的模型构建方法的流程示意图；

图3为本申请实施例提供的训练流程框图；

图4为本申请实施例提供的任务分配方法流程示意图；

图5为本申请实施例提供的模型构建装置示意图；

图6为本申请实施例提供的任务分配装置示意图；

图7为本申请实施例提供的电子设备结构示意图。

图标：100-无人机；200-移动终端；301-模型初始模块；302-模型训练模块；401-状态获取模块；402-位置确定模块；404-任务分配模块；520-存储器；530-处理器；540-通信装置。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

由于无人机(Unmanned Aerial Vehicles，UAVs)具有的高机动性和灵活性，近年来研究人员提出了使用无人机作为多种应用场景下辅助移动边缘计算(Mobile Edge Computing,MEC)的技术。

如图1所示，在网络基础设施不可用的场景下(如发生自然灾害的救援现场)、网络设备稀疏分布的场景下(如野外作业)或面对临时增加的移动终端200远远超出网络服务能力时(如足球比赛现场)，无人机100就可以作为通信中继站或边缘计算平台。当无人机100部署了计算资源后，无人机100辅助的移动边缘计算网络将带来很多优势，如降低网络开销、降低计算任务执行延迟、更好的体验质量(Quality of Experience，QoE)、延长移动终端200的电池寿命等。

在无人机100辅助的移动边缘计算领域，需要对图1中无人机100的运动轨迹进行优化，以及对无人机100与移动终端200之间进行任务卸载，以获得理想的计算性能。

相关的研究与发明大多集中于静态场景下，无人机辅助的移动边缘计算调度。即在整个任务执行时间内，无人机为位置固定不变的移动终端提供服务。针对这样的场景，可以使用启发式算法(如块坐标下降法，遗传算法、粒子群优化算法等)进行求解，例如使用块坐标下降法(Block Coodinate Descent,BCD)和逐次凸近似(Successive Convex Approximation，SCA)方法联合优化计算任务的分配和无人机轨迹，最大化所有的移动终端吞吐量。

然而，无人机辅助的移动边缘计算调度场景下的算法策略，在面对无人机与移动终端之间相对位置随时间变化的动态场景时，就需要根据无人机与移动终端的新位置，重新求解新的优化结果，从而导致较高的系统计算负担。

在次基础上，发明人提出了基于强化学习的方法实现动态场景下无人机辅助移动边缘计算的调度策略。但是随着无人机与移动终端数量的增加，使用强化学习算法的系统状态空间与动作空间会呈指数级别增长，这大大降低了算法的收敛效率。

鉴于此，为了至少部分解决上述技术问题，本申请实施例提供一种应用于训练设备的模型构建方法。在模型构建方法中，将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务卸载优化两个层级的子问题，分别为不同的子问题提供对应的策略模型。其中，为位置优化问题提供位置模型，为任务卸载优化问题提供任务分配模型。

然后，使用层次强化学习(Hierarchical Reinforcement Learning,HRL)的方式对位置模型与任务分配模型交替进行优化，以达到降低了每个子问题的复杂度(即降低了输入状态的维度以及输出动作的维度)，提高了整体系统的学习效率与收敛效率的目的。

进一步地，将预训练获得的策略模型部署到执行设备，并基于预训练的策略模型，提供一种任务分配方法。在任务分配方法中，执行设备根据使用场景下无人机的状态信息以及移动终端的状态信息，确定无人机的预测位置以及任务分配结果。

在介绍本申请提供的模型构建方法以及任务分配方法之前，先对无人机辅助的移动边缘计算场景构建相应的数学模型。假定在大规模无人机辅助的移动边缘计算的场景中，包含M个移动终端和U架无人机。计算任务的执行时间周期记为Δ，该时间周期被进一步分为了N个离散的时长片段，也就是每一个时长片段的时间长度可以表示为τ＝Δ/N，τ的值应足够小，以保证在每个时间段内无人机与移动终端之间的距离大致不变。

无人机与移动终端所处的空间环境可以通过三维笛卡尔坐标系(如图1中的x，y，z所表示的坐标轴)进行空间建模，则移动终端在距离地面高度为0的平面移动，无人机在距离高度为H的平面运动。

在每个时长片段，移动终端可以从一个位置水平地移动到另一个位置，所有移动终端的移动距离服从正太分布N(0,ι ²)。ι为一个较小的值保证在大多数情况下移动终端只能运动到邻近的水平空间。并且，移动终端每次可以向4个方向运动(东、南、西、北)。

在此基础上，移动终端的在第n个时长片段内的水平方向的坐标

可以表示为：

式中，M表示全部的移动终端，

表示第n个时长片段内移动终端在x方向的坐标，

第n个时长片段内移动终端在y方向的坐标。

同理，无人机在第n个时长片段内水平方向的坐标

表示为：

式中，U表示全部的无人机，

表示第n个时长片段内无人机在x方向的坐标，

第n个时长片段内在y方向的坐标。

由于无人机与移动终端之间的相对位置会随时间变化，假定基于移动终端当前位置的分布，将无人机移动到最佳的位置，并为无人机与移动终端之间分配了最佳的任务分配结果。然而，移动终端会跟随用户一起发生位置变动，使得无人机当前的最佳位置以及当前最佳的任务分配结果，并不适用于下一时刻。

例如，在工作日时，商场的顾客通常较少，当休息日时，商场的顾客又突然暴增。因此，可以在商场部署无人机作为临时基站，用于进行提供边缘计算服务。然而，商场中顾客的位置又在不断的变化，因此，需要对无人机以及无人机与移动终端之间分配了最佳的任务分配结果动态进行调整，使得完成所有计算任务的平均延迟最小。

此外，在进行任务分配时，本申请实施例采用完全卸载策略，即同一个计算任务只能在移动终端与无人机中，选择一个用于执行该任务。假定第n个计算任务由移动终端执行，表示为：

I _m(n)；

本申请实施例中，在无人机提供边缘计算服务时，需要所有移动终端完成计算任务的平均延迟最小。

同时，本申请实施例中，需要考虑的状态信息包括移动终端的位置、无人机的位置、移动终的端剩余电量、无人机的剩余电量、移动终端需要处理的任务。

并且，为了使得训练出的位置模型在制定策略时，减少无人机移动位置时的电量消耗，需要限定了无人机移动的频率以及无人机的最大水平飞行速度。

例如，无人机每间隔时长Δ移动一次。其中，时长Δ又被划分成多个时长片段，无人机可以在第一个时长片段移动一次位置，然后，在后续的时长片段内保持位置不变，直到时长Δ结束。

示例性的，假定Δ为10分钟时，且被拆分成10个时长片段，即每个时长片段为1分钟。则无人机在个1分钟内改变位置后，后续的9个1分钟均保持位置不变，直到10分钟结束。

因此，将无人第n个时长片段内的速度表示为v _u(n)，允许的最大水平飞行速度表示为V ^U，则无人机的运动状态可以表示为：

式中，v _u(n)的表达式如下：

式中，

表示无人机移动前位置，

移动后的位置，τ为无人机移动位置所花费的时长。

由于无人机只能以有限的速度V ^U，以及在有限的时间内移动，因此无人机无线通信的信道增益在一个时长片段内保持衡定，则移动位置消耗的电量

表示为：

式中，其中K _u表示无人机的工作负载，n modΔ＝0表示n对Δ求余，结果为0。

在无人机提供边缘计算服务的场景中，因为无人机的飞行高度较高，无人机与移动终端之间的距离变化是影响无线信道增益的主要因素，所以在第n个时长片段，无人机u到移动终端m的信道增益可以用自由空间路径损耗模型

来表示：

式中，其中g ₀表示在1m的参考距离以及1W的传输功率下，所接收到的信号功率，

表示无人机u和移动终端m之间的欧式距离。

在第n个时长片段内，移动终端m产生的任务I _m(n)可以表示为：

I _m(n)＝{D _m(n),C _m(n),Γ _m(n)}；

式中，D _m(n)表示任务I _m(n)的需要处理的数据量(单位：比特)，C _m(n)表示处理1比特数据需要的CPU周期数，Γ _m(n)表示任务I _m(n)允许的最大执行延迟。

为了提高信噪比，移动终端以其最大功率

进行数据传输。每架无人机在每个时长片段内最多只接收一个移动终端的发送的计算任务。结合上述自由空间路径损耗模型

无人机u和移动终端m之间的数据传输速率

(单位：bps/Hz)可以表示为：

式中，σ ²表示无人机u的噪声功率。

则基于数据传输速率

任务I _m(n)的需要处理的数据量D _m(n)，移动终端m将任务I _m(n)传输到无人机u所需要的时间延迟

为：

式中，B表示信道带宽，

表示计算任务的执行设备，当计算任务在移动终端本地运行时，

当计算任务在无人机一端执行时，

进一步地，基于移动终端的最大功率

任务I _m(n)的需要处理的数据量D _m(n)，数据传输速率

信道带宽B，则将任务发送给无人机所消耗的能量

可以表示为：

式中，

表示移动终端发送数据时的平均功率。

基于任务I _m(n)的需要处理的数据量D _m(n)，处理1比特数据需要的CPU周期数C _m(n)，在移动终端本地执行的计算任务I _m(n)，完成任务所需要的延迟

可以表示为：

式中，f _m表示移动终端的计算能力(单位：周期/秒)。

则相对应的，基于任务I _m(n)的需要处理的数据量D _m(n)，处理1比特数据需要的CPU周期数C _m(n)，移动终端的计算能力f _m以及完成任务所需要的延迟

移动终端本地计算消耗的能量

可以表示为：

其中，γ _m表示与移动终端m的CPU架构相关的架构系数，

表示移动终端执行任务时的平均功率。

对于无人机u，基于任务I _m(n)的需要处理的数据量D _m(n)，处理1比特数据需要的CPU周期数C _u(n)，无人机执行计算任务I _m(n)时，完成任务所需要的延迟

可以表示为：

式中，f _u表示无人机的计算能力(单位：周期/秒)。

相对应的，基于任务I _m(n)的需要处理的数据量D _m(n)以及处理1比特数据需要的CPU周期数C _u(n)，无人机在本地计算消耗的能量

可以表示为：

其中，γ _u表示与无人机CPU架构有关的架构系数，

表示移动终端执行任务时的平均功率。

基于上述构建的数学模型，本申请示例中需要对无人机进行位置优化以及移动终端与无人机之间进行任务卸载，使所有移动终端完成计算任务的平均延迟最小，对应的目标函数P为可以表示为：

式中，C1-C8为无人机以及移动终端需要满足的限制条件，具体表现为：

限制条件C1与C2保证了无人机有限的速度和飞行位置更新频率；

限制条件C3、C4和C5表示无人机与移动终端之间任务卸载的约束；

限制条件C6与C7为移动终端与无人机的消耗能量约束，Φ ^U表示无人机储存的电能，Φ ^M表示移动终端储存的电能；

限制条件C8保证每项计算任务应在其最大允许延迟和时间片内完成。

为执行所有计算任务I _m(n)的平均延迟，可以表示为：

式中，t _m(n)与每个任务选择的计算方式相关(即移动终端本地计算或无人机进行计算)，具体表达式为：

在上述建立的数学模型的基础上，在无人机位置优化问题中，需要基于无人机、移动终端当前的状态确定无人机下一时刻的预测位置，从而获得无人机与移动终端的期望的距离

其中，距离

是决定信道增益

的关键因素，而信道增益

会进一步地影响无线传输速率

最终影响无线传输的延迟和能量消耗表，相应的数学表达式为：

式中，

表示n个时长片段中的第一个时长片段，并且，需要满足第一限制条件，其中，第一限制限制条件可以包括上述限制条件中的C1、C2。

在移动终端与无人机之间的任务卸载优化问题中，确定了无人机位置后，在Δ后续的每个时长片段内，无人机位置将保持不变。此时，任务分配结果

的确定，需要虑到移动终端与无人机的距离

和移动终端当前的任务I _m(n)，以保证所有移动终端完成计算任务的平均延迟最小。因此，在第

个时长片段内确定无人机的位置后，移动终端完成计算任务的平均延迟可以表示为：

式中，

表示时长Δ中剩余的时长片段，t _m(n)与每个任务选择的计算方式相关(即移动终端本地计算或无人机进行计算)。并且，需要满足第二限制条件，其中，第二限制条件可以包括上述限制条件中的C3-C8。

由于本申请实施例采用强化学习的方式对位置模型以及任务分配模型进行优化，因此，需要分别为无人机位置优化问题以及任务卸载优化问题生成对应的奖励函数。

在大规模无人机辅助移动边缘计算网络场景中，不失一般性，在第n个时长片段内，存在的状态可以表示为：

式中，

表示移动终端的位置，I _m(n)表示移动终端待执行的任务，

与

分别表示移动终端的剩余电量以及无人机的剩余电量，对应的数学表达式如下：

式中，

表示移动终端本地计算消耗的电量，

表示将任务发送给无人机所消耗的电量。

式中，

可以表示无人机在本地计算消耗的能量。

在上述状态S _n的基础上，需要执行的动作包括：

式中，

表示移动无人机的位置，

表示无人机与移动终端之间的任务卸载。

结合表示所有移动终端的平均延迟最小的目标函数P，对目标函数P如下变化：

式中，

因此，在第n个时长片段内，立即奖励函数r _n为：

并且，当违反限制条件C1-C8中的任何一条时，则产生一个负奖励值作为惩罚。

最终的目的是通过不断更新大规模无人机辅助移动边缘计算网络中的策略π，最大化在整个任务执行时间从环境获得未来奖励V ^π，未来奖励V ^π的价值函数可以表示为：

式中，γ∈[0,1]表示未来奖励的折扣因子。

在上述大规模无人机辅助的移动边缘计算的场景相关数学模型的基础上，本申请实施例中通过神经网络模型进行训练，以拟合无人机位置优化策略以及任务卸载策略。

需要说明的是，上述大规模无人机辅助移动边缘计算网络场景下的数学模型，是在发明人做出了创造性的研究后得出的，因此，上述发明人所总结的数学表达式以及参数的选取均因视为对本申请创造性的贡献。

鉴于此，本申请实施中将上述策略模型拆分成待训练的位置模型以及任务分配模型，然后由训练设备进行交替训练。下面结合图2所示的模型构建方法的流程示意图，对各个步骤进行详细阐述。如图2所示，该模型构建方法可以包括：

步骤S1A，初始化位置模型、任务分配模型、第一无人机的状态以及第一移动终端的状态。

其中，第一无人机用于为第一移动终端提供边缘计算服务。为便于对训练期间与模型使用期间的无人机以及移动终端进行区分，本申请实施例中，将训练期间的无人机称为第一无人机，训练期间的移动终端称为第一移动终端。

相对应的，将模型使用期间的无人机称为第二无人机，训练期间的移动终端称为第二移动终端。

位置模型与任务分配模型均为用于强化学习的神经网络模型。其中，强化学习作为一种机器学习方法，介于监督学习与非监督学习之间。其原理在于：

假定待训练的位置模型与任务分配模型为智能体，该智能的某个行为策略导致环境正的奖励(强化信号)，那么该智能体以后产生这个行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖励和最大。

强化学习的学习过程看作试探评价过程，当智能体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给智能体，智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

强化学习不同于基于标签的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是智能体对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉智能体如何去产生正确的动作。由于外部环境提供了很少的信息，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动一一评价的环境中获得知识，改进行动方案以适应环境。

示例性的，本申请实施例中的位置模型可以选取DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度)模型；任务分配模型可以选取DQN(Deep Q Networks，深度Q网络)模型。当然，他适用于连续动作的强化学习模型也可以用于作为位置模型；其他适用于离散动作的强化学习模型也可以用于作为任务分配模型，本申请实施例不对此做具体的限定。

步骤S2A，将位置模型以及任务分配模型进行以下迭代，直到满足预设的迭代条件：

训练终端根据第一移动终端与第一无人机之间当前时刻的第一状态，通过位置模型获得第一无人机下一时刻的预测位置；根据预测位置更新位置模型的模型参数。

其中，第一状态可以是第一移动终端的位置、第一移动终端的剩余电量以及第一无人机的剩余电量。

具体地，该训练设备根据预测位置更新第一状态；根据更新后的第一状态，通过预设第一奖励策略获得与更新后的第一状态相对应的第一奖励值；根据第一奖励值，更新位置模型的模型参数。

进一步地，训练终端根据预测位置确定第一无人机与第一移动终端之间当前时刻的第二状态；根据第二状态，通过任务分配模型确定第一无人机与第一移动终端之间下一时刻的任务分配结果；根据任务分配结果，更新任务分配模型的模型参数。

其中，第二状态可以包括第一无人机的预测位置、第一移动终端的位置、第一无人机的剩余电量、第一移动终端的剩余电量以及第一移动终端中的计算任务。

具体地，训练终端根据任务分配结果更新第二状态；根据更新后的第二状态，通过预设第二奖励策略获得与第二状态相对应的第二奖励值；根据第二奖励值，更新位置模型的模型参数。

由此，训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题，使用层次强化学习交替优化对应位置模型以及任务模型，以达到降低了每个子问题的复杂度，并且提高了整体系统的学习效率与收敛效率。

示例性的，下面结合上述DDPG模型以及DQN模型对上述训练过程进行详细的介绍。当位置模型为上述DDPG模型时，DDPG模型包括评论家网络和演员网络。如图3所示，在DDPG模型中，演员网络用于根据环境中的状态，确定第一无人机的移动策略并执行更新位置的动作，而评论家网络则用于对更新位置的动作进行评分，该评分表示更新位置的动作所期望的最大收益。

然后，演员网络根据评论家网络的打分调整自己的策略，即更新演员网络中的模型参数。

评论家网络根据环境的反馈的第一奖励值调整自己的打分策略，即更新评论家网络中的模型参数。

其中，在获取第一奖励值时，训练设备通过预设第一奖励策略获得与更新后的第一状态相对应的第一奖励值进行计算得到。

然后，当训练设备根据更新后的第一状态，确定第一无人机满足任意一条第一限制条件时，则通过预设第一负奖励值调整第一奖励值，其中，第一限制条件可以包括：

第一无人机的移动速度超过速度阈值；

第一无人机的移动频率超过频率阈值。

可以理解为，当无人机移动位置的动作满足C1、C2中的任意一条限制条件时，则在第一奖励值的基础上通过该预设第一负奖励值进行调整。其中，立即奖励函数为上述表达式：

从环境获得未来奖励V ^π，未来奖励V ^π的价值函数则为上述表达式：

在对DDPG模型进行训练之前，可以随机初始化演员网络与评论家网络中的模型参数，经过多轮训练之后，演员网络与评论家网络不断收敛，表现结果也越来越好。

本申请实施例中，针对演员网络拟合出的位置策略，评论家网络进行评分的最优Q ^*值函数，可以表示为：

式中，

表示无人机将当前位置更新到预测位置后，在第n′个时长片段内位置模型从环境中获取的状态信息。

s′表示无人机将当前位置更新到预测位置后，在时长Δ剩余的时长片段内的状态信息，对应的表达式为：

s′＝s _n′+Δ；

r _n′(s′|s _n′,a _n′)表示在第n′个时长片段，s _n′,a _n′分别表示的状态与动作对应的奖励值。

α′表示在状态s′下所做出的策略。

表示第一无人机运动的动作(即第一无人机基于预测位置进行更新位置的动作)，γ表示衰减系数。

构建评论家网络目的是为了逼近最优Q ^*值函数，因此，本申请实施例中使用一系列与环境交互的经验池χ：

χ＝{s _n′,a _n′,r _n′,s _n′+γ}

对评论家网络进行训练，更新其模型参数θ ^c，其对应的损失函数表示为：

式中，ε ^u表示一组经验的集合，即多个χ＝{s _n′,a _n′,r _n′,s _n′+Δ}的集合。

相对应的，演员网络表示为u(s _n′,θ ^A)，表示演员网络在接收网络的状态s _n′后，确定出无人机需要执行位置移动动作。训练演员网络参数θ ^A的梯度函数为：

由此，通过评论家网络和演员网络分别对应的两个目标网络，使得训练出的DDPG模型更加稳定。

基于演员网络根据环境中的状态，确定第一无人机的移动策略并执行更新位置的动作后。请在此参照图3，保持无人机更新后的位置不变，通过上述DQN模型进行任务卸载。

值得说明的是，在DQN模型中，将时长Δ中的每个时长片段用η进行表示，其中，η∈[0,Δ-1]。时长片段η中任务卸载结果表示为α(n+η)。由于任务卸载结果为二元离散变量，因此，本申请实施例选取DQN模型作为任务分配模型。

具体地，从经验池中抽取一个批次的经验数据k，用于更新DQN模型的模型参数：

其中，DQN模型的Q值函数的更新方式如下：

式中，

为第二奖励策略对应的奖励函数，其对应的表达式为：

其中，训练设备通过预设第二奖励策略获得与第二状态相对应的第二奖励值。

然后，当训练设备根据更新后的第二状态，确定第一无人机与第一移动终端满足任意一条第二限制条件时，则通过预设第二负奖励值调整第二奖励值，其中，第二限制条件可以包括：

同一任务同时在第一无人机以及第一移动终端运行；

任务在第一无人机与第一移动终端之间传输时所消耗的总能量超过能量阈值；

至少一个任务的完成耗时超过时长阈值。

可以理解为可以理解为，当任务卸载的动作满足C3-C8中的任意一条限制条件时，则在第二奖励值的基础上通过该预设第二负奖励值进行调整。

本申请实施例还提供一种任务分配方法，应用于执行设备，执行设备配置有预训练的位置模型以及任务分配模型，预训练的位置模型以及任务分配模型由的模型构建方法进行训练获得。请参照图4，方法可以包括：

步骤S1B，获取第二移动终端与第二无人机之间当前时刻的第三状态；

步骤S2B，根据第三状态，通过位置模型确定第二无人机在下一时刻的预测位置。

步骤S3B，根据第二无人机在下一时刻的预测位置，确定第二无人机与第二移动终端之间的第四状态；

步骤S4B，根据第四状态，通过任务分配模型确定第二无人机与第二移动终端之间的任务分配结果。

可选地，为了降低第二无人机的功耗，本申请实施例中，步骤S2B中，根据第三状态，通过位置模型确定第二无人机在下一时刻的预测位置，可以包括：

每间隔第一时长片段，根据第三状态，通过位置模型确定第二无人机在下一时刻的预测位置，其中，第一时长片段可以包括多个第二时长片段。

示例性的，第一时长片段可以是上述计算任务的执行时间周期Δ，第二时长片段可以是时间周期被进一步分为了N个离散的时长片段。

步骤S4B中，根据第四状态，通过任务分配模型确定第二无人机与第二移动终端之间的任务分配结果，可以包括：

针对每个第二时长片段，保持第二无人机的位置不变，根据第四状态，通过任务分配模型确定第二无人机与第二移动终端之间的任务分配结果。

基于相同的发明构思，本申请实施例还提供一种模型构建装置，模型构建装置应用于训练设备，训练设备配置有待训练的位置模型以及任务分配模型。如图5所示，模型构建装置可以包括：

模型初始模块301，可以被配置成用于初始化位置模型、任务分配模型、第一无人机的状态以及第一移动终端的状态，其中，第一无人机用于为第一移动终端提供边缘计算服务。

本申请实施例中，模型初始模块301对应的计算机可执行指令被处理器执行时，实现图2中的步骤S1A。关于模型初始模块301的详细描述，可以参见步骤S1A的详细描述。

模型训练模块302，可以被配置成用于将位置模型以及任务分配模型进行以下至少一次迭代，直到满足预设的迭代条件：

根据第一移动终端与第一无人机之间当前时刻的第一状态，通过位置模型获得第一无人机下一时刻的预测位置；

根据预测位置更新位置模型的模型参数；

根据预测位置确定第一无人机与第一移动终端之间当前时刻的第二状态；

根据第二状态，通过任务分配模型确定第一无人机与第一移动终端之间下一时刻的任务分配结果；

根据任务分配结果，更新任务分配模型的模型参数。

值得说明的是，上述模型初始模块301以及模型训练模块302还可以用于实现模型构建方法的其他步骤或者子步骤，模型构建装置还可以根据所实现的功能包括其他模块，本申请实施例不对此做具体的限定。

本申请实施例中，模型训练模块302对应的计算机可执行指令被处理器执行时，实现图2中的步骤S2A。关于模型训练模块302的详细描述，可以参见步骤S2A的详细描述。

本申请实施例还提供一种任务调度装置，应用于执行设备，执行设备配置有预训练的位置模型以及任务分配模型，预训练的位置模型以及任务分配模型由模型构建装置进行训练获得。如图6所示，任务调度装置可以包括：

状态获取模块401，可以被配置成用于获取第二移动终端与第二无人机之间当前时刻的第三状态。

本申请实施例中，状态获取模块401对应的计算机可执行指令被处理器执行时，实现图4中的步骤S1B。关于状态获取模块401的详细描述，可以参见步骤S1B的详细描述。

位置确定模块402，可以被配置成用于根据第三状态，通过位置模型确定第二无人机在下一时刻的预测位置。

本申请实施例中，位置确定模块402对应的计算机可执行指令被处理器执行时，实现图4中的步骤S2B。关于位置确定模块402的详细描述，可以参见步骤S2B的详细描述。

状态获取模块401，还可以被配置成用于根据第二无人机在下一时刻的预测位置，确定第二无人机与第二移动终端之间的第四状态。

本申请实施例中，关于状态获取模块401的详细描述，还可以参见图4中的步骤S3B的详细描述。

任务分配模块404，可以被配置成用于根据第四状态，通过任务分配模型确定第二无人机与第二移动终端之间的任务分配结果。

本申请实施例中，任务分配模块404对应的计算机可执行指令被处理器执行时，实现图4中的步骤S4B。关于任务分配模块404的详细描述，可以参见步骤S4B的详细描述。

值得说明的是，上述状态获取模块401、位置确定模块402以及任务分配模块404还可以用于实现任务分配方法的其他步骤或者子步骤，任务调度装置还可以根据所实现的功能包括其他模块，本申请实施例不对此做具体的限定。

本申请实施例还提供一种电子设备，该电子设备可以是训练设备，还可以是执行设备可。电子设备包括处理器以及存储器，存储器存储有计算机程序。

当电子设备是训练设备时，计算机程序被处理器执行时，实现模型构建方法；当电子设备是执行设备时，计算机程序被处理器执行时，实现任务分配方法。

示例性的，该执行设备可以是与无人机以及移动过终端通信连接的服务器。

本申请实施例提供一种该电子设备的结构示意图。如图7所示，该电子设备可以包括存储器520、处理器530、通信装置540。其中，存储器520、处理器530以及通信装置540各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

该存储器520可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器 (Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器520用于存储计算机程序。当该电子设备是训练设备时，处理器530在接收到执行指令后，执行该计算机程序时，以实现模型构建方法；当该电子设备是执行设备时，处理器530在接收到执行指令后，执行该计算机程序时，以实现任务分配方法。通信装置540用于通过收发数据，其中，该网络可以是有线网络，还可以是无线网络。

其中，存储器520可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。其中，存储器520用于存储程序，处理器530在接收到执行指令后，执行程序。处理器530以及其他可能的组件对存储器520的访问可在存储控制器的控制下进行。

处理器530可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现模型构建方法或者任务分配方法。

综上所述，本申请实施例提供的模型构建方法、任务分配方法、装置、设备及介质中，训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题，使用层次强化学习交替优化对应位置模型以及任务模型，以达到降低了每个子问题的复杂度，并且提高了整体系统的学习效率与收敛效率。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

工业实用性

本申请提供了模型构建方法、任务分配方法、装置、设备及介质中，训练设备将无人机辅助移动边缘计算的调度策略拆分成无人机位置优化与任务计算卸载优化两个层级的子问题，使用层次强化学习交替优化对应位置模型以及任务模型，以达到降低了每个子问题的复杂度，并且提高了整体系统的学习效率与收敛效率。

此外，可以理解的是，本申请的模型构建方法、任务分配方法、装置、设备及介质是可以重现的，并且可以用在多种工业应用中。例如，本申请的模型构建方法、任务分配方法、装置、设备及介质可以用于数据处理的任何应用领域。

Claims

一种模型构建方法，其特征在于，应用于训练设备，所述训练设备配置有待训练的位置模型以及任务分配模型，所述方法包括：

初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态，其中，所述第一无人机用于为所述第一移动终端提供边缘计算服务；

将所述位置模型以及任务分配模型进行以下迭代，直到满足预设的迭代条件：

根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态，通过所述位置模型获得所述第一无人机下一时刻的预测位置；

根据所述预测位置更新所述位置模型的模型参数；

根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态；

根据所述第二状态，通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果；

根据所述任务分配结果，更新所述任务分配模型的模型参数。
根据权利要求1所述的模型构建方法，其特征在于，所述根据所述预测位置更新所述位置模型的模型参数，包括：

根据所述预测位置更新所述第一状态；

根据更新后的第一状态，通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值；

根据所述第一奖励值，更新所述位置模型的模型参数。
根据权利要求2所述的模型构建方法，其特征在于，所述根据更新后的第一状态，通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值，包括：

通过预设第一奖励策略获得与所述更新后的第一状态相对应的第一奖励值；

当根据所述更新后的第一状态，确定所述第一无人机满足任意一条第一限制条件时，则通过预设第一负奖励值调整所述第一奖励值，其中，所述第一限制条件包括：

所述第一无人机的移动速度超过速度阈值；

所述第一无人机的移动频率超过频率阈值。
根据权利要求1至3中任一项所述的模型构建方法，其特征在于，所述第一状态是所述第一移动终端的位置、所述第一移动终端的剩余电量以及所述第一无人机的剩余电量。
根据权利要求1至4中任一项所述的模型构建方法，其特征在于，所述根据所述任务分配结果，更新所述任务分配模型的模型参数，包括：

根据所述任务分配结果更新所述第二状态；

根据更新后的第二状态，通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值；

根据所述第二奖励值，更新所述位置模型的模型参数。
根据权利要求5所述的模型构建方法，其特征在于，所述根据更新后的第二状态，通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值，包括：

通过预设第二奖励策略获得与所述第二状态相对应的第二奖励值；

当根据所述更新后的第二状态，确定所述第一无人机与所述第一移动终端满足意一条第二限制条件时，则通过预设第二负奖励值调整所述第二奖励值，其中，所述第二限制条件包括：

同一任务同时在第一无人机以及第一移动终端运行；

任务在第一无人机与第一移动终端之间传输时所消耗的总能量超过能量阈值；

至少一个任务的完成耗时超过时长阈值。
根据权利要求5或6所述的模型构建方法，其特征在于，所述第二状态包括所述第一无人机的预测位置、所述第一移动终端的位置、所述第一无人机的剩余电量、所述第一移动终端的剩余电量以及所述第一移动终端中的计算任务。
一种任务分配方法，其特征在于，应用于执行设备，所述执行设备配置有预训练的位置模型以及任务分配模型，所述预训练的位置模型以及任务分配模型由权利要求1-7任意一项所述的模型构建方法进行训练获得，所述方法包括：

获取第二移动终端与第二无人机之间当前时刻的第三状态；

根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置；

根据所述第二无人机在下一时刻的预测位置，确定所述第二无人机与第二移动终端之间的第四状态；

根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。
根据权利要求8所述的任务分配方法，其特征在于，根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置，包括：

每间隔第一时长片段，根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置，其中，所述第一时长片段包括多个第二时长片段。
根据权利要求9所述的任务分配方法，其特征在于，根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果，包括：

针对每个所述第二时长片段，保持所述第二无人机的位置不变，根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。
一种模型构建装置，其特征在于，所述模型构建装置应用于训练设备，所述训练设备配置有待训练的位置模型以及任务分配模型，所述模型构建装置包括：

模型初始模块，被配置成用于初始化所述位置模型、所述任务分配模型、第一无人机的状态以及第一移动终端的状态，其中，所述第一无人机用于为所述第一移动终端提供边缘计算服务；

模型训练模块，被配置成用于将所述位置模型以及任务分配模型进行以下迭代，直到满足预设的迭代条件：

根据所述第一移动终端与所述第一无人机之间当前时刻的第一状态，通过所述位置模型获得所述第一无人机下一时刻的预测位置；

根据所述预测位置更新所述位置模型的模型参数；

根据所述预测位置确定所述第一无人机与所述第一移动终端之间当前时刻的第二状态；

根据所述第二状态，通过所述任务分配模型确定所述第一无人机与所述第一移动终端之间下一时刻的任务分配结果；

根据所述任务分配结果，更新所述任务分配模型的模型参数。
一种任务调度装置，其特征在于，应用于执行设备，所述执行设备配置有预训练的位置模型以及任务分配模型，所述预训练的位置模型以及任务分配模型由权利要求7所述的模型构建装置进行训练获得，所述任务调度装置包括：

状态获取模块，被配置成用于获取第二移动终端与第二无人机之间当前时刻的第三状态；

位置确定模块，被配置成用于根据所述第三状态，通过所述位置模型确定所述第二无人机在下一时刻的预测位置；

所述状态获取模块，还被配置成用于根据所述第二无人机在下一时刻的预测位置，确定所述第二无人机与第二移动终端之间的第四状态；

任务分配模块，被配置成用于根据所述第四状态，通过所述任务分配模型确定所述第二无人机与所述第二移动终端之间的任务分配结果。
一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1至7中的任意一项所述的模型构建方法或者权利要求8至10中的任一项所述的任务分配方法。
一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1至7中的任意一项所述的模型构建方法或者权利要求8至10中的任一项所述的任务分配方法。