WO2023065494A1

WO2023065494A1 - 一种意图驱动的强化学习路径规划方法

Info

Publication number: WO2023065494A1
Application number: PCT/CN2021/137549
Authority: WO
Inventors: 张华�; 苏娜; 王俊波
Original assignee: 东南大学
Priority date: 2021-10-18
Filing date: 2021-12-13
Publication date: 2023-04-27
Also published as: CN113848868A; CN113848868B

Abstract

意图驱动的强化学习路径规划方法包括：步骤1、数据采集器获取监测网络的状态；步骤2、根据环境障碍物、传感器节点和数据采集器的位置选择数据采集器的转向角；步骤3、根据ε贪心策略选择数据采集器的速度、目标节点和下一目标节点作为动作；步骤4、数据采集器根据选择的转向角和速度确定下一时隙的位置；步骤5、根据数据采集器和传感器节点的意图得到奖赏和惩罚，并更新Q值；步骤6、重复执行步骤1至步骤5，直至到达终止状态或收敛条件；步骤7、数据采集器选择每一时隙Q值最大的动作作为规划结果，生成最佳路径；强化学习路径规划方法以较高的成功概率、更接近意图的性能完成数据采集路径规划。

Description

一种意图驱动的强化学习路径规划方法

技术领域

本发明属于无线通信技术领域，尤其涉及一种意图驱动的强化学习路径规划方法。

背景技术

随着物联网领域的发展，无线传感器网络作为一种监测技术被广泛应用于监测周围环境，例如空气污染、海洋资源探测、灾害预警等。这些物联网传感器通常是能量受限的设备，传输范围有限，需要数据采集器收集传感器的数据并进行进一步的转发或处理。近年来，随着自动控制系统变得越来越智能和可靠，无人机、无人船和无人潜艇等智能设备已经被部署在军事和民用应用中，在危险和难以访问的环境下执行困难或乏味的任务。

尽管无人机、无人船和无人潜艇等作为数据采集器可以更方便地完成监测网络的数据收集，但它们存在能量有限这一关键挑战。从基地出发后，数据采集器需要向传感器节点行进，同时避免与环境障碍物、传感器节点的碰撞，并在规定时间内回到基地，防止能量耗尽。因此，需要根据数据采集器与传感器节点的意图合理地设计数据采集器的运动路径，以提高监测网络的数据采集效率。

在已有的数据采集路径规划方案中，大部分都是单独考虑数据采集器和传感器节点的意图，不能针对数据采集器和传感器节点不同的意图调整数据采集路径。同时，现有路径规划方法没有考虑监测环境中随机出现和随机移动的动态障碍物。因此，现有路径规划方法存在采集效率和可靠性低的问题。

发明内容

为解决上述技术问题，本发明提供一种意图驱动的强化学习路径规划方法，该方法根据实时变化的监测网络环境，将数据采集器和传感器节点的意图表示为奖赏与惩罚，利用Q-learning强化学习方法规划数据采集器的路径，提高数据采集的效率和可靠性。

一种意图驱动的强化学习路径规划方法，包括如下的步骤：

步骤A、数据采集器获取监测网络的状态；

步骤B、根据数据采集器、传感器节点和环境障碍物的位置，确定数据采集器的转向角；

步骤C、根据ε贪心策略选择数据采集器动作，包括数据采集器的速度、目标节点和下一目标节点；

步骤D、数据采集器根据转向角调整行进方向，执行动作至下一时隙位置；

步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚，并更新Q值；

步骤F、重复执行步骤A至步骤E，直到监测网络到达终止状态或Q学习满足收敛条件；

步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果，生成最优数据采集路径。

进一步地，所述步骤A中监测网络的状态s包括：数据采集器在时隙n的行进方向

数据采集器的坐标q _u[n]、传感器节点的可用存储空间

传感器节点的数据采集完成情况

数据采集器与传感器节点的距离

数据采集器与环境障碍物的距离

其中

为传感器节点的集合、

为环境障碍物的集合，w _m[n]∈{0,1}为传感器节点数据采集指示因子，w _m[n]＝1表示数据采集器在时隙n完成传感器节点m的数据采集，否则，表示未完成。

进一步地，所述步骤B中数据采集器转向角的计算公式表示为：

其中，

为数据采集器坐标q _u[n]与目标行进位置p[n]之间的相对角度，

为数据采集器的最大转向角。

进一步地，所述步骤B中确定目标行进位置的步骤包括：

步骤B1：判断数据采集器是否感知到障碍物，如果感知到障碍物，比较

和

的大小。如果

则数据采集器的目标行进位置

否则数据采集器的目标行进位置

其中

和

为数据采集器以最大感知角度探测环境障碍物边界上的两点，

和

分别为目标传感器节点与点

的相对角度。

步骤B2：如果数据采集器没有感知到环境障碍物，判断数据采集器到下一目标节点 m ₂的路径

是否穿过目标节点m ₁的通信区域

如果

不会穿过

则目标行进位置

其中，

为通信区域

上使距离

最短的点。

步骤B3：如果

穿过

判断路径

是否穿过目标节点m ₁的安全区域

如果

不会穿过

则目标行进位置

否则，目标行进位置

其中，

为安全区域

上使距离

最短的点。

进一步地，所述步骤C中ε贪心策略选择动作的方法表示为：

其中，ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。

进一步地，所述步骤D中数据采集器下一时隙位置的计算公式为：

其中，x _u[n-1]和y _u[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。

进一步地，所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括：

步骤D1：考虑数据采集器的意图为以最小的能量消耗E _tot安全完成所有传感器节点的数据采集，并在规定时间T内返回基地；传感器节点的意图为最小化溢出数据

则Q学习的奖赏R _a(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和

其中，s'为在状态s执行动作a后监测网络的下一状态、

为权重因子。

步骤D2：根据数据采集器与传感器节点的意图，Q学习的惩罚为C _a(s,s')＝θ _safe+θ _bou+θ _time+θ _tra+θ _ter，其中，θ _safe为安全惩罚，表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离；θ _bou为边界惩罚，表示数据采集器不得超过其可行区域；θ _time为时间惩罚，表示数据采集器须在时间T内完成数据采集；θ _tra为遍历采集惩罚，表示所有传感器节点的数据须被采集；θ _ter为终点惩罚，表示数据采集器须在时间T内返回基地。

进一步地，所述步骤E中Q值的更新公式为：

其中，α为学习率、γ为奖赏折扣因子。

进一步地，所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集；Q学习的收敛条件表示为：

|Q _j(s,a)-Q _j-1(s,a)|≤ξ (5)

其中，ξ为学习允许误差、j为学习的迭代次数。

进一步地，意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。

本发明的一种意图驱动的强化学习路径规划方法具有以下优点：

根据监测环境中的随机动态障碍物和实时感知数据，综合考虑数据采集器和传感器节点的意图，设计了节点全覆盖的数据采集路径规划方法。Q学习模型会根据当前监测网络状态信息，优化数据采集器的实时坐标，最小化意图差异，同时提高数据采集的效率和可靠性。

附图说明

图1为本发明的举例场景图；

图2为本发明的实施流程示意图。

具体实施方式

下面结合附图，对本发明一种意图驱动的强化学习路径规划方法做进一步详细的描述。

图1为本发明的举例场景图。如图1所示，

海洋监测网络中有一个无人船，M个传感器节点，K个诸如海岛、海浪、礁石等的障碍物。无人船从基地出发，避免与障碍物、传感器节点的碰撞，在规定时间T内，完成每个传感器节点的数据采集，并返回到基地。为了满足无人船和传感器节点的意图，将无人船加权能量消耗和传感器节点数据溢出表示为强化学习的奖赏，将安全意图、遍历采集意图、按时返回基地的意图表示为惩罚，利用Q学习方法优化无人船的路径。

图2为本发明的实施流程示意图，具体的实施步骤为：

步骤一、数据采集器获取监测网络的状态信息包括：数据采集器在时隙n的行进方向

数据采集器的坐标q _u[n]、传感器节点的可用存储空间

传感器节点的数据采集完成情况

数据采集器与传感器节点的距离

数据采集器与环境障碍物的距离

其中

为传感器节点的集合、

步骤二、根据数据采集器、传感器节点和环境障碍物的位置，确定数据采集器的转向角采用了如下步骤：

(1)判断数据采集器是否感知到障碍物，如果感知到障碍物，比较

和

的大小。如果

则数据采集器的目标行进位置

否则数据采集器的目标行进位置

其中

和

分别为目标传感器节点与点

的相对角度。

(2)如果数据采集器没有感知到环境障碍物，判断数据采集器到下一目标节点m ₂的路径

是否穿过目标节点m ₁的通信区域

如果

不会穿过

则目标行进位置

其中，

为通信区域

上使距离

最短的点。

(3)如果

穿过

判断路径

是否穿过目标节点m ₁的安全区域

如果

不会穿过

则目标行进位置

否则，目标行进位置

其中，

为安全区域

上使距离

最短的点。

(4)利用如下公式计算数据采集器的转向角：

其中，

为数据采集器的最大转向角。

步骤三、根据ε贪心策略选择数据采集器动作，包括数据采集器的速度、目标节点和下一目标节点。其中，ε贪心策略选择动作的方法表示为：

步骤四、数据采集器根据转向角调整行进方向，执行动作至下一时隙位置，数据采集器坐标表示为：

步骤五、根据数据采集器和传感器节点的意图计算奖赏和惩罚，并利用如下公式更新Q值：

其中α为学习率、γ为奖赏折扣因子。

奖赏和惩罚的计算步骤包括：

(1)考虑数据采集器的意图为以最小的能量消耗E _tot安全完成所有传感器节点的数据采集，并在规定时间T内返回基地；传感器节点的意图为最小化溢出数据

其中，s'为在状态s执行动作a后监测网络的下一状态、

为权重因子。

(2)根据数据采集器与传感器节点的意图，Q学习的惩罚为C _a(s,s')＝θ _safe+θ _bou+θ _time+θ _tra+θ _ter，其中，θ _safe为安全惩罚，表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离；θ _bou为边界惩罚，表示数据采集器不得超过其可行区域；θ _time为时间惩罚，表示数据采集器须在时间T内完成数据采集；θ _tra为遍历采集惩罚，表示所有传感器节点的数据须被采集；θ _ter为终点惩罚，表示数据采集器须在时间T内返回基地。

步骤六、重复执行步骤一至步骤五，直到监测网络到达终止状态或Q学习满足收敛条件。其中，终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集，Q学习的收敛条件表示为：

|Q _j(s,a)-Q _j-1(s,a)|≤ξ (5)

其中，ξ为学习允许误差、j为学习的迭代次数。

步骤七、数据采集器选择每一时隙Q值最大的动作作为规划结果，生成最优数据采集路径。

本发明意图驱动的强化学习路径规划方法适用于无人机协助的地面物联网、无人船协助的海洋监测网络、无人潜艇协助的海床传感器网络。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

一种意图驱动的强化学习路径规划方法，其特征在于，包括以下步骤：

步骤A、数据采集器获取监测网络的状态；

步骤B、根据数据采集器、传感器节点和环境障碍物的位置，确定数据采集器的转向角；

步骤C、根据ε贪心策略选择数据采集器动作，包括数据采集器的速度、目标节点和下一目标节点；

步骤D、数据采集器根据转向角调整行进方向，执行动作至下一时隙位置；

步骤E、根据数据采集器和传感器节点的意图计算奖赏和惩罚，并更新Q值；

步骤F、重复执行步骤A至步骤E，直到监测网络到达终止状态或Q学习满足收敛条件；

步骤G、数据采集器选择每一时隙Q值最大的动作作为规划结果，生成最优数据采集路径。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤A中监测网络的状态s包括：数据采集器在时隙n的行进方向
数据采集器的坐标q _u[n]、传感器节点的可用存储空间
传感器节点的数据采集完成情况
数据采集器与传感器节点的距离
数据采集器与环境障碍物的距离
其中
为传感器节点的集合、
为环境障碍物的集合，w _m[n]∈{0,1}为传感器节点数据采集指示因子，w _m[n]＝1表示数据采集器在时隙n完成传感器节点m的数据采集，否则，表示未完成。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤B中数据采集器转向角的计算公式表示为：

其中，
为数据采集器坐标q _u[n]与目标行进位置p[n]之间的相对角度，
为数据采集器的最大转向角。
根据权利要求3所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤B中确定目标行进位置的步骤包括：

步骤B1：判断数据采集器是否感知到障碍物，如果感知到障碍物，比较
和
的大小；如果
则数据采集器的目标行进位置
否则数据采集器的目标行进位置
其中
和
为数据采集器以最大感知角度探测环境障碍物边界上的两点，
和
分别为目标传感器节点与点
的相对角度；

步骤B2：如果数据采集器没有感知到环境障碍物，判断数据采集器到下一目标节点m ₂的路径
是否穿过目标节点m ₁的通信区域
如果
不会穿过
则目标行进位置
其中，
为通信区域
上使距离
最短的点；

步骤B3：如果
穿过
判断路径
是否穿过目标节点m ₁的安全区域
如果
不会穿过
则目标行进位置
否则，目标行进位置
其中，
为安全区域
上使距离
最短的点。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤C中ε贪心策略选择动作的方法表示为：

其中，ε为探索概率、β∈[0,1]为随机产生的数值、Q(s,a)为状态s时执行动作a的Q值。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤D中数据采集器下一时隙位置的计算公式为：

其中，x _u[n-1]和y _u[n-1]为数据采集器的x坐标和y坐标、v[n]为数据采集器的行进速度、τ为每个时隙的时长。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤E中数据采集器和传感器节点意图对应的奖赏和惩罚计算步骤包括：

步骤D1：考虑数据采集器的意图为以最小的能量消耗E _tot安全完成所有传感器节点的数据采集，并在规定时间T内返回基地；传感器节点的意图为最小化溢出数据
则Q学习的奖赏R _a(s,s')为数据采集器能量消耗和传感器节点数据溢出的加权和
其中，s'为在状态s执行动作a后监测网络的下一状态、
为权重因子；

步骤D2：根据数据采集器与传感器节点的意图，Q学习的惩罚为Ca(s，s′)＝θ _safe+θ _bou+θ _time+θ _tra+θ _ter，其中，θ _safe为安全惩罚，表示数据采集器与环境障碍物、数据采集器与传感器节点的距离须满足防碰撞距离；θ _bou为边界惩罚，表示数据采集器不得超过其可行区域；θ _time为时间惩罚，表示数据采集器须在时间T内完成数据采集；θ _tra为遍历采集惩罚，表示所有传感器节点的数据须被采集；θ _ter为终点惩罚，表示数据采集器须在时间T内返回基地。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤E中Q值的更新公式为：

其中，α为学习率、γ为奖赏折扣因子。
根据权利要求1所述的一种意图驱动的强化学习路径规划方法，其特征在于，所述步骤F中监测网络的终止状态为数据采集器完成传感器节点的数据采集或数据采集器在时刻T还未完成数据采集；Q学习的收敛条件表示为：

|Q _j(s,a)-Q _j-1(s,a)|≤ξ (5)

其中，ξ为学习允许误差、j为学习的迭代次数。