WO2022007179A1

WO2022007179A1 - 一种多agv运动规划方法、装置和系统

Info

Publication number: WO2022007179A1
Application number: PCT/CN2020/114422
Authority: WO
Inventors: 王学强; 张一凡; 邹李兵; 张富强
Original assignee: 歌尔股份有限公司
Priority date: 2020-07-10
Filing date: 2020-09-10
Publication date: 2022-01-13
Also published as: CN112015174A; US20220317695A1; CN112015174B

Abstract

一种多AGV运动规划方法、装置（500）和系统（600）。方法包括：通过强化学习方法建立对象模型（S110）；基于对象模型搭建神经网络模型，进行包括AGV群（620）部署在内的环境设置，利用所设置环境下AGV的对象模型对神经网络模型进行训练，直至得到稳定的神经网络模型（S120）；设置动作约束规则（S130）；启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得神经网络模型输出的运动规划结果的评估指标，根据评估指标得到当前AGV待执行动作，并利用动作约束规则对待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作（S140）。从而能够改善多AGV运动规划方法在动态密集环境中的性能。

Description

一种多AGV运动规划方法、装置和系统

技术领域

本申请涉及计算机技术领域，具体涉及一种多AGV运动规划方法、装置和系统。

发明背景

近年来，智能体(Automated Guided Vehicles，AGV)在智能制造和物流领域的应用逐步推广普及，有效的提高了生产、制造和搬运环节的运输效率，减轻了人力工作负担。其中，通过多AGV协同工作能够提高AGV工作效率，但同时会使运动规划问题更加复杂和困难。常见的路径规划算法，如A*算法，人工势场法等，在处理多AGV运动规划问题时，存在计算代价高，容易陷入局部最小解等问题。

发明内容

本申请提供了一种多AGV运动规划方法、装置和系统，用于解决或部分解决上述技术问题。

一方面，本申请实施例提供了一种多AGV运动规划方法，该方法包括：

通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作；

基于对象模型搭建神经网络模型，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对神经网络模型进行训练，直至得到稳定的神经网络模型；

设置动作约束规则，利用动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得神经网络模型输出的运动规划结果的评估指标，根据评估指标得到当前AGV待执行动作，并利用动作约束规则对待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。

再一方面，本申请实施例提供了一种多AGV运动规划装置，该装置包括：

建模单元，用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作；

训练单元，用于基于对象模型搭建神经网络模型，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对神经网络模型进行训练，直至得到稳定的神经网络模型；

设置单元，用于设置动作约束规则，利用动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

实施单元，用于启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得神经网络模型输出的运动规划结果的评估指标，根据评估指标得到当前AGV待执行动作，并利用所动作约束规则对待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。

又一方面，本申请实施例提供了一种多AGV运动规划系统，包括部署多AGV运动规划装置的控制中心、部署在环境中由多个AGV构成的AGV群和任务调度中心平台；

AGV群中的AGV利用自身传感器获取自身状态并上传给控制中心，以及接收控制中心下发的动作指令，执行动作指令对应的动作；

任务调度中心平台，用于完成任务规划与任务派发，将某个AGV的任务发送至控制中心，由控制中心控制该AGV完成任务；

控制中心，内置稳定的神经网络模型，将接收到的AGV状态输入到神经网络模型，利用神经网络模型计算得到该AGV的运动规划策略，再根据该运动规划策略生成动作指令并下发给该AGV。

第四方面，本申请提供了一种电子设备，存储器和处理器；存储器，存储计算机可执行指令；处理器，计算机可执行指令在被执行时使处理器执行多AGV运动规划方法。

又一方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质上存储有一个或多个计算机程序，该一个或多个计算机程序被执行时实现多AGV运动规划方法。

本申请的有益效果是：本发明实施例一方面采用深度强化学习方法，利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点，改善多AGV运动规划方法在动态环境中的性能；另一方面将最优路径搜索算法和深度强化学习算法进行结合，使用最优路径搜索算法约束深度强化学习算法的学习方向，以使AGV在密集环境下能够规划出可行路线，避免AGV陷入局部死锁状态。

附图简要说明

图1是本申请一个实施例的多AGV运动规划方法的流程示意图；

图2是本申请一个实施例的多AGV运动环境示意图；

图3是本申请一个实施例的多AGV运动规划设计示意图；

图4是本申请一个实施例的基于GA3C框架建立的深度强化学习训练框架的结构示意图；

图5是本申请一个实施例的多AGV运动规划装置的功能框图；

图6是本申请一个实施例的多AGV运动规划系统的结构示意图；

图7是本申请一个实施例的控制中心对系统的控制状态示意图；

图8是本申请一个实施例的电子设备的结构示意图；

图9是本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

目前，在动态密集环境下进行多AGV运动规划，多AGV运动规划问题面临着搜索空间增大、环境动态变化等问题，并且难度会随着环境规模扩大、AGV数量增加而呈指数级增高。现有运动规划算法存在难以求解或者计算代价过大等问题，且在密集环境下，现有方法容易导致AGV死锁，不能很好的完成运动规划。

基于以上描述，本申请实施例以深度强化学习方法为基础，解决在动态环境下多AGV的运动规划问题，并将深度强化学习方法与最优路径搜索方法相结合，解决密集环境下多AGV的运动规划问题，完成在动态密集环境下的多AGV运动规划任务。

参见图1，该方法包括如下步骤：

步骤S110，通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，该对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作。

本步骤中，当前AGV的许可动作是根据最优路径策略和动作空间获得。

步骤S120，基于该对象模型搭建神经网络模型，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对神经网络模型进行训练，直至得到稳定的神经网络模型。

步骤S130，设置动作约束规则，利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断。

本步骤中，动作约束规则可以对当前AGV的待执行动作进行有效性判断，在判断待执行动作为有效动作时，启动运动规划后，当前AGV即可直接执行该待执行动作，在判断待执行动作为无效动作时，启动运动规划后，当前AGV需要从动作空间中提取出当前AGV的最优路径包含的多个可执行动作，从多个可执行动作中选择相应的动作执行。

步骤S140，启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得神经网络模型输出的运动规划结果的评估指标，根据评估指标得到当前AGV待执行动作，并利用动作约束规则对待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。

由图1所示可知，本实施例一方面采用深度强化学习方法，利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点，改善多AGV运动规划方法在动态环境中的性能；本实施例另一方面将最优路径搜索算法和深度强化学习算法进行结合，使用最优路径搜索算法约束深度强化学习算法的学习方向，以使AGV在密集环境下能够规划出可行路线，避免AGV陷入局部死锁状态。

下面以一个多AGV运动环境为例，对在多AGV运动环境中的当前AGV的运动规划方法的实现步骤进行具体说明。

参见图2示出的多AGV运动环境，为AGV常见的任务场景，如工厂、仓库、物流中心等环境。图2中的黑心圆形表示AGV所处位置；黑心星形表示AGV的目标位置；斜线区域表示环境中的禁行区，如障碍物、工区、货架等，一般可依据任务场景的地图图纸、安全规范等实际条件绘制，AGV禁止进入禁行区；虚线表示路径，箭头表示路径的方向，AGV需要按照所处路径的方向沿该路径行驶；路网由路径组成，表示AGV在环境内许可的行驶路线，路网中的路径需要形成闭环，即在路网上任意取两点作为出发位置和目标位置，能够在路网上搜索出至少一条由出发位置到目标位置的路径。

在搭建好多AGV运动环境后，进行运动规划算法设计，该运动规划算法设计包括对象模型的构建、神经网络模型的设计与训练、动作约束设计。

对象模型的构建：

在一个实施例中，上述步骤S110具体是使用马尔可夫决策过程描述对象模型，马尔可夫决策过程(Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。

在本实施例的多AGV运动环境中，对象模型包括：AGV状态、动作空间以及运动规划结果的评估指标；其中，AGV状态包括当前AGV状态o _a、其他AGV状态

和当前AGV的许可动作a _a，运动规划结果的评估指标包括：策略π和值函数V；其中，

当前AGV状态o _a包括：当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离；

其他AGV状态

包括：其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离；

当前AGV的许可动作a _a：根据最优路径策略和动作空间获得；

动作空间a：在当前AGV的本体极坐标系下的速度与角度；

策略π：用于描述当前AGV在t时刻的联合状态o _t下选择动作a _t的策略；

值函数V：用于描述在联合状态o _t下采取策略π的预期收益；

联合状态o _t：由当前AGV状态o _a、其他AGV状态

和许可动作a _a构成的状态。

在一实施例中，对象模型还包括：用于描述当前AGV采取动作a _t给予的奖励r，以及折扣因子γ是在计算当前AGV执行动作a _t所获得奖励时使用的衰减因子，用于调整值函数的输出。

即上述各对象模型具体内容如下：

1.状态s：

AGV状态s _a包含AGV位置、速度、目标位置、尺寸、最近n(n为大于1 的整数)个状态的平均速度、AGV和目标的路网距离，AGV状态s _a的获得方式不依赖于特定传感器，可以表示为：

s _a＝[p _x,p _y,v _x,v _y,p _gx,p _gy,r,v _m,d _grn]∈R ⁹

其中，在基于多AGV运动环境的欧氏坐标系∑ _e下，(p _x,p _y)表示AGV的位置，(v _x,v _y)表示AGV的速度，(p _gx,p _gy)表示目标位置，r表示AGV尺寸，v _m表示最近n个状态的平均速度，d _grn表示AGV和目标的路网距离。

同理，相对于当前AGV，多AGV运动环境内其他AGV的状态

表示如下：

其中，

表示第i个AGV的状态，表示为：

观察o：

为适应不同运动环境，避免坐标变换带来的影响，以及实现去中心化的训练方法，本实施例将在全局欧氏坐标系∑ _e下表示的AGV状态变换为在当前AGV的本体极坐标系∑ _p下表示的AGV观察状态，即当前AGV状态o _a，表示为：

o _a＝[r _v,θ _v,r _g,θ _g,r,v _m,d _grm]∈R ⁷

其中，(r _v,θ _v)表示当前AGV速度的极坐标，(r _g,θ _g)表示当前AGV目标的极坐标，r表示当前AGV尺寸，v _m表示最近n个状态的平均速度，d _grm表示当前AGV和目标的路网距离。

同理，在当前AGV的本体极坐标系∑ _p下观察环境内其他AGV的状态，即其他AGV状态

表示为：

其中，

表示第i个AGV的观察状态，可以表示为：

其中，

表示第i个AGV在∑ _p下相对位置的极坐标，

表示第i个AGV在∑ _p下相对速度的极坐标，

表示第i个AGV在∑ _p下目标的相对位置的极坐标，

表示第i个AGV和目标的路网距离，表示

第i个AGV的尺寸，

表示第i个AGV和当前AGV的尺寸之和，

表示第i个AGV和当前AGV的路网距离。

许可动作a _a：

AGV沿路网中由出发位置到目标位置的最优路径行驶，因此，AGV在当前所处位置许可执行的动作与当前所处位置的最优路径存在约束关系，该约束关系表示为许可执行的动作方向与最优路径方向的一致。基于此，本实施例利用动作空间a和最优路径方向θ _or进行编码，得到当前AGV在当前所处位置的许可动作a _a，其中动作空间a和最优路径方向θ _or进行编码的一种表示方式为：

在本实施例中，可以在路网中根据出发位置和目标位置，使用路径搜索算法得到AGV的最优路径(或最优路径方向θ _or)，其中，路径搜索算法包括A*算法(A*是一种静态路网中求解最短路径的直接搜索方法，目前暂无中文译名)，Dijkstra算法(最短路径算法)，M*算法(又称为大M算法)。

2.动作空间a

当前AGV采取的动作空间a是指在当前AGV的本体极坐标系∑ _p的速度v和角度θ，动作空间a基于本体极坐标系∑ _p描述，不受不同环境全局坐标系的坐标变换影响，表示如下：

a＝[v,θ]∈R ²

3.状态转移模型p：

当前AGV在当前联合状态o _t采取动作a _t，转移到下一联合状态o _t的概率分布p(o _t+1,o _t|a _t)。

4.奖励r

奖励函数描述多AGV运动环境对当前AGV采取动作a _t给予的奖励，包括至少三种描述类型，第一种描述类型R _goal为在当前AGV到达或靠近目标位置时给予的奖励，第二种描述类型R _agv为在当前AGV碰撞或靠近其他AGV时给予的惩罚，第三种描述类型R _rn为在当前AGV偏离路网时给予的惩罚；其中，

通过下述方式设置第一种描述类型R _goal：

在当前AGV到达目标位置p _g时，给予正值的最大奖励值α；

在当前AGV靠近目标位置p _g时，给予正值的折扣奖励值i*α；以及，

在当前AGV静止或远离目标位置p _g时，给予负值的折扣奖励值-i*α；

其中，基于路网距离设置第一折扣系数i，由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α。

通过下述方式设置第二种描述类型R _agv：

当前AGV与其他AGV的距离小于第一阈值条件t _agv时，给予最大惩罚值β；

在当前AGV与其他AGV的距离大于第一阈值条件t _agv且小于第二阈值条件m*t _agv时，给予折扣惩罚值j*β；以及，

在当前AGV与其他AGV的距离大于第二阈值条件m*t _agv时，不给予惩罚，m为预设倍数值；

其中，基于距离设置第二折扣系数j，由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β。

通过下述方式设置第三种描述类型R _rn：

在当前AGV与当前路径的距离d _rn不小于第三阈值条件t _rn时，给与惩罚δ；

在当前AGV与当前路径的距离d _rn小于第三阈值条件t _rn时，不给予惩罚。

在t时刻，完整的奖励函数R _t为：

R _t＝R _goal+R _agv+R _rn

5.折扣因子γ

是在计算当前AGV执行动作a _t所获得奖励时使用的衰减因子，用于调整值函数的输出，γ∈[0,1)。

6.策略π

根据当前AGV在t时刻联合状态o _t，当前AGV选择动作a _t的策略π可描述为：

π：(a _t|o _t；w _t)

其中，w _t表示当前神经网络模型的参数，该策略π的目标是使当前AGV到达目标位置的期望时间最小化，并避免与其他AGV发生碰撞以及避免偏离路网。

7.值函数V

当前AGV在联合状态o _t下采取策略π的预期收益，可描述为：

V(o _t；w _t)＝E[R _t|o _t]

利用上述描述的参数可以基于马尔可夫决策过程描述对象模型，完成对象模型的构建。

神经网络模型的设计与训练

本实施例可以通过下述方法构建神经网络模型：

采用全连接神经网络搭建神经网络模型，如图3所示，该神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作；其中，

当前AGV的许可动作输入到第一单隐层全连接神经网络，

当前AGV状态输入到第二单隐层全连接神经网络，

其他AGV状态输入到长短期记忆网络(Long Short-Term Memory，LSTM)，再输入到第三单隐层全连接神经网络，

将三个单隐层全连接神经网络的输出串联成为一个张量后，输入到双隐层全连接神经网络，由双隐层全连接神经网络输出运动规划结果的评估指标；

该神经网络模型的输出为双隐层全连接神经网络的输出。

其中，第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度，第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度，由全连接层和激活函数ReLU串行后组成单隐层全连接神经网络，即由全连接层和ReLU串行后组成第一单隐层全连接神经网络、第二单隐层全连接神经网络、第三单隐层全连接神经网络。

由于本实施例中其他AGV状态对应的张量维度远大于许可动作、当前AGV状态的张量维度，若直接将其他AGV状态、当前AGV状态和许可动作拼接成一个张量输入到神经网络模型，将会因为输入数据维度的不平衡而影响神经网络模型的性能，导致输出结果欠佳。而本实施例先将三个输入张量各自输入到对应的单隐层全连接神经网络，通过单隐层全连接神经网络对输入张量进行维度平衡后，再拼接成一个张量输入到双隐层全连接神经网络，则可以提升整个模型的性能。

在一个实施例中，在将其他AGV状态输入到长短期记忆网络之前，先提取其他AGV与当前AGV的距离，将其他AGV状态按照与当前AGV的距离由远到近排序之后，再输入到LSTM。

在一个实施例中，可以基于GA3C训练框架建立深度强化学习训练框架，搭建神经网络模型，建立的深度强化学习训练框架由多个AGV构成的智能体、数据队列和基于GPU的神经网络模型三个部分组成。

需要说明的是，GA3C是指应用于图形处理器(Graphics Processing Unit，GPU)的异步优势评价器算法(Asynchronous Advantage Actor-Critic，A3C)，GA3C框架使用GPU进行强化学习训练，能够提升模型训练速度和性能。

在一个优选实施例中，在GA3C训练框架中添加多个并行运算GPU，建立基于多GPU的神经网络模型，相应的，深度强化学习训练框架由智能体、数据队列和多GPU的神经网络模型组成。

如图4所示，本实施例中的深度强化学习训练框架包括：

由多个AGV构成的智能体，用于与外界环境交互，实时获取AGV的状态、动作等数据，为搭建深度强化学习训练框架的提供数据。

数据队列中包括有预测器和训练器，得到的训练数据和预测数据均存储在该数据队列中。

其中，通过预测器根据当前策略π选择动作a _t，并收集AGV状态、动作空间作为训练数据，输入训练器进行训练，并通过预测器输入当前AGV状态到神经网络模型，从神经网络模型得到策略π和值函数V，并选择动作a _t，计算奖励r得到预测数据；通过训练器输入当前AGV状态、许可动作、其他AGV状态神经网络模型，训练神经网络模型，以更新神经网络模型的参数。

在一个实施例中，图1步骤S120具体是设置至少一个环境，每个环境中部署多个AGV，各个环境中的地图和/或路网和/或AGV数量不同；将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到神经网络模型进行训练，以更新神经网络模型的参数。

可以理解的是，不同环境可以是在路径、禁行区、AGV数量、目标等各个方面可以都不相同、部分相同或者完全一致，增加环境的类型，能够促进算法在不同环境下训练，保证模型的适用性。

在一个实施例中，多GPU的神经网络模型，由多个并行运算的GPU组成，构成多GPU的基于深度强化学习的神经网络模型。

在一个实施例中，更新神经网络模型的参数的过程包括：

将当前AGV状态、许可动作、其他AGV状态作为训练数据；随机初始化神经网络模型参数，基于获得动作a _t和获得的奖励r，计算策略损失函数f _π(w)和值函数损失函数f _V(w)；通过反向传播算法，更新各个GPU中神经网络模型的参数，训练神经网络模型；检测一段时间内累积的奖励r、策略损失函数f _π(w)和值函数损失函数f _V(w)的变化过程，根据奖励和损失函数判断神经网络模型的性能，直至得到稳定的神经网络模型。

本实施例中，累积的奖励越高，表示神经网络模型的性能越好，损失函数的值越低，表示神经网络模型的性能越好。当奖励和损失函数的值均到达稳定区间，则可得到稳定的神经网络模型。

其中，策略损失函数f _π(w)表示为：

f _π(w)＝logπ(a _t|o _t；w _t)(R _t-V(o _t；w _t))+φH(π(o _t；w))

其中，表示策略损失函数中的正则项，起到调节f _π(w)的作用。

值函数损失函数f _V(w)表示为：

f _V(w)＝(R _t-V(o _t；w _t)) ²

动作约束设计

在本实施例中，动作约束规则用于限制神经网络模型输出的策略，并进一步限制当前AGV动作的选择，从而将当前AGV执行的动作约束在最优路径许可动作范围内，促进模型在训练过程中收敛。

在一个实施例中，图1步骤S130中基于评估指标得到的当前AGV的待执行动作可以是采用贪婪算法选择神经网络输出策略中概率最大的动作。

相应的图1中利用动作约束规则对待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作，包括：

判断待执行动作是否为当前AGV的许可动作，若待执行动作为当前AGV的许可动作，当前AGV执行该待执行动作。

若待执行动作不是当前AGV的许可动作，根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作，计算当前AGV的有效动作并执行。具体是：从当前AGV的动作空间中提取最优路径包含的多个第一许可动作；利用神经网络模型输出的运动规划结果的评估指标从多个第一许可动作中选择满足预设条件的第二许可动作；根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞，若发生碰撞，当前AGV执行静止动作，若未发生碰撞，当前AGV执行该第二许可动作。

在一个实施例中，可以利用策略π计算出每个第一许可动作对应的概率值，选择概率值最大对应的第一许可动作为第二许可动作。

与前述方法相对应，本申请还提供了一种多AGV运动规划装置。

图5是本申请一个实施例的多AGV运动规划装置的功能框图，如图5所示，多AGV运动规划装置500包括：

建模单元510，用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，该对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作；

训练单元520，用于设置动作约束规则，利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

设置单元530，用于设置动作约束规则，利用该动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

实施单元540，用于启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得该神经网络模型输出的运动规划结果的评估指标，根据该评估指标得到当前AGV待执行动作，并利用动作约束规则对该待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。

在一个实施例中，实施单元540包括判断模块、第一动作执行模块和第二动作执行模块；

判断模块，用于判断待执行动作是否为当前AGV的许可动作；

第一动作执行模块，用于在该待执行动作为当前AGV的许可动作时，使当前AGV执行该待执行动作；

第二动作执行模块，用于在该待执行动作不是当前AGV的许可动作，根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作，计算当前AGV的有效动作并执行。

在一个实施例中，第二动作执行模块，还用于从当前AGV的动作空间中提取最优路径包含的多个第一许可动作；利用神经网络模型输出的运动规划结果的评估指标从多个第一许可动作中选择满足预设条件的第二许可动作；根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞，若发生碰撞，当前AGV执行静止动作，若未发生碰撞，当前AGV执行该第二许可动作。

在一个实施例中，运动规划结果的评估指标包括：用于描述当前AGV在t时刻的联合状态下选择动作a _t的策略π和用于描述在联合状态下采取策略π的预期收益的值函数V，联合状态为由当前AGV状态、其他AGV状态和许可动作构成的状态；

第二动作执行模块，具体是用于利用策略π计算出每个第一许可动作对应的概率值，选择概率值最大对应的第一许可动作为第二许可动作。

在一个实施例中，建模单元510是使用马尔可夫决策过程描述对象模型，许可动作根据最优路径策略和动作空间获得，动作空间为在当前AGV的本体极坐标系下的速度与角度；

当前AGV状态包括：当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离；

其他AGV状态包括：其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离；

对象模型还包括：用于描述当前AGV采取动作给予的奖励，该奖励包括至少三种描述类型，第一种描述类型为在当前AGV到达或靠近目标位置时给予的奖励，第二种描述类型为在当前AGV碰撞或靠近其他AGV时给予的惩罚，第三种描述类型为在当前AGV偏离路网时给予的惩罚；其中，

通过下述方式设置第一种描述类型：

在当前AGV到达目标位置p _g时，给予正值的最大奖励值α；基于路网距离设置第一折扣系数i，由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α，在当前AGV靠近目标位置p _g时，给予正值的折扣奖励值i*α；以及在当前AGV静止或远离目标位置p _g时，给予负值的折扣奖励值-i*α；

通过下述方式设置第二种描述类型：

当前AGV与其他AGV的距离小于第一阈值条件t _agv时，给予最大惩罚值β；基于距离设置第二折扣系数j，由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β，在当前AGV与其他AGV的距离大于第一阈值条件t _agv且小于第二阈值条件m*t _agv时，给予折扣惩罚值j*β；以及在当前AGV与其他AGV的距离大于第二阈值条件m*t _agv时，不给予惩罚；m为预设倍数值；

通过下述方式设置第三种描述类型：

在当前AGV与当前路径的距离不小于第三阈值条件t _rn时，给与惩罚δ；在当前AGV与当前路径的距离小于第三阈值条件t _rn时，不给予惩罚。

在一个实施例中，训练单元520包括模型构建模块，该模型构建模块是采用全连接神经网络搭建神经网络模型，神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作；其中，当前AGV的许可动作输入到第一单隐层全连接神经网络，当前AGV状态输入到第二单隐层全连接神经网络，其他AGV状态输入到长短期记忆网络，再输入到第三单隐层全连接神经网络，将三个单隐层全连接神经网络的输出串联成为一个张量后，输入到双隐层全连接神经网络，由双隐层全连接神经网络输出运动规划结果的评估指标；第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度，第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度。

在一个实施例中，训练单元520还包括环境设置模块，该环境设置模块用于设置至少一个环境，每个环境中部署多个AGV，各个环境中的地图和/或路网和/或AGV数量不同，将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到神经网络模型进行训练，以更新神经网络模型的参数。

以上所描述的装置实施例仅仅是示意性的，具体实施方式可以参照前述方法实施例的具体实施方式进行，在此不再赘述。

图6是本申请一个实施例的多AGV运动规划系统的结构示意图，图7示出本申请一个实施例的控制中心对系统的控制状态示意图，如图6与图7所示，该多AGV运动规划系统600包括：包括部署多AGV运动规划装置500的控制中心610、部署在环境中由多个AGV构成的AGV群620和任务调度中心平台 630；

AGV群620中的AGV利用自身传感器获取自身状态并上传给控制中心610，以及接收控制中心610下发的动作指令，执行动作指令对应的动作。

其中，同一环境下的AGV采用多进程方式运行，通过多进程数据共享技术实现多AGV数据通信，同时采用多进程数据同步技术实现多AGV同步运行。

任务调度中心平台630，用于完成任务规划与任务派发，将某个AGV的任务发送至控制中心610，由控制中心610制该AGV完成任务。

例如，任务调度中心平台将第j台AGV的任务发送至控制中心，由控制中心控制该第j台AGV完成任务。任务调度中心平台可以包含显示界面，用以实时监督AGV群执行任务的情况，并在碰撞、环境改变等突发状况下及时进行干预。

控制中心610，内置稳定的神经网络模型，将接收到的AGV状态输入到神经网络模型，利用神经网络模型计算得到该AGV的运动规划策略，再根据该运动规划策略生成动作指令并下发给该AGV。

综上所示，本申请的技术方案，一方面采用深度强化学习方法，利用神经网络模型在计算高维状态空间方面的优势和强化学习在线控制方面的特点，改善多AGV运动规划方法在动态环境中的性能；本实施例另一方面将最优路径搜索算法和深度强化学习算法进行结合，使用最优路径搜索算法约束深度强化学习算法的学习方向，以使AGV在密集环境下能够规划出可行路线，避免AGV陷入局部死锁状态。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的多AGV运动规划装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出本申请一个实施例的电子设备的结构示意图，该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如，用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码831可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所述的计算机可读存储介质。

图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831，可以被多AGV运动规划装置800的处理器810读取，当计算机可读程序代码831由多AGV运动规划装置800运行时，导致该多AGV运动规划装置800执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

一种多AGV运动规划方法，其特征在于，包括：

通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，所述对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作；

基于所述对象模型搭建神经网络模型，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对所述神经网络模型进行训练，直至得到稳定的神经网络模型；

设置动作约束规则，利用所述动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得所述神经网络模型输出的运动规划结果的评估指标，根据所述评估指标得到当前AGV待执行动作，并利用所述动作约束规则对所述待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。
如权利要求1所述的方法，其特征在于，利用所述动作约束规则对所述待执行动作进行有效判断，使当前AGV根据判断结果执行有效工作，包括：

判断所述待执行动作是否为当前AGV的许可动作；

若所述待执行动作为当前AGV的许可动作，当前AGV执行该待执行动作；

若所述待执行动作不是当前AGV的许可动作，根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作，计算当前AGV的有效动作并执行。
如权利要求2所述的方法，其特征在于，若所述待执行动作不是当前AGV的许可动作，根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作，计算当前AGV的有效动作并执行，包括：

从当前AGV的动作空间中提取最优路径包含的多个第一许可动作；

利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作；

根据其他AGV状态计算当前AGV执行第二许可动作是否会发生碰撞，若发生碰撞，当前AGV执行静止动作，若未发生碰撞，当前AGV执行该第二许可动作。
如权利要求3所述的方法，其特征在于，所述运动规划结果的评估指标包括：用于描述当前AGV在t时刻的联合状态下选择动作a _t的策略π和用于描述在联合状态下采取策略π的预期收益的值函数V，联合状态为由当前AGV状态、其他AGV状态和许可动作构成的状态；

利用所述神经网络模型输出的运动规划结果的评估指标从所述多个第一许可动作中选择满足预设条件的第二许可动作，包括：

利用所述策略π计算出每个第一许可动作对应的概率值，选择概率值最大对应的第一许可动作为第二许可动作。
如权利要求1所述的方法，其特征在于，使用马尔可夫决策过程描述所述对象模型，所述许可动作根据最优路径策略和动作空间获得，所述动作空间为在当前AGV的本体极坐标系下的速度与角度；

所述当前AGV状态包括：当前AGV在本体极坐标系下的速度、目标位置、当前AGV尺寸、平均速度、当前AGV与目标位置的路网距离；

其他AGV状态包括：其他AGV在当前AGV本体极坐标系下的相对位置、其他AGV在当前AGV本体极坐标系下其目标的相对位置、其他AGV在当前AGV本体极坐标系下其相对速度、其他AGV与其目标位置的路网距离、其他AGV尺寸、其他AGV尺寸与当前AGV尺寸的和值、其他AGV与当前AGV的路网距离。
如权利要求5所述的方法，其特征在于，所述对象模型还包括：用于描述当前AGV采取动作给予的奖励，该奖励包括至少三种描述类型，第一种描述类型为在当前AGV到达或靠近目标位置时给予的奖励，第二种描述类型为在当前AGV碰撞或靠近其他AGV时给予的惩罚，第三种描述类型为在当前AGV偏离路网时给予的惩罚；其中，

通过下述方式设置所述第一种描述类型：

在当前AGV到达目标位置p _g时，给予正值的最大奖励值α；基于路网距离设置第一折扣系数i，由第一折扣系数i和最大奖励值α计算正值的折扣奖励值i*α和负值的折扣奖励值-i*α，在当前AGV靠近目标位置p _g时，给予正值的折扣奖励值i*α；以及在当前AGV静止或远离目标位置p _g时，给予负值的折扣奖励值-i*α；

通过下述方式设置所述第二种描述类型：

当前AGV与其他AGV的距离小于第一阈值条件t _agv时，给予最大惩罚值β；基于距离设置第二折扣系数j，由第二折扣系数j和最大惩罚值β计算折扣惩罚值j*β，在当前AGV与其他AGV的距离大于所述第一阈值条件t _agv且小于第二阈值条件m*t _agv时，给予折扣惩罚值j*β；以及在当前AGV与其他AGV的距离大于所述第二阈值条件m*t _agv时，不给予惩罚；m为预设倍数值；

通过下述方式设置所述第三种描述类型：

在当前AGV与当前路径的距离不小于第三阈值条件t _rn时，给与惩罚δ；在当前AGV与当前路径的距离小于第三阈值条件t _rn时，不给予惩罚。
如权利要求6所述的方法，其特征在于，基于所述对象模型搭建神经网络模型，包括：

采用全连接神经网络搭建所述神经网络模型，所述神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作；其中，

当前AGV的许可动作输入到第一单隐层全连接神经网络，

当前AGV状态输入到第二单隐层全连接神经网络，

其他AGV状态输入到长短期记忆网络，再输入到第三单隐层全连接神经网络，

将三个单隐层全连接神经网络的输出串联成为一个张量后，输入到双隐层全连接神经网络，由双隐层全连接神经网络输出运动规划结果的评估指标；

所述第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度，所述第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度。
如权利要求7所述的方法，其特征在于，在将其他AGV状态输入到长短期记忆网络之前，还包括：

提取其他AGV与当前AGV的距离，将其他AGV状态按照与当前AGV的距离由远到近排序之后，再输入到长短期记忆网络。
如权利要求7所述的方法，其特征在于，基于所述对象模型搭建神经网络模型，还包括：

由全连接层和激活函数串行后组成单隐层全连接神经网络。
如权利要求1所述的方法，其特征在于，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对所述神经网络模型进行训练，包括：

设置至少一个环境，每个环境中部署多个AGV，各个环境中的地图和/或路网和/或AGV数量不同；

将每个环境下的当前AGV状态、其他AGV状态和当前AGV的许可动作输入到所述神经网络模型进行训练，以更新所述神经网络模型的参数。
如权利要求6所述的方法，其特征在于，

在t时刻，基于三种描述类型的奖励通过下述方式得到对当前AGV采取动作给予的奖励R _t：

R _t＝R _goal+R _agv+R _rn，

其中，R _goal为第一种描述类型，R _agv为第二种描述类型，R _rn为第三种描述类型。
一种多AGV运动规划装置，其特征在于，包括：

建模单元，用于通过强化学习方法建立用于描述多AGV运动规划的序列决策过程的对象模型，所述对象模型中包括：AGV状态、动作空间以及运动规划结果的评估指标，其中AGV状态包括当前AGV状态、根据当前AGV状态计算得到的其他AGV状态和当前AGV的许可动作；

训练单元，用于基于所述对象模型搭建神经网络模型，进行包括AGV群部署在内的环境设置，利用所设置环境下AGV的对象模型对所述神经网络模型进行训练，直至得到稳定的神经网络模型；

设置单元，用于设置动作约束规则，利用所述动作约束规则对基于评估指标得到的当前AGV的待执行动作进行有效性判断；

实施单元，用于启动运动规划后，将当前环境下的当前AGV状态、其他AGV状态和许可动作输入到训练后的神经网络模型中，获得所述神经网络模型输出的运动规划结果的评估指标，根据所述评估指标得到当前AGV待执行动作，并利用所述动作约束规则对所述待执行动作进行有效判断，使当前AGV根据判断结果执行有效动作。
如权利要求12所述的装置，其特征在于，

所述实施单元包括判断模块、第一动作执行模块和第二动作执行模块；

判断模块，用于判断待执行动作是否为当前AGV的许可动作；

第一动作执行模块，用于在该待执行动作为当前AGV的许可动作时，使当前AGV执行该待执行动作；

第二动作执行模块，用于在该待执行动作不是当前AGV的许可动作，根据神经网络模型输出的运动规划结果的评估指标和当前AGV的许可动作，计算当前AGV的有效动作并执行。
如权利要求12所述的装置，其特征在于，

所述训练单元包括模型构建模块，该模型构建模块是采用全连接神经网络搭建神经网络模型，神经网络模型的输入包括当前AGV状态、其他AGV状态和当前AGV的许可动作；其中，当前AGV的许可动作输入到第一单隐层全连接神经网络，当前AGV状态输入到第二单隐层全连接神经网络，其他AGV状态输入到长短期记忆网络，再输入到第三单隐层全连接神经网络，将三个单隐层全连接神经网络的输出串联成为一个张量后，输入到双隐层全连接神经网络，由双隐层全连接神经网络输出运动规划结果的评估指标；第三单隐层全连接神经网络的维度大于第一单隐层全连接神经网络的维度，第三单隐层全连接神经网络的维度大于第二单隐层全连接神经网络的维度。
一种多AGV运动规划系统，其特征在于，包括部署如权利要求12至14任一所述的多AGV运动规划装置的控制中心、部署在环境中由多个AGV构成的AGV群和任务调度中心平台；

所述AGV群中的AGV利用自身传感器获取自身状态并上传给控制中心，以及接收控制中心下发的动作指令，执行所述动作指令对应的动作；

所述任务调度中心平台，用于完成任务规划与任务派发，将某个AGV的任务发送至控制中心，由控制中心控制该AGV完成任务；

所述控制中心，内置稳定的神经网络模型，将接收到的AGV状态输入到神经网络模型，利用神经网络模型计算得到该AGV的运动规划策略，再根据该运动规划策略生成动作指令并下发给该AGV。