WO2019076044A1

WO2019076044A1 - 移动机器人局部运动规划方法、装置及计算机存储介质

Info

Publication number: WO2019076044A1
Application number: PCT/CN2018/087326
Authority: WO
Inventors: 刘越江; 陈子冲
Original assignee: 纳恩博（北京）科技有限公司
Priority date: 2017-10-20
Filing date: 2018-05-17
Publication date: 2019-04-25
Also published as: CN107861508A; CN107861508B

Abstract

一种移动机器人局部运动规划方法、装置及计算机存储介质。该方法包括：确定平面(2d)局部代价地图图像（101）；确定该移动机器人的速度（102）；基于速度以及2d局部代价地图图像，通过基于学习的规划器为移动机器人制定动作指令，以由移动机器人执行动作指令（103）。

Description

移动机器人局部运动规划方法、装置及计算机存储介质

相关申请的交叉引用

本申请基于申请号为201710987041.8、申请日为2017年10月20日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请涉及机器人技术领域，具体涉及一种移动机器人局部运动规划方法、装置及计算机存储介质。

背景技术

躲避障碍物的运动规划是智能移动机器人有望掌握的基本技能之一。在过去十年中已经开发了各种算法，以使机器人能够规划到目标点或跟随参考路径，而不会撞到障碍物的轨迹。尽管取得了重大进展，移动机器人与人类在移动规划方面的差距还很远。例如，人类以可以以忽略不计的努力快速做出运动决策，稳健地适应不确定性和不可预见的障碍，运动表现的非常平滑和自然。给定足够的局部化和全球路径信息，例如全球定位系统(GPS，Global Positioning System)和谷歌(Google)地图，人们无论在步行、跑步或驾驶过程中凭借强大的规划决策能力在不同条件下进行导航。相比之下，移动机器人还在努力实现这些。

一类高性能规划算法是从优化角度解决了局部移动规划和障碍物回避问题。这些算法的主要特征是最小化潜在轨迹的代价函数(或最大化效用函数)。然后将最佳轨迹连同相应的控制策略在每个周期重复地馈送到机器人控制器。这种方法在数学上是可解释的。然而，解决优化问题是一个挑战：由于目标函数涉及机器人动态模型，并且约束可能由与复杂几何相关的组件组成，优化问题通常是非线性的，并且难以在有限的计算资源的消费者机器人上实时解决。为了减少计算时间，研究者提出了各种各样的方法，诸如采样和线性化方法，然而这些都导致了退化为次优解。

除了基于优化的方法外，模仿学习(IL，Imitation Learning)正在成为解决规划和控制问题的新兴技术。模仿学习的核心思想是通过克隆预期行为或理解示范器所追求的奖励来从专家示范中学习策略。模仿学习中一个快速增长的分支是端到端的方法，将原始感官输入直接映射到电机输出，而无需手工编程。通过卷积神经网络(CNN，Convolutional Neural Network)，端到端模仿学习系统已经开发出广泛的应用，并取得了令人兴奋的成果。然而，大多数现有的基于CNN的规划器或控制器的性能明显低于策略示范器，部分原因是标准CNN不足以表达基于规划的推理。模仿学习的另一个挑战是示范器与学习策略之间的状态分布不匹配，这可能导致使用学习策略时陷入次优、甚至发散的轨迹。一些方法试图通过迭代收集更接近学习的策略的训练样本来解决这个问题。然而，训练数据集中的灾难性事件的稀缺性仍然是实际操作的隐患。

因此，如何使移动机器人做出高效的躲避障碍物，仍是亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种移动机器人局部运动规划方法、装置及计算机存储介质，给出了一种新的用于移动机器人的局部运动规划和躲避障碍物的模仿学习方法，可高效地躲避障碍物，加快移动机器人的局部运动规划决策，同时使做出的决策尽可能优化、安全和通用。

本申请第一方面，本申请实施例提供了一种移动机器人局部运动规划方法，所述方法包括：

确定平面(2d)局部代价地图(Costmap)图像；

确定所述移动机器人的速度；

基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。

上述方案中，可选地，所述确定2d局部代价地图图像，包括：

获取所述移动机器人上预定传感器采集到的数据；

基于所述数据对所述移动机器人进行定位，同时建立所述移动机器人所在的周围环境地图；

根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图；

根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。

上述方案中，可选地，所述基于学习的规划器通过如下方式学习局部运动规划策略：

给定2d局部代价地图图像和移动机器人速度，按照公式(1)提供如下动作命令：

u＝f _θ(m,u')(1)

其中，u＝(v,w)是要执行的线速度v和角速度w的向量，u'是移动机器人的速度矢量，θ是模型权重参数，m是2d局部代价地图图像。

上述方案中，可选地，确定所述2d局部代价地图的方式包括：

依据公式(2)确定2d局部代价地图，其中，2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs(2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，将局部目标点的像素的值设为1，其他像素值设为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效子目标点位于2d局部代价地图窗口之外，则使用所述有效目标点到地图边框上的投影点来代替所述有效目标点。

上述方案中，可选地，确定2d局部代价地图的方式包括：

将给定的2d局部代价地图图像和给定的移动机器人速度，输入至预设神经网络模型中，通过所述预设神经网络模型学习得到2d局部代价地图；其中，所述预设神经网络模型中是忽略卷积层的神经网络模型。

上述方案中，可选地，确定所述模型权重参数θ的方式包括：

给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

一旦训练完成，模型权重参数θ固定，并且在部署期间输入至公式(1)中，以使得公式(1)基于模型权重参数θ计算动作命令。

上述方案中，可选地，所述通过基于学习的规划器为所述移动机器人制定动作指令，包括：

输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络，所述价值迭代模块通过策略改进和截断策略评估的递归运算来提取高级规划特征；

其中，s和r分别对应于2d局部代价地图中像素的位置和成本，p(s',r/s,u)表示转移概率；k表示循环次数；γ表示衰减因子；v _k+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值；v _k(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值；u表示移动机器人执行的动作指令；s’表示移动机器人在位置s执行动作指令u后，在2d局部代价地图中像素的位置；

从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征；

将来自关注区域的高级规划特征与移动机器人的速度融合，并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层，以得到为所述移动机器人制定的动作指令。

上述方案中，可选地，所述方法还包括：

选择能提供预设数量计算资源的基于优化的规划器，作为示范器；

所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的，其中，公式(5b)与(5c)为约束条件；

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

其中，N是预测范围的长度，x _k是时间步长k处的移动机器人的2d姿态，d _g是移动机器人与时间步长N处的局部目标点之间的距离，α _g是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度，h(x _k,u)是机器人运动学模型，

是允许访问的最大障碍物概率，w ₁，w ₂，w ₃是成本重量参数。

上述方案中，可选地，所述基于学习的规划器的训练样本的获取来源包括：

根据示范器的正常实验轨迹而生成的第一种代价地图；其中，所述示范器的正常实验轨迹，是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹；

人为干预生成的第二种代价地图，包含所述示范器未预计的危险情况，用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件。

第二方面，本申请实施例提供了一种移动机器人局部运动规划装置，所述装置包括：

预处理器，配置为确定平面2d局部代价地图图像；确定所述移动机器人的速度；

控制器，配置为基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。

上述方案中，可选地，所述预处理器，具体配置为：

获取所述移动机器人上预定传感器采集到的数据；

上述方案中，可选地，所述控制器，具体配置为：

u＝f _θ(m,u')(1)

上述方案中，可选地，所述预处理器，具体配置为：

m＝λm _goal-m _obs(2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，将局部目标点的像素值设为1，其他像素值设为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外，则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。

上述方案中，可选地，所述预处理器，具体配置为：

上述方案中，可选地，所述控制器确定所述模型权重参数θ的方式包括：

给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

上述方案中，可选地，所述控制器，具体配置为：

输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络，所述价值迭代模块通过递归运算来提取高级规划特征；

上述方案中，可选地，所述控制器，还配置为：

选择能提供预设数量计算资源的基于优化的规划器作为示范器；

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

上述方案中，可选地，所述控制器，还配置为：

人为干预生成的第二种代价地图，包含所述示范器未预计的危险情况，用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件；

将所述第一种代价地图和所述第二种代价地图作为基于学习的规划器的训练样本。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序用于执行以上所述的移动机器人局部运动规划方法。

本申请提出的移动机器人局部运动规划方法、装置及计算机存储介质，确定2d局部代价地图图像；确定所述移动机器人的速度；基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令，可高效地躲避障碍物，加快移动机器人的局部运动规划决策，同时使做出的决策尽可能优化、安全和通用。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的移动机器人局部运动规划方法的实现流程示意图；

图2为本申请提供的移动机器人局部运动规划装置的组成结构示意图；

图3为本申请提供的具有策略网络的局部移动规划系统的框图；

图4为本申请提供的局部规划的深层神经网络示意图；

图5为本申请提供的一款赛格威递送机器人的示意图；

图6为本申请提供的训练有素的规划器对示范器的绝对预测误差的方框图；

图7为本申请提供的训练有素的规划器和示范器在测试数据集的不同误差范围内的三种情况下提供的动作指令；

图8为本申请提供的基于学习的规划器与基于优化的规划器之间的最优差距的比较示意图；

图9为本申请提供的基于学习的规划器与基于优化的规划器之间的计算时间的比较示意图；

图10为本申请提供的仿真环境中的导航图；

图11为本申请提供的训练有素的规划器对于现实世界实验中参考路径上的意外障碍物的反应示意图；

图12为本申请提供的来自现实世界环境中导航轨迹示意图。

具体实施方式

为了更好的解释本申请，下面，先介绍一些现有技术中有关模仿学习方面的研究。

目前，有关模仿学习方面的研究广泛集中在端对端方法上。例如，卷积神经网络模型被训练以将可视输入图像映射到用于接地移动机器人、四旋翼飞行器和自动驾驶的左/右转向命令。最近的另一项研究提出了一种目标驱动的移动规划器，从激光测距仪的原始输入产生线速度和角速度。尽管有这些进展，网络模式在规划背景下的有效性仍然是现有策略模仿方法中的一大挑战。

为了改进基于规划的推理，最近在几项工作中研究了新的神经网络架构。引入了一个名为预测器(predictron)的端到端架构，其核心是由马可夫奖励过程代表的抽象模型，可以推出价值估计。具有类似潜在动机的另一个深度神经网络架构是价值迭代网络，其包括一个用于递归值迭代的特殊模块。有学者开发了一个循环网络，作为路径积分最优控制的表示，以学习成本和动态模型。

模仿学习的另一个实际挑战是示范与学习的策略之间的数据分配不匹配。为了应对这一挑战，有学者提出了一种迭代数据侵略方法，并将其应用于学习微型飞行器的反应式控制器。这种方法进一步扩展到SafeDAgger，其训练安全的策略，以防止学习过程陷入危险状态，同时减少人为干预频率。另一篇最近的文章通过使用自适应模型预测控制器作为调整其策略的示范器来逐渐填补示范与学习的策略之间的分配差距来解决这个问题。

然而，上述这些方案的训练数据集中的灾难性事件的稀缺性仍然是安全至上的应用中的一个缺陷。

基于此，本申请提出了一种用于移动机器人的局部运动规划和躲避障碍物的模仿学习方法。主要目标是加快移动机器人做出局部运动规划决策的速度，同时使做出决策尽可能优化、安全和通用。

下面结合附图和具体实施例对本申请的技术方案进一步详细阐述。

本申请实施例提供一种移动机器人局部运动规划方法，如图1所示，所述方法主要包括：

步骤101、确定平面(2d)局部代价地图图像。

可选地，所述确定2d局部代价地图图像，包括：

获取所述移动机器人上预定传感器采集到的数据；

这里，所述预定传感器可以是一个，也可以是多个。比如，所述预定传感器可以是所述移动机器人上的相机或摄像头。

步骤102、确定所述移动机器人的速度。

作为一种实施方式，所述确定所述移动机器人的速度，包括：

确定第一时刻所述移动机器人的第一位置信息；

确定第二时刻所述移动机器人的第二位置信息；其中，所述第一时刻为所述第二时刻的前一时刻；

根据所述第一位置信息、所述第二位置信息、所述第一时刻、所述第二时刻，确定所述移动机器人的速度。

例如，所述移动机器人的速度＝(第二位置信息-第一位置信息)/(第二时刻-第一时刻)。

当然，确定所述移动机器人的速度的方式并不限于以上所列举的这种形式，还可以通过其他方式来确定。比如，直接从所述移动机器人的速度传感器获取数据，进而确定所述移动机器人的速度。

步骤103、基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。

这里，所述动作指令，包括：

所述移动机器人需执行的线速度和角速度。

如此，所述移动机器人通过执行上述方式所确定的动作指令，能够有效躲避障碍物，且通过上述方式所确定的动作指令，用时较短。

需要说明的是，上述所述基于学习的规划器，是训练有素的规划期，能够为所述移动机器人快速准确的制定动作指令。

示例性地，所述基于学习的规划器通过如下方式学习局部运动规划策略：

u＝f _θ(m,u')(1)

其中，u＝(v,w)是要执行的线速度v和角速度w的向量，u’是移动机器人的速度矢量，θ是模型权重参数，m是2d局部代价地图图像；其中，所述代价地图可通过多种方式来确定。

上述方案中，所述2d局部代价地图的确定方式之一为：

依据公式(2)确定代价地图，其中，代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs(2)

上述方案中，所述2d局部代价地图的确定方式之二为：

上述方案中，确定所述模型权重参数θ的方式包括：

给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

上述方案中，所述通过基于学习的规划器为所述移动机器人制定动作指令，包括：

将来自关注区域的高级规划特征与移动机器人的速度融合，并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层，以得到为所述移动机器人制定的动作指令，使所述移动机器人在局部运动规划中模仿预期行为和躲避障碍物。

这里，所述关注区域是代价地图上的部分区域。

这里，提取的来自关注区域的特征，比如仅提取与目标点朝向方向一致的特征，这样，有助于快速获得动作指令。

上述方案中，所述方法还包括：

选择能提供预设数量计算资源的基于优化的规划器，作为示范器；这里，预设数量可以理解为大量的；

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

示例性地，所述基于学习的规划器的训练样本的获取来源包括：

这里，所述预定比例的概率范围可以理解为：在大多数时间里所述基于学习的规划器将遇到这样的轨迹。

可选地，生成第二种代价地图的方法包括：

首先，随机生成预设数量的二进制障碍物集群；

然后，对所述二进制障碍物集群进行高斯模糊处理，对障碍物地图进行概率转换。

最后，将局部目标点随机绘制在障碍物地图上。

本申请提出的移动机器人局部运动规划方法，可高效地躲避障碍物，加快移动机器人做出局部运动规划决策的速度，同时使做出的决策尽可能优化、安全和通用。

实施例二

本实施例提供了一种移动机器人局部运动规划装置，所述装置包括：

预处理器10，配置为确定平面2d局部代价地图图像；确定所述移动机器人的速度；

控制器20，配置为基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。

上述方案中，所述移动机器人包括基于学习的规划器。

作为一种实施方式，所述预处理器10，具体配置为：

获取所述移动机器人上预定传感器采集到的数据；

具体的，所述基于学习的规划器是如何学习局部运动规划策略的，如何选择示范器，如何获取训练样本等处理方式，可参照前述移动机器人局部运动规划方法中相应内容来实现；在此不再赘述。

作为一种实施方式，所述控制器20，具体配置为：

u＝f _θ(m,u')(1)

作为一种实施方式，所述预处理器10，具体配置为：

m＝λm _goal-m _obs(2)

作为一种实施方式，所述预处理器10，具体配置为：

作为一种实施方式，所述控制器20确定所述模型权重参数θ的方式包括：

给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

作为一种实施方式，所述控制器20，具体配置为：

作为一种实施方式，所述控制器20，还配置为：

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

作为一种实施方式，所述控制器20，还配置为：

本领域技术人员应当理解，图2中所示的移动机器人局部运动规划装置中的各处理模块的实现功能可参照前述移动机器人局部运动规划方法的相关描述而理解。本领域技术人员应当理解，图2所示的移动机器人局部运动规划装置中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请提出的移动机器人局部运动规划装置，可使得移动机器人高效地躲避障碍物，快速做出局部运动规划决策，同时使做出的决策尽可能优化、安全和通用。

实施例三

基于实施例一和实施例二所述的移动机器人局部运动规划方法和装置，下面给出我们通过深刻的模仿学习提出的用于移动机器人的局部运动规划和躲避障碍物的方法。主要目标是加快移动机器人做出局部运动规划决策，同时使做出决策尽可能优化、安全和通用。

A.系统结构

图3为具有策略网络的局部移动规划系统的框图，从图3可以看出，该系统主要包括两大规划块，第一个规划块，用于预处理原始传感数据，并根据机器人姿势产生描述周围障碍物的局部占用图和从全局路径提取的局部目标点。这些中间结果随后被馈送到第二个规划块，在第二个规划块中我们采用深度神经网络来模拟局部规划策略。此外，我们还提供机器人的速度作为网络输入，以提高顺序决策的平滑度。在部署期间，所提出的神经网络策略通过在每个采样时间执行前馈计算产生动作命令，因此对于实时决策而言是在计算上是高效的和易于处理的。

B.问题制定，如何学习局部运动规划策略

给定2d局部代价地图图像和移动机器人速度，局部运动规划策略提供如下动作命令：

u＝f _θ(m,u')(1)

其中，u＝(v,w)是要执行的线速度v和角速度w的向量，u’是移动机器人的最新速度矢量，θ是模型权重参数，m是2d局部代价地图图像；其中，所述代价地图可通过多种方式来确定。

具体来说，代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs(2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，局部目标点的像素的值等于1，其他为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外，则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。

需要说明的是，代价地图还可通过其他方式确定：

将给定的2d局部代价地图图像和给定的移动机器人速度，输入至预设神经网络模型中，通过所述预设神经网络模型学习得到代价地图；其中，所述预设神经网络模型中是忽略卷积层的神经网络模型。

注意，通过在网络前面添加额外的卷积层，也可以在神经网络内学习代价地图。但是，在我们的实证实验中，我们观察到推理精度差异很小。两个可能的原因可能是：从式(2)计算出的代价地图确实代表了示范器的成本函数的本质，并且价值函数最终被学习并适应代价地图。在这项工作中，我们删除成本学习的卷积层，旨在减少模型冗余。

给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

C.神经网络模型，利用神经网络模型表示f _θ(m _i,u' _i)

其中，s和r分别对应于代价地图中像素的位置和成本，p(s',r/s,u)表示转移概率；k表示循环次数；γ表示衰减因子，γ取值为0～1；v _k+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值；v _k(s')表示移动机器人在第k次循环时的速度；表示移动机器人在经k次迭代之后得到的在位置s’的价值；u表示移动机器人执行的动作指令；s’表示移动机器人在位置s执行动作指令u后，在2d局部代价地图中像素的位置；

从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征，如图4中的Q值；

将来自关注区域的高级规划特征与移动机器人的速度融合，并将融合结果提供给能产生平滑连续动作命令的完全连接层，以在局部运动规划中模仿预期行为和躲避障碍物。

这里，所述关注区域是2d局部代价地图上的部分区域。

图4示出了局部规划的深层神经网络示意图，图4中，卷积层中的参数表示过滤器尺寸、深度和步幅。完全连接的层中的参数表示输出单元的尺寸。在实验中，循环次数K可选择为36，具体如何选择循环次数K，这与局部代价地图图像的大小有关。

D.基于优化的示范器

由于所提出的方法的主要目标是学习最优策略，所以示范器的自然选择是一种提供有大量计算资源的基于优化的规划器。在本申请中，我们使用开发的一套局部规划器作为示范器，试图在每个采样时间最小化成本，具体的，所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的，其中，公式(5b)与(5c)为约束条件；

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

是允许访问的最大障碍物概率，w ₁，w ₂，w ₃是成本重量参数。为了简化计算，在预测范围内假设控制动作不变。

在机器人导航期间，需要在每个采样时间重复按照公式(5a)、(5b)、(5c)求解。但是，项m _obs(x _k)和g(x _k,u)可能涉及使问题难以有效解决的非线性。传统的方法使用基于抽样的求解器通常会损害到近似的次优解决方案。在每个规划周期，首先生成预测范围内的一些潜在轨迹，然后根据相关的成本值进行评估。因此，所得到的解决方案的质量很大程度上取决于所考虑的候选轨迹的数量和不同。出于行为示范的目的，我们采用大量样本的规划器来提供接近最优的参考策略。

E.数据采集

如前所述，模仿学习的开放挑战是训练数据集与学习的策略之间的状态分配不匹配。为了有效地解决这个问题和尽可能完整地覆盖可能出现的观测，我们从两个来源收集训练样本。第一个是专家示范的正常实验轨迹，预计在大多数时间里由训练有素的规划器遇到这样的轨迹。第二个是人为生成的随机代价地图，用于馈送示范器很少遇到的危险情况。随机代价地图生成过程如下：一些二进制障碍物集群首先随机生成，然后是高斯模糊，用于对障碍物地图进行概率转换。随后，局部目标点随机绘制在地图上。最后，我们将代价地图转换为机器人协调系统，使得所有数据集中的机器人的姿态相同，这被认为有利于样本效率。

本申请开发了一种模仿学习算法，实现实时近似最佳的局部运动规划，同时对移动机器人应用保持较好的安全性和通用性。与端对端模仿不同，我们开发了一个基于预处理的2d局部代价地图作为输入的局部规划策略。该局部代价地图可以从局部目标点和障碍物地图构建，其包含从诸如激光雷达、声纳和深度相机的传感器设备接收的多帧信息。在每个采样时间，我们的嵌入价值迭代网络的局部运动规划模型，通过前馈推理产生一个动作指令，这个过程在计算上是高效的并且能够进行基于规划的推理。为了训练一个稳健的模型，我们使用从示范实验收集的现实世界的局部障碍物地图和随机生成的人造地图的组合，这不但加速了数据收集过程，而且对于在示范中很少遇到的危险观察样本也起到补充作用。本文提出的方法和现有的学习方法的简要比较在表1中总结。

表1：关于局部2d模仿学习、现有的端到端模仿学习和传统的基于优化的方法之间的局部移动规划方法的比较。

本申请的主要贡献至少包括：

1、将局部运动规划表达为基于预处理的2d局部代价地图图像的模仿学习问题。这种学习形式可结合价值迭代网络(VIN，Value Iteration Networks)，并且对于很多种类的传感器设备是通用的。

2、通过随机产生人造局部代价地图，克服训练数据的短缺，特别是稀少但危险的事件样本缺乏的问题。

为了更好地说明本申请移动机器人局部运动规划方法的有效性与可行性，可将本申请的移动机器人局部运动规划方法应用于机器人平台中，进行实验。

下面，就局部规划器的实验和评估进行详细介绍。

A、装备

首先，实验采用的机器人平台是投递机器人(Loomo Go)，配备有英特尔实感技术传感器(Intel RealSense)、超声波传感器以及轮编码器的赛格威递送机器人(Segway delivery robot)。RealSense中的深度相机用于维持固定尺寸2.8m×2.8m的局部占用图，分辨率为0.1m。

其次，对于模型训练，我们总共收集了超过600k的元组，一半来自示范轨迹，一半来自随机生成。数据集分为训练集(80％)和测试集(20％)。这里，训练集和测试集的比例可以根据实际需求进行调整。示范器采用基于优化的规划器，对于[0.0m/s，0.5m/s]范围内的线速度采样11个网格点，对于[-0.8rad/s，0.8rad/s]范围内的角速度采样81个网格点。神经网络模型采用深度学习系统(Tensorflow)框架实现，并在英伟达-_泰坦(Nvidia Titan X)上用Adam优化器从头开始训练约8小时；其中，Adam是一种基于一阶梯度来优化随机目标函数的算法；评估和部署均在采用Intel i7-6700HQ CPU、Ubuntu 14.04操作系统的膝上型电脑(laptop)上进行。图5给出了一款赛格威递送机器人的示意图，图5中的赛格威递送机器人配备有Intel Realsense ZR300(30Hz RGB-深度，FishEye和IMU)、Intel Atom Z8750(4核，2.4GHz)和4GB内存；其中，IMU的英文全称是Inertial measurement unit，中文含义是惯性测量单元。

B、模型指标

我们首先通过比较训练数据集和测试数据集中的预测精度以及提出的基于学习的规划器对基于优化的规划器的性能，逐帧评估训练的模型。

1)训练和测试准确性：图6显示了训练有素的规划器对示范器的绝对预测误差的方框图。要分别测量线速度和角速度的误差，因为它们对规划结果的影响是不同的。图6中，框的下限和上限分别代表第一个四分位数和第三个四分位数。框中的线代表中位数，水平线外面标有“+”的点代表异常值。从图6可以看出，训练数据集和测试数据集上预测误差的第一和第三、四分位数非常小，训练有素的规划器，其训练和测试的准确性明显高于现有的基于优化的规划器。这里，训练有素的规划器是采用本申请所述移动机器人局部运动规划方法所得到的规划器，也是基于学习的规划器。

表2总结了规划准确性的详细指标。可以注意到，测试数据集上的线速度和角速度的平均误差与训练数据集一样好，说明学习的模型在局部规划任务中具有很强的泛化能力。我们还可以观察到，测试数据集上的错误的标准偏差高于训练数据集，这表明一些显著的预测异常值仍然存在。

	训练-v[m/s]	训练-w[rad/s]	测试-v[m/s]	测试-w[rad/s]
平均	0.0031	0.0115	0.0037	0.0151
标准	0.0050	0.0132	0.0079	0.0308

表2：预测误差的统计

除了平均性能外，我们还研究了大预测错误发生的情况。图7显示了训练有素的规划器和示范器在测试数据集的不同误差范围内的三种情况下提供的动作指令。图7中，左边误差是正常的(0.0024)，中间误差较大(0.1477)，右边误差超大(0.5733)。机器人位于2d占据图中北面的原点。孤立的灰色单元是目标，而其他单元的黑暗代表障碍概率。线的长度表示线速度，而方向表示角速度。

在左侧情况下，训练有素的规划器预测一种倾向于与两侧的障碍物集群保持一些距离的动作，这几乎与示范器提供的决策重叠。在中间，训练有素的规划器与示范器略有不同，这可能是由于隐藏在障碍物集群中的目标点引入的歧义。当局部目标落后于机器人时，如右侧的情况所示，训练有素的规划器难以产生与示范器完全相同的动作。但是，训练有素的规划器的决策仍然被认为是合理的，因为它以更平滑的变化速度转向正确的方向。

2)与基于优化的规划器的比较：本申请所提出的基于学习的规划器的一个关键动机是减少计算时间，计算时间用时长是传统的基于优化的方法的缺点。因此，我们将训练有素的规划器的性能与复杂规划环境中的基于优化的规划器进行比较。如下D所述，考虑的候选轨迹数量对计算时间和解决方案质量有很大的影响。在以下评估中，我们以11×81线速度和角速度样本作为基准线规划器采用示范器，并用不同数量的样本(5×11,7×31,8×51,9×61,10×71)评估基于学习的规划器和基于优化的规划器的性能。每个决策的最佳差距定义为

其中，v和w是从评估的规划器获得的线速度和角速度，

和

来自基线参考。

图8示出了基于学习的规划器与基于优化的规划器之间的最优差距的比较示意图。从图8可以得到，基于学习的规划器的最优性误差大致等于基于优化的规划器，具有750个样本轨迹。

图9示出了基于学习的规划器与基于优化的规划器之间的计算时间的比较示意图。从图9可以得到，基于学习的规划器的计算时间大致等于基于优化的规划器，具有160个样本轨迹。

如图8和图9所示，对于基于优化的规划器，尽管平均最优性差距随采样数量的增加而减小，但计算时间几乎呈线性增长。相比之下，提出的基于学习的规划器在大约22ms提供高度竞争的质量解决方案，明显快于基于优化的方法。注意，基于学习的规划器的更好的性能并不意味着更长的计算时间。它与示范行为和训练数据集的质量有关。如果我们把公式(5a)充分解决为最优，将其用作示范器，那么训练有素的策略的质量有望进一步提高。

C、仿真环境中的导航

在准确的逐帧动作预测的基础上，在本节中，我们评估训练有素的规划器在导航仿真中的性能。为了检查躲避障碍物的能力，将机器人导航的全局参考路径设置为接近或跨越障碍物。在每个采样时间，训练有素的规划器接收局部代价地图并返回速度矢量，这使得根据运动学模型将机器人驱动到新的状态。所得到的轨迹显示在图10中。图10中，虚线表示全局参考路径，实线和点化线分别对应于基于学习的规划器和基于优化的示范器的轨迹。从图10可以看出，训练有素的规划器的轨迹成功地避免了当全局参考值接近时的障碍，同时顺利地在开放空间中跟随参考。此外，训练有素的规划器的轨迹与示范器的行为几乎相同，这说明了训练有素的规划器在模仿近似最佳示范器方面的高质量。

D、现实世界中的导航

最后，我们将训练有素的模型部署到现实世界的导航实验中。给定全局参考路径，赛格威递送机器人的任务是遵循参考路径，避免路上的障碍。注意两个方面：对参考路径上意想不到的障碍的反应，以及长期运行的稳健性。

1)对全局路径上的障碍的反应：图11示出了训练有素的规划器对于现实世界实验中参考路径上的意外障碍物的反应示意图。图11中，上半部分显示了馈送给规划器的局部障碍物地图。下半部分是从机器人前置摄像头捕获的相应视图。机器人位于2d局部地图上朝北的原点。线的长度代表线速度，方向代表角速度。

如图11所示，机器人基于在线构建的局部占用图进行局部规划决策。虽然这个地图规模相对较小，但是这张地图提供了丰富的周边环境信息。当遇到阻碍全局轨迹的障碍物，训练有素的规划器成功地提供了将机器人驱动到开放区域的动作指令。

2)长期操作：长期实验在充满障碍物的狭窄的走廊中进行。机器人的任务是递归地跟随全局参考路径，而不会碰到任何障碍物。图12显示了来自现实世界环境中两个规划器的导航轨迹示意图，一个是基于示范轨迹的数据和人为生成的局部代价地图的混合训练，另一个是仅通过从示范实验收集的正常数据单一地训练。图12中，2d占用图的黑暗与障碍物概率成比例；且机器人的任务是在办公楼走廊中用训练有素的规划器中递归地导航，而不会撞到障碍物。

从图12可以看出，用后者的规划器操作的机器人几次触及拥挤地区的障碍物，为了安全起见，必须进行人为干预。相比之下，用混合数据集训练的规划器成功地驱动机器人绕过障碍物移动，并以稳健而平稳的方式在走廊中漫游。

综上，本申请提出了一个基于预处理的2d局部代价地图，通过深度模仿学习建立了具有躲避障碍物能力的局部运动规划系统。嵌入了价值迭代网络，并通过实际和人造代价地图图像的混合训练，开发的局部规划器在决策质量、计算时间和稳健性方面具有很强的竞争力。

未来的工作可以在以下两个方面得到延伸。首先，应该进一步研究数据集的分布和预测误差，以便用于馈送未掌握的情境的人造代价地图的以更有效和易于处理的方式生成。第二，除了对局部规划策略的推论外，我们还考虑用附加的输出扩展提出的模型，以预测动作指令的不确定性，这对于安全至上的现实世界操作将是一个宝贵的加分。

本申请实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行之后，能够实现前述任意一项或多项移动机器人局部运动规划方法。

所述计算机存储介质可为各种类型的存储介质，在本实施例中可优选为非瞬间存储介质。

作为一种实施方式，所述计算机可执行指令用于执行：确定2d局部代价地图图像；确定所述移动机器人的速度；基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。

作为一种实施方式，所述计算机可执行指令用于执行：获取所述移动机器人上预定传感器采集到的数据；基于所述数据对所述移动机器人进行定位，同时建立所述移动机器人所在的周围环境地图；根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图；根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。

作为一种实施方式，所述计算机可执行指令用于执行：给定2d局部代价地图图像和移动机器人速度，按照公式(1)提供如下动作命令：

u＝f _θ(m,u')(1)

作为一种实施方式，所述计算机可执行指令用于执行：依据公式(2)确定2d局部代价地图，其中，2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs(2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，将局部目标点的像素值设为1，其他像素值设为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外，则使用所述有效目标点到地图边框上的投影点来代替所述有效目标点。

作为一种实施方式，所述计算机可执行指令用于执行：将给定的2d局部代价地图图像和给定的移动机器人速度，输入至预设神经网络模型中，通过所述预设神经网络模型学习得到2d局部代价地图；其中，所述预设神经网络模型中是忽略卷积层的神经网络模型。

作为一种实施方式，所述计算机可执行指令用于执行：给定一组示范动作指令

规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，

是示范的元组，J(θ)表示误差函数，是示范动作指令

与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

作为一种实施方式，所述计算机可执行指令用于执行：输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络，所述价值迭代模块通过递归运算来提取高级规划特征；

作为一种实施方式，所述计算机可执行指令用于执行：选择能提供预设数量计算资源的基于优化的规划器，作为示范器；

x _k+1＝h(x _k,u),k＝0,...,N-1(5b)

作为一种实施方式，所述计算机可执行指令用于执行：根据示范器的正常实验轨迹而生成的第一种代价地图；其中，所述示范器的正常实验轨迹，是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹；

本领域技术人员应当理解，本实施例的计算机存储介质中各程序的功能，可参照实施例所述的移动机器人局部运动规划方法的相关描述而理解。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。

本申请实施例中记载的移动机器人局部运动规划方法、装置及计算机存储介质只以上述实施例为例，但不仅限于此，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

以上所述，仅为本申请的具体实施方式，并非用于限定本申请的保护范围本申请本申请本申请本申请。

工业实用性

本申请实施例的技术方案，确定2d局部代价地图图像；确定所述移动机器人的速度；基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令，可高效地躲避障碍物，加快移动机器人的局部运动规划决策，同时使做出的决策尽可能优化、安全和通用。

Claims

一种移动机器人局部运动规划方法，所述方法包括：

确定2d局部代价地图图像；

确定所述移动机器人的速度；

基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。
如权利要求1所述的方法，其中，所述确定2d局部代价地图图像，包括：

获取所述移动机器人上预定传感器采集到的数据；

基于所述数据对所述移动机器人进行定位，同时建立所述移动机器人所在的周围环境地图；

根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图；

根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
如权利要求1或2所述的方法，其中，所述通过基于学习的规划器为所述移动机器人制定动作指令，包括：：

给定2d局部代价地图图像和移动机器人速度，按照公式(1)提供如下动作命令：

u＝f _θ(m,u') (1)

其中，u＝(v,w)是要执行的线速度v和角速度w的向量，u'是移动机器人的速度矢量，θ是模型权重参数，m是2d局部代价地图图像。
如权利要求3所述的方法，其中，确定2d局部代价地图的方式包括：

依据公式(2)确定2d局部代价地图，其中，2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs (2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，将局部目标点的像素值设为1，其他像素值设为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外，则使用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
如权利要求3所述的方法，其中，确定2d局部代价地图的方式包括：

将给定的2d局部代价地图图像和给定的移动机器人速度，输入至预设神经网络模型中，通过所述预设神经网络模型学习得到2d局部代价地图；其中，所述预设神经网络模型中是忽略卷积层的神经网络模型。
如权利要求3所述的方法，其中，确定所述模型权重参数θ的方式包括：

给定一组示范动作指令
规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，
是示范的元组，J(θ)表示误差函数，是示范动作指令
与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

一旦训练完成，模型权重参数θ固定，并且在部署期间输入至公式(1)中，以使得公式(1)基于模型权重参数θ计算动作命令。
如权利要求3所述的方法，其中，所述通过基于学习的规划器为所述移动机器人制定动作指令，包括：

输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络，所述价值迭代模块通过递归运算来提取高级规划特征；

其中，s和r分别对应于2d局部代价地图中像素的位置和成本，p(s',r/s,u)表示转移概率；k表示循环次数；γ表示衰减因子；v _k+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值；v _k(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值；u表示移动机器人执行的动作指令；s’表示移动机器人在位置s执行动作指令u后，在2d局部代价地图中像素的位置；

从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征；

将来自关注区域的高级规划特征与移动机器人的速度融合，并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层，以得到为所述移动机器人制定的动作指令。
如权利要求3所述的方法，其中，所述方法还包括：

选择能提供预设数量计算资源的基于优化的规划器，作为示范器；

所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的，其中，公式(5b)与(5c)为约束条件；

x _k+1＝h(x _k,u),k＝0,...,N-1 (5b)

其中，N是预测范围的长度，x _k是时间步长k处的移动机器人的2d姿态，d _g是移动机器人与时间步长N处的局部目标点之间的距离，α _g是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度，h(x _k,u)是机器人运动学模型，
是允许访问的最大障碍物概率，w ₁，w ₂，w ₃是成本重量参数。
如权利要求8所述的方法，其中，所述基于学习的规划器的训练样本的获取来源包括：

根据示范器的正常实验轨迹而生成的第一种代价地图；其中，所述示范器的正常实验轨迹，是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹；

人为干预生成的第二种代价地图，包含所述示范器未预计的危险情况，用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件。
一种移动机器人局部运动规划装置，所述装置包括：

预处理器，配置为确定平面2d局部代价地图图像；确定所述移动机器人的速度；

控制器，配置为基于所述速度以及所述2d局部代价地图图像，通过基于学习的规划器为所述移动机器人制定动作指令，以由所述移动机器人执行所述动作指令。
如权利要求10所述的装置，其中，所述预处理器，具体配置为：

获取所述移动机器人上预定传感器采集到的数据；

基于所述数据对所述移动机器人进行定位，同时建立所述移动机器人所在的周围环境地图；

根据给定的全局路径以及所述周围环境地图确定局部目标点以及局部障碍物地图；

根据所述局部目标点和所述局部障碍物地图确定2d局部代价地图图像。
如权利要求10或11所述的装置，其中，所述控制器，具体配置为：

给定2d局部代价地图图像和移动机器人速度，按照公式(1)提供如下动作命令：

u＝f _θ(m,u') (1)

其中，u＝(v,w)是要执行的线速度v和角速度w的向量，u'是移动机器人的速度矢量，θ是模型权重参数，m是2d局部代价地图图像。
如权利要求12所述的装置，其中，所述预处理器，具体配置为：

依据公式(2)确定2d局部代价地图，其中，2d局部代价地图被构建为局部目标奖励和障碍物惩罚的总和：

m＝λm _goal-m _obs (2)

其中，m _obs是障碍物概率的局部障碍物地图，m _goal是一个二值目标地图，其中，在所述二值目标地图中，将局部目标点的像素值设为1，其他像素值设为0，λ为关于奖励系数的超参数；且如果参考路径上最近的有效目标点位于2d局部代价地图窗口之外，则用所述有效目标点到地图边框上的投影点来代替所述有效目标点。
如权利要求12所述的装置，其中，所述预处理器，具体配置为：

将给定的2d局部代价地图图像和给定的移动机器人速度，输入至预设神经网络模型中，通过所述预设神经网络模型学习得到2d局部代价地图；其中，所述预设神经网络模型中是忽略卷积层的神经网络模型。
如权利要求12所述的装置，其中，所述控制器确定所述模型权重参数θ的方式包括：

给定一组示范动作指令
规划器基于误差最小化准则训练所需的局部运动规划策略：

其中，
是示范的元组，J(θ)表示误差函数，是示范动作指令
与实际动作指令f _θ(m _i,u' _i)差的绝度值的平方的累加和；

一旦训练完成，模型权重参数θ固定，并且在部署期间输入至公式(1)中，以使得公式(1)基于模型权重参数θ计算动作命令。
如权利要求12所述的装置，其中，所述控制器，具体配置为：

输入2d局部代价地图图像至嵌入价值迭代模块的深层神经网络，所述价值迭代模块通过递归运算来提取高级规划特征；

其中，s和r分别对应于2d局部代价地图中像素的位置和成本，p(s',r/s,u)表示转移概率；k表示循环次数；γ表示衰减因子；v _k+1(s)表示移动机器人经k+1次迭代之后得到的在位置s的价值；v _k(s')表示移动机器人在经k次迭代之后得到的在位置s’的价值；u表示移动机器人执行的动作指令；s’表示移动机器人在位置s执行动作指令u后，在2d局部代价地图中像素的位置；

从通过公式(4)提取的高级规划特征中确定来自关注区域的高级规划特征；

将来自关注区域的高级规划特征与移动机器人的速度融合，并将融合结果提供给深层神经网络中能产生平滑连续动作命令的完全连接层，以得到为所述移动机器人制定的动作指令。
如权利要求12所述的装置，其中，所述控制器，还配置为：

选择能提供预设数量计算资源的基于优化的规划器作为示范器；

所述示范器是按照公式(5a)、(5b)、(5c)为移动机器人确定运动指令的，其中，公式(5b)与(5c)为约束条件；

x _k+1＝h(x _k,u),k＝0,...,N-1 (5b)

其中，N是预测范围的长度，x _k是时间步长k处的移动机器人的2d姿态，d _g是移动机器人与时间步长N处的局部目标点之间的距离，α _g是移动机器人方位与从移动机器人位置到时间步长N处的局部目标点的方向之间的绝对角度，h(x _k,u)是机器人运动学模型，
是允许访问的最大障碍物概率，w ₁，w ₂，w ₃是成本重量参数。
如权利要求17所述的装置，其中，所述控制器，还配置为：

根据示范器的正常实验轨迹而生成的第一种代价地图；其中，所述示范器的正常实验轨迹，是用于预计在预定比例的概率范围内所述基于学习的规划器将遇到的轨迹；

人为干预生成的第二种代价地图，包含所述示范器未预计的危险情况，用于弥补所述示范器所忽略的所述基于学习的规划器将遇到的小概率事件；

将所述第一种代价地图和所述第二种代价地图作为基于学习的规划器的训练样本。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至9任一项所述的移动机器人局部运动规划方法。