WO2021238303A1

WO2021238303A1 - 运动规划的方法与装置

Info

Publication number: WO2021238303A1
Application number: PCT/CN2021/075925
Authority: WO
Inventors: 王志涛; 庄雨铮; 刘武龙; 古强
Original assignee: 华为技术有限公司
Priority date: 2020-05-29
Filing date: 2021-02-08
Publication date: 2021-12-02
Also published as: CN113805572A; CN113805572B

Abstract

本申请涉及人工智能领域，具体涉及自动驾驶领域，提供一种运动规划的方法与装置，该方法包括：获取驾驶环境信息，驾驶环境信息包括动态障碍物的位置信息；将驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取强化学习网络模型输出的预测时域，预测时域表示对动态障碍物进行运动轨迹预测的时长或者步数；利用预测时域进行运动规划。预测时域是通过强化学习得到的，从而可以随驾驶环境的改变而动态改变的，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

Description

运动规划的方法与装置

本申请要求于2020年05月29日提交中国专利局、申请号为202010471732.4、申请名称为“运动规划的方法与装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能领域，具体涉及一种运动规划的方法与装置。

背景技术

自动驾驶实现的关键技术包括感知定位、规划决策、执行控制。其中，规划决策包括运动规划(motion planning)，运动规划是在遵循道路交通规则的前提下，将自动驾驶车辆从当前位置导航到目的地的一种方法。

在实际开放道路场景下，自动驾驶要处理的场景非常繁杂，尤其在动态的交通场景中，即存在动态障碍物(行人或车辆)(也可称为其它交通参与者)的交通场景中，自动驾驶车辆在与动态障碍物交互过程中存在博弈行为，这种场景下，要求自动驾驶车辆可以灵活应对动态障碍物。

目前，运动规划的方案缺乏在与动态障碍物交互过程中灵活应对动态障碍物的能力。

发明内容

本申请提供一种运动规划的方法与装置，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

第一方面，提供一种运动规划的方法，所述方法包括：获取驾驶环境信息，所述驾驶环境信息包括动态障碍物的位置信息；将所述驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；利用所述预测时域进行运动规划。

该强化学习网络模型的输入为驾驶环境信息，该强化学习网络模型的输出为预测时域。换句话说，强化学习算法中的状态(state)为驾驶环境信息，动作(action)为预测时域。本申请实施例中的强化学习网络模型也可以称为预测时域策略网络。

通过采用强化学习方法，根据驾驶环境信息实时确定预测时域，使得预测时域不是固定的，而是可以随驾驶环境的变换而动态变化的，从而基于该预测时域进行运动规划，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

自动驾驶车辆按照基于采用强化学习方法获得的预测时域进行运动规划得到的运动轨迹进行行驶，可以实现在与动态障碍物交互过程中动态调整驾驶风格。驾驶风格表示驾驶行为是激进的还是保守的。

现有技术中，预测时域是固定的，可以视为，自动驾驶车辆的驾驶风格是固定的，而交通场景复杂多变，如果自动驾驶车辆的驾驶风格固定，难以兼顾通信效率与行驶安全。

在本申请中，预测时域是通过强化学习得到的，则该预测时域的大小不是固定的，而是随驾驶环境的改变而动态改变的，也就是说，针对动态障碍物不同的移动状态，该预测时域可以是不同的。因此，在本申请中，随着自动驾驶车辆的驾驶环境的改变，预测时域可大可小，对应的自动驾驶车辆的驾驶风格可保守可激进，从而可以实现在与动态障碍物交互过程中动态调整驾驶风格。

结合第一方面，在一种可能的实现方式中，所述利用所述预测时域进行运动规划，包括：将所述预测时域作为超参数，对所述动态障碍物的运动轨迹进行预测；根据所述驾驶环境信息中包括的静态障碍物的位置信息，以及所预测的所述动态障碍物的运动轨迹，规划自动驾驶车辆的运动轨迹。

结合第一方面，在一种可能的实现方式中，还包括：控制自动驾驶车辆按照所述运动规划得到的运动轨迹进行行驶。

第二方面，提供一种数据处理的方法，所述方法包括：根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据；利用所述训练数据，对所述强化学习网络模型进行强化学习的训练，以获得训练后的所述强化学习网络模型，其中，所述强化学习网络模型的输入为驾驶环境信息，所述强化学习网络模型的输出为预测时域，所述预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。

该强化学习网络模型的输入为驾驶环境信息，强化学习网络模型的输出为预测时域。

将采用本申请提供的数据处理的方法训练得到的强化学习网络模型应用于自动驾驶，可以在运动规划的过程中，根据驾驶环境确定较为合适的预测时域，基于该预测时域进行运动规划，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

结合第二方面，在一种可能的实现方式中，所述根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据，包括：通过如下步骤获得所述训练数据中的一组样本<状态s，动作a，奖励r>。

获取驾驶环境信息，将所述驾驶环境信息作为所述状态s，所述驾驶环境信息包括动态障碍物的位置信息；将所述状态s输入待训练的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，将所述预测时域作为所述动作a，其中，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；利用所述预测时域进行运动规划，获得自动驾驶车辆的运动轨迹；通过控制所述自动驾驶车辆按照所述自动驾驶车辆的运动轨迹进行行驶，获得所述奖励r。

结合第二方面，在一种可能的实现方式中，所述获得所述奖励r，包括：根据回报函数，计算所述奖励r，其中，所述回报函数考虑了下列任一种或多种因素：驾驶安全性、自动驾驶车辆的通行效率、其他交通参与者的通行效率。

第三方面，提供一种数据处理的装置，所述装置包括获取单元、预测单元与规划单元。

所述获取单元用于获取驾驶环境信息，所述驾驶环境信息包括动态障碍物的位置信息。所述预测单元，用于将所述驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数。所述规划单元，用于利用所述预测时域进行运动规划。

结合第三方面，在一种可能的实现方式中，所述规划单元用于：将所述预测时域作为超参数，对所述动态障碍物的运动轨迹进行预测；根据所述驾驶环境信息中包括的静态障碍物的位置信息，以及所预测的所述动态障碍物的运动轨迹，规划自动驾驶车辆的运动轨迹。

结合第三方面，在一种可能的实现方式中，所述装置还包括控制单元，用于控制自动驾驶车辆按照所述运动规划得到的运动轨迹进行行驶。

第四方面，提供一种数据处理的装置，所述装置包括获取单元与训练单元。

所述获取单元用于根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据。所述训练单元用于利用所述训练数据，对所述强化学习网络模型进行强化学习的训练，以获得训练后的所述强化学习网络模型。其中，所述强化学习网络模型的输入为驾驶环境信息，所述强化学习网络模型的输出为预测时域，所述预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。

结合第四方面，在一种可能的实现方式中，所述根获取单元用于，通过如下步骤获得所述训练数据中的一组样本<状态s，动作a，奖励r>。

获取驾驶环境信息，将所述驾驶环境信息作为所述状态s，所述驾驶环境信息包括动态障碍物的位置信息。将所述状态s输入待训练的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，将所述预测时域作为所述动作a，其中，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数。利用所述预测时域进行运动规划，获得自动驾驶车辆的运动轨迹。通过控制所述自动驾驶车辆按照所述自动驾驶车辆的运动轨迹进行行驶，获得所述奖励r。

结合第四方面，在一种可能的实现方式中，所述获取单元用于，根据回报函数，计算所述奖励r，其中，所述回报函数考虑了下列任一种或多种因素：驾驶安全性、自动驾驶车辆的通行效率、其他交通参与者的通行效率。

第五方面，提供一种自动驾驶车辆，包括第三方面提供的数据处理的装置。

结合第四方面，在一种可能的实现方式中，所述自动驾驶车辆还包括第四方面提供的数据处理的装置。

第六方面，提供一种数据处理的装置，该装置包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行上述第一方面或第二方面中的方法。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述第一方面或第二方面中的方法。

第八方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第二方面中的方法。

第九方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或第二方面中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行上述第一方面或第二方面中的方法。

基于上述描述，在本申请中，预测时域是通过强化学习得到的，则该预测时域的大小不是固定的，而是随驾驶环境的改变而动态改变的，也就是说，针对动态障碍物不同的移动状态，该预测时域可以是不同的。因此，在本申请中，随着自动驾驶车辆的驾驶环境的改变，预测时域可大可小，对应的自动驾驶车辆的驾驶风格可保守可激进，从而可以实现在与动态障碍物交互过程中动态调整驾驶风格。

附图说明

图1是自动驾驶系统的示意性框图。

图2是自动驾驶的场景示意图。

图3是强化学习的原理示意图。

图4是本申请实施例提供的运动规划的方法的示意性流程图。

图5是本申请实施例提供的运动规划的方法的另一示意性流程图。

图6是本申请实施例提供的训练强化学习网络模型的方法的示意性流程图。

图7是图6中步骤S610的示意性流程图。

图8是自动驾驶的另一场景示意图。

图9是本申请实施例提供的数据处理的装置的示意性框图。

图10是本申请实施例提供的数据处理的装置的另一示意性框图。

图11是本申请实施例提供的数据处理的装置的又一示意性框图。

图12是本申请实施例提供的数据处理的装置的再一示意性框图。

图13是本申请实施例提供的一种芯片硬件结构示意图。

具体实施方式

随着智能驾驶的到来，智能汽车(intelligent vehicles)成为各大厂商重点研究的目标。智能汽车根据传感器输入的各种参数等生成期望的路径，并将相应的控制量提供给后续的控制器。智能驾驶也称为自动驾驶。自动驾驶的关键技术包括感知定位、决策规划、执行控制。作为示例，如图1所示，自动驾驶系统可以包括感知模块110、决策规划模块120与执行控制模块130。

下面对自动驾驶系统中的环境感知模块110、决策规划模块120与执行控制模块130进行过示例性地描述。

环境感知模块110负责采集环境信息，例如，其他车辆、行人等障碍物信息，道路上交通标志、红绿灯等交通规则信息。

决策规划模块120负责的决策规划可以分为如下三个层次。

1)全局路径规划(route planning)，指的是，在收到一个目的地信息后，结合地图信息和本车的当前位置信息与姿态信息，生成一条最优的全局路径，作为后续局部路径规划的参考与引导。这里的“最优”可以指路径最短、时间最快或必须经过指定点等条件。

常见的全局路径规划算法包括Dijkstra、A-Star算法，以及在这两种算法基础上的多种改进。

2)行为决策层(behavioral layer)，指的是，在接收到全局路径后，根据从环境感知模块110得到的环境信息，以及本车当前的行驶路径等信息，作出具体的行为决策(例如，变道超车、跟车行驶、让行、停车、进出站等)。

常见的行为决策层的算法包括：有限状态机、决策树、基于规则的推理模型等。

3)运动规划(motion planning)，指的是，根据行为决策层作出的具体的行为决策，生成一条满足各种约束条件(例如，安全性、车辆本身的动力学约束等)的运动轨迹，该运动轨迹作为执行控制模块130的输入决定车辆的行驶路径。

执行控制模块130负责，根据决策规划模块120输出的运动轨迹，控制车辆的行驶路径。

在实际开放道路场景下，自动驾驶要处理的场景非常繁杂，包括：空旷的道路场景、与行人、障碍物共用道路的场景、空旷的十字路口场景、繁忙的十字路口场景、违反交通规则的行人/车辆场景、正常行驶的车辆/行人场景等。例如，在如图2所示的动态交通场景中，具有其它交通参与者：行人与移动的其它车辆，对自动驾驶车辆来说，行人与移动的其它车辆是动态障碍物。自动驾驶车辆在与动态障碍物交互过程中存在博弈行为。因此，在动态交通场景中，要求自动驾驶车辆可以灵活应对动态障碍物。

目前，运动规划的主要实现方式有基于搜索(例如，A*类算法)、采样(例如，RRT类算法)、参数化轨迹(例如，Reeds-Shepp曲线)以及优化(例如，基于Frenet坐标系)的解决方案，这些解决方案缺乏在与动态障碍物交互过程中灵活应对动态障碍物的能力。

针对上述问题，本申请提供一种运动规划的方法，可以使得自动驾驶车辆在与动态障碍物交互过程中可以灵活应对动态障碍物。

为了更好地理解本申请实施例，下面先描述本申请实施例涉及的强化学习。

强化学习(reinforcement learning，RL)用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是马尔可夫决策过程(markov decision process，MDP)。MDP是一种分析决策问题的数学模型。强化学习是智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。强化学习中由环境提供的强化信号(即奖励)对产生动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价(即奖励)的环境中获得知识，改进行动方案以适应环境。常见的强化学习算法有Q-learning，policy gradient，actor-critic等。

如图3所示，强化学习主要包含五个元素：智能体(agent)、环境(environment)、状态(state)、动作(action)与奖励(reward)，其中，智能体的输入为状态，输出为动作。强化学习的训练过程为：通过智能体与环境进行多次交互，获得每次交互的动作、状态、奖励；将这多组(动作，状态，奖励)作为训练数据，对智能体进行一次训练。采用上述过程，对智能体进行下一轮次训练，直至满足收敛条件。

作为示例，获得一次交互的动作、状态、奖励的过程如图3所示，将环境当前状态s0输入至智能体，获得智能体输出的动作a0，根据环境在动作a0作用下的相关性能指标计算本次交互的奖励r0，至此，获得本次交互的动作a0、动作a0与奖励r0。记录本次交互的动作a0、动作a0与奖励r0，以备后续用来训练智能体。还记录环境在动作a0作用下的下一个状态s1，以便实现智能体与环境的下一次交互。

下面将结合附图，对本申请中的技术方案进行描述。

图4为本申请实施例提供的一种运动规划的方法400的示意性流程图。以自动驾驶系统如图1为例，该方法300可以由决策规划模块120执行。如图4所示，该方法400包括步骤S410、S420、S430。

S410，获取驾驶环境信息。

该驾驶环境信息包括动态障碍物的位置信息。动态障碍物表示驾驶环境中行人、车辆等各种运动的障碍物。动态障碍物也可以称为动态交通参与者。例如，动态障碍物包括其它行驶的车辆或行人。

例如，驾驶环境信息还可以包括道路结构信息、静态障碍物的位置信息、自动驾驶车辆的位置信息等。其中，道路结构信息包括道路上交通标志、红绿灯等交通规则信息等。

获取驾驶环境信息的方法可以为，根据自动驾驶车辆上的各个传感器采集的信息获取驾驶环境信息。本申请对获取驾驶环境信息的方式不作限定。

S420，将驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取强化学习网络模型输出的预测时域，该预测时域表示对动态障碍物进行运动轨迹预测的时长或者步数。

本申请实施例中的强化学习网络模型表示强化学习方法中的智能体(如图3所示)。

需要说明的是，驾驶环境信息的状态表征表示对驾驶环境信息进行处理后的数据。实际应用中，可以根据强化学习算法中对状态的定义来确定对驾驶环境信息的处理方式。

实际应用中，可以根据应用需求设计强化学习算法中状态的定义。本申请对此不作限定。

本申请实施例中提及的预测时域表示对动态障碍物进行运动轨迹预测的时长或者步数。

作为一个示例，假设将预测时域定位是预测的时长，例如，预测时域为5，表示，对动态障碍物进行运动轨迹预测的时长为5个时间单位。该时间单位可以预设。

作为另一个示例，假设将预测时域定位是预测的步数，例如，预测时域为5，表示，对动态障碍物进行运动轨迹预测的步数为5个单位步长。该单位步长可以预设。

本申请实施例中的预测时域还可以表述为是，用于规划动态障碍物的运动轨迹的规划器的预测时域。

需要说明的是，本申请实施例提供的运动规划的方法400(以及下文将描述的方法500)中采用的强化学习网络模型为已经训练好的模型，具体地，是以基于驾驶环境预测预测时域为训练目标训练好的模型。关于强化学习网络模型的训练方法，下文将结合图6进行描述，这里暂不详述。

S430，利用该预测时域进行运动规划。

例如，利用预测时域进行运动规划的流程包括如下步骤：

1)将步骤S420中得到的预测时域作为超参数，对动态障碍物的运动轨迹进行预测；

2)根据驾驶环境信息中的静态障碍物的位置信息，以及所预测的动态障碍物的运动轨迹，利用规划算法进行规划自动驾驶车辆的运动轨迹。

需要说明的是，根据动态障碍物的运动轨迹预测的时长或步数(即本申请实施例中的预测时域)对自动驾驶车辆进行运动规划的方法可参考现有技术，本文对此不作详述。

应理解，自动驾驶车辆可以按照步骤S430中得到的自动驾驶车辆的运动轨迹进行行驶，直至驾驶任务完成。

例如，自动驾驶车辆按照步骤S430中得到的自动驾驶车辆的运动轨迹行驶C1步，若驾驶任务未完成，则基于更新后的驾驶环境重新获取新的状态，继续执行步骤S420与步骤S430，并按照步骤S430中得到的自动驾驶车辆的运动轨迹行驶C2步，若驾驶任务未完成，继续循环上述操作，若驾驶任务完成则自动驾驶结束。其中，涉及的C1与C2的取值可以预设或根据驾驶环境实时确定。C1与C2可以相同，也可以不同。

以C1与C2相同且取值为10为例，则自动驾驶车辆可以按照步骤S430中得到的自动驾驶车辆的运动轨迹行驶10个单位步长。单位步长可以预设的。

例如，自动驾驶车辆按照基于采用强化学习方法获得的预测时域进行运动规划得到的运动轨迹进行行驶，可以实现在与动态障碍物交互过程中动态调整驾驶风格。

驾驶风格表示驾驶行为是激进的还是保守的。

例如，在预测时域较大的情况下，可以将对应的驾驶风格视为是保守的；在预测时域较小的情况下，可以将对应的驾驶风格视为是激进的。

下面结合图5描述本申请实施例提供的运动规划的方法的一个例子。

图5为本申请实施例提供的一种运动规划的方法500的示意性流程图。

S510，获取驾驶环境信息。

该驾驶环境信息包括动态障碍物的位置信息。

驾驶环境信息还可以包括道路结构信息、静态障碍物的位置信息、自动驾驶车辆的位置信息等。

S520，将步骤S510获取的驾驶环境信息的状态表征输入训练后的强化学习网络模型，获得该强化学习网络模型输出的预测时域。

S530，根据步骤S520中得到的预测时域，对自动驾驶车辆进行运动规划，获得自动驾驶车辆的规划轨迹。

步骤S530可以包括如下两个步骤：

1)将步骤S520中得到的预测时域作为超参数，对动态障碍物的运动轨迹进行预测；

S540，控制自动驾驶车辆按照步骤S530中获得的自动驾驶车辆的运动轨迹行驶C步，或者说，执行步骤S530中获得的自动驾驶车辆的运动轨迹的前C步，C为正整数。

S550，判断驾驶任务是否完成，若是，则自动驾驶操作结束，若否，转到步骤S510。

本申请实施例提供的运动规划的方法，通过采用强化学习方法，根据驾驶环境信息实时确定预测时域，使得预测时域不是固定的，而是可以随驾驶环境的变换而动态变化的，从而基于该预测时域进行运动规划，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

例如，将本申请实施例提供的运动规划的方法应用于自动驾驶，可以实现在与动态障碍物交互过程中动态调整驾驶风格。

图6为本申请实施例提供的一种数据处理的方法600的示意性流程图。例如，该方法600可应用于训练得到方法400与方法500中采用的强化学习网络模型。该方法600包括如下步骤。

S610，根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得强化学习网络模型的训练数据。该强化学习网络模型的输入为驾驶环境信息，强化学习网络模型的输出为预测时域，预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。

S620，利用该训练数据，对强化学习网络模型进行强化学习的训练，以获得训练后的强化学习网络模型。

本申请实施例中的强化学习网络模型表示强化学习方法中的智能体(如图3所示)。该强化学习网络模型的训练数据包括多组样本，每组样本可以表示为<状态s，动作a，奖励r>。关于状态s，动作a、奖励r的含义参见前文结合图3的描述，这里不再赘述。

如图7所示，在本申请实施例中，步骤S610包括：通过如下步骤S611至步骤S614，获得该强化学习网络模型的训练数据中的一组样本<状态s，动作a，奖励r>。

S611，获取驾驶环境信息，将驾驶环境信息作为该状态s。

该驾驶环境信息包括动态障碍物的位置信息。

例如，该驾驶环境信息还可以包括道路结构信息、静态障碍物的位置信息、自动驾驶车辆的位置信息等。

S612，将该状态s输入待训练的强化学习网络模型，获取强化学习网络模型输出的预测时域，将预测时域作为该动作a，其中，预测时域表示对动态障碍物进行运动轨迹预测的时长或者步数。

S613，利用预测时域进行运动规划，获得自动驾驶车辆的运动轨迹。

步骤S613可以包括如下两个步骤：

1)将步骤S612中得到的预测时域作为超参数，对动态障碍物的运动轨迹进行预测；

S614，通过控制自动驾驶车辆按照自动驾驶车辆的运动轨迹进行行驶，获得该奖励r。

例如，通过控制自动驾驶车辆按照自动驾驶车辆的运动轨迹进行行驶，获得更新后的驾驶环境信息，基于更新后的驾驶环境信息计算得到奖励r。其中，基于更新后的驾驶环境信息获得奖励r的策略可以根据应用需求确定，本申请对此不作限定。

应理解，通过循环执行多轮步骤S611至步骤S614，可得到多组样本<状态s，动作a，奖励r>。其中，在每次执行下一轮步骤S611至步骤S614之前，强化学习网络模型会根据上一轮步骤S614获得的奖励更新状态s与动作a之间的映射关系。

将这多组样本作为训练数据，对强化学习网络模型进行一次训练。继续采用上述过程，对强化学习网络模型进行下一轮次训练，直至满足模型收敛条件，则获得训练好的强化学习网络模型。

可选地，在本实施例的步骤S614中，可以通过代价函数，计算得到奖励r。

该代价函数可以根据应用需求进行设计。

可选地，该代价函数可以是根据自动驾驶车辆与其它车辆之间的博弈行为确定的。

作为示例，设计该代价函数的考虑因素包括下列中任一种或多种：

驾驶安全性、自动驾驶车辆的通行效率、其他交通参与者(例如，其它车辆)的通行效率。

作为一个示例，奖励r根据如下分段函数获得，该分段函数可以称为代价函数：

该分段函数中的第一段“-0.5×time_step”是用于鼓励自动驾驶车辆尽快完成驾驶任务，是出于自动驾驶车辆的通行效率的考虑。其中，Time_step表示驾驶任务的计时信息。

该分段函数中的第二段“-10”用于惩罚碰撞行为，是出于安全性的考虑。

该分段函数中的第三段“10”用于对完成驾驶任务进行奖励。

该分段函数中的第四段“5”用于对其它车辆通过窄道进行奖励，使得强化学习算法不仅考虑自动驾驶车辆的行驶效率，还考虑其它车辆的行驶效率，是出于鼓励兼顾其它车辆的通行效率的考虑。

将本申请实施例提供的方法600训练得到的强化学习网络模型应用于自动驾驶，可以在运动规划的过程中，根据驾驶环境确定较为合适的预测时域，基于该预测时域进行运动规划，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

下面描述一个将本申请实施例提供的方法应用于如图8所示的窄道会车场景的例子。

图8所示的窄道会车场景的驾驶任务是，自动驾驶车辆与其它车辆(移动的)期望通过窄道，两车在不考虑路权的情况下行驶，自动驾驶车辆根据对方车辆的形式行为对自身的行驶行为进行调整。

步骤1)，获取强化学习算法中的状态。

例如，通过激光雷达，获取二维可行区域信息与不可行区域信息。例如，将这些区域信息(包括二维可行区域信息与不可行区域信息)表征为84×84投影矩阵。

例如，为了使得强化学习网络模型能够对自动驾驶车辆与其他车辆的运动具有描述能力，可以将历史投影矩阵中间隔为5的最近4帧投影矩阵按照当前车辆坐标系进行坐标变换，将得到的投影矩阵序列作为强化学习网络模型的输入。

步骤2)，将步骤1)获取的状态，即矩阵序列，输入强化学习网络模型，获得规划算法对动态障碍物的预测时域。

例如，强化学习网络模型的网络结构可以采用ACKTR算法。该ACKTR算法为Actor-Critic框架下的策略梯度算法。该ACKTR算法包括策略网络与值网络。

例如，为了处理矩阵输入，可以设计包含卷积层与全连接层的值网络与策略网络模型。将步骤1)中得到的矩阵序列作为该强化学习网络模型的输入。将策略网络的输出值设计为规划算法对动态障碍物的预测时域。关于预测时域的说明参见前文，这里不再赘述。

步骤3)，以步骤2)中得到的预测时域作为超参数，利用匀速预测模型对动态的其他车辆进行该时域步长的轨迹预测。

基于静态障碍物以及对动态障碍物的轨迹预测，例如，采用多项式规划算法进行运动规划。多项式算法是一种基于采样的规划算法，该算法在结构化道路的Frenet坐标系下进行规划，首先对偏离车道中心线的横向距离以及纵向期望速度进行采样，之后通过五次多项式拟合，生成备选轨迹集合，最后根据规划器的代价函数对轨迹进行优选，输出最优轨迹，完成运动规划。

应理解，自动驾驶车辆可以按照步骤3)中得到的自动驾驶车辆的运动轨迹进行行驶，直至驾驶任务完成。

例如，自动驾驶车辆按照步骤3)中得到的自动驾驶车辆的运动轨迹行驶若干步，若驾驶任务未完成，则继续执行步骤1)至步骤3)，并按照步骤3)中得到的自动驾驶车辆的运动轨迹行驶若干步，若驾驶任务未完成，继续循环上述操作，若驾驶任务完成则自动驾驶任务结束。

在结合图8描述的例子中涉及的强化学习网络模型可以采用上文实施例中的方法600训练得到。具体描述详见上文，这里不再赘述。

上述可知，本申请实施例，通过采用强化学习方法，根据驾驶环境信息实时确定预测时域，使得预测时域不是固定的，而是可以随驾驶环境的变换而动态变化的，从而基于该预测时域进行运动规划，可以实现在自动驾驶车辆与动态障碍物交互过程中使得自动驾驶车辆可以灵活应对动态障碍物。

本文中描述的各个实施例可以为独立的方案，也可以根据内在逻辑进行组合，这些方案都落入本申请的保护范围中。

上文描述了本申请提供的方法实施例，下文将描述本申请提供的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见上文方法实施例，为了简洁，这里不再赘述。

如图9所示，本申请实施例还提供一种数据处理的装置900，该装置900包括环境感知模块910、运动规划模块920、车辆控制模块930。

环境感知模块910，用于获取驾驶环境信息，并向该驾驶环境信息传递给运动规划模块920。

例如，环境感知模块910用于根据车辆上各个传感器所采集的信息，获取驾驶环境信息。

该驾驶环境信息包括动态障碍物的位置信息。

运动规划模块920，用于从环境感知模块910接收驾驶环境信息，并采用强化学习网络模型获得动态障碍物的预测时域，并基于该预测时域进行运动规划，获得自动驾驶车辆的运动轨迹，并将该运动轨迹对应的规划控制信息传递给车辆控制模块930。

例如，运动规划模块920用于执行上文方法实施例提供的方法400中的步骤S420与步骤S430。

车辆控制模块930，用于从运动规划模块920接收规划控制信息，并控制车辆依据规划控制信息对应的动作指令信息控制车辆完成驾驶任务。

本申请实施例提供的装置900可以设置在自动驾驶车辆上。

如图10所示，本申请实施例还提供一种运动规划的装置1000，装置1000用于执行上文方法实施例中的方法400或方法500。装置1000包括获取单元1010、预测单元1020与规划单元1030。

获取单元1010用于获取驾驶环境信息，驾驶环境信息包括动态障碍物的位置信息。

预测单元1020用于将驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取强化学习网络模型输出的预测时域，预测时域表示对动态障碍物进行运动轨迹预测的时长或者步数。

规划单元1030用于利用预测时域进行运动规划。

例如，规划单元1030利用预测时域进行运动规划的操作包括如下步骤。

将预测时域作为超参数，对动态障碍物的运动轨迹进行预测；根据驾驶环境信息中包括的静态障碍物的位置信息，以及所预测的动态障碍物的运动轨迹，规划自动驾驶车辆的运动轨迹。

如图10所示，该装置1000还可以包括控制单元1040，用于控制自动驾驶车辆按照运动规划得到的运动轨迹进行行驶。

例如，预测单元1020、规划单元1030与控制单元1040可以通过处理器实现。获取单元1010可以通过通信接口实现。

如图11所示，本申请实施例还提供一种数据处理的装置1100，装置1100用于执行上文方法实施例中的方法600。装置1100包括获取单元1110与训练单元1120。

获取单元1110用于根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得强化学习网络模型的训练数据。

训练单元1120用于利用训练数据，对强化学习网络模型进行强化学习的训练，以获得训练后的强化学习网络模型。其中，强化学习网络模型的输入为驾驶环境信息，强化学习网络模型的输出为预测时域，预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。

例如，获取单元1110用于通过如图7所示的步骤S611至步骤S614获得训练数据中的一组样本<状态s，动作a，奖励r>。参见上文描述，这里不再赘述。

如图12所示，本申请实施例还提供一种数据处理的装置1200。该装置1200包括处理器1210，处理器1210与存储器1220耦合，存储器1220用于存储计算机程序或指令，处理器1210用于执行存储器1220存储的计算机程序或指令，使得上文方法实施例中的方法被执行。

可选地，如图12所示，该装置1200还可以包括存储器1220。

可选地，如图12所示，该装置1200还可以包括数据接口1230，数据接口1230用于与外界进行数据的传输。

可选地，作为一种方案，该装置1200用于实现上文实施例中的方法400。

可选地，作为另一种方案，该装置1200用于实现上文实施例中的方法500。

可选地，作为又一种方案，该装置1200用于实现上文实施例中的方法600。

本申请实施例还提供一种自动驾驶车辆，包括如图9所示的数据处理的装置900或如图10所示的数据处理的装置1000。

可选地，该自动驾驶车辆还包括如图11所示的数据处理的装置1100。

本申请实施例还提供一种自动驾驶车辆，包括如图12所示的数据处理的装置1200。

本申请实施例还提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行上述实施例的方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述实施例的方法。

本申请实施例还提供一种芯片，该芯片包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，执行上述实施例的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，存储器中存储有指令，处理器用于执行存储器上存储的指令，当指令被执行时，处理器用于执行上述实施例中的方法。

图13为本申请实施例提供的一种芯片硬件结构，该芯片上包括神经网络处理器1300。该芯片可以被设置在如下任一种或多种装置中：

如图9所示的装置900、如图10所示的装置1000、如图11中所示的装置1100、如图12所示的装置1200。

上文方法实施例中的方法400、500或600均可在如图13所示的芯片中得以实现。

神经网络处理器1300作为协处理器挂载到主处理器(Host CPU)上，由主CPU分配任务。神经网络处理器1300的核心部分为运算电路1303，控制器1304控制运算电路1303获取存储器(权重存储器1302或输入存储器1301)中的数据并进行运算。

在一些实现中，运算电路1303内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路1303是二维脉动阵列。运算电路1303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路1303从权重存储器1302中取矩阵B相应的数据，并缓存在运算电路1303中每一个PE上。运算电路1303从输入存储器1301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1308中。

向量计算单元1307可以对运算电路1303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元1307可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能1307将经处理的输出的向量存储到统一存储器(也可称为统一缓存器)1306。例如，向量计算单元1307可以将非线性函数应用到运算电路1303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1307生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1303的激活输入，例如用于在神经网络中的后续层中的使用。

上文方法实施例中的方法400、500或600可以由1303或1307执行。

统一存储器1306用于存放输入数据以及输出数据。

可以通过存储单元访问控制器1305(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器1301和/或统一存储器1306、将外部存储器中的权重数据存入权重存储器1302，以及将统一存储器1306中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)1310，用于通过总线实现主CPU、DMAC和取指存储器1309之间进行交互。

与控制器1304连接的取指存储器(instruction fetch buffer)1309，用于存储控制器1304使用的指令；

控制器1304，用于调用指存储器1309中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器1306，输入存储器1301，权重存储器1302以及取指存储器1309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

需要说明的是，本文中涉及的第一、第二、第三或第四等各种数字编号仅为描述方便进行的区分，并不用来限制本申请实施例的范围。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)(UFD也可以简称为U盘或者优盘)、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种运动规划的方法，其特征在于，包括：

获取驾驶环境信息，所述驾驶环境信息包括动态障碍物的位置信息；

将所述驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；

利用所述预测时域进行运动规划。
根据权利要求1所述的方法，其特征在于，所述利用所述预测时域进行运动规划，包括：

将所述预测时域作为超参数，对所述动态障碍物的运动轨迹进行预测；

根据所述驾驶环境信息中包括的静态障碍物的位置信息，以及所预测的所述动态障碍物的运动轨迹，规划自动驾驶车辆的运动轨迹。
根据权利要求1或2所述的方法，其特征在于，还包括：

控制自动驾驶车辆按照所述运动规划得到的运动轨迹进行行驶。
一种数据处理的方法，其特征在于，包括：

根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据；

利用所述训练数据，对所述强化学习网络模型进行强化学习的训练，以获得训练后的所述强化学习网络模型，

其中，所述强化学习网络模型的输入为驾驶环境信息，所述强化学习网络模型的输出为预测时域，所述预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。
根据权利要求4所述的方法，其特征在于，所述根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据，包括：

通过如下步骤获得所述训练数据中的一组样本<状态s，动作a，奖励r>：

获取驾驶环境信息，将所述驾驶环境信息作为所述状态s，所述驾驶环境信息包括动态障碍物的位置信息；

将所述状态s输入待训练的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，将所述预测时域作为所述动作a，其中，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；

利用所述预测时域进行运动规划，获得自动驾驶车辆的运动轨迹；

通过控制所述自动驾驶车辆按照所述自动驾驶车辆的运动轨迹进行行驶，获得所述奖励r。
根据权利要求5所述的方法，其特征在于，所述获得所述奖励r，包括：

根据回报函数，计算所述奖励r，其中，所述回报函数考虑了下列任一种或多种因素：

驾驶安全性、自动驾驶车辆的通行效率、其他交通参与者的通行效率。
一种运动规划的装置，其特征在于，包括：

获取单元，用于获取驾驶环境信息，所述驾驶环境信息包括动态障碍物的位置信息；

预测单元，用于将所述驾驶环境信息的状态表征输入训练后的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；

规划单元，用于利用所述预测时域进行运动规划。
根据权利要求7所述的装置，其特征在于，所述规划单元用于：

将所述预测时域作为超参数，对所述动态障碍物的运动轨迹进行预测；

根据所述驾驶环境信息中包括的静态障碍物的位置信息，以及所预测的所述动态障碍物的运动轨迹，规划自动驾驶车辆的运动轨迹。
根据权利要求7或8所述的装置，其特征在于，还包括：

控制单元，用于控制自动驾驶车辆按照所述运动规划得到的运动轨迹进行行驶。
一种数据处理的装置，其特征在于，包括：

获取单元，用于根据强化学习网络模型与自动驾驶的驾驶环境交互获得的数据，获得所述强化学习网络模型的训练数据；

训练单元，用于利用所述训练数据，对所述强化学习网络模型进行强化学习的训练，以获得训练后的所述强化学习网络模型，

其中，所述强化学习网络模型的输入为驾驶环境信息，所述强化学习网络模型的输出为预测时域，所述预测时域表示对自动驾驶的动态障碍物进行运动轨迹预测的时长或者步数。
根据权利要求10所述的装置，其特征在于，所述根获取单元用于，通过如下步骤获得所述训练数据中的一组样本<状态s，动作a，奖励r>：

获取驾驶环境信息，将所述驾驶环境信息作为所述状态s，所述驾驶环境信息包括动态障碍物的位置信息；

将所述状态s输入待训练的强化学习网络模型，获取所述强化学习网络模型输出的预测时域，将所述预测时域作为所述动作a，其中，所述预测时域表示对所述动态障碍物进行运动轨迹预测的时长或者步数；

利用所述预测时域进行运动规划，获得自动驾驶车辆的运动轨迹；

通过控制所述自动驾驶车辆按照所述自动驾驶车辆的运动轨迹进行行驶，获得所述奖励r。
根据权利要求11所述的装置，其特征在于，所述获取单元用于，根据回报函数，计算所述奖励r，其中，所述回报函数考虑了下列任一种或多种因素：

驾驶安全性、自动驾驶车辆的通行效率、其他交通参与者的通行效率。
一种自动驾驶车辆，其特征在于，包括：

如权利要求7-9中任一项所述的运动规划的装置。
根据权利要求13所述的装置，其特征在于，还包括：

如权利要求10-12中任一项所述的数据处理的装置。
一种数据处理的装置，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于调用并运行所述存储器中的所述可执行指令，以执行权利要求1至6中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1至6中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现权利要求1至6中任一项所述的方法。