WO2024087654A1

WO2024087654A1 - 一种自动驾驶车辆导航控制方法及系统

Info

Publication number: WO2024087654A1
Application number: PCT/CN2023/100154
Authority: WO
Inventors: 吴艳; 高龙飞; 王丽芳; 苟晋芳
Original assignee: 中国科学院电工研究所
Priority date: 2022-10-27
Filing date: 2023-06-14
Publication date: 2024-05-02
Also published as: CN115494849A

Abstract

本发明涉及一种自动驾驶车辆导航控制方法及系统。该方法包括根据车辆与环境状态数据采用优化后的导航模型进行导航；训练过程为根据障碍物的点云数据，采用导航控制算法确定车辆控制量；根据车辆控制量和车辆与环境状态数据，采用DRL决策网络构建导航模型；DRL决策网络包括：根据车辆与环境状态数据和车辆控制量输出第一车辆控制量的DRL Actor网络以及根据第一车辆控制量、车辆控制量以及车辆与环境状态数据输出两组车辆控制量对应的期望收益，确定最终控制量并进行输出的DRL Critic网络；利用奖惩机制对导航模型进行优化。本发明能够提高DRL方式的自动驾驶导航控制的精度和神经网络训练收敛速度、降低神经网络训练收敛难度。

Description

一种自动驾驶车辆导航控制方法及系统

本申请要求于2022年10月27日提交中国专利局、申请号为202211322372.7、发明名称为“一种自动驾驶车辆导航控制方法及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及自动驾驶领域，特别是涉及一种自动驾驶车辆导航控制方法及系统。

背景技术

随着自动驾驶汽车的发展，研究者们发现深度强化学习(DRL)方法能够通过无监督学习很好地将路网络数据和各种传感器信息直接转换为决策值与控制命令，这一特性使得DRL方法被广泛应用于自动驾驶的路径规划系统、行为决策系统、导航控制系统等关键场景。其中，DRL方式的车辆导航控制系统要求智能体能够依据感知系统的数据直接输出车辆的控制指令；同时，要求智能体的决策值符合车辆动力学要求，并且能够完全独立地应对运行场景中的各种情况。它属于端到端的车辆控制方法，其中，深度神经网络作为智能车辆的“大脑”，根据环境状态控制车辆运动。研究人员期望通过深度神经网络的大量训练和学习使得智能车辆能够获得人类驾驶的效果。

在传统的DRL神经网络训练过程中使用奖惩机制进行神经网络的优化。即智能体观测到一个多维状态S，根据神经网络的权值和偏置计算得到一个动作值A，在该智能体执行这个动作后会进入到下一个状态S′。如果S′是一个较为理想的状态，则会获得“奖励”，反之会受到“惩罚”。根据奖惩情况判断由S到A的神经网络参数是否合适，不合适则根据奖惩值对参数进行调整。在神经网络训练初期，由于S到A的映射关系是近乎随机的，所以在智能体运行过程中获得“奖励”的几率很小。这种稀疏的奖励很大程度上导致神经网络的训练较为缓慢，且难以收敛到理想状态。

智能体使用传感器观测环境得到多维状态S，常用的传感器为相机和激光雷达。其中，相机获取的是平面数据，无法对深度信息进行观测；使用双目相机可以进行深度信息的计算，但是这种方式存在较大误差；激光雷达则可以直接观测到环境精确的三维信息。无论是相机获得的图像数据还是激光雷达获得的点云信息，其数据量均过于庞大，需要对其进行预处理以尽量减小状态S的维度。

由于自动驾驶车辆导航控制任务的复杂性，用于该任务的神经网络有很多神经元参数需要调整，所以神经网络的训练是一个非常耗时的任务，通常需要数十万次甚至数百万次训练。针对这种传统DRL方法的探索效率低、难以快速收敛至理想状态等问题，现阶段优化方案主要分为两类，第一类是通过结合多种强化学习的方法对不同的决策或控制任务进行设计。如Y.Xiao等人在车辆端到端的导航控制任务中，使用一个具有离散动作空间的网络进行车辆的行为决策(左转、右转、跟车等)，然后根据选择的动作切换不同的连续动作网络以输出车辆控制指令。L.Chen等人也使用了类似的方案，这种组合神经网络的方式借鉴于分层强化学习(Hierarchical Reinforcement Learning)，这种处理方式往往能够有效提升DRL模型的综合性能，但是运行速度会变慢。第二类是结合传统的控制理论，在DRL训练的过程中对决策值的输出进行矫正。如Xie L等人使用一个随机切换器对PID、OA(obstacle avoidance)控制器与DDPG决策器进行动作的随机选择输出，进而解决DDPG在应用于复杂的现实世界环境时受到高方差问题的困扰，这种方式往往能够有效提高神经网络的训练速度，但神经网络是一个黑盒系统，如何有效地将传统控制方法融入到DRL方法，进而提高自动驾驶车辆导航控制的精确度仍然是丞待解决的关键问题。

发明内容

本发明的目的是提供一种自动驾驶车辆导航控制方法及系统，能够提高自动驾驶车辆导航控制的精确度。

为实现上述目的，本发明提供了如下方案：

一种自动驾驶车辆导航控制方法，包括：

获取车辆与环境状态数据；所述车辆与环境状态数据包括：利用激光雷达获取的车辆设定距离内障碍物的点云数据以及利用惯性导航仪获取的车辆的位姿信息；

根据车辆与环境状态数据采用优化后的导航模型进行导航；所述优化后的导航模型的训练过程为：

根据障碍物的点云数据，采用导航控制算法确定车辆控制量；所述车辆控制量包括：油门动作值、转向动作值与刹车动作值；所述导航控制算法包括：DWA算法；

根据导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRLActor网络和DRL Critic网络；所述DRLActor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型。

可选地，所述获取车辆与环境状态数据，具体包括：

以车辆为圆柱面中心，对障碍物的点云数据进行重投影和编码，得到二维环视图像；

对所述二维环视图像进行横向均值池化与纵向最大值池化，得到1*60的状态矩阵；所述状态矩阵用于表示车身每一个角度到障碍物的距离；

获取车辆的全局路径，并获取在全局路径中与车辆的当前位置距离值最小的路径点以及与车辆航向的夹角。

可选地，所述根据障碍物的点云数据，采用导航控制算法确定车辆控制量，具体包括：

以车辆的当前位置为原点，根据车辆当前位姿以及目标位姿，利用路径规划算法确定多条待行驶路径；

根据目标点的位置以及障碍物的点云数据确定最优路径；

根据最优路径，利用路径跟踪算法确定车辆控制量。

可选地，所述利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型，具体包括：

利用公式确定奖赏函数R；

其中，r_done为完成任务获得的奖励值，未完成任务时，r_done＝0，r_over为发生碰撞或距离全局路径超过设定值时的惩罚值，未发生碰撞或距离全局路径未超过设定值时r_over＝0，V_{angular_z}为车辆z轴角速度，λ₁，λ₂，λ₃，λ₄为比例系数，speed为车辆正向线速度，dis_l为车辆与在全局路径中与车辆的当前位置距离值最小的路径点的欧式距离，dis_a为全局路径与车辆航向的夹角。

一种自动驾驶车辆导航控制系统，包括：

数据获取模块，用于获取车辆与环境状态数据；所述车辆与环境状态数据包括：利用激光雷达获取的车辆设定距离内障碍物的点云数据以及利用惯性导航仪获取的车辆的位姿信息；

导航模块，用于根据车辆与环境状态数据采用优化后的导航模型进行导航；所述优化后的导航模型的训练过程为：

根据障碍物的点云数据，采用导航控制算法确定车辆控制量；所述导航控制算发包括：局部路径规划算法确定待行驶路线，再使用路径跟踪算法确定车辆控制量；所述车辆控制量包括：油门动作值、转向动作值与刹车动作值；

根据所述导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRLActor网络和DRL Critic网络；所述DRL Actor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

可选地，所述数据获取模块具体包括：

二维环视图像确定单元，用于以车辆为圆柱面中心，对障碍物的点云数据进行重投影和编码，得到二维环视图像；

状态矩阵确定单元，用于对所述二维环视图像进行横向均值池化与纵向最大值池化，得到1*60的状态矩阵；所述状态矩阵用于表示车身每一个角度到障碍物的距离；

夹角确定单元，用于获取车辆的全局路径，并获取在全局路径中与车辆的当前位置距离值最小的路径点以及与车辆航向的夹角。

根据目标点的位置以及障碍物的点云数据确定最优路径；

根据最优路径，利用路径跟踪算法确定车辆控制量。

利用公式确定奖赏函数R；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种自动驾驶车辆导航控制方法及系统，将传统车辆导航控制算法与Actor-Critic类型的DRL决策网络进行融合，由于在传统车辆导航控制算法对Actor-Critic类型的DRL决策网络进行引导训练的过程中并未涉及到DRL算法的参数调整方式(算法)以及网络结构，故不会对各种Actor-Critic类的DRL算法特点和机理造成影响，即能在保留原有DRL算法特点的情况下大大提高神经网络的收敛速度，同时降低收敛难度，同时提高DRL模型的实际表现，进而提高自动驾驶车辆导航控制的精确度。

说明书附图

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种自动驾驶车辆导航控制方法流程示意图；

图2为本发明所提供的一种自动驾驶车辆导航控制方法整体流程示意图；

图3为Global Path指引车辆行驶的全局路径示意图；

图4为DRL Actor网络结构示意图；

图5为DRL Critic网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种自动驾驶车辆导航控制方法及系统，能够提高DRL(Actor-Critic类型)方式的自动驾驶导航控制的精度、提高神经网络训练收敛速度、降低神经网络训练收敛难度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种自动驾驶车辆导航控制方法流程示意图，图2为本发明所提供的一种自动驾驶车辆导航控制方法整体流程示意图，如图1和图2所示，本发明所提供的一种自动驾驶车辆导航控制方法，包括：

S101，获取车辆与环境状态数据；所述车辆与环境状态数据包括：利用激光雷达获取的车辆设定距离内障碍物的点云数据以及利用惯性导航仪获取的车辆的位姿信息；激光雷达输出的车辆设定距离内障碍物的点云数据经过地面滤除，得到仅包含障碍物的点云矩阵Φ；

S101具体包括：

以车辆为圆柱面中心，对障碍物的点云数据进行重投影和编码，得到具有深度信息的二维环视图像。

对所述二维环视图像进行横向均值池化与纵向最大值池化，得到1*60的状态矩阵φ_d；所述状态矩阵用于表示车身每一个角度到障碍物的距离。

如图3所示，事先规划好全局路径(Global Path)，全局路径由多个等距路径点构成；根据全局路径中距离车辆最近的一个路径点与车辆当前位置确定车辆与全局路径的位置偏差；根据全局路径中距离车辆最近的一个路径点后的第2、3个路径点连线的朝向，确定车辆当前朝向与全局路径方向的夹角。全局路径即起点到终点的路线，获取方法：使用Unity或者相应的高精地图绘制软件进行某一区域的路线地图绘制；得到区域地图后，根据起点与终点的位置，按照距离最短或行驶时间最短的原则，获取一条最优路线，该路线即全局路径。

全局路径点中，距离车辆的当前位置最近的点为c₀，即为Current waypoint(当前所在路径点)，这里定义c₀与车辆坐标原点的欧式距离为dis_l。定义c₀后2m、3m处的路径点为c₂、c₃，由c₂到c₃的矢量方向与车辆航向之间的夹角为dis_a。其中车辆在全局路径左侧dis_l为正值，车辆在全局路径右侧dis_l为负值。若yaw(偏航角)相对于左偏则dis_a为正值，yaw相对于右偏则dis_a为负值。这样设计的好处在于，当车辆相对于全局路径左偏时，dis_l与dis_a值会增大，经过DRL网络的全连接层会更容易使steer(转向动作)值增大，进而使车辆右转。

激光雷达每一帧的数据量高达10-100万个数据点，直接用于神经网络会产生巨大的计算量。先利用地面去除算法滤除不必要的点云，再对剩下的点云(障碍物点云)进行重映射为60个数字的一维数组，可以极大减少计算量。同时每个数字代表车身周围每3°间隔的方向上与障碍物的距离，能够有效保留必要信息。

车辆与全局路径的相互关系仅由dis_l与dis_a两个数据表示，且这两个值的变化能够有效映射至车辆的动作值上，即当车辆相对于全局路径左偏时，dis_l与dis_a值会增大，经过DRL神经网络的全连接层会更容易使steer值增大，进而使车辆右转，反之亦然。这样能够有效减少输入参数的数量，减小神经元的数量，进而减少训练耗时。

S102，根据车辆与环境状态数据采用优化后的导航模型进行导航；所述优化后的导航模型的训练过程为：

根据障碍物的点云数据，采用导航控制算法确定最优路径的车辆控制量O_dwa；所述车辆控制量O_dwa包括：油门动作值、转向动作值与刹车动作值；所述导航控制算法，就是以非自学习的方式，根据车辆的当前位置、目标位置以及周围环境，经局部路径规划以及路径跟踪的计算方法，获得车辆的控制量的算法；所述导航控制算法包括但不限于DWA算法。

根据导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRLActor网络和DRLCritic网络；所述DRLActor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出传统导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

所述根据障碍物的点云数据，采用导航控制算法确定车辆控制量，以改进的DWA算法为例，具体包括：

利用公式确定转角δ_i；

其中α为车辆最大转向角，δ_i为负代表左转，δ_i为正代表右转。n为导航控制算法所规划出的可行驶路径的总数量，i为大小由1到n的索引值。

根据目标点的位置以及障碍物的点云数据确定最优路径Path_best；

Path_best的选择方式为：

选择车辆当前所在路径点c₀的后一定距离的路径点为Target(目标点)：
Target＝c₀+R+V×k_target (2)

其中，R为车辆最小转弯半径，V为车辆前向速度，k_target为比例系数。

对于每条行驶轨迹，定义最后一个轨迹点为P_i，选择车头中心点为P₀，

则夹角θ_i＝∠P_iP₀Target，进而选择最优路径path_best
Path_best＝Path_j if θ_j＝min(θ_i，i∈[1，n]) (3)

根据最优路径，采用如下公式确定车辆控制量O_dwa。

车辆控制量O_dwa为：

steer_dwa、throttle_dwa、brake_dwa分别代表DWA算法输出的车辆控制量中的转向值、油门值、刹车值。

DWA算法所需的所有状态为S_dwa，以及Actor-Critic类型的DRL决策网络所需的所有状态为S_drl。其中speed为车辆正向线速度。

Actor-Critic类型的DRL算法包含两类神经网络。一类为DRL Actor网络，输入参数为用于表征车辆当前环境和状态的观测值S_drl；输出为动作值集合O_drl，在这里动作值包含油门、转向与刹车，动作值的范围为：

其中steer_drl、throttle_drl、brake_drl分别代表DRL算法输出的车辆控制量中的转向值、油门值、刹车值。

另一类为DRL Critic网络，该网络的输入值包括表征车辆当前环境和状态的观测值s以及观测值s对应的动作值a；输出值为[s,a]这组对应关系的期望收益J。两类神经网络结构分别如图4和图5所示。

在Actor-Critic类型的DRL算法中，Actor网络用于计算车辆控制的动作值a，所以Actor网络训练的目标是为Actor网络中各个神经元选择合适的参数以完成自动驾驶的导航控制任务。Critic网络用于计算当前环境s下执行a会带来的收益，也就是对这组动作进行评估，所以Critic网络的训练目标是正确对s、a的映射进行评估，评估正确与否的依据来自于人为设定的奖赏函数，评估的结果将用于优化神经网络的参数。

奖赏函数是车辆在当前环境s下执行动作a之后，对这一动作进行“奖励”(符合预期)或者“惩罚”(不符合预期或产生危害)。

利用公式确定奖赏函数R；

如图2所示，分别获得了DWA算法和DRL模块获取的车辆动作值O_dwa与O_drl，将这两个动作值与当前状态s输分别输入到Critic网络中，得到两个期望值J_dwa与J_drl。然后由选择器比较J_dwa与J_drl值的大小，将O_dwa与O_drl中具有较大期望值的动作值作为车辆动作a输出。动作a被执行后车辆会进入到新的状态S′_drl。随后计算该动作所获取的奖赏值R，将每个动作执行前后的(S_td3，a，S′_td3，R)参数进行存储，用于神经网络参数的调整。

进行多次训练，直至车辆表现收敛为止。

在DRL神经网络训练的初期，由于Actor网络初始参数导致车辆动作是近乎随机的，车辆控制效果必然很差。DWA算法输出的动作是人为设定的，在初期控制效果要远远好于DRL算法。而Critic网络初始参数具有随机性，所以对于DWA算法与DRL模块的动作选择是近乎随机的，所以会随机选择O_dwa与O_drl进行动作输出。相比于单一的DRL算法，整套算法的控制效果是更好的。更好的控制效果即意味着车辆在训练过程中更加容易获得奖励，从而解决DRL算法在初期因为奖励稀疏而难以收敛以及收敛慢的过程。

在DRL神经网络训练的后期，由于神经网络参数的逐渐完善，后期DWA算法的结果被选择的概率会越来越小，这种模式下DWA算法并不会影响DRL模块的最终效果，只是在初期为DRL提供帮助。

由于在DWA算法对DRL进行引导训练的过程中并未涉及到DRL算法的参数调整方式(算法)以及网络结构，故不会对各种Actor-Critic类的DRL算法特点和机理造成影响。即能在保留原有DRL算法特点的情况下大大提高神经网络的收敛速度，同时降低收敛难度。

对应上述实施例，本发明还提供一种自动驾驶车辆导航控制系统，包括：

根据导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRL Actor网络和DRL Critic网络；所述DRL Actor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

所述数据获取模块具体包括：

所述根据障碍物的点云数据，采用导航控制算法确定最优路径的车辆控制量，具体包括：

根据目标点的位置以及障碍物的点云数据确定最优路径；

根据最优路径，利用路径跟踪算法确定车辆控制量。

所述利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型，具体包括：

利用公式确定奖赏函数R；

其中，r_done为完成任务获得的奖励值，未完成任务时，r_done＝0，r_over为发生碰撞或距离全局路径超过设定值时的惩罚值，未发生碰撞或距离全局路径未超过设定值时r_over＝0，V_{angular_z}为车辆z轴角速度，λ₁，λ₂，λ₃，λ₄为比例系数，speed为车辆正向线速度，d_isl为车辆与在全局路径中与车辆的当前位置距离值最小的路径点的欧式距离，dis_a为全局路径与车辆航向的夹角。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种自动驾驶车辆导航控制方法，其特征在于，包括：

获取车辆与环境状态数据；所述车辆与环境状态数据包括：利用激光雷达获取的车辆设定距离内障碍物的点云数据以及利用惯性导航仪获取的车辆的位姿信息；

根据车辆与环境状态数据采用优化后的导航模型进行导航；所述优化后的导航模型的训练过程为：

根据障碍物的点云数据，采用导航控制算法确定车辆控制量；所述车辆控制量包括：油门动作值、转向动作值与刹车动作值；

根据所述导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRLActor网络和DRL Critic网络；所述DRL Actor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型。
根据权利要求1所述的一种自动驾驶车辆导航控制方法，其特征在于，所述获取车辆与环境状态数据，具体包括：

以车辆为圆柱面中心，对障碍物的点云数据进行重投影和编码，得到二维环视图像；

对所述二维环视图像进行横向均值池化与纵向最大值池化，得到1*60的状态矩阵；所述状态矩阵用于表示车身每一个角度到障碍物的距离；

获取车辆的全局路径，并获取在全局路径中与车辆的当前位置距离值最小的路径点以及与车辆航向的夹角。
根据权利要求1所述的一种自动驾驶车辆导航控制方法，其特征在于，所述根据障碍物的点云数据，采用导航控制算法确定车辆控制量，具体包括：

以车辆的当前位置为原点，根据车辆当前位姿以及目标位姿，利用路径规划算法确定多条待行驶路径；

根据目标点的位置以及障碍物的点云数据确定最优路径；

根据最优路径，利用路径跟踪算法确定车辆控制量。
根据权利要求2所述的一种自动驾驶车辆导航控制方法，其特征在于，所述利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型，具体包括：

利用公式确定奖赏函数R；

其中，r_done为完成任务获得的奖励值，未完成任务时，r_done＝0，r_over为发生碰撞或距离全局路径超过设定值时的惩罚值，未发生碰撞或距离全局路径未超过设定值时r_over＝0，V_{angular_z}为车辆z轴角速度，λ₁，λ₂，λ₃，λ₄为比例系数，speed为车辆正向线速度，dis_l为车辆与在全局路径中与车辆的当前位置距离值最小的路径点的欧式距离，dis_a为全局路径与车辆航向的夹角。
一种自动驾驶车辆导航控制系统，其特征在于，包括：

数据获取模块，用于获取车辆与环境状态数据；所述车辆与环境状态数据包括：利用激光雷达获取的车辆设定距离内障碍物的点云数据以及利用惯性导航仪获取的车辆的位姿信息；

导航模块，用于根据车辆与环境状态数据采用优化后的导航模型进行导航；所述优化后的导航模型的训练过程为：

根据障碍物的点云数据，采用导航控制算法确定车辆控制量；所述车辆控制量包括：油门动作值、转向动作值与刹车动作值；

根据所述导航控制算法确定的车辆控制量以及车辆与环境状态数据，采用Actor-Critic类型的DRL决策网络构建导航模型；所述Actor-Critic类型的DRL决策网络包括：DRLActor网络和DRL Critic网络；所述DRL Actor网络用于根据车辆与环境状态数据以及最优路径的车辆控制量输出第一车辆控制量；所述DRL Critic网络用于根据第一车辆控制量、所述导航控制算法确定的车辆控制量以及车辆与环境状态数据输出导航控制算法确定的车辆控制量和第一车辆控制量对应的期望收益；根据两组车辆控制量对应的期望收益确定最终控制量，并进行输出；

利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型。
根据权利要求5所述的一种自动驾驶车辆导航控制系统，其特征在于，所述数据获取模块具体包括：

二维环视图像确定单元，用于以车辆为圆柱面中心，对障碍物的点云数据进行重投影和编码，得到二维环视图像；

状态矩阵确定单元，用于对所述二维环视图像进行横向均值池化与纵向最大值池化，得到1*60的状态矩阵；所述状态矩阵用于表示车身每一个角度到障碍物的距离；

夹角确定单元，用于获取车辆的全局路径，并获取在全局路径中与车辆的当前位置距离值最小的路径点以及与车辆航向的夹角。
根据权利要求5所述的一种自动驾驶车辆导航控制系统，其特征在于，所述根据障碍物的点云数据，采用导航控制算法确定车辆控制量，具体包括：

以车辆的当前位置为原点，根据车辆当前位姿以及目标位姿，利用路径规划算法确定多条待行驶路径；

根据目标点的位置以及障碍物的点云数据确定最优路径；

根据最优路径，利用路径跟踪算法确定车辆控制量。
根据权利要求6所述的一种自动驾驶车辆导航控制系统，其特征在于，所述利用奖惩机制对所述导航模型进行优化，确定优化后的导航模型，具体包括：

利用公式确定奖赏函数R；

其中，r_done为完成任务获得的奖励值，未完成任务时，r_done＝0，r_over为发生碰撞或距离全局路径超过设定值时的惩罚值，未发生碰撞或距离全局路径未超过设定值时r_over＝0，V_{angular_z}为车辆z轴角速度，λ₁，λ₂，λ₃，λ₄为比例系数，speed为车辆正向线速度，dis_l为车辆与在全局路径中与车辆的当前位置距离值最小的路径点的欧式距离，dis_a为全局路径与车辆航向的夹角。