WO2022252457A1

WO2022252457A1 - 一种自动驾驶控制方法、装置、设备及可读存储介质

Info

Publication number: WO2022252457A1
Application number: PCT/CN2021/121903
Authority: WO
Inventors: 李仁刚; 赵雅倩; 李茹杨
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2021-06-01
Filing date: 2021-09-29
Publication date: 2022-12-08
Also published as: US20230351200A1; US11887009B2; CN113253612B; CN113253612A

Abstract

本申请公开了一种自动驾驶控制方法，该方法使用有噪声和无噪声双策略网络进行参数的优化设置，将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中，以无噪声策略网络作为对比和基准，设定动作空间扰动阈值进行噪声参数的自适应调整，通过在策略网络参数空间自适应注入噪声，间接添加动作噪声，能够有效提升深度强化学习算法对环境和动作空间的探索，提升基于深度强化学习的自动驾驶探索性能和稳定性，保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响，进而提升自动驾驶车辆的稳定性、安全性。本申请还公开了一种自动驾驶控制装置、设备及可读存储介质，具有相应的技术效果。

Description

一种自动驾驶控制方法、装置、设备及可读存储介质

本申请要求在2021年6月1日提交中国专利局、申请号为202110606769.8、发明名称为“一种自动驾驶控制方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自动驾驶技术领域，特别是涉及一种自动驾驶控制方法、装置、设备及可读存储介质。

背景技术

现代城市交通中，机动车数量日益增多，道路拥堵情况严重，且交通事故频发。辅助驾驶/自动驾驶作为最有潜力改善交通状况、提升出行安全与便捷程度的方式，受到越来越多的关注。自动驾驶是一项十分复杂的集成性技术，涵盖车载传感器、数据处理器、控制器等硬件装置，借助现代移动通信与网络技术实现各交通参与者之间的信息传递与共享，通过复杂算法完成环境感知、决策规划和控制执行等功能，实现车辆的自动加速/减速、转向、超车、刹车等操作。

现有的自动驾驶研究和应用方式主要分为两类，模块化方法和端到端方法。其中，端到端方法中的强化学习方法借助马尔科夫决策过程(MDP)从头开始探索和改进自动驾驶策略。由于以强化学习为代表的高级机器学习方法的快速发展，以及超越人类驾驶员的内在潜力，因此基于强化学习的自动驾驶研究与应用具有广阔的发展前景。

目前，基于深度强化学习的自动驾驶序列决策过程中车辆依据当前交通环境状态，利用神经网络表示的驾驶策略选取动作，为了帮助自动驾驶车辆对动作空间进行充分探索，需要在每一个决策过程所选取动作基础上增加一个探索噪声，以增加自动驾驶策略的探索性，探索噪声一般采取高斯分布采样的形式，由于探索噪声具有随机性，这种随机噪声与环境状态、驾驶策略均无关联，导致添加的噪声大小不可控，自动驾驶车辆面对同样的交通状态可能做出不同决策，如果最后生成的决策有问题，就不能确定是神经网络出问题还是扰动出问题，导致探索更加无法预测，容易为自动驾驶带来安全隐患。

综上所述，如何提升自动驾驶车辆的稳定性以及安全性，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种自动驾驶控制方法、装置、设备及可读存储介质，可以提升自动驾驶车辆的稳定性以及安全性。

为解决上述技术问题，本申请提供如下技术方案：

一种自动驾驶控制方法，包括：

初始化深度强化学习自动驾驶决策系统的系统参数；其中，所述深度强化学习自动驾驶决策系统包括：无噪声策略网络、有噪声策略网络；

获取车辆交通环境状态信息；

将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数；

根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。

可选地，所述根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数，包括：

计算所述有噪声策略与所述无噪声策略间的策略差异；

判断所述策略差异是否超过所述扰动阈值；

若超过，将所述策略差异与调制因子的商作为所述噪声参数；

若未超过，将所述策略差异与所述调制因子的乘积作为所述噪声参数；其中，所述调制因子大于1。

可选地，所述根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，包括：

根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化，并将优化后的所述无噪声策略网络的系统参数作为原始参数；

将所述原始参数与所述噪声参数的和，作为所述有噪声策略网络的优化系统参数。

可选地，在所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前，还包括：

确定所述参数优化的执行次数；

判断所述执行次数是否达到训练次数阈值；

若所述执行次数达到所述训练次数阈值，执行所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤。

若所述执行次数未达到所述训练次数阈值，执行所述获取车辆交通环境状态信息的步骤。

可选地，所述自动驾驶控制方法还包括：

若接收到出现驾驶事故通知，执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤。

一种自动驾驶控制装置，包括：

参数初始化单元，用于初始化深度强化学习自动驾驶决策系统的系统参数；其中，所述深度强化学习自动驾驶决策系统包括：无噪声策略网络、有噪声策略网络；

环境获取单元，用于获取车辆交通环境状态信息；

策略生成单元，用于将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

噪声调整单元，用于根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数；

参数优化单元，用于根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

驾驶控制单元，用于根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。

可选地，所述噪声调整单元包括：

差异计算子单元，用于计算所述有噪声策略与所述无噪声策略间的策略差异；

差异判断子单元，用于判断所述策略差异是否超过所述扰动阈值；若超过，触发第一处理子单元；若未超过，触发第二处理子单元；

所述第一处理子单元，用于将所述策略差异与调制因子的商作为所述噪声参数；

所述第二处理子单元，用于将所述策略差异与所述调制因子的乘积作为所述噪声参数；其中，所述调制因子大于1。

可选地，所述参数优化单元包括：

参数确定子单元，用于根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化，并将优化后的所述无噪声策略网络的系统参数作为原始参数；

求和优化子单元，用于将所述原始参数与所述噪声参数的和，作为所述有噪声策略网络的优化系统参数。

一种自动驾驶控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述自动驾驶控制方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述自动驾驶控制方法的步骤。

本申请实施例所提供的方法，使用有噪声和无噪声双策略网络进行参数的优化设置，将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中，以无噪声策略网络作为对比和基准，设定动作空间扰动阈值进行噪声参数的自适应调整，通过在策略网络参数空间自适应注入噪声，间接添加动作噪声，能够有效提升深度强化学习算法对环境和动作空间的探索，提升基于深度强化学习的自动驾驶探索性能和稳定性，保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响，进而提升自动驾驶车辆的稳定性、安全性。

相应地，本申请实施例还提供了与上述自动驾驶控制方法相对应的自动驾驶控制装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种自动驾驶控制方法的实施流程图；

图2为本申请实施例中一种自动驾驶控制装置的结构示意图；

图3为本申请实施例中一种自动驾驶控制设备的结构示意图。

具体实施方式

本申请的核心是提供一种自动驾驶控制方法，可以提升自动驾驶车辆的稳定性以及安全性。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，基于深度强化学习的自动驾驶序列决策过程为：自动驾驶车辆依据当前交通环境状态，利用神经网络表示的驾驶策略选取动作，如加速/减速、转向、变道、刹车等，并获得一个奖励。自动驾驶车辆根据获得的奖励对驾驶策略进行调整，并结合新的交通状态进入下一个决策过程。自动驾驶车辆通过与环境之间的交互做出序列决策，学习到最优驾驶策略，以实现安全驾驶。

为了帮助自动驾驶车辆对动作空间进行充分探索，目前现有技术主要采用的方法是在每一个决策过程所选取动作基础上增加一个探索噪声，一般采取高斯分布采样的形式，比如策略网络生成提速至50km/h的动作指令，则从高斯分布中选取一个随机值，比如10，则最终生成提速至60km/h(50+10)的动作指令。这种添加探索噪声的方法十分简便，然而，这种随机噪声与环境状态、驾驶策略均无关联，自动驾驶车辆面对同样的交通状态可能做出不同决策，会导致探索更加无法预测，带来安全隐患。

为了避免添加的探索噪声对于自动驾驶控制带来的不稳定以及不安全因素，本实施例中提出一种自动驾驶控制方法，请参考图1，图1为本申请实施例中一种自动驾驶控制方法的流程图，该方法包括以下步骤：

S101、初始化深度强化学习自动驾驶决策系统的系统参数；

其中，深度强化学习自动驾驶决策系统为本实施例中搭建的用于生成自动驾驶策略信息的系统，具体地，深度强化学习自动驾驶决策系统中共包含2个策略网络，无噪声策略网络、有噪声策略网络，其中，无噪声策略网络指不含噪声的策略网络(No_Noise_Net)，有噪声策略网络指隐含噪声的策略网络(Noise_Net)，其中，策略网络为基于深度强化学习策略参数空间搭建的网络，本实施例中对于深度强化学习自动驾驶决策系统中指定的深度学习算法不做限定，考虑到自动驾驶问题的状态空间和动作空间连续性，包括DDPG、A3C、SAC、TD3等深度强化学习算法可供选择，本实施例中主要以较简单的DDPG算法为例进行说明，其他深度强化学习算法的应用均可参照本实施例的介绍，在此不再赘述。则相应地，初始化深度强化学习自动驾驶决策系统的系统参数中的系统参数主要可以包括θ ₀(不含噪声的初始策略参数)、θ′ ₀(隐含噪声的初始策略参数)、ω ₀(网络初始参数)，以及初始策略参数噪声σ ₀四种。

深度强化学习自动驾驶决策系统中除了策略网络外，还包括评价网络(Critic_Net)，需要说明的是，无噪声策略网络、有噪声策略网络以及评价网络的具体网络结构本实施例中不做限定，可以参照相关技术进行相应网络结构的搭建，在此不再赘述。

S102、获取车辆交通环境状态信息；

车辆交通环境状态信息指待自动驾驶控制的车辆周边的交通环境状态信息，车辆交通环境状态信息的采集过程以及车辆交通环境状态信息中具体包含的信息项(可以据此实现自动驾驶控制即可)本实施例中不做限定，比如可以借助摄像头、全球定位系统、惯性测量单元、毫米波雷达、激光雷达等车载传感器装置，获取行车环境状态(如天气数据、交通信号灯、交通拓扑信息)，自动驾驶车辆、其他交通参与者的位置、运行状态等信息、摄像头获取的直接原始图像数据，以及通过深度学习模型(如RefineNet等)处理得到的深度图和语义分割图等，将这些行车环境状态、当前自动驾驶的车辆信息、其他交通参与者的位置、其他交通参与者的运行状态、语义分割图作为车辆交通环境状态信息，本实施例仅以上述信息形式以及获取方式为例进行介绍，其他信息的获取方式均可参照本实施例的介绍，在此不再赘述。

S103、将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络，不含噪声的策略网络(无噪声策略网络)和隐含噪声的策略网络(有噪声策略网络)共用一个策略函数π，即无噪声策略网络和有噪声策略网络中共用一套自动驾驶的计算方式，均可以单独实现自动驾驶的计算。

针对输入的车辆交通环境状态信息S _t，无噪声策略网络基于不含噪声的策略参数θ进行自动驾驶策略生成，得到无噪声策略的动作a _t＝π(a _t|s _t，θ)；有噪声策略网络基于隐含噪声的策略参数θ′进行自动驾驶策略生成，得到有噪声策略的动作a′ _t＝π(a′ _t|s _t，θ′)。需要说明的是，调用两个网络分别对车辆交通环境状态信息进行处理的过程可以参照目前策略网络的信息处理方式，在此不作限定。

S104、根据有噪声策略与无噪声策略，在扰动阈值范围内调整注入至有噪声策略网络的噪声参数；

有噪声策略与无噪声策略可以指示噪声对于自动驾驶决策的影响程度，若差值过大指示添加的噪声可能过大，此时可能会对正常决策产生较大的干扰，造成有噪声策略的偏差，比如原本策略指示加速至50km/h，添加一个较大的噪声后可能会导致策略变为加速至70km/h，造成超速等对于安全稳定驾驶不利的因素。本实施例中为了避免随机噪声对于策略稳定性以及正确性的影响，同时保证策略的探索性，设置了一个扰动阈值，该扰动阈值为添加的噪声的范围，将噪声限制在扰动阈值范围内，可以避免噪声过大的影响，同时根据有噪声策略与无噪声策略进行噪声值的调整，可以实现生成的策略对于添加的噪声反向回馈，基于设定的扰动阈值，自适应地调整下一次注入策略参数空间的噪声σ _t+1。

而对于具体地噪声值调整规则本实施例中不做限定，可以根据实际使用需要进行设定，一种实现方式如下：

(1)计算有噪声策略与无噪声策略间的策略差异；

计算不含噪声与隐含噪声的自动驾驶车辆动作a _t(无噪声策略)与a′ _t(有噪声策略)的策略差异，其中策略差异的评价标准本实施例中不做限定，比如可以以距离作为策略差异的评价标准，相应地，计算有噪声策略与无噪声策略间的策略差异，即策略参数噪声对动作的扰动幅度

本实施例中仅以距离作为策略差异的评价标准为例进行介绍，其它评价标准均可参照本实施例的介绍，在此不再赘述。

(2)判断策略差异是否超过扰动阈值；

扰动阈值为预先设定的策略差异阈值，本申请中会控制有噪声策略网络与所述无噪声策略在实际策略生成中的策略差异不会超出扰动阈值，避免噪声参数对于策略生成影响过大，影响生成策略的准确性以及稳定性。

(3)若超过，将距离与调制因子的商作为噪声参数；

(4)若未超过，将距离与调制因子的乘积作为噪声参数；其中，调制因子大于1。

若策略差异超过扰动阈值，指示当前噪声扰动过大，需调小噪声参数，本实施例中提出的噪声参数的调小策略为做商；若策略差异未超过扰动阈值，为增加深度学习的探索性，同时避免噪声扰动超出扰动阈值，可以调大噪声参数，本实施例中提出的噪声参数的调大策略为做乘积。

根据策略差异d与扰动阈值δ的关系，自适应地更新参数噪声σ _t+1，

其中调制因子α>1。

本实施例中仅以上述噪声参数调整方式为例进行介绍，此外，还可以采取其他的计算方式，比如若超过扰动阈值减去一定值，未超过扰动阈值加上一定值等，其他调整方式均可参照本实施例的介绍，在此不再赘述。

S105、根据噪声参数对有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

基于设定的扰动阈值，自适应地调整注入策略参数空间的噪声参数σ _t+1后，根据噪声参数对有噪声策略网络的系统参数进行参数优化，具体地需要更新评价网络(Critic_Net)参数ω、无噪声策略网络(No_Noise_Net)参数θ与隐含噪声网络(Noise_Net)参数θ′。

其中，在确定了噪声参数后，更新评价网络(Critic_Net)参数ω、无噪声策略网络(No_Noise_Net)参数θ的实现方式可以参照相关技术中的实现方式，本实施例中对此不作限定，为加深理解，在此介绍一种实现方式：

(1)评价网络(Critic_Net)基于隐含噪声动作a′ _t计算价值函数Q(s _t，a′ _t)，并得到环境给予的奖励r _t。最小化损失函数来更新网络参数ω。损失函数定义为：

式中，N为采集的样本数量，γ为折扣因子，通常取为介于0-1之间的常数。Q′(s _Dt+1，a′ _Dt+1)表示的价值函数通过回放缓冲区D的数据计算得到，回放缓冲区D由预先训练得到的一系列历史数据c _Dt＝(s _Dt，a′ _Dt，r _Dt，s _Dt+1)组成，其中包含的均为含噪声的动作。

通过如下策略梯度，更新无噪声策略网络(No_Noise_Net)参数θ：

式中，J(θ)为策略梯度方法的目标函数，通常表示为关于奖励r _t的函数。最大化目标函数得到策略梯度

通过

对无噪声策略网络(No_Noise_Net)参数θ进行更新，其中κ为固定的时间步参数。

而对于有噪声策略网络(Noise_Net)参数θ′的参数优化方式，本实施例中提出一种优化方式，具体可以为：结合上述步骤得到的自适应的噪声参数σ _t+1和优化后的无噪声策略网络(No_Noise_Net)参数θ，令θ′＝θ+σ _t+1，即将优化后的所述无噪声策略网络的系统参数与噪声参数求和，作为所述有噪声策略网络的优化系统参数θ′。该更新方式可以保证有噪声策略网络的参数导向的精准度。本实施例中仅以上述有噪声策略网络的系统参数更新方式为例进行介绍，其他实现方式均可参照本实施例的介绍，在此不作限定。

S106、根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。

对有噪声策略网络进行参数优化后，即可根据优化后的有噪声策略网络进行自动驾驶控制，具体地将实时采集到的车辆交通环境状态信息传输至优化后的有噪声策略网络，并将优化后的有噪声策略网络输出的驾驶策略作为待执行的驾驶策略进行自动驾驶控制，而其中，根据确定的待执行的驾驶策略后，根据其进行自动驾驶控制的实现方式可以参照相关技术的介绍，在此不再赘述。

而进一步地，上述步骤中介绍了一次系统参数优化的实现步骤，为了增强自动驾驶决策的精准度，一般可以执行若干次后，将最终得到的有噪声策略网络作为待调用的网络进行自动驾驶的控制。

则相应地，为了提升优化效果，在根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前，可以进一步执行以下步骤：

(1)确定参数优化的执行次数；

(2)判断执行次数是否达到训练次数阈值；

(3)若执行次数达到训练次数阈值，执行根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤。

(4)若执行次数未达到训练次数阈值，执行获取车辆交通环境状态信息的步骤。

以上为一种参数优化的退出方式，即参数优化的执行次数达到预先设定的训练次数阈值(比如10000次)时，退出参数优化的步骤，将当前生成的系统参数作为优化后的参数，将当前的深度强化学习自动驾驶决策系统作为优化后的网络，转而执行根据优化后的网络进行自动驾驶控制的步骤；若未达到预先设定的训练次数阈值，则在上次参数优化训练过程中生成的系统参数的基础上继续添加新的车辆交通环境状态信息进行参数优化训练，执行步骤S102之后的步骤。

而在一些情况下，参数优化的过程中可能会出现一些偏差导致自动驾驶安全性收到威胁的情况，为保证自动驾驶的安全性，若接收到出现驾驶事故通知，可以退出当前参数优化的步骤，执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤，在重新初始化的系统参数的基础上重新进行系统参数的优化训练。而其中驾驶事故比如当前车辆发生碰撞、冲出车道等，在此不作限定。

基于上述介绍，本申请实施例所提供的技术方案，使用有噪声和无噪声双策略网络进行参数的优化设置，将相同的车辆交通环境状态信息输入至有噪声和无噪声双策略网络中，以无噪声策略网络作为对比和基准，设定动作空间扰动阈值进行噪声参数的自适应调整，通过在策略网络参数空间自适应注入噪声，间接添加动作噪声，能够有效提升深度强化学习算法对环境和动作空间的探索，提升基于深度强化学习的自动驾驶探索性能和稳定性，保证车辆决策和动作选择充分考虑环境状态、驾驶策略的影响，进而提升自动驾驶车辆的稳定性、安全性。

相应于上面的方法实施例，本申请实施例还提供了一种自动驾驶控制装置，下文描述的自动驾驶控制装置与上文描述的自动驾驶控制方法可相互对应参照。

参见图2所示，该装置包括以下模块：

参数初始化单元110主要用于初始化深度强化学习自动驾驶决策系统的系统参数；其中，深度强化学习自动驾驶决策系统包括：无噪声策略网络、有噪声策略网络；

环境获取单元120主要用于获取车辆交通环境状态信息；

策略生成单元130主要用于将车辆交通环境状态信息分别输入至无噪声策略网络以及有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

噪声调整单元140主要用于根据有噪声策略与无噪声策略，在扰动阈值范围内调整注入至有噪声策略网络的噪声参数；

参数优化单元150主要用于根据噪声参数对有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

驾驶控制单元160主要用于根据优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。

在本申请的一种具体实施方式中，噪声调整单元包括：

在本申请的一种具体实施方式中，参数优化单元包括：

相应于上面的方法实施例，本申请实施例还提供了一种自动驾驶控制设备，下文描述的一种自动驾驶控制设备与上文描述的一种自动驾驶控制方法可相互对应参照。

该自动驾驶控制设备包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述方法实施例的自动驾驶控制方法的步骤。

具体的，请参考图3，为本实施例提供的一种自动驾驶控制设备的具体结构示意图，该自动驾驶控制设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器 322可以设置为与存储器332通信，在自动驾驶控制设备301上执行存储器332中的一系列指令操作。

自动驾驶控制设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的自动驾驶控制方法中的步骤可以由自动驾驶控制设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种自动驾驶控制方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的自动驾驶控制方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

一种自动驾驶控制方法，其特征在于，包括：

初始化深度强化学习自动驾驶决策系统的系统参数；其中，所述深度强化学习自动驾驶决策系统包括：无噪声策略网络、有噪声策略网络；

获取车辆交通环境状态信息；

将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数；其中，所述根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数，包括：计算所述有噪声策略与所述无噪声策略间的策略差异；判断所述策略差异是否超过所述扰动阈值；若超过，将所述策略差异与调制因子的商作为所述噪声参数；若未超过，将所述策略差异与所述调制因子的乘积作为所述噪声参数；其中，所述调制因子大于1；

根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
根据权利要求1所述的自动驾驶控制方法，其特征在于，所述根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，包括：

根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化，并将优化后的所述无噪声策略网络的系统参数作为原始参数；

将所述原始参数与所述噪声参数的和，作为所述有噪声策略网络的优化系统参数。
根据权利要求1所述的自动驾驶控制方法，其特征在于，在所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制之前，还包括：

确定所述参数优化的执行次数；

判断所述执行次数是否达到训练次数阈值；

若所述执行次数达到所述训练次数阈值，执行所述根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制的步骤；

若所述执行次数未达到所述训练次数阈值，执行所述获取车辆交通环境状态信息的步骤。
根据权利要求3所述的自动驾驶控制方法，其特征在于，还包括：

若接收到出现驾驶事故通知，执行所述初始化深度强化学习自动驾驶决策系统的系统参数的步骤。
一种自动驾驶控制装置，其特征在于，包括：

参数初始化单元，用于初始化深度强化学习自动驾驶决策系统的系统参数；其中，所述深度强化学习自动驾驶决策系统包括：无噪声策略网络、有噪声策略网络；

环境获取单元，用于获取车辆交通环境状态信息；

策略生成单元，用于将所述车辆交通环境状态信息分别输入至所述无噪声策略网络以及所述有噪声策略网络进行自动驾驶策略生成，得到无噪声策略以及有噪声策略；

噪声调整单元，用于根据所述有噪声策略与所述无噪声策略，在扰动阈值范围内调整注入至所述有噪声策略网络的噪声参数；其中，所述噪声调整单元包括：差异计算子单元，用于计算所述有噪声策略与所述无噪声策略间的策略差异；差异判断子单元，用于判断所述策略差异是否超过所述扰动阈值；若超过，触发第一处理子单元；若未超过，触发第二处理子单元；所述第一处理子单元，用于将所述策略差异与调制因子的商作为所述噪声参数；所述第二处理子单元，用于将所述策略差异与所述调制因子的乘积作为所述噪声参数；其中，所述调制因子大于1；

参数优化单元，用于根据所述噪声参数对所述有噪声策略网络的系统参数进行参数优化，生成优化有噪声策略网络；

驾驶控制单元，用于根据所述优化有噪声策略网络生成的驾驶策略进行自动驾驶控制。
根据权利要求5所述的自动驾驶控制装置，其特征在于，所述参数优化单元包括：

参数确定子单元，用于根据所述有噪声策略对所述无噪声策略网络的系统参数进行参数优化，并将优化后的所述无噪声策略网络的系统参数作为原始参数；

求和优化子单元，用于将所述原始参数与所述噪声参数的和，作为所述有噪声策略网络的优化系统参数。
一种自动驾驶控制设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述自动驾驶控制方法的步骤。
一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述自动驾驶控制方法的步骤。