WO2019071909A1

WO2019071909A1 - 基于相对熵深度逆强化学习的自动驾驶系统及方法

Info

Publication number: WO2019071909A1
Application number: PCT/CN2018/078740
Authority: WO
Inventors: 林嘉豪; 章宗长
Original assignee: 苏州大学张家港工业技术研究院
Priority date: 2017-10-11
Filing date: 2018-03-12
Publication date: 2019-04-18
Also published as: CN107544516A

Abstract

一种基于相对熵深度逆强化学习的自动驾驶系统，包括：(1)客户端：显示驾驶策略；(2)驾驶基础数据采集子系统：采集道路信息；(3)存储模块：与客户端及驾驶基础数据采集子系统连接并存储驾驶基础数据采集子系统所采集到的道路信息；其中，驾驶基础数据采集子系统采集道路信息并将所述道路信息传输给客户端及存储模块，存储模块接收道路信息，并将持续的一段道路信息存储为历史轨迹，根据历史轨迹进行分析计算模拟出驾驶策略，存储模块将所述驾驶策略传输至客户端以供用户选择，客户端接收道路信息并根据用户选择实施自动驾驶。该系统采用相对熵的深度逆强化学习算法实现无模型下自动驾驶。

Description

基于相对熵深度逆强化学习的自动驾驶系统及方法

本申请要求了申请日为2017年10月11，申请号为201710940590X，发明名称为“基于相对熵深度逆强化学习的自动驾驶系统及方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及一种基于相对熵深度逆强化学习的自动驾驶系统及方法，属于自动驾驶技术领域。

背景技术

随着我国汽车持有量的增加，道路交通拥堵现象越来越严重，每年发生的交通事故也在不断上升，为了更好的解决这一问题，研究和开发汽车自动驾驶系统很有必要。且随着人们对生活质量追求的提升，人们希望从疲劳的驾驶活动中得到解放，自动驾驶技术应运而生。

现有的一种汽车自动驾驶系统是由装在驾驶室的摄像机和图像识别系统辨别驾驶环境，然后由车载主控计算机、GPS定位系统和路径规划软件根据预先存好的道路地图等信息对车辆进行导航，在车辆的当前位置和目的地之间规划出合理的行驶路径将车辆导向目的地。

上述汽车自动驾驶系统中，由于道路地图是预存于车辆内，其数据的更新依赖于驾驶员的人工操作，更新频率不能够保证，并且，即使驾驶员能够做到及时更新，也可能由于现有资源里没有关于道路的最新信息而使得最终得到的资料不能够反应当下的道路情况，最终造成行车路线不合理，导航准确率不高，给行车带来不便。并且，目前在自动驾驶技术领域的大部分汽车自动驾驶系统还需要人工进行干预，并不能达到完全的自动驾驶的地步。

发明内容

本发明的目的在于提供一种基于相对熵深度逆强化学习的自动驾驶系统及方法，利用深度神经网络结构并输入用户驾驶员的历史驾驶轨迹信息，获取多种代表个性驾驶习惯的驾驶策略，通过这些驾驶策略进行个性、智能的自动驾驶。

为达到上述目的，本发明提供如下技术方案：一种基于相对熵深度逆强化学习的自动驾驶系统，所述系统包括：

客户端：显示驾驶策略；

驾驶基础数据采集子系统：采集道路信息；

存储模块：与所述客户端及驾驶基础数据采集子系统连接并存储所述驾驶基础数据采集子系统所采集到的道路信息；

其中，所述驾驶基础数据采集子系统采集道路信息并将所述道路信息传输给所述客户端及存储模块，所述存储模块接收所述道路信息，并将持续的一段道路信息存储为历史轨迹，根据所述历史轨迹进行分析计算模拟出驾驶策略，所述存储模块将所述驾驶策略传输至客户端以供用户选择，所述客户端接受并根据所述道路信息和用户个性选择的所述驾驶策略实施自动驾驶。

进一步地，所述存储模块包括用于存储历史驾驶轨迹的驾驶轨迹库、根据驾驶轨迹及驾驶习惯计算并模拟出驾驶策略的轨迹信息处理子系统及存储驾驶策略的驾驶策略库；所述驾驶轨迹库将驾驶轨迹数据传输给所述轨迹信息处理子系统，所述轨迹信息处理子系统根据所述驾驶轨迹数据分析计算并模拟出驾驶策略并传输给所述驾驶策略库，所述驾驶策略库接收并存储所述驾驶策略。

进一步地，所述轨迹信息处理子系统采用多目标的相对熵深度逆强化学习算法计算并模拟驾驶策略。

进一步地，所述多目标的逆强化学习算法采用EM算法框架嵌套相对熵深度逆强化学习计算多奖赏函数的参数。

进一步地，所述驾驶基础数据采集子系统包括用于采集道路信息的传感器。

本发明还提供了一种基于相对熵深度逆强化学习的自动驾驶的方法，所述方法包括如下步骤：

包括如下步骤：

S1：采集道路信息并将所述道路信息传输给客户端及存储模块；

S2：所述存储模块接收所述道路信息并将持续的一段道路信息存储为历史轨迹，根据所述历史轨迹分析计算并模拟多种驾驶策略，并将所述驾驶策略传递给所述客户端；

S3：所述客户端接收所述道路信息及驾驶策略，并根据用户选择的个性驾驶策略及道路信息实施自动驾驶。

进一步地，所述存储模块包括用于存储历史驾驶轨迹的驾驶轨迹库、根据驾驶规划及驾驶习惯计算并模拟出驾驶策略的轨迹信息处理子系统及存储驾驶策略的驾驶策略库；所述驾驶轨迹库将驾驶轨迹数据传输给所述轨迹信息处理子系统，所述轨迹信息处理子系统根据所述驾驶轨迹数据分析计算并模拟出驾驶策略并传输给所述驾驶策略库，所述驾驶策略库接收并存储所述驾驶策略。

本发明的有益效果在于：通过在系统中设置驾驶基础数据采集子系统，实时采集道路信息，并将道路信息传递给存储模块，存储模块接收道路信息后并将持续的一段道路信息存储为历史轨迹，根据历史驾驶轨迹模拟驾驶策略，实现个性、智能的自动驾驶。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明的基于相对熵深度逆强化学习的自动驾驶系统及方法的流程图。

图2为马尔科夫决策过程MDP示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

请参见图1，本发明的一较佳实施例的基于相对熵深度逆强化学习的自动驾驶系统包括：

客户端1：显示驾驶策略；

驾驶基础数据采集子系统2：采集道路信息；

存储模块3：与所述客户端1及驾驶基础数据采集子系统2连接并存储所述驾驶基础数据采集子系统2所采集到的道路信息；

其中，所述驾驶基础数据采集子系统2采集道路信息并将所述道路信息传输给所述客户端1及存储模块3，所述存储模块3接收所述道路信息，并将持续的一段道路信息存储为历史轨迹，根据所述历史轨迹进行分析计算模拟出驾驶策略，所述存储模块3将所述驾驶策略传输至客户端1以供用户选择，所述客户端1接收所述道路信息并根据用户选择的个性驾驶策略实施自动驾驶。在本实施例中，所述存储模块3为云端。

所述客户端1最主要的功能是与用户完成人机交互过程，提供给个性的、智能的多种驾驶策略选择以及服务。客户端1根据用户个性的驾驶策略选择，从云端3驾驶策略库33下载相应的驾驶策略，接着根据驾驶策略和基础数据进行实时的驾驶决策，实现实时的无人驾驶控制。

所述驾驶基础数据采集子系统2通过传感器(未图示)采集道路信息。采集到的信息有两个用途：将信息传递给客户端1，为当前的驾驶决策提供基础数据；将信息传递到云端3的驾驶轨迹库31，存储为用户驾驶员的历史驾驶轨迹数据。

所述云端3包括用于历史驾驶轨迹的驾驶轨迹库31、根据驾驶规划及驾驶习惯计算并模拟出驾驶策略的轨迹信息处理子系统32及存储驾驶策略的驾驶策略库33；所述驾驶轨迹库31将驾驶轨迹数据传输给所述轨迹信息处理子系统32，所述轨迹信息处理子系统32根据所述驾驶轨迹数据分析计算并模拟出驾驶策略并传输给所述驾驶策略库33，所述驾驶策略库33接收并存储所述驾驶策略。所述轨迹信息处理子系统32采用多目标的相对熵深度逆强化学习算法计算并模拟驾驶策略。在本实施例中，所述多目标的逆强化学习算法采用EM算法框架嵌套相对熵深度逆强化学习计算多奖赏函数的参数。所述历史驾驶轨迹包括专家历史驾驶轨迹及用户的历史轨迹。

所述逆强化学习IRL是指在环境已知的马尔科夫决策过程MDP中奖赏函数R未知的问题。在一般的强化学习问题RL中，往往利用已知的环境、给定的奖赏函数R以及马尔科夫性质来估计一个状态动作对的值Q(s,a)(也可称为动作累积奖赏值)，然后利用收敛的各个状态动作对的值Q(s,a)来求取策略π，智能体(Agent)便可利用策略π进行决策。在现实中，奖赏函数R往往是极难获知的，但是一些优秀的轨迹T ^N是比较容易获得的。在奖赏函数未知的马尔科夫决策过程MDP/R中，利用优秀的轨迹T ^N还原奖赏函数R的问题被称为逆强化学习问题IRL。

在本实施例中，利用所述驾驶轨迹库31中已知的用户历史驾驶轨迹数据，进行相对熵深度逆强化学习，还原出多种用户个性的奖赏函数R，进而模拟出相应的驾驶策略π。相对熵深度逆强化学习算法是一种无模型的算法，无需已知环境模型中的状态转移函数T(s,a,s′)，相对熵逆强化学习算法可以利用重要性采样的方法在计算中避开状态转移函数T(s,a,s′)。

在本实施例中，汽车的自动驾驶决策过程是一个没有奖赏函数的马尔科夫决策过程MDP/R，可以表示为集合{状态空间S,动作空间A，环境定义的状态转移概率T(省略对环境转移概率T的要求)。汽车Agent的值函数(累计奖赏值)可以表示为

而汽车Agent的状态动作值函数可以表示为Q(s,a)＝R _θ(s,a)+γE _T(s,a,s′)[V(s′)]。为了解决更加复杂的真实驾驶问题，对奖赏函数的假设不再只是简单的线性组合，而是假设为一个深度神经网络R(s,a,θ)＝g ₁(g ₂(…(g _n(f(s,a),θ _n),…),θ ₂),θ ₁),其中f(s,a)表示(s,a)处的驾驶的道路特征信息，θ _i表示深度神经网络第i层的参数。

同时，为了满足更个性、更智能的真实驾驶场景，假设有多个奖赏函数R(目标)同时存在，代表用户驾驶员不同的驾驶习惯。假设存在G个奖赏函数，令这G个奖赏函数的先验概率分布为ρ ₁,…,ρ _G,奖赏权重为θ ¹,…,θ ^G,令Θ＝(ρ ₁,…,ρ _G,θ ¹,…,θ ^G),表示这G个奖赏函数的参数集合。

请参见图2，在已知有假设奖赏函数(由初始化或经过迭代获得)的条件下，此时我们可以把问题描述为一个完全的马尔科夫决策过程MDP。此时在完全的马尔科夫决策过程MDP下，根据强化学习的知识，利用奖赏函数R(s,a,θ)＝g ₁(g ₂(…(g _n(f,θ _n),…),θ ₂),θ ₁)，我们可以对V值以及Q值进行评估。对于强化学习的评估算法，采用一种新的软最大化方法(MellowMax)来估计V值的期望值。MellowMax的生成器定义为：

MellowMax是一种更优化的算法，它能够保证对V值的估计能够收敛于唯一一点。同时， MellowMax又具备特质：科学的概率分配机制和期望估计方法。在本实施例中，结合了MellowMax的强化学习算法在自动驾驶过程中对环境的探索和利用方面将更加合理。这保证了在强化学习过程收敛时，自动驾驶系统对各种情景已经有了足够的学习并能对当前状态产生较科学的评估。

在本实施例中，根据结合了一种软最大化算法MellowMax的强化学习，可以获得对状态的特征的期望值更科学的评价。利用MellowMax可以获得动作选取的概率分布为

在该软最大化的动作选取的规则下，利用强化学习的迭代过程，可以获得在以当前深度神经网络的参数为θ构成的奖赏函数所能够获得特征的期望值μ。μ可以理解为特征的累计的期望。

在本实施例中，利用EM算法来求解上述带隐变量的多目标逆强化学习问题。EM算法按步骤可分为E步和M步，通过E步、M步的不断迭代，逼近似然估计的极大值。

E步：首先计算

其中Z为正则项。z _ij代表第i个驾驶轨迹属于驾驶习惯(奖赏函数)j的概率。

令y _i＝j表示第i个驾驶轨迹属于驾驶习惯j，并用y＝(y ₁,…,y _N)的集合表示N个驾驶轨迹的从属集合。

计算似然估计值

(这里所指的Q函数Q(Θ,Θ ^t)是EM算法的更新目标函数，注意与强化学习中的Q动作状态值函数相区别)，经过推算获得似然估计值

M步：选取合适的多驾驶习惯参数集合Θ(ρ _l和θ _l)使得E步中的似然估计值Q(Θ,Θ ^t)极大化。由于ρ _l和θ _l的相互独立性，可以分开求它们的极大化。可以得到

后半部分

对于极大化Q(Θ,Θ ^t)后半部分的更新目标:

可以理解为

是关于在第l簇目标的参数为θ _l的条件下得到观察的轨迹集合

所能够获得最大似然方程。我们可以利用相对熵深度逆强化学习的知识来求解这个最大似然方程。相对熵的求解公式，在符合最大似然更新目标的同时，可以很自然应用到深度神经网络参数的反向传播更新。令深度神经网络的最大化目标函数为L(θ)＝logP(D,θ|r),根据联合似然函数的分解公式，可以获得L(θ)＝logP(D,θ|r)＝logP(D|r)+logP(θ)。对该联合似然目标函数求偏导可以获得

对于该偏导的前半部分,可以进一步做分解，表示为

其中

根据相对熵逆强化学习的知识，可以得到求解结果为当前奖赏函数下的特征期望值与专家特征值的差值

其中,利用重要性采样，

其中，π是一种给定的策略，根据这种策略π采样获得

个轨迹。其中

其中τ＝s ₁a ₁,…,s _Ha _H。进一步的，

其中

表示为更新深度神经网络中隐藏层参数时通过反向传播算法计算的梯度。

梯度更新完成标志着一次相对熵深度逆强化学习迭代更新的完成。利用更新完成了参数更新的新的深度网络奖赏函数产生新的策略π，进行新的迭代。

不断迭代进行E步和M步的计算，直至似然估计值Q(Θ,Θ ^t)收敛至极大值。此时获得的参数集合Θ＝(ρ ₁,…,ρ _G,θ ¹,…,θ ^G)，就是我们想要求解的代表多驾驶习惯的奖赏函数的先验分布和权重。

在本实施例中，根据这个参数集合Θ，经过强化学习RL的计算，获得每个驾驶习惯R的驾驶策略π。输出多驾驶策略，并保存在云端的驾驶策略库中。用户便可在客户端中选择个性、智能的驾驶策略。

S2：所述存储模块接收所述道路信息并根据所述道路信息分析计算并模拟多种驾驶策略，并将所述驾驶策略传递给所述客户端；

综上所述：通过在系统中设置驾驶基础数据采集子系统2，实时采集道路信息，并将道路信息传递给存储模块3及客户端1，存储模块3接收道路信息后根据历史驾驶轨迹模拟驾驶策略，实现个性、智能的自动驾驶。

基于本方法的自动驾驶中，驾驶策略都在云端3中实现计算，而不是在客户端1中运行计算过程。当用户在需要进行自动驾驶的时候，所有驾驶策略都已经在云端3完成。用户只需要选择下载自己所需的驾驶策略，车体就可以根据用户所选择的驾驶策略和实时道路信息进行实时的自动驾驶。同时，在完成任何一次驾驶之后，大量的道路信息上传到云端3被存储为历史驾驶轨迹。利用存储的历史驾驶轨迹大数据，再实现对驾驶策略库的更新。利用轨迹信息大数据，本系统将实现更加贴近用户需求的自动驾驶。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种基于相对熵深度逆强化学习的自动驾驶系统，其特征在于，所述系统包括：

客户端：显示驾驶策略；

驾驶基础数据采集子系统：采集道路信息；

存储模块：与所述客户端及驾驶基础数据采集子系统连接并存储所述驾驶基础数据采集子系统所采集到的道路信息；

其中，所述驾驶基础数据采集子系统采集道路信息并将所述道路信息传输给所述客户端及存储模块，所述存储模块接收所述道路信息，并将持续的一段道路信息存储为历史轨迹，根据所述历史轨迹进行分析计算模拟出驾驶策略，所述存储模块将所述驾驶策略传输至客户端以供用户选择，所述客户端接受并根据所述道路信息和用户个性选择的所述驾驶策略实施自动驾驶。
如权利要求1所述的基于相对熵深度逆强化学习的自动驾驶系统，其特征在于，所述存储模块包括用于存储历史驾驶轨迹的驾驶轨迹库、根据驾驶轨迹及驾驶习惯计算并模拟出驾驶策略的轨迹信息处理子系统及存储驾驶策略的驾驶策略库；所述驾驶轨迹库将驾驶轨迹数据传输给所述轨迹信息处理子系统，所述轨迹信息处理子系统根据所述驾驶轨迹数据分析计算并模拟出驾驶策略并传输给所述驾驶策略库，所述驾驶策略库接收并存储所述驾驶策略。
如权利要求2所述的基于相对熵深度逆强化学习的自动驾驶系统，其特征在于，所述轨迹信息处理子系统采用多目标的相对熵深度逆强化学习算法计算并模拟驾驶策略。
如权利要求3所述的基于相对熵深度逆强化学习的自动驾驶系统，其特征在于，所述多目标的逆强化学习算法采用EM算法框架嵌套相对熵深度逆强化学习计算多奖赏函数的参数。
如权利要求1所述的基于相对熵深度逆强化学习的个性化自动驾驶系统，其特征在于，所述驾驶基础数据采集子系统包括用于采集道路信息的传感器。
一种基于相对熵深度逆强化学习的自动驾驶的方法，其特征在于，所述方法包括如下步骤：

S1：采集道路信息并将所述道路信息传输给客户端及存储模块；

S2：所述存储模块接收所述道路信息并将持续的一段道路信息存储为历史轨迹，根据所述历史轨迹分析计算并模拟多种驾驶策略，并将所述驾驶策略传递给所述客户端；

S3：所述客户端接收所述道路信息及驾驶策略，并根据用户选择的个性驾驶策略及道路信息实施自动驾驶。
如权利要求6所述的基于相对熵深度逆强化学习的自动驾驶的方法，其特征在于，所述存储模块包括用于存储历史驾驶轨迹的驾驶轨迹库、根据驾驶规划及驾驶习惯计算并模拟出驾驶策略的轨迹信息处理子系统及存储驾驶策略的驾驶策略库；所述驾驶轨迹库将驾驶轨迹数据传输给所述轨迹信息处理子系统，所述轨迹信息处理子系统根据所述驾驶轨迹数据分析计算并模拟出驾驶策略并传输给所述驾驶策略库，所述驾驶策略库接收并存储所述驾驶策略。
如权利要求7所述的基于相对熵深度逆强化学习的自动驾驶的方法，其特征在于，所述轨迹信息处理子系统采用多目标的相对熵深度逆强化学习算法计算并模拟驾驶策略。
如权利要求8所述的基于相对熵深度逆强化学习的自动驾驶的方法，其特征在于，所述多目标的逆强化学习算法采用EM算法框架嵌套相对熵深度逆强化学习计算多奖赏函数的参数。