WO2022126940A1

WO2022126940A1 - 一种重型营运车辆的后向防撞驾驶决策方法

Info

Publication number: WO2022126940A1
Application number: PCT/CN2021/086570
Authority: WO
Inventors: 李旭; 胡玮明; 胡锦超; 祝雪芬
Original assignee: 东南大学
Priority date: 2020-12-20
Filing date: 2021-04-12
Publication date: 2022-06-23
Also published as: US11964655B2; US20230182725A1; CN112633474A; CN112633474B

Abstract

一种重型营运车辆的后向防撞驾驶决策方法。首先，建立交通环境模型，采集重型营运车辆及其后方车辆的运动状态信息。其次，建立基于后向距离碰撞时间的后向碰撞危险评估模型，将后向碰撞危险精确量化。最后，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程，建立基于深度强化学习的后向防撞驾驶决策模型，得到有效、可靠、具有自适应性的后向防撞驾驶决策策略。该方法，克服了现有方法中缺乏重型营运车辆后向防撞驾驶决策研究的不足，可以定量输出合理的方向盘转角和节气门开度控制量，为驾驶员提供有效、可靠的后向防撞驾驶建议，减少后向碰撞事故的发生。

Description

一种重型营运车辆的后向防撞驾驶决策方法

技术领域

本发明涉及一种防碰撞驾驶决策方法，尤其是涉及一种重型营运车辆的后向防撞驾驶决策方法，属于汽车安全技术领域。

背景技术

营运车辆作为道路运输的主要承担者，其安全状况直接影响我国道路交通运输安全。车辆碰撞是道路运输过程中最主要的事故形态。以危险品运输罐车为代表的重型营运车辆，其罐内装载多为易燃易爆、剧毒(甲醇、丙烯腈)等危险化学品，相比于前向碰撞，后向碰撞更容易导致罐体破损，进而引发罐内危险品泄漏、燃烧、爆炸等严重后果，产生的次生伤害远远超过碰撞事故本身所造成的伤害，具有更高的危险性。驾驶决策作为后向碰撞主动防控的重要一环，如果能在后向碰撞事故发生前对驾驶员进行预警并提醒驾驶员采取合理的加速、变道等措施，可以大幅度降低因后向碰撞造成的交通事故发生频率或减轻其造成的伤害。因此，研究重型营运车辆的后向防撞驾驶决策方法，对于保障道路交通安全具有重要的社会意义和实用价值。

目前，已有标准、专利和文献对车辆后向防撞进行了研究。在标准方面，交通运输部发布了交通行业标准《营运车辆后向碰撞预警系统性能要求和测试规程》，对安装在营运车辆上的后向碰撞预警系统性能进行了规定，但仅限于碰撞预警层面，未涉及后向防撞驾驶决策。在专利文献方面，后向防撞研究大多面向小型乘用车辆。相比于乘用车辆，重型营运车辆具有质心位置较高、载重量较大等特点，在急转弯或紧急变道过程中，罐体或挂车的晃动会进一步增加车辆的不稳定性，极易失稳而发生侧翻。因此，针对乘用车辆的驾驶决策方法难以适用于重型营运车辆。总体而言，现有研究未涉及重型营运车辆后向防撞的驾驶决策，特别是缺乏有效、可靠、自适应交通环境特性的重型营运车辆后向防撞驾驶决策研究。

发明内容

发明目的：为了实现有效、可靠、自适应交通环境特性的重型营运车辆后向防撞驾驶决策方法，本发明公开了一种重型营运车辆的后向防撞驾驶决策方法。该方法克服了现有方法中缺乏重型营运车辆后向防撞决策策略的不足，可以定量输出合理的方向盘转角和节气门开度控制量，为驾驶员提供有效、可靠的后向防撞驾驶建议，实现了有效、可靠和自适应交通环境的重型营运车辆后向防撞驾驶决策。

技术方案：本发明针对重型营运车辆，如半挂罐车、半挂列车，提出了一种基于深度强化学习的后向防撞驾驶决策方法。首先，建立虚拟交通环境模型，采集重型营运车辆及其后方车辆的运动状态信息。其次，建立基于后向距离碰撞时间的后向碰撞危险评估模型，将后向碰撞危险精确量化。最后，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程，建立基于深度强化学习的后向防撞驾驶决策模型，得到有效、可靠、具有自适应性的后向防撞驾驶决策策略。包括以下步骤：

步骤一：建立虚拟交通环境模型

为了降低因后向碰撞造成的交通事故发生频率，提高重型营运车辆的安全性，本发明提出了一种后向防撞驾驶决策方法，其适用的场景为：在重型营运车辆行驶过程中，车辆前方无障碍物等干扰因素，为了防止与后方车辆发生后向碰撞，应有效、及时地为驾驶员提供加速、转向等决策策略，以避免碰撞事故的发生。

在实际道路试验过程中，重型营运车辆的相关试验具有较高的试验成本和危险性。为了降低试验成本和风险，同时兼顾试验效率，本发明面向高等级公路，建立虚拟交通环境模型，即包含直道和弯道的三车道虚拟环境模型。重型营运车辆在交通环境模型中运动，目标车辆(包含小型、中型和大型车辆3种类型)跟随车辆进行运动，期间包括加速、减速、匀速、变道4种不同的行驶工况。

通过安装在每辆车上的厘米级高精度差分GPS、惯性测量单元和毫米波雷达，可以实时地获取运动状态信息，包括：两车的位置、速度、加速度、相对间距、相对速度；通过安装在车辆尾部的视觉传感器，可以实时地获取目标车辆的类型；通过CAN总线可以读取驾驶员操控信息，包括：车辆的节气门开度、方向盘转角。

在本发明中，目标车辆是指位于重型营运车辆行驶道路后方，且位于同一车道线内、行驶方向相同、距离最近的车辆。

步骤二：建立后向碰撞危险评估模型

为了合理、有效地输出后向防撞决策策略，需准确、实时地评估重型营运车辆的后向碰撞危险程度。首先，计算重型营运车辆与目标车辆发生碰撞所需的时间：

式(1)中，RTTC(t)表示t时刻的后向距离碰撞时间，单位为秒，x _c(t)为车间距离，单位为米，v _F(t),v _R(t)分别表示重型营运车辆和目标车辆的速度，v _r(t)为两车的相对速度，单位均为米每秒，且v _r(t)＝v _F(t)-v _R(t)。

其次，计算后向碰撞危险程度。根据国家标准《营运车辆后向碰撞预警系统性能要求和测试规程》，当后向距离碰撞时间不小于2.1秒，且不大于4.4秒时发出后向碰撞报警，表示后向碰撞预警系统测试通过。基于此，对后向碰撞危险程度进行量化：

式(2)中，δ _w为后向碰撞危险的量化值。当δ _w≥1时，表示无后向碰撞危险；当0.5≤δ _w≤1时，表示存在后向碰撞危险；当0≤δ _w≤0.5时，表示后向碰撞危险程度非常高。

步骤三：建立重型营运车辆的后向防撞驾驶决策模型

为了实现有效、可靠、自适应交通环境的后向防撞驾驶决策，本发明综合考虑交通环境、车辆运行状态、后方车辆类型、后向碰撞危险程度对后向碰撞的影响，建立重型营运车辆的后向防撞驾驶决策模型。

常见的驾驶决策方法包括基于规则和基于数据学习的决策算法两类。(1)基于规则的决策算法，是利用有限的有向连通图描述不同的驾驶状态以及状态之间的转移关系，从而根据驾驶状态的迁移生成驾驶动作。然而，在车辆运动过程中，车辆运动参数、道路条件和后方交通状态均存在不确定性，制定的规则难以遍历所有场景，难以保证决策的有效性和适应性。(2)基于数据学习的决策算法，是利用算法模仿人类对知识或技能的学习过程，通过交互式的自学习机制实现自身学习性能的不断改进。其中，基于深度强化学习的方法将深度学习的感知能力和强化学习的决策能力相结合，对不确定性问题的适应性特点，满足防撞决策对于交通环境、行驶工况具有适应性的需求。因此，本发明采用深度强化学习算法建立后向防撞驾驶决策模型。

基于深度强化学习的决策方法主要包括：基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。基于值的深度强化学习算法不能处理连续输出的问题，无法满足防撞决策中连续输出驾驶策略的需求。基于策略搜索的方法，存在着对步长敏感、步长选择较为困难等不足。基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索，具有较快的更新速度。其中的近端策略优化(Proximal Policy Optimization,PPO)解决了参数更新慢和步长难以确定的问题，在输出连续动作空间方面取得了较好的效果。因此，本发明采用PPO算法建立后向防撞驾驶决策模型，通过与目标车辆运动随机过程模型进行交互式迭代学习，得到后向防撞的最优决策。具体包括以下4个子步骤：

子步骤1：定义后向防撞驾驶决策模型的基础参数

首先，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程(S,A,P,r)，其中，S为状态空间，A为后向防撞动作决策， P表示由于目标车辆运动不确定性而导致的状态转移概率，r为奖励函数。其次，对马尔科夫决策过程的基础参数进行定义，具体地：

(1)定义状态空间

利用步骤一输出的车辆运动状态信息和步骤二输出的后向碰撞危险程度，建立状态空间表达：

S _t＝(v _{F_lon},a _{F_lon},v _{r_lon},a _{r_lon},θ _str,p _thr,L _r,δ _w,T _m) (3)

式(3)中，S _t为t时刻的状态空间，v _{F_lon},v _{r_lon}分别表示车辆的纵向速度和两车的相对纵向速度，单位为米每秒，a _{F_lon},a _{r_lon}分别表示车辆的纵向加速度和两车的相对纵向加速度，单位为米每二次方秒，θ _str为车辆的方向盘转角，单位为度，p _thr为节气门开度，单位为百分数，L _r为相对车间距，单位为米，δ _w,T _m分别表示后向碰撞危险程度和目标车辆类型，m＝1,2,3分别表示目标车辆为大型车辆、中型车辆和小型车辆，在本发明中，取T _m＝m。

(2)定义动作决策

为了综合考虑横向运动和纵向运动对后向碰撞的影响，本发明将方向盘转角和节气门开度作为控制量，定义决策模型输出的驾驶策略，即动作决策：

A _t＝[θ _{str_out},p _{thr_out}] (4)

式(4)中，A _t为t时刻的动作决策，θ _{str_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，p _{thr_out}表示归一化后的节气门开度控制量，范围为[0,1]。当p _{thr_out}＝0时，表示车辆未进行加速，当δ _brake＝1时，表示车辆以最大加速度进行加速。

(3)建立奖励函数

为了评价动作决策的优劣程度，通过建立回报函数的方式，将评价具体化和数值化。考虑到后向防撞驾驶决策是一个涉及安全性、舒适性等目标在内的多目标优化问题，本发明将奖励函数设计为：

r _t＝r ₁+r ₂+r ₃ (5)

式(5)中，r _t为t时刻的奖励函数，r ₁为安全距离奖励函数，r ₂为舒适性奖励函数，r ₃为惩罚函数。

首先，设计安全距离奖励函数r ₁：

式(6)中，L _r,L _s分别表示相对车间距和安全距离阈值，ω _d为安全距离权重系数，在本发明中，取ω _d＝0.85。

其次，为了保证车辆的驾驶舒适性，应尽可能地避免出现过大的冲击度，设计舒适性奖励函数r ₂：

r ₂＝ω _j|a _{F_lon}(t+1)-a _{F_lon}(t)| (7)

式(7)中，ω _j为舒适性权重系数，在本发明中，取ω _j＝0.95。

最后，设计惩罚函数r ₃：

(4)设计期望最大的策略

式(9)中，π ^*为期望最大的策略，π为后向防撞决策策略，γ为折扣因子，且γ∈(0,1)，τ(π)表示在策略 _π下的轨迹分布。

子步骤2：设计后向防撞驾驶决策模型的网络架构

利用“Actor-Critic”网络框架搭建后向防撞驾驶决策网络，包括Actor网络和Critic网络两部分。其中，Actor网络将状态空间信息作为输入，输出动作决策，即重型营运车辆的节气门开度和方向盘转角控制量。Critic网络将状态空间信息和动作决策作为输入，输出当前“状态-动作”的价值。具体地：

(1)设计Actor网络

建立分层级编码器结构，分别对状态空间中的各类信息进行特征提取。首先，构建3个串行连接的卷积层(C _F1,C _F2,C _F3)和1个最大池化层(P ₁)，对车辆的运动状态信息(纵向速度、纵向加速度、方向盘转角、节气门开度)进行特征提取，并将其编码为中间特征向量h ₁；利用相同的结构，即3个串行连接的卷积层(C _R1,C _R2,C _R3)和1个最大池化层(P ₂)，对前后两车的相对运动状态信息(相对纵向速度、相对纵向加速度、相对车间距)进行特征提取，并将其编码为中间特征向量h ₂；利用卷积层C _W1和最大池化层P ₃对碰撞危险程度和目标车辆类型进行特征提取，并将其编码为中间特征向量h ₃。其次，将特征h ₁,h ₂,h ₃结合并连接全连接层FC ₄和FC ₅，输出动作决策。

其中，设置卷积层C _F1,C _F2,C _F3,C _R1,C _R2,C _R3,C _W1的神经元数量分别为20,20,10,20,20,10,20，设置全连接层FC ₄,FC ₅的神经元数量为200。各卷积层和全连接层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)，其表达式为f(x)＝max(0,x)。

(2)设计Critic网络

利用多个隐藏层结构的神经网络建立Critic网络。首先，将状态空间S _t输入到隐藏层FC _C1中；同时，将动作决策A _t输入到隐藏层FC _C2中。其次，隐藏层FC _C1和FC _C2通过张量相加的方式进行合并。最后，依次通过全连接层FC _C3和FC _C4后，输出Critic网络的值。

其中，设置FC _C1层和FC _C2层的神经元数量为400，其余隐藏层的神经元数量均为200，各层的激活函数均为ReLU。

子步骤3：训练后向防撞驾驶决策模型

利用损失函数J _actor和J _critic对网络参数进行梯度更新，具体训练过程如下：

子步骤3.1：初始化Actor网络和Critic网络；

子步骤3.2：进行迭代求解，每一次迭代包括子步骤3.21至子步骤3.4，具体地：

子步骤3.21：进行迭代求解，每一次迭代包括子步骤3.211至3.213，具体地：

子步骤3.211：利用步骤一的虚拟交通环境模型得到车辆的运动控制操作；

子步骤3.212：利用Actor网络得到样本数据(S _t,A _t,r _t)；

子步骤3.213：结束循环，得到样本点集[(S ₁,A ₁,r ₁),(S ₂,A ₂,r ₂),...,(S _t,A _t,r _t)]；

子步骤3.22：计算优势函数；

式(10)中，

为优势函数，V(S _t)表示状态S _t的值函数；

表示应该增加采取当前动作的可能性，

表示应该减小采取该动作的可能性。

子步骤3.23：进行迭代求解，每一次迭代包括子步骤3.231至3.233，具体地：

子步骤3.231：计算Actor网络的目标函数；

子步骤3.232：更新Actor网络参数J _actor：

式(11)中，p _t(θ)表示在策略更新过程中新策略π _θ与旧策略π _{θ_old}在动作决策分布上的比值，且

clip(·)表示裁剪函数，ε为常数，在本发明中，取ε＝0.25。

子步骤3.233：更新Critic网络参数J _critic：

子步骤3.234：结束循环。

子步骤3.3：按照子步骤3.2提供的方法进行迭代更新，使Actor网络和Critic网络逐步收敛。在训练过程中，若车辆发生后向碰撞或侧翻，则终止当前回合并开始新的回合进行训练。当迭代达到最大步数或模型能够稳定准确地进行后向防撞驾驶决策时，训练结束。

子步骤4：利用后向防撞决策模型输出决策策略

将厘米级高精度差分GPS、惯性测量单元、毫米波雷达、CAN总线获取的信息输入到已训练的后向防撞驾驶决策模型中，可以定量输出合理的方向盘转角和节气门开度控制量，为驾驶员提供有效、可靠的后向防撞驾驶建议，从而实现了有效、可靠、具有自适应性的重型营运车辆后向防撞驾驶决策。

有益效果

与现有技术相比，本发明的技术方案具有以下有益技术效果，具体体现在：

(1)本发明提出的方法实现了重型营运车辆的后向防撞驾驶决策，可以为驾驶员提供有效、可靠的后向防撞驾驶决策策略；

(2)本发明提出的方法综合考虑交通环境、车辆运行状态、后方车辆类型、后向碰撞危险程度对后向碰撞的影响，以数值的形式将方向盘转角、节气门开度等驾驶策略精确量化，输出的驾驶策略能够根据交通环境和驾驶员操作自适应调整，提高了重型营运车辆后向防撞驾驶决策的有效性、可靠性和环境适应性；

(3)本发明提出的方法无需考虑复杂的车辆动力学方程和车身参数，计算方法简单清晰。

附图说明

图1是本发明的技术路线示意图；

图2是本发明建立的后向防撞驾驶决策模型的网络架构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明。

为了建立有效、可靠、自适应交通环境的后向防撞决策策略，实现重型营运车辆的后向防撞驾驶决策，以填补实际应用中重型营运车辆后向防撞驾驶决策技术的空白。本发明针对重型营运车辆，如半挂罐车、半挂列车，提出了一种基于深度强化学习的后向防撞驾驶决策方法。首先，建立虚拟交通环境模型，采集重型营运车辆及其后方车辆的运动状态信息。其次，建立基于后向距离碰撞时间的后向碰撞危险评估模型，将后向碰撞危险精确量化。最后，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程，建立基于深度强化学习的后向防撞驾驶决策模型，得到有效、可靠、具有自适应性的后向防撞驾驶决策策略。本发明的技术路线如图1所示，具体步骤如下：

步骤一：建立虚拟交通环境模型

在实际道路试验过程中，重型营运车辆的防撞试验具有较高的试验成本和危险性。为了降低试验成本和风险，同时兼顾试验效率，本发明面向高等级公路，建立虚拟交通环境模型，即包含直道和弯道的三车道虚拟环境模型。重型营运车辆在交通环境模型中运动，目标车辆(包含小型、中型和大型车辆3种类型)跟随车辆进行运动，期间包括加速、减速、匀速、变道4种不同的行驶工况。

通过安装在每辆车上的厘米级高精度差分GPS、惯性测量单元和毫米波雷达，可以实时地获取运动状态信息，包括：两车的位置、速度、加速度、相对间距、相对速度信息；通过安装在车辆尾部的视觉传感器，可以实时地获取目标车辆的类型；通过CAN总线可以读取驾驶员操控信息，包括：车辆的节气门开度、方向盘转角。

步骤二：建立后向碰撞危险评估模型

步骤三：建立重型营运车辆的后向防撞驾驶决策模型

基于深度强化学习的决策方法主要包括：基于值函数、基于策略搜索和基于Actor-Critic架构的决策方法三类。其中，基于值的深度强化学习算法不能处理连续输出的问题，无法满足防撞决策中连续输出驾驶策略的需求。基于策略搜索的方法，存在着对步长敏感、步长选择较为困难等不足。基于Actor-Critic架构的决策方法结合了值函数估计和策略搜索，具有较快的更新速度。其中的近端策略优化(Proximal Policy Optimization,PPO)解决了参数更新慢和步长难以确定的问题，在输出连续动作空间方面取得了较好的效果。因此，本发明采用PPO算法建立后向防撞驾驶决策模型，通过与目标车辆运动随机过程模型进行交互式迭代学习，得到后向防撞的最优决策。具体包括以下4个子步骤：

子步骤1：定义后向防撞驾驶决策模型的基础参数

首先，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程(S,A,P,r)，其中，S为状态空间，A为后向防撞动作决策，P表示由于目标车辆运动不确定性而导致的状态转移概率，r为奖励函数。其次，对马尔科夫决策过程的基础参数进行定义，具体地：

(1)定义状态空间

(2)定义动作决策

A _t＝[θ _{str_out},p _{thr_out}] (4)

(3)建立奖励函数

r _t＝r ₁+r ₂+r ₃ (5)

首先，设计安全距离奖励函数r ₁：

r ₂＝ω _j|a _{F_lon}(t+1)-a _{F_lon}(t)| (7)

最后，设计惩罚函数r ₃：

(4)设计期望最大的策略

式(9)中，π ^*为期望最大的策略，π为后向防撞决策策略，γ为折扣因子，且γ∈(0,1)，τ(π)表示在策略π下的轨迹分布。

子步骤2：设计后向防撞驾驶决策模型的网络架构

利用“Actor-Critic”网络框架搭建后向防撞驾驶决策网络，包括Actor网络和Critic网络两部分。其中，Actor网络将状态空间信息作为输入，输出动作决策，即重型营运车辆的节气门开度和方向盘转角控制量。Critic网络将状态空间信息和动作决策作为输入，输出当前“状态-动作”的价值。网络架构如图2所示，具体地：

(1)设计Actor网络

(2)设计Critic网络

子步骤3：训练后向防撞驾驶决策模型

子步骤3.1：初始化Actor网络和Critic网络；

子步骤3.212：利用Actor网络得到样本数据(S _t,A _t,r _t)；

子步骤3.22：计算优势函数；

式(10)中，

为t时刻的优势函数，V(S _t)表示状态S _t的值函数；

表示应该增加采取当前动作的可能性，

表示应该减小采取该动作的可能性。

子步骤3.231：计算Actor网络的目标函数；

子步骤3.232：更新Actor网络参数J _actor：

clip(·)表示裁剪函数，ε为常数，在本发明中，取ε＝0.25。

子步骤3.233：更新Critic网络参数J _critic：

子步骤3.234：结束循环。

子步骤4：利用后向防撞决策模型输出决策策略

将厘米级高精度差分GPS、惯性测量单元、毫米波雷达和CAN总线获取的信息输入到已训练的后向防撞驾驶决策模型中，可以定量输出合理的方向盘转角和节气门开度控制量，为驾驶员提供有效、可靠的后向防撞驾驶建议，从而实现了有效、可靠、具有自适应性的重型营运车辆后向防撞驾驶决策。

Claims

一种重型营运车辆的后向防撞驾驶决策方法，其特征在于：该方法包括如下步骤：

步骤一：建立虚拟交通环境模型：面向高等级公路，建立虚拟交通环境模型，即包含直道和弯道的三车道虚拟环境模型；重型营运车辆在交通环境模型中运动，目标车辆跟随重型营运车辆进行运动，期间包括加速、减速、匀速、变道4种不同的行驶工况；

所述建立虚拟交通环境模型的过程中通过安装在每辆车上的厘米级高精度差分GPS、惯性测量单元和毫米波雷达，实时地获取车辆运动状态信息，包括：两车的位置、速度、加速度、相对间距、相对速度；通过安装在车辆尾部的视觉传感器，实时地获取目标车辆的类型；通过CAN总线读取驾驶员操控信息，包括：车辆的节气门开度、方向盘转角；

所述目标车辆是指位于重型营运车辆行驶道路后方，且位于同一车道线内、行驶方向相同、距离最近的车辆，包含小型、中型和大型车辆3种类型；

步骤二：建立后向碰撞危险评估模型；具体包括：

首先，计算重型营运车辆与目标车辆发生碰撞所需的时间：

式(1)中，RTTC(t)表示t时刻的后向距离碰撞时间，单位为秒，x _c(t)为车间距离，单位为米，v _F(t),v _R(t)分别表示重型营运车辆和目标车辆的速度，v _r(t)为两车的相对速度，单位均为米每秒，且 v _r(t)＝v _F(t)-v _R(t)；

其次，计算后向碰撞危险程度；当后向距离碰撞时间不小于2.1秒，且不大于4.4秒时发出后向碰撞报警，表示后向碰撞预警系统测试通过；基于此，对后向碰撞危险程度进行量化：

式(2)中，δ _w为后向碰撞危险的量化值；当δ _w≥1时，表示无后向碰撞危险；当0.5≤δ _w≤1时，表示存在后向碰撞危险；当0≤δ _w≤0.5时，表示后向碰撞危险程度非常高；

步骤三：建立重型营运车辆的后向防撞驾驶决策模型：综合考虑交通环境、车辆运行状态、后方车辆类型、后向碰撞危险程度对后向碰撞的影响，建立重型营运车辆的后向防撞驾驶决策模型，采用PPO算法建立后向防撞驾驶决策模型，通过与目标车辆运动随机过程模型进行交互式迭代学习，得到后向防撞的最优决策，具体包括以下4个子步骤：

子步骤1：定义后向防撞驾驶决策模型的基础参数

首先，将后向防撞驾驶决策问题描述为一定奖励函数下的马尔科夫决策过程(S,A,P,r)，其中，S为状态空间，A为后向防撞动作决策，P表示由于目标车辆运动不确定性而导致的状态转移概率，r为奖励函数；其次，对马尔科夫决策过程的基础参数进行定义，具体地：

(1)定义状态空间

利用步骤一输出的车辆运动状态信息和步骤二输出的后向碰撞危险程度，建立状态空间表达：

S _t＝(v _{F_lon},a _{F_lon},v _{r_lon},a _{r_lon},θ _str,p _thr,L _r,δ _w,T _m)  (3)

式(3)中，S _t为t时刻的状态空间，v _{F_lon},v _{r_lon}分别表示重型营运车辆的纵向速度和两车的相对纵向速度，单位为米每秒，a _{F_lon},a _{r_lon}分别表示重型营运车辆的纵向加速度和两车的相对纵向加速度，单位为米每二次方秒，θ _str为车辆的方向盘转角，单位为度，p _thr为节气门开度，单位为百分数，L _r为相对车间距，单位为米，δ _w,T _m分别表示后向碰撞危险程度和目标车辆类型，m＝1,2,3分别表示目标车辆为大型车辆、中型车辆和小型车辆，在本发明中，取T _m＝m；

(2)定义动作决策

为了综合考虑横向运动和纵向运动对后向碰撞的影响，本发明将方向盘转角和节气门开度作为控制量，定义决策模型输出的驾驶策略，即动作决策：

A _t＝[θ _{str_out},p _{thr_out}]  (4)

式(4)中，A _t为t时刻的动作决策，θ _{str_out}表示归一化后的方向盘转角控制量，范围为[-1,1]，p _{thr_out}表示归一化后的节气门开度控制量，范围为[0,1]；当p _{thr_out}＝0时，表示车辆未进行加速，当δ _brake＝1时，表示车辆以最大加速度进行加速；

(3)建立奖励函数

为了评价动作决策的优劣程度，通过建立回报函数的方式，将评价具体化和数值化；考虑到后向防撞驾驶决策是一个涉及安全性、舒适性等目标在内的多目标优化问题，本发明将奖励函数设计为：

r _t＝r ₁+r ₂+r ₃  (5)

式(5)中，r _t为t时刻的奖励函数，r ₁为安全距离奖励函数，r ₂为舒适性奖励函数，r ₃为惩罚函数；

首先，设计安全距离奖励函数r ₁：

式(6)中，L _r,L _s分别表示相对车间距和安全距离阈值，ω _d为安全距离权重系数，在本发明中，取ω _d＝0.85；

其次，设计舒适性奖励函数r ₂：

r ₂＝ω _j|a _{F_lon}(t+1)-a _{F_lon}(t)|  (7)

式(7)中，ω _j为舒适性权重系数，在本发明中，取ω _j＝0.95；

最后，设计惩罚函数r ₃：

(4)设计期望最大的策略

式(9)中，π ^*为期望最大的策略，π为后向防撞决策策略，γ为折扣因子，且γ∈(0,1)，τ(π)表示在策略π下的轨迹分布；

子步骤2：设计后向防撞驾驶决策模型的网络架构

利用“Actor-Critic”网络框架搭建后向防撞驾驶决策网络，包括Actor网络和Critic网络两部分；其中，Actor网络将状态空间信息作为输入，输出动作决策，即重型营运车辆的节气门开度和方向盘转角控制量；Critic网络将状态空间信息和动作决策作为输入，输出当前“状态-动作”的价值；具体地：

(1)设计Actor网络

建立分层级编码器结构，分别对状态空间中的各类信息进行特征提取；首先，构建3个串行连接的卷积层(C _F1,C _F2,C _F3)和1个最大池化层(P ₁)，对车辆的运动状态信息(纵向速度、纵向加速度、方向盘转角、节气门开度)进行特征提取，并将其编码为中间特征向量h ₁；利用相同的结构，即3个串行连接的卷积层(C _R1,C _R2,C _R3)和1个最大池化层(P ₂)，对前后两车的相对运动状态信息(相对纵向速度、相对纵向加速度、相对车间距)进行特征提取，并将其编码为中间特征向量h ₂；利用卷积层C _W1和最大池化层P ₃对碰撞危险程度和目标车辆类型进行特征提取，并将其编码为中间特征向量h ₃；其次，将特征h ₁,h ₂,h ₃结合并连接全连接层FC ₄和FC ₅，输出动作决策；

其中，设置卷积层C _F1,C _F2,C _F3,C _R1,C _R2,C _R3,C _W1的神经元数量分别为20,20,10,20,20,10,20，设置全连接层FC ₄,FC ₅的神经元数量为200；各卷积层和全连接层的激活函数均为线性整流单元(Rectified Linear Unit,ReLU)，其表达式为f(x)＝max(0,x)；

(2)设计Critic网络

利用多个隐藏层结构的神经网络建立Critic网络；首先，将状态空间S _t输入到隐藏层FC _C1中；同时，将动作决策A _t输入到隐藏层FC _C2中；其次，隐藏层FC _C1和FC _C2通过张量相加的方式进行合并；最后，依次通过全连接层FC _C3和FC _C4后，输出Critic网络的值；

其中，设置FC _C1层和FC _C2层的神经元数量为400，其余隐藏层的神经元数量均为200，各层的激活函数均为ReLU；

子步骤3：训练后向防撞驾驶决策模型

利用损失函数J _actor和J _critic对网络参数进行梯度更新，具体训练过程如下：

子步骤3.1：初始化Actor网络和Critic网络；

子步骤3.2：进行迭代求解，每一次迭代包括子步骤3.21至子步骤3.4，具体地：

子步骤3.21：进行迭代求解，每一次迭代包括子步骤3.211至3.213，具体地：

子步骤3.211：利用步骤一的虚拟交通环境模型得到车辆的运动控制操作；

子步骤3.212：利用Actor网络得到样本数据(S _t,A _t,r _t)；

子步骤3.213：结束循环，得到样本点集[(S ₁,A ₁,r ₁),(S ₂,A ₂,r ₂),...,(S _t,A _t,r _t)]；

子步骤3.22：计算优势函数；

式(10)中，
为优势函数，V(S _t)表示状态S _t的值函数；
表示应该增加采取当前动作的可能性，
表示应该减小采取该动作的可能性；

子步骤3.23：进行迭代求解，每一次迭代包括子步骤3.231至3.233，具体地：

子步骤3.231：计算Actor网络的目标函数；

子步骤3.232：更新Actor网络参数J _actor：

式(11)中，p _t(θ)表示在策略更新过程中新策略π _θ与旧策略π _{θ_old}在动作决策分布上的比值，且
clip(·)表示裁剪函数，ε为常数，在本发明中，取ε＝0.25；

子步骤3.233：更新Critic网络参数J _critic：

子步骤3.234：结束循环；

子步骤3.3：按照子步骤3.2提供的方法进行迭代更新，使Actor网络和Critic网络逐步收敛；在训练过程中，若车辆发生后向碰撞或侧翻，则终止当前回合并开始新的回合进行训练；当迭代达到最大步数或模型能够稳定准确地进行后向防撞驾驶决策时，训练结束；

子步骤4：利用后向防撞决策模型输出决策策略

将厘米级高精度差分GPS、惯性测量单元、毫米波雷达、CAN总线获取的信息输入到已训练的后向防撞驾驶决策模型中，可以定量输出合理的方向盘转角和节气门开度控制量，为驾驶员提供有效、可靠的后向防撞驾驶建议，从而实现了有效、可靠、具有自适应性的重型营运车辆后向防撞驾驶决策。