WO2023231569A1

WO2023231569A1 - 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法

Info

Publication number: WO2023231569A1
Application number: PCT/CN2023/086547
Authority: WO
Inventors: 宋康; 郭帆; 谢辉
Original assignee: 天津大学
Priority date: 2022-05-30
Filing date: 2023-04-06
Publication date: 2023-12-07
Also published as: US20240351615A1; CN115056798A; US12134409B1; CN115056798B

Abstract

提供了一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法，一方面通过智能网联道路感知和大数据分析归纳不同时段和交通流态下的旁车驾驶风格统计特征，作为对旁车驾驶风格的先验估计；另一方面，不断观测两车换道过程中的动态交互行为，并对旁车的驾驶风格做后验校正，提高估计精度，在本车车辆（SV）产生换道意愿时，通过对驾驶风格及不同风格下旁车让行与否的概率的迭代估计，采用贝叶斯博弈，求解车辆在未来行驶片段内综合考虑风格与驾驶意图概率的价值回报，并给出换道概率，在换道概率超过阈值后，发出换道启动指令。

Description

一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法

技术领域

本发明涉及自动驾驶行为决策技术领域，特别是涉及一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法。

背景技术

自动驾驶车辆是一种将环境状态感知、行为决策及规划控制集合于一体的高度智能化系统。随着自动驾驶技术的快速发展，包含自动驾驶车辆和有人驾驶车辆的混合交通场景将很快出现，并将逐步成为常见的交通场景。车辆上下匝道、车道合并，以及遇到道路施工及躲避障碍物等强制变道场景，是自动驾驶车辆经常遇到的典型场景。据统计，在人工驾驶中，因变更车道引发的交通事故占比达35％以上，而在所有换道事故中，大约有75％的交通事故是由于驾驶员对于换道决策的判断失误而发生的。可见，自动驾驶车辆如何作出科学合理的换道决策，是自动驾驶车辆决策算法的关键，也是后续自动驾驶车辆规划及控制算法的重要基础。

虽然交通法规对于车辆道路行驶制定了明确规范和要求，但是在实际道路行驶工况中，车辆换道的决策算法依然面临比较大的挑战，主要有以下几个方面原因：1)换道是在本车与旁车不断交互的过程中完成的，有复杂的耦合影响和博弈过程，与驾驶风格、驾驶意图关系密切；2)旁车的驾驶风格难以准确判断，很难准确估计旁车是配合还是抵制本车的换道行为；3)即使驾驶风格相对清晰，每一次换道中的具体驾驶意图也会受情绪、突发干扰等其他不确定性因素的影响。

因此，换道决策，是一个存在大量不确定性和多智能体交互影响条件下的复杂优化问题。如何在这种混杂场景下，做好自动驾驶车辆的决策算法，进而实现高效、安全、舒适的车辆换道行为，是自动驾驶技术的关键之一。

针对上述难题，有学者提出了基于车间协同与车路协同的方法，即运用车辆彼此之间的通讯以及与道路基础设施之间的通信来解决交通冲突，比如：专利(CN202011368453.1)公开一种基于V2V的车辆协同换道控制方法，文献(Yang Y,Dang S,He Y,et al.Markov decision-based pilot optimization for 5G V2X vehicular communications[J].IEEE Internet of Things Journal,2018,6(1):1090-1103.)中作者使用5G及V2X技术辅助自动驾驶车辆进行决策；文献(Hobert L,Festag A,Llatser I,et al.Enhancements of V2X communication in support of cooperative autonomous driving[J].IEEE communications magazine,2015,53(12):64-70.)中作者同样使用V2X设施协助自动驾驶车辆行驶。虽然这些策略能够提高交通的安全性和效率，但其过度依赖于车间通讯设备以及路侧基础设施，在短期内仍然难以大范围推广。

此外，还有大量的研究工作聚焦于对单车智能的决策算法研究，例如：状态机模型、推理决策模型、以及基于博弈论的决策方法等。

状态机模型主要包括有限状态机模型(FSM)和层次状态机模型(HSM)。该类模型因为结构简单、逻辑明确被众多的自动驾驶车辆采用，比如：文献(Bacha A,Bauman C,Faruque R,et al.Odin:Team victortango's entry in the darpa urban challenge[J].Journal of field Robotics,2008,25(8):467-492.)中的2005年DAPRA比赛冠军车Junior。但是该类模型并未考虑车辆变道过程中本车与旁车交互的复杂耦合和博弈过程，很难适用于结构化特征道路环境下的换道决策任务。

推理决策模型由“场景特征-驾驶动作”的映射关系来模仿人类驾驶员的行为决策过程，该类模型将驾驶知识储存在知识库或神经网络中，通过查询的机制从知识库或训练好的神经网络中推理出驾驶动作，比如：文献(Bojarski M,Del Testa D,Dworakowski D,et al.End to end learning for self-driving cars[J].arXiv preprint arXiv:1604.07316,2016.)中使用了学习从感知图像的特征到具体驾驶行为控制之间的映射关系的方法。然而，该类方法对车辆换道决策过程中的交互性影响考虑也比较少，主要依赖于训练数据的固定范式，也没有考虑换道决策过程中旁车的驾驶风格和驾驶意图的不确定性。

通过上述分析可以看到，考虑多车交互是提升自动驾驶车辆决策水平的重要突破口。由此，博弈论在车辆交互特性建模不断得到重视。非合作博弈是行业普遍采用的车辆交互行为类型，其最优行为由纳什均衡条件决定。例如，文献(Pekkanen,J.,Lappi,O.,Rinkkala,P.,Tuhkanen,S.,Frantsi,R.,Summala,H.,2018.Acomputational model for driver’s cognitive state,visual perception,and intermittent attention in a distracted car following task.R.Soc.Open Sci.5(9),180194.)中，作者将博弈论的方法应用于跟车策略中；文献(Q.Zhang,R.Langari,H.E.Tseng,D.Filev,S.Szwabowski and S.Coskun,"A Game Theoretic Model Predictive Controller With Aggressiveness Estimation for Mandatory Lane Change,"in IEEE Transactions on Intelligent Vehicles,vol.5,no.1,pp.75-89,March 2020.)的作者将基于博弈论的模型预测控制应用于车辆决策。然而，上述博弈过程中每个局中人(车辆)的驾驶风格、风险偏好和环境敏感性的不确定性却鲜有考虑，这使得采用假设的、单一的驾驶员行为收益模型与实际不符，制约了车辆在复杂场景下决策水平的提升。

综上所述，在换道过程中对旁车驾驶风格、驾驶意图的估计对换道行为的安全性、高效性及舒适性至关重要，但现有方法没有特别提出与之相适应的决策算法。因此，如何在混杂场景、旁车驾驶风格不确定的条件下，借助先进的感知与数据处理技术，融合先进的数据方法，开展考虑多车动态交互博弈条件下的科学合理决策算法，对于提升自动驾驶车辆的行为决策品质具有重要意义。但是，目前公开发表的资料中还鲜有报道。

发明内容

本发明的目的是针对现有技术中针对自动驾驶车辆在换道过程中因旁车的驾驶风格难以准确判断而造成的换道难决策、有风险、低效率的问题，而提供一种基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法。

为实现本发明的目的所采用的技术方案是：

一种基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，包括以下步骤：

步骤1，建立旁车的车辆驾驶风格的先验概率分布：通过智能网联路端传感器获取车辆行驶数据，记录并统计在不同时段、路段下的车辆驾驶风格先验概率分布，定义旁车的车辆驾驶风格包括激进型A(aggressive)与非激进型NA(none aggressive)两种；

步骤2，换道意愿计算模块输出换道意愿：通过车载传感器采集本车车辆SV及其周围车辆信息，定义并计算原始车道行驶预判车距和换道预判车距，通过引入期望距离及方差构建累计分布函数计算换道必要性和换道安全性，并建立基于模糊逻辑的换道意愿输出模型，当换道意愿达到设定阈值后执行以下步骤3至步骤7；

步骤3，利用贝叶斯滤波推断目标车道后车RV的驾驶风格后验概率：当本车车辆SV(specified vehicle)产生换道意愿后，通过车载传感器采集目标车道后车RV(rear vehicle)的加速度信息来获得目标车道后车RV驾驶风格的似然函数，通过所述的似然函数及步骤1得到的所述先验概率分布得到目标车道后车RV的车辆驾驶风格后验概率及目标车道后车RV的驾驶员激进性因子β(该因子的取值范围是[0,1])；

步骤4，通过长短记忆神经网络LSTM(Long Short-Term Memory)及车辆运动学模型预测本车车辆SV及目标车道后车RV未来推演时域的行驶轨迹、速度及加速度；

步骤5，建立博弈收益矩阵并求解得到换道执行概率：建立非合作博弈的收益矩阵，该收益矩阵分别包括本车车辆SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵，收益函数的设计包括安全预测收益、时间预测收益、舒适性预测收益及合作预测收益，再通过求解收益矩阵得到换道执行概率；

步骤6，对车辆状态进行更新：换道执行概率没有达到执行阈值时，本车车辆SV不执行换道，仅更新本车车辆SV的纵向轨迹；换道执行概率达到概率阈值时，同时更新本车车辆 SV的换道轨迹和纵向轨迹；

步骤7，循环执行动态博弈决策：循环执行步骤3至步骤6，直到换道策略执行完成或者换道意愿消失。

在上述技术方案中，所述步骤1中，过聚类算法获得设定路段及时段下的激进型A驾驶员数量n(A)和非激进型NA驾驶员数量n(NA)，求解所述的车辆驾驶风格先验概率分布：

其中road和time分别表示所处路段及时段，p(A)表示车辆驾驶风格为激进型A的概率，1-p(A)表示表示车辆驾驶风格为非激进型NA的概率。

在上述技术方案中，所述步骤2中，定义并计算原始车道行驶预判车距d_min及换道预判车距l_min，其中d_min为未来t时刻内所有原始车道行驶预判车距[d₁,d₂,…,d_t]的最小值，未来t时刻内所有换道预判车距[l₁,l₂,…,l_t]的最小值l_min，通过引入期望距离及方差构建累计分布函数计算换道必要性和换道安全性：

其中P_ne和P_sf分别表示换道必要性和换道安全性，u_k和u_l分别表示原始车道行驶预判车距的期望及换道预判车距的期望，σ表示方差；

在所述换道意愿输出模型中，构建换道必要性、换道安全性及换道意愿的隶属度函数，依据模糊规则表及质心法去模糊化运算求解得到换道意愿

若满足换道意愿>换道意愿阈值则进行后续的贝叶斯博弈换道决策。

在上述技术方案中，所述步骤3中，

所述车载传感器获得测量目标车道后车RV行驶加速度的准确性y，测量到目标车道后车RV行驶状态为非减速状态的似然函数为L(θ|A)＝(y,1-y)，测量到目标车道后车RV行驶状态为减速状态的似然函数为L(θ|NA)＝(1-y,y)；

通过车辆驾驶风格的先验概率分布及似然函数得到目标车道后车RV的车辆驾驶风格后验概率分布：
P_t(Y|(road,time))＝normalize(P₀(X|(road,time)*L(θ))

同时认为t+1时刻的先验概率分布延续t时刻的后验概率分布；

通过所述的车辆驾驶风格后验概率可得第t时刻的目标车道后车RV的驾驶员激进性因子β_t：
β_t＝V_type·P_t(Y|(road,time))

V_type为单位向量。

在上述技术方案中，所述步骤4中，本车车辆及目标车道后车的速度、加速度使用长短记忆神经网络进行预测，本车车辆及目标车道后车在未来推演时域的非换道行为的行驶轨迹预测由车辆运动学模型进行推演预测，本车车辆换道行为的轨迹预测通过车辆运动学模型推演纵向行驶轨迹结合五次多项式曲线推演横向行驶轨迹进行推演预测。

在上述技术方案中，所述步骤5中，本车车辆SV与激进型的目标车道后车RV的收益矩阵为：

其中：

U₁₁、U₁₂、U₂₁、U₂₂分别表示本车车辆与激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下本车车辆的收益；

O₁₁、O₁₂、O₂₁、O₂₂分别表示本车车辆与激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下目标车道后车的收益。

本车车辆SV与非激进型的目标车道后车RV的收益矩阵为：

其中：

U₃₃、U₃₄、U₄₃、U₄₄分别表示本车车辆与非激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下本车车辆的收益；

O₃₃、O₃₄、O₄₃、O₄₄分别表示本车车辆与非激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下目标车道后车的收益。

在上述技术方案中，本车车辆SV的收益U及目标车道后车RV的收益Q计算了未来时刻的收益，共包括四部分：

(1)安全预测收益：
Term(sf)＝-{ω₁₁[A_c(t′)+v_SV(t′)*v_RV(t′)]*I(A_c)
+ω₁₂[A_s(t′)+v_SV(t′)*v_RV(t′)]*I(A_s)}

式中v_SV(t′)和v_RV(t′)是预测时刻t′下本车车辆SV及目标车道后车RV的车速，A_c(t′)为预测时刻t′车辆碰撞判定区域的重叠面积，A_s(t′)为预测时刻t′车辆安全预留区域的重叠面积，ω₁₁和ω₁₂为碰撞权重和安全预留权重，I(A_c)和I(A_s)为0-1函数，当相应的安全区域出现重叠取为1，不重叠时取为0；

(2)时间预测收益：
Term(time)＝v(t′)

v(t′)表示博弈中目标车道后车预测时刻的速度；

(3)舒适性预测收益：

使用车辆行驶过程中预测时刻加速度的导数加加速度Jerk作为舒适性预测收益：
Term(cf)＝-|Jerk(t′)|

Jerk(t′)表示预测时刻加速度的导数加加速度；

(4)合作预测收益：

使用博弈中目标车道后车RV的预测时刻的加速度a_j(t′)作为合作预测收益的量化指标：
Term(gt)＝-|a_j(t′)|

本车车辆SV及目标车道后车RV通过组合和加权来构成对象车辆总的收益：

其中ω＝[ω₁,ω₂,ω₃,ω₄]和σ＝[σ₁,σ₂,σ₃,σ₄]为加权系数，

采用激进性因子β_t构建本车车辆收益U的加权系数：

其中k＝[k₁,k₂,k₃,k₄]表示对各项预测收益的增益系数。

在上述技术方案中，本车车辆SV决定换道概率时会根据本车车辆SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵考虑八种情况，期望收益E_p为：
E_p＝P_t(Y|(road,time))*[P_t(lc)*(U₁₁+U₁₂)+(1-P_t(lc))*(U₂₁+U₂₂)]
+(1-P_t(Y|(road,time)))*[P_t(lc)*(U₃₃+U₃₄)+(1-P_t(lc))*(U₄₃+U₄₄)]

可求得期望收益E_p最大时的换道概率为

在上述技术方案中，所述步骤6中，换道概率没有达到既定的执行阈值，本车车辆仅更新车辆纵向轨迹，纵向轨迹使用全速度差(FVD)模型：
a_j(t)＝ρ[V(Δ(x_j))-v_j(t)]+λΔv_j(t)

其中j表示车辆编号，a_j(t)表示t时刻的车辆加速度，v_j(t)表示t时刻的车辆速度，Δv_j(t)表示t时刻的速度差，ρ和λ是权重系数，V(Δ(x_j))是优化速度函数：

其中v_max表示车辆的最大速度，h_c是车辆间的安全距离，Δx_j(t)是t时刻车辆间的实际距离。

在上述技术方案中，所述步骤6中，换道执行概率达到概率阈值时，同时更新车辆换道轨迹和纵向轨迹，纵向轨迹使用全速度差(FVD)模型，横向轨迹采用推荐使用五次多项式：
y(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴+a₅t⁵

其中A＝[a₀,a₁,a₂,a₃,a₄,a₅]为多项式系数。与现有技术相比，本发明的有益效果是：

1.针对换道过程中，旁车驾驶风格不确定而造成的换道过程决策风险高、效率低、舒适性差的问题，采用贝叶斯博弈的思路，通过引入旁车的驾驶风格先验与后验估计，结合不同驾驶风格下的旁车让行与否的概率估计，建立了具备交互推演与推理学习能力的决策算法，有希望在自动驾驶与人工驾驶混杂场景下完成更安全、更高效及更舒适的换道决策。

2.针对旁车驾驶风格和意图不确定，特别是受到时段、交通拥堵情况等大量因素影响的问题，提出了基于智能网联路测感知和大数据分析的方法，归纳不同时段和交通流态下的旁车驾驶风格的先验估计思路，有望挖掘交通大数据后的统计规律，并有效服务于车辆的决策行为，提升决策的效率，改进决策合理性。

附图说明

图1是基于贝叶斯博弈的自动驾驶车辆换道行为决策算法框架图；

图2是车辆感兴趣区域划分示意图；

图3是原始车道行驶预判车距计算示意图；

图4是换道预判车距计算示意图；

图5是换道必要性、换道可行性及换道意愿的隶属度；

图6是长短记忆神经网络(LSTM)结构图；

图7是安全预测收益计算示意图；

图8是建立多组换道博弈的示意图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，一种基于贝叶斯博弈的自动驾驶车辆换道决策方法，根据实施步骤依次详细阐释：

步骤1，建立车辆驾驶风格的先验概率分布：通过智能网联路端传感器获取车辆行驶数据，例如视觉相机和激光雷达等。

定义车辆驾驶风格包括激进型A(aggressive)与非激进型NA(none aggressive)两种，通过记录并统计在不同时段及不同路端下的车辆行驶速度和加速度信息作为驾驶风格分类的特征值，聚类算法使用k-means，但不局限于此。通过k-means聚类算法可获得设定路段及时段下的激进型A驾驶员数量n(A)和非激进型NA(none aggressive)驾驶员数量n(NA)。

根据上述信息来求解车辆驾驶风格的先验概率分布P₀(X|(road,time))，公式表述如式(1)所示：

其中road和time分别表示所处路段及时段，p(A)表示车辆驾驶风格为激进型A的概率，1-p(A)表示表示车辆驾驶风格为非激进型NA的概率；

步骤2，换道意愿计算模块输出换道意愿：换道必要性及换道可行性是换道意愿产生的必要条件，采集本车车辆及其周围车辆信息，对本车车辆的感兴趣区域进行划分，如图2所示，分别包括前方感兴趣区域、左侧感兴趣区域及右侧感兴趣区域。

如图3所示定义并计算原始车道行驶预判车距为未来t时刻内所有预判车距[d₁,d₂,…,d_t]的最小值d_min，如图4所示定义并计算换道预判车距为未来t时刻内所有预判车距[l₁,l₂,…,l_t]的最小值l_min，通过引入预判车距的期望及方差构建累计分布函数计算换道必要性和换道安全性。公式表述如式(2)-(3)所示：

其中P_ne和P_sf分别表示换道必要性和换道可行性，u_k和u_l分别表示原始车道行驶预判车距的期望及换道预判车距的期望，σ表示方差。

建立基于模糊逻辑的换道意愿输出模型。首先设计基于模糊逻辑的换道意愿模型的输入和输出，如图5(a),5(b),5(c)所示分别构建换道必要性、换道可行性及换道意愿的隶属度函数，其中输入换道必要性及换道可行性的模糊集合为{小,较小,中,较大,大}，输出换道意愿的模糊集合为{弱,较弱,中,较强,强}，最后依据模糊规则表及质心法去模糊化运算求解得到换道意愿如表格1所示，推荐但不局限于表格中的模糊集合分类方式及模糊规则制定形式。

表1模糊规则表

若满足换道意愿>换道意愿阈值换道意愿阈值为人为设定，根据实际情况设定即可，则进行后续的贝叶斯博弈换道决策。

步骤3，利用贝叶斯滤波推断车辆驾驶风格后验概率：

当本车车辆产生换道意愿后，通过车载传感器获取目标车道后车RV的加速度的似然函数。由车载传感器的产品设计参数可以获得测量车辆行驶加速度的准确性为y，则测量到车辆行驶状态为非减速状态的似然函数为L(θ|A)＝(y,1-y)，测量到车辆行驶状态为减速状态的似然函数为L(θ|NA)＝(1-y,y)。

通过车辆驾驶风格的先验概率分布及似然函数得到车辆驾驶风格后验概率分布P_t(Y|(road,time))，公式表述如式(4)所示：
P_t(Y|(road,time))＝normalize(P₀(X|(road,time)*L(θ))#(4)

如换道决策未完成或换道意愿未消失，对车辆状态进行更新的同时则需要循环求第t时刻的车辆驾驶风格的后验概率P_t(Y|(road,time))，同时认为t+1时刻的先验概率分布P_t+1(Y|(road,time))延续t时刻的后验概率分布。通过车辆驾驶风格后验概率可得第t时刻的驾驶员激进性因子β_t，公式表述如式(5)所示：
β_t＝V_type·P_t(Y|(road,time))#(5)

其中V_type可用单位向量表示，例如(1,0)表示车辆驾驶风格为激进型，(0,1)表示车辆驾驶风格为非激进型。

步骤4，车辆行为预测：

车辆行为预测的目的在于预测本车车辆SV及目标车道后车RV在未来推演时域H的行驶轨迹、速度及加速度，其中行驶轨迹由未来时刻的离散路径点(x_t′,y_t′)表示，速度及加速度由符号v(t′)和a(t′)表示。本车车辆SV及目标车道后车RV的速度、加速度使用长短记忆神经网络(LSTM)进行预测，LSTM神经网络结构图如图6所示，该网络由遗忘门、输入门、输出门及细胞状态更新组成，其特点在于引入了门(gate)机制用于控制特征的流通和损失，改善了递归神经网络(RNN)中存在的长期依赖问题，LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好。选择特征数据速度和加速度作为一个步长的数据，输出推演时域H内的未来时刻速度及加速度(v(t′)，a(t′))。

本车车辆SV及目标车道后车RV在未来推演时域H的非换道行为的轨迹预测由车辆运动学模型进行推演，公式表述如式(6)所示：

其中表示车辆的实际航向，v表示预测速度。本车车辆换道行为的轨迹预测通过车辆运动学模型推演纵向轨迹结合五次多项式曲线推演横向轨迹进行预测，五次多项式曲线同样应用于本车车辆换道行为的车辆状态更新，将在后续进行详细介绍。

步骤5，建立博弈收益矩阵并求解得到换道执行概率：

该收益矩阵分别包括本车SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵，其中本车SV与目标车道激进型后车RV所构成的收益矩阵如表2所示：

表2 SV与A型RV博弈收益矩阵

本车SV与目标车道非激进型后车RV所构成的收益矩阵如表3所示：

表3 SV与NA型RV博弈收益矩阵

其中本车车辆SV的收益U及目标车道后车RV的收益Q计算运用模型预测的思想，计算了未来时刻的收益，从而提高行为决策的预见性及安全性，收益计算共包括四部分：

1)安全预测收益

车辆安全是智能车辆行驶中最为重要的收益之一，如图7所示，粗实线为车辆碰撞判定区域，粗虚线为安全预留区域。安全预测公式表述如式(7)所示：
Term(sf)＝-{ω₁₁[A_c(t′)+v_SV(t′)*v_RV(t′)]*I(A_c)
+ω₁₂[A_s(t′)+v_SV(t′)*v_RV(t′)]*I(A_s)}#(7)

式中v_SV(t′)和v_RV(t′)是预测时刻t′下本车车辆SV及目标车道后车RV的车速，A_c(t′)为预测时刻t′车辆碰撞判定区域的重叠面积，A_s(t′)为预测时刻t′车辆安全预留区域的重叠面积，通过车载传感器获取本车车辆SV以及目标车道后车RV的定位点，结合人为设定的安全预留区域的参数w_s，l_sf，l_sr可求解安全预留区域的重叠面积A_s(t′)，通过设定碰撞判定区域的参数w_c，l_cf，l_cr可求解碰撞判定区域的重叠面积A_c(t′)，ω₁₁和ω₁₂为碰撞权重和安全预留权重，I(A_c)和I(A_s)为0-1函数，当相应的安全区域出现重叠取为1，不重叠时取为0，I(A_c)公式表述如式(8)所示：

I(A_s)公式表述如式(9)所示：

2)时间预测收益

车辆行驶的另一个重要收益是以较短的时间到达目的地.越快的速度将会得到更多的时间收益.因此将预测时刻对象车辆的速度v(t′)作为时间预测收益。公式表述如式(10)所示：
Term(time)＝v(t′)#(10)

3)舒适性预测收益

乘客的舒适性同样是决策的收益之一，使用车辆行驶过程中预测时刻加速度的导数加加速度Jerk作为舒适性预测收益，公式表述如式(11)所示：
Term(cf)＝-|Jerk(t′)|#(11)

4)合作预测收益

考虑到车辆行为决策对其他交通参与者的影响，使用博弈中旁车的预测时刻的加速度a_j(t′)作为合作预测收益的量化指标，其中j表示目标车道后车的编号。

公式表述如式(12)所示：
Term(gt)＝-|a_j(t′)|#(12)

总的收益包括上述四项重要指标，通过组合和加权来构成对象车辆总的收益，本车车辆SV及目标车道后车RV的各项收益计算方式如式(13)-(14)所示：

其中ω＝[ω₁,ω₂,ω₃,ω₄]和σ＝[σ₁,σ₂,σ₃,σ₄]为加权系数，H表示预测推演的总时间，t+1表示当前时刻的下一时刻。因本车SV与激进型及非激进型的目标车道后车RV所构成的收益不同，因此采用激进性因子β_t构建本车车辆收益U的加权系数ω＝[ω₁,ω₂,ω₃,ω₄]，公式表述如式(15)所示：

其中k＝[k₁,k₂,k₃,k₄]表示对各项预测收益的增益系数，其目的是调整各项预测性收益的数值使得其保持同一数量级；

[σ₁,σ₂,σ₃,σ₄]参数由人工标定得到。

如图8所示，本车车辆SV在产生换道意愿后，与目标车道多辆后车构成多个博弈，依据目标车道后车与本车车辆SV的相对纵向距离对其博弈过程进行编号，依次构成博弈1、博弈2，…，博弈N。变道决策的目的在于首先完成博弈1，具体指本车车辆SV完成变道行为，行驶至博弈1中的目标车道后车前方。若在求解博弈1的收益矩阵过程中换道行为无法完成，则对博弈2至博弈N重新编号为博弈1、博弈2，…，博弈N，进而继续对博弈1求解换道概率进行换道行为决策。

本车车辆SV决定换道概率P_t(lc)时会根据本车SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵考虑八种情况，本车车辆SV期望收益E_p表达式如式(16)所示：
E_p＝P_t(Y|(road,time))*[P_t(lc)*(U₁₁+U₁₂)+(1-P_t(lc))*(U₂₁+U₂₂)]
+(1-P_t(Y|(road,time)))*[P_t(lc)*(U₃₃+U₃₄)+(1-P_t(lc))*(U₄₃+U₄₄)]#(16)

经整理可得到本车车辆SV期望收益E_p是关于换道概率P_t(lc)的函数，可表述为E_p＝F(P_t(lc))，求得期望收益E_p最大时的换道概率为

步骤6，车辆状态更新：

在执行决策的时候，是一个动态博弈的过程，车辆的状态会实时更新，然后根据新的状态信息进行新的决策，以完成整个决策过程。进行车辆状态更新的过程分为两种情况：

1)换道概率没有达到既定的执行阈值P_des(lc)，本车车辆不执行换道，仅更新车辆纵向轨迹，纵向轨迹使用全速度差(FVD)模型，该模型能够展示交通流中时走时停及突发的交通堵塞和激波等实际的交通现象，并且同时考虑速度差为正负时的影响，公式表述如式(17)所示：
a_j(t)＝ρ[V(Δ(x_j))-v_j(t)]+λΔv_j(t)#(17)

其中j表示车辆编号，a_j(t)表示t时刻的车辆加速度，v_j(t)表示t时刻的车辆速度，Δv_j(t)表示t时刻的速度差，ρ和λ是权重系数，V(Δ(x_j))是优化速度函数，公式表述如式(18)所示：

2)换道执行概率达到概率阈值P_des(lc)时，同时更新车辆换道轨迹和纵向轨迹，纵向轨迹同样使用全速度差(FVD)模型，横向轨迹采用推荐使用五次多项式，当不限于此，公式表述如式(19)所示：
y(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴+a₅t⁵#(19)

其中A＝[a₀,a₁,a₂,a₃,a₄,a₅]为多项式系数，t为换道过程中的采样时刻，a₀,a₁,a₂,a₃,a₄,a₅的取值由人为设定。

步骤7，循环执行动态博弈决策：

执行步骤3至步骤6，直到换道行为决策执行完成或者换道意愿消失。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

一种基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，包括以下步骤：

步骤1，建立旁车的车辆驾驶风格的先验概率分布：通过智能网联路端传感器获取车辆行驶数据，记录并统计在不同时段、路段下的车辆驾驶风格先验概率分布，定义旁车的车辆驾驶风格包括激进型A(aggressive)与非激进型NA(none aggressive)两种；

步骤2，换道意愿计算模块输出换道意愿：通过车载传感器采集本车车辆SV及其周围车辆信息，定义并计算原始车道行驶预判车距和换道预判车距，通过引入期望距离及方差构建累计分布函数计算换道必要性和换道安全性，并建立基于模糊逻辑的换道意愿输出模型，当换道意愿达到设定阈值后执行以下步骤3至步骤7；

步骤3，利用贝叶斯滤波推断目标车道后车RV的驾驶风格后验概率：当本车车辆SV(specified vehicle)产生换道意愿后，通过车载传感器采集目标车道后车RV(rear vehicle)的加速度信息来获得目标车道后车RV驾驶风格的似然函数，通过所述的似然函数及步骤1得到的所述先验概率分布得到目标车道后车RV的车辆驾驶风格后验概率及目标车道后车RV的驾驶员激进性因子β(该因子的取值范围是[0,1])；

步骤4，通过长短记忆神经网络LSTM(Long Short-Term Memory)及车辆运动学模型预测本车车辆SV及目标车道后车RV未来推演时域的行驶轨迹、速度及加速度；

步骤5，建立博弈收益矩阵并求解得到换道执行概率：建立非合作博弈的收益矩阵，该收益矩阵分别包括本车车辆SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵，收益函数的设计包括安全预测收益、时间预测收益、舒适性预测收益及合作预测收益，再通过求解收益矩阵得到换道执行概率；

步骤6，对车辆状态进行更新：换道执行概率没有达到执行阈值时，本车车辆SV不执行换道，仅更新本车车辆SV的纵向轨迹；换道执行概率达到概率阈值时，同时更新本车车辆SV的换道轨迹和纵向轨迹；

步骤7，循环执行动态博弈决策：循环执行步骤3至步骤6，直到换道策略执行完成或者换道意愿消失。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤1中，过聚类算法获得设定路段及时段下的激进型A驾驶员数量n(A)和非激进型NA驾驶员数量n(NA)，求解所述的车辆驾驶风格先验概率分布：

其中road和time分别表示所处路段及时段，p(A)表示车辆驾驶风格为激进型A的概率，1-p(A)表示表示车辆驾驶风格为非激进型NA的概率。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤2中，定义并计算原始车道行驶预判车距d_min及换道预判车距l_min，其中d_min为未来t时刻内所有原始车道行驶预判车距[d₁,d₂,…,d_t]的最小值，未来t时刻内所有换道预判车距[l₁,l₂,…,l_t]的最小值l_min，通过引入期望距离及方差构建累计分布函数计算换道必要性和换道安全性：

其中P_ne和P_sf分别表示换道必要性和换道安全性，u_k和u_l分别表示原始车道行驶预判车距的期望及换道预判车距的期望，σ表示方差；

在所述换道意愿输出模型中，构建换道必要性、换道安全性及换道意愿的隶属度函数，依据模糊规则表及质心法去模糊化运算求解得到换道意愿

若满足换道意愿>换道意愿阈值则进行后续的贝叶斯博弈换道决策。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤3中，

所述车载传感器获得测量目标车道后车RV行驶加速度的准确性y，测量到目标车道后车RV行驶状态为非减速状态的似然函数为L(θ|A)＝(y,1-y)，测量到目标车道后车RV行驶状态为减速状态的似然函数为L(θ|NA)＝(1-y,y)；

通过车辆驾驶风格的先验概率分布及似然函数得到目标车道后车RV的车辆驾驶风格后验概率分布：
P_t(Y|(road,time))＝normalize(P_o(X|(road,time)*L(θ))

同时认为t+1时刻的先验概率分布延续t时刻的后验概率分布；

通过所述的车辆驾驶风格后验概率可得第t时刻的目标车道后车RV的驾驶员激进性因子β_t：
β_t＝V_type·P_t(Y|(road,time))

V_type为单位向量。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤4中，本车车辆及目标车道后车的速度、加速度使用长短记忆神经网络进行预测，本车车辆及目标车道后车在未来推演时域的非换道行为的行驶轨迹预测由车辆运动学模型进行推演预测，本车车辆换道行为的轨迹预测通过车辆运动学模型推演纵向行驶轨迹结合五次多项式曲线推演横向行驶轨迹进行推演预测。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤5中，本车车辆SV与激进型的目标车道后车RV的收益矩阵为：

其中：

U₁₁、U₁₂、U₂₁、U₂₂分别表示本车车辆与激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下本车车辆的收益；

Q₁₁、Q₁₂、Q₂₁、Q₂₂分别表示本车车辆与激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下目标车道后车的收益。

本车车辆SV与非激进型的目标车道后车RV的收益矩阵为：

其中：

U₃₃、U₃₄、U₄₃、U₄₄分别表示本车车辆与非激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下本车车辆的收益；

Q₃₃、Q₃₄、Q₄₃、Q₄₄分别表示本车车辆与非激进型目标车道后车在[换道，减速]、[换道，加速]、[不换道，减速]及[不换道，加速]四种策略组合下目标车道后车的收益。
如权利要求6所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，本车车辆SV的收益U及目标车道后车RV的收益Q计算了未来时刻的收益，共包括四部分：

(1)安全预测收益：
Term(sf)＝-{ω₁₁[A_c(t′)+v_SV(t′)*v_RV(t′)]*I(A_c)
+ω₁₂[A_s(t′)+v_SV(t′)*v_RV(t′)]*I(A_s)}

式中v_SV(t′)和v_RV(t′)是预测时刻t′下本车车辆SV及目标车道后车RV的车速，A_c(t′)为预测时刻t′车辆碰撞判定区域的重叠面积，A_s(t′)为预测时刻t′车辆安全预留区域的重叠面积，ω₁₁和ω₁₂为碰撞权重和安全预留权重，I(A_c)和I(A_s)为0-1函数，当相应的安全区域出现重叠取为1，不重叠时取为0；

(2)时间预测收益：
Term(time)＝v(t′)

v(t′)表示博弈中目标车道后车预测时刻的速度；

(3)舒适性预测收益：

使用车辆行驶过程中预测时刻加速度的导数加加速度Jerk作为舒适性预测收益：
Term(rf)＝-|Jerk(t′)|

Jerk(t′)表示预测时刻加速度的导数加加速度；

(4)合作预测收益：

使用博弈中目标车道后车RV的预测时刻的加速度a_j(t′)作为合作预测收益的量化指标：
Term(gt)＝-|a_j(t′)|

本车车辆SV及目标车道后车RV通过组合和加权来构成对象车辆总的收益：

其中ω＝[ω₁,ω₂,ω₃,ω₄]和σ＝[σ₁,σ₂,σ₃,σ₄]为加权系数，

采用激进性因子β_t构建本车车辆收益U的加权系数：

其中k＝[k₁,k₂,k₃,k₄]表示对各项预测收益的增益系数。
如权利要求7所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，本车车辆SV决定换道概率时会根据本车车辆SV与激进型及非激进型的目标车道后车RV所构成的收益矩阵考虑八种情况，期望收益E_p为：
E_p＝P_t(Y|(road,time))*[P_t(lc)*(U₁₁+U₁₂)+(1-P_t(lc))*(U₂₁+U₂₂)]
+(1-P_t(Y|(road,time)))*[P_t(lc)*(U₃₃+U₃₄)+(1-P_t(lc))*(U₄₃+U₄₄)]

可求得期望收益E_p最大时的换道概率为
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤6中，换道概率没有达到既定的执行阈值，本车车辆仅更新车辆纵向轨迹，纵向轨迹使用全速度差(FVD)模型：
a_j(t)＝ρ[V(Δ(x_j))-v_j(t)]+λΔv_j(t)

其中j表示车辆编号，a_j(t)表示t时刻的车辆加速度，v_j(t)表示t时刻的车辆速度，Δv_j(t)表示t时刻的速度差，ρ和λ是权重系数，V(Δ(x_j))是优化速度函数：

其中v_max表示车辆的最大速度，h_c是车辆间的安全距离，Δx_j(t)是t时刻车辆间的实际距离。
如权利要求1所述的基于贝叶斯博弈的自动驾驶车辆换道行为车辆协同决策算法，其特征在于，所述步骤6中，换道执行概率达到概率阈值时，同时更新车辆换道轨迹和纵向轨迹，纵向轨迹使用全速度差(FVD)模型，横向轨迹采用推荐使用五次多项式：
y(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴+a₅t⁵

其中A＝[a₀,a₁,a₂,a₃,a₄,a₅]为多项式系数。