WO2023159841A1

WO2023159841A1 - 高速公路网联车协同匝道汇入多目标优化控制方法和系统

Info

Publication number: WO2023159841A1
Application number: PCT/CN2022/102755
Authority: WO
Inventors: 董瀚萱; 丁璠; 张海龙; 谭华春; 叶林辉; 戴昀琦
Original assignee: 东南大学
Priority date: 2022-02-23
Filing date: 2022-06-30
Publication date: 2023-08-31
Also published as: CN114241778A; CN114241778B

Abstract

高速公路网联车协同匝道汇入多目标优化控制方法和系统。其中的方法包括：步骤1，采集高速公路控制区域内车辆的状态数据，并对状态数据进行分析和处理；步骤2，根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合；步骤3，将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中，通过最优价值策略进一步确定辅助车辆和引导车辆；步骤4，根据选择的辅助车、引导车和汇入车辆，对辅助车和引导车进行加速度控制调节，确保匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；步骤5，采集进行加速度调节后的匝道汇入车辆和辅助车辆的状态数据，并返回步骤4，进行下一时刻的加速度调节。

Description

高速公路网联车协同匝道汇入多目标优化控制方法和系统

技术领域

本发明属于智能交通车路协同技术领域，具体为高速公路网联车协同匝道汇入多目标优化控制方法和系统。

背景技术

随着国民经济的飞速增长及城市化进程的不断推动，区域贸易增多促使城市间出行迅猛增长，为高速公路的高效、安全运行带来了挑战。其中，入口匝道区域作为影响高速公路交通效率的瓶颈，是交通管理中尤为关注的问题。常用匝道控制方法是通过调整宏观交通流状态变量(如密度或流量)控制入口匝道流入的速率。然而，匝道计量策略的目的是优先考虑干线的效率，并试图防止拥塞。由于无法控制单个车辆的移动来促进汇入过程，该方法可能在主线上车辆较多的情况下无法成功汇入，导致拥堵和安全问题。

考虑到智能网联车优异的动态控制能力，匝道协同汇入策略被提出，通过调节车辆的轨迹来更好地控制汇入，以保证交通效率和安全性。常见的汇入策略可分为启发式方法(基于规则的方法或模糊方法)和最优方法。然而，启发式算法通常需要领域特定的专业知识来进行某些驾驶规则的精细设计，缺乏对其他未知情况适应性且很难达到控制最优。优化算法例如PMP、DP等算法由于缺乏自学习能力，难以在入口匝道合并复杂环境下实现全局优化，缺乏对问题的适应性；基于强化学习的优化算法虽然能提高系统对于未知环境的适应性，但现有的策略过于注重奖励塑造和模型构建，无法从根本上解决协同匝道汇入问题。从本质上讲，协同匝道汇入需要同时满足多目标的长期和短期反馈。也就是说，短期动作执行时需要考虑到对长期目标的影响，但是对于汇入问题来说，入口匝道汇入评估的奖励是稀疏的和长期的。在这种情况下，传统的强化学习方法在处理稀疏奖励问题时很难避免局部最优和不稳定性，影响匝道区域车辆的通行效率和安全。

针对以上问题，发明人已提出了相关论文面向电池寿命的入口匝道强化学习方法，初步解决入口匝道汇入问题，但该方法主要面向电池健康问题，是针对新能源汽车特定应用场景下实施案例，但无法应用于现实传统燃油车与新能源汽车混合匝道汇入场景；同时，文中未涉及匝道汇入车辆选择主路汇入间隙选择，在实际匝道汇入实际应用缺乏关键环节。针对上述问题，本专利以论文所提出具体案例基础上，提出高速公路网联车协同匝道汇入多目标优化控制方法和系统，是针对入口匝道车辆汇入问题建立全面、完整的框架与更先进技术方法体系。

发明内容

为解决上述技术问题，本发明提出了高速公路网联车协同匝道汇入多目标优化控制方法和系统，通过协匝道控制区域内的车辆行驶轨迹，在完成匝道汇入的同时保证道路整体交通高效、安全、节能运行。

本发明提供高速公路网联车协同匝道汇入多目标优化控制方法，包括如下步骤：

步骤1，采集高速公路控制区域内车辆的状态数据，并对状态数据进行分析和处理；所述控制区域包括高速公路的主路和匝道交叉点、汇入区域、主路部分路段、匝道部分路段以及加速车道部分路段，控制区域的范围即路侧单元的通信范围，所述路侧单元设置于高速公路的主路和匝道交叉点处，所述汇入区域为预先选定的区域，包括加速车道的部分路段以及与加速车道的部分路段平行的主路路段；

步骤2，根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合；

步骤3，将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中，通过最优价值策略进一步确定辅助车辆和引导车辆的选择；

步骤4，根据选择的辅助车、引导车和汇入车辆，对辅助车和引导车进行加速度进行控制调节，确保匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

步骤5，采集进行加速度调节后的匝道汇入车辆和辅助车辆的状态数据，并返回步骤4，进行下一时刻的加速度调节。

作为本发明控制方法进一步改进，所述步骤1中，车辆的状态数据包括控制区域内车辆的位置、速度、动力电池状态以及相应的时刻信息。

作为本发明控制方法进一步改进，所述步骤1中，对状态数据进行分析和处理，包括但不限于数据分析、特征提取和信息融合。

作为本发明控制方法进一步改进，所述步骤2-3中，所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略如下：

4.1汇入车辆的选择：将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取高速公路控制区域所有车辆前t个时间步长的状态信息；

4.2根据所有车辆的位置信息，依据主线车辆与汇入车辆的前后关系，初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆，其中z为正整数且小于等于5；

4.3在所有备选车辆中，选取邻近的两辆车作为一组引导车和辅助车，构建该汇入车辆的引导车和辅助车的备选集合AL；

4.4采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中，依据模型的值函数Q _π确定最终选取的汇入车辆、辅助车辆和引导车辆。

作为本发明控制方法进一步改进，所述控制区域所有车辆前t个时间步长的状态信息包括速度、位置及加速度。

作为本发明控制方法进一步改进，所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中，基于人工智能的匝道汇入多目标控制模型，其成功汇入时刻的目标函数及限制条件的构建如下：

6.1设定安全汇入时刻为

构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系：

式中，x _l，v _l和a _l引导车辆的位置、速度和加速度；x _f，v _f和a _f表示辅助车辆的位置、速度和加速度；x _m，v _m和a _m表示匝道汇入车辆的位置、速度和加速度；τ为恒定的时间间隔，L ₁为车辆的长度，s ₀为停顿间隙，d _min和d _max分别为汇入区域的起点和终点，汇入区域的长度为d _max-d _min；公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

6.2在满足6.1的条件下，进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下：

式中，

表示不同目标的代价函数，c ⁿ表示参数。

作为本发明控制方法进一步改进，所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中，基于人工智能的匝道汇入多目标控制模型，采用强化学习参与者-评价者算法进行求解，具体过程如下：

7.1状态空间

及行为空间

建立：根据引导车辆、辅助车辆和匝道汇入车辆的状态数据选择六维状态信息s＝{x _l，x _m，x _f，v _l，v _m，v _f}表示环境中最相关的影响因素，

依据控制对象选择控制行为策略

7.2最优目标建立：根据安全汇入时刻

时的车辆限制条件关系，构建匝道汇入最优目标集合

其中，

为目标空间的集合，

表示满足公式(1)中汇入车辆在引导车辆后面，

表示满足公式(2)中匝道汇入车辆在辅助车辆前面，

表示满足公式(3)中匝道汇入车辆和引导车辆速度一致，

表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致，

表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

7.3目标空间构建：依据7.2最优目标空间集合

所包含的分类，建立目标空间集合

满足g＝{g ₁，g ₂，g ₃，g ₄，g ₅}，g ₁表示匝道汇入车辆与引导车辆的位置关系，g ₂表示匝道汇入车辆和辅助车辆的位置关系，g ₃表示匝道汇入车辆和引导车辆速度关系，g ₄表示匝道汇入车辆和辅助车辆速度关系，g ₅表示匝道汇入车辆的位置与合并区域的关系；

7.4奖励构建：奖励函数为

每个时间步长的奖励r(s，a，g ^*)在包括长期目标汇入奖励R _m(t)的情况下，根据安全、高效及舒适行驶要求引入至少两种短期目标奖励，其中必须包含的长期目标汇入奖励R _m(t)表示如下：

7.5数据链的获取：根据7.1至7.3获取的第t个时间步长的状态、目标、策略和奖励数据得到数据链s _t||g ^*，a，r，s _t+1||g ^*并将数据存储入智能优化模块，其中S||g ^*表示状态s和目标g ^*的连接；

7.6数据探索拓展及目标空间优化：进一步提出基于多经验重放的虚拟目标构建算法，进行虚拟目标的引入，在对目标空间优化的同时实现数据探索的扩充；

7.7在每个时间步骤中，根据智能优化模块存储的数据链，基于参与者-评价者算法框架，通过以θ _A为参数的深度神经网络来训练汇入控制策略，该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入，策略优化的目标是找到最优的行为策略a，使整个行程的回报期望最大化，最终，最优控制策略通过经过训练的网络的前向传递输出：a＝π(s，g|θ _A)。

作为本发明控制方法进一步改进，所述强化学习参与者-评价者算法奖励构建中短期目标奖励包括不限于：节能奖励R _e(t)舒适性奖励R _p(t)、通行高效奖励R _s(t)和电池状态奖励R _b(t)；

所述强化学习参与者-评价者算法的基于耦合切比雪夫的多目标奖励优化方法具体步骤如下：

确定优化奖励项：假设汇入成功后引入多种实时短期目标的数量为n _r个，则汇入问题的优化奖励项为n _r个；

确定各奖励的朝理想最优值：构建各个目标的超理想最优值

其中

为理想值，根据经验数据选择，

为一常数，表示超理想最优值比理想值好的程度；

构建多目标问题的广义加权切比雪夫最优化模型：设λ _i为短期目标的切比雪夫权重，则得多目标问题的转化为广义加权切比雪夫但目标问题，如下式：

其中，F _c为加权的切比雪夫范数，

代表各个目标与超理想最优值之间的最大偏差；

为保证算法稳定的项，通常ρ＝0.001；λ _i的计算公式参考如下：

奖励函数构建为：

作为本发明控制方法进一步改进，所述强化学习参与者-评价者算法奖励构建中所提出多经验重放的虚拟目标构建算法步骤如下：

t时间步长下的多经验虚拟目标构建及目标空间优化：依据t时间步长下的目标g ^*和数据链(s _t||g ^*，a，r，s _t+1||g ^*)，构建以

为参数的全连接神经网络

获取当前状态下的l个虚拟目标为：

基于优化目标空间的数据探索优化：依据获取的l个虚拟目标构建l个虚拟目标数据链：(s _t||g ¹，a，r，s _t+1||g ¹)，(s _t||g ²，a，r，s _t+1||g ²)，...，(s _t||g ^l，a，r，s _t+1||g ^l)；

并将虚拟目标数据链存储入智能优化模块；

全时间步长数据探索优化：对每个时间步长重复步长下的多经验虚拟目标构建及目标空间优化和基于优化目标空间的数据探索优化，完成所有时间步长下的数据探索及目标空间优化；

基于人工智能模型的虚拟目标有效性选择：根据优化后的数据集合进行人工智能模型的训练，并根据训练结果选取每个时间步长下的最优虚拟目标数据链；

虚拟目标全连接神经网络H的校核：根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络H的参数

进行校验，不断提升虚拟目标生成的准确性，以保证算法性能和训练速度。

本发明提供高速公路网联车协同匝道汇入多目标优化控制方法的系统，包括信息采集模块、数据传输模块、交通控制模块以及智能优化模块；

所述信息采集模块用于采集控制区域内车辆的状态数据，并对状态数据进行分析和处理，选定匝道汇入车辆、辅助车辆和引导车辆；

所述信息采集模块包括车载单元和路侧单元，所述路侧单元设置于高速公路的主路和匝道交叉点处，所述路侧单元用于采集控制区域内车辆的位置、速度及相应的时刻信息，还用于采集匝道汇入车辆确定的时间及前保险杆到达匝道出口线的时间，所述车载单元用于采集控制区域内车辆的动力电池状态及相应的时刻信息；

所述数据传输模块用于以移动通信技术为主体信息传输通信方式，辅助WiFi/BT、DSRC无线通信方式中的一种或两种实现数据在信息采集模块与交通控制模块、交通控制模块与智能优化模块之间的传输；

所述交通控制模块用于根据信息采集模块提供的车辆状态数据获取实时最优的行为策略a、目标g及奖励r，并将行为策略发送至车载单元，实现车辆实时控制，同时将最优的行为策略a、目标g及奖励r发送至智能优化模块；

所述智能优化模块用于存储所述交通控制模块传入的数据，并基于步骤3所选择的备选车辆集合AL和步骤4所提出的优化算法对匝道汇入多目标控制模型进行优化，并将优化后的模型传输至所述交通控制模块。

有益效果：

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明通过控制匝道汇入区域两个车道的车辆，促进了匝道汇入的过程，避免传统匝道控制手段仅使用流率控制导致匝道车辆汇入延迟引发的排队问题，在保证主线通行能力的前提下，同时积极促进了匝道车辆的汇入实现，极大的提高了匝道区域的交通通行效率；且单车控制的方法也保证了车辆之间的安全行驶。

2、本发明使用强化学习进行单车控制匝道汇入，区别于其他单车控制的匝道汇入方法。强化学习的方法无需进行复杂模型的构建，可以从历史数据不断探索并优化控制策略，同时由于探索的多样性，该算法还具有一定的鲁棒性和适应性。

3、本发明引入了多经验虚拟目标构建方法，引入目标空间优化和数据探索步骤，极大的提高了数据的探索效率，有效解决了多目标匝道控制中长期奖励稀疏的问题和长短奖励之间的耦合关系问题，保证了多目标匝道汇入的安全有效。

4、对比发明人所发表的论文，本发明的提升主要有：

1)区别于论文单纯针对新能源汽车面向电池健康问题的汇入方法，提出了适用于多种车辆(包括不限于传统燃油车、新能源汽车等)的混合匝道场景的汇入方法，且本发明提供了应用于现实高速公路汇入场景的关键技术环节。

2)本发明进一步优化了安全成功汇入时刻的车辆限制条件，同时，丰富了控制区域引导车辆、辅助车辆和汇入车辆的选择算法，与论文中简单的选择模式相比，本发明的选择方案可以获取最优的车辆选择方案，进一步提高了算法的最优解，使车辆的运行更为节能，高效、平稳。

3)本发明进一步优化了长期奖励和短期奖励的重要级，并为本发明针对不同实际情况的目标引入预留了接口，且本发明确定了短期奖励之间的系数关系，保证本发明可以适应多种不同目标的情况，进一步提升了本发明的适用范围。

4)本发明对文章提出的数据探索算法进一步优化，引入多经验虚拟目标构建方法，区别于论文简单的选取下一状态作为目标，进一步提高了数据的利用效率，提高数据探索的方向和正确性，极大的避免碰撞等危险情况的发生。

附图说明

图1是本发明提出的高速公路汇入场景示意图；

图2是本发明高速公路网联车协同匝道汇入多目标优化控制方法架构图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出的方法基于假设如下：1)网联车辆需具备必要的信息传输、指令实现的能力，即通过车载单元具备信息交互的能力，且车辆完全执行控制指令；2)匝道控制区域包含主路和匝道交叉点、匝道汇入区域及主线和匝道部分路段，且控制区域的范围控制范围为路侧单元的通信范围；3)汇入区域的长度固定，即为d _m＝d _max-d _min；4)忽略信息传输、数据处理与计算、指令执行存在的延误，即假定各模块的运行的速度足够支撑系统运行；5)忽略车辆的横向运动及温度对车辆的影响。

本发明提出的高速公路网联车协同匝道汇入多目标优化控制系统，包括信息采集模块、数据传输模块、交通控制模块和智能优化模块，其中：

1)信息采集模块，通过车载单元和路侧单元实时采集控制区域内车辆的速度、位置、动力电池状态等状态信息及对应的时刻信息和匝道车辆汇入的开始时刻信息(汇入车辆的选定时刻)，并对数据进行分析及处理，数据分析与处理步骤但不限于数据分析、特征提取、信息融合等；

信息采集模块所包含的车载单元和路侧单元信息采集配合如下：

①路侧单元负责交通状态信息的采集，例如区域内车辆的速度、位置以及匝道汇入车辆汇入的开始时刻；

②车载单元负责车辆相关参数信息的采集，例如发动机状态信息、电池状态信息、档位信息。本发明所设计网联汽车动力组成包括：燃油车、纯电动汽车、氢能源汽车及混合动力汽车。

2)数据传输模块，以第五代移动通信技术(5G)为主体信息传输通信方式，辅助WiFi/BT、DSRC等无线通信方式中的一种或多种实现数据在车载单元、路测单元和各个模块之间的传输；

3)交通控制模块，根据信息采集模块提供的交通状态信息获取实时最优的行为策略a、目标g及反馈r，并将策略发送至车载单元，实现车辆实时控制；同时，将交通状态信息集合打包发送至智能优化模块；

4)智能优化模块，包括训练和数据子模块。数据模块将交通控制模块传入的数据进行存储，并应用人工智能数据探索方法获取更多的数据对进行存储；训练模块根据数据模块所提供的数据利用奖励函数对基于人工智能的匝道汇入多目标控制模型进行并将优化后的模型传输至交通控制模块。

控制区域包含主路和匝道交叉点，匝道汇入区域及主线和匝道部分路段，值得说明的是，控制区域的范围控制范围为路侧单元的通信范围，详见图1。

如图2所示，本发明提出的高速公路网联车协同匝道汇入多目标优化控制方法，包括以下步骤：

S01信息采集模块获取控制区域的车辆状态数据；

S02信息采集模块通过智能数据分析模型对采集数据进行数据分析、信息融合等处理；

S03根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合AL；

S04将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中，通过最优价值策略进一步确定辅助车辆和引导车辆的选择；

S05传输模块将S04步骤选定车辆及车辆相关采集数据传输至控制模块；

S06交通控制模块确认指令发送的车辆，基于人工智能的匝道汇入多目标控制模型进行实施决策，所述基于人工智能的匝道汇入多目标控制模型的框架为强化学习参与者-评价者(Actor-Critic)算法；

S07传输模块将决策信息传输至被控车辆的车载单元，实现车辆安全、高效、节能匝道汇入目标；所述被控车辆为匝道汇入车辆和辅助车辆；

S08采集控制策略下的被控车辆状态信息数据对，并将被控车辆状态信息数据对存入数据子模块，形成闭环控制。

步骤S03-S04，所述的汇入车辆、辅助车辆和引导车辆的选择方法依照最优价值策略算法构架，如下：

1)汇入车辆的选择：将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取控制区域所有车辆前t个时间步长的状态信息，例如速度、位置及加速度；

2)根据所有车辆的位置信息，依据主线车辆与汇入车辆的前后关系，初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆，其中z为正整数且小于等于5；

3)在所有备选车辆中，选取邻近的两辆车作为一组引导车和辅助车，构建该汇入车辆的引导车和辅助车的备选集合AL。

4)采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中，依据模型的值函数Q _π确定最终选取的汇入车辆、辅助车辆和引导车辆。

5)基于人工智能的匝道汇入多目标控制模型根据选定的引导车辆对汇入车辆、辅助车辆的加速度控制调节，求解多目标下的最优控制，在实现汇入车辆成功汇入主线的同时，保证汇入车辆的能耗优化和道路的高效、安全通行。具体包括问题数学模型构建及基于强化学习的优化求解。

问题数学模型构建如下：

1)设定安全汇入时刻为

，构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系：

式中，x _l，v _l和a _l引导车辆的位置、速度和加速度；x _f，v _f和a _f表示辅助车辆的位置、速度和加速度；x _m，v _m和a _m表示匝道汇入车辆的位置、速度和加速度；τ为恒定的时间间隔，L1为车辆的长度，s ₀为停顿间隙，d _min和d _max分别为汇入区域的起点和终点，汇入区域的长度为d _max-d _min；公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

2)在满足1)的条件下，进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下：

式中，

表示不同目标的代价函数，c ⁿ表示参数。

作为本发明方法的优选方案，所述基于人工智能的匝道汇入多目标控制模型采用强化学习参与者-评价者算法Actor-Critic进行求解，具体过程如下：

1)状态空间

及行为空间

依据控制对象选择控制行为策略

2)最优目标建立：根据安全汇入时刻

时的车辆限制条件关系，构建匝道汇入最优目标集合

其中，

为目标空间的集合，

表示满足公式(1)中汇入车辆在引导车辆后面，

表示满足公式(2)中匝道汇入车辆在辅助车辆前面，

表示满足公式(3)中匝道汇入车辆和引导车辆速度一致，

表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致，

表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中。

3)目标空间构建：依据2)最优目标空间集合

所包含的分类，建立目标空间集合

满足g＝{g ₁，g ₂，g ₃，g ₄，g ₅}，g ₁表示匝道汇入车辆与引导车辆的位置关系，g ₂表示匝道汇入车辆和辅助车辆的位置关系，g ₃表示匝道汇入车辆和引导车辆速度关系，g ₄表示匝道汇入车辆和辅助车辆速度关系，g ₅表示匝道汇入车辆的位置与合并区域的关系。

4)奖励构建：奖励函数为

每个时间步长的奖励r(s，a，g ^*)在包括长期目标汇入奖励R _m(t)的情况下，可根据安全、高效及舒适等行驶要求引入多种短期目标奖励。

①必须包含的长期目标汇入奖励R _m(t)表示如下：

②其他目标可以包括不限于节能、平稳、舒适及高效等，构建可参考：

a.行驶能耗奖励R _e(t)构建：

考虑电池效率与能耗，用安培-时间积分法构建车辆电荷状态(SOC)的下降关系模型：

其中，V _oc为开路电压，R _int是电阻，P _b(t)是t时刻的电池功率，Q _c为电池的容量。

因此，节能奖励包括匝道汇入车辆和辅助车辆的SOC情况，如下式：

R _e(t)＝ΔSOC _m(t)+ΔSOC _f(t) (9)

b.电池寿命奖励R _b(t)构建：根据

其中，N为电池循环次数，E ₀(0)为标准电池容量能量。

因此，电池寿命奖励为匝道汇入车辆和辅助车辆的SOH情况，如下式：

R _b(t)＝ΔSOH _m(t)+ΔSOH _f(t) (11)

c.平稳性奖励构建R _s(t)：在不考虑车辆横向移动的情况下，平稳性奖励可以看作实际加速度的变化情况，最大加速度a _max＝3m/s ²，具体模型如下：

d.舒适性奖励构建R _p(t)：为了减少合并车辆的颠簸，提高乘客的舒适度，j _max表示可承受的最大颠簸值，单位取m/s ³，则模型如下：

基于耦合切比雪夫的多目标奖励优化方法，具体步骤如下：

a.确定优化奖励项：假设汇入成功后引入多种实时短期目标的数量为n _r个，则汇入问题的优化奖励项为n _r个；

b.确定各奖励的朝理想最优值：构建各个目标的超理想最优值

其中

为理想值，根据经验数据选择，

为一常数，表示超理想最优值比理想值好的程度；

c.构建多目标问题的广义加权切比雪夫最优化模型：设λ _i为短期目标的切比雪夫权重，则可得多目标问题的转化为广义加权切比雪夫但目标问题，如下式：

其中，F _c为加权的切比雪夫范数，

代表各个目标与超理想最优值之间的最大偏差；

④奖励函数构建为：

5)数据链的获取：根据1)至4)获取的第t个时间步长的状态、目标、策略和奖励数据可得到数据链(s _t||g ^*a，r，s _t+1||g ^*)并将数据存储入智能优化模块，其中s||g ^*表示状态s和目标g ^*的连接，在没有完成g ^*(R _m(t)取值等于1，安全成功汇入)，r不包含短期目标R _e(t)，R _s(t)等。

6)数据探索拓展及目标空间优化：根据4)和5)可以发现，满足g ^*的数据是很难获取的，因为g ^*是一个固定的最终目标，对于实时的奖励的指导意义是十分有限的。因此，进一步提出基于多经验重放的虚拟目标构建算法，进行虚拟目标的引入，在对目标空间优化的同时实现数据探索的扩充。所提出多经验重放的虚拟目标构建算法步骤如下：

①t时间步长下的多经验虚拟目标构建及目标空间优化：依据t时间步长下的目标g ^*和数据链(s _t||g ^*，a，r，s _t+1||g ^*)，构建以

为参数的全连接神经网络

获取当前状态下的l个虚拟目标为：

②基于优化目标空间的数据探索优化：依据获取的l个虚拟目标构建l个虚拟目标数据链：

(s _t||g ¹，a，r，s _t+1||g ¹)，(s _t||g ²，a，r，s _t+1||g ²)，...，(s _t||g ^l，a，r，s _t+1||g ^l)。

并将虚拟目标数据链存储入智能优化模块；

③全时间步长数据探索优化：对每个时间步长重复①和②，完成所有时间步长下的数据探索及目标空间优化；

④基于人工智能模型的虚拟目标有效性选择：根据优化后的数据集合进行人工智能模型的训练，并根据训练结果选取每个时间步长下的最优虚拟目标数据链；

⑤虚拟目标全连接神经网络H的校核：根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络H的参数

进行校验，不断提升虚拟目标生成的准确性，提升算法训练速度。

7)在每个时间步骤中，根据智能优化模块存储的数据链，基于Actor-Critic框架，通过以θ _A为参数的深度神经网络来训练汇入控制策略，该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入，策略优化的目标是找到最优的行为策略a，使整个行程的回报期望最大化，具体步骤如下：

①根据Bellman函数，构建最优价值函数表示为：

式中，Q _π为值函数，γ为折损因子，s，a，g分别为当前时间步的状态、行为策略、目标，s′，a′，g′分别为下一个时间步的状态、行为策略、目标；

②根据①，标准时间差更新方程为：

式中，ζ为学习率；

②利用以θ _C为参数的Critic网络根据公式(16)更新规则估计Q值，构建批评网络的损失函数如下：

J _C(θ _C)＝(Q _π(s，a，g|θ _C)-(r+γQ _π(s′，g′π(s′，g′|θ _A)|θ _C))) ² (20)

式中，为损失函数，θ _C为Critic网络参数；

③利用随机梯度下降算法通过最小化损失函数来更新临界网络参数，如下：

式中，

表示梯度；

④该驾驶状态下的最优控制策略通过经过训练的网络的前向传递输出：

a＝π(s，g|θ _A) (23)

8)由此可以获得最优控制策略，从而通过各个模块实现面向高速公路场景的网联车辆的协同匝道汇入多目标优化控制方法及系统的最优控制，实现匝道区域高效、安全、节能驾驶。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，包括如下步骤：

步骤1，采集高速公路控制区域内车辆的状态数据，并对状态数据进行分析和处理；所述高速公路控制区域包括高速公路的主路、匝道交叉点、汇入区域、主路部分路段、匝道部分路段以及加速车道部分路段，高速公路控制区域的范围即路侧单元的通信范围，所述路侧单元设置于高速公路的主路和匝道交叉点处，所述汇入区域为预先选定的区域，包括加速车道的部分路段以及与加速车道的部分路段平行的路段；

步骤2，根据控制区域内车辆的状态数据构建匝道汇入车辆、辅助车辆和引导车辆的可选方案集合；

步骤3，将可选方案集合分别输入基于人工智能的匝道汇入多目标控制模型中，通过最优价值策略进一步确定辅助车辆和引导车辆的选择；

步骤4，根据选择的辅助车、引导车和汇入车辆，对辅助车和引导车进行加速度进行控制调节，确保匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

步骤5，采集进行加速度调节后的匝道汇入车辆和辅助车辆的状态数据，并返回步骤4，进行下一时刻的加速度调节。
根据权利要求书1所述高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于：所述步骤1中，车辆的状态数据包括控制区域内车辆的位置、速度、动力电池状态以及相应的时刻信息。
根据权利要求书1所述高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于：所述步骤1中，对状态数据进行分析和处理，包括数据分析、特征提取和信息融合。
根据权利要求1所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述步骤2-3中，对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略如下：

4.1汇入车辆的选择：将匝道上前保险杆和匝道出口线距离最近的车辆设为汇入车辆,并获取高速公路控制区域所有车辆前t个时间步长的状态信息；

4.2根据所有车辆的位置信息，依据主线车辆与汇入车辆的前后关系，初步选择汇入车辆后方和前方的各z辆主路车辆作为辅助车和引导车的备选车辆，其中z为正整数且小于等于5；

4.3在所有备选车辆中，选取邻近的两辆车作为一组引导车和辅助车，构建该汇入车辆的引导车和辅助车的备选集合AL；

4.4采用遍历法将备选集合AL中的组合分别代入基于人工智能的匝道汇入多目标控制模型中，依据模型的值函数Q _π确定最终选取的汇入车辆、辅助车辆和引导车辆。
根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述高速公路控制区域所有车辆前t个时间步长的状态信息包括速度、位置及加速度。
根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中，基于人工智能的匝道汇入多目标控制模型，其成功汇入时刻的目标函数及限制条件的构建如下：

6.1设定安全汇入时刻为
构建安全汇入时刻引导车辆、辅助车辆和匝道汇入车辆需满足的位置和速度关系：

式中，x _l，v _l和a _l引导车辆的位置、速度和加速度；x _f，v _f和a _f表示辅助车辆的位置、速度和加速度；x _m，v _m和a _m表示匝道汇入车辆的位置、速度和加速度；τ为恒定的时间间隔，L ₁为车辆的长度，s ₀为停顿间隙，d _min和d _max分别为汇入区域的起点和终点，汇入区域的长度为d _max-d _min；公式从上到下依次表示匝道汇入车辆在引导车辆后面、匝道汇入车辆在辅助车辆前面、匝道汇入车辆和引导车辆速度一致、匝道汇入车辆和辅助车辆速度一致以及匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

6.2在满足6.1的条件下，进一步构建包含但不限于驾驶舒适性、车辆能耗、通行效率等目标的目标函数C如下：

式中，
表示不同目标的代价函数，c ⁿ表示参数。
根据权利要求4所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述对于汇入车辆、引导车辆和辅助车辆的选择的最优价值策略的步骤4中，基于人工智能的匝道汇入多目标控制模型，采用强化学习参与者-评价者算法进行求解，具体过程如下：

7.1状态空间
及行为空间
建立：根据引导车辆、辅助车辆和匝道汇入车辆的状态数据选择六维状态信息s＝{x _l，x _m，x _f，v _l，v _m，v _f}表示环境中最相关的影响因素，
依据控制对象选择控制行为策略

7.2最优目标建立：根据安全汇入时刻
时的车辆限制条件关系，构建匝道汇入最优目标集合
其中，
为目标空间的集合，
表示满足公式(1)中汇入车辆在引导车辆后面，
表示满足公式(2)中匝道汇入车辆在辅助车辆前面，
表示满足公式(3)中匝道汇入车辆和引导车辆速度一致，
表示满足公式(4)中匝道汇入车辆和辅助车辆速度一致，
表示满足公式(5)中匝道汇入车辆在选定的汇入区域内从加速车道安全汇入到主路中；

7.3目标空间构建：依据7.2最优目标空间集合
所包含的分类，建立目标空间集合
满足g＝{g ₁，g ₂，g ₃，g ₄，g ₅}，g ₁表示匝道汇入车辆与引导车辆的位置关系，g ₂表示匝道汇入车辆和辅助车辆的位置关系，g ₃表示匝道汇入车辆和引导车辆速度关系，g ₄表示匝道汇入车辆和辅助车辆速度关系，g ₅表示匝道汇入车辆的位置与合并区域的关系；

7.4奖励构建：奖励函数为
每个时间步长的奖励r(s，a，g ^*)在包括长期目标汇入奖励R _m(t)的情况下，根据安全、高效及舒适行驶要求引入至少两种短期目标奖励，其中必须包含的长期目标汇入奖励R _m(t)表示如下：

7.5数据链的获取：根据7.1至7.3获取的第t个时间步长的状态、目标、策略和奖励数据得到数据链s _t||g ^*，a，r，s _t+1||g ^*并将数据存储入智能优化模块，其中s||g ^*表示状态s和目标g ^*的连接；

7.6数据探索拓展及目标空间优化：进一步提出基于多经验重放的虚拟目标构建算法，进行虚拟目标的引入，在对目标空间优化的同时实现数据探索的扩充；

7.7在每个时间步骤中，根据智能优化模块存储的数据链，基于参与者-评价者算法框架，通过以θ _A为参数的深度神经网络来训练汇入控制策略，该策略直接输出动作来控制匝道汇入车辆和辅助车辆的加速度值与状态和目标输入，策略优化的目标是找到最优的行为策略a，使整个行程的回报期望最大化，最终，最优控制策略通过经过训练的网络的前向传递输出：a＝π(s，g|θ _A)。
根据权利要求7所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述强化学习参与者-评价者算法奖励构建中短期目标奖励包括：节能奖励R _e(t)舒适性奖励R _p(t)、通行高效奖励R _s(t)和电池状态奖励R _b(t)；

所述强化学习参与者-评价者算法的基于耦合切比雪夫的多目标奖励优化方法具体步骤如下：

确定优化奖励项：假设汇入成功后引入多种实时短期目标的数量为n _r个，则汇入问题的优化奖励项为n _r个；

确定各奖励的朝理想最优值：构建各个目标的超理想最优值
，其中
为理想值，根据经验数据选择，
为一常数，表示超理想最优值比理想值好的程度；

构建多目标问题的广义加权切比雪夫最优化模型：设λ _i为短期目标的切比雪夫权重，则得多目标问题的转化为广义加权切比雪夫但目标问题，如下式：

满足以下条件

r _i为无约束变量1≤i≤n _r (15)

F _c≥0

其中，F _c为加权的切比雪夫范数，
代表各个目标与超理想最优值之间的最大偏差；
为保证算法稳定的项，通常ρ＝0.001；λ _i的计算公式参考如下：

奖励函数构建为：
根据权利要求7所述的高速公路网联车协同匝道汇入多目标优化控制方法，其特征在于，所述强化学习参与者-评价者算法奖励构建中所提出多经验重放的虚拟目标构建算法步骤如下：

t时间步长下的多经验虚拟目标构建及目标空间优化：依据t时间步长下的目标g ^*和数据链(s _t||g ^*，a，r，s _t+1||g ^*)，构建以
为参数的全连接神经网络H，
获取当前状态下的l个虚拟目标为：

基于优化目标空间的数据探索优化：依据获取的l个虚拟目标构建l个虚拟目标数据链：(s _t||g ¹，a，r，s _t+1||g ¹)，(s _t||g ²，a，r，s _t+1||g ²)，...，(s _t||g ^l，a，r，s _t+1||g ^l)；

并将虚拟目标数据链存储入智能优化模块；

全时间步长数据探索优化：对每个时间步长重复步长下的多经验虚拟目标构建及目标空间优化和基于优化目标空间的数据探索优化，完成所有时间步长下的数据探索及目标空间优化；

基于人工智能模型的虚拟目标有效性选择：根据优化后的数据集合进行人工智能模型的训练，并根据训练结果选取每个时间步长下的最优虚拟目标数据链；

虚拟目标全连接神经网络H的校核：根据各个时长下最优虚拟目标数据链对虚拟目标全连接神经网络H的参数
进行校验，不断提升虚拟目标生成的准确性，以保证算法性能和训练速度。
基于权利要求1-9任一项所述的高速公路网联车协同匝道汇入多目标优化控制方法的系统，包括信息采集模块、数据传输模块、交通控制模块以及智能优化模块，其特征在于，

所述信息采集模块用于采集控制区域内车辆的状态数据，并对状态数据进行分析和处理，选定匝道汇入车辆、辅助车辆和引导车辆；

所述信息采集模块包括车载单元和路侧单元，所述路侧单元设置于高速公路的主路和匝道交叉点处，所述路侧单元用于采集控制区域内车辆的位置、速度及相应的时刻信息，还用于采集匝道汇入车辆确定的时间及前保险杆到达匝道出口线的时间，所述车载单元用于采集控制区域内车辆的动力电池状态及相应的时刻信息；

所述数据传输模块用于以移动通信技术为主体信息传输通信方式，辅助WiFi/BT、DSRC无线通信方式中的一种或两种实现数据在信息采集模块与交通控制模块、交通控制模块与智能优化模块之间的传输；

所述交通控制模块用于根据信息采集模块提供的车辆状态数据获取实时最优的行为策略a、目标g及奖励r，并将行为策略发送至车载单元，实现车辆实时控制，同时将最优的行为策略a、目标g及奖励r发送至智能优化模块；

所述智能优化模块用于存储所述交通控制模块传入的数据，并基于步骤3所选择的备选车辆集合AL和步骤4所提出的优化算法对匝道汇入多目标控制模型进行优化，并将优化后的模型传输至所述交通控制模块。