WO2023155231A1 - 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 - Google Patents

一种高度类人的自动驾驶营运车辆安全驾驶决策方法 Download PDF

Info

Publication number
WO2023155231A1
WO2023155231A1 PCT/CN2022/077923 CN2022077923W WO2023155231A1 WO 2023155231 A1 WO2023155231 A1 WO 2023155231A1 CN 2022077923 W CN2022077923 W CN 2022077923W WO 2023155231 A1 WO2023155231 A1 WO 2023155231A1
Authority
WO
WIPO (PCT)
Prior art keywords
driving
vehicle
decision
network
safe
Prior art date
Application number
PCT/CN2022/077923
Other languages
English (en)
French (fr)
Inventor
李旭
胡玮明
胡锦超
韦坤
徐启敏
Original Assignee
东南大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东南大学 filed Critical 东南大学
Publication of WO2023155231A1 publication Critical patent/WO2023155231A1/zh

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • Human-machine co-driving is the only way for the development of smart vehicles.
  • driving decisions determine the safety and rationality of autonomous driving of operating vehicles in the process of human-machine co-driving.
  • the ideal autonomous driving decision-making also needs to have certain "social intelligence" attributes, that is, to understand the reactions of surrounding human drivers in different situations and make corresponding "social intelligence” attributes. optimal” decision.
  • the existing autonomous driving strategies for commercial vehicles ignore the "social intelligence" in the driving logic, and the decision-making ability is difficult to match that of human drivers, resulting in a mismatch between autonomous vehicles and human drivers, and may even lead to the failure of autonomous vehicles.
  • the learning-based decision-making method is to obtain the optimal strategy in a certain traffic scene by simulating the driving behavior of an excellent driver. It is a type of method that is currently widely used. However, although the above two types of methods have made some progress, their research objects are mainly for small passenger vehicles, and have not involved the "human-like" driving decision-making research of large commercial vehicles.
  • the technical solution adopted in the present invention is: a highly human-like safe driving decision-making method for autonomous driving commercial vehicles.
  • the driving behavior of excellent drivers is simulated by using the generative confrontation imitation learning algorithm, and the near
  • the segment policy optimization algorithm and deep neural network are used to build generators and discriminators, and then a safe driving decision-making model with a high human-like level is established.
  • the safe driving decision-making model is trained to obtain safe driving strategies under different driving conditions, and the advanced decision-making output of autonomous driving commercial vehicles is realized. Specifically include the following steps:
  • Step 1 Construct an expert trajectory dataset representing the driving behavior of excellent drivers
  • ten excellent drivers drive commercial vehicles equipped with various sensors, including inertial navigation system, centimeter-level high-precision Global Positioning System (Global Positioning System, GPS) and millimeter-wave radar.
  • GPS Global Positioning System
  • millimeter-wave radar millimeter-wave radar
  • Step 2 Establish a highly human-like autonomous driving vehicle safety decision-making model
  • imitation learning is a learning method characterized by imitating the behavior of experts. This method is currently used in scenarios such as autonomous driving, robotics, and natural language processing. Therefore, the present invention uses the imitation learning method to learn the expert trajectory data set, that is, to simulate the driving behavior of an excellent driver.
  • GAIL Generative Adversarial Imitation Learning
  • Sub-step 1 Build the generator network
  • the present invention utilizes a proximal strategy optimization algorithm to construct a generator.
  • the state space consists of two parts: the motion state of the self-vehicle and the motion state of the surrounding vehicles.
  • the specific description is as follows:
  • S t represents the state space at time t
  • p x , p y represent the lateral position and longitudinal position of the self-vehicle respectively
  • v x , v y represent the lateral velocity and longitudinal velocity of the self-vehicle respectively, and the units are meters per second
  • a x , a y represent the lateral acceleration and longitudinal acceleration of the ego vehicle respectively, in meters per square second
  • ⁇ s represents the yaw rate of the ego vehicle, in radians per second
  • the present invention defines the action space covering both lateral and longitudinal driving strategies as:
  • a t [a 1 ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 ] (2)
  • R t represents the total reward function at time t
  • r 1 , r 2 , r 3 , r 4 , r 5 , and r 6 represent the forward collision avoidance reward function, the backward collision avoidance reward function, and the side collision avoidance function respectively.
  • the forward collision avoidance reward function is defined as:
  • Df represents the minimum forward safety distance in meters
  • ⁇ 1 represents the weight coefficient of the forward collision avoidance reward function
  • ⁇ TH is the headway
  • the unit is s
  • T is the data sampling frequency
  • the unit is second
  • L min is the critical distance
  • the unit is meter.
  • the backward collision avoidance reward function is defined as:
  • Db represents the minimum backward safety distance in meters
  • ⁇ 2 represents the weight coefficient of the reward function for backward collision avoidance
  • x rel_4 represents the relative distance between the ego vehicle and the rear vehicle in the current lane, in meters.
  • D s represents the minimum lateral safety distance in meters
  • ⁇ 3 represents the weight coefficient of the lateral collision avoidance reward function.
  • the anti-rollover reward function is defined as:
  • a thr represents the lateral acceleration threshold of the self-vehicle, and the unit is meter per square second, and ⁇ 4 represents the weight coefficient of the anti-rollover reward function.
  • the driving comfort reward function is defined as:
  • the penalty function is defined as:
  • the policy network takes state space information as input and outputs action decisions, that is, the driving strategy of autonomous driving commercial vehicles.
  • the review network takes state-space information and action decisions as input, and outputs the value of the current "state-action”. specifically:
  • the number of neurons in the state input layer is set to 25.
  • the activation functions of the fully connected layer F 1 and the fully connected layer F 2 are both S-type functions, and their expressions are
  • the number of neurons in the fully connected layer F 4 and the fully connected layer F 5 is set to 128 and 64 respectively, and the activation function of each layer is a sigmoid function.
  • Sub-step 2 Build the discriminator network
  • the discriminator takes the expert experience trajectory and the generator's strategy trajectory as input, and outputs the score P t ( ⁇ ) of the driving strategy by judging the difference between the generated driving strategy and the driving behavior of an excellent driver, so as to realize the optimization of the generator.
  • the present invention utilizes the deep neural network to build a discriminator.
  • a discriminator is built using a neural network with multiple fully connected layer structures.
  • Step 3 Train the safe driving decision-making model of autonomous driving commercial vehicles
  • the policy update process consists of two phases, the imitation learning phase and the reinforcement learning phase.
  • the discriminator optimizes the driving strategy output by the generator by scoring.
  • the discriminator optimizes the policy network based on the difference between the data generated by the network and the expert data.
  • the evaluation network guides the learning direction of the safe driving decision model according to the change of the reward function, and then realizes the optimization of the driving strategy output by the generator.
  • Sub-step 1 Initialize ⁇ E ⁇ ⁇ E , initialize policy parameter ⁇ 0 , value function parameter ⁇ 0 and discriminator parameter ⁇ 0 .
  • Sub-step 2 Carry out 20,000 iterative solutions, each iteration includes sub-step 2.1 to sub-step 2.5, specifically:
  • Sub-step 2.2 Sampling the expert trajectory, the sampled "trajectory-strategy distribution" can be expressed as
  • Sub-step 2.3 Utilize Gradients Update the network parameters of the discriminator
  • Sub-step 2.4 update policy network parameters
  • Sub-step 2.5 Utilize formula (12) to update value function parameters
  • ⁇ t+1 represents the value function parameter at time t+1
  • V ⁇ (S t ) represents the value function when the state space is S t
  • Sub-step 3 When the number of training iterations reaches 20,000, end the loop.
  • Sub-step 4 Use the safe driving decision-making model to output the decision-making strategy
  • the state space information collected by the sensor is input into the safe driving decision model, and advanced driving decisions such as steering, acceleration, and deceleration can be output reasonably and safely, realizing vehicle safety with a high human-like level Driving decision-making can effectively guarantee the driving safety of self-driving commercial vehicles.
  • the method proposed in the present invention can simulate the driving intentions of excellent human drivers, provide more reasonable and safe driving strategies for autonomous driving vehicles, and realize safe driving decisions for autonomous driving vehicles with a high human-like level, which can effectively Ensure the driving safety of vehicles.
  • the method proposed in the present invention does not need to consider complex vehicle dynamic equations and vehicle body parameters.
  • the calculation method is simple and clear, and can output the safe driving strategy of autonomous driving commercial vehicles in real time, and the cost of the sensors used is low, which is convenient for large-scale promotion.
  • Fig. 1 is a technical roadmap of the present invention
  • Fig. 2 is a schematic diagram of a strategy network designed by the present invention
  • Fig. 3 is a schematic diagram of the comment network designed by the present invention.
  • Fig. 4 is a schematic diagram of the discriminator network designed by the present invention.
  • Human-machine co-driving is the only way for the development of smart vehicles.
  • driving decisions determine the safety and rationality of autonomous driving of operating vehicles in the process of human-machine co-driving.
  • the ideal autonomous driving decision-making also needs to have certain "social intelligence" attributes, that is, to understand the reactions of surrounding human drivers in different situations and make corresponding "social intelligence” attributes. optimal” decision.
  • the existing autonomous driving strategies for commercial vehicles ignore the "social intelligence" in the driving logic, and the decision-making ability is difficult to match that of human drivers, resulting in a mismatch between autonomous vehicles and human drivers, and may even lead to the failure of autonomous vehicles.
  • the learning-based decision-making method is to obtain the optimal strategy in a certain traffic scene by simulating the driving behavior of an excellent driver. It is a type of method that is currently widely used. However, although the above two types of methods have made some progress, their research objects are mainly for small passenger vehicles, and have not involved the "human-like" driving decision-making research of large commercial vehicles.
  • the present invention proposes a safe driving decision-making method with a high human-like level for heavy goods vehicles, heavy trucks and other self-driving commercial vehicles.
  • First synchronous collection of multi-source information on driving behavior in typical traffic scenarios is carried out, and an expert trajectory data set representing the driving behavior of excellent drivers is constructed.
  • GAIL Generative Adversarial Imitation Learning
  • the near-segment strategy optimization algorithm and the deep neural network are used to build the generator and the discriminator, and then a safe driving decision-making model with a high human-like level is established.
  • the safe driving decision-making model is trained to obtain safe driving strategies under different driving conditions, and the advanced decision-making output of autonomous driving commercial vehicles is realized.
  • the method proposed by the present invention can simulate the driving intention of an excellent human driver, provide a more reasonable and safe driving strategy for the self-driving commercial vehicle, and can effectively guarantee the driving safety of the self-driving commercial vehicle.
  • Technical route of the present invention is as shown in Figure 1, and concrete steps are as follows:
  • Step 1 Construct an expert trajectory dataset representing the driving behavior of excellent drivers
  • Step 2 Establish a highly human-like autonomous driving vehicle safety decision-making model
  • Imitation learning mainly includes three types of methods: behavior cloning, reverse reinforcement learning and generative confrontation imitation learning.
  • behavior cloning is to learn the mapping from state to action from a large number of sample data through supervised learning. This type of method is relatively simple and effective in some scenarios, but it is always affected by state drift. Once it encounters a state that does not appear in the expert trajectory, it will produce a large error.
  • Inverse reinforcement learning is a method that learns a reward function from expert trajectories and uses this reward function for policy estimation. This type of method avoids the problem of single-step decision error accumulation in the behavioral cloning method, but there are shortcomings such as high computational cost and easy to cause overfitting.
  • GAIL Generative Adversarial Imitation Learning
  • the state space consists of two parts: the motion state of the self-vehicle and the motion state of the surrounding vehicles.
  • the specific description is as follows:
  • S t represents the state space at time t
  • p x , p y represent the lateral position and longitudinal position of the self-vehicle respectively
  • v x , v y represent the lateral velocity and longitudinal velocity of the self-vehicle respectively, and the units are meters per second
  • a x , a y represent the lateral acceleration and longitudinal acceleration of the ego vehicle respectively, in meters per square second
  • ⁇ s represents the yaw rate of the ego vehicle, in radians per second
  • a t [a 1 ,a 2 ,a 3 ,a 4 ,a 5 ,a 6 ] (2)
  • a t represents the action space at time t
  • a 1 , a 2 , a 3 represent turning left, going straight and turning right, respectively
  • a 4 , a 5 , a 6 represent acceleration, constant speed and deceleration, respectively.
  • R t represents the total reward function at time t
  • r 1 , r 2 , r 3 , r 4 , r 5 , and r 6 represent the forward collision avoidance reward function, the backward collision avoidance reward function, and the side collision avoidance function respectively.
  • the forward collision avoidance reward function is defined as:
  • Df represents the minimum forward safety distance in meters
  • ⁇ 1 represents the weight coefficient of the forward collision avoidance reward function
  • the present invention uses the headway to design a dynamic minimum forward safety distance, namely:
  • ⁇ TH is the headway
  • the unit is s
  • T is the data sampling frequency
  • the unit is second
  • L min is the critical distance
  • the unit is meter.
  • the backward collision avoidance reward function is defined as:
  • Db represents the minimum backward safety distance in meters
  • ⁇ 2 represents the weight coefficient of the reward function for backward collision avoidance
  • x rel_4 represents the relative distance between the ego vehicle and the rear vehicle in the current lane, in meters.
  • the lateral collision avoidance reward function is defined as:
  • D s represents the minimum lateral safety distance in meters
  • ⁇ 3 represents the weight coefficient of the lateral collision avoidance reward function.
  • the anti-rollover reward function is defined as:
  • a thr represents the lateral acceleration threshold of the self-vehicle, and the unit is meter per square second, and ⁇ 4 represents the weight coefficient of the anti-rollover reward function.
  • the driving comfort reward function is defined as:
  • the penalty function is defined as:
  • Sub-step 1.2 Build a generator network based on "actor-critic"
  • the policy network takes state space information as input and outputs action decisions, that is, the driving strategy of autonomous driving commercial vehicles.
  • the review network takes state-space information and action decisions as input, and outputs the value of the current "state-action”. specifically:
  • the policy network is established by using multiple neural networks with fully connected layer structure.
  • the specific network architecture is shown in Figure 2.
  • the normalized state quantity S t is sequentially input into the input layer F 1 , the fully connected layer F 2 and the fully connected layer F 3 to obtain the output O 1 , namely the action space A t .
  • the number of neurons in the state input layer is set to 25.
  • the activation functions of the fully connected layer F 1 and the fully connected layer F 2 are both S-type functions, and their expressions are
  • the evaluation network is established by using multiple neural networks with a fully connected layer structure.
  • the specific network architecture is shown in Figure 3. Input the normalized state quantity S t and action space A t to the fully connected layer F 4 and the fully connected layer F 5 in turn to obtain the output O 2 , which is the Q function value Q(S t ,A t ).
  • the number of neurons in the fully connected layer F 4 and the fully connected layer F 5 is set to 128 and 64 respectively, and the activation function of each layer is a sigmoid function.
  • Sub-step 2 Build the discriminator network
  • the discriminator takes the expert experience trajectory and the generator's strategy trajectory as input, and outputs the score P t ( ⁇ ) of the driving strategy by judging the difference between the generated driving strategy and the driving behavior of an excellent driver, so as to realize the optimization of the generator.
  • the present invention utilizes the deep neural network to build a discriminator.
  • Step 3 Train the safe driving decision-making model of autonomous driving commercial vehicles
  • the policy update process consists of two phases, the imitation learning phase and the reinforcement learning phase.
  • the discriminator optimizes the driving strategy output by the generator by scoring.
  • the discriminator optimizes the policy network based on the difference between the data generated by the network and the expert data.
  • the evaluation network guides the learning direction of the safe driving decision model according to the change of the reward function, and then realizes the optimization of the driving strategy output by the generator.
  • Sub-step 1 Initialize ⁇ E ⁇ ⁇ E , initialize policy parameter ⁇ 0 , value function parameter ⁇ 0 and discriminator parameter ⁇ 0 .
  • Sub-step 2 Carry out 20,000 iterative solutions, each iteration includes sub-step 2.1 to sub-step 2.5, specifically:
  • Sub-step 2.2 Sampling the expert trajectory, the sampled "trajectory-strategy distribution" can be expressed as
  • Sub-step 2.3 Utilize Gradients Update the network parameters of the discriminator
  • P t (S t , A t ) represents the output of the discriminator at time t, that is, the probability that the current trajectory is the expert trajectory, represents the average reward for generating driving trajectories, Indicates the gradient at time t, Indicates the average reward obtained by the expert trajectory;
  • Sub-step 2.4 update policy network parameters
  • Sub-step 2.5 Utilize formula (12) to update value function parameters
  • ⁇ t+1 represents the value function parameter at time t+1
  • V ⁇ (S t ) represents the value function when the state space is S t
  • Sub-step 3 When the number of training iterations reaches 20,000, end the loop.
  • Sub-step 4 Use the safe driving decision-making model to output the decision-making strategy
  • the state space information collected by the sensor is input into the safe driving decision model, and advanced driving decisions such as steering, acceleration, and deceleration can be output reasonably and safely, realizing vehicle safety with a high human-like level Driving decision-making can effectively guarantee the driving safety of self-driving commercial vehicles.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

一种高度类人的自动驾驶营运车辆安全驾驶决策方法,首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型;最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略。自动驾驶营运车辆安全驾驶决策方法能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。

Description

一种高度类人的自动驾驶营运车辆安全驾驶决策方法 技术领域
本发明涉及一种营运车辆驾驶决策方法,尤其是涉及一种高度类人的自动驾驶营运车辆安全驾驶决策方法,属于汽车安全技术领域。
背景技术
营运车辆是我国道路运输的主要承担者,同时也是群死群伤事故的肇事主体。据统计,我国每年因营运车辆肇事引发的一次死亡10人以上的特大交通事故,占全国道路交通重大事故总数的90%以上,这些事故严重威胁我国道路交通安全。为了显著提升交通安全性及运输效率,高级驾驶辅助甚至完全实现无人驾驶的营运车辆自动驾驶技术近年来受到了高度关注和发展。
人机共驾是智能车发展的必经之路,作为实现高品质自动驾驶的关键一环,驾驶决策决定了人机共驾过程中营运车辆自动驾驶的安全性与合理性。在实际交通环境下,理想的自动驾驶决策除了具备保障规避行车危险的能力外,还需具有一定的“社会智能”属性,即理解周围人类驾驶员在不同情况下的反应并做出相应的“最优”决策。然而,现有的营运车辆自动驾驶策略忽视了驾驶逻辑中的“社会智能”,决策能力难以与人类驾驶员相媲美,导致自动驾驶汽车与人类驾驶员的不匹配,甚至可能会引发自动驾驶车辆与人类驾驶车辆之间的冲突,输出的非类人化的危险驾驶策略将造成灾难性的后果。因此,在人机共驾环境下,如何学习优秀驾驶员的驾驶行为,构建具有高度类 人水平的安全驾驶决策策略,保障自动驾驶营运车辆的行车安全是当前需要解决的关键问题。
已有专利、文献对“类人”驾驶决策方法进行了研究,主要包括基于规则和基于学习的决策方法。其中,基于规则的决策方法是根据行驶规则、驾驶经验等信息建立驾驶策略规则库,根据车辆的行驶状态和规则库的策略进行驾驶决策。这类方法拥有清晰的决策意图,且具备较强的可解释性,但其难以遍历所有的交通场景和行驶工况,无法保证边缘交通场景下驾驶决策的鲁棒性和有效性。
基于学习的决策方法,是通过模拟优秀驾驶员的驾驶行为来获取某一交通场景下的最优策略,是目前应用较多的一类方法。然而,以上两类方法虽然取得了一定的进展,但其研究对象主要面向小型乘用车辆,未涉及大型营运车辆的“类人”驾驶决策研究。
不同于小型乘用车辆,大型营运车辆具有质心位置高、整车质量大、轮距窄等特点,导致其侧倾稳定性较差,若进行紧急制动、紧急变道、急转向等操作,极易失稳而发生侧翻。因此,人类驾驶员在驾驶大型营运车辆和小型乘用车辆时的驾驶行为和操作特性具有较大差异,且相比于小型乘用车辆仅关注防碰撞问题,大型营运车辆需同时兼顾碰撞防控、侧翻防控等多个方面。
总体而言,现有的针对小型乘用车辆的“类人”驾驶决策方法无法直接应用于营运车辆。针对自动驾驶营运车辆的安全驾驶决策研究相对匮乏,特别是在具有高度类人水平的车辆安全驾驶决策研究方面,目前仍处于空白状态。
发明内容
发明目的:为了实现具有高度类人水平的自动驾驶营运车辆安全驾驶决策,保障车辆行车安全,本发明针对重型货车、重型卡车等自动驾驶营运车辆,提出了一种高度类人的自动驾驶营运车辆安全驾驶决策方法。该方法能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。同时,该方法无需考虑复杂的车辆动力学方程和车身参数,计算方法简单清晰,可以实时输出自动驾驶营运车辆的安全驾驶策略,且使用的传感器成本较低,便于大规模推广。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种高度类人的自动驾驶营运车辆安全驾驶决策方法。首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出。具体包括以下步骤:
步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
为了构建具有高度类人水平的营运车辆安全驾驶决策策略,应学习不同行驶工况下优秀驾驶员的驾驶行为。首先,在时空全局统一坐 标系下,采集典型交通场景下的异源异质多传感器信息。其次,利用以上数据,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。
具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统(Global Positioning System,GPS)和毫米波雷达。
针对中国的道路行驶环境,在安全驾驶阶段,对优秀驾驶员的车道变换、车道保持、车辆跟驰、超车、加速、减速等各种典型驾驶行为进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:营运车辆(自车)的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度。
步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
随着车载计算单元计算能力的增强,基于学习的决策方法得到广泛的关注。其中的模仿学习是以仿效专家行为方式为特征的一种学习方法,该方法目前在自动驾驶、机器人、自然语言处理等场景中均有应用。因此,本发明利用模仿学习方法学习专家轨迹数据集,即模拟优秀驾驶员的驾驶行为。
生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)将强化学习和生成对抗网络的思想进行结合,通过直接从专家经验中学习策略的方式,避免了需要人为定义一个完备的奖励函数的困难,在提高驾驶决策的有效性和可靠性方面具有一定的优势。因此,本发明利用生成对抗模仿学习模拟优秀驾驶员的驾驶行 为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
子步骤1:建立生成器网络
为了学习不同行驶工况下的优秀驾驶行为,生成尽可能接近优秀驾驶员决策的驾驶策略,本发明利用近端策略优化算法构建生成器。
子步骤1.1:定义生成器网络的基本参数
(1)状态空间
状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
S t=[p x,p y,v x,v y,a x,a ys,d rel_j,v rel_j,a rel_j]         (1)
式中,S t表示t时刻的状态空间,p x,p y分别表示自车的横向位置和纵向位置;v x,v y分别表示自车的横向速度和纵向速度,单位均为米每秒;a x,a y分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ω s表示自车的横摆角速度,单位为弧度每秒;d rel_j,v rel_j,a rel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆。
(2)动作空间
为了输出具有明确决策意图的驾驶策略,本发明将涵盖横向和纵向驾驶策略的动作空间定义为:
A t=[a 1,a 2,a 3,a 4,a 5,a 6]           (2)
式中,A t表示t时刻的动作空间,a 1,a 2,a 3分别表示左转、直行和右转,a 4,a 5,a 6分别表示加速、速度保持不变和减速。
(3)奖励函数
为了评价每一时刻驾驶策略的优劣,引导生成器输出更为合理、安全的驾驶策略,应构建合理、全面的奖励函数。考虑到安全驾驶决策的本质是涉及防碰撞、防侧翻、驾驶平顺性等因素的多目标优化问题,本发明将奖励函数设计为:
R t=r 1+r 2+r 3+r 4+r 5+r 6           (3)
式中,R t表示t时刻的总奖励函数,r 1,r 2,r 3,r 4,r 5,r 6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数。
首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距。为此,将前向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000001
式中,D f表示最小前向安全间距,单位为米,α 1表示前向防撞奖励函数的权重系数。
考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,本发明利用车头时距设计了动态的最小前向安全间距,即:
D f=v y·β TH+|v y-v rel_1|·T+L min        (5)
式中,β TH为车头时距,单位为s,T为数据采样频率,单位为秒,L min为临界距离,单位为米。
类似地,为了避免发生后向碰撞,自车应与同车道的后方车辆保 持合理的安全间距。为此,将后向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000002
式中,D b表示最小后向安全间距,单位为米,α 2表示后向防撞奖励函数的权重系数,x rel_4表示自车与当前车道的后方车辆的相对间距,单位为米。
为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距。为此,将侧向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000003
式中,D s表示最小侧向安全间距,单位为米,且
Figure PCTCN2022077923-appb-000004
α 3表示侧向防撞奖励函数的权重系数。
其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故。为此,将防侧翻奖励函数定义为:
Figure PCTCN2022077923-appb-000005
式中,a thr表示自车的侧向加速度阈值,单位为米每二次方秒,α 4表示防侧翻奖励函数的权重系数。
再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数定义为:
Figure PCTCN2022077923-appb-000006
式中,
Figure PCTCN2022077923-appb-000007
分别表示自车的横向急动度和纵向急动度,单位为米 每三次方秒,α 56表示驾驶平顺性奖励函数的权重系数。
最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数定义为:
Figure PCTCN2022077923-appb-000008
子步骤1.2:搭建基于“演员-评论家”的生成器网络
利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分。其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略。评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值。具体地:
(1)设计生成器中的策略网络部分
利用多个全连接层结构的神经网络建立策略网络,首先,将归一化后的状态量S t依次输入到输入层F 1、全连接层F 2和全连接层F 3,得到输出O 1,即动作空间A t
考虑到状态空间的维度为25,设置状态输入层的神经元数量为25。设置全连接层F 1和全连接层F 2层的神经元数量分别为128和64。全连接层F 1和全连接层F 2的激活函数均为S型函数,其表达式为
Figure PCTCN2022077923-appb-000009
(2)设计生成器中的评价网络部分
利用多个全连接层结构的神经网络建立评价网络,将归一化后的状态量S t和动作空间A t依次输入到全连接层F 4和全连接层F 5后得到输出O 2,即Q函数值Q(S t,A t)。
设置全连接层F 4和全连接层F 5的神经元数量分别为128和64,各层的激活函数均为S型函数。
子步骤2:建立判别器网络
判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分P t(τ),从而实现对生成器的优化。考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,本发明利用深度神经网络构建判别器。
具体而言,利用多个全连接层结构的神经网络建立判别器。判别器包含F 6、F 7和F 8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为f(x)=max(0,x)。
步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新。策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段。
在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化。在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化。具体的参数更新方法如下:
子步骤1:初始化τ E~π E,初始化策略参数θ 0、值函数参数φ 0和判别器参数ω 0
其中,τ E表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τ E={(S 1,A 1,R 1),(S 2,A 2,R 2),...,(S n,A n,R n)};π E表示专家轨迹τ E对应的驾驶策略分布。
子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
子步骤2.1:利用策略网络生成驾驶轨迹τ′ E,形成的轨迹集合可表示为P t={τ′ E};
子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”可表示为
Figure PCTCN2022077923-appb-000010
子步骤2.3:利用梯度
Figure PCTCN2022077923-appb-000011
更新判别器的网络参数;
Figure PCTCN2022077923-appb-000012
式中,P t(S t,A t)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,
Figure PCTCN2022077923-appb-000013
表示生成驾驶轨迹的平均奖励,
Figure PCTCN2022077923-appb-000014
表示t时刻的梯度,
Figure PCTCN2022077923-appb-000015
表示专家轨迹获得的平均奖励;
子步骤2.4:更新策略网络参数;
子步骤2.5:利用式(12)更新值函数参数;
Figure PCTCN2022077923-appb-000016
式中,φ t+1表示t+1时刻的值函数参数,V φ(S t)表示状态空间为S t时的值函数,
Figure PCTCN2022077923-appb-000017
表示t时刻待执行的奖励函数。
子步骤3:当训练迭代次数达到2万次时,结束循环。
子步骤4:利用安全驾驶决策模型输出决策策略
当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息 输入到安全驾驶决策模型中,可以合理、安全地输出转向、加速、减速等高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,可以有效保障自动驾驶营运车辆的行车安全。
有益效果:相比于一般的驾驶决策方法,本发明提出的方法具有更为有效、可靠的特点,具体体现在:
(1)本发明提出的方法能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,实现了具有高度类人水平的自动驾驶营运车辆安全驾驶决策,可以有效保障车辆的行车安全。
(2)本发明提出的方法综合考虑了前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,且安全距离门限在线可调,实现了不同驾驶工况下的安全驾驶决策,进一步提高了决策的有效性和可靠性。
(3)本发明提出的方法无需考虑复杂的车辆动力学方程和车身参数,计算方法简单清晰,可以实时输出自动驾驶营运车辆的安全驾驶策略,且使用的传感器成本较低,便于大规模推广。
附图说明
图1是本发明的技术路线图;
图2是本发明设计的策略网络示意图;
图3是本发明设计的评论网络示意图;
图4是本发明设计的判别器网络示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
营运车辆是我国道路运输的主要承担者,同时也是群死群伤事故的肇事主体。据统计,我国每年因营运车辆肇事引发的一次死亡10人以上的特大交通事故,占全国道路交通重大事故总数的90%以上,这些事故严重威胁我国道路交通安全。为了显著提升交通安全性及运输效率,高级驾驶辅助甚至完全实现无人驾驶的营运车辆自动驾驶技术近年来受到了高度关注和发展。
人机共驾是智能车发展的必经之路,作为实现高品质自动驾驶的关键一环,驾驶决策决定了人机共驾过程中营运车辆自动驾驶的安全性与合理性。在实际交通环境下,理想的自动驾驶决策除了具备保障规避行车危险的能力外,还需具有一定的“社会智能”属性,即理解周围人类驾驶员在不同情况下的反应并做出相应的“最优”决策。然而,现有的营运车辆自动驾驶策略忽视了驾驶逻辑中的“社会智能”,决策能力难以与人类驾驶员相媲美,导致自动驾驶汽车与人类驾驶员的不匹配,甚至可能会引发自动驾驶车辆与人类驾驶车辆之间的冲突,输出的非类人化的危险驾驶策略将造成灾难性的后果。因此,在人机共驾环境下,如何学习优秀驾驶员的驾驶行为,构建具有高度类人水平的安全驾驶决策策略,保障自动驾驶营运车辆的行车安全是当前需要解决的关键问题。
已有专利、文献对“类人”驾驶决策方法进行了研究,主要包括基于规则和基于学习的决策方法。其中,基于规则的决策方法是根据行驶规则、驾驶经验等信息建立驾驶策略规则库,根据车辆的行驶状态和规则库的策略进行驾驶决策。这类方法拥有清晰的决策意图,且具备较强的可解释性,但其难以遍历所有的交通场景和行驶工况,无法保证边缘交通场景下驾驶决策的鲁棒性和有效性。
基于学习的决策方法,是通过模拟优秀驾驶员的驾驶行为来获取某一交通场景下的最优策略,是目前应用较多的一类方法。然而,以上两类方法虽然取得了一定的进展,但其研究对象主要面向小型乘用车辆,未涉及大型营运车辆的“类人”驾驶决策研究。
不同于小型乘用车辆,大型营运车辆具有质心位置高、整车质量大、轮距窄等特点,导致其侧倾稳定性较差,若进行紧急制动、紧急变道、急转向等操作,极易失稳而发生侧翻。因此,人类驾驶员在驾驶大型营运车辆和小型乘用车辆时的驾驶行为和操作特性具有较大差异,且相比于小型乘用车辆仅关注防碰撞问题,大型营运车辆需同时兼顾碰撞防控、侧翻防控等多个方面。
总体而言,现有的针对小型乘用车辆的“类人”驾驶决策方法无法直接应用于营运车辆。针对自动驾驶营运车辆的安全驾驶决策研究相对匮乏,特别是在具有高度类人水平的车辆安全驾驶决策研究方面,目前仍处于空白状态。
为了解决以上问题,本发明针对重型货车、重型卡车等自动驾驶营运车辆,提出了一种具有高度类人水平的安全驾驶决策方法。首先, 进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法(Generative Adversarial Imitation Learning,GAIL)模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型。最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出。本发明提出的方法,能够模拟人类优秀驾驶员的驾驶意图,为自动驾驶营运车辆提供更加合理、安全的驾驶策略,可以有效保障自动驾驶营运车辆的行车安全。本发明的技术路线如图1所示,具体步骤如下:
步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
为了构建具有高度类人水平的营运车辆安全驾驶决策策略,应学习不同行驶工况下优秀驾驶员的驾驶行为。首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息。其次,利用以上数据,构建表征优秀驾驶员驾驶行为的专家轨迹数据集。
具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统(Global Positioning System,GPS)和毫米波雷达。
针对中国的道路行驶环境,在安全驾驶阶段,对优秀驾驶员的车道变换、车道保持、车辆跟驰、超车、加速、减速等各种典型驾驶行 为进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:营运车辆(自车)的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度。
步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
随着车载计算单元计算能力的增强,基于学习的决策方法得到广泛的关注。其中的模仿学习是以仿效专家行为方式为特征的一种学习方法,该方法目前在自动驾驶、机器人、自然语言处理等场景中均有应用。因此,本发明利用模仿学习方法学习专家轨迹数据集,即模拟优秀驾驶员的驾驶行为。
模仿学习主要包括行为克隆、逆向强化学习和生成对抗模仿学习三类方法。其中,行为克隆是通过监督学习的方式,从大量样本数据中学习状态到动作的映射。这类方法较为简单并且在有些场景下很有效,但是始终受到状态漂移的影响,一旦遇到没有在专家轨迹中出现的状态将会产生很大的误差。逆向强化学习是通过从专家轨迹中学习回报函数,并利用该回报函数进行策略估计的一种方法。这类方法避免了行为克隆方法中单步决策误差累计的问题,但存在着计算成本过高、易造成过拟合等不足。
生成对抗模仿学习(Generative Adversarial Imitation Learning,GAIL)将强化学习和生成对抗网络的思想进行结合,通过直接从专家经验中学习策略的方式,避免了需要人为定义一个完备的奖励函数的困难,在提高驾驶决策的有效性和可靠性方面具有一定的 优势。因此,本发明利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
子步骤1:建立生成器网络
为了学习不同行驶工况下的优秀驾驶行为,生成尽可能接近优秀驾驶员决策的驾驶策略,本发明采用深度强化学习算法构建生成器。考虑到其中的近端策略优化算法(Proximal Policy Optimization,PPO)结合了优势动作评论算法(Advantage Actor Critic,A2C)和信赖域策略优化算法(Trust Region Policy Optimization,TRPO)的优势,并通过剪辑的方法避免过大的更新,能够有效提高生成器网络的收敛速度和稳定性。因此,本发明利用PPO算法构建生成器。
子步骤1.1:定义生成器网络的基本参数
(1)状态空间
状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
S t=[p x,p y,v x,v y,a x,a ys,d rel_j,v rel_j,a rel_j]         (1)
式中,S t表示t时刻的状态空间,p x,p y分别表示自车的横向位置和纵向位置;v x,v y分别表示自车的横向速度和纵向速度,单位均为米每秒;a x,a y分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ω s表示自车的横摆角速度,单位为弧度每秒;d rel_j,v rel_j,a rel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车 辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆。
(2)动作空间
为了输出具有明确决策意图的驾驶策略,本发明将涵盖横向和纵向驾驶策略的动作空间定义为:
A t=[a 1,a 2,a 3,a 4,a 5,a 6]           (2)
式中,A t表示t时刻的动作空间,a 1,a 2,a 3分别表示左转、直行和右转,a 4,a 5,a 6分别表示加速、速度保持不变和减速。
(3)奖励函数
为了评价每一时刻驾驶策略的优劣,引导生成器输出更为合理、安全的驾驶策略,应构建合理、全面的奖励函数。考虑到安全驾驶决策的本质是涉及防碰撞、防侧翻、驾驶平顺性等因素的多目标优化问题,本发明将奖励函数设计为:
R t=r 1+r 2+r 3+r 4+r 5+r 6        (3)
式中,R t表示t时刻的总奖励函数,r 1,r 2,r 3,r 4,r 5,r 6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数。
首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距。为此,将前向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000018
式中,D f表示最小前向安全间距,单位为米,α 1表示前向防撞奖励函数的权重系数。
考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,本发明利用车头时距设计了动态的最小前向安全间距,即:
D f=v y·β TH+|v y-v rel_1|·T+L min           (5)
式中,β TH为车头时距,单位为s,T为数据采样频率,单位为秒,L min为临界距离,单位为米。
类似地,为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距。为此,将后向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000019
式中,D b表示最小后向安全间距,单位为米,α 2表示后向防撞奖励函数的权重系数,x rel_4表示自车与当前车道的后方车辆的相对间距,单位为米。
为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距。为此,将侧向防撞奖励函数定义为:
Figure PCTCN2022077923-appb-000020
式中,D s表示最小侧向安全间距,单位为米,且
Figure PCTCN2022077923-appb-000021
α 3表示侧向防撞奖励函数的权重系数。
其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故。为此,将防侧翻奖励函数定义为:
Figure PCTCN2022077923-appb-000022
式中,a thr表示自车的侧向加速度阈值,单位为米每二次方秒,α 4表示防侧翻奖励函数的权重系数。
再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数定义为:
Figure PCTCN2022077923-appb-000023
式中,
Figure PCTCN2022077923-appb-000024
分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α 56表示驾驶平顺性奖励函数的权重系数。
最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数定义为:
Figure PCTCN2022077923-appb-000025
子步骤1.2:搭建基于“演员-评论家”的生成器网络
利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分。其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略。评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值。具体地:
(1)设计生成器中的策略网络部分
利用多个全连接层结构的神经网络建立策略网络,具体的网络架构如图2所示。首先,将归一化后的状态量S t依次输入到输入层F 1、全连接层F 2和全连接层F 3,得到输出O 1,即动作空间A t
考虑到状态空间的维度为25,设置状态输入层的神经元数量为25。设置全连接层F 1和全连接层F 2层的神经元数量分别为128和64。 全连接层F 1和全连接层F 2的激活函数均为S型函数,其表达式为
Figure PCTCN2022077923-appb-000026
(2)设计生成器中的评价网络部分
利用多个全连接层结构的神经网络建立评价网络,具体的网络架构如图3所示。将归一化后的状态量S t和动作空间A t依次输入到全连接层F 4和全连接层F 5后得到输出O 2,即Q函数值Q(S t,A t)。
设置全连接层F 4和全连接层F 5的神经元数量分别为128和64,各层的激活函数均为S型函数。
子步骤2:建立判别器网络
判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分P t(τ),从而实现对生成器的优化。考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,本发明利用深度神经网络构建判别器。
具体而言,利用多个全连接层结构的神经网络建立判别器。如图4所示,判别器包含F 6、F 7和F 8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为f(x)=max(0,x)。
步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新。策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段。
在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策 略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化。在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化。具体的参数更新方法如下:
子步骤1:初始化τ E~π E,初始化策略参数θ 0、值函数参数φ 0和判别器参数ω 0
其中,τ E表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹数据集,且τ E={(S 1,A 1,R 1),(S 2,A 2,R 2),...,(S n,A n,R n)};π E表示专家轨迹τ E对应的驾驶策略分布。
子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
子步骤2.1:利用策略网络生成驾驶轨迹τ′ E,形成的轨迹集合可表示为P t={τ′ E};
子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”可表示为
Figure PCTCN2022077923-appb-000027
子步骤2.3:利用梯度
Figure PCTCN2022077923-appb-000028
更新判别器的网络参数;
Figure PCTCN2022077923-appb-000029
式中,P t(S t,A t)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,
Figure PCTCN2022077923-appb-000030
表示生成驾驶轨迹的平均奖励,
Figure PCTCN2022077923-appb-000031
表示t时刻的梯度,
Figure PCTCN2022077923-appb-000032
表示专家轨迹获得的平均奖励;
子步骤2.4:更新策略网络参数;
子步骤2.5:利用式(12)更新值函数参数;
Figure PCTCN2022077923-appb-000033
式中,φ t+1表示t+1时刻的值函数参数,V φ(S t)表示状态空间为S t时的值函数,
Figure PCTCN2022077923-appb-000034
表示t时刻待执行的奖励函数。
子步骤3:当训练迭代次数达到2万次时,结束循环。
子步骤4:利用安全驾驶决策模型输出决策策略
当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入到安全驾驶决策模型中,可以合理、安全地输出转向、加速、减速等高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,可以有效保障自动驾驶营运车辆的行车安全。

Claims (1)

  1. 一种高度类人的自动驾驶营运车辆安全驾驶决策方法,首先,进行典型交通场景下驾驶行为的多源信息同步采集,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;其次,综合考虑前向碰撞、后向碰撞、侧向碰撞、车辆侧倾稳定性和驾驶平顺性等因素对行车安全的影响,利用生成对抗模仿学习算法模拟优秀驾驶员的驾驶行为,分别采用近段策略优化算法和深度神经网络构建生成器和判别器,进而建立具有高度类人水平的安全驾驶决策模型;最后,对安全驾驶决策模型进行训练,得到不同行驶工况下的安全驾驶策略,实现了自动驾驶营运车辆的高级决策输出;其特征在于:该方法具体包括如下步骤:
    步骤一:构建表征优秀驾驶员驾驶行为的专家轨迹数据集
    首先,在时空全局统一坐标系下,采集典型交通场景下的异源异质多传感器信息;其次,利用采集到的多传感器信息,构建表征优秀驾驶员驾驶行为的专家轨迹数据集;
    具体而言,由十位优秀驾驶员驾驶安装多种传感器的营运车辆,其中,所安装的传感器包括惯性导航系统、厘米级高精度全球定位系统和毫米波雷达;
    在安全驾驶阶段,对优秀驾驶员的各种典型驾驶行为包括车道变换、车道保持、车辆跟驰、超车、加速、减速进行数据采集和处理,获取各类驾驶行为的异源异质描述数据,包括:自车车辆的位置信息、速度信息、加速度信息、横摆角速度、方向盘转角、油门踏板开度、制动踏板开度、与周围车辆的相对距离、相对速度和相对加速度;
    步骤二:建立高度类人的自动驾驶营运车辆安全决策模型
    利用生成对抗模仿学习模拟优秀驾驶员的驾驶行为,并构建自动驾驶营运车辆安全驾驶决策模型,具体步骤如下:
    子步骤1:建立生成器网络
    采用近端策略优化算法构建生成器;
    子步骤1.1:定义生成器网络的基本参数
    (1)状态空间
    状态空间由自车的运动状态和周围车辆的运动状态两部分组成,具体描述如下:
    S t=[p x,p y,v x,v y,a x,a ys,d rel_j,v rel_j,a rel_j]     (1)
    式中,S t表示t时刻的状态空间,p x,p y分别表示自车的横向位置和纵向位置;v x,v y分别表示自车的横向速度和纵向速度,单位均为米每秒;a x,a y分别表示自车的横向加速度和纵向加速度,单位为米每二次方秒;ω s表示自车的横摆角速度,单位为弧度每秒;d rel_j,v rel_j,a rel_j分别表示自车与第j辆车的相对距离、相对速度和相对加速度,单位分别为米、米每秒、米每二次方秒,其中,j表示周围车辆的序号,且j=1,2,3,4,5,6,分别表示当前车道的前方车辆、当前车道的后方车辆、左侧车道的前方车辆、左侧车道的后方车辆、右侧车道的前方车辆和右侧车道的后方车辆;
    (2)动作空间
    将涵盖横向和纵向驾驶策略的动作空间定义为:
    A t=[a 1,a 2,a 3,a 4,a 5,a 6]        (2)
    式中,A t表示t时刻的动作空间,a 1,a 2,a 3分别表示左转、直行和右转,a 4,a 5,a 6分别表示加速、速度保持不变和减速;
    (3)奖励函数
    将奖励函数设计为:
    R t=r 1+r 2+r 3+r 4+r 5+r 6         (3)
    式中,R t表示t时刻的总奖励函数,r 1,r 2,r 3,r 4,r 5,r 6分别表示前向防撞奖励函数、后向防撞奖励函数、侧向防撞奖励函数、防侧翻奖励函数、驾驶平顺性奖励函数和惩罚函数;
    首先,为了避免发生前向碰撞,自车应与同车道的前方车辆保持合理的安全间距;此,将前向防撞奖励函数r 1定义为:
    Figure PCTCN2022077923-appb-100001
    式中,D f表示最小前向安全间距,单位为米,α 1表示前向防撞奖励函数的权重系数,x rel_1表示自车与当前车道前方车辆的相对间距,单位为米;
    考虑到合理的最小安全间距应同时兼顾通行效率和行车安全,利用车头时距设计了动态的最小前向安全间距,即:
    D f=v y·β TH+|v y-v rel_1|·T+L min     (5)
    式中,β TH为车头时距,单位为s,T为数据采样频率,单位为秒,L min为临界距离,单位为米;
    为了避免发生后向碰撞,自车应与同车道的后方车辆保持合理的安全间距;为此,将后向防撞奖励函数r 2定义为:
    Figure PCTCN2022077923-appb-100002
    式中,D b表示最小后向安全间距,单位为米,α 2表示后向防撞奖励函数的权重系数,x rel_2表示自车与当前车道的后方车辆的相对间距,单位为米;
    为了避免发生侧向碰撞,自车应与左侧车道和右侧车道的车辆保持合理的安全间距;此,将侧向防撞奖励函数r 3定义为:
    Figure PCTCN2022077923-appb-100003
    式中,D s表示最小侧向安全间距,单位为米,且
    Figure PCTCN2022077923-appb-100004
    α 3表示侧向防撞奖励函数的权重系数;
    其次,在弯道行驶、制动减速和车道变换过程中,自车应保持合理的侧向加速度,避免发生侧翻事故;此,将防侧翻奖励函数r 4定义为:
    Figure PCTCN2022077923-appb-100005
    式中,a thr表示自车的侧向加速度阈值,单位为米每二次方秒,α 4表示防侧翻奖励函数的权重系数;
    再次,考虑到合理的安全驾驶决策在保证行车安全的同时,还应具有较好的驾驶平顺性和舒适性,将驾驶平顺性奖励函数r 5定义为:
    Figure PCTCN2022077923-appb-100006
    式中,
    Figure PCTCN2022077923-appb-100007
    分别表示自车的横向急动度和纵向急动度,单位为米每三次方秒,α 56表示驾驶平顺性奖励函数的权重系数;
    最后,通过施加负反馈的方式,规避导致碰撞和侧翻事故的驾驶策略,将惩罚函数r 6定义为:
    Figure PCTCN2022077923-appb-100008
    子步骤1.2:搭建基于“演员-评论家”的生成器网络
    利用“演员-评论家”框架搭建生成器网络,包括策略网络和评论网络两部分;其中,策略网络将状态空间信息作为输入,输出动作决策,即自动驾驶营运车辆的驾驶策略;评论网络将状态空间信息和动作决策作为输入,输出当前“状态-动作”的价值;具体地:
    (1)设计生成器中的策略网络部分
    利用多个全连接层结构的神经网络建立策略网络,首先,将归一化后的状态量S t依次输入到输入层F 1、全连接层F 2和全连接层F 3,得到输出O 1,即动作空间A t
    考虑到状态空间的维度为25,设置状态输入层的神经元数量为25;设置全连接层F 1和全连接层F 2层的神经元数量分别为128和64;连接层F 1和全连接层F 2的激活函数均为S型函数,其表达式为
    Figure PCTCN2022077923-appb-100009
    (2)设计生成器中的评价网络部分
    利用多个全连接层结构的神经网络建立评价网络,将归一化后的状态量S t和动作空间A t依次输入到全连接层F 4和全连接层F 5后得到输出O 2,即Q函数值Q(S t,A t);
    设置全连接层F 4和全连接层F 5的神经元数量分别为128和64, 各层的激活函数均为S型函数;
    子步骤2:建立判别器网络
    判别器将专家经验轨迹和生成器的策略轨迹作为输入,通过判断生成的驾驶策略与优秀驾驶员驾驶行为的差别,输出驾驶策略的得分P t(τ),从而实现对生成器的优化;考虑到深度神经网络具有强大的非线性拟合能力、高维度数据的处理能力和特征提取能力,本发明利用深度神经网络构建判别器;
    具体而言,利用多个全连接层结构的神经网络建立判别器;判别器包含F 6、F 7和F 8三个全连接层,每个全连接层的激励函数均采用线性整流函数,其表达式为f(x)=max(0,x);
    步骤三:训练自动驾驶营运车辆的安全驾驶决策模型
    为了最大化与策略参数相关的累积回报,利用GAIL算法对安全驾驶决策模型的参数进行更新;策略更新过程包括两个阶段,即模仿学习阶段和强化学习阶段;
    在模仿学习阶段,判别器通过打分的方式对生成器输出的驾驶策略进行优化,同时,判别器将网络生成的数据与专家数据之间的差别作为依据对策略网络进行优化;在强化学习阶段,评价网络根据奖励函数的变化引导安全驾驶决策模型的学习方向,进而实现对生成器输出的驾驶策略的优化;具体的参数更新方法如下:
    子步骤1:初始化τ E~π E,初始化策略参数θ 0、值函数参数φ 0和判别器参数ω 0
    其中,τ E表示步骤一构建的表征优秀驾驶员驾驶行为的专家轨迹 数据集,且τ E={(S 1,A 1,R 1),(S 2,A 2,R 2),...,(S n,A n,R n)},n表示专家轨迹的数量;π E表示专家轨迹τ E对应的驾驶策略分布;
    子步骤2:进行2万次迭代求解,每一次迭代包括子步骤2.1至子步骤2.5,具体地:
    子步骤2.1:利用策略网络生成驾驶轨迹τ′ E,形成的轨迹集合P t表示为P t={τ′ E};
    子步骤2.2:对专家轨迹进行采样,采样后的“轨迹-策略分布”表示为
    Figure PCTCN2022077923-appb-100010
    其中,τ i表示i时刻采样的专家轨迹,
    Figure PCTCN2022077923-appb-100011
    表示i时刻采样的专家轨迹对应的策略;
    子步骤2.3:利用梯度
    Figure PCTCN2022077923-appb-100012
    更新判别器的网络参数;
    Figure PCTCN2022077923-appb-100013
    式中,P t(S t,A t)表示判别器在t时刻的输出,即当前轨迹是专家轨迹的概率,
    Figure PCTCN2022077923-appb-100014
    表示生成驾驶轨迹的平均奖励,
    Figure PCTCN2022077923-appb-100015
    表示t时刻的梯度,
    Figure PCTCN2022077923-appb-100016
    表示专家轨迹获得的平均奖励;
    子步骤2.4:更新策略网络参数;
    子步骤2.5:利用式(12)更新值函数参数;
    Figure PCTCN2022077923-appb-100017
    式中,φ t+1表示t+1时刻的值函数参数,V φ(S t)表示状态空间为S t时的值函数,
    Figure PCTCN2022077923-appb-100018
    表示t时刻待执行的奖励函数;
    子步骤3:当训练迭代次数达到2万次时,结束循环;
    子步骤4:利用安全驾驶决策模型输出决策策略
    当安全驾驶决策模型训练完成后,将传感器采集的状态空间信息输入 到安全驾驶决策模型中,可以合理、安全地输出转向、加速、减速等高级驾驶决策,实现了具有高度类人水平的车辆安全驾驶决策,可以有效保障自动驾驶营运车辆的行车安全。
PCT/CN2022/077923 2022-02-21 2022-02-25 一种高度类人的自动驾驶营运车辆安全驾驶决策方法 WO2023155231A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210158758.2 2022-02-21
CN202210158758.2A CN114407931B (zh) 2022-02-21 2022-02-21 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Publications (1)

Publication Number Publication Date
WO2023155231A1 true WO2023155231A1 (zh) 2023-08-24

Family

ID=81260816

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/077923 WO2023155231A1 (zh) 2022-02-21 2022-02-25 一种高度类人的自动驾驶营运车辆安全驾驶决策方法

Country Status (2)

Country Link
CN (1) CN114407931B (zh)
WO (1) WO2023155231A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273225A (zh) * 2023-09-26 2023-12-22 西安理工大学 一种基于时空特征的行人路径预测方法
CN117371299A (zh) * 2023-12-08 2024-01-09 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117636270A (zh) * 2024-01-23 2024-03-01 南京理工大学 基于单目摄像头的车辆抢道事件识别方法及设备
CN117922576B (zh) * 2024-03-22 2024-05-17 山东科技大学 一种基于数据和知识双驱动的自动驾驶车辆换道决策方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN114863708B (zh) * 2022-05-09 2023-04-18 东南大学 一种面向营运车辆的道路合流区路侧实时精准诱导方法
AT526259A1 (de) * 2022-06-23 2024-01-15 Avl List Gmbh Verfahren zum Trainieren eines künstlichen neuronalen Netzes eines Fahrermodells
CN115440041B (zh) * 2022-09-02 2023-05-30 东南大学 一种路侧视角下的重点车辆驾驶行为预测方法
CN117077753B (zh) * 2023-07-17 2024-03-19 华中科技大学 类脑智能驾驶控制模型升级方法及类脑智能驾驶方法
CN116946162B (zh) * 2023-09-19 2023-12-15 东南大学 考虑路面附着条件的智能网联商用车安全驾驶决策方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
US10803324B1 (en) * 2017-01-03 2020-10-13 Waylens, Inc. Adaptive, self-evolving learning and testing platform for self-driving and real-time map construction
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN113753026A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法
CN113753034A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN113954837A (zh) * 2021-11-06 2022-01-21 交通运输部公路科学研究所 一种基于深度学习的大型营运车辆车道变换决策方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111483468B (zh) * 2020-04-24 2021-09-07 广州大学 基于对抗模仿学习的无人驾驶车辆换道决策方法和系统
CN113835421B (zh) * 2020-06-06 2023-12-15 华为技术有限公司 训练驾驶行为决策模型的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803324B1 (en) * 2017-01-03 2020-10-13 Waylens, Inc. Adaptive, self-evolving learning and testing platform for self-driving and real-time map construction
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
US11205124B1 (en) * 2020-12-04 2021-12-21 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112622886A (zh) * 2020-12-20 2021-04-09 东南大学 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN112633474A (zh) * 2020-12-20 2021-04-09 东南大学 一种重型营运车辆的后向防撞驾驶决策方法
CN113753026A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防侧翻决策方法
CN113753034A (zh) * 2021-10-21 2021-12-07 东南大学 一种考虑路面附着条件的大型营运车辆防碰撞决策方法
CN113954837A (zh) * 2021-11-06 2022-01-21 交通运输部公路科学研究所 一种基于深度学习的大型营运车辆车道变换决策方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117273225A (zh) * 2023-09-26 2023-12-22 西安理工大学 一种基于时空特征的行人路径预测方法
CN117273225B (zh) * 2023-09-26 2024-05-03 西安理工大学 一种基于时空特征的行人路径预测方法
CN117371299A (zh) * 2023-12-08 2024-01-09 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117371299B (zh) * 2023-12-08 2024-02-27 安徽大学 一种托卡马克新经典环向粘滞力矩的机器学习方法
CN117636270A (zh) * 2024-01-23 2024-03-01 南京理工大学 基于单目摄像头的车辆抢道事件识别方法及设备
CN117636270B (zh) * 2024-01-23 2024-04-09 南京理工大学 基于单目摄像头的车辆抢道事件识别方法及设备
CN117922576B (zh) * 2024-03-22 2024-05-17 山东科技大学 一种基于数据和知识双驱动的自动驾驶车辆换道决策方法

Also Published As

Publication number Publication date
CN114407931B (zh) 2024-05-03
CN114407931A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
WO2023155231A1 (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
Huang et al. Path planning and cooperative control for automated vehicle platoon using hybrid automata
Huang et al. Personalized trajectory planning and control of lane-change maneuvers for autonomous driving
CN113291308B (zh) 一种考虑驾驶行为特性的车辆自学习换道决策系统及方法
Huang et al. Toward safe and personalized autonomous driving: Decision-making and motion control with DPF and CDT techniques
CN112622886B (zh) 一种综合考虑前后障碍物的重型营运车辆防碰撞预警方法
CN104881030B (zh) 基于快速终端滑模原理的无人车侧纵向耦合跟踪控制方法
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN112389436B (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN112233413B (zh) 一种面向智能网联车辆的多车道时空轨迹优化方法
CN108717268A (zh) 基于最优控制与安全距离的自动驾驶最速操纵控制系统及其控制方法
Hang et al. Driving conflict resolution of autonomous vehicles at unsignalized intersections: A differential game approach
WO2021244207A1 (zh) 训练驾驶行为决策模型的方法及装置
Yang et al. A less-disturbed ecological driving strategy for connected and automated vehicles
Wang et al. Vehicle trajectory prediction by knowledge-driven LSTM network in urban environments
CN111899509B (zh) 一种基于车路信息耦合的智能网联汽车状态向量计算方法
CN113255998A (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN115257789A (zh) 城市低速环境下的营运车辆侧向防撞驾驶决策方法
Hou et al. Autonomous driving at the handling limit using residual reinforcement learning
Guan et al. Learn collision-free self-driving skills at urban intersections with model-based reinforcement learning
Xu et al. An actor-critic based learning method for decision-making and planning of autonomous vehicles
Zhang et al. Simulation research on driving behaviour of autonomous vehicles on expressway ramp under the background of vehicle-road coordination
Coad et al. Safe trajectory planning using reinforcement learning for self driving
Zhu et al. Trajectory planning algorithm using Gauss pseudo-spectral method based on vehicle-infrastructure cooperative system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22926551

Country of ref document: EP

Kind code of ref document: A1