WO2022062349A1

WO2022062349A1 - 车辆控制方法、设备、存储介质和电子装置

Info

Publication number: WO2022062349A1
Application number: PCT/CN2021/083039
Authority: WO
Inventors: 林霄; 张九才; 尚进; 王薏
Original assignee: 广州汽车集团股份有限公司
Priority date: 2020-09-28
Filing date: 2021-03-25
Publication date: 2022-03-31
Also published as: US20220097736A1; US11866070B2; CN114829226A

Abstract

一种车辆控制方法、设备、存储介质和电子装置。该方法包括：获取目标车辆（202）的实时路况信息；当实时路况信息表明目标车辆（202）到达目标路口（20）时，获取当前行驶状态下目标车辆（202）的第一车辆状态信息，以及获取当前行驶状态下目标车辆（202）在目标路口（20）所在区域的第二车辆状态信息，其中，目标车辆（202）包括通过目标路口（20）的周围车辆（206）和为目标车辆（202）的当前观察视野配置的虚拟车辆（204-1、204-2；602-1~602-9）；将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；根据预测结果控制目标车辆（202）以执行目标行驶动作。

Description

车辆控制方法、设备、存储介质和电子装置

技术领域

本发明涉及车辆控制领域，具体地，涉及车辆控制方法、设备、存储介质和电子装置。

背景技术

如今，为了简化驾驶操作，越来越多的智能驾驶技术被应用于车辆，帮助驾驶员更安全可靠地进行驾驶。显然，自动驾驶已然成为重要的发展趋势。

然而，没有信号灯的路口存在各种不确定的交通情况，现有的自动驾驶技术还不能处理这种情况。例如，行驶的车辆突然出现在路口，遮挡自动驾驶的目标车辆的当前驾驶视野，会导致目标车辆容易与遮挡区域中的潜在障碍物发生碰撞。即，现有技术中车辆在通过路口时，由于不能完全了解路况，在车辆控制期间往往难以有效地保证驾驶安全。

这个问题目前还没有有效的解决办法。

发明内容

本发明的实施例提供了一种车辆控制方法和设备、存储介质和电子装置，以解决相关技术中车辆控制方法的控制安全性相对较低的问题。

根据本发明实施例的一个方面，提供了一种车辆控制方法，包括:获取目标车辆的实时路况信息；当实时路况信息表明目标车辆到达目标路口时，获取当前行驶状态下目标车辆的第一车辆状态信息，以及获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息，其中，目标车辆包括通过目标路口的周围车辆和为目标车辆的当前观察视野配置的虚拟车辆；将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；根据预测结果控制目标车辆以执行目标行驶动作。

根据本发明实施例的另一方面，进一步提供了一种车辆控制设备，包括:第一获取单元，用于获取目标车辆的实时路况信息；第二获取单元，当实时路况信息表明目标车辆到达目标路口时，获取当前行驶状态下目标车辆的第一车辆状态信息，以及获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息，其中，目标车辆包括通过目标路口的周围车辆和为目标车辆的当前观察视野而配置的虚拟车辆；输入预测单元，用于将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；以及控制单元，用于根据预测结果控制目标车辆以执行目标行驶动作。

根据本发明实施例的另一方面，进一步提供了一种计算机可读存储介质。所述计算机可读存储介质存储有计算机程序，其中所述计算机程序运行是执行所述车辆控制方法。

本发明的实施例中，当目标车辆将要通过目标路口时，在目标路口被遮挡的观察视野配置对应的虚拟车辆，以模拟遮挡区域内的潜在移动障碍物，结合周围车辆和实际通过目标路口所在区域的目标车辆的车辆状态信息，通过车辆运动预测模型预测目标车辆通过目标路口时的目标行驶动作。本发明使得目标车辆在自动驾驶通过目标路口时，能够全面了解目标路口的路况信息，从而避免行驶中的碰撞风险，提高了车辆控制的安全性，进而克服了现有技术中车辆控制安全性相对较低的问题。

附图说明

这里描述的附图为本申请提供了进一步理解，并且形成本申请的一部分。本申请的示意性实施例及其描述仅用于解释本申请，而非旨在限定本申请。In the drawings:

图1是根据本发明一实施例的一种可替换性车辆控制方法的流程图；

图2是根据本发明一实施例的一种可替换性车辆控制方法的应用环境的示意图；

图3是根据本发明一实施例的一种可替换性车辆控制方法的示意图；

图4是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图5是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图6是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图7是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图8是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图9是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图10是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图11是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图12是根据本发明一实施例的另一种可替换性车辆控制方法的示意图；

图13是根据本发明一实施例的一种可替换性车辆控制设备的结构图；

具体实施方式

为了使本领域技术人员更好地理解本发明的解决方案，以下结合本发明实施例中的附图，清楚完整地描述了本发明实施例中的技术方案。显然，所描述的实施例仅仅是本发明实施例的一部分，而不是全部。本领域普通技术人员基于本发明的实施例在没有创造性努力的情况下获得的其他实施例均属于本发明的保护范围。

应注意，本发明的说明书、权利要求书和附图中，“第一”和“第二”等用语用于区分相似的描述对象，不一定表示顺序或次序。应理解，本申请使用的数据可以在适用的情况互换，从而本申请的实施例可以以不同于这里示出或描述的顺序来实现。此外，用语“包括”和“具有”等旨在涵盖非排他性的包含，例如，一种过程、方法、系统、产品或装置，包括一系列步骤或单元，不一定限于明确列出的那些步骤或单元，而是可包括未明确列出的，或这种过程、方法、产品或装置固有的其他步骤或单元。

根据本发明实施例的一个方面，提供了一种车辆控制方法。可选地，作为可选的实施方式，如图1所示，该车辆控制方法包括:

S102，获取目标车辆的实时路况信息；

S104，当实时路况信息表明目标车辆到达目标路口时，获取当前行驶状态下目标车辆的第一车辆状态信息，以及获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息，其中，目标车辆包括通过目标路口的周围车辆和为目标车辆的当前观察视野配置的虚拟车辆；

S106，将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；

S108，根据预测结果控制目标车辆，以执行目标行驶动作。

可选地，在该实施例中，上述车辆控制方法可以应用于但不限于配置有高级驾驶辅助系统(ADAS)的车辆，以帮助车辆在自动驾驶时进行高效、安全的驾驶控制操作。ADAS系统利用安装在车辆上的各种传感器，在车辆行驶过程中随时感知周围环境，采集数据，对静态和动态物体进行识别、检测和跟踪，收集导航仪的地图数据，并对系统进行计算和分析，使驾驶员提前意识到可能存在的危险，从而有效提高车辆的驾驶安全性。

以及，本实施例中，在获取目标车辆的实时路况信息之后，如果实时路况信息指示目标车辆到达目标路口，则获取目标车辆在当前行驶状态下的第一车辆状态信息和目标车辆当前行驶状态下在目标路口所处区域的第二车辆状态信息。这里的车辆包括正在通过目标路口的周围车辆和为目标车辆的当前观察视野配置的虚拟车辆。将第一车辆状态信息和所述第二车辆状态信息输入到车辆运动预测模型中，用于基于车辆状态信息预测车辆的行驶动作，以获得预测结果，并根据预测结果控制目标车辆，以执行目标行驶动作。即，目标车辆将要通过目标路口时，在目标路口被遮挡的观察视野配置对应的虚拟车辆，以模拟遮挡区域内的潜在移动障碍物，结合周围车辆和实际通过目标路口所在区域的目标车辆的车辆状态信息，通过车辆运动预测模型预测目标车辆通过目标路口时的目标行驶动作。本发明使得目标车辆在自动驾驶通过目标路口时，能够全面了解目标路口的路况信息，从而避免行驶中的碰撞风险，提高了车辆控制的安全性，进而克服了现有技术中车辆控制安全性相对较低的问题。

以下结合图2所示进行具体描述:假设图2中所示的是关于目标车辆202当前到达的目标十字路口20的实时路况信息；并且，假设目标车辆202的当前行驶目的是左转，如图2中箭头虚线所示的方向，目标车辆202将左转进入横向车道。横向车道包括车道_1和车道_2两个车道，其中车道_1的通过方向与目标车辆202的行驶方向相反，车道_2的通过方向与目标车辆202的行驶方向相同。进一步，本申请中，对角线填充的矩形202表示目标车辆202，网格线填充的矩形204-1和网格线填充的矩形204-2表示设置在当前观察视野的两侧的边界处的虚拟车辆204-1和虚拟车辆204-2，横线填充的矩形表示周围车辆206，空白矩形200表示目标路口20的静态障碍物200。

如图2所示，基于右侧设置有静态障碍物200的目标路口20的实时路况信息，可以看出目标车辆202的当前观察视野范围是图2中用点填充的三角形区域。然后，在当前观察视野的边界上设置虚拟车辆204-1和虚拟车辆204-2，其中虚拟车辆204-1设置在车道_1的左侧，虚拟车辆204-1向右行驶以进入目标路口20，虚拟车辆204-2设置在车道_2的右侧，虚拟车辆204-2向左行驶以进入目标交叉路口20。本申请中，虚拟车辆204-1和虚拟车辆204-2各自配置有相应车道中允许的最大行驶速度。通过设置虚拟车辆以避免目标车辆202在进入目标路口20后与潜在移动障碍物碰撞，模拟目标车辆202在视野盲区中的潜在移动障碍物。

进一步，车辆运动预测模型输入有虚拟车辆的车辆状态信息、目标车辆本身的车辆状态信息以及当前正通过目标路口的周围车辆的车辆状态信息，并为目标车辆预测下一控制周期要执行的目标行驶动作，以确保目标车辆通过目标路口时的安全性。

作为可选的方案，获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息包括:

S1：确定目标车辆到达目标路口的到达时间；

S1：获取在到达时间进入目标路口所在区域的周围车辆的周围车辆状态信息，其中第二车辆状态信息包括周围车辆状态信息；

S3：确定与到达时间匹配的目标车辆的当前观察视野的视野边界；

S4：获取配置在视野边界的虚拟车辆的虚拟车辆状态信息，其中，第二车辆状态信息包括虚拟车辆状态信息。

可选地，该实施例中，在获取配置在视野边界的虚拟车辆的虚拟车辆状态信息之前，该方法还包括:

1.在目标路口的第一车道与视野边界相交的第一交叉线上设置第一虚拟车辆，其中，第一交叉线是第一虚拟车辆进入当前观察视野的起始线，第一虚拟车辆在第一车道上的行驶方向与目标车辆的行驶方向相同，且第一虚拟车辆配置有第一车道允许的第一最大行驶速度；

2.在目标路口的第二车道与视野边界相交的第二交叉线上设置第二虚拟车辆，其中，第二交叉线是第二虚拟车辆进入当前观察视野的起始线，第二虚拟车辆在第二车道上的行驶方向与目标车辆的行驶方向相反，第二虚拟车辆配置有第二车道允许的第二最大行驶速度。

应注意，自动驾驶车辆通过无信号灯的路口时，不仅需要考虑视野中可见区域的静态障碍物(如交通安全岛)和动态障碍物(如行驶车辆)；还需考虑观察视野之外的遮挡区域中的潜在障碍物(例如被遮挡的行驶车辆)，从而允许目标车辆模仿人的自主行为。当遇到图3(a)-3(d)所示的路口时，通过一步改善视野，可以避开动态障碍物，通过目标路口。

例如，当面对图3(a)中所示的路口时，一般来说，驾驶员会采用缓慢挪动前进的策略。驾驶员慢慢向前移动，如果计划右转，就观察前方车道上迎面而来的车辆，如果计划左转，就观察两条车道上迎面而来的车辆。这样，驾驶员小心地扩大可视范围，直到有足够的安全距离转弯。

图3(b)中所示的动态遮挡物以及图3(c)和3(d)中所示的更为复杂的情况都以类似的方式处理。基于规则的方法看起来可以模仿给定特定交通场景下的人类决策。然而，它难以应对不断增加的复杂性和不确定性，缺乏一般化的能力。

因此，为了模拟潜在障碍物，可以在观察视野的边界处配置虚拟车辆，为车辆分配行驶方向和行驶速度，以模拟真实车辆，从而预测目标车辆在通过目标路口时是否会与虚拟车辆碰撞，进而防止目标车辆与遮挡区域内的潜在移动障碍物碰撞。.目标车辆202(即，车辆ego)的碰撞场景如图4所示，车辆202与另一车辆402碰撞。它们的位置、速度和角度是已知的或可观察的。

为了实现无碰撞轨线，需要考虑两个不确定性来源。第一个是其他车辆(即周围车辆)的动向。对于具有多条路线选择的车辆，如果其中一条路线与车辆ego的路线相交，那么这种不确定性应在规划时考虑到。另一种不确定性来自遮挡区域。如果被遮挡区域中的潜在车辆(即虚拟车辆)的路线与车辆ego的路线相交，则需要对虚拟车辆进行处理。车辆ego的车辆状态信息包括车辆的位置、速度、角度以及车辆的长度和宽度。

这些信息可以从不同类型车辆的先验信息的感知结果估计出来。基于这些观察结果，沿着预设路线生成一系列加速度a＝[a ₀；a ₁；a ₂；..,]，可使车辆ego能够安全高效地通过拥堵的交叉路口。

结合以下例子进行详细描述；假设目标车辆的实时路况信息如图5所示。车辆ego 202的视野被遮挡。每条车道的视野边界用竖线表示。

此处，静态障碍物和动态障碍物造成的遮挡均考虑在内。我们提出了一种通用的方法来处理各种遮挡场景，不区分遮挡类型。用图5所示的简单场景来解释该方法。车辆ego计划向左转，有两条水平车道与车辆ego的路线相交。如图5所示，各个车道上有左视野边界和右视野边界。边界以外的车辆是看不见的。为了规划安全的轨线，假设虚拟车辆处在被遮挡的区域。这里我们采用一种较差的方法。虚拟车辆被放置在视野边界上，作为用于规划的真实车辆。对于车道_1，左侧迎面而来的车辆可能会干扰车辆ego 202，因此虚拟车辆602-1被放置在左边界1处。同样，另一虚拟车辆602-2被放置在右边界2。如图6(a)所示。

动态障碍物可能会导致类似的视野障碍。虚拟车辆602-3以与静态障碍物相同的方式放置在边界处。如图6(b)所示。对于静态遮挡和动态遮挡都存在的情况，可以以相同的方式计算出视野边界，因此虚拟车辆(即，虚拟车辆602-5～虚拟车辆602-7)可如图6(d)(e)所示的类似方式放置。当一辆大卡车604正好在车辆ego 202的前面时。这种情况下，卡车604后面和边界内的区域将被遮挡。为了处理这种情况，在卡车后面的车道上放置虚拟车辆。如图6(c)(f)所示，虚拟车辆的位置与车辆ego 202相对于卡车604对称，即，虚拟车辆602-4和虚拟车辆602-8、虚拟车辆602-9。

对于与车辆ego方向相反的车道，虚拟车辆总是放置在左视野边界上。对于与车辆ego方向相同的车道，虚拟车辆放置在右视野边界上。此外，如果车辆ego所面向的区域被遮挡，则虚拟车辆也放置在那里。如图所示的7(a)-7(d)通道。

每个通道都有遮挡部分(空白区域)和可观察部分(对角线填充区域)。遮挡是由静态障碍物和/或动态障碍物形成的。根据车道的方向和车辆ego的方向，虚拟车辆被放置在视野边界以及车辆ego正对的遮挡区域上。

本申请提供的实施例，通过在观察视野的边界处配置虚拟车辆，来模拟观察视野之外的潜在移动障碍物，使得目标车辆能够在自动驾驶时避免潜在的风险，从而确保目标车辆通过目标路口时的驾驶安全。

作为可选的方案，将所述第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，以获取预测结果包括:

S1，将第一车辆状态信息和第二车辆状态信息输入到部分可观察马尔可夫决策过程模型，其中车辆运动预测模型包括部分可观察马尔可夫决策过程模型；

S2，通过部分可观察马尔可夫决策过程模型，预测并获取目标车辆在当前控制周期之后的下一个控制周期内要执行的行驶动作的目标加速度，其中，预测结果包括目标加速度。

应注意，该实施例中，为了在不区分遮挡类型的情况下充分考虑各种遮挡情境，可以通过使用但不限于基于部分可观察马尔可夫POMDP框架建立的模型来实现精确的预测。

可选地，该实施例中，在自动驾驶期间，目标车辆针对当前实时路况信息和每个控制周期中相关车辆的车辆状态信息独立地决定下一个控制周期的行驶动作。从而实现了控制目标车辆逐步移动，以便平稳地通过目标路口，避免碰撞风险。

可选地，本实施例中，根据预测结果控制目标车辆以执行目标行驶动作包括:根据目标加速度确定目标车辆的目标行驶速度；控制目标车辆根据目标行驶速度行驶以通过目标路口。

通过本申请提供的实施例，利用POMDP框架建立的模型，可以融合不同的车辆状态信息，并借助POMDP求解器的解，准确预测目标车辆在下一个控制周期中的行驶动作，从而确保目标车辆自动驾驶通过路口的安全性。

作为可选的方案，通过部分可观察马尔可夫决策过程模型，预测并获取目标车辆在当前控制周期之后的下一个控制周期内要执行的行驶动作的目标加速度包括:

S1，在部分可观察马尔可夫决策过程模型中，基于第二车辆状态信息，计算每个目标车辆通过目标路口时选择在任意车道上行驶的行驶概率，获得行驶概率集，其中，第二车辆状态信息包括:目标车辆的位置、行驶速度、行驶方向和行驶路线；

S2，基于行驶概率集和第一车辆状态信息计算目标加速度，其中第一车辆状态信息包括:目标车辆的位置、行驶速度、行驶方向和预测行驶路线。

对于POMDP规划，所有配置的虚拟车辆都视为真实车辆。这包括具有不同路线选择的虚拟车辆的可选路线。各虚拟车辆配置了当前车道允许的最大速度，用于预测。与真实车辆不同，虚拟车辆的放置将在每个时间步阶根据当前的可见性重置。由于虚拟车辆并不像预测的那样移动，由一般POMDP求解器生成的“最优”动作可能不是好的决策，有时甚至会导致系统崩溃。

为了规划安全的轨线，需要交通情况的时间演化。一般地，在每个时间步阶，给环境状态分配奖励。然后通过解决一优化问题得到策略，使得一段时间内的期望奖励最大化。由于其他道路车辆动向是未知的，因此每次获得新的观察结果后，需要保持和更新动向的概率分布。所有这些都可以在POMDP框架内进行。

POMDP是一种不确定情况下连续决策的数学框架。其特征在于元组(S,A,O,T,Z,R)。此处S,A,O分别表示状态空间、动作空间和观察空间。由于常规上，POMDP应用于具有离散空间的应用程序(如游戏)，S,A,O都是有限的值集。T表示状态转移函数，具有概率表示T(s,a,s')＝p(s'|a,s)，其遵循马尔可夫假设，其状态s'只取决于最近的状态s，与之前的状态无关。Z表示观察模型Z(o,s',a)＝p(o|s',a)。R表示奖励函数

该函数为在状态s中执行动作a生成奖励值.未来的奖励按因子γ指数计算。因此，从t＝0开始的累计奖励值表示如下:

由于一些状态信息(如周围车辆的路线)，不能直接测量，所以在状态上配置了概率分布，称为信念状态。信念状态b(s)表示处于状态s,b:S→[0,1]的概率。当执行动作a并获得新的观察值o时，信念b(s)可通过贝叶斯规则更新。

POMDP旨在找到一个最优策略π ^*，该策略将信念状态映射到动作，从而最大化累计奖励的期望值。如等式3所示。

POMDP建模的细节如下:

1)状态和观察:POMDP的状态包括车辆ego和所有周围车辆的信息，除了遮挡区域内的车辆。为了解决遮挡问题，配置了虚拟车辆，如上文所述。该状态也包括虚拟车辆的信息。车辆ego的状态定义如下：

s _ego＝[l _ego,v _ego,θ _ego,r _ego,] (4)

其中l _ego＝(x _ego；y _ego)为当前位置。θ为方向。r _ego表示该操作中预先定义的路线。v _ego表示纵向速度。周围车辆veh _i的状态的定义方式同上。然而，对于具有不同路线选择的车辆，

是未知的。例如，图5中车道_1左侧路段的车辆可能直行，也可能右转，无法直接判断。而车辆ego的状态是完全已知的。除具有多种路线选择的车辆之外,可以观察到其他车辆的状态。简便起见，不引入观察噪声，在实际设置中，根据传感器融合精度可轻易添加观察噪声。

2)动作空间:车辆ego的动作由POMDP求解器生成。本申请中，该动作是纵向加速度。动作空间为A＝{+3m/s ²,0m/s ²,-3m/s ²}，其值分别表示加速、维持当前速度和减速。

3)过渡功能:过渡函数用于预测周围环境的未来状态，给定在当前时间步阶执行的动作。这样，可在规划期间实现交通状况的时间演变。这里我们假设周围车辆的动向和速度保持不变，车辆ego的速度将根据每个时间步阶的动作进行调整。过渡模型如等式5所示。对于所有周围车辆，a设置为0。

4)信念更新:由于一些车辆有多条路线选择，每条路线的概率用新的观察值进行调整。这是按照贝叶斯法则进行的。例如，图8中，veh _i有两个路线选项，r ₁和r ₂，每条路线都有自己的参考速度，分别由v ₁和v ₂表示。给定当前位置p和速度v，路线i的概率；i＝1；2通过等式6更新。

假设l和v是有条件地独立的，给定r _i，从而得到

p(l,v|r _i)＝p(l|r _i)p(v|r _i)＝Ν(y；y _i,σ _y,i)Ν(v；v _i,σ _v,i) (7)

这里使用高斯模型。y _i代表路线r _i上给定x的参考位置y.从数据中可得到参数σ _y,i和σ _v,i。该操作中，使用σ _y,i＝10和_σ _v,i＝10，因为小的方差可能会由于连续倍增导致迅速下降到零。可以用位置p和速度v作为两个属性来创建更为复杂的预测器，并根据连续的历史信息进行训练。不过那并非本申请的重点。

5)奖励函数:该操作中，奖励函数R(s,a))包括三个部分，如下所示:

R(s,a)＝R _end(s)+R _collision(s)+R _v(s) (8)

如果车辆ego通过十字路口，将获得正奖励R _end(s)。如果车辆ego与其他道路车辆发生碰撞，将得到负奖励R _collision(s)。R _collision(s)通常设置较高的数值，以保证驾驶安全。此外，如果车辆ego需以高速行驶，而其速度低于当前车道的速度限制，则分配负奖励。

该操作中，设置R _end(s)＝1000，R _collision(s)＝-10000。R _v的量级应比其他奖励小很多，且根据当前的速度调整。

6)关于虚拟车辆的问题:通常，通过最大化等式3可以获得最优动作。然而，它在本申请的技术问题中并不好用。这是因为引入了虚拟车辆。在POMDP规划过程中，虚拟车辆的处理方式与真实车辆相同。不过虚拟车辆并未真的前进。事实上，虚拟车辆的位置在每个时间步阶都会重置，给定车辆ego的最新可见性，这可能会导致状态冻结。例如，根据等式3，车辆ego可能会静止不动，等待虚拟车辆先走。然而，假设虚拟车辆总是处在同一视野边界，这样车辆ego总是静止不动。为了避免出现冻结状态，车辆ego需要一个推力，即使静止不动也有最大的预期奖励。为了使车辆ego解除冻结状态，同时鼓励高驾驶速度，不同的优先级可分配给不同的动作。

通过本申请提供的实施例，在选择每个车道时获取目标车辆的行驶概率，并结合行驶动向确定目标车辆的行驶动作，来获取目标车辆的行驶动向，使得目标车辆在通过目标路口时的行驶轨线不会相交，即，避免碰撞。从而提高车辆控制的安全性。

作为可选的方案，行驶概率集和第一车辆状态信息计算目标加速度包括:

S1,根据行驶概率集和第一车辆状态信息，在预先构建的搜索树中搜索目标路径，并将目标路径中目标节点对应的加速度作为目标加速度，其中，搜索树上的各个节点配置有对应的节点奖励值，节点奖励值与基于当前节点路径的预测碰撞结果相关联，各个节点连接到以下子节点:用于控制车辆加速的加速节点、用于控制车辆减速的减速节点、用于控制车辆保持当前速度的保持节点，加速节点的选择优先级高于保持节点的选择优先级，保持节点的选择优先级高于减速节点的选择优先级。

作为可选的方案，根据所述行驶概率集和第一车辆状态信息，在预先构建的搜索树中搜索目标路径包括:

S1,遍历搜索树，直到找到目标路径；

S11,获取当前节点对应的当前加速度；

S12,当目标车辆以当前加速度对应的行驶速度行驶时，使用当前加速度、行驶概率集和第一车辆状态信息来预测目标车辆与目标车辆的碰撞预测结果；

S13,当碰撞预测结果表明没有碰撞时，将当前节点作为目标路径的节点，并从与当前节点连接的子节点获取节点作为当前节点；

S14,当所找到的搜索路径中的所有节点的碰撞预测结果表明没有碰撞时，将搜索路径确定为目标路径。

在该操作中，为了应对动态环境，POMDP是以联机在线的方式求解的。这是必要的，因为可视范围会随着车辆ego的前进而变化。在线求解器规划好一系列动作，直到特定视野。但是车辆ego只执行第一个动作，并且会在下一个时间点重新计算。

POMDP通常通过遍历信念搜索树来求解，沿着具有最大期望奖励的路径选择最优动作。然而，构建“完全树”的计算复杂度太高，不实用。因此，人们开发了各种POMDP近似求解器。大部分是为离散状态空间设计的，没有考虑到某些应用的特性。本申请中，我们开发了一种定制化的POMDP求解器，它可以解决由虚拟车辆引起的问题，同时降低计算复杂度。求解器详情如下。

1)信念更新。通常，信念搜索树会考虑可能存在的观察情况，因此信念更新是在树的构建期间执行的。这对于具有连续状态空间的应用来说是不必要的，因为观察空间不是一组有限的值。这些虚拟观察是由概率观察模型生成的，可能与真实观察有很大差异。此外，规划是以在线方式进行的，可以适应环境变化。因此，该操作中，每个节点的信念保持不变。如图9所示。每个节点代表一个信念状态。从节点分支出来的三条边分别代表加速(“+”)，保持当前速度(“0”)和减速(“-”)。箭头虚线表示从根到叶的成功路径。所有斜线填充的节点均已被访问过，空白节点将不会被访问。

3)动作优先级。预计车辆ego以较少的降速高速行驶。通常是通过当车辆ego的速度低于某个阈值(例如当前车道的速度限制)时分配负奖励来实现的。已成功应用于交叉路口场景。此处，不同的行动分配有不同的优先级。“加速”优先级最高，其次是“保持当前速度”，“减速”优先级最低。这样，鼓励高速行驶，可将车辆ego推离停滞状态。为了保证具有较高优先级的动作总是最先被访问，开发了搜索策略。

4)搜索策略为了处理动作优先级，执行深度优先搜索，如图9所示。此处，本申请的方案是尝试找到一条从根开始并在没有任何碰撞的情况下结束于叶的路径。找到这样的路径时，树遍历停止。这样，总是先访问加速，只有在加速和保持恒速不起作用的情况下，才访问减速。例如，如果图9中的虚线是没有碰撞的完整路径，那么当前时间点的最优动作是加速。斜线填充的节点已经被访问过，而空白节点将永远不会被访问，因为已经找到了一条成功的路径。这种策略同时提高了平均计算成本。假设每片叶子都有相同的概率p成为一条成功路径的终点，那么需要访问多少叶子节点的期望就形成了一个几何级数，如等式9所示。

与叶子的数量|a| ^H相比，其中|a|表示行动空间大小，H表示规划的视野，

通常要小得多，最小可达到|a| ^H。

除了上述搜索策略，其他技巧也有助于降低计算复杂度。由于其他车辆的轨线在预测期间是固定的，所以可以预先计算每个未来时间步阶的各个车辆的状态，从而消除每个节点处的重复计算。高计算成本的另一个原因是包含不同状态组合的信念状态。假设每辆车有2个路线选项，场景中有5辆车，那么组合总数为25。检查每个组合的碰撞情况，并在各个节点分配奖励。如果同时考虑速度变化，组合的总数会很大，无法实时计算。这可以通过分解效用函数来实现，该函数对每辆车进行规划，并合并结果以选择最优行动。

作为可选的方案，根据行驶概率集和第一车辆状态信息，在预先构建的搜索树中搜索目标路径包括:

S1,遍历搜索树，依次将搜索树中的各个节点作为当前节点，以执行以下操作:

S11,获取第一累积值和参考累积值集，所述参考累积值集是通过对搜索树的起始节点的节点奖励值和当前节点的节点奖励值进行加权求和而获得的，其中，参考累积值集包括多个第二累积值，第二累积值是通过对起始节点的节点奖励值和与当前节点处于同一级别的任何其他节点的节点奖励值进行加权求和而获得的累积值；

S12,当第一累积值大于参考累积值集中的各个第二累积值时，将当前节点作为目标路径中的节点，并从与当前节点连接的子节点获取节点作为当前节点；

S13,当当前节点位于叶节点层时，将从起始节点到当前节点的路径作为目标路径。

可选地，该实施例中，当在预先构建的搜索树中找到目标路径时，还包括:为搜索树中的各个节点配置相应的节点奖励值，其中，节点奖励值是当穿过目标路口时基于当前节点的目标车辆与搜索路径碰撞的第一奖励值、当穿过目标路口时基于当前节点的目标车辆不与搜索路径碰撞的第二奖励值、以及参考奖励值的加权和的结果。

参考图10-12中所示的示例,充分描述了本申请的实施例中的解决方案。

该操作中的实验是在SUMO仿真器中进行的。SUMO是一个用于交通仿真的开源包。它可以模拟道路网络以及其他交通要素。还提供了API和TraCI,用于在线交互。可以在每个仿真步骤中控制每辆车的动作。但是不能直接控制POMDP输出的加速度，只能设置最大加速度。因此，我们根据等式5给定当前动作在每个模拟时间步阶调整速度，规划和仿真的时间间隔为0.1s。虽然SUMO提供了智能驾驶员模型(IDM)来控制每辆车的行为，但本操作中并没有用到它。原因有两个。首先，装有IDM的车辆会减速以避免碰撞，如果预测到碰撞，有时会冻结交通。其次，周围车辆的智能行为使本申请提供的方法难以评估。因此，所有其他车辆都按照预先设定的没有避免碰撞的模式行驶。

首先分析当只有静态障碍物存在时车辆ego的行为。如图10(a)所示，车辆ego计划左转，因此假定有两个虚拟车辆(如图6所示)。这种情况下，不存在真正的周围车辆。图10(b)示出了车辆ego的速度曲线以及位置y。正如我们所看到的，车辆ego首先加速，因为假定的虚拟车辆离它很远。然后，车辆ego停止加速，因为持续加速可能会产生碰撞，但同时不需要减速。随着车辆ego持续接近前方的水平车道，它开始减速。当它确定左转是安全的之后，它开始加速，直到达到允许的最大速度。

为了掌握对交通的全面观察，车辆ego需要到达y>＝-4m的位置。如图10(b)所示，在获得全面之前，车辆ego在t＝2:3s开始加速。因为在t＝2:3s时，车辆ego和虚拟车辆之间有足够的距离，因此左转不会产生任何碰撞。这也是人类驾驶员的反应。很多情况下，我们无法对交通充分观察，但只要确保有足够的距离，就可以穿过十字路口。

在图11中，我们将本申请提出的方法与另外两种策略进行了比较。一种是V2V通信，它允许车辆ego访问遮挡区域的信息。另一种并非解决遮挡问题，因此没有假定虚拟车辆。可见，本申请提出的方法具有与V2V通信相似的曲线。如果没有采取措施来处理遮挡，车辆ego将加速，直到它观察到另一辆车辆。这种情况下，两辆车在t＝3:7s时碰撞。

此处我们假设一个场景，一辆移动的卡车挡住了车辆ego的视线。为排除其他因素影响，除去了静态遮挡物。如图12所示，车辆ego在路口左转，一辆卡车正在靠近并阻挡车辆ego的视线，同时，另一辆车辆在卡车后面，并且无法被车辆ego观察到。由于卡车挡住了视线，按照图6(b)和6(c)依次放置了虚拟车辆。

将本申请提供的方法与其他两种策略，V2V通信和无虚拟车辆的对照组(baseline)进行比较。图12示出了上述三种方式的速度曲线。可以看出，V2V和本申请提供的方法都可以在没有任何碰撞的情况下完成左转，而对照组在t＝5:7s时发生了碰撞。我们还注意到，V2V和本申请提供的方法的速度曲线非常接近，只是本申请提供的方法更保守些。本申请讨论了自动驾驶车辆通过拥堵路口的策略。覆盖了静态遮挡物和动态遮挡物。提供了一种处理各种遮挡场景的方法。采用POMDP框架处理所提出的问题。由于引入了虚拟车辆，它们的行为与真实车辆不同，一般的POMDP求解器给出的动作已然不是最优的，有时会冻结整个系统。为了配合所提出的方法，本申请开发了一种特制的POMDP求解器。同时，还可以降低了平均计算复杂度。

在静态和动态遮挡场景下对该方法的性能进行了评估。实验结果表明，车辆ego表现出与人类驾驶员相似的驾驶行为。我们还将其与其他策略进行了比较。结果表明

本申请提出的方法在避免碰撞方面是有效的。此外，本方法可轻松地扩展到其他不同车道布局的交叉路口。

应注意，为了简洁性，上述方法实施例被描述为一系列动作组合。然而，本领域技术人员应理解，本发明不受所描述的动作顺序的限制，本发明中的某些步骤可以其他顺序执行或同时执行。其次，本领域技术人员还应知道，说明书中描述的实施例都是优选实施例，并且所涉及的动作和模块在本发明中并非必要的。

根据本发明实施例的另一方面，还提供了一种用于实现上述车辆控制方法的车辆控制设备。如图13所示，该设备包括:

1)第一获取单元1302，用于获取目标车辆的实时路况信息；

2)第二获取单元1304，当实时路况信息表明目标车辆到达目标路口时，获取当前行驶状态下目标车辆的第一车辆状态信息，以及获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息，其中，目标车辆包括通过目标路口的周围车辆和为目标车辆的当前观察视野配置的虚拟车辆；

3)输入预测单元1306，用于将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；

4)控制单元1308，用于根据预测结果控制目标车辆以执行目标行驶动作。

关于具体实施例，可参考上述车辆控制方法的描述，本实施例中不再赘述。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，且该计算机程序在运行时执行任一方法实施例中的步骤。

可选地，本实施例中，该计算机可读存储介质可配置为存储计算机程序，该计算机程序用于执行以下步骤:

S1，获取目标车辆的实时路况信息；

S2，当实时路况信息表明目标车辆到达目标路口时，获取当前行驶状态下目标车辆的第一车辆状态信息，以及获取当前行驶状态下目标车辆在目标路口所在区域的第二车辆状态信息，其中，目标车辆包括通过目标路口的周围车辆和为目标车辆的当前观察视野配置的虚拟车辆；

S3，将第一车辆状态信息和第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；

S4，根据预测结果控制目标车辆，以执行目标行驶动作。

可选地，该实施例中，本领域普通技术人员可以理解，上述实施例的方法的全部或部分步骤可以由指示终端设备的相关硬件的程序来实现。该程序可以存储在计算机可读存储介质中，该存储介质可以包括闪存盘、只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘。

本发明实施例的序号仅用于描述，并非表示优选实施例。

如果上述实施例中的集成单元以软件功能单元的形式实现，并且作为独立产品出售或使用，则该集成单元可存储在上述计算机可读存储介质中。基于此，本发明的技术方案实质上构成现有技术的部分，或全部或部分技术方案可以通过软件产品的形式实现，该计算机软件产品存储于存储介质中，该软件产品包括用于指示一个或多个计算机设备(可以是个人计算机、服务器、网络设备等)以执行本发明实施例中描述的方法的全部或部分步骤的若干指令。

本发明的上述实施例中，实施例的描述主要突出重点，对于在特定实施例中没有详细描述的部分，可以参考其他实施例的相关描述。

应理解，本申请提供的几个实施例中，所公开的客户端可以以其他方式实现。上述关于设备的实施例仅仅是示例性的。例如，单元的划分只是逻辑功能划分，在实际操作中也可以有其他划分方式。再如，多个单元或组件可以被组合或集成到另一个系统中，或者可忽略或不执行某些特征。此外，所示出或讨论的相互之间的耦合或直接耦合或通信连接可以通过一些接口来实现。单元或模块之间的间接耦合或通信连接可以通过电子或其他形式实现。

以单独形式出现的单元可以是或不是物理上分开的，并示出的单元部分可以是或不是物理单元，其可以位于某一位置，或者可以分布在多个网络元件上。可根据实际需求选择部分或全部单元，以实现实施例的方案的效果。

此外，本发明实施例中的功能单元可集成到一个处理单元中，或每个单元可以物理上单独存在，或者两个或更多个单元集成到一个单元中。该集成单元可以以硬件的形式实现，也可以以软件功能单元的形式实现。

以上仅仅是本发明的优选实施例。应注意，本领域普通技术人员可以在不脱离本发明原理的情况下进行进一步的改进和修改，并且这些改进和修改也应当属于本发明的保护范围。

Claims

一种车辆控制方法，其特征在于，包括:

获取目标车辆的实时路况信息；

当所述实时路况信息表明所述目标车辆到达目标路口时，获取当前行驶状态下所述目标车辆的第一车辆状态信息，以及获取当前行驶状态下所述目标车辆在所述目标路口所在区域的第二车辆状态信息，其中，所述目标车辆包括通过所述目标路口的周围车辆和为所述目标车辆的当前观察视野配置的虚拟车辆；

将所述第一车辆状态信息和所述第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，所述车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；

根据所述预测结果控制所述目标车辆，以执行目标行驶动作。
根据权利要求1所述的方法，其特征在于，所述获取当前行驶状态下所述目标车辆在所述目标路口所在区域的第二车辆状态信息包括:

确定所述目标车辆到达所述目标路口的到达时间；

获取在所述到达时间进入所述目标路口所在区域的所述周围车辆的周围车辆状态信息，其中所述第二车辆状态信息包括所述周围车辆状态信息；

确定与所述到达时间匹配的所述目标车辆的所述当前观察视野的视野边界；

获取配置在所述视野边界的所述虚拟车辆的虚拟车辆状态信息，其中，所述第二车辆状态信息包括所述虚拟车辆状态信息。
根据权利要求2所述的方法，其中，在获取配置在所述视野边界的所述虚拟车辆的虚拟车辆状态信息之前，所述方法还包括:

在所述目标路口的第一车道与所述视野边界相交的第一交叉线上设置第一虚拟车辆，其中，所述第一交叉线是所述第一虚拟车辆进入所述当前观察视野的起始线，所述第一虚拟车辆在所述第一车道上的行驶方向与所述目标车辆的行驶方向相同，所述第一虚拟车辆配置有所述第一车道允许的第一最大行驶速度；

在所述目标路口的第二车道与所述视野边界相交的第二交叉线上设置第二虚拟车辆，其中，所述第二交叉线是所述第二虚拟车辆进入所述当前观察视野的起始线，所述第二虚拟车辆在所述第二车道上的行驶方向与所述目标车辆的行驶方向相反，所述第二虚拟车辆配置有所述第二车道允许的第二最大行驶速度。
根据权利要求1所述的方法，其中，所述将所述第一车辆状态信息和所述第二车辆状态信息输入到车辆运动预测模型中，获取预测结果包括:

将所述第一车辆状态信息和所述第二车辆状态信息输入到部分可观察马尔可夫决策过程模型，其中所述车辆运动预测模型包括所述部分可观察马尔可夫决策过程模型；

通过所述部分可观察马尔可夫决策过程模型，预测并获取所述目标车辆在当前控制周期之后的下一个控制周期内要执行的行驶动作的目标加速度，其中，所述预测结果包括所述目标加速度。
根据权利要求4所述的方法，其中，所述根据所述预测结果控制所述目标车辆以执行目标行驶动作包括:

根据所述目标加速度确定所述目标车辆的目标行驶速度；

控制所述目标车辆根据所述目标行驶速度行驶以通过所述目标路口。
根据权利要求4所述的方法，其中，所述通过所述部分可观察马尔可夫决策过程模型，预测并获取所述目标车辆在当前控制周期之后的下一个控制周期内要执行的行驶动作的目标加速度包括:

在所述部分可观察马尔可夫决策过程模型中，基于所述第二车辆状态信息，计算每个所述目标车辆通过所述目标路口时选择在任意车道上行驶的行驶概率，获得行驶概率集，其中，所述第二车辆状态信息包括:所述目标车辆的位置、行驶速度、行驶方向和行驶路线；

基于所述行驶概率集和所述第一车辆状态信息计算目标加速度，其中所述第一车辆状态信息包括:所述目标车辆的位置、行驶速度、行驶方向和预测行驶路线。
根据权利要求6所述的方法，其中，所述基于所述行驶概率集和所述第一车辆状态信息计算目标加速度包括:

根据所述行驶概率集和所述第一车辆状态信息，在预先构建的搜索树中搜索目标路径，并将所述目标路径中目标节点对应的加速度作为目标加速度，其中，所述搜索树上的各个节点配置有对应的节点奖励值，所述节点奖励值与基于当前节点路径的预测碰撞结果相关联，各个节点连接到以下子节点:用于控制车辆加速的加速节点、用于控制车辆减速的减速节点、用于控制车辆保持当前速度的保持节点，所述加速节点的选择优先级高于所述保持节点的选择优先级，所述保持节点的选择优先级高于所述减速节点的选择优先级。
根据权利要求7所述的方法，其中，所述根据所述行驶概率集和所述第一车辆状态信息，在预先构建的搜索树中搜索目标路径包括:

遍历所述搜索树，直到找到目标路径；

获取当前节点对应的当前加速度；

用所述当前加速度、所述行驶概率集和所述第一车辆状态信息预测碰撞预测结果，所述碰撞预测结果表明当目标车辆以所述当前加速度对应的行驶速度行驶时目标车辆与目标车辆是否碰撞；

当所述碰撞预测结果表明没有碰撞时，将当前节点作为目标路径中的节点，并从与当前节点连接的子节点获取节点作为当前节点；

当所找到的搜索路径中的所有节点的碰撞预测结果表明没有碰撞时，将搜索路径确定为目标路径。
根据权利要求7所述的方法，其中，所述根据所述行驶概率集和所述第一车辆状态信息，在预先构建的搜索树中搜索目标路径包括:

遍历所述搜索树，依次将所述搜索树中的各个节点作为当前节点，以执行以下操作:

获取第一累积值和参考累积值集，所述参考累积值集是通过对搜索树的起始节点的节点奖励值和当前节点的节点奖励值进行加权求和而获得的，其中，所述参考累积值集包括多个第二累积值，所述第二累积值是通过对起始节点的节点奖励值和与当前节点位于同一级别的任何其他节点的节点奖励值进行加权求和而获得的累积值；

当所述第一累积值大于参考累积值集中的各个第二累积值时，将当前节点作为所述目标路径中的节点，并从与当前节点连接的子节点获取节点作为当前节点；

在当前节点位于叶节点层时，将从起始节点到当前节点的路径作为目标路径。
根据权利要求7所述的方法，其中，当在预先构建的搜索树中搜索目标路径时，所述方法还包括:

为搜索树中的各个节点配置相应的节点奖励值，其中，所述节点奖励值是当穿过目标路口时基于当前节点的所述目标车辆与搜索路径碰撞的第一奖励值、当穿过目标路口时基于当前节点的所述目标车辆不与搜索路径碰撞的第二奖励值、以及参考奖励值的加权和的结果。
一种车辆控制设备，其特征在于，包括:

第一获取单元，用于获取目标车辆的实时路况信息；

第二获取单元，当所述实时路况信息表明所述目标车辆到达目标路口时，获取当前行驶状态下所述目标车辆的第一车辆状态信息，以及获取当前行驶状态下所述目标车辆在所述目标路口所在区域的第二车辆状态信息，其中，所述目标车辆包括通过所述目标路口的周围车辆和为所述目标车辆的当前观察视野而配置的虚拟车辆；

输入预测单元，用于将所述第一车辆状态信息和所述第二车辆状态信息输入到车辆运动预测模型中，获取预测结果，其中，所述车辆运动预测模型用于基于当前控制周期的车辆状态信息来预测车辆在下一控制周期的行驶动作；

控制单元，用于根据所述预测结果控制所述目标车辆，以执行目标行驶动作。
一种计算机可读存储介质，所述存储介质存储有程序，其特征在于，所述程序运行时执行权利要求1所述的方法。