WO2024051310A1

WO2024051310A1 - 一种控制方法、装置及车辆

Info

Publication number: WO2024051310A1
Application number: PCT/CN2023/103926
Authority: WO
Inventors: 杨绍宇; 陈巍; 郝东浩; 安全; 程思源; 王新宇
Original assignee: 华为技术有限公司
Priority date: 2022-09-05
Filing date: 2023-06-29
Publication date: 2024-03-14
Also published as: CN115285149A

Abstract

一种控制方法，在目标车辆和目标对象存在碰撞可能性时，将目标车辆和目标对象划分为主动方和被动方，主动方相对于被动方具有优先通行权；获取主动方可行的第一策略集合，第一策略集合包括至少一个第一行驶策略；根据第一策略集合，确定被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，得到第二策略集合；对由第一策略集合和第二策略集合得到的各个可行策略的执行代价进行分析，得到第一代价集合，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成，第一代价集合中包括每个可行策略对所关联的用于指示执行可行策略对的成本的代价；根据第一代价集合中最低的执行代价所对应的行驶策略对目标车辆进行控制。提升了驾驶体验。

Description

一种控制方法、装置及车辆

本申请要求于2022年9月5日提交中国国家知识产权局、申请号为202211077102.4、申请名称为“一种控制方法、装置及车辆”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种控制方法、装置及车辆。

背景技术

自动驾驶是人工智能领域的一种主流应用。自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作，让车辆可以在不需要人类主动操作下，实现自动驾驶。在自动驾驶领域，车辆可以根据实际的驾驶场景执行相应的行驶策略，以保证车辆的安全行驶。但目前，当多个车辆间出现轨迹冲突时，车辆常会执行误减速、误加速等行驶策略，影响安全加速和驾驶体验。

发明内容

本申请提供了一种控制方法、装置、车辆、计算机存储介质及计算机产品，能够使车辆可以不断的试探其他对象的行驶意图，直至其他对象的行驶意图明确时，在做出最终的抢行或让行决策，由此实现缓慢加速抢行或缓慢减速让行的效果，提升驾驶体验。

第一方面，本申请提供一种控制方法，该方法包括：将目标车辆和目标对象划分为主动方和被动方，其中，主动方相对于被动方具有优先通行权,且目标车辆和目标对象存在碰撞可能性；获取主动方可行的第一策略集合，第一策略集合中包括至少一个第一行驶策略；根据第一策略集合中的各个第一行驶策略、主动方当前时刻的行驶参数和被动方当前时刻的行驶参数，得到被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，第二行驶策略为以下任意一项：被动方仅抢行主动方，被动方仅让行主动方，或者，被动方既能抢行主动方，又能让行主动方；根据第一策略集合和第二策略集合，确定目标策略对集合，目标策略对集合中包括至少一个可行策略对，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成；确定目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，第一代价集合中包括每个可行策略对的执行代价；根据第一代价集合，确定目标行驶策略，目标行驶策略为与第一代价集合中最低的执行代价所关联的目标车辆的行驶策略；根据目标行驶策略，对目标车辆进行控制。示例性的，当前时刻的行驶参数可以但不限于是指：在获取第一策略集合时观测到的行驶参数，或者，在求解第二策略集合时观测到的行驶参数，或者，在执行该方法前最新观测到的行驶参数。

这样，在目标车辆和目标对象存在冲突可能性时，可以将两者划分为主动方和被动方，并由主动方的可行策略求解被动方的可行策略，然后在计算执行两者的可行策略的执行代价，最后选取一个代价最低的可行策略对目标车辆进行控制。由此使得目标车辆可以不断的试探其他对象的行驶意图，直至其他对象的行驶意图明确时，在做出最终的抢行或让行决策，从而实现缓慢加速抢行或缓慢减速让行的效果，提升驾驶体验。

在一种可能的实现方式中，若目标车辆为主动方，目标对象为被动方时；根据第一代价集合，确定目标行驶策略，具体包括：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆让行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆抢行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标代价所对应的可行策略对中的第一行驶策略。

这样，若目标车辆为主动方，目标对象为被动方时，当目标对象的行驶策略为抢行或让行目标车辆中的一种时，表明目标对象的行驶意图明确，此时可以确定目标车辆的行驶策略与目标对象的行驶策略相反，即当目标对象的行驶策略为抢行目标车辆时，则确定目标车辆的行驶策略为让行目标对象，当目标对象的行驶策略为让行目标车辆时，则确定目标车辆的行驶策略为抢行目标对象。当目标对象的行驶策略为既能抢行又能让行目标车辆时，表明目标对象的行驶意图还不明确，此时则可以继续控制目标车辆试探目标对象的行驶意图；同时，由于此时目标车辆为主动方，且主动方的路权高于被动方的路权，而在行驶过程中往往是路权较低的一方需要让行路权较低的一方。因此，此时可以控制目标车辆执行目标代价所对应的可行策略对中的第一行驶策略，即确定目标对象的行驶策略为目标代价所对应的可行策略对中的第一行驶策略。

在一种可能的实现方式中，若目标车辆为被动方，目标对象为主动方时；根据第一代价集合，确定目标行驶策略，具体包括：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆抢行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆让行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标车辆让行目标对象。

这样，若目标车辆为被动方，目标对象为主动方时，当目标车辆的行驶策略为抢行目标对象时，表明目标车辆仅有一种行驶策略可选，因此，可以确定该行驶策略为目标车辆所需执行的行驶策略。同样的，当目标车辆的行驶策略为让行目标对象时，表明目标车辆仅有一种行驶策略可选，因此，可以确定该行驶策略为目标车辆所需执行的行驶策略。当目标车辆的行驶策略为既能抢行又能让行目标对象时，表明目标对象的行驶意图还不明确，此时若目标车辆贸然执行抢行决策或者让行决策，则容易出现重刹/点刹甚至接管等情况，驾驶体验较差。另外，由于此时目标车辆为被动方，所以目标车辆的路权低于目标对象的路权。同时，由于在行驶过程中往往是路权较低的一方需要让行路权较低的一方，因此可以控制目标车辆减速行驶，以试探目标对象的行驶意图，即确定目标车辆的行驶策略为让行目标对象。

在一种可能的实现方式中，可行策略对所关联的执行代价包括以下一项或多项：舒适性代价，用于表征执行可行策略对时的舒适程度；通过性代价，用于表征主动方和/或被动方通过两者冲突点的效率；偏移代价，用于表征对主动方和/或被动方在执行相应的行驶策略时发生偏移的评价；不一致性代价，用于表征在可行策略对中目标对象的行驶行为与目标对像实际的行驶行为间的偏差的评价；或者，决策惩罚代价，用于表征对被动方的意图是否明确的评价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，确定第一策略对所关联的舒适性代价，具体包括：根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第一舒适性代价；根据第一策略对中的第二行驶策略对应的加速度和被动方当前的加速度，确定被动方在执行第一策略对中的第二行驶策略时的第二舒适性代价；根据第一舒适性代价和第二舒适性代价，确定第一策略对所关联的舒适性代价。示例性的，主动方当前的加速度可以但不限于是指：在获取第一策略集合时观测到的主动方的加速度，或者，在求解第二策略集合时观测到的主动方的加速度，或者，在执行该方法前最新观测到的主动方的加速度。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，确定第一策略对所关联的通过性代价，具体包括：根据第一时间和第二时间，确定主动方在执行第一策略对中的第一行驶策略时的第一通过性代价，其中，第一时间为主动方执行第一策略对中的第一行驶策略时通过目标点的时间，第二时间为主动方以其当前的速度和加速度通过目标点的时间，目标点为主动方的行驶路径和被动方的行驶路径的冲突点；根据第三时间和第四时间，确定被动方在执行第一策略对中的第二行驶策略时的第二通过性代价，其中，第三时间为被动方执行第一策略对中的第二行驶策略时通过目标点的时间，第四时间为被动方以其当前的速度和加速度通过目标点的时间；根据第一通过性代价和第二通过性代价，确定第一策略对所关联的通过性代价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，确定第一策略对所关联的偏移代价，具体包括：基于预先设定的偏移量与偏移代价间的映射关系，以及，主动方执行第一策略对中的第一行驶策略时的偏移量，确定主动方在执行第一策略对中的第一行驶策略时的第一偏移代价；基于预先设定的偏移量与偏移代价间的映射关系，以及，被动方执行第一策略对中的第二行驶策略时的偏移量，确定被动方在执行第一策略对中的第二行驶策略时的第二偏移代价；根据第一偏移代价和第二偏移代价，确定第一策略对所关联的偏移代价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，确定第一策略对所关联的不一致性代价，具体包括：当第一策略对中目标对象的行驶策略为仅抢行目标车辆，或者，为仅让行目标车辆时，确定目标对象抢行目标车辆的目标概率，以及，根据目标概率，确定不一致性代价；当第一策略对中目标对象的行驶策略为既能抢行目标车辆，又能让行目标车辆时，确定不一致性代价为预先设定的代价值。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，确定第一策略对所关联的决策惩罚代价，具体包括：基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价。

在一种可能的实现方式中，第一策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方；基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价，具体包括：基于决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一决策惩罚代价；根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第二决策惩罚代价；根据第一决策惩罚代价和第二决策惩罚代价，确定第一策略对所关联的决策惩罚代价。

第二方面，本申请提供一种控制装置，该装置包括：划分模块和处理模块。其中，划分模块用于将目标车辆和目标对象划分为主动方和被动方，其中，主动方相对于被动方具有优先通行权,且目标车辆和目标对象存在碰撞可能性。处理模块用于获取主动方可行的第一策略集合，第一策略集合中包括至少一个第一行驶策略。处理模块还用于根据第一策略集合中的各个第一行驶策略、主动方当前时刻的行驶参数和被动方当前时刻的行驶参数，得到被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，第二行驶策略为以下任意一项：被动方仅抢行主动方，被动方仅让行主动方，或者，被动方既能抢行主动方，又能让行主动方。处理模块还用于根据第一策略集合和第二策略集合，确定目标策略对集合，目标策略对集合中包括至少一个可行策略对，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成。处理模块还用于确定目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，第一代价集合中包括每个可行策略对的执行代价。处理模块还用于根据第一代价集合，确定目标行驶策略，目标行驶策略为与第一代价集合中最低的执行代价所关联的目标车辆的行驶策略。处理模块还用于根据目标行驶策略，对目标车辆进行控制。

在一种可能的实现方式中，若目标车辆为主动方，目标对象为被动方时；处理模块在根据第一代价集合，确定目标行驶策略时，具体用于：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆让行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆抢行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标代价所对应的可行策略对中的第一行驶策略。

在一种可能的实现方式中，若目标车辆为被动方，目标对象为主动方时；处理模块在根据第一代价集合，确定目标行驶策略时，具体用于：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆抢行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆让行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标车辆让行目标对象。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，处理模块在确定第一策略对所关联的舒适性代价时，具体用于：根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第一舒适性代价；根据第一策略对中的第二行驶策略对应的加速度和被动方当前的加速度，确定被动方在执行第一策略对中的第二行驶策略时的第二舒适性代价；根据第一舒适性代价和第二舒适性代价，确定第一策略对所关联的舒适性代价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，处理模块在确定第一策略对所关联的通过性代价时，具体用于：根据第一时间和第二时间，确定主动方在执行第一策略对中的第一行驶策略时的第一通过性代价，其中，第一时间为主动方执行第一策略对中的第一行驶策略时通过目标点的时间，第二时间为主动方以其当前的速度和加速度通过目标点的时间，目标点为主动方的行驶路径和被动方的行驶路径的冲突点；根据第三时间和第四时间，确定被动方在执行第一策略对中的第二行驶策略时的第二通过性代价，其中，第三时间为被动方执行第一策略对中的第二行驶策略时通过目标点的时间，第四时间为被动方以其当前的速度和加速度通过目标点的时间；根据第一通过性代价和第二通过性代价，确定第一策略对所关联的通过性代价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，处理模块在确定第一策略对所关联的偏移代价时，具体用于：基于预先设定的偏移量与偏移代价间的映射关系，以及，主动方执行第一策略对中的第一行驶策略时的偏移量，确定主动方在执行第一策略对中的第一行驶策略时的第一偏移代价；基于预先设定的偏移量与偏移代价间的映射关系，以及，被动方执行第一策略对中的第二行驶策略时的偏移量，确定被动方在执行第一策略对中的第二行驶策略时的第二偏移代价；根据第一偏移代价和第二偏移代价，确定第一策略对所关联的偏移代价。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，处理模块在确定第一策略对所关联的不一致性代价时，具体用于：当第一策略对中目标对象的行驶策略为仅抢行目标车辆，或者，为仅让行目标车辆时，确定目标对象抢行目标车辆的目标概率，以及，根据目标概率，确定不一致性代价；当第一策略对中目标对象的行驶策略为既能抢行目标车辆，又能让行目标车辆时，确定不一致性代价为预先设定的代价值。

在一种可能的实现方式中，针对所有的可行策略对中的任意一个第一策略对，处理模块在确定第一策略对所关联的决策惩罚代价时，具体用于：基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价。

在一种可能的实现方式中，第一策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方；处理模块在基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价时，具体用于：基于决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一决策惩罚代价；根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第二决策惩罚代价；根据第一决策惩罚代价和第二决策惩罚代价，确定第一策略对所关联的决策惩罚代价。

第三方面，本申请提供一种车辆，包括第二方面或第二方面的任一种可能的实现方式所描述的控制装置。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第五方面，本申请提供一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

下面对实施例或现有技术描述中所需使用的附图作简单地介绍。

图1是本申请实施例提供的一种应用场景的示意图；

图2是本申请实施例提供的一种车辆的硬件结构；

图3是本申请实施例提供的一种控制方法的流程示意图；

图4是本申请实施例提供的一种车辆与车辆交汇的示意图；

图5是本申请实施例提供的一种舒适性代价函数的示意图；

图6是本申请实施例提供的一种通过性代价函数的示意图；

图7是本申请实施例提供的一种决策惩罚性代价函数的示意图；

图8是本申请实施例提供的一种控制装置的结构示意图。

具体实施方式

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系，例如A/B表示A或者B。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一响应消息和第二响应消息等是用于区别不同的响应消息，而不是用于描述响应消息的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

示例性的，图1示出了一种应用场景。如图1的(A)所示，车辆100和200行驶至丁字路况，且车辆100沿线段x标识的方向行驶，车辆200沿线段y标识的方向移动。在图1的(B)中，车辆200汇入车辆100所在的道路中，且车辆100沿线段x标识的方向行驶，车辆200沿线段y标识的方向移动。在图1的(A)或(B)中，由于线段x和y之间存在交叉，即车辆100和200的行驶轨迹存在冲突，因此，车辆100和200间存在碰撞可能性的情况。应理解的是，图1中仅示出了两种车辆间存在碰撞可能性的情况，其他的由于车辆间的行驶轨迹存在冲突，而导致的车辆间存在碰撞可能性的情况仍在本申请的保护范围之内。

另外，在图1所示的场景中，车辆100可以保留，而车辆200可以替换为其他的对象，比如替换为运动的物体，或静止的物体等，替换后的方案仍在本申请的保护范围之内。同样的，车辆200可以保留，而车辆100可以替换为其他的对象，比如替换为运动的物体，或静止的物体等，替换后的方案仍在本申请的保护范围之内。为便于描述下面将以保留车辆100为例进行描述。

一般地，当车辆与其他对象(比如运动的物体，或静止的物体等)间的行驶轨迹存在冲突时，往往确定出的决策只有抢行或让行两种策略。但是这种“非黑即白”的抢让行决策，可能会出现决策跳动，导致车辆出现重刹/点刹甚至接管等情况，驾驶体验较差。示例性的，其他对象的行驶轨迹可以但不限于为车辆预测出的行驶轨迹，比如，当其他对象为静止的物体时，车辆可以为该物体预测出一个运动轨迹；当其他对象为运动的物体时，车辆也可以为该物体预测出一个运动轨迹。

有鉴于此，本申请实施例提供了一种控制方法，在车辆与其他对象(比如运动的物体，或静止的物体等)间的行驶轨迹存在碰撞可能性时，可以将车辆和其他对象划分为主动方和被动方，且主动方相对于被动方具有优先通行权。然后，可以控制车辆对其他对象的意图进行试探，当确定出其他对象的意图明显时，在做出最终的抢行或让行决策。由此实现缓慢加速抢行或缓慢减速让行的效果，提升驾驶体验。

示例性的，图2示出了一种车辆的硬件结构。如图2所示，该车辆100中可以包括：传感器组件110、融合单元120和智能驾驶功能组件130。传感器组件110与融合单元120之间通过接口140连接，融合单元120与智能驾驶功能组件130之间通过接口150连接，。

传感器组件110可以包括车姿传感器和/或感知传感器等。传感器组件110采集的数据可以通过接口140传输至融合单元120。车姿传感器可以实现获取车辆100的行驶状态信息，如速度、加速度、航向角、道路拓扑等等，以及获取车辆100的外部环境信息，如路况信息等。感知传感器可以实现获取车辆100外部的其他对象的信息，比如：行驶状态信息，如速度、航向角、位置、朝向、加速度、道路拓扑等等。可选地，车姿传感器可以包括陀螺仪传感器、雷达传感器、超声波传感器、相机、计算机视觉系统等中的一种或多种。其中，雷达传感器可以包括激光雷达传感器和/或毫米波雷达传感器等。感知传感器可以包括相机、雷达传感器、超声波传感器等中的一种或多种。

其中，雷达传感器可以用于利用无线电信号来感测车辆100周边环境中的物体，也可以感测物体的速度和/或行进方向等等。

相机可以用于捕捉车辆周边环境的多个图像。相机可以是静态相机或视频相机。

计算机视觉系统可以操作来处理和分析由相机捕捉的图像以便识别车辆周边环境中物体和/或特征。其中，物体和/或特征可以包括交通信号、道路边界、障碍物、其他对象等等。计算机视觉系统可以使用物体识别算法、运动中恢复结构(Structure from Motion，SFM)算法、视频跟踪和其他计算机视觉技术等。

融合单元120可以将传感器组件110采集的数据通过接口150传输至智能驾驶功能组件130，从而使得智能驾驶功能组件130可以基于传感器组件110采集的数据实现智能驾驶功能。

智能驾驶功能组件130可以通过接口150接收融合单元120传输的传感器组件110采集的数据，之后，基于接收到的数据，预测其他对象的行驶轨迹等，和/或，做出行驶决策，以实现智能驾驶功能，如自适应巡航(adaptive cruise control，ACC)、车道保持辅助(lane keeping assist，LKA)、高速公路辅助HWA(highway assist，HWA)、交通拥堵辅助(traffic jam assistant，TJA)等各种不同的智能驾驶/自动驾驶功能。

接口140可以实现传感器组件110和融合单元120间的数据传输，其可以是在ISO 130150中规定的传感器和融合单元之间的接口。接口150可以实现融合单元120和智能驾驶功能组件130之间的数据传输。接口150传输的消息内容可以包括以下一项或多项：车辆100的速度、航向角、历史轨迹信息、加速度、道路拓扑；其他对象的类型、速度、航向角、位置、朝向、加速度、道路拓扑等；车辆100与其他对象间的碰撞时间等。

在一些实施例中，智能驾驶功能组件130中可以包括物体决策模块和运动规划模块。其中，物体决策模块可以根据传感器组件110采集的数据等，确定车辆100沿着参考路径行驶时是否会与其他的交通参与者发生碰撞。例如，继续参阅图1，车辆100和200存在碰撞的情况。示例性的，参考路径可以是指车辆用于进行物体决策的参考基准，如当前道路的中心线等，该路径主要反应真实的地图信息，可以引导车辆的行驶方向。

另外，物体决策模块还可以对车辆100与其他的交通参与者存在冲突的情形进行划分，将两者划分为博弈对象或非博弈对象。其中，博弈对象是指两者之间存在相互影响。例如，继续参阅图1，车辆100的行驶决策(比如抢行或让行等)会对车辆200的行驶决策产生影响，同时，车辆200的行驶决策(比如抢行或让行等)也会对车辆100的行驶决策产生影响，因此车辆100和200为博弈对象。非博弈对象是指两者之间不存在相互影响。例如，在车辆100跟随其他车辆行驶的场景中，车辆100的行驶决策并不能影响位于其前方且同向行驶的车辆。在本申请实施例中主要是解决两者属于博弈对象时，如何做出行驶决策，以避免两者之间发生碰撞冲突。

运动规划模块可以根据物体决策模块做出的行驶决策，进行横向规划和纵向规划。横向规划是指在平行于参考路径(比如车道的中心线等)的方向，对应于车辆的避障、绕行等行为做出的规划。其中，横向规划可以具有坐标信息，但不具有速度信息。纵向规划是指在沿参考路径的方向，对应于车辆的加、减速等行为做出的规划。其中，纵向规划可以具有速度信息，但不具有坐标信息。示例性的，由于车辆的行驶轨迹主要是由坐标信息和速度信息组成，因此，横向规划和纵向规划可以共同组成车辆的行驶轨迹。

可以理解的是，本申请实施例示意的结构并不构成对车辆100的具体限定。在本申请另一些实施例中，车辆100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

接下来，基于上述内容，对本申请实施例提供的控制方法进行介绍。

示例性的，图3示出了一种控制方法。该方法中涉及的车辆可以但不限于为前述的车辆100。该方法涉及的场景可以但不限于是前述图1中所描述的车辆100和200间的行驶路线存在碰撞可能性的场景，即两车之间有一定的概率会发生碰撞的场景，当然也可以是车辆100和其他对象间的行驶路线存在碰撞可能性的场景。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。例如，可以通过车辆100中的处理器或者车载终端等执行，此处不做限定。如图3所示，该控制方法可以包括S301至S307，具体地：

S301、将目标车辆和目标对象划分为主动方和被动方，其中，主动方相对于被动方具有优先通行权,且目标车辆和目标对象存在碰撞可能性。

本实施例中，在目标车辆采集到环境中各个交通参与者的信息后，当目标车辆感知到其与其他的交通参与者(以下简称“目标对象”)存在碰撞可能性时，目标车辆可以根据交通规则，将其和目标对象划分为主动方和被动方，其中，主动方相对于被动方具有优先通行权。例如，继续参阅图1的(A)，根据交通规则，左转需让直行，因此，车辆100为主动方，车辆200为被动方。再例如，当目标车辆直行，目标对象转弯时，可以确定目标车辆为主动方，目标对象为被动方。当目标车辆转弯，目标对象直行时，可以确定目标车辆为被动方，目标对象为主动方。在一些实施例中，本申请实施例中的交通参与者可以为车辆，也可以为其他对象，此处不做限定。

S302、获取主动方可行的第一策略集合，第一策略集合中包括至少一个第一行驶策略。

本实施例中，第一策略集合可以预先存储在目标车辆中，也可以实时从网络中获取，亦可以实时计算，具体可根据实际情况而定，此处不做限定。其中，第一策略集合中包括至少一个第一行驶策略。示例性的，每个第一行驶策略均至少可以用于表征主动方在垂直于目标车辆所在车道的方向的一个可行信息(比如加速度等)和沿该车道的方向上一个可行的行驶信息(比如偏移量等)。

在一些实施例中，可以至少根据预先设定的加速度的采样空间、主动方的加速度所允许的范围，以及预先设定的横向偏移范围，确定出第一策略集合。例如，可以将预先设定的加速度的采样空间和主动方的加速度所允许的范围的交集作为第一策略集合中加速度的变化范围，以及将预先设定的横向偏移范围作为策略空间中的横向偏移的变化范围。举例来说，当目标车辆为主动方时，若预先设定的加速度的采样空间为[-4.0,3.0]m/s²，目标车辆允许的加速度区间为[-3.0,2.0]m/s²，则第一策略集合中的加速度的变化范围为[-3.0,2.0]m/s²。若预先设定的横向偏移范围为[-1,1]m，则第一策略集合中的横向偏移的变化范围为[-1,1]m。

进一步地，考虑到计算复杂度和策略空间精度之间的平衡，可以设定第一策略集合中加速度的变化间隔，以及横向偏移的偏移间隔。例如，加速度可以每间隔1m/s²变化一次，横向偏移可以每间隔1m变化一次。

举例来说，若第一策略集合中的加速度的变化范围为[-3.0,2.0]m/s²，横向偏移的变化范围为[-1,1]m。此时，可以将加速度的变化间隔定为1m/s²，目标车辆的横向偏移可以定为在其保持当前车道中心行驶时，向左避让(即向左偏移车道中心线)1m，记为+1m，向右避让(即向右偏离车道中心线)1m，记为-1m。最终可生成如表1所示的第一策略集合。在表1所示的策略集合中，一个加速度和一个横向偏移可以组成一个行驶策略，例如，加速度1m/s²和横向偏移-1m组成的行驶策略为：以加速度1m/s²，且向右偏离车道中心线1m行驶。

表1

在一些实施例中，在得到第一策略集合后，可以对该第一策略集合中的各个行驶策略进行时域推演，以形成主动方可行的行驶策略对应的第一轨迹集合。示例性的，在进行时域推演时可以遵守主动方的系统延迟(比如由一个加速度向另一个加速度的过渡的时间等)，限速等约束，当主动方加速到道路限速后，推演保持在道路限速匀速推演。当第一策略集合中所有的行驶策略均推演完成后，即可以得到第一轨迹集合。示例性的，第一轨迹集合中可以包括有至少一个行驶轨迹，且，第一策略集合中的每个行驶策略均可以对应有一个行驶轨迹。

在得到第一策略集合后，可以执行S303。

S303、根据第一策略集合中的各个第一行驶策略、主动方当前时刻的行驶参数和被动方当前时刻的行驶参数，得到被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，第二行驶策略为以下任意一项：被动方仅抢行主动方，被动方仅让行主动方，或者，被动方既能抢行主动方，又能让行主动方。

本实施例中，可以根据主动方当前时刻的行驶参数(比如：速度、加速度、位置等)，以及各个第一行驶策略，计算主动方到达其与被动方发生碰撞的位置的时间。然后，在求解在各个第一行驶策略下，被动方以其当前时刻的行驶参数(比如：速度、加速度、位置等)为初始的参数行驶，能否与主动方错开一定的时间间隔和距离间隔通过两者发生碰撞的位置，以及，在能够与主动方错开一定的时间间隔和距离间隔通过两者发生碰撞的位置时，被动方所能够做出的动作，比如只能抢行主动方，或者只能让行主动方，或者，既能抢行主动方又能让行主动方等，以得到被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，从而得到第二策略集合。其中，第二行驶策略为以下任意一项：被动方仅抢行主动方，被动方仅让行主动方，或者，被动方既能抢行主动方，又能让行主动方。示例性的，当前时刻的行驶参数可以但不限于是指：在获取第一策略集合时观测到的行驶参数，或者，在求解第二策略集合时观测到的行驶参数，或者，在执行该方法前最新观测到的行驶参数。

在一些实施例中，可以使用二次规划(quadratic programming，QP)等算法，对主动方和被动方的行驶位置、行驶速度、加速度、动力学运动学约束、碰撞时间，以及道路规则等参数进行求解，以求解被动方加速/减速/避让的行驶轨迹，以及确定出被动方的行驶策略。示例性的，可以将目标对象的行驶速度、位置、朝向、加速度、道路拓扑等，输入至预训练得到的模型中，预测被动方的行驶轨迹和/或行驶策略。

举例来说，如图4所示，当车辆100为主动方，且在当前时刻，车辆100的速度为17km/h，车辆100当前的观测加速度为-0.67m/s²，道路静态限速60km/h。以车辆100的加速度为1m/s²，横向偏移为0m的行驶策略为例，使用QP求解可以得到车辆200(即被动方)的可行轨迹46。此时车辆100到轨迹冲突点43的距离为20.11m，当车辆100采用加速度为1m/s²进行行驶时，到达冲突点的时间为eTTC＝3.51s。

将以车辆100的宽度1.9m左右各阔开0.5m的宽度作为车辆100的安全通道(即线条41和42组成的区域)，车辆200沿其预测路径(即可行轨迹46)行驶，开始入侵车辆100的安全通道的点作为入侵点(即车辆200位于位置44时)，完全离开车辆100的安全通道的点作为离开点(即车辆200位于位置45时)。

则车辆200安全抢行车辆100和安全让行车辆100的条件为：让行车辆100时，车辆200到达入侵点的时间需要在车辆100通过轨迹冲突点43后一定时间。抢行车辆100时，车辆200到达离开点的时间，需要在车辆100到达轨迹冲突点43之前一段时间。示例性的，车辆200安全抢行/让行的时间间隔可以根据不同的场景，预先设定采用不同的安全时间间隔。例如：安全时间间隔可以采用1s，即车辆200如果抢行车辆100，需要在2.41s内离开车辆100所在的安全通道，车辆200如果让行车辆100，需要在4.41s后进入车辆100所在的安全通道。

车辆200到轨迹交点43的距离为11.92m，车辆200的观测加速度为0.0m/s²，当前速度为17km/h。考虑车辆100所在的安全通道宽度，和车辆200所在的道路拓扑角度，可以得到车辆200入侵点位置44据车辆200当前位置距离为7.63m，车辆200离开点位置45据车辆200当前位置距离为13.4m。则在车辆200的行驶策略求解中，如采用QP(二次规划)方法，对于让行策略求解时，4.41s前的所有最大位移约束为7.63m，对于抢行策略求解时，2.41s后的所有最小位移约束为13.4m。在求解过程中使用到的最大最小加速度约束，最大速度约束，可以根据车辆200运动学动力学约束及交通规则约束进行设置。

车辆100加速度为1m/s²，横向偏移为0m的行驶策略，可以同时求出符合上述条件的车辆200让行车辆100和抢行车辆100的解。即此时车辆200既可以抢行车辆100，也可以让行车辆100，此时车辆200的意图不明确。

对于剩余车辆100的行驶策略求解车辆200对应的行驶策略。当车辆100行驶策略为：横向偏移0m且加速度2m/s²时，可以求出车辆200让行车辆100的策略，而车辆200抢行车辆100的策略无论车辆200是否进行偏移，均无法满足安全错开约束条件和其他约束，从而无法求出可行解，所以此时车辆200只能让行车辆100，此时车辆200的意图是明确的。当车辆100行驶策略为：横向偏移0m且加速度为-3m/s²时，只能求出车辆200抢行车辆100的策略，所以此时车辆200只能抢行车辆100，此时车辆200的意图是明确的。当车辆100行驶策略为：横向偏移+1m(向左偏移)，且加速度为1m/s²时，无论车辆200是否进行偏移，均无法求出满足约束条件的车辆200抢行或让行车辆100的策略，所以此时无解，即无法安全抢行或让行车辆100。求解得到车辆200所有的行驶策略后，得到的第二策略集合可以如下表2所示。在表2中除第一列和第一行之外的内容即为车辆200(即被动方)的第二策略集合。例如，参阅表2，在主动方的行驶策略为“以横向偏移1m且加速度-3m/s²行驶”时，被动方的行驶策略为“抢行主动方”，即被动方仅能抢行主动方；在主动方的行驶策略为“以横向偏移0m且加速度1m/s²行驶”时，被动方的行驶策略为“抢行和让行主动方”，即被动方既能抢行主动方也能让行主动方；在主动方的行驶策略为“以横向偏移1m且加速度1m/s²行驶”时，被动方无法避免与主动方发生碰撞此时无法求出被动方的行驶策略，即“无解”。

表2

在一些实施例中，在基于第一策略集合、主动方当前时刻的行驶参数和被动方当前时刻的行驶参数，得到第二策略集合的过程中，可以根据该第一策略集合中的各个行驶策略对应的行驶轨迹，以及被动方安全抢行和/或让行主动方时所需满足的条件，对被动方的行驶轨迹进行时域推演，以形成被动方可行的行驶策略对应的第二轨迹集合。示例性的，在进行时域推演时可以遵守被动方的系统延迟(比如由一个加速度向另一个加速度的过渡的时间等)，限速等约束，当被动方加速到道路限速后，推演保持在道路限速匀速推演。当第二策略集合中所有的行驶策略均推演完成后，即可以得到第二轨迹集合。示例性的，第二轨迹集合中可以包括有至少一个行驶轨迹，且，第二策略集合中的每个行驶策略均可以对应有一个行驶轨迹。

在得到第二策略集合后，可以执行S304。

S304、根据第一策略集合和第二策略集合，确定目标策略对集合，目标策略对集合中包括至少一个可行策略对，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成。

本实施例中，在得到第一策略集合和第二策略集合后，可以由这两个策略集合确定出目标策略对集合，目标策略对集合中包括至少一个可行策略对，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成。例如，继续参阅表2，行驶策略“主动方以横向偏移1m且加速度-3m/s²行驶”和行驶策略“被动方抢行主动方”可以组成一个可行策略对，行驶策略“主动方以横向偏移0m且加速度1m/s²行驶”和行驶策略“被动方抢行和让行主动方”可以组成一个可行策略对。

另外，当被动方同时存在安全的既能抢行又能让行主动方的行驶策略时，由该行驶策略所组成的可行策略对可以称为双边解策略对。例如，继续参阅表2，行驶策略“主动方以横向偏移0m且加速度1m/s2行驶”和行驶策略“被动方抢行和让行主动方”组成的可行策略对，可以称之为双边解策略对。当被动方只能求出安全的抢行或让行主动方的行驶策略时，由该行驶策略所组成的可行策略对可以称为单边解策略对。例如，继续参阅表2，行驶策略“主动方以横向偏移1m且加速度-3m/s²行驶”和行驶策略“被动方抢行主动方”组成可行策略对，可以称之为单边解策略对。

S305、确定目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，第一代价集合中包括每个可行策略对的执行代价。

本实施例中，可以对目标策略对集合中各个可行策略的执行代价进行分析，得到第一代价集合。其中，第一代价集合中包括每个可行策略对所关联的执行代价。每个可行策略对所关联的代价用于指示执行该可行策略对的成本。

本实施例中，每个可行策略对所关联的执行代价均可以包括以下一项或多项：舒适性代价，通过性代价，偏移代价，不一致性代价，或，决策惩罚代价。

下面分别对各个代价进行介绍。

(1)舒适性代价

舒适性代价用于表征执行某个可行策略对时的舒适程度。其中，舒适性代价越高，舒适程度越低。在一些实施例中，对于主动方或被动方，其加速度变化率越小，相应的舒适性越好，则舒适性代价越小。

本实施例中，对于任意一个可行策略对，可以基于预设的舒适性代价函数，对主动方在其当前加速度下执行相应的行驶策略时的加速度变化量进行处理，以得到主动方在执行相应的行驶策略时的舒适性代价。同样的，可以基于预设的舒适性代价函数，对被动方在其当前加速度下执行相应的行驶策略时的加速度变化量进行处理，以得到被动方在执行相应的行驶策略时的舒适性代价。最后，可以将主动方的舒适性代价和被动方的舒适性代价进行加权求和(当然，也可以采用其他的计算方式，比如择一选择，求平均等，此处不做限定)，以得到相应的可行策略对所关联的舒适性代价。示例性的，主动方当前的加速度可以但不限于是指：在获取第一策略集合时观测到的主动方的加速度，或者，在求解第二策略集合时观测到的主动方的加速度，或者，在执行该方法前最新观测到的主动方的加速度。

举例来说，若预设的舒适性代价函数如图5所示，即y＝0.1429x，其中，x为横轴，y为纵轴。同时，图1中所描述的车辆100为主动方，车辆200为被动方，以及，车辆100当前的观测加速度为-0.67m/s²，车辆200当前的观测加速度为0m/s²。另外，第一策略集合可以如前述的表1所示，第二策略集合可以如前述的表2所示。在车辆100对应的加速度为1m/s2，且横向偏移0m的行驶策略下，车辆200对应的行驶策略为抢行和让行。同时，车辆200对应的行驶策略为抢行时，其加速度为1.45m/s²，其对应的行驶策略为让行时，其加速度为0.69m/s²。

其中，对于车辆100，在该可行策略对下，其加速度变化量为eDeltaAcc＝1-(-0.67)＝1.67m/s²，结合图5所示的舒适性代价函数，可以确定出车辆100的舒适性代价为eComfCost＝0.92×(1.67÷7)＝0.2205。其中,0.92为车辆100的舒适性代价的权重，该值可以基于实际情况进行设定。

对于车辆200，由于在该可行策略对下，其存在双边解(即：既可以抢行车辆100，也可以让行车辆100)，因此，车辆200的舒适性代价为抢行解和让行解对应的舒适性代价的平均(当然，也可以采用其他的计算方式，比如求和，择一选择等，此处不做限定)。其中，抢行解对应的加速度变化量为oDeltaAcc＝1.45-0＝1.45m/s²，此时的舒适性代价为oComfCost＝1.45÷7＝0.2071。让行解对应的加速度变化量为oDeltaAcc＝0.69-0＝0.69m/s²，此时的舒适性代价为oComfCost＝0.69÷7＝0.0986。车辆200在可行策略对下最终的舒适性代价oComfCost＝1×(0.2071+0.0986)÷2＝0.1529。其中,1为车辆200的舒适性代价的权重，该值可以基于实际情况进行设定。

进一步地，可以确定出该可行策略对所关联的舒适性代价oComfCost＝0.2205+0.1592＝0.3797。此时，主动方和被动方的权重均为1，当然也可以为其他的值，此处不做限定。对于其他的可行策略对所关联的舒适性代价，可以参考上述的计算方式，此处不再赘述。

(2)通过性代价

通过性代价用于表征主动方和/或被动方通过两者冲突点(即两者行驶路径的冲突点)的效率。其中，通过冲突点的时间越快，相应的通过性代价越小。

本实施例中，对于任意一个可行策略对，可以基于预设的通过性代价函数，对主动方执行该可行策略对中的行驶策略时通过相应的冲突点的时间(也可以称之为“第一时间”)，以及主动方在当前的加速度和速度下通过相应的冲突点的时间(也可以称之为“第二时间”)进行处理，以得到主动方在执行相应的行驶策略时的通过性代价。同样的，可以基于预设的通过性代价函数，对被动方执行该可行策略对中的行驶策略时通过相应的冲突点的时间(也可以称之为“第三时间”)，以及被动方在当前的加速度和速度下通过相应的冲突点的时间(也可以称之为“第四时间”)进行处理，以得到被动方在执行相应的行驶策略时的通过性代价。最后，可以将主动方的通过性代价和被动方的通过性代价进行加权求和(当然，也可以采用其他的计算方式，比如择一选择，求平均等，此处不做限定)，以得到相应的可行策略对所关联的通过性代价。

举例来说，若预设的通过性代价函数如图6所示，即y＝0.0833x+0.5，其中，x为横轴，y为纵轴，且图6中横轴为执行行驶策略通过冲突点的时间与正常(即不执行行驶策略)通过冲突点的时间的时间差。同时，图1中所描述的车辆100为主动方，车辆200为被动方。另外，若在推演过程中，车辆100在当前加速度和速度下，通过冲突点(也可以称之为“碰撞点”)的时间为eRealPassTime＝4.47s，车辆200在当前加速度和速度下，通过冲突点的时间为oRealPassTime＝2.52s。此外，第一策略集合可以如前述的表1所示，第二策略集合可以如前述的表2所示。在车辆100对应的加速度为1m/s2，且横向偏移0m的行驶策略下，车辆200对应的行驶策略为抢行和让行。

若在推演过程中，车辆100在该行驶策略下，通过冲突点的时间eSamplePassTime＝3.41s，与其正常通过冲突点的时间的通过时间差为eDeltaPassTime＝eSamplePassTime–eRealPassTime＝3.41-4.47＝-1.06。结合图6，可以确定出车辆100在该可行策略对下的通过性代价为ePassCost＝1×(0.0833×(-1.06)+0.5)＝0.4117。其中,1为车辆100的通过性代价的权重，该值可以基于实际情况进行设定。

若在推演过程中，车辆200在车辆100对应的行驶策略下，其让行通过冲突点的时间为oSamplePassTime＝5.02s，则该时间与其正常通过冲突点的时间的通过时间差为oDeltaPassTime＝oSamplePassTime–oRealPassTime＝5.02-2.52＝2.5s，则车辆200在让行时的通过性代价为oPassCost＝0.0833×2.5+0.5＝0.708。若车辆200抢行通过冲突点的时间为oSamplePassTime＝2.3s，则该时间与其正常通过冲突点的时间的通过时间差为oDeltaPassTime＝oSamplePassTime–oRealPassTime＝2.3-2.52＝-0.22，则车辆200在抢行时的通过性代价为oPassCost＝0.0833×(-0.22)+0.5＝0.4817。车辆200在可行策略对下最终的通过性代价为oPassCost＝1×(0.708+0.4871)÷ 2＝0.5976。其中,1为车辆200的通过性代价的权重，该值可以基于实际情况进行设定。应理解的是，在基于车辆200的抢行解对应的通过性代价和让行解对应的通过性代价，确定车辆200在可行策略对下最终的通过性代价时，也可以采用其他的计算方式，比如求和，择一选择等，此处不做限定。

进一步地，可以确定出该可行策略对所关联的通过性代价oComfCost＝0.4117+0.5976＝1.0093。此时，主动方和被动方的权重均为1，当然也可以为其他的值，此处不做限定。对于其他的可行策略对所关联的通过性代价，可以参考上述的计算方式，此处不再赘述。

(3)偏移代价

偏移代价用于表征对主动方和/或被动方在执行相应的行驶策略时发生偏移的评价。其中，当不需要偏移时，则偏移代价为0，当然也可以取其他的值，此处不做限定；当需要偏移时，可以基于预先设定的偏移量与偏移代价间的映射关系，以及，主动方执行相应的行驶策略时的偏移量，确定出主动方在执行相应的行驶策略时的偏移代价，和/或，基于预先设定的偏移量与偏移代价间的映射关系，以及，被动方执行相应的行驶策略时的偏移量，确定出被动方在执行相应的行驶策略时的偏移代价。最后，可以根据确定出的主动方在执行相应的行驶策略时的偏移代价和被动方在执行相应的行驶策略时的偏移代价，得到某个可行策略对所关联的偏移代价。

举例来说，若偏移为0m时，偏移代价取0，偏移为1m或-1m时，偏移代价为0.3。继续参阅图1，若车辆100为主动方，车辆200为被动方，且车辆100对应的行驶策略为前述表1中的行驶策略，车辆200对应的行驶策略为前述表2中的行驶策略。则，车辆100在加速度为1m/s²且横向偏移0m的行驶策略下，车辆100的偏移代价eOffsetCost＝0。在推演过程中，若在该行驶策略下，车辆200无需偏移，即可求出双边解，则车辆200的偏移代价oOffsetCost＝0。

进一步地，可以确定出该可行策略对所关联的偏移代价oComfCost＝0+0＝0；当然，也可以采用其他的计算方式，比如择一选择，求平均等，此处不做限定。此时，主动方和被动方的权重均为1，当然也可以为其他的值，此处不做限定。对于其他的可行策略对所关联的偏移代价，可以参考上述的计算方式，此处不再赘述。

(4)不一致性代价

不一致性代价用于表征在可行策略对中目标对象的行驶行为与目标对像实际的行驶行为间的偏差的评价。其主要是以被动方抢行主动方的概率为输入确定。其中，对于被动方抢行主动方的概率，可以将被动方和主动方的相对位置，相对速度，被动方的速度、位置、加速度，历史观测数据等，输入到预先设的模型中，以得到被动方抢行主动方的概率。

本实施例中，在求解被动方的行驶策略时，若可以求解出双边解，则不一致性代价可以为0.5，当然也可以是其他值，此处不做限定。当只能求出一个解，且该解为抢行时，不一致性代价可以为：1-被动方抢行主动方的概率。当只能求出一个解，且该解为让行时，不一致性代价可以为：被动方抢行主动方的概率。换言之，当某个策略对中目标对象的行驶策略为仅抢行目标车辆，或者，为仅让行目标车辆时，可以先确定目标对象抢行目标车辆的目标概率，然后在根据目标概率，确定该策略对所关联的不一致性代价；当某个策略对中目标对象的行驶策略为既能抢行目标车辆，又能让行目标车辆时，可以确定该策略对所关联的不一致性代价为预先设定的代价值。

举例来说，若被动方抢行主动方的概率为0.7，同时，图1中所描述的车辆100为主动方，车辆200为被动方，且第一策略集合可以如前述的表1所示，第二策略集合可以如前述的表2所示。

在车辆100对应的加速度为1m/s2，且横向偏移0m的行驶策略下，车辆200对应的行驶策略为抢行和让行，即存在双边解。因此，此时，车辆200的不一致性代价probCost＝0.3×0.5＝0.15。其中，0.3为不一致性代价权重，该值可以基于实际情况进行设定。

在车辆100对应的加速度为2m/s²，且横向偏移0m的行驶策略下，车辆200对应的行驶策略只能是让行。因此，此时，车辆200的不一致性代价probCost＝0.3×0.7＝0.21。其中，0.3为不一致性代价权重，该值可以基于实际情况进行设定。

在车辆100对应的加速度为-2m/s²，且横向偏移0m的行驶策略下，车辆200对应的行驶策略只能是抢行。因此，此时，车辆200的不一致性代价probCost＝0.3×(1-0.7)＝0.09。其中，0.3为不一致性代价权重，该值可以基于实际情况进行设定。

(5)决策惩罚代价

决策惩罚代价用于表征对动方的意图是否明确的评价。其可以是指基于主动方的行驶策略求解得到的被动方的行驶策略是单边解或双边解时对应的惩罚代价。其中，当求出的解中存在双边解时，表明被动方的意图还不明确，因此，可以设定当求出的解为单边解时惩罚高，当求出的解为双边解时惩罚低。示例性的，可以预先设定单边解双边解各自所对应的决策惩罚代价，即预先设定决策惩罚规则，然后在结合被动方的行驶策略，确定出相应的决策惩罚代价。例如，可以将单边解对应的决策惩罚代价设定为1，双边解对应的决策惩罚代价设定为0。

另外，在被动方求解出双边解时，若主动方在该行驶策略下的加速度与其当前的加速度的差值较大，执行该行驶策略时主动方的加速度变化量较大，影响驾驶体验，因此可以增加该双边解的惩罚。示例性的，可以基于预设的惩罚代价函数，对主动方在该行驶策略下的加速度与其当前的加速度的差值进行处理，以得到相应的可行策略对所关联的决策惩罚代价。然后，在根据确定出的该决策惩罚代价和被动方对应的决策惩罚代价，确定出最终的决策惩罚代价。

举例来说，若预设的惩罚代价函数如图7所示，即y＝0.333x，其中，x为横轴，y为纵轴。同时，图1中所描述的车辆100为主动方，车辆200为被动方，且第一策略集合可以如前述的表1所示，第二策略集合可以如前述的表2所示。

在车辆100对应的在加速度为1m/s²且横向偏移0m的行驶策略下，车辆200对应的行驶策略为抢行和让行，即存在双边解。因此，基础惩罚为eBasicPunishmentCost＝0。

进一步地，若车辆100的当前加速度为-0.67m/s²，则其加速度变化量为eDeltaAcc＝1-(-0.67)＝1.67m/s²。结合图7，可以得到该决策惩罚代价eDeltaAccPunishmentCost＝1×0.333×1.67＝0.55。其中，1为决策惩罚代价的权重，该值可以基于实际情况进行设定。

进一步地，可以确定出车辆100在加速度为1m/s²且横向偏移0m的行驶策略下的决策惩罚代价Cost＝0+0.55＝0.55。当然，也可以设定一定的权重值，比如，基础惩罚代价的权重为0.4，基于加速度变化量得到的惩罚代价的权重为0.6等，具体可根据实际情况而定，此处不做限定。

应理解的是，上述所描述的代价可以择一选取，也可以选取多个，具体可根据实际情况而定，此处不做限定。其中，当选取多个时，可以将这些代价进行加权求和或求平均等计算，并将最后的结果作为相应的可行策略对所关联的代价。另外，当第二策略集合中的行驶策略为无解时，可以将该行驶策略对应的可行策略对所关联的代价置为无穷大，即执行该可行策略对的成本非常大。

示例性的，以选取上述所描述的5个代价为例，对上述每一项代价进行求和，即可获得主动方在加速度为1m/s2且横向偏移0m的可行策略对所关联的的最终代价costTotal＝0.3797+1.0093+0+0.15+0.55＝2.089。

另外，对前述表1和表2所组成的每一个可行策略对均进行以上步骤的计算，可得如表3所示的所有的可行策略对下的总代价。其中，在表3中，除第一策略集合和第二策略集合之外的内容，即为各个可行策略对所关联的代价。

表3

在得到第一代价集合后可以执行S306。

S306、根据第一代价集合，确定目标行驶策略，目标行驶策略为与第一代价集合中最低的执行代价所关联的目标车辆的行驶策略。

本实施例中，在得到第一代价集合后，即可以根据第一代价集合，确定出目标行驶策略。其中，由于执行第一代价集合中最低的代价的成本最低，因此，可以将第一代价集合中最低的执行代价所关联的目标车辆的行驶策略，作为目标行驶策略。

作为一种可能的实现方式，当第一代价集合中最低的代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，或者，被动方仅让行主动方时，由于此时不论目标对象是主动方还是被动方，其行驶策略已经非常明确，其要么抢行，要么让行，因此，这时可以控制目标车辆执行与目标对象相反的行驶策略。示例性的，当目标对象的行驶策略为抢行目标车辆时，可以控制目标车辆迅速减速让行目标对象，即此时目标车辆的行驶策略为：让行目标对象；当目标对象的行驶策略为让行目标车辆时，可以控制目标车辆迅速加速抢行目标对象，即此时目标车辆的行驶策略为抢行目标对象，由此以使目标车辆快速响应目标对象的行驶意图。

作为另一种可能的实现方式，当第一代价集合中最低的代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方时，若目标车辆为主动方，目标对象为被动方，则此时目标对象的行驶意图还不明确，即目标对象既可以抢行目标车辆也可以让行目标车辆，此时若目标车辆贸然执行抢行或者让行，让行的决策，则容易出现重刹/点刹甚至接管等情况，驾驶体验较差。所以此时，可以根据第一代价集合中最低的代价所对应的可行策略对中的第一行驶策略，对目标车辆进行控制，以试探目标对象的行驶意图，即将第一代价集合中最低的代价所对应的可行策略对中的第一行驶策略，作为目标车辆的行驶策略。其中，由于此时目标车辆为主动方，所以目标车辆相对于目标对象具有较高优先通行权，即目标车辆的路权高于目标对象。同时，由于在行驶过程中往往是路权较低的一方需要让行路权较高的一方，因此可以控制目标车辆加速行驶、减速行驶或者匀速行驶，以试探目标对象的行驶意图。另外，在控制目标车辆加速或减速行驶时，为了降低车辆中人员的不适感，可以控制目标车辆的速度的变化量小于第一阈值，从而使得目标车辆可以缓慢加速或缓慢减速等。

作为又一种可能的实现方式，当第一代价集合中最低的代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方时，若目标车辆为被动方，目标对象为主动方，则此时目标对象的行驶意图还不明确，即目标对象既可以抢行目标车辆也可以让行目标车辆，此时若目标车辆贸然执行抢行或者让行的决策，则容易出现重刹/点刹甚至接管等情况，驾驶体验较差。另外，由于此时目标车辆为被动方，所以目标车辆相对于目标对象具有较低的优先通行权，即目标车辆的路权低于目标对象。同时，由于在行驶过程中往往是路权较低的一方需要让行路权较低的一方，因此可以控制目标车辆减速行驶，以试探目标对象的行驶意图。也即是说，此时目标车辆的行驶策略为：让行目标对象。另外，在控制目标车辆减速行驶时，为了降低车辆中人员的不适感，可以控制目标车辆的速度的变化量小于第二阈值，从而使得目标车辆可以缓慢减速。

也即是说，当第一代价集合中最低的代价所对应的可行策略对中被动方的行驶策略为单边解，且为抢行主动方时，主动方对被动方的纵向决策为让行。当该可行策略对中被动方的行驶策略为单边解，且为让行主动方时，主动方对被动方的纵向决策为抢行。当该可行策略对中被动方的行驶策略为双边解时，主动方对被动方的纵向决策为临界抢行/让行，即两者继续博弈。其中，当该可行策略对中被动方的行驶策略为双边解时，可以在横向上约束目标车辆避让的最大范围和最小范围，在纵向上约束目标车辆的速度的最大范围和最小范围，即进行双边约束。当该可行策略对中被动方的行驶策略为单边解时，在横向上约束目标车辆避让的最大范围或者最小范围，在纵向上约束目标车辆的速度的最大范围或者最小范围，即进行单边约束。

S307、根据目标行驶策略，对目标车辆进行控制。

本实施例中，在确定出目标行驶策略后，即可以根据该目标行驶策略，对目标车辆进行控制。示例性的，当目标行驶策略为：目标车辆抢行目标对象时，则控制目标车辆抢行目标对象；当目标行驶策略为：目标车辆让行目标对象时，则控制目标车辆让行目标对象；当目标行驶策略为：第一代价集合中最低的执行代价所关联的目标车辆的行驶策略时，则控制目标车辆执行该行驶策略，以及在间隔预设时间后，再次执行前述的S301至S307中的一个或多个步骤，一直这样循环下去，直至确定出目标车辆的行驶策略为仅抢行目标对象或者为仅让行目标对象。例如，当目标行驶策略为：第一代价集合中最低的执行代价所关联的目标车辆的行驶策略，且该行驶策略为：加速度为1m/s²且横向偏移0m时，则控制目标车辆以加速度为 1m/s2且横向偏移0m行驶。

这样，当目标车辆与目标对象距离较远时，目标对象抢行或让行目标车辆的行驶意图不明确，此时目标车辆可以做临界抢让行决策，即目标车辆可以继续向前行进并试探目标对象的行驶意图。当目标对象的行驶意图明确时，目标车辆可以基于目标对象的行驶意图，做出相应的调整，比如抢行目标对象，或者让行目标对象等。

由此，在主动方和被动方博弈初期或者一方的意图不明确的时期，可以通过双边约束准确控制横向规划/纵向规划的规划结果，并且随着决策约束由不确定性双边约束向确定性单边约束的连续性变化，做到自动驾驶系统面对博弈场景的类人，柔性连续决策。实现了在目标对象的行驶意图不明确时控制目标车辆缓慢加速或缓慢减速的效果，以及在目标对象的行驶意图明确时控制目标车辆快速响应目标对象的行驶意图的效果，避免了只有单边抢让行决策在交互过程中可能带来的因为决策跳变导致规划跳变，进而导致整个自动驾驶系统出现误刹/重刹或者突然抢行紧急接管，提升了驾驶体验。

可以理解的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。此外，在一些可能的实现方式中，上述实施例中的各步骤可以根据实际情况选择性执行，可以部分执行，也可以全部执行，此处不做限定。

基于上述实施例中的方法，本申请实施例提供了一种控制装置。

示例性的，图8示出了一种控制装置。如图8所示，该控制装置800可以包括：划分模块810和处理模块820。其中，划分模块810用于将目标车辆和目标对象划分为主动方和被动方，其中，主动方相对于被动方具有优先通行权,且目标车辆和目标对象存在碰撞可能性。处理模块820用于获取主动方可行的第一策略集合，第一策略集合中包括至少一个第一行驶策略。处理模块820还用于根据第一策略集合中的各个第一行驶策略、主动方当前时刻的行驶参数和被动方当前时刻的行驶参数，得到被动方在第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，第二行驶策略为以下任意一项：被动方仅抢行主动方，被动方仅让行主动方，或者，被动方既能抢行主动方，又能让行主动方。处理模块820还用于根据第一策略集合和第二策略集合，确定目标策略对集合，目标策略对集合中包括至少一个可行策略对，每个可行策略对均由一个第一行驶策略和一个第二行驶策略组成。处理模块820还用于确定目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，第一代价集合中包括每个可行策略对的执行代价。处理模块820还用于根据第一代价集合，确定目标行驶策略，目标行驶策略为与第一代价集合中最低的执行代价所关联的目标车辆的行驶策略。处理模块820还用于根据目标行驶策略，对目标车辆进行控制。

在一些实施例中，若目标车辆为主动方，目标对象为被动方时；处理模块820在根据第一代价集合，确定目标行驶策略时，具体用于：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆让行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆抢行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标代价所对应的可行策略对中的第一行驶策略。

在一些实施例中，若目标车辆为被动方，目标对象为主动方时；处理模块820在根据第一代价集合，确定目标行驶策略时，具体用于：若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅抢行主动方，则确定目标行驶策略为：目标车辆抢行目标对象，其中，目标代价为第一代价集合中最低的执行代价；若目标代价所对应的可行策略对中的第二行驶策略为：被动方仅让行主动方，则确定目标行驶策略为：目标车辆让行目标对象；若目标代价所对应的可行策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方，则确定目标行驶策略为：目标车辆让行目标对象。

在一些实施例中，可行策略对所关联的执行代价包括以下一项或多项：舒适性代价，用于表征执行可行策略对时的舒适程度；通过性代价，用于表征主动方和/或被动方通过两者冲突点的效率；偏移代价，用于表征对主动方和/或被动方在执行相应的行驶策略时发生偏移的评价；不一致性代价，用于表征在可行策略对中目标对象的行驶行为与目标对实际的行驶行为间的偏差的评价；或者，决策惩罚代价，用于表征对所被动方的意图是否明确的评价。

在一些实施例中，针对所有的可行策略对中的任意一个第一策略对，处理模块820在确定第一策略对所关联的舒适性代价时，具体用于：根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第一舒适性代价；根据第一策略对中的第二行驶策略对应的加速度和被动方当前的加速度，确定被动方在执行第一策略对中的第二行驶策略时的第二舒适性代价；根据第一舒适性代价和第二舒适性代价，确定第一策略对所关联的舒适性代价。

在一些实施例中，针对所有的可行策略对中的任意一个第一策略对，处理模块820在确定第一策略对所关联的通过性代价时，具体用于：根据第一时间和第二时间，确定主动方在执行第一策略对中的第一行驶策略时的第一通过性代价，其中，第一时间为主动方执行第一策略对中的第一行驶策略时通过目标点的时间，第二时间为主动方以其当前的速度和加速度通过目标点的时间，目标点为主动方的行驶路径和被动方的行驶路径的冲突点；根据第三时间和第四时间，确定被动方在执行第一策略对中的第二行驶策略时的第二通过性代价，其中，第三时间为被动方执行第一策略对中的第二行驶策略时通过目标点的时间，第四时间为被动方以其当前的速度和加速度通过目标点的时间；根据第一通过性代价和第二通过性代价，确定第一策略对所关联的通过性代价。

在一些实施例中，针对所有的可行策略对中的任意一个第一策略对，处理模块820在确定第一策略对所关联的偏移代价时，具体用于：基于预先设定的偏移量与偏移代价间的映射关系，以及，主动方执行第一策略对中的第一行驶策略时的偏移量，确定主动方在执行第一策略对中的第一行驶策略时的第一偏移代价；基于预先设定的偏移量与偏移代价间的映射关系，以及，被动方执行第一策略对中的第二行驶策略时的偏移量，确定被动方在执行第一策略对中的第二行驶策略时的第二偏移代价；根据第一偏移代价和第二偏移代价，确定第一策略对所关联的偏移代价。

在一些实施例中，针对所有的可行策略对中的任意一个第一策略对，处理模块820在确定第一策略对所关联的不一致性代价时，具体用于：当第一策略对中目标对象的行驶策略为仅抢行目标车辆，或者，为仅让行目标车辆时，确定目标对象抢行目标车辆的目标概率，以及，根据目标概率，确定不一致性代价；当第一策略对中目标对象的行驶策略为既能抢行目标车辆，又能让行目标车辆时，确定不一致性代价为预先设定的代价值。

在一些实施例中，针对所有的可行策略对中的任意一个第一策略对，处理模块820在确定第一策略对所关联的决策惩罚代价时，具体用于：基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价。

在一些实施例中，第一策略对中的第二行驶策略为：被动方既能抢行主动方，又能让行主动方；处理模块820在基于预先设定的决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一策略对所关联的决策惩罚代价时，具体用于：基于决策惩罚规则，以及，第一策略对中的第二行驶策略，确定第一决策惩罚代价；根据第一策略对中的第一行驶策略对应的加速度和主动方当前的加速度，确定主动方在执行第一策略对中的第一行驶策略时的第二决策惩罚代价；根据第一决策惩罚代价和第二决策惩罚代价，确定第一策略对所关联的决策惩罚代价。

应当理解的是，上述装置用于执行上述实施例中的方法，装置中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该装置的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的装置，本申请实施例提供了一种车辆，该车辆可以包括图8中所示的控制装置800。

基于上述实施例中的方法，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

一种控制方法，其特征在于，包括：

将目标车辆和目标对象划分为主动方和被动方，其中，所述主动方相对于所述被动方具有优先通行权,且所述目标车辆和所述目标对象存在碰撞可能性；

获取所述主动方可行的第一策略集合，所述第一策略集合中包括至少一个第一行驶策略；

根据所述第一策略集合中的各个第一行驶策略、所述主动方当前时刻的行驶参数和所述被动方当前时刻的行驶参数，得到所述被动方在所述第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，所述第二行驶策略为以下任意一项：所述被动方仅抢行所述主动方，所述被动方仅让行所述主动方，或者，所述被动方既能抢行所述主动方，又能让行所述主动方；

根据所述第一策略集合和所述第二策略集合，确定目标策略对集合，所述目标策略对集合中包括至少一个可行策略对，每个所述可行策略对均由一个所述第一行驶策略和一个所述第二行驶策略组成；

确定所述目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，所述第一代价集合中包括每个所述可行策略对的执行代价；

根据所述第一代价集合，确定目标行驶策略，所述目标行驶策略为与所述第一代价集合中最低的执行代价所关联的所述目标车辆的行驶策略；

根据所述目标行驶策略，对所述目标车辆进行控制。
根据权利要求1所述的方法，其特征在于，若所述目标车辆为主动方，所述目标对象为被动方时；

所述根据所述第一代价集合，确定目标行驶策略，具体包括：

若目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅抢行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象，其中，所述目标代价为所述第一代价集合中最低的执行代价；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅让行所述主动方，则确定所述目标行驶策略为：所述目标车辆抢行所述目标对象；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方，则确定所述目标行驶策略为：所述目标代价所对应的可行策略对中的第一行驶策略。
根据权利要求1所述的方法，其特征在于，若所述目标车辆为被动方，所述目标对象为主动方时；

所述根据所述第一代价集合，确定目标行驶策略，具体包括：

若目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅抢行所述主动方，则确定所述目标行驶策略为：所述目标车辆抢行所述目标对象，其中，所述目标代价为所述第一代价集合中最低的执行代价；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅让行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象。
根据权利要求1-3任一所述的方法，其特征在于，所述可行策略对所关联的执行代价包括以下一项或多项：

舒适性代价，用于表征执行所述可行策略对时的舒适程度；

通过性代价，用于表征所述主动方和/或所述被动方通过两者冲突点的效率；

偏移代价，用于表征对所述主动方和/或所述被动方在执行相应的行驶策略时发生偏移的评价；

不一致性代价，用于表征在所述可行策略对中所述目标对象的行驶行为与所述目标对像实际的行驶行为间的偏差的评价；

或者，决策惩罚代价，用于表征对所述被动方的意图是否明确的评价。
根据权利要求4所述的方法，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，确定所述第一策略对所关联的舒适性代价，具体包括：

根据所述第一策略对中的第一行驶策略对应的加速度和所述主动方当前的加速度，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一舒适性代价；

根据所述第一策略对中的第二行驶策略对应的加速度和所述被动方当前的加速度，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二舒适性代价；

根据所述第一舒适性代价和所述第二舒适性代价，确定所述第一策略对所关联的舒适性代价。
根据权利要求4或5所述的方法，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，确定所述第一策略对所关联的通过性代价，具体包括：

根据第一时间和第二时间，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一通过性代价，其中，所述第一时间为所述主动方执行所述第一策略对中的第一行驶策略时通过所述目标点的时间，所述第二时间为所述主动方以其当前的速度和加速度通过所述目标点的时间，所述目标点为所述主动方的行驶路径和所述被动方的行驶路径的冲突点；

根据第三时间和第四时间，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二通过性代价，其中，所述第三时间为所述被动方执行所述第一策略对中的第二行驶策略时通过所述目标点的时间，所述第四时间为所述被动方以其当前的速度和加速度通过所述目标点的时间；

根据所述第一通过性代价和所述第二通过性代价，确定所述第一策略对所关联的通过性代价。
根据权利要求4-6任一所述的方法，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，确定所述第一策略对所关联的偏移代价，具体包括：

基于预先设定的偏移量与偏移代价间的映射关系，以及，所述主动方执行所述第一策略对中的第一行驶策略时的偏移量，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一偏移代价；

基于所述预先设定的偏移量与偏移代价间的映射关系，以及，所述被动方执行所述第一策略对中的第二行驶策略时的偏移量，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二偏移代价；

根据所述第一偏移代价和所述第二偏移代价，确定所述第一策略对所关联的偏移代价。
根据权利要求4-7任一的方法，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，确定所述第一策略对所关联的不一致性代价，具体包括：

当所述第一策略对中所述目标对象的行驶策略为仅抢行所述目标车辆，或者，为仅让行所述目标车辆时，确定所述目标对象抢行所述目标车辆的目标概率，以及，根据所述目标概率，确定所述不一致性代价；

当所述第一策略对中所述目标对象的行驶策略为既能抢行所述目标车辆，又能让行所述目标车辆时，确定所述不一致性代价为预先设定的代价值。
根据权利要求4-8任一所述的方法，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，确定所述第一策略对所关联的决策惩罚代价，具体包括：

基于预先设定的决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定所述第一策略对所关联的决策惩罚代价。
根据权利要求9所述的方法，其特征在于，所述第一策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方；

所述基于预先设定的决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定所述第一策略对所关联的决策惩罚代价，具体包括：

基于所述决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定第一决策惩罚代价；

根据所述第一策略对中的第一行驶策略对应的加速度和所述主动方当前的加速度，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第二决策惩罚代价；

根据所述第一决策惩罚代价和所述第二决策惩罚代价，确定所述第一策略对所关联的决策惩罚代价。
一种控制装置，其特征在于，所述装置包括：

划分模块，用于将目标车辆和目标对象划分为主动方和被动方，其中，所述主动方相对于所述被动方具有优先通行权,且所述目标车辆和所述目标对象存在碰撞可能性；

处理模块，用于获取所述主动方可行的第一策略集合，所述第一策略集合中包括至少一个第一行驶策略；

所述处理模块，还用于根据所述第一策略集合中的各个第一行驶策略、所述主动方当前时刻的行驶参数和所述被动方当前时刻的行驶参数，得到所述被动方在所述第一策略集合中各个第一行驶策略下的第二行驶策略，以得到第二策略集合，其中，所述第二行驶策略为以下任意一项：所述被动方仅抢行所述主动方，所述被动方仅让行所述主动方，或者，所述被动方既能抢行所述主动方，又能让行所述主动方；

所述处理模块，还用于根据所述第一策略集合和所述第二策略集合，确定目标策略对集合，所述目标策略对集合中包括至少一个可行策略对，每个所述可行策略对均由一个所述第一行驶策略和一个所述第二行驶策略组成；

所述处理模块，还用于确定所述目标策略对集合中各个可行策略对的执行代价，得到第一代价集合，所述第一代价集合中包括每个所述可行策略对的执行代价；

所述处理模块，还用于根据所述第一代价集合，确定目标行驶策略，所述目标行驶策略为与所述第一代价集合中最低的执行代价所关联的所述目标车辆的行驶策略；

所述处理模块，还用于根据所述目标行驶策略，对所述目标车辆进行控制。
根据权利要求11所述的装置，其特征在于，若所述目标车辆为主动方，所述目标对象为被动方时；

所述处理模块在根据所述第一代价集合，确定目标行驶策略时，具体用于：

若目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅抢行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象，其中，所述目标代价为所述第一代价集合中最低的执行代价；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅让行所述主动方，则确定所述目标行驶策略为：所述目标车辆抢行所述目标对象；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方，则确定所述目标行驶策略为：所述目标代价所对应的可行策略对中的第一行驶策略。
根据权利要求11所述的装置，其特征在于，若所述目标车辆为被动方，所述目标对象为主动方时；

所述处理模块在根据所述第一代价集合，确定目标行驶策略时，具体用于：

若目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅抢行所述主动方，则确定所述目标行驶策略为：所述目标车辆抢行所述目标对象，其中，所述目标代价为所述第一代价集合中最低的执行代价；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方仅让行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象；

若所述目标代价所对应的可行策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方，则确定所述目标行驶策略为：所述目标车辆让行所述目标对象。
根据权利要求11-13任一所述的装置，其特征在于，所述可行策略对所关联的执行代价包括以下一项或多项：

舒适性代价，用于表征执行所述可行策略对时的舒适程度；

通过性代价，用于表征所述主动方和/或所述被动方通过两者冲突点的效率；

偏移代价，用于表征对所述主动方和/或所述被动方在执行相应的行驶策略时发生偏移的评价；

不一致性代价，用于表征在所述可行策略对中所述目标对象的行驶行为与所述目标对像实际的行驶行为间的偏差的评价；

或者，决策惩罚代价，用于表征对所述被动方的意图是否明确的评价。
根据权利要求14所述的装置，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，所述处理模块在确定所述第一策略对所关联的舒适性代价时，具体用于：

根据所述第一策略对中的第一行驶策略对应的加速度和所述主动方当前的加速度，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一舒适性代价；

根据所述第一策略对中的第二行驶策略对应的加速度和所述被动方当前的加速度，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二舒适性代价；

根据所述第一舒适性代价和所述第二舒适性代价，确定所述第一策略对所关联的舒适性代价。
根据权利要求14或15所述的装置，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，所述处理模块在确定所述第一策略对所关联的通过性代价时，具体用于：

根据第一时间和第二时间，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一通过性代价，其中，所述第一时间为所述主动方执行所述第一策略对中的第一行驶策略时通过所述目标点的时间，所述第二时间为所述主动方以其当前的速度和加速度通过所述目标点的时间，所述目标点为所述主动方的行驶路径和所述被动方的行驶路径的冲突点；

根据第三时间和第四时间，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二通过性代价，其中，所述第三时间为所述被动方执行所述第一策略对中的第二行驶策略时通过所述目标点的时间，所述第四时间为所述被动方以其当前的速度和加速度通过所述目标点的时间；

根据所述第一通过性代价和所述第二通过性代价，确定所述第一策略对所关联的通过性代价。
根据权利要求14-16任一所述的装置，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，所述处理模块在确定所述第一策略对所关联的偏移代价时，具体用于：

基于预先设定的偏移量与偏移代价间的映射关系，以及，所述主动方执行所述第一策略对中的第一行驶策略时的偏移量，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第一偏移代价；

基于所述预先设定的偏移量与偏移代价间的映射关系，以及，所述被动方执行所述第一策略对中的第二行驶策略时的偏移量，确定所述被动方在执行所述第一策略对中的第二行驶策略时的第二偏移代价；

根据所述第一偏移代价和所述第二偏移代价，确定所述第一策略对所关联的偏移代价。
根据权利要求14-17任一的装置，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，所述处理模块在确定所述第一策略对所关联的不一致性代价时，具体用于：

当所述第一策略对中所述目标对象的行驶策略为仅抢行所述目标车辆，或者，为仅让行所述目标车辆时，确定所述目标对象抢行所述目标车辆的目标概率，以及，根据所述目标概率，确定所述不一致性代价；

当所述第一策略对中所述目标对象的行驶策略为既能抢行所述目标车辆，又能让行所述目标车辆时，确定所述不一致性代价为预先设定的代价值。
根据权利要求14-18任一所述的装置，其特征在于，针对所有的所述可行策略对中的任意一个第一策略对，所述处理模块在确定所述第一策略对所关联的决策惩罚代价时，具体用于：

基于预先设定的决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定所述第一策略对所关联的决策惩罚代价。
根据权利要求19所述的装置，其特征在于，所述第一策略对中的第二行驶策略为：所述被动方既能抢行所述主动方，又能让行所述主动方；

所述处理模块在基于预先设定的决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定所述第一策略对所关联的决策惩罚代价时，具体用于：

基于所述决策惩罚规则，以及，所述第一策略对中的第二行驶策略，确定第一决策惩罚代价；

根据所述第一策略对中的第一行驶策略对应的加速度和所述主动方当前的加速度，确定所述主动方在执行所述第一策略对中的第一行驶策略时的第二决策惩罚代价；

根据所述第一决策惩罚代价和所述第二决策惩罚代价，确定所述第一策略对所关联的决策惩罚代价。
一种车辆，其特征在于，包括如权利要求11-20任一所述的控制装置。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-10任一所述的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在处理器上运行时，使得所述处理器执行如权利要求1-10任一所述的方法。