WO2023011172A1

WO2023011172A1 - 一种驾驶行为确定方法及其相关设备

Info

Publication number: WO2023011172A1
Application number: PCT/CN2022/106622
Authority: WO
Inventors: 王志涛; 李威; 程思源; 陈玉莹; 车玉涵
Original assignee: 华为技术有限公司
Priority date: 2021-07-31
Filing date: 2022-07-20
Publication date: 2023-02-09
Also published as: US20240166201A1; CN113635896B; EP4378781A1; CN113635896A

Abstract

本申请提供一种驾驶行为确定方法及其相关设备，可规避自动驾驶的潜在风险，提高自动驾驶的安全等级。本申请的方法包括：获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据；根据第一驾驶数据和第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合；通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为；若驾驶行为集合包含预测驾驶行为，则将预测驾驶行为确定为第一车辆即将执行的驾驶行为。

Description

一种驾驶行为确定方法及其相关设备

本申请要求于2021年7月31日提交中国专利局、申请号为202110877092.1、发明名称为“一种驾驶行为确定方法及其相关设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种驾驶行为确定方法及其相关设备。

背景技术

随着自动驾驶技术的快速发展，越来越多的企业在研发或已量产，可在实际车道中控制车辆自行行驶的驾驶系统，从而使得安装该驾驶系统的车辆具备无人干预的自动驾驶功能。

目前的自动驾驶方案，通常基于神经网络模型实现。为了便于介绍，下文以第一车辆和第二车辆进行说明。在第一车辆行驶的过程中，若第一车辆周围出现第二车辆，第一车辆可获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据，并通过已训练好的目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆即将执行的驾驶行为。

由于目标模型在训练过程中，可以学习人类驾驶数据的特征，故目标模型所得到的第一车辆即将执行的驾驶行为可具备一定的类人性，但往往忽略了安全性，导致第一车辆在自动驾驶过程中具有一定的潜在风险。

发明内容

本申请实施例提供了一种驾驶行为确定方法及其相关设备，可规避自动驾驶的潜在风险，提高自动驾驶的安全等级。

本申请实施例的第一方面提供了一种驾驶行为确定方法，该方法包括：

在第一车辆的行驶过程中，第一车辆可通过第一车辆上安装的各种传感器，采集第一车辆的第一驾驶数据和第二车辆的第二驾驶数据。

得到第一驾驶数据和第二驾驶数据，第一车辆可根据第一驾驶数据和第二驾驶数据进行推演，从而得到第一车辆对第二车辆未有碰撞风险的驾驶行为集合。可以理解的是，该驾驶行为集合中包含至少一个第一车辆对第二车辆未有碰撞风险的驾驶行为，即具备一定安全性的驾驶行为。例如，驾驶行为集合包含抢行和让行这两个驾驶行为，即第一车辆如果采取抢行或让行，第一车辆与第二车辆均不会发生碰撞。

接着，第一车辆可将第一驾驶数据和第二驾驶数据输入至目标模型(即已完成训练的神经网络模型)，以通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为。

若驾驶行为集合包含预测驾驶行为，第一车辆则确定目标模型所得到的预测驾驶行为是安全的驾驶行为，故第一车辆可将预测驾驶行为确定为第一车辆在实际行驶中即将执行的驾驶行为。

从上述方法可以看出：在获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据后，第一车辆可根据第一驾驶数据和第二驾驶数据获取驾驶行为集合。然后，第一车辆通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为。由于驾驶行为集合为第一车辆对第二车辆未有碰撞风险的驾驶行为的集合，若驾驶行为集合包含预测驾驶行为，第一车辆可确定预测驾驶行为是安全的驾驶行为，故可将预测驾驶行为确定为第一车辆在实际的自动驾驶中即将执行的驾驶行为。如此一来，第一车辆在自动驾驶过程中所执行的均是具备一定安全性的驾驶行为，可规避自动驾驶的潜在风险，提高自动驾驶的安全等级。

在一种可能的实现方式中，该方法还包括：若驾驶行为集合未包含预测驾驶行为，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。前述实现方式中，若驾驶行为集合未包含预测驾驶行为，第一车辆则确定预测驾驶行为是不安全的驾驶行为，则不会使用目标模型得到的预测驾驶行为，而是从驾驶行为集合中，确定第一车辆即将执行的驾驶行为，进一步规避自动驾驶的潜在风险，提高自动驾驶的安全等级。

在一种可能的实现方式中，目标模型根据第三驾驶数据训练得到，通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为包括：若第一驾驶数据和第二驾驶数据位于预置的取值范围中，则通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为，预置的取值范围根据第三驾驶数据构建。前述实现方式中，第一车辆还可通过异常检测模型判断第一驾驶数据和第二驾驶数据是否均位于预置的取值范围中，以确定第一驾驶数据和第二驾驶数据是否均为正常的数据。若异常检测模型确定第一驾驶数据和第二驾驶数据均位于预置的取值范围中，第一车辆可认为第一驾驶数据和第二驾驶数据均为正常的数据，故可通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为。如此一来，可确保目标模型对正常的数据实现正确的泛化。

在一种可能的实现方式中，该方法还包括：若第一驾驶数据和/或第二驾驶数据位于预置的取值范围外，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。前述实现方式中，若异常检测模型确定第一驾驶数据和/或第二驾驶数据位于预置的取值范围外，第一车辆则认为第一驾驶数据和/或第二驾驶数据为异常的数据，故第一车辆不会继续使用目标模型对这些数据进行处理，而是从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。如此一来，可避免目标模型对异常的数据实现错误的泛化。

在一种可能的实现方式中，通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为包括：第一车辆先通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率。然后，第一车辆在多个候选驾驶行为中，将分布概率最大的候选驾驶行为确定为目标驾驶行为。最后，若目标驾驶行为的分布概率满足预置的条件，则将目标驾驶行为确定为第一车辆的预测驾驶行为。前述实现方式中，第一车辆在得到目标模型预测出的多个候选驾驶行为后，若多个候选驾驶行为中的目标驾驶行为的分布概率满足预置的条件，第一车辆可确定目标模型的预测是可信任的，故可将目标驾驶行为作为第一车辆的预测驾驶行为，并在后续步骤使用该预测驾驶行为。如此一来，可提高目标模型的可靠性，有利于基于目标模型的决策系统的落地。

在一种可能的实现方式中，该方法还包括：若目标候选驾驶行为的分布概率不满足条件，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。前述实现方式中，若目标驾驶行为的分布概率不满足预置的条件，第一车辆可确定目标模型的预测是不可信任的，则放弃使用目标模型所得到的目标驾驶行为，而是从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。如此一来，可进一步提高目标模型的可靠性，有利于基于目标模型的决策系统的落地。

在一种可能的实现方式中，该方法还包括：根据第一驾驶数据和第二驾驶数据，获取驾驶行为集合包含的至少一个候选驾驶行为的评分；从驾驶行为集合中，确定第一车辆即将执行的驾驶行为包括：从驾驶行为集合中，将评分最大的候选驾驶行为确定为第一车辆即将执行的驾驶行为。前述实现方式中，第一车辆还记录有驾驶行为集合中各个候选驾驶动作的评分，当第一车辆需要在驾驶行为集合中选择在实际行驶中即将执行的驾驶行为时，可在驾驶行为集合中，将评分最大的候选驾驶行为确定为其在实际行驶中即将执行的驾驶行为。

在一种可能的实现方式中，该条件为目标驾驶行为的分布概率大于或等于预置的第一阈值，或，根据目标驾驶行为的分布概率确定的方差小于或等于预置的第二阈值。

在一种可能的实现方式中，驾驶行为集合包含目标模型所得到的多个候选驾驶行为中的至少一个候选驾驶行为。

本申请实施例的第二方面提供了一种驾驶行为确定装置，该装置包括：第一获取模块，用于获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据；第二获取模块，用于根据第一驾驶数据和第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合；处理模块，用于通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为；第一确定模块，用于若驾驶行为集合包含预测驾驶行为，则将预测驾驶行为确定为第一车辆即将执行的驾驶行为。

从上述装置可以看出：在获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据后，第一车辆可根据第一驾驶数据和第二驾驶数据获取驾驶行为集合。然后，第一车辆通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为。由于驾驶行为集合为第一车辆对第二车辆未有碰撞风险的驾驶行为的集合，若驾驶行为集合包含预测驾驶行为，第一车辆可确定预测驾驶行为是安全的驾驶行为，故可将预测驾驶行为确定为第一车辆在实际的自动驾驶中即将执行的驾驶行为。如此一来，第一车辆在自动驾驶过程中所执行的均是具备一定安全性的驾驶行为，可规避自动驾驶的潜在风险，提高自动驾驶的安全等级。

在一种可能的实现方式中，该装置还包括：第二确定模块，用于若驾驶行为集合未包含预测驾驶行为，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

在一种可能的实现方式中，目标模型根据第三驾驶数据训练得到，处理模块，用于若第一驾驶数据和第二驾驶数据位于预置的取值范围中，则通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为，预置的取值范围根据第三驾驶数据构建。

在一种可能的实现方式中，该装置还包括：第三确定模块，用于若第一驾驶数据和/或第二驾驶数据位于预置的取值范围外，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

在一种可能的实现方式中，处理模块，用于：通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率；若多个候选驾驶行为中的目标驾驶行为的分布概率满足预置的条件，则将目标驾驶行为确定为第一车辆的预测驾驶行为，目标驾驶行为的分布概率在多个候选驾驶行为的分布概率中最大。

在一种可能的实现方式中，装置还包括：第四确定模块，用于若目标候选驾驶行为的分布概率不满足条件，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

在一种可能的实现方式中，条件为目标驾驶行为的分布概率大于或等于预置的第一阈值，或，根据目标驾驶行为的分布概率确定的方差小于或等于预置的第二阈值。

在一种可能的实现方式中，驾驶行为集合包含多个候选驾驶行为中的至少一个候选驾驶行为。

在一种可能的实现方式中，第二获取模块，还用于根据第一驾驶数据和第二驾驶数据，获取驾驶行为集合包含的至少一个候选驾驶行为的评分；第二确定模块、第三确定模块或第四确定模块，用于从驾驶行为集合中，将评分最大的候选驾驶行为确定为第一车辆即将执行的驾驶行为。

本申请实施例的第三方面提供了一种驾驶行为确定装置，该驾驶行为确定装置包括存储器和处理器；存储器存储有代码，处理器被配置为执行该代码，当该代码被执行时，驾驶行为确定装置执行如第一方面或第一方面的任意一种可能的实现方式所述的方法。

本申请实施例的第四方面提供了一种车辆，该车辆作为第一车辆，第一车辆包含如第三方面所述的驾驶行为确定装置。

本申请实施例的第五方面提供了一种计算机存储介质，该计算机存储介质存储有一个或多个指令，该指令在由一个或多个计算机执行时使得一个或多个计算机实施如第一方面或第一方面的任意一种可能的实现方式所述的方法。

本申请实施例的第六方面提供了一种计算机程序产品，该计算机程序产品存储有指令，该指令在由计算机执行时，使得计算机实施如第一方面或第一方面的任意一种可能的实现方式所述的方法。

本申请实施例中，在获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据后，第一车辆可根据第一驾驶数据和第二驾驶数据获取驾驶行为集合。然后，第一车辆通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为。由于驾驶行为集合为第一车辆对第二车辆未有碰撞风险的驾驶行为的集合，若驾驶行为集合包含预测驾驶行为，第一车辆可确定预测驾驶行为是安全的驾驶行为，故可将预测驾驶行为确定为第一车辆在实际的自动驾驶中即将执行的驾驶行为。如此一来，第一车辆在自动驾驶过程中所执行的均是具备一定安全性的驾驶行为，可规避自动驾驶的潜在风险，提高自动驾驶的安全等级。

附图说明

图1为本申请实施例提供的驾驶行为确定方法的一个示意图；

图2为本申请实施例提供的根据驾驶数据进行推演的一个示意图；

图3为本申请实施例提供的模型训练方法的一个示意图；

图4为本申请实施例提供的第一待训练模型的一个结构示意图；

图5为本申请实施例提供的取值范围的一个示意图；

图6为本申请实施例提供的驾驶行为确定装置的一个结构示意图；

图7为本申请实施例提供的模型训练装置的一个结构示意图；

图8为本申请实施例提供的执行设备的一个结构示意图；

图9为本申请实施例提供的训练设备的一个结构示意图；

图10为本申请实施例提供的芯片的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”并他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

人工智能(artificial intelligence，AI)技术实现。AI技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能的技术学科，AI技术通过感知环境、获取知识并使用知识获得最佳结果。换句话说，人工智能技术是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。利用人工智能实现自动驾驶是人工智能常见的一个应用方式。

目前的自动驾驶方案，可基于AI技术中的神经网络模型实现。为了便于介绍，下文以第一车辆和第二车辆进行说明。在第一车辆行驶的过程中，若第一车辆周围出现第二车辆，第一车辆可获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据，并通过已训练好的目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆即将执行的驾驶行为(例如，第一车辆对第二车辆进行抢行，又如，第一车辆对第二车辆进行让行等等)。那么，第一车辆可执行该驾驶行为，从而实现自动驾驶。

在现有技术中，由于目标模型在训练过程中，可以学习人类驾驶数据的特征，故目标模型所得到的第一车辆即将执行的驾驶行为可具备一定的类人性，但往往忽略了安全性，导致第一车辆在自动驾驶过程中具有一定的潜在风险。

为了解决上述问题，本申请实施例提供了一种驾驶行为确定方法，该方法可结合训练后的神经网络模型(即本申请实施例提及的目标模型)和训练后的异常检测模型实现。图1为本申请实施例提供的驾驶行为确定方法的一个示意图，如图1所示，该方法可由第一车辆的驾驶系统(下文将该方法的执行主体简称为第一车辆)实现，该方法包括：

101、获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据。

在第一车辆的行驶过程中，第一车辆可通过第一车辆上安装的各种传感器(例如，摄像头、雷达等等)，采集第一车辆的第一驾驶数据和位于第一车辆周围的第二车辆的第二驾驶数据。其中，第一驾驶数据可包含第一车辆的速度、第一车辆的位置、第一车辆的行驶时长以及第一车辆的行驶方向等数据，第二驾驶数据可包含第二车辆的速度、第二车辆的位置、第二车辆的行驶时长以及第二车辆的行驶方向等数据。

102、根据第一驾驶数据和第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合。

得到第一驾驶数据和第二驾驶数据后，第一车辆可根据第一驾驶数据和第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合。具体地，第一车辆可利用第一驾驶数据和第二驾驶数据进行推演，从而判断第一车辆在各种驾驶行为下，是否对第二车辆存在碰撞风险。

为了便于理解上述推演过程，下文结合图2对该过程作进一步的介绍，如图2所示(图2为本申请实施例提供的根据驾驶数据进行推演的一个示意图)，第一车辆可先根据第一车辆的驾驶数据，确定第一车辆的当前驾驶状态为在某个位置以某个速度准备左拐，同样地，第一车辆可根据第二车辆的驾驶数据，确定第二车辆的当前驾驶状态为在某个位置以某个速度直行。然后，第一车辆可为第一车辆和第二车辆假定不同的加速度，使得第一车辆和第二车辆在当前驾驶状态的基础上，按照设定的加速度进行仿真行驶，以推演第一车辆和第二车辆是否会发生碰撞，推演结果如表1所示：

表1

在表1中，第1行是为第一车辆假定的加速度，第1列是为第二车辆假定的加速度，其余列和其余行是评分，评分为-1表示有碰撞风险，评分大于-1表示未有碰撞风险(一般地，当评分大于-1时，评分越大，表示风险越低)。例如，第2行第2列的评分为-1，表示第一车辆按-4m/s^2的加速度进行仿真行驶(即第一车辆在推演过程中所执行的驾驶行为是让行)，且第二车辆按-4m/s^2的加速度进行仿真行驶(即第二车辆在推演过程中所执行的驾驶行为是让行)，在这种情况下，第一车辆与第二车辆有可能发生碰撞，即第一车辆的驾驶行为对第二车辆有碰撞风险，故第一车辆的驾驶行为的评分为-1。又如，第2行第8列的评分为0，表示第一车辆按2m/s^2的加速度进行仿真行驶(即第一车辆在推演过程中所执行的驾驶行为可是抢行)，且第二车辆按-4m/s^2的加速度进行仿真行驶(即第二车辆在推演过程中所执行的驾驶行为是让行)，在这种情况，第一车辆与第二车辆可能不发生碰撞，即第一车辆的驾驶行为对第二车辆未有碰撞风险，且第一车辆的驾驶行为的评分为0。再如，第9行第2列的评分为3，表示第一车辆按-4m/s^2的加速度进行仿真行驶(即第一车辆在推演过程中所执行的驾驶行为可是让行)，且第二车辆按3m/s^2的加速度进行仿真行驶(即第二车辆在推演过程中所执行的驾驶行为是抢行)，在这种情况，第一车辆与第二车辆可能不发生碰撞，即第一车辆的驾驶行为对第二车辆未有碰撞风险，且第一车辆的驾驶行为的评分为3。

可见，第一车辆若采取让行和抢行，第一车辆与第二车辆均可能不发生碰撞，故第一车辆可将让行和抢行均视为候选驾驶行为。因此，第一车辆可将这些候选驾驶行为，放入第一车辆对第二车辆未有碰撞风险的驾驶行为集合中，并记录驾驶行为集合中的各个候选驾驶行为的评分(例如，第一车辆记录让行的评分为3，记录抢行的评分为1等等)。

应理解，上述例子中，仅以驾驶行为集合中包含让行和抢行这两个候选驾驶行为进行示意性说明，若在表1中，第一车辆按1m/s^2、2m/s^2或3m/s^2的加速度进行仿真行驶时，评分均为-1，说明第一车辆一旦采取抢行，则可能与第二车辆碰撞，故第一车辆只将让行视为候选驾驶行为，那么，第一车辆对第二车辆未有碰撞风险的驾驶行为集合中则只包含一个候选驾驶行为。

还应理解，上述例子中，仅以第一车辆所记录的某个候选驾驶行为的评分为该候选驾驶行为的最高评分进行示意性说明，第一车辆所记录的该候选驾驶行为的评分也可以为该候选驾驶行为的平均评分(如表1所示的例子，第一车辆可记录让行的评分为(0×6+1×6+2×3+3×1)/16＝0.9，记录抢行的评分为(0×2+1×1)/3＝0.3)等等。

还应理解，上述例子中，仅以车辆抢让场景进行示意性说明，并不对本申请的驾驶场景构成限制。在车辆抢让场景中，第一车辆有两类驾驶行为，即抢行和让行，故驾驶行为集合中最少包含一个候选驾驶行为，最多包含两个候选驾驶行为。而在其余场景中，第一车辆可能有更多类驾驶行，故驾驶行为集合可包含更多的候选驾驶行为。例如，在超车场景中，第一车辆有三类驾驶行为，即加速、保持原速和减速，故驾驶行为集合中最少包含一个候选驾驶行为，最多包含三个候选驾驶行为等等。

103、检测第一驾驶数据和第二驾驶数据是否位于预置的取值范围中。

得到驾驶行为集合后，第一车辆可检测第一驾驶数据和第二驾驶数据是否位于预置的取值范围中，其中，预置的取值范围根据第三驾驶数据构建，第三驾驶数据为用于训练目标模型的数据，关于目标模型的介绍可参考步骤105的相关说明部分，此处先不展开。

具体地，第一车辆可先获取异常检测模型，异常检测模型可基于一些异常检测算法构建，例如，孤立森林算法等等。异常检测模型内预置有一个取值范围，该预置的取值范围为一个围绕第三驾驶数据所构建的取值范围，若异常检测模型确定驾驶数据位于该取值范围中，可认为驾驶数据为正常的数据，若异常检测模型确定驾驶数据位于该取值范围外，可认为驾驶数据为异常的数据。那么，第一车辆可将第一驾驶数据和第二驾驶数据输入异常检测模型，以通过异常检测模型判断第一驾驶数据和第二驾驶数据是否均位于预置的取值范围中，从而确定第一驾驶数据和第二驾驶数据是否为正常的数据。

104、若第一驾驶数据和/或第二驾驶数据位于预置的取值范围外，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

若异常检测模型确定第一驾驶数据和/或第二驾驶数据位于预置的取值范围外，第一车辆则认为第一驾驶数据和/或第二驾驶数据为异常的数据，故第一车辆可从驾驶行为集合中，挑选一个候选驾驶动作，并将该动作确定为第一车辆在实际行驶中即将执行的驾驶行为。具体地，第一车辆可通过多种方式挑选其在实际行驶中即将执行的驾驶行为，下文将分别进行介绍：

在一种可能的实现方式中，若驾驶行为集合中仅包含一个候选驾驶动作，第一车辆则直接将该候选驾驶动作确定为其在实际行驶中即将执行的驾驶行为。例如，设驾驶行为集合仅包含让行，第一车辆可直接确定其在实际行驶中即将执行的驾驶行为是让行。

在另一种可能的实现方式中，若驾驶行为集合中仅包含多个候选驾驶动作，由于第一车辆记录有驾驶行为集合中各个候选驾驶动作的评分，故第一车辆在驾驶行为集合中，可将评分最大的候选驾驶行为确定为其在实际行驶中即将执行的驾驶行为。例如，设驾驶行为集合包含让行和抢行，由于第一车辆所记录的让行的评分为0.9，第一车辆所记录的抢行的评分为0.3，故第一车辆可确定其在实际行驶中即将执行的驾驶行为是让行。

105、若第一驾驶数据和第二驾驶数据位于预置的取值范围中，则通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率。

106、检测多个候选驾驶行为中的目标驾驶行为的分布概率是否满足预置的条件,目标驾驶行为的分布概率在多个候选驾驶行为的分布概率中最大。

若异常检测模型确定第一驾驶数据和第二驾驶数据均位于预置的取值范围中，第一车辆则认为第一驾驶数据和第二驾驶数据均为正常的数据，故第一车辆可通过目标模型对第一驾驶数据和第二驾驶数据进行处理，以得到第一车辆的预测驾驶行为。

具体地，第一车辆可先获取目标模型，目标模型学习有人类驾驶的经验，故可用于根据车辆的驾驶数据预估车辆的驾驶行为。然后，第一车辆可将第一驾驶数据和第二驾驶数据输入目标模型，以通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到多个候选驾驶行为中每个候选驾驶行为的分布概率。

值得注意的是，目标模型包含相互独立的M个子模型，第一车辆可将第一驾驶数据和第二驾驶数据输入每个子模型，得到每个子模型输出的预测结果。在M个预测结果中，可能有部分预测结果为同一个候选驾驶行为，故第一车辆可计算这部分预测结果的数量与所有预测结果的数量之间的比值，作为该候选驾驶行为的分布概率。例如，在车辆抢让场景中，第一车辆将第一驾驶数据和第二驾驶数据输入至M个子模型后，有P个子模型的预测结果为让行，有K个子模型的预测结果为抢行，P+K＝M，P≥0，K≥0。那么，第一车辆可计算出让行的分布概率为P/M，抢行的分布概率为K/M。

得到每个候选驾驶行的分布概率后，第一车辆可将分布概率最大的候选驾驶行为作为目标驾驶行为，并检测目标驾驶行为的分布概率是否满足预置的条件，以确定目标模型的预测是否可信任，例如，设P/M＝0.8，K/M＝0.2，第一车辆则检测让行的分布概率(0.8)是否满足预置的条件。第一车辆可通过多种方式检测目标驾驶行为的分布概率是否满足预置的条件，下文将分别进行介绍：

在一种可能的实现方式中，第一车辆可检测目标驾驶行为的分布概率是否大于或等于预置的第一阈值，若目标驾驶行为的分布概率大于或等于第一阈值(第一阈值的大小可根据实际需求进行设置，此处不做限制)，第一车辆则认为目标模型的预测是可信任的，故执行步骤108，若目标驾驶行为的分布概率小于第一阈值，第一车辆则认为目标模型的预测是不可信任的，故执行步骤107。

在另一种可能的实现方式中，第一车辆根据目标驾驶行为的分布概率计算目标驾驶行为的方差，并检测该方差是否小于或等于预置的第二阈值(第二阈值的大小可根据实际需求进行设置，此处不做限制)，若该方差小于或等于第二阈值，第一车辆则认为目标模型的预测是可信任的，故执行步骤108，若该方差大于第二阈值，第一车辆则认为目标模型的预测是不可信任的，故执行步骤107。

应理解，驾驶行为集合中的驾驶行为，通常为目标模型所得到的多个候选驾驶行为中的至少一个候选驾驶行为。例如，在车辆抢让场景中，目标模型可得到让行和抢行这两个候选驾驶行为，驾驶行为集合可包含让行和抢行中的至少一个候选驾驶行为。又如，在超车场景中，目标模型可得到加速、保持原速和减速这三个候选驾驶行为，驾驶行为集合可包含加速、保持原速和减速中的至少一个候选驾驶行为等等。

107、若目标候选驾驶行为的分布概率不满足条件，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

若目标驾驶行为的分布概率不满足预置的条件，第一车辆则认为目标模型的预测是不可信任的，故第一车辆从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。第一车辆从驾驶行为集合中确定其即将执行的驾驶行为的说明，可参考步骤104的相关说明部分，此处不再赘述。

108、若目标驾驶行为的分布概率满足预置的条件，则将目标驾驶行为确定为第一车辆的预测驾驶行为。

若目标驾驶行为的分布概率满足预置的条件，第一车辆则认为目标模型的预测是可信任的，故第一车辆将目标驾驶行为确定为第一车辆的预测驾驶行为。例如，设第一阈值为0.7，由于让行的分布概率为(0.8)＞第一阈值(0.7)，故第一车辆将让行确定为第一车辆的预测驾驶行为。

109、检测驾驶行为集合是否包含预测驾驶行为。

得到第一车辆的预测驾驶行为后，第一车辆可检测驾驶行为集合是否包含预测驾驶行为，以确定预测驾驶行为是否为安全的驾驶行为。

110、若驾驶行为集合包含预测驾驶行为，则确定则将预测驾驶行为确定为第一车辆即将执行的驾驶行为。

若驾驶行为集合包含预测驾驶行为，第一车辆则确定预测驾驶行为是安全的驾驶行为，故第一车辆可将预测驾驶行为确定为其在实际行驶中即将执行的驾驶行为。例如，设驾驶行为集合包含让行和抢行，由于第一车辆的预测驾驶行为是让行，故第一车辆可确定其在实际行驶中即将执行的驾驶行为是让行。

111、若驾驶行为集合未包含预测驾驶行为，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

若驾驶行为集合包含预测驾驶行为，第一车辆则确定预测驾驶行为是不安全的驾驶行为，故第一车辆可从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。例如，设驾驶行为集合仅包含抢行，由于第一车辆的预测驾驶行为是让行，故第一车辆可确定其在实际行驶中即将执行的驾驶行为是强行。

进一步地，第一车辆还可通过异常检测模型确定驾驶数据是否异常，若驾驶数据为异常的数据，则不会继续通过神经网络模型(目标模型)对驾驶数据进行处理，避免神经网络模型对异常的数据实现错误的泛化。

更进一步地，第一车辆在得到神经网络模型预测出的候选驾驶行为后，可判断候选驾驶行为的分布概率是否满足预置的条件，以判断神经网络模型的预测是否可信任，可提高神经网络模型的可靠性，有利于基于神经网络模型的决策系统的落地。

以上是对本申请实施例提供的驾驶行为确定方法所进行的详细说明，下文将对本申请实施例提供的模型训练方法进行介绍，图3为本申请实施例提供的模型训练方法的一个示意图，该方法的执行主体既可以是第一车辆，也可以是第一车辆外的训练设备(例如，远端的服务器等等)，训练设备得到训练后的神经网络模型和训练后的异常检测模型后，再将这些模型部署于第一车辆中。如图3所示，该方法包括：

301、获取训练数据，训练数据包含第一车辆的人类驾驶数据和第二车辆的人类驾驶数据。

在需要对第一待训练模型和第二待训练模型进行训练时，可获取一批训练数据，该批训练数据包含多个训练数据对，每一个训练数据对包含一个第一车辆的人类驾驶数据以及一个第二车辆的人类驾驶数据。对于任意一个训练数据对而言，该训练数据对被标注有第一车辆在实际行驶中即将执行的真实驾驶行为，例如，对于某一个训练数据对而言，其标注的第一车辆在实际行驶中即将执行的真实驾驶行为是第一车辆即将对第二车辆进行抢行等等。

需要说明的是，第一待训练模型为待训练的神经网络模型，第二待训练模型为待训练的异常检测模型。具体地，第一待训练模型可包含待训练的M个子模型，M个子模型的结构通常是相同的。如图4所示(图4为本申请实施例提供的第一待训练模型的一个结构示意图)，每一个子模型均可包含长短期记忆网络(long short-term memory，LSTM)层、全连接(fully connected，FC)层以及softmax函数层等等。第二待训练模型可以为原始的孤立森林模型，也可以是其它原始的异常检测模型，此处不做限制。

302、通过第一待训练模型对训练数据进行处理，得到第一车辆的预估驾驶行为。

303、根据第一车辆的真实驾驶行为和第一车辆的预估驾驶行为，获取目标损失，目标损失用于指示第一车辆的真实驾驶行为和第一车辆的预估驾驶行为之间的差异。

304、根据目标损失对第一待训练模型的模型参数进行更新，直至满足模型训练条件，得到训练后的神经网络模型。

得到该批训练数据后，对于任意一个待训练的子模型，可将该批训练数据输入至该子模型，以通过该子模型对每个训练数据对进行处理，得到每个训练数据对对应的第一车辆的预估驾驶行为。

接着，可获取目标损失函数，并将每个训练数据对对应的第一车辆的预估驾驶行为和真实驾驶行为输入至目标损失函数，以得到目标损失，目标损失用于指示第一车辆的预估驾驶行为和真实驾驶行为之间的差异。

然后，可根据目标损失对该子模型的模型参数进行更新，并利用下一批训练数据对更新参数后的该子模型继续进行训练，直至满足模型训练条件(例如，目标损失达到收敛等等)，得到训练后的该子模型。同样地，其余子模型也可执行相同的训练过程，故可得到训练后的M个子模型，相当于得到训练后的神经网络模型(即前述的目标模型)。

需要说明的是，下一批训练数据通常是在当前批训练数据的基础上进行更新的，例如，对于当前批训练数据中的某一个训练数据对而言，若该训练数据对对应的预估驾驶行为是不安全的驾驶行为(即第一车辆若采取该预估驾驶行为，则会与第二车辆发生碰撞)，则可以将该训练数据对替换为新的训练数据对，若该训练数据对对应的预估驾驶行为是安全的驾驶行为，则可保留该训练数据对。如此一来，则可以将当前批训练数据更新为下一批训练数据。

应理解，前述的第三驾驶数据即为本实施例中所有用于训练第一待训练模型的数据(包含当前批训练数据和下一批训练数据等等)。

305、通过第二待训练模型对训练数据进行学习，得到训练后的异常检测模型。

得到训练后的神经网络模型后，可将所有用于训练第一待训练模型的数据输入至第二待训练模型，第二待训练模型可有效学习这些数据，将这些数据视为看过的数据，并基于这些数据划分出一个取值范围。完成取值范围的划分后，该模型则完成训练，相当于得到训练后的异常检测模型。

需要说明的是，异常检测模型所划分的取值范围是一个包围所有用于训练第一待训练模型的数据的取值范围，如图5所示(图5为本申请实施例提供的取值范围的一个示意图)，位于取值范围内的点即为所有用于训练第一待训练模型的数据，可认为是异常检测模型看过的数据(即正常的数据，如图5中的白点)，位于取值范围外的点即为异常检测模型未看过的数据(即异常的数据，如图5中的黑点)。

应理解，本实施例中，以完成第一待训练模型的训练后，再对第二待训练模型进行训练进行示意性说明，并不对训练两个模型的先后顺序构成限制，例如，第二待训练模型的训练和第一待训练模型的训练可并行进行，即每用一批训练数据训练第一待训练模型和第二待训练模型后，再用下一批训练数据训练第一待训练模型和第二待训练模型，直至完成两个模型的训练。

基于本申请实施例，可得到训练后的神经网络模型，该训练后的神经网络模型学习有人类驾驶的经验，故可用于根据车辆的驾驶数据预估车辆的驾驶行为，使得车辆在自动驾驶过程中所采取的驾驶行为具备一定的类人性。

进一步地，基于本申请实施例，还可得到训练后的异常检测模型，车辆可通过异常检测模型确定驾驶数据是否异常，若驾驶数据为异常的数据，则不会继续通过神经网络模型对驾驶数据进行处理，避免神经网络模型对异常的数据实现错误的泛化。

以上是对本申请实施例提供的模型训练方法所进行的详细说明，以下将对本申请实施例提供的驾驶行为确定装置进行介绍。图6为本申请实施例提供的驾驶行为确定装置的一个结构示意图，如图6所示，该装置部署于第一车辆中，该装置包括：

第一获取模块601，用于获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据；

第二获取模块602，用于根据第一驾驶数据和第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合；

处理模块603，用于通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为；

第一确定模块604，用于若驾驶行为集合包含预测驾驶行为，则将预测驾驶行为确定为第一车辆即将执行的驾驶行为。

在一种可能的实现方式中，目标模型根据第三驾驶数据训练得到，处理模块603，用于若第一驾驶数据和第二驾驶数据位于预置的取值范围中，则通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到第一车辆的预测驾驶行为，预置的取值范围根据第三驾驶数据构建。

在一种可能的实现方式中，处理模块603，用于：通过目标模型对第一驾驶数据和第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率；若多个候选驾驶行为中的目标驾驶行为的分布概率满足预置的条件，则将目标驾驶行为确定为第一车辆的预测驾驶行为，目标驾驶行为的分布概率在多个候选驾驶行为的分布概率中最大。

在一种可能的实现方式中，该装置还包括：第四确定模块，用于若目标候选驾驶行为的分布概率不满足条件，则从驾驶行为集合中，确定第一车辆即将执行的驾驶行为。

在一种可能的实现方式中，第二获取模块602，还用于根据第一驾驶数据和第二驾驶数据，获取驾驶行为集合包含的至少一个候选驾驶行为的评分；第二确定模块、第三确定模块或第四确定模块，用于从驾驶行为集合中，将评分最大的候选驾驶行为确定为第一车辆即将执行的驾驶行为。

以上是对本申请实施例提供的模型训练方法所进行的详细说明，以下将对本申请实施例提供的驾驶行为确定装置进行介绍。图7为本申请实施例提供的模型训练装置的一个结构示意图，如图7所示，该装置包括：

第一获取模块701，用于获取训练数据，训练数据包含第一车辆的人类驾驶数据和第二车辆的人类驾驶数据。

处理模块702，用于通过第一待训练模型对训练数据进行处理，得到第一车辆的预估驾驶行为。

第二获取模块703，用于根据第一车辆的真实驾驶行为和第一车辆的预估驾驶行为，获取目标损失，目标损失用于指示第一车辆的真实驾驶行为和第一车辆的预估驾驶行为之间的差异。

更新模块704，用于根据目标损失对第一待训练模型的模型参数进行更新，直至满足模型训练条件，得到训练后的神经网络模型；

学习模块705，用于通过第二待训练模型对训练数据进行学习，得到训练后的异常检测模型。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参考本申请实施例前述所示的方法实施例中的叙述，此处不再赘述。

本申请实施例还涉及一种执行设备，图8为本申请实施例提供的执行设备的一个结构示意图。如图8所示，执行设备800可以部署在第一车辆中，例如，第一车辆的驾驶系统等等，此处不做限定。其中，执行设备800上可部署有图6对应实施例中所描述的驾驶行为确定装置，用于实现图2对应实施例中驾驶行为确定的功能。具体的，执行设备800包括：接收器801、发射器802、处理器803和存储器804(其中执行设备800中的处理器803的数量可以一个或多个，图8中以一个处理器为例)，其中，处理器803可以包括应用处理器8031和通信处理器8032。在本申请的一些实施例中，接收器801、发射器802、处理器803和存储器804可通过总线或其它方式连接。

存储器804可以包括只读存储器和随机存取存储器，并向处理器803提供指令和数据。存储器804的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory，NVRAM)。存储器804存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。

处理器803控制执行设备的操作。具体的应用中，执行设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器803中，或者由处理器803实现。处理器803可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器803中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器803可以是通用处理器、数字信号处理器(digital signal processing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器803可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器804，处理器803读取存储器804中的信息，结合其硬件完成上述方法的步骤。

接收器801可用于接收输入的数字或字符信息，以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器802可用于通过第一接口输出数字或字符信息；发射器802还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器802还可以包括显示屏等显示设备。

本申请实施例中，在一种情况下，处理器803，用于实现图2对应实施例中的各个步骤。

本申请实施例还涉及一种训练设备，图9为本申请实施例提供的训练设备的一个结构示意图。如图9所示，训练设备900可部署于第一车辆中或第一车辆外(例如，由一个或多个服务器实现)，训练设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)914(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对训练设备中的一系列指令操作。更进一步地，中央处理器914可以设置为与存储介质930通信，在训练设备900上执行存储介质930中的一系列指令操作。

训练设备900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958；或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

具体的，训练设备可以执行图3对应实施例中的模型训练方法。

本申请实施例还涉及一种计算机存储介质，该计算机可读存储介质中存储有用于进行信号处理的程序，当其在计算机上运行时，使得计算机执行如前述执行设备所执行的步骤，或者，使得计算机执行如前述训练设备所执行的步骤。

本申请实施例还涉及一种计算机程序产品，该计算机程序产品存储有指令，该指令在由计算机执行时使得计算机执行如前述执行设备所执行的步骤，或者，使得计算机执行如前述训练设备所执行的步骤。

本申请实施例提供的执行设备、训练设备或终端设备具体可以为芯片，芯片包括：处理单元和通信单元，所述处理单元例如可以是处理器，所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令，以使执行设备内的芯片执行上述实施例描述的数据处理方法，或者，以使训练设备内的芯片执行上述实施例描述的数据处理方法。可选地，所述存储单元为所述芯片内的存储单元，如寄存器、缓存等，所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元，如只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。

具体的，请参阅图10，图10为本申请实施例提供的芯片的一个结构示意图，所述芯片可以表现为神经网络处理器NPU 1000，NPU 1000作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1003，通过控制器1004控制运算电路1003提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1003内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路1003是二维脉动阵列。运算电路1003还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1003是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1002中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1001中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1008中。

统一存储器1006用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(Direct Memory Access Controller，DMAC)1005，DMAC被搬运到权重存储器1002中。输入数据也通过DMAC被搬运到统一存储器1006中。

BIU为Bus Interface Unit即，总线接口单元1013，用于AXI总线与DMAC和取指存储器(Instruction Fetch Buffer，IFB)1009的交互。

总线接口单元1013(Bus Interface Unit，简称BIU)，用于取指存储器1009从外部存储器获取指令，还用于存储单元访问控制器1005从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器1006或将权重数据搬运到权重存储器1002中或将输入数据数据搬运到输入存储器1001中。

向量计算单元1007包括多个运算处理单元，在需要的情况下，对运算电路1003的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/全连接层网络计算，如Batch Normalization(批归一化)，像素级求和，对预测标签平面进行上采样等。

在一些实现中，向量计算单元1007能将经处理的输出的向量存储到统一存储器1006。例如，向量计算单元1007可以将线性函数；或，非线性函数应用到运算电路1003的输出，例如对卷积层提取的预测标签平面进行线性插值，再例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1007生成归一化的值、像素级求和的值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1003的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1004连接的取指存储器(instruction fetch buffer)1009，用于存储控制器1004使用的指令；

统一存储器1006，输入存储器1001，权重存储器1002以及取指存储器1009均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

其中，上述任一处提到的处理器，可以是一个通用中央处理器，微处理器，ASIC，或一个或多个用于控制上述程序执行的集成电路。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

一种驾驶行为确定方法，其特征在于，所述方法包括：

获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据；

根据所述第一驾驶数据和所述第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合；

通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为；

若所述驾驶行为集合包含所述预测驾驶行为，则将所述预测驾驶行为确定为所述第一车辆即将执行的驾驶行为。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述驾驶行为集合未包含所述预测驾驶行为，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求1或2所述的方法，其特征在于，所述目标模型根据第三驾驶数据训练得到，所述通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为包括：

若所述第一驾驶数据和所述第二驾驶数据位于预置的取值范围中，则通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为，所述预置的取值范围根据所述第三驾驶数据构建。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述第一驾驶数据和/或所述第二驾驶数据位于预置的取值范围外，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求1至4任意一项所述的方法，其特征在于，所述通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为包括：

通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率；

若多个候选驾驶行为中的目标驾驶行为的分布概率满足预置的条件，则将所述目标驾驶行为确定为第一车辆的预测驾驶行为，所述目标驾驶行为的分布概率在所述多个候选驾驶行为的分布概率中最大。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述目标候选驾驶行为的分布概率不满足所述条件，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求5或6所述的方法，其特征在于，所述条件为所述目标驾驶行为的分布概率大于或等于预置的第一阈值，或，根据所述目标驾驶行为的分布概率确定的方差小于或等于预置的第二阈值。
根据权利要求5至7任意一项所述的方法，其特征在于，所述驾驶行为集合包含所述多个候选驾驶行为中的至少一个候选驾驶行为。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述第一驾驶数据和所述第二驾驶数据，获取所述驾驶行为集合包含的至少一个候选驾驶行为的评分；

所述从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为包括：

从所述驾驶行为集合中，将评分最大的候选驾驶行为确定为所述第一车辆即将执行的驾驶行为。
一种驾驶行为确定装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一车辆的第一驾驶数据和第二车辆的第二驾驶数据；

第二获取模块，用于根据所述第一驾驶数据和所述第二驾驶数据，获取第一车辆对第二车辆未有碰撞风险的驾驶行为集合；

处理模块，用于通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为；

第一确定模块，用于若所述驾驶行为集合包含所述预测驾驶行为，则将所述预测驾驶行为确定为所述第一车辆即将执行的驾驶行为。
根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二确定模块，用于若所述驾驶行为集合未包含所述预测驾驶行为，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求10或11所述的装置，其特征在于，所述目标模型根据第三驾驶数据训练得到，所述处理模块，用于若所述第一驾驶数据和所述第二驾驶数据位于预置的取值范围中，则通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到第一车辆的预测驾驶行为，所述预置的取值范围根据所述第三驾驶数据构建。
根据权利要求12所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于若所述第一驾驶数据和/或所述第二驾驶数据位于预置的取值范围外，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求10至13任意一项所述的装置，其特征在于，所述处理模块，用于：

通过目标模型对所述第一驾驶数据和所述第二驾驶数据进行处理，得到多个候选驾驶行为的分布概率；

若多个候选驾驶行为中的目标驾驶行为的分布概率满足预置的条件，则将所述目标驾驶行为确定为第一车辆的预测驾驶行为，所述目标驾驶行为的分布概率在所述多个候选驾驶行为的分布概率中最大。
根据权利要求14所述的装置，其特征在于，所述装置还包括：

第四确定模块，用于若所述目标候选驾驶行为的分布概率不满足所述条件，则从所述驾驶行为集合中，确定所述第一车辆即将执行的驾驶行为。
根据权利要求14或15所述的装置，其特征在于，所述条件为所述目标驾驶行为的分布概率大于或等于预置的第一阈值，或，根据所述目标驾驶行为的分布概率确定的方差小于或等于预置的第二阈值。
根据权利要求14至16任意一项所述的装置，其特征在于，所述驾驶行为集合包含所述多个候选驾驶行为中的至少一个候选驾驶行为。
根据权利要求17所述的装置，其特征在于，所述第二获取模块，还用于根据所述第一驾驶数据和所述第二驾驶数据，获取所述驾驶行为集合包含的至少一个候选驾驶行为的评分；

所述第二确定模块、所述第三确定模块或第四确定模块，用于从所述驾驶行为集合中，将评分最大的候选驾驶行为确定为所述第一车辆即将执行的驾驶行为。
一种驾驶行为确定装置，其特征在于，所述驾驶行为确定装置包括存储器和处理器；所述存储器存储有代码，所述处理器被配置为执行所述代码，当所述代码被执行时，所述驾驶行为确定装置执行如权利要求1至9任一所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有一个或多个指令，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机实施权利要求1至9任一所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品存储有指令，所述指令在由计算机执行时，使得所述计算机实施权利要求1至9任意一项所述的方法。