WO2023221848A1

WO2023221848A1 - 车辆起步行为的预测方法、装置、存储介质及程序产品

Info

Publication number: WO2023221848A1
Application number: PCT/CN2023/093436
Authority: WO
Inventors: 葛彦悟; 李向旭; 张亦涵
Original assignee: 华为技术有限公司
Priority date: 2022-05-17
Filing date: 2023-05-11
Publication date: 2023-11-23
Also published as: CN117115776A

Abstract

本申请公开了一种车辆起步行为的预测方法、装置、存储介质及程序产品，属于智能驾驶技术领域。在该方法中，基于图像数据和主车运动数据来对障碍车的起步行为进行预测，无需激光雷达、毫米波雷达、超声波雷达等多个传感器采集的数据，从而减少了融合多源传感器所带来的感知结果存在抖动和误差的问题以及延迟较大的问题，还减少了由于主车定位结果不准所带来的预测结果有误的问题。另外，本方案也无需高精度地图，在无高精度地图和/或定位较差的场景中，本方案也能够得以应用。由此可见，本方案的预测精度、准确率和实时性更高，泛化性也更好。

Description

车辆起步行为的预测方法、装置、存储介质及程序产品

本申请要求于2022年5月17日提交的申请号为202210539732.2、发明名称为“车辆起步行为的预测方法、装置、存储介质及程序产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及智能驾驶技术领域，特别涉及一种车辆起步行为的预测方法、装置、存储介质及程序产品。

背景技术

对道路上的车辆进行行为预测，有利于提高车辆行驶的安全性。例如，在自动驾驶场景中，自动驾驶的车辆为主车，道路上其他车辆为障碍车，主车在行驶过程中，能够对障碍车进行行为预测，以便于根据预测结果来自动规划并控制主车的行驶轨迹，从而降低与障碍车碰撞的概率。其中，对障碍车的行为预测包括预测障碍车是否存在起步行为。

在相关技术中，主车获取多个传感器采集的环境数据，该多个传感器包括主车上的激光雷达、相机、毫米波雷达、超声波雷达等，主车对这些环境数据进行融合并确定障碍车的位置、速度、航向、所在车道线、红绿灯等感知信息，即融合多源传感器采集的环境数据来确定感知结果。然后，主车基于感知结果、主车定位结果以及高精度地图(high definition map，HDMAP)来预测障碍车是否存在起步行为。

然而，雷达的探测结果往往存在抖动和偏差，会影响障碍车起步行为预测的准确性。并且，在定位较差的环境中，如隧道、施工路段中，会存在主车定位结果不准的情况，也会影响障碍车起步行为预测的准确性，进而影响主车的正常行驶。另外，该多个传感器的帧率各不相同，要以最小帧率来融合多源传感器采集的环境数据，这样所得到感知结果的帧率较低，从而导致预测的实时性不高、时延较大。

发明内容

本申请提供了一种车辆起步行为的预测方法、装置、存储介质及程序产品，能够提高车辆起步行为的预测精度、准确率和实时性，本方案的泛化性也更好。所述技术方案如下：

第一方面，提供了一种车辆起步行为的预测方法，所述方法包括：

获取多帧图像和多组主车运动数据，该多组主车运动数据分别对应该多帧图像，该多帧图像是对主车周围的环境信息进行拍摄得到；对该多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，该多帧目标图像区域是该多帧图像中目标障碍车所在的区域；对该多帧图像中的道路结构进行识别，并结合该多帧目标图像区域，确定出多组道路结构数据，该多组道路结构数据分别表征该多帧图像中目标障碍车所在道路的道路结构；基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果，该预测结果用于指示相应图像中的目标障碍车是否存在起步行为。

在该方法中，基于图像数据和主车运动数据来对障碍车的起步行为进行预测，无需激光雷达、毫米波雷达、超声波雷达等多个传感器采集的数据，从而减少了融合多源传感器所带来的感知结果存在抖动和误差的问题以及延迟较大的问题，还减少了由于主车定位结果不准所带来的预测结果有误的问题。另外，本方案也无需高精度地图，在无高精度地图和/或定位较差的场景中，本方案也能够得以应用。由此可见，本方案的预测精度、准确率和实时性更高，泛化性也更好。

可选地，本方案中的主车运动数据包括主车的车速和横摆角速度中的至少一种数据。

可选地，本方案中的道路结构数据包括距离目标障碍车最近的车道线和道沿的位置中的至少一种数据。

可选地，基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果，包括：基于该多帧目标图像区域，确定该多帧图像中各帧图像对应的图像感知特征，该图像感知特征用于表征目标障碍车的运动特征和目标障碍车周围环境的环境特征；基于该多组主车运动数据，确定该多帧图像中各帧图像对应的主车感知特征，主车感知特征用于表征主车的运动特征；基于该多组道路结构数据，确定该多帧图像中各帧图像对应的道路感知特征，道路感知特征用于表征目标障碍车所在道路的结构特征；基于该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定该多帧图像中各帧图像对应的预测结果。应当理解，本方案通过感知图像中目标障碍车的运动特征和环境特征，以及主车的运动特征和目标障碍车所在道路的结构特征，进而预测障碍车是否存在起步行为。

可选地，基于该多帧目标图像区域，确定该多帧图像中各帧图像对应的图像感知特征，包括：将该多帧目标图像区域的图像数据输入共同特征提取网络，以得到图像共同特征；确定与该多帧目标图像区域一一对应的多组组合数据，每组组合数据包括相应一帧目标图像区域的图像数据和该图像共同特征；将该多组组合数据输入骨干网络，以得到该多帧图像中各帧图像对应的图像感知特征。应当理解，先提取出图像共同特征，图像共同特征在一定程度上表征了目标障碍车周围环境的静态特征。再将图像共同特征与各帧目标图像区域的图像数据进行组合，通过骨干网络提取出目标障碍车的动态特征以及环境的静态特征。

可选地，共同特征提取网络为多尺度的卷积神经网络。多尺度卷积能够有效对不同尺度的特征进行融合，更有利于提取到鲁棒性更强的图像共同特征。

可选地，基于该多组主车运动数据，确定该多帧图像中各帧图像对应的主车感知特征，包括：将该多组主车运动数据输入第一多层感知机，以得到该多帧图像中各帧图像对应的主车感知特征。

可选地，基于该多组道路结构数据，确定该多帧图像中各帧图像对应的道路感知特征，包括：将该多组道路结构数据输入第二多层感知机，以得到该多帧图像中各帧图像对应的道路感知特征。

可选地，基于该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定该多帧图像中各帧图像对应的预测结果，包括：将该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征输入帧间特征融合模型，以得到该多帧图像中各帧图像对应的融合特征；将该多帧图像中各帧图像对应的融合特征输入第三多层感知机，以得到该多帧图像中各帧图像对应的预测结果。应当理解的是，电子设备通过帧间特征融合模型既融合了同一帧图像对应的三种不同特征，还融合了帧间的特征。

可选地，该帧间特征融合模型包括串联的递归神经网络和注意力机制网络。值得注意的是，递归神经网络与注意力机制网络相结合，能够有效提高帧间特征的远近依赖性计算精度，即有效捕获帧间的远近依赖特征，也即有效融合帧间特征，能够降低预测结果的抖动，有效提升预测结果的精度和召回率。

第二方面，提供了一种车辆起步行为的预测装置，所述车辆起步行为的预测装置具有实现上述第一方面中车辆起步行为的预测方法行为的功能。所述车辆起步行为的预测装置包括一个或多个模块，该一个或多个模块用于实现上述第一方面所提供的车辆起步行为的预测方法。

也即是，提供了一种车辆起步行为的预测装置，该装置包括：

获取模块，用于获取多帧图像和多组主车运动数据，该多组主车运动数据分别对应该多帧图像，该多帧图像是对主车周围的环境信息进行拍摄得到；

第一确定模块，用于对该多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，该多帧目标图像区域是该多帧图像中目标障碍车所在的区域；

第二确定模块，用于对该多帧图像中的道路结构进行识别，并结合该多帧目标图像区域，确定出多组道路结构数据，该多组道路结构数据分别表征该多帧图像中目标障碍车所在道路的道路结构；

第三确定模块，用于基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果，该预测结果用于指示相应图像中的目标障碍车是否存在起步行为。

可选地，第三确定模块，包括：

第一确定子模块，用于基于该多帧目标图像区域，确定该多帧图像中各帧图像对应的图像感知特征，该图像感知特征用于表征目标障碍车的运动特征和目标障碍车周围环境的环境特征；

第二确定子模块，用于基于该多组主车运动数据，确定该多帧图像中各帧图像对应的主车感知特征，主车感知特征用于表征该主车的运动特征；

第三确定子模块，用于基于该多组道路结构数据，确定该多帧图像中各帧图像对应的道路感知特征，道路感知特征用于表征目标障碍车所在道路的结构特征；

第四确定子模块，用于基于该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定该多帧图像中各帧图像对应的预测结果。

可选地，第一确定子模块用于：

将该多帧目标图像区域的图像数据输入共同特征提取网络，以得到图像共同特征；

确定与该多帧目标图像区域一一对应的多组组合数据，每组组合数据包括相应一帧目标图像区域的图像数据和图像共同特征；

将该多组组合数据输入骨干网络，以得到该多帧图像中各帧图像对应的图像感知特征。

可选地，第二确定子模块用于：

将该多组主车运动数据输入第一多层感知机，以得到该多帧图像中各帧图像对应的主车感知特征。

可选地，第三确定子模块用于：

将该多组道路结构数据输入第二多层感知机，以得到该多帧图像中各帧图像对应的道路感知特征。

可选地，第四确定子模块用于：

将该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征输入帧间特征融合模型，以得到该多帧图像中各帧图像对应的融合特征；

将该多帧图像中各帧图像对应的融合特征输入第三多层感知机，以得到该多帧图像中各帧图像对应的预测结果。

可选地，该帧间特征融合模型包括串联的递归神经网络和注意力机制网络。

可选地，主车运动数据包括主车的车速和横摆角速度中的至少一种数据。

可选地，道路结构数据包括距离目标障碍车最近的车道线和道沿的位置中的至少一种数据。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器用于存储执行上述第一方面所提供的车辆起步行为的预测方法的程序，以及存储用于实现上述第一方面所提供的车辆起步行为的预测方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述电子设备还可以包括通信总线，该通信总线用于该处理器与存储器之间建立连接。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述指令被处理器执行时实现上述第一方面所述的车辆起步行为的预测方法。

第五方面，提供了一种包含指令的计算机程序产品，所述指令被处理器执行时实现上述第一方面所述的车辆起步行为的预测方法。

上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似，在这里不再赘述。

本申请提供的技术方案至少能够带来以下有益效果：

基于图像数据和主车运动数据来对障碍车的起步行为进行预测，无需激光雷达、毫米波雷达、超声波雷达等多个传感器采集的数据，从而减少了融合多源传感器所带来的感知结果存在抖动和误差的问题以及延迟较大的问题，还减少了由于主车定位结果不准所带来的预测结果有误的问题。另外，本方案也无需高精度地图，在无高精度地图和/或定位较差的场景中，本方案也能够得以应用。由此可见，本方案的预测精度、准确率和实时性更高，泛化性也更好。

附图说明

图1是本申请实施例提供的一种电子设备的结构示意图；

图2是本申请实施例提供的一种车辆起步行为的预测方法的流程图；

图3是本申请实施例提供的另一种车辆起步行为预测的方法流程图；

图4是本申请实施例提供的又一种车辆起步行为预测的方法流程图；

图5是本申请实施例提供的一种车辆控制方法的流程图；

图6是本申请实施例提供的一种车辆起步行为的预测装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请实施例所涉及的应用场景进行介绍。

随着车辆保有量的增加，随之而来的空气污染、交通拥堵、交通事故等问题也越来越受到关注。为了减缓这些问题，自动驾驶技术、辅助驾驶技术以及智能交通系统得到了快速发展。由庞大数据支撑的车辆行为预测在自动驾驶、辅助驾驶以及智能交通系统中起着至关重要的作用。其中，对车辆进行起步行为预测是车辆行为预测中的重要部分。例如，若预测出路侧的障碍车正要起步以切入到主车所在车道，那么，基于预测结果来控制或提醒主车进行减速避让或改变航向等，从而减少交通事故。

需要说明的是，本申请实施例描述的系统架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

请参考图1，图1是根据本申请实施例示出的一种电子设备的结构示意图。可选地，该电子设备能够成为车机或服务器的部分或全部。该电子设备包括一个或多个处理器101、通信总线102、存储器103以及一个或多个通信接口104。

处理器101为一个通用中央处理器(central processing unit，CPU)、网络处理器(network processing，NP)、微处理器、或者为一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。可选地，上述PLD为复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

通信总线102用于在上述组件之间传送信息。可选地，通信总线102分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选地，存储器103为只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、光盘(包括只读光盘(compact disc read-only memory，CD-ROM)、压缩光盘、激光盘、数字通用光盘、蓝光光盘等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器103独立存在，并通过通信总线102与处理器101相连接，或者，存储器103与处理器101集成在一起。

通信接口104使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口 104包括有线通信接口，可选地，还包括无线通信接口。其中，有线通信接口例如以太网接口等。可选地，以太网接口为光接口、电接口或其组合。无线通信接口为无线局域网(wireless local area networks，WLAN)接口、蜂窝网络通信接口或其组合等。

可选地，在一些实施例中，电子设备包括多个处理器，如图1中所示的处理器101和处理器105。这些处理器中的每一个为一个单核处理器，或者一个多核处理器。可选地，这里的处理器指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备还包括输出设备106和输入设备107。输出设备106和处理器101通信，能够以多种方式来显示信息。例如，输出设备106为液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备107和处理器101通信，能够以多种方式接收用户的输入。例如，输入设备107是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器103用于存储执行本申请方案的程序代码110，处理器101能够执行存储器103中存储的程序代码110。该程序代码中包括一个或多个软件模块，该电子设备能够通过处理器101以及存储器103中的程序代码110，来实现下文图2实施例提供的车辆起步行为的预测方法。

图2是本申请实施例提供的一种车辆起步行为的预测方法的流程图。该方法应用于电子设备。可选地，该电子设备为主车上的设备，如车机，该电子设备也可以为服务器，如交通管理中心的服务器。请参考图2，该方法包括如下步骤。

步骤201：获取多帧图像和多组主车运动数据，该多组主车运动数据分别对应该多帧图像，该多帧图像是对主车周围的环境信息进行拍摄得到。

在本申请实施例中，电子设备获取多帧图像以及多组主车运动数据。该多组主车运动数据与该多帧图像一一对应，即，该多组主车运动数据是该多帧图像中各帧图像所对应的主车运动数据。其中，该多帧图像是对主车周围的环境信息进行拍摄得到，例如安装于主车前方的相机拍摄的图像。主车运动数据是主车上运动传感器采集的数据，运动传感器包括车速传感器、角速度传感器等中的一种或多种。主车运动数据能够准确表征主车的实时运动情况。可选地，本申请实施例中的主车运动数据包括主车的车速和横摆角速度中的至少一种数据。

由于本方案的车辆行为预测中所用到的主车运动数据要与图像一一对应，因此，如果主车上运动传感器的帧率(如100赫兹(Hz))高于相机的帧率(如20Hz)，那么，可以通过线性插值的方式对运动传感器采集的原始运动数据进行下采样，即降频处理，以得到与多帧图像一一对应的多组主车运动数据，且所得到的该多组主车运动数据的时间与该多帧图像的时间也是相同的。如果主车上运动传感器的帧率低于相机的帧率，那么，可以通过线性插值的方式对运动传感器采集的原始运动数据进行上采样，以得到与多帧图像一一对应且时间一致的多组主车运动数据。

需要说明的是，目前车辆上运动传感器的帧率和相机的帧率普遍高于多源传感器的融合帧率，其中，融合帧率通常与多源传感器的最小帧率一致，因此，本方案的延迟较小，实时性更高。

可选地，该多帧图像的数量为N，电子设备在获取到第i帧图像的时刻，对第i-N+1至i 帧图像进行处理，在获取到第i+1帧图像的时刻，对第i-N至i+1帧图像进行处理。其中，i不小于N。可选地，N可以为16，也可以为10或其他数值。在本申请实施例中，以N为16为例进行介绍。示例性地，电子设备在获取到第16帧图像后，对第1至16帧图像进行处理，在获取到第17帧图像后，对第2至17帧图像进行处理，在获取到第18帧图像后，对第3至18帧图像进行处理。

示例性地，假设该多帧图像的数量为N，该N帧图像所形成的原始图像序列为(img_orig^t_N-1,…,img_orig^t_0)，维度为[N,3,w_orig,h_orig]，其中，t表示获取该多帧图像的时刻，N表示时间维度上有N帧图像，3表示通道维度上的RGB三通道，w_orig和h_orig分别表示每帧图像的宽和高。假设主车运动数据包括主车的车速和横摆角速度，则该N组主车运动数据所组成的主车数据序列的维度为[N,2]，其中，N表示时间维度上有N组主车运动数据，2表示每组主车运动数据包括两个数据。

步骤202：对该多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，该多帧目标图像区域是多帧图像中目标障碍车所在的区域。

在本申请实施例中，电子设备对该多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域。可选地，电子设备将该多帧图像输入目标检测网络，以确定出该多帧图像中目标障碍车所在的区域。

示例性地，电子设备检测出该多帧图像中任一图像的目标障碍车之后，以矩形框在该图像中框选出该目标障碍车所在的区域，并基于该矩形框，裁剪出该图像中的目标图像区域。可选地，电子设备按照外扩比率对该矩形框进行外扩后，裁剪出该图像中的目标图像区域。其中，外扩比率大于或等于1。示例性地，外扩比率为1.5，电子设备将该矩形框的长和宽分别扩大1.5倍后，裁剪出扩大后的矩形框中的图像区域，以作为目标图像区域。需要说明的是，外扩后的矩形框的中心点与外扩前的矩形框的中心点是相同的。或者，电子设备直接按照该矩形框裁剪出该图像中的目标图像区域。

通常来说目标障碍车在该多帧图像中是连续出现的。可选地，如果从该多帧图像中的第i帧图像到第j帧图像均存在目标障碍车，且j-i+1不小于指定阈值，则继续执行后续步骤，以预测该目标障碍车是否存在起步行为。如果j-i+1小于指定阈值，则不执行后续步骤，即不对该目标障碍车进行行为预测。示例性地，假设该多帧图像的数量为16，指定阈值为8，如果这16帧图像中有8帧图像存在目标障碍车，则继续执行后续步骤。如果这16帧图像中只有5帧图像存在目标障碍车，则不对该目标障碍车进行行为预测。

可选地，如果从该多帧图像中的第i帧图像到第j帧图像均存在目标障碍车，且j-i+1不小于指定阈值但小于该多帧图像的总数量，则将第i帧图像对应的目标图像区域作为第i帧之前图像对应的目标图像区域，将第j帧图像对应的目标图像区域作为第j帧之后图像对应的目标图像区域。或者，将第i帧图像对应的矩形框作为第i帧之前图像对应的矩形框，进而裁剪出第i帧之前图像中的目标图像区域，将第j帧图像对应的矩形框作为第j帧之后图像对应的矩形框，以裁剪出第j帧之后图像中的目标图像区域。其中，i不小于1且j小于N，或者，i大于1且j不大于N，N为该多帧图像的总数量。示例性地，假设N为16，这16帧图像中的第1至14帧图像均检测到目标障碍车，则将第14帧图像对应的目标图像区域作为第15和16帧图像对应的目标图像区域，或者，将第14帧图像对应的矩形框作为第15和16帧图像对应的矩形框，进而裁剪出第15帧和第16帧图像对应的目标图像区域。

另外，若一帧图像中存在多个障碍车，则电子设备能够检测出该多个障碍车，将该多个障碍车中的每个障碍车均作为一个目标障碍车，从而对每个目标障碍车进行起步行为检测。需要说明的是，步骤201至步骤204是针对其中一个目标障碍车所进行的起步行为检测。示例性地，假设第1至16帧图像中存在障碍车A的图像数量大于指定阈值，则针对第1至第16帧图像中的障碍车A执行步骤201至步骤204，以预测障碍车A的起步行为。假设第3至18帧图像中存在障碍车B的图像数量大于指定阈值，则针对第3至18帧图像中的障碍车B执行步骤201至步骤204，以预测障碍车B的起步行为。假设第1至16帧图像存在障碍车C的图像数量大于指定阈值，则针对第1至16帧图像中的障碍车C也执行步骤201至步骤204，以预测障碍车C的起步行为。

在本申请实施例中，假设该多帧图像的数量为N，该N帧目标图像区域所形成的目标图像序列为(img^t_N-1,…,img^t_0)，维度为[N,3,w,h]，其中，t表示获取该多帧图像的时刻，N表示时间维度上有N帧目标图像区域，3表示通道维度上的RGB三通道，w和h分别表示每帧目标图像区域的宽和高。

步骤203：对该多帧图像中的道路结构进行识别，并结合该多帧目标图像区域，确定出多组道路结构数据，该多组道路结构数据分别表征该多帧图像中目标障碍车所在道路的道路结构。

在本申请实施例中，电子设备可以对该多帧图像中的道路结构进行识别，并结合该多帧目标图像区域，以确定出该多帧图像中目标障碍车所在道路的道路结构数据。

示例性地，电子设备对该多帧图像中的道路结构进行识别，可以识别出该多帧图像中的每条道路，例如每条车道线和每个道沿。电子设备基于在该多帧图像中所检测到的目标障碍车所在的区域，从所识别出的该多帧图像中的所有道路中，确定出各帧图像中目标障碍车所在的道路，并得到该多帧图像中目标障碍车所在道路的道路结构数据。

可选地，道路结构数据包括距离目标障碍车最近的车道线和道沿的位置中的至少一种数据。以道路结构数据包括距离目标障碍车最近的车道线的位置为例，每组道路结构数据包括相应车道线的多个二维离散点的坐标，在本申请实施例中，该多个二维离散点坐标的数量为30，即，每组道路结构数据包括30个二维坐标。可选地，若在一帧图像中所识别到的距离目标障碍车最近的车道线的长度不小于预设长度(如100米)，则该车道线能够以30个二维坐标进行表示。若在一帧图像中所识别到的记录目标障碍车最近的车道线的长度小于预设长度，则用于表示该车道线的二维离散点的数量可能小于30，这种情况下，可以用所识别到的车道线上距离主车最远的一个二维离散点的坐标来补足30个二维坐标。或者，在这种情况下，可以通过曲线拟合的方式延伸该车道线，以补足30个二维坐标。

在本申请实施例中，假设该多帧图像的数量为N，每组道路结构数据包括30个二维坐标，这30个二维坐标表示一条车道线的数据，那么，该N组道路结构数据所形成的道路数据序列的维度为[N,30,2]，其中，N表示时间维度上有N组道路结构数据，30表示每组道路结构数据包括30个坐标，2表示每个坐标包括两个数值，即每个坐标为二维坐标。

步骤204：基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果，该预测结果用于指示相应图像中的目标障碍车是否存在起步行为。

在本申请实施例中，电子设备基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果的一种实现方式为：基于该多帧目标图像区域，确定该多帧图像中各帧图像对应的图像感知特征；基于该多组主车运动数据，确定该多帧图像中各帧图像对应的主车感知特征；基于该多组道路结构数据，确定该多帧图像中各帧图像对应的道路感知特征；基于该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定该多帧图像中各帧图像对应的预测结果。简单来说，电子设备分别感知出图像的特征、主车运动数据的特征以及道路结构数据的特征，结合这三部分特征来预测障碍车是否存在起步行为。

需要说明的是，该图像感知特征用于表征目标障碍车的运动特征和目标障碍车周围环境的环境特征。其中，环境特征通常来说是静态特征，应当理解，该图像感知特征表征了目标障碍车的动态特征以及环境的静态特征。主车感知特征用于表征主车的运动特征，道路感知特征用于表征目标障碍车所在道路的结构特征。

在本申请实施例中，电子设备基于该多帧目标图像区域，确定该多帧图像中各帧图像对应的图像感知特征的一种实现方式为：将该多帧目标图像区域的图像数据输入共同特征提取网络，以得到图像共同特征；确定与该多帧目标图像区域一一对应的多组组合数据，每组组合数据包括相应一帧目标图像区域的图像数据和该图像共同特征；将该多组组合数据输入骨干网络，以得到该多帧图像中各帧图像对应的图像感知特征。也即是，电子设备先提取出图像共同特征，图像共同特征在一定程度上表征了目标障碍车周围环境的静态特征。电子设备再将图像共同特征与各帧目标图像区域的图像数据进行组合，通过骨干网络提取出目标障碍车的动态特征以及环境的静态特征。

可选地，图像共同特征具有通道维度，该多帧目标图像区域的图像数据也具有通道维度，电子设备将该图像共同特征与该多帧目标图像区域中各帧目标图像区域的图像数据在通道维度进行拼接，以得到相应一组组合数据。这样，通过在通道维度进行拼接的方式，能够便于后续通过骨干网络提取到区分明显的静态特征和运动特征。示例性地，该多帧目标图像区域中各帧目标图像区域的图像数据的维度为[c1,w,h]，c1表示图像数据的通道数，w和h分别表示目标图像区域的宽和高，如果图像为RGB图像，则c1等于3，表示RGB三通道。图像共同特征的维度为[c2,w,h]，c2表示图像共同特征的通道数，图像共同特征的高和宽均与目标图像区域的高和宽是相同的，可选地，c2等于3或其他数值。电子设备通过在通道维度进行拼接的方式所拼接出的每组组合数据的维度为[c1+c2,w,h]。

可选地，共同特征提取(common feature extraction，CFE)网络为多尺度的卷积神经网络，即，共同特征提取网络中卷积层所采用的卷积核有多个。示例性地，如图4中所示的CFE网络，该CFE网络包括4层卷积层，前三层卷积层均采用3种不同尺度的卷积核，这3种卷积核的尺寸分别为1×1、3×3、5×5。多尺度卷积能够有效对不同尺度的特征进行融合，更有利于提取到鲁棒性更强的图像共同特征。需要说明的是，共同特征提取网络也可以是其他类型的神经网络，图4所示的CFE网络也并不用于限制本申请实施例。

接下来对图4所示的CFE网络进行详细介绍。假设基于t时刻采集的图像所确定的N帧目标图像区域按照时间顺序所形成的目标图像序列表示为(img^t_N-1,…,img^t_0)，维度为[N,3,w,h]，其中，N表示时间维度上有N帧目标图像区域，3表示通道维度上的RGB三通道，w和h分别表示每帧目标图像区域的宽和高。

首先，将目标图像序列(img^t_N-1,…,img^t_0)输入CFE网络的第一层卷积层，以得到第一层卷积层输出的中间特征ComFea1＝mean(conv1×1(img^t_N-1,…,img^t_0),conv3×3(img^t_N-1,…,img^t_0),conv5×5(img^t_N-1,…,img^t_0))，维度为[32,3,w,h]。然后，将ComFea1输入CFE网络的第二层卷积层，以得到第二层卷积层输出的中间特征ComFea2＝mean(conv1×1(ComFea1),conv3×3(ComFea1),conv5×5(ComFea1))，维度为[16,3,w,h]。然后，将ComFea2输入CFE网络的第三层卷积层，以得到第三层卷积层输出的中间特征ComFea3＝mean(conv1×1(ComFea2),conv3×3(ComFea2),conv5×5(ComFea2))，维度为[8,3,w,h]。之后，将ComFea3输入CFE网络的第四层卷积层，以得到第四层卷积层输出的图像共同特征ComFea^t＝conv1×1(ComFea3)，维度为[1,3,w,h]。其中，mean()表示取均值的操作，在图4中表示为M。

可选地，将图像共同特征ComFea^t进行复制(repeat)操作，以得到与目标图像序列(img^t_N-1,…,img^t_0)的维度一致的共同特征序列R_ComFea^t＝repeat(ComFea^t)，即R_ComFea^t的维度也为[N,3,w,h]，将共同特征序列R_ComFea^t与目标图像序列(img^t_N-1,…,img^t_0)在通道维度进行拼接，以得到多组组合数据多形成的序列，将这个序列输入骨干网络。

可选地，骨干(backbone)网络是一种卷积神经网络。示例性地，骨干网络可以采用ResNet(如ResNet50)。本申请实施例不限定骨干网络的网络结构。可选地，该骨干网络包括多个CNN(如图4所示)，该多个CNN与该多组组合数据一一对应，电子设备将该多组组合数据分别输入该多个CNN，以得到该多帧图像中各帧图像对应的图像感知特征。可选地，在本申请实施例中，该多个CNN的网络结构和网络参数相同。在其他一些实施例中，该多个CNN的网络结构和网络参数可以存在不同。

在本申请实施例中，电子设备基于该多组主车运动数据，确定该多帧图像中各帧图像对应的主车感知特征的一种实现方式为：将该多组主车运动数据输入第一多层感知机，以得到该多帧图像中各帧图像对应的主车感知特征。

可选地，该多组主车运动数据分别输入多个第一多层感知机(multi-layer perceptron，MLP)，在本申请实施例中，该多个第一MLP的网络结构和网络参数相同。在其他一些实施例中，该多个第一MLP的网络结构和网络参数可以存在不同。或者，该多组主车运动数据均输入同一个第一MLP。例如，每确定一组主车运动数据，将当前确定的一组主车运动数据输入第一MLP，以保证实时性。可选地，第一MLP包括一层或多层隐藏层。在本申请实施例中，第一MLP包括两层隐藏层。

在本申请实施例中，电子设备基于该多组道路结构数据，确定该多帧图像中各帧图像对应的道路感知特征的一种实现方式：将该多组道路结构数据输入第二多层感知机，以得到该多帧图像中各帧图像对应的道路感知特征。

可选地，该多组道路结构数据分别输入多个第二MLP，在本申请实施例中，该多个第二MLP的网络结构和网络参数相同。在其他一些实施例中，该多个第二MLP的网络结构和网络参数可以存在不同。或者，该多组道路结构数据均输入同一个第二MLP。例如，每确定一组道路结构数据，将当前确定的一组道路结构数据输入第二MLP，以保证实时性。可选地，第二MLP包括一层或多层隐藏层。在本申请实施例中，第二MLP包括两层隐藏层。

需要说明的是，在本申请实施例中，主车运动数据和道路结构数据均采用MLP进行处理，所采用的MLP相当于一个特征提取模型或者说编码模型，用于对主车运动数据和道路结构数据进行特征提取或者说编码。在另一些实施例中，主车运动数据和/或道路结构数据也可以采用其他的神经网络进行处理。

在本申请实施例中，电子设备基于该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定该多帧图像中各帧图像对应的预测结果的一种实现方式为：将该多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征输入帧间特征融合模型，以得到该多帧图像中各帧图像对应的融合特征；将该多帧图像中各帧图像对应的融合特征输入第三多层感知机，以得到该多帧图像中各帧图像对应的预测结果。应当理解的是，电子设备通过帧间特征融合模型既融合了同一帧图像对应的三种不同特征，还融合了帧间的特征。

可选地，电子设备将该多帧图像中的各帧图像对应的图像感知特征、主车感知特征和道路感知特征进行拼接，以得到相应图像对应的组合感知特征。电子设备将该多帧图像中各帧图像对应的组合感知特征输入帧间特征融合模型，以得到该多帧图像中各帧图像对应的融合特征。示例性地，假设该多帧图像对应的图像感知特征的维度为[N,c1]，该多帧图像对应的主车感知特征的维度为[N,c2]，该多帧图像对应的道路感知特征的维度为[N,c3]，那么，该多帧图像对应的组合感知特征的维度为[N,c1+c2+c3]。其中，N表示时间维度上有N帧图像，c1表示每个图像感知特征包括的元素个数，c2表示每个主车感知特征包括的元素个数，c3表示每个道路感知特征包括的元素个数。

可选地，在本申请实施例中，该帧间特征融合模型包括串联的递归神经网络(recurrent neural network，RNN)和注意力机制网络。其中，RNN可以为长短时记忆(long short term memory，LSTM)网络或门控递归单元(gate recurrent unit，GRU)等。如图4所示，RNN采用双层双向的LSTM网络。注意力机制网络可以是自注意力(self-attention，SA)网络或多头注意力(multi-head attention，MHA)网络等。

值得注意的是，递归神经网络与注意力机制网络相结合，能够有效提高帧间特征的远近依赖性计算精度，即有效捕获帧间的远近依赖特征，也即有效融合帧间特征，能够降低预测结果的抖动，有效提升预测结果的精度和召回率。

需要说的是，上述所介绍的帧间特征融合模型的网络结构并不用于限制本申请实施例。例如，在另一些实施例中，帧间特征融合模型也可以包括递归神经网络，而不包括注意力机制网络。

可选地，该多帧图像中各帧图像对应的融合特征分别输入多个第三MLP，在本申请实施例中，该多个第三MLP的网络结构和网络参数相同。在其他一些实施例中，该多个第三MLP的网络结构和网络参数可以存在不同。或者，该多帧图像中各帧图像对应的融合特征均输入同一个第三MLP。例如，按照该多帧图像的时间顺序，依次将该多帧图像中各帧图像对应的融合特征输入第三MLP。可选地，第三MLP包括一层或多层隐藏层。在本申请实施例中，第三MLP包括两层隐藏层。

需要说明的是，在本申请实施例中，该多帧图像中各帧图像对应的融合特征采用第三MLP进行处理，以得到预测结果。第三MLP相当于一个分类模型，预测结果分为两类，一类为存在起步行为，另一类为不存在起步行为。在另一些实施例中，该多帧图像中各帧图像对应的融合特征也可以采用其他的神经网络进行处理，以得到预测结果。

图3是本申请实施例提供的另一种车辆起步行为预测的方法流程图。接下来请参考图3，对本申请实施例所提供的车辆起步行为预测的方法再次进行示例性的解释说明。在图3中，电子设备每次处理的多帧图像的数量为N。其中，电子设备在t时刻所获取的N帧图像按照时间顺序分别被标记为t_0、……、t_N-2、t_N-1，电子设备对这N帧图像进行目标检测，以确定出该多帧图像中目标障碍车所在的区域(如图3中黑色矩形框所框选出的区域)。电子设备还对这N帧图像进行道路结构识别，以确定出该N帧图像中目标障碍车所在道路的道路结构数据，即得到N组道路结构数据。另外，电子设备还获取与该N帧图像一一对应的N组主车运动数据。电子设备按照外扩比率将该多帧图像中目标障碍车所在的区域裁剪出来，以得到N帧目标图像区域，将该N帧目标图像区域的图像数据输入CFE网络中，以提取出图像共同特征。电子设备将该图像共同特征与该N帧目标图像区域中各帧目标图像区域在通道维度进行拼接(concat，C)，以得到N组组合数据。电子设备将这N组组合数据输入骨干(backbone)网络，以得到该N帧图像中各帧图像对应的图像感知特征。电子设备通过MLP对该N组主车运动数据分别进行处理，以得到该N帧图像中各帧图像对应的主车感知特征。电子设备还通过MLP对该N组道路结构数据分别进行处理，以得到该N帧图像中各帧图像对应的道路感知特征。然后，电子设备将这N帧图像对应的图像感知特征、主车运动特征和道路感知特征进行拼接，以得到以这N帧图像一一对应的N组感知特征。电子设备将这N组组合感知特征输入帧间特征融合模型(包括串联的CNN和注意力机制网络)，以得到该N帧图像中各帧图像对应的融合特征。最后，电子设备通过MLP对这N帧图像对应的融合特征分别进行处理，以得到这N帧图像分别对应的N个预测结果。

图4所示的方法流程图是对图3中各个网络模型的结构展开后得到的。在图4中示出了CFE网络、backbone网络、递归神经网络和注意力机制网络的具体结构，对这几个网络的网络结构已在前文进行了介绍，这里不再赘述。

接下来再通过下述步骤1至步骤8对本方案再次进行示例性解释说明。需要说明的是，本申请实施例不限制步骤1至步骤8的执行顺序。

1.假设相机拍摄的图像记为img_orig，电子设备获取多帧图像img_orig。

2.通过对目标障碍物进行目标检测得到目标障碍车所在区域的包围框(bounding box，BBOX)，即矩形框。基于BBOX，按照公式(1)对图像img_orig进行裁剪，得到目标图像区域img。公式(1)中的Crop()函数用于实现将目标BBOX按照外扩比率ratio进行外扩后对图像img_orig进行裁剪的功能。
img＝Crop(img_orig,ratio) (1)

3.假设相机采集的多帧图像的总数量为N，按照步骤2对该多帧图像进行裁剪后得到的目标图像序列为(img^t_N-1,…,img^t_0)，维度为[N,3,w,h]。电子设备将目标图像序列输入到CEF网络，按照公式(2)得到经N次复制后的共同特征序列R_ComFea^t，维度也为[N,3,w,h]。
R_ComFea^t＝CEF(img^t_N-1,...,img^t_0) (2)

4.电子设备将目标图像序列和共同特征序列在通道维度进行拼接，以得到包括多种组合数据的组合数据序列，维度为[N,6,w,h]，将组合数据序列输入骨干网络(CNN)，以按照公式(3)进行特征提取，得到该多帧图像对应的图像感知特征SFea^t，维度为[N,c1]。其中，concat()表示拼接操作或者说连接操作。
SFea^t＝CNN(concat((img^t_N-1,...,img^t_0),R_ComFea^t)) (3)

5.另外，电子设备还获取多组主车运动数据。以主车运动数据表示为Ego为例，该多组主车运动数据所形成的主车数据序列为(Ego^t_N-1,…,Ego^t_0)，维度为[N,c2_in]。其中，c2_in表示每组主车运动数据所包括的元素个数。例如，c2_in＝2，表示每组主车运动数据包括车速和横摆角速度这两个元素。除此之外，电子设备还对该多帧图像的道路结构进行识别，以得到多组道路结构数据。以道路结构数据表示为Lane为例，假设道路结构数据包括车道线的位置的二维坐标，那么，该多组道路结构数据所形成的道路数据序列为(Lane^t_N-1,…,Lane^t_0)，维度为[N,c3_in,2]。其中，c3_in表示每组道路结构数据所包括的二维坐标的数量，2表示每个二维坐标包括两个坐标值。

6.电子设备通过MLP对该多组主车运动数据和多组道路结构数据分别进行处理。该多组主车运动数据经MLP处理后所得到的N帧图像对应的主车感知特征的维度为[N,c2]，该多组道路结构数据经MLP处理后所得到的N帧图像对应的道路感知特征的维度为[N,c3]。电子设备将该多帧图像中的各帧图像对应的图像感知特征、主车感知特征和道路感知特征进行拼接，以得到相应图像对应的组合感知特征C_SFea^t，该多帧图像对应的组合感知特征C_SFea^t的维度为[N,c1+c2+c3]。应当理解的是，在步骤6中电子设备是按照公式(4)得到了该多帧图像对应的组合感知特征C_SFea^t。
C_SFea^t＝Concat(SFea^t,MLP(Ego^t_N-1,...,Ego^t_0),MLP(Lane^t_N-1,...,Lane^t_0)) (4)

7.电子设备将该多帧图像对应的组合感知特征C_SFea^t输入帧间特征融合模型，以按照公式(5)得到该多帧图像对应的融合特征STARFea^t，维度为[N,c4]。其中，该帧间特征融合模型包括RNN和注意力机制网络(ATTENTATION)。
STARSFea^t＝ATENTATION(CNN(C_SFea^t)) (5)

8.电子设备通过MLP按照公式(6)对该多帧图像对应的融合特征STARFea^t进行处理，以得到该多帧图像对应的预测结果Out^t，维度为[N,2]，其中2表示预测结果的两种值，这两种值分别表示存在起步行为(如CUTIN)、不存在起步行为(如No-CUTIN)。其中，CUTIN行为包括障碍车起步切入主车所在车道的行为。
Out^t＝MLP(STARSFea^t) (6)

需要说明的是，本申请实施例中所应用的各个网络模型均是经过训练的，本申请实施例不限制这些网络模型的训练方式等。在一实施例中，采用批处理的方式对这些网络模型进行训练，即每次对网络参数的调整是基于多组样本图像序列实现的。

由前述可知，本方案能够应用于自动驾驶和辅助驾驶场景中。图5是本申请实施例提供的一种自动驾驶或辅助驾驶场景中车辆控制方法的流程图。在主车在自动驾驶的过程中，获取多帧图像和主车的原始运动数据，通过感知模块对该多帧图像和主车的原始运动数据进行处理，以得到多帧目标图像区域、多组主车运动数据和多组道路结构数据。感知模块将该多帧目标图像区域、多组主车运动数据和多组道路结构数据发送给预测模块。预测模块用于进行车辆起步行为预测。预测模块基于这多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果。预测模块将该多帧图像中各帧图像对应的预测结果发送给规划模块。规划模块基于各帧图像对应的预测结果确定出主车的行驶轨迹、车速等，控制模块按照规划模块所规划的行驶轨迹、车速等来控制主车的运动。

需要说明的是，在自动驾驶和辅助驾驶领域中，主车上的相机拍摄主车周围环境的图像，如拍摄主车前方环境的图像，主车上的车速传感器采集主车运动数据，如车速、横摆角速度等，从而由主车基于图像数据和主车运动数据，根据本申请实施例提供的车辆起步行为预测方法来预测障碍车是否存在起步行为。

由前述可知，本方案也能够应用于智能交通系统中。在智能交通系统中，由路侧设备拍摄周围环境的图像并发送给交通管理中心的服务器，道路上的车辆也可以上报运动数据，服务器本申请实施例提供的车辆起步行为预测方法来预测障碍车是否存在起步行为。示例性地，服务器可以获取某路侧设备在一段时间内拍摄的多帧图像，以及该时间段内将要通过该路侧设备所在道路的车辆所上报的运动数据，进而根据本方案来预测障碍车的起步行为。服务器可以在预测到目标障碍车存在起步行为的情况下，向上报运动数据的车辆进行广播，以提醒这些车辆附近有障碍车将要起步。在一些实施例中，服务器若不能够将路侧设备拍摄的多帧图像与车辆所上报的运动数据匹配上或者说不能够关联上，则服务器可以将参与运算的主车运动数据设置为0或者该道路上所行驶车辆的车速均值等，从而实施本方案。

综上所述，在本申请实施例中，基于图像数据和主车运动数据来对障碍车的起步行为进行预测，无需激光雷达、毫米波雷达、超声波雷达等多个传感器采集的数据，从而减少了融合多源传感器所带来的感知结果存在抖动和误差的问题以及延迟较大的问题，还减少了由于主车定位结果不准所带来的预测结果有误的问题。另外，本方案也无需高精度地图，在无高精度地图和/或定位较差的场景中，本方案也能够得以应用。由此可见，本方案的预测精度、准确率和实时性更高，泛化性也更好。

图6是本申请实施例提供的一种车辆起步行为的预测装置600的结构示意图，该车辆起步行为的预测装置600可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部，该电子设备可以为上述实施例中的任一电子设备。参见图6，该装置600包括：获取模块601、第一确定模块602、第二确定模块603和第三确定模块604。

获取模块601，用于获取多帧图像和多组主车运动数据，该多组主车运动数据分别对应该多帧图像，该多帧图像是对主车周围的环境信息进行拍摄得到；

第一确定模块602，用于对该多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，该多帧目标图像区域是该多帧图像中目标障碍车所在的区域；

第二确定模块603，用于对该多帧图像中的道路结构进行识别，并结合该多帧目标图像区域，确定出多组道路结构数据，该多组道路结构数据分别表征该多帧图像中目标障碍车所在道路的道路结构；

第三确定模块604，用于基于该多帧目标图像区域、多组主车运动数据和多组道路结构数据，确定该多帧图像中各帧图像对应的预测结果，该预测结果用于指示相应图像中的目标障碍车是否存在起步行为。

可选地，第三确定模块604，包括：

可选地，第一确定子模块用于：

可选地，第二确定子模块用于：

可选地，第三确定子模块用于：

可选地，第四确定子模块用于：

在本申请实施例中，基于图像数据和主车运动数据来对障碍车的起步行为进行预测，无需激光雷达、毫米波雷达、超声波雷达等多个传感器采集的数据，从而减少了融合多源传感器所带来的感知结果存在抖动和误差的问题以及延迟较大的问题，还减少了由于主车定位结果不准所带来的预测结果有误的问题。另外，本方案也无需高精度地图，在无高精度地图和/或定位较差的场景中，本方案也能够得以应用。由此可见，本方案的预测精度、准确率和实时性更高，泛化性也更好。

需要说明的是：上述实施例提供的车辆起步行为的预测装置在预测车辆起步行为时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的车辆起步行为的预测装置与车辆起步行为的预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络或其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(digital subscriber line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(digital versatile disc，DVD))或半导体介质(例如：固态硬盘(solid state disk，SSD))等。值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，本文提及的“至少一个”是指一个或多个，“多个”是指两个或两个以上。在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请实施例中涉及到的图像、视频、运动数据、道路结构数据等都是在充分授权的情况下获取的。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种车辆起步行为的预测方法，其特征在于，所述方法包括：

获取多帧图像和多组主车运动数据，所述多组主车运动数据分别对应所述多帧图像，所述多帧图像是对所述主车周围的环境信息进行拍摄得到；

对所述多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，所述多帧目标图像区域是所述多帧图像中所述目标障碍车所在的区域；

对所述多帧图像中的道路结构进行识别，并结合所述多帧目标图像区域，确定出多组道路结构数据，所述多组道路结构数据分别表征所述多帧图像中所述目标障碍车所在道路的道路结构；

基于所述多帧目标图像区域、所述多组主车运动数据和所述多组道路结构数据，确定所述多帧图像中各帧图像对应的预测结果，所述预测结果用于指示相应图像中的所述目标障碍车是否存在起步行为。
如权利要求1所述的方法，其特征在于，所述基于所述多帧目标图像区域、所述多组主车运动数据和所述多组道路结构数据，确定所述多帧图像中各帧图像对应的预测结果，包括：

基于所述多帧目标图像区域，确定所述多帧图像中各帧图像对应的图像感知特征，所述图像感知特征用于表征所述目标障碍车的运动特征和所述目标障碍车周围环境的环境特征；

基于所述多组主车运动数据，确定所述多帧图像中各帧图像对应的主车感知特征，所述主车感知特征用于表征所述主车的运动特征；

基于所述多组道路结构数据，确定所述多帧图像中各帧图像对应的道路感知特征，所述道路感知特征用于表征所述目标障碍车所在道路的结构特征；

基于所述多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定所述多帧图像中各帧图像对应的预测结果。
如权利要求2所述的方法，其特征在于，所述基于所述多帧目标图像区域，确定所述多帧图像中各帧图像对应的图像感知特征，包括：

将所述多帧目标图像区域的图像数据输入共同特征提取网络，以得到图像共同特征；

确定与所述多帧目标图像区域一一对应的多组组合数据，每组组合数据包括相应一帧目标图像区域的图像数据和所述图像共同特征；

将所述多组组合数据输入骨干网络，以得到所述多帧图像中各帧图像对应的图像感知特征。
如权利要求2或3所述的方法，其特征在于，所述基于所述多组主车运动数据，确定所述多帧图像中各帧图像对应的主车感知特征，包括：

将所述多组主车运动数据输入第一多层感知机，以得到所述多帧图像中各帧图像对应的主车感知特征。
如权利要求2-4任一所述的方法，其特征在于，所述基于所述多组道路结构数据，确定所述多帧图像中各帧图像对应的道路感知特征，包括：

将所述多组道路结构数据输入第二多层感知机，以得到所述多帧图像中各帧图像对应的道路感知特征。
如权利要求2-5任一所述的方法，其特征在于，所述基于所述多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定所述多帧图像中各帧图像对应的预测结果，包括：

将所述多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征输入帧间特征融合模型，以得到所述多帧图像中各帧图像对应的融合特征；

将所述多帧图像中各帧图像对应的融合特征输入第三多层感知机，以得到所述多帧图像中各帧图像对应的预测结果。
如权利要求6所述的方法，其特征在于，所述帧间特征融合模型包括串联的递归神经网络和注意力机制网络。
如权利要求1-7任一所述的方法，其特征在于，所述主车运动数据包括所述主车的车速和横摆角速度中的至少一种数据。
如权利要求1-8任一所述的方法，其特征在于，所述道路结构数据包括距离所述目标障碍车最近的车道线和道沿的位置中的至少一种数据。
一种车辆起步行为的预测装置，其特征在于，所述装置包括：

获取模块，用于获取多帧图像和多组主车运动数据，所述多组主车运动数据对应所述多帧图像，所述多帧图像是对主车周围的环境信息进行拍摄得到；

第一确定模块，用于对所述多帧图像中的目标障碍车进行检测，以确定出多帧目标图像区域，所述多帧目标图像区域是所述多帧图像中所述目标障碍车所在的区域；

第二确定模块，用于对所述多帧图像中的道路结构进行识别，并结合所述多帧目标图像区域，确定出多组道路结构数据，所述多组道路结构数据分别表征所述多帧图像中所述目标障碍车所在道路的道路结构；

第三确定模块，用于基于所述多帧目标图像区域、所述多组主车运动数据和所述多组道路结构数据，确定所述多帧图像中各帧图像对应的预测结果，所述预测结果用于指示相应图像中的所述目标障碍车是否存在起步行为。
如权利要求10所述的装置，其特征在于，所述第三确定模块，包括：

第一确定子模块，用于基于所述多帧目标图像区域，确定所述多帧图像中各帧图像对应的图像感知特征，所述图像感知特征用于表征所述目标障碍车的运动特征和所述目标障碍车周围环境的环境特征；

第二确定子模块，用于基于所述多组主车运动数据，确定所述多帧图像中各帧图像对应的主车感知特征，所述主车感知特征用于表征所述主车的运动特征；

第三确定子模块，用于基于所述多组道路结构数据，确定所述多帧图像中各帧图像对应的道路感知特征，所述道路感知特征用于表征所述目标障碍车所在道路的结构特征；

第四确定子模块，用于基于所述多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征，确定所述多帧图像中各帧图像对应的预测结果。
如权利要求11所述的装置，其特征在于，所述第一确定子模块用于：

将所述多帧目标图像区域的图像数据输入共同特征提取网络，以得到图像共同特征；

确定与所述多帧目标图像区域一一对应的多组组合数据，每组组合数据包括相应一帧目标图像区域的图像数据和所述图像共同特征；

将所述多组组合数据输入骨干网络，以得到所述多帧图像中各帧图像对应的图像感知特征。
如权利要求11或12所述的装置，其特征在于，所述第二确定子模块用于：

将所述多组主车运动数据输入第一多层感知机，以得到所述多帧图像中各帧图像对应的主车感知特征。
如权利要求11-13任一所述的装置，其特征在于，所述第三确定子模块用于：

将所述多组道路结构数据输入第二多层感知机，以得到所述多帧图像中各帧图像对应的道路感知特征。
如权利要求11-14任一所述的装置，其特征在于，所述第四确定子模块用于：

将所述多帧图像中各帧图像对应的图像感知特征、主车感知特征和道路感知特征输入帧间特征融合模型，以得到所述多帧图像中各帧图像对应的融合特征；

将所述多帧图像中各帧图像对应的融合特征输入第三多层感知机，以得到所述多帧图像中各帧图像对应的预测结果。
如权利要求15所述的装置，其特征在于，所述帧间特征融合模型包括串联的递归神经网络和注意力机制网络。
如权利要求10-16任一所述的装置，其特征在于，所述主车运动数据包括所述主车的车速和横摆角速度中的至少一种数据。
如权利要求10-17任一所述的装置，其特征在于，所述道路结构数据包括距离所述目标障碍车最近的车道线和道沿的位置中的至少一种数据。
一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9任一所述的方法的步骤。
一种计算机程序产品，其特征在于，所述计算机程序产品内存储有计算机指令，所述计算机指令被处理器执行时实现权利要求1-9任一所述的方法的步骤。