WO2020252926A1

WO2020252926A1 - 自动驾驶行为预测方法、装置、计算机设备及存储介质

Info

Publication number: WO2020252926A1
Application number: PCT/CN2019/103467
Authority: WO
Inventors: 王健宗; 吴天博
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-18
Filing date: 2019-08-30
Publication date: 2020-12-24
Also published as: CN110398957A

Abstract

本申请公开了自动驾驶行为预测方法、装置、计算机设备及存储介质。该方法包括：接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；以及将所述动作向量发送至自动驾驶端。

Description

自动驾驶行为预测方法、装置、计算机设备及存储介质

本申请要求于2019年6月18日提交中国专利局、申请号为201910527673.5、申请名称为“自动驾驶行为预测方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及智能决策技术领域，尤其涉及一种自动驾驶行为预测方法、装置、计算机设备及存储介质。

背景技术

无人驾驶系统是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统，它集中运用了计算机、现代传感、信息融合、通讯、人工智能及自动控制等技术，是典型的高新技术综合体。而自动驾驶的关键技术依次可以分为环境感知、行为决策、路径规划和运动控制四大部分。

目前，无人驾驶系统中常使用的机器学习系统都基于有监督学习建立，但这需要大量有标签训练样本，并且也缺少常识与独立预测的能力。在自动驾驶中，外界复杂的环境常常脱离训练的样本，从而使模型失去决策的能力。

申请内容

本申请实施例提供了一种自动驾驶行为预测方法、装置、计算机设备及存储介质，旨在解决现有技术中无人驾驶系统中常使用的机器学习系统都基于有监督学习建立，需要大量有标签训练样本，而在自动驾驶中外界复杂的环境常常脱离训练的样本，从而使模型失去决策的能力以及独立预测的能力的问题。

第一方面，本申请实施例提供了一种自动驾驶行为预测方法，其包括：

接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

将所述动作向量发送至自动驾驶端。

第二方面，本申请实施例提供了一种自动驾驶行为预测装置，其包括：

图像接收单元，用于接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

预测向量获取单元，用于将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

动作获取单元，用于将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

向量发送单元，用于将所述动作向量发送至自动驾驶端。

第三方面，本申请实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的自动驾驶行为预测方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的自动驾驶行为预测方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的自动驾驶行为预测方法的流程示意图；

图2为本申请实施例提供的自动驾驶行为预测方法的子流程示意图；

图3为本申请实施例提供的自动驾驶行为预测方法中将像素矩阵输入至变分自编码器进行多次激励卷积和激励反卷积所采用的神经网络的结构示意图；

图4为本申请实施例提供的自动驾驶行为预测方法的另一子流程示意图；

图5为本申请实施例提供的自动驾驶行为预测方法中数据流的示意图；

图6为本申请实施例提供的自动驾驶行为预测方法中混合密度网络-循环神经网络模型的示意图；

图7为本申请实施例提供的自动驾驶行为预测装置的示意性框图；

图8为本申请实施例提供的自动驾驶行为预测装置的子单元示意性框图；

图9为本申请实施例提供的自动驾驶行为预测装置的另一子单元示意性框图；

图10为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的自动驾驶行为预测方法的流程示意图，该自动驾驶行为预测方法应用于可无人驾驶的智能汽车中，该方法通过安装于可无人驾驶的智能汽车中的应用软件进行执行。

如图1所示，该方法包括步骤S110～S140。

S110、接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量。

在本实施例中，若设置于可无人驾驶的智能汽车(即自动驾驶端)的摄像头采集了视频，可以对视频切割后随机选取一张或多张，得到2D图像帧，将所述2D图像帧输入至变分自编码器(变分自编码器简记为VAE)，通过变分自编码器进行处理后，即可得到与所述2D图像帧对应的压缩抽象表征特征向量。其中，变分自编码器中的编码/解码过程是一个卷积/反卷积神经网络的过程，也即变分自编码器作为视觉处理模块，其任务是学习每个已观测输入帧的抽象压缩表征，然后在每一时间帧上压缩模型的所见(图像帧)。

通过VAE模型，将观测到的输入图像浓缩为服从高斯分布的32维潜在向量(z)，这意味着更小的环境表征，加快学习过程。这一步的作用在于驾驶过程中，将周围的环境例如道路的平直度、即将到来的弯道以及你相对于道路的位置进行浓缩，从而决定下一个行为。

在一实施例中，如图2所示，步骤S110包括：

S111、获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

S112、通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

S113、对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。

在本实施例中，当获取了所述2D图像帧对应的像素矩阵(一般是64*64*3的图像，表示64*64的3通道图像)，需将像素矩阵输入至变分自编码器进行多次激励卷积和激励反卷积，从而得到压缩抽象表征特征向量。

如图3所示，其为将像素矩阵输入至变分自编码器进行多次激励卷积和激励反卷积所采用的神经网络的结构示意图。通过3次激励卷积和3次激励反卷积后，即可实现将所述2D图像帧进行抽象压缩表征，从而得到与所述2D图像帧对应的压缩抽象表征特征向量。其中，

在一实施例中，如图3所示，步骤S111中将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果，包括：

获取与所述2D图像帧对应的64*64*3的像素矩阵；

通过32*4的第一卷积核对64*64*3的像素矩阵进行第一次激励卷积，得到31*31*32的第一卷积结果；

通过64*4的第二卷积核对31*31*32的第一卷积结果进行第二次激励卷积，得到14*14*64的第二卷积结果；

通过128*4的第三卷积核对14*14*64的第二卷积结果进行第三次激励卷积，得到6*6*128的第三卷积结果以作为编码结果。

在本实施例中，对所述2D图像帧对应的64*64*3的像素矩阵进行3次激励卷积实现编码后，获取了像素矩阵中的重要特征，但同时也产生了很多空白的像素点。为了后续对编码结果进行还原，可以采用与激励卷积相同次数的激励反卷积对编码结果进行还原，不仅还原放大了编码结果，而且在一定程度上确保的图像的质量。

在一实施例中，如图3所示，步骤S113中对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与分类结果对应的5*5*128的卷积结果；

通过64*5的第四卷积核对所述分类结果对应的5*5*128的卷积结果进行第一次激励反卷积，得到13*13*64的第一反卷积结果；

通过32*6的第五卷积核对13*13*64的第一反卷积结果进行第二次激励反卷积，得到30*30*32的第二反卷积结果；

通过3*6的第六卷积核对30*30*32的第二反卷积结果进行第三次激励反卷积，得到64*64*3的第三反卷积结果，以作为与所述2D图像帧对应的压缩抽象表征特征向量。

在本实施例中，6*6*128的第三卷积结果作为编码结果输入至稠密层(也即卷积神经网络中的全连接层)后进行全连接，即可得到与所述2D图像帧对应的分类结果。为了在完成分类后，将所述分类结果还原成像素矩阵，此时可以采用与激励卷积相同次数的激励反卷积对编码结果进行还原，实现对图像的重建。

S120、将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数。

在本实施例中，当实现了压缩每一时间帧的观测(即获取与所述2D图像帧对应的压缩抽象表征特征向量)，还要压缩随着时间发生的一切变化的其他信息，具体实施时可采用混合密度网络-循环神经网络(即MDN-RNN)预测未来，MDN-RNN模型可以充当变分自编码器预期产生的未来z向量的预测模型。由于自然中的很多复杂环境是随机的，RNN以输出一个概率密度函数p(z)而不是一个确定性预测z。

在一实施例中，如图4-图6所示，步骤S120包括：

S121、将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型中循环神经网络模型的输入，得到与所述压缩抽象表征特征向量对应的概率密度函数；

S122、将所述概率密度函数及控制参数作为预先训练的混合密度网络-循环神经网络模型中混合密度网络模型的输入，计算得到预测向量。

在本实施例中，预先训练的混合密度网络-循环神经网络模型时，需建模率分布P(z _(t+1)|a _t,z _t,h _t),其中a _t为在t时刻时采取的行动(即动作向量)，而h _t是循环神经网络模型在t时刻时的隐藏态，τ是用于控制模型不确定性的参数。混合密度网络-循环神经网络模型具体地说就是一个有着256个隐藏单元的LSTM(即长短期记忆网络)，和VAE类似，循环神经网络模型试图捕获环境中车辆当前状态的潜在理解，但此次对车辆当前状态的潜在理解是要以之前的z(即压缩抽象表征特征向量)和行为为基础，预测下一个z可能是什么样的，更新自己的隐藏状态。

S130、将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型。

在本实施例中，控制器则是用于行为选择的任务。简单地说，控制器就是一个密集连接的神经网络，这个网络的输入是级联的z(从VAE得到的潜在状态—长度为32)和h(RNN的隐藏状态—长度是256)。这三个输出神经元对应三个行为，且被缩放至适合的范围。然后将这一行为传送至环境中去，这会返回一个更新的观察，然后开始下一循环。

在一实施例中，步骤S130包括：

获取控制器中的线性模型a _t＝W _c[z _t h _t]+b _c；其中，a _t为动作向量，z _t为压缩抽象表征特征向量，h _t为预测向量，W _c为权重矩阵，b _c为偏置向量；

根据控制器中的线性模型获取与所述压缩抽象表征特征向量及所述预测向量对应的动作向量。

在本实施例中，若给定当前状态z _t，可以产生z _t+1的概率分布，然后从z _t+1中采样并作为真实世界的观察值。在每一个时间步(time step，也可以理解为时间帧)中，都会被馈送一个观察(通过视觉传感器接收到的道路与车辆的环境彩色图像，也即2D图像帧)，还需要返回接下来采取的一系列行为参数——也就是转向的方向(-1到1)、加速度(0到1)以及刹车(0到1)，然后将这一行为传递到环境中，返回下一个观察，再开始下一次循环，从而从前序时间与空间上进行实时学习，预测下一帧的行为，对于环境有更好的适应性。

S140、将所述动作向量发送至自动驾驶端。

在本实施例中，当获取了当前动作向量后，将动作向量发送至自动驾驶端，从而控制无人驾驶。动作向量中至少包括以下为行为参数：也就是转向的方向(-1到1)、加速度(0到1)以及刹车(0到1)。

该方法实现了基于视觉感知，通过混合不同的神经网络学习，实现对未来的预测，增大决策的准确性。

本申请实施例还提供一种自动驾驶行为预测装置，该自动驾驶行为预测装置用于执行前述自动驾驶行为预测方法的任一实施例。具体地，请参阅图7，图7是本申请实施例提供的自动驾驶行为预测装置的示意性框图。该自动驾驶行为预测装置100可以配置于可无人驾驶的智能汽车中。

如图7所示，自动驾驶行为预测装置100包括图像接收单元110、预测向量获取单元120、动作获取单元130、及向量发送单元140。

图像接收单元110，用于接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量。

在一实施例中，如图8所示，图像接收单元110包括：

编码单元111，用于获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

全连接单元112，用于通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

解码单元113，用于对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。

如图3所示，其为将像素矩阵输入至变分自编码器进行多次激励卷积和激励反卷积所采用的神经网络的结构示意图。通过3次激励卷积和3次激励反卷积后，即可实现将所述2D图像帧进行抽象压缩表征，从而得到与所述2D图像帧对应的压缩抽象表征特征向量。

在一实施例中，编码单元111包括：

像素矩阵获取单元，用于获取与所述2D图像帧对应的64*64*3的像素矩阵；

第一激励卷积单元，用于通过32*4的第一卷积核对64*64*3的像素矩阵进行第一次激励卷积，得到31*31*32的第一卷积结果；

第二激励卷积单元，用于通过64*4的第二卷积核对31*31*32的第一卷积结果进行第二次激励卷积，得到14*14*64的第二卷积结果；

第三激励卷积单元，用于通过128*4的第三卷积核对14*14*64的第二卷积结果进行第三次激励卷积，得到6*6*128的第三卷积结果以作为编码结果。

在一实施例中，解码单元113包括：

卷积结果获取单元，用于获取与分类结果对应的5*5*128的卷积结果；

第一激励反卷积单元，用于通过64*5的第四卷积核对所述分类结果对应的5*5*128的卷积结果进行第一次激励反卷积，得到13*13*64的第一反卷积结果；

第二激励反卷积单元，用于通过32*6的第五卷积核对13*13*64的第一反卷积结果进行第二次激励反卷积，得到30*30*32的第二反卷积结果；

第三激励反卷积单元，用于通过3*6的第六卷积核对30*30*32的第二反卷积结果进行第三次激励反卷积，得到64*64*3的第三反卷积结果，以作为与所述2D图像帧对应的压缩抽象表征特征向量。

预测向量获取单元120，用于将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数。

在一实施例中，如图9所示，预测向量获取单元120包括：

第一神经网络处理单元121，用于将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型中循环神经网络模型的输入，得到与所述压缩抽象表征特征向量对应的概率密度函数；

第二神经网络处理单元122，用于将所述概率密度函数及控制参数作为预先训练的混合密度网络-循环神经网络模型中混合密度网络模型的输入，计算得到预测向量。

动作获取单元130，用于将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型。

在一实施例中，动作获取单元130包括：

线性模型获取单元，用于获取控制器中的线性模型a _t＝W _c[z _t h _t]+b _c；其中，a _t为动作向量，z _t为压缩抽象表征特征向量，h _t为预测向量，W _c为权重矩阵，b _c为偏置向量；

动作向量获取单元，用于根据控制器中的线性模型获取与所述压缩抽象表征特征向量及所述预测向量对应的动作向量。

向量发送单元140，用于将所述动作向量发送至自动驾驶端。

该装置实现了基于视觉感知，通过混合不同的神经网络学习，实现对未来的预测，增大决策的准确性。

上述自动驾驶行为预测装置可以实现为计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。

请参阅图10，图10是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是可无人驾驶的智能汽车的车载智能终端。

参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行自动驾驶行为预测方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行自动驾驶行为预测方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本申请实施例的自动驾驶行为预测方法。

本领域技术人员可以理解，图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图10所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本申请实施例的自动驾驶行为预测方法。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种自动驾驶行为预测方法，包括：

接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

将所述动作向量发送至自动驾驶端。
根据权利要求1所述的自动驾驶行为预测方法，其中，所述通将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。
根据权利要求2所述的自动驾驶行为预测方法，其中，所述获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果，包括：

获取与所述2D图像帧对应的64*64*3的像素矩阵；

通过32*4的第一卷积核对64*64*3的像素矩阵进行第一次激励卷积，得到31*31*32的第一卷积结果；

通过64*4的第二卷积核对31*31*32的第一卷积结果进行第二次激励卷积，得到14*14*64的第二卷积结果；

通过128*4的第三卷积核对14*14*64的第二卷积结果进行第三次激励卷积，得到6*6*128的第三卷积结果以作为编码结果。
根据权利要求2所述的自动驾驶行为预测方法，其中，所述对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与分类结果对应的5*5*128的卷积结果；

通过64*5的第四卷积核对所述分类结果对应的5*5*128的卷积结果进行第一次激励反卷积，得到13*13*64的第一反卷积结果；

通过32*6的第五卷积核对13*13*64的第一反卷积结果进行第二次激励反卷积，得到30*30*32的第二反卷积结果；

通过3*6的第六卷积核对30*30*32的第二反卷积结果进行第三次激励反卷积，得到64*64*3的第三反卷积结果，以作为与所述2D图像帧对应的压缩抽象表征特征向量。
根据权利要求1所述的自动驾驶行为预测方法，其中，所述将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量，包括：

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型中循环神经网络模型的输入，得到与所述压缩抽象表征特征向量对应的概率密度函数；

将所述概率密度函数及控制参数作为预先训练的混合密度网络-循环神经网络模型中混合密度网络模型的输入，计算得到预测向量。
根据权利要求1所述的自动驾驶行为预测方法，其中，所述将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量，包括：

获取控制器中的线性模型a _t＝W _c[z _t h _t]+b _c；其中，a _t为动作向量，z _t为压缩抽象表征特征向量，h _t为预测向量，W _c为权重矩阵，b _c为偏置向量；

根据控制器中的线性模型获取与所述压缩抽象表征特征向量及所述预测向量对应的动作向量。
根据权利要求1所述的自动驾驶行为预测方法，其中，所述接收自动驾驶端当前所采集的视频序列中的2D图像帧，包括：

若设置于自动驾驶端的摄像头已采集到视频，对视频切割后随机选取一张或多张，得到2D图像帧。
根据权利要求1所述的自动驾驶行为预测方法，其中，将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量之前，还包括：

建模P(z _(t+1)|a _t,z _t,h _t),其中a _t为在t时刻的动作向量，h _t是循环神经网络模型在t时刻时的隐藏态，z _t为当前状态，z _t+1为下一时刻状态，τ是用于控制模型不确定性的参数。
一种自动驾驶行为预测装置，包括：

图像接收单元，用于接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

预测向量获取单元，用于将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

动作获取单元，用于将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

向量发送单元，用于将所述动作向量发送至自动驾驶端。
根据权利要求9所述的自动驾驶行为预测装置，其中，所述图像接收单元，包括：

编码单元，用于获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

全连接单元，用于通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

解码单元，用于对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

将所述动作向量发送至自动驾驶端。
根据权利要求11所述的计算机设备，其中，所述通将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。
根据权利要求12所述的计算机设备，其中，所述获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果，包括：

获取与所述2D图像帧对应的64*64*3的像素矩阵；

通过32*4的第一卷积核对64*64*3的像素矩阵进行第一次激励卷积，得到31*31*32的第一卷积结果；

通过64*4的第二卷积核对31*31*32的第一卷积结果进行第二次激励卷积，得到14*14*64的第二卷积结果；

通过128*4的第三卷积核对14*14*64的第二卷积结果进行第三次激励卷积，得到6*6*128的第三卷积结果以作为编码结果。
根据权利要求12所述的计算机设备，其中，所述对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与分类结果对应的5*5*128的卷积结果；

通过64*5的第四卷积核对所述分类结果对应的5*5*128的卷积结果进行第一次激励反卷积，得到13*13*64的第一反卷积结果；

通过32*6的第五卷积核对13*13*64的第一反卷积结果进行第二次激励反卷积，得到30*30*32的第二反卷积结果；

通过3*6的第六卷积核对30*30*32的第二反卷积结果进行第三次激励反卷积，得到64*64*3的第三反卷积结果，以作为与所述2D图像帧对应的压缩抽象表征特征向量。
根据权利要求11所述的计算机设备，其中，所述将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量，包括：

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型中循环神经网络模型的输入，得到与所述压缩抽象表征特征向量对应的概率密度函数；

将所述概率密度函数及控制参数作为预先训练的混合密度网络-循环神经网络模型中混合密度网络模型的输入，计算得到预测向量。
根据权利要求11所述的计算机设备，其中，所述将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量，包括：

获取控制器中的线性模型a _t＝W _c[z _t h _t]+b _c；其中，a _t为动作向量，z _t为压缩抽象表征特征向量，h _t为预测向量，W _c为权重矩阵，b _c为偏置向量；

根据控制器中的线性模型获取与所述压缩抽象表征特征向量及所述预测向量对应的动作向量。
根据权利要求11所述的计算机设备，其中，所述接收自动驾驶端当前所采集的视频序列中的2D图像帧，包括：

若设置于自动驾驶端的摄像头已采集到视频，对视频切割后随机选取一张或多张，得到2D图像帧。
根据权利要求11所述的计算机设备，其中，将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量之前，还包括：

建模P(z _(t+1)|a _t,z _t,h _t),其中a _t为在t时刻的动作向量，h _t是循环神经网络模型在t时刻时的隐藏态，z _t为当前状态，z _t+1为下一时刻状态，τ是用于控制模型不确定性的参数。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下操作：

接收自动驾驶端当前所采集的视频序列中的2D图像帧，将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量；

将所述压缩抽象表征特征向量作为预先训练的混合密度网络-循环神经网络模型的输入，得到预测向量；其中，所述混合密度网络-循环神经网络模型中循环神经网络模型的输出为与所述压缩抽象表征特征向量对应的概率密度函数；

将所述压缩抽象表征特征向量及所述预测向量均输入至控制器，生成得到动作向量；其中，所述控制器为线性模型；以及

将所述动作向量发送至自动驾驶端。
根据权利要求19所述的计算机可读存储介质，其中，所述通将所述2D图像帧作为变分自编码器的输入，得到与所述2D图像帧对应的压缩抽象表征特征向量，包括：

获取与所述2D图像帧对应的像素矩阵，将所述像素矩阵输入至变分自编码器进行多次激励卷积，得到编码结果；

通过变分自编码器的稠密层对所述编码结果进行全连接，得到分类结果；

对所述分类结果进行多次激励反卷积，得到与所述2D图像帧对应的压缩抽象表征特征向量；其中，将所述像素矩阵输入至变分自编码器进行多次激励卷积的激励卷积次数与对所述分类结果进行多次激励反卷积的激励反卷积的次数相同。