WO2020238008A1

WO2020238008A1 - 运动物体检测及智能驾驶控制方法、装置、介质及设备

Info

Publication number: WO2020238008A1
Application number: PCT/CN2019/114611
Authority: WO
Inventors: 姚兴华; 刘润涛; 曾星宇
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2019-05-29
Filing date: 2019-10-31
Publication date: 2020-12-03
Also published as: US20210122367A1; JP2021528732A; KR20210022703A; SG11202013225PA; CN112015170A; JP7091485B2

Abstract

一种运动物体检测方法和装置、智能驾驶控制方法和装置、电子设备、计算机可读存储介质以及计算机程序，其中的运动物体检测方法包括：获取待处理图像中像素的深度信息（S100）；获取待处理图像和参考图像之间的光流信息（S110）；其中，参考图像和待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像；根据深度信息和光流信息，获取待处理图像中像素相对于参考图像的三维运动场（S120）；根据该三维运动场，确定待处理图像中的运动物体（S130）。

Description

运动物体检测及智能驾驶控制方法、装置、介质及设备

本公开要求在2019年5月29日提交中国专利局、申请号为201910459420.9、发明名称为“运动物体检测及智能驾驶控制方法、装置、介质及设备”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及计算机视觉技术，尤其是涉及一种运动物体检测方法、运动物体检测装置、智能驾驶控制方法、智能驾驶控制装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

在智能驾驶以及安防监控等技术领域中，需要感知运动物体及其运动方向。感知到的运动物体及其运动方向，可以提供给决策层，使决策层基于感知结果进行决策。例如，在智能驾驶系统中，在感知到处于道路旁边的运动物体(如人或者动物等)向道路中央靠近时，决策层可以控制车辆减速行驶，甚至停车，以保障车辆的安全行驶。

发明内容

本公开实施方式提供一种运动物体检测技术方案。

根据本公开实施方式第一方面，提供一种运动物体检测方法，该方法包括：获取待处理图像中的像素的深度信息；获取所述待处理图像和参考图像之间的光流信息；其中，所述参考图像和所述待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像；根据所述深度信息和光流信息，获取所述待处理图像中的像素相对于所述参考图像的三维运动场；根据所述三维运动场，确定所述待处理图像中的运动物体。

根据本公开实施方式第二方面，提供一种智能驾驶控制方法，包括：通过车辆上设置的摄像装置获取所述车辆所在路面的视频流；采用如上述运动物体检测方法，对所述视频流包括的至少一视频帧进行运动物体检测，确定该视频帧中的运动物体；根据所述运动物体生成并输出所述车辆的控制指令。

根据本公开实施方式第三方面，提供一种运动物体检测装置，包括：第一获取模块，用于获取待处理图像中的像素的深度信息；第二获取模块，用于获取所述待处理图像和参考图像之间的光流信息；其中，所述参考图像和所述待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像；第三获取模块，用于根据所述深度信息和光流信息，获取所述待处理图像中的像素相对于所述参考图像的三维运动场；确定运动物体模块，用于根据所述三维运动场，确定所述待处理图像中的运动物体。

根据本公开实施方式第四方面，提供一种智能驾驶控制装置，该装置包括：第四获取模块，用于通过车辆上设置的摄像装置获取所述车辆所在路面的视频流；上述运动物体检测装置，用于对所述视频流包括的至少一视频帧进行运动物体检测，确定该视频帧中的运动物体；控制模块，用于根据所述运动物体生成并输出所述车辆的控制指令。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述方法。

根据本公开实施方式第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本公开任一方法实施方式。

根据本公开实施方式的第七方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本公开任一方法实施方式。

基于本公开提供的运动物体检测方法、智能驾驶控制方法、装置、电子设备、计算机可读存储介质以及计算机程序，本公开通过利用待处理图像中的像素的深度信息以及待处理图像和参考图像之间的光流信息，可以获得待处理图像中的像素相对于参考图像的三维运动场，由于三维运动场可以反映出运动物体，因此，本公开可以利用三维运动场确定待处理图像中的运动物体。由此可知，本公开提供的技术方案有利于提高感知运动物体的准确性，从而有利于提高车辆智能行驶的安全性。

下面通过附图和实施方式，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施方式，并连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的运动物体检测方法一个实施方式的流程图；

图2为本公开的待处理图像的一个示意图；

图3为图2所示的待处理图像的第一视差图一个实施方式的示意图；

图4为本公开的待处理图像的第一视差图一个实施方式的示意图；

图5为本公开的卷积神经网络一个实施方式的示意图；

图6为本公开的第一视差图的第一权重分布图一个实施方式的示意图；

图7为本公开的第一视差图的第一权重分布图另一个实施方式的示意图；

图8为本公开的第一视差图的第二权重分布图一个实施方式的示意图；

图9为本公开的第三视差图一个实施方式的示意图；

图10为图9所示的第三视差图的第二权重分布图一个实施方式示意图；

图11为本公开的对待处理图像的第一视差图进行优化调整实施方式示意图；

图12为本公开的三维坐标系一个实施方式的示意图；

图13为本公开的参考图像以及Warp处理后的图像一个实施方式示意图；

图14为本公开的Warp处理后的图像、待处理图像以及待处理图像相对于参考图像的光流图一个实施方式示意图；

图15为本公开的待处理图像及其运动掩膜的一个实施方式示意图；

图16为本公开形成的运动物体检测框一个实施方式示意图；

图17为本公开的卷积神经网络训练方法一个实施方式的流程图；

图18为本公开的智能驾驶控制方法一个实施方式的流程图；

图19为本公开的运动物体检测装置一个实施方式的结构示意图；

图20为本公开的智能驾驶控制装置一个实施方式的结构示意图；

图21为实现本公开实施方式的一示例性设备的框图。

具体实施例

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

图1为本公开的运动物体检测方法一个实施例的流程图。如图1所示，该实施例方法包括：步骤S100、步骤S110、步骤S120以及步骤S130。下面对各步骤进行详细描述。

S100、获取待处理图像中的像素的深度信息。

在一个可选示例中，本公开可以借助待处理图像的视差图，来获得待处理图像中的像素(如所有像素)的深度信息。即，首先，获取待处理图像的视差图，然后，根据待处理图像的视差图，获取待处理图像中的像素的深度信息。

在一个可选示例中，为清晰描述，下述将待处理图像的视差图称为待处理图像的第一视差图。本公开中的第一视差图用于描述待处理图像的视差。视差可以认为指，从相距一定距离的两个点位置处，观察同一个目标对象时，所产生的目标对象位置差异。待处理图像的一个例子如图2所示。图2所示的待处理图像的第一视差图的一个例子如图3所示。可选的，本公开中的待处理图像的第一视差图还可以表示为如图4所示的形式。图4中的各数字(如0、1、2、3、4和5等)分别表示：待处理图像中的(x，y)位置处的像素的视差。需要特别说明的是，图4并没有示出一个完整的第一视差图。

在一个可选示例中，本公开中的待处理图像通常为单目图像。即待处理图像通常是利用单目摄像装置进行拍摄，所获得的图像。在待处理图像为单目图像的情况下，本公开可以在不需要设置双目摄像装置的情况下，实现运动物体检测，从而有利于降低运动物体检测成本。

在一个可选示例中，本公开可以利用预先成功训练的卷积神经网络，来获得待处理图像的第一视差图。例如，将待处理图像输入至卷积神经网络中，经由该卷积神经网络对待处理图像进行视差分析处理，该卷积神经网络输出视差分析处理结果，从而本公开可以基于视差分析处理结果，获得待处理图像的第一视差图。通过利用卷积神经网络来获得待处理图像的第一视差图，可以在不需要使用两个图像进行逐像素视差计算，且不需要进行摄像装置标定的情况下，获得视差图。有利于提高获得视差图的便捷性和实时性。

在一个可选示例中，本公开中的卷积神经网络通常包括但不限于：多个卷积层(Conv)以及多个反卷积层(Deconv)。本公开的卷积神经网络可以被划分为两个部分，即编码部分和解码部分。输入至卷积神经网络中的待处理图像(如图2所示的待处理图像)，由编码部分对其进行编码处理(即特征提取处理)，编码部分的编码处理结果被提供给解码部分，由解码部分对编码处理结果进行解码处理，并输出解码处理结果。本公开可以根据卷积神经网络输出的解码处理结果，获得待处理图像的第一视差图(如图3所示的视差图)。可选的，卷积神经网络中的编码部分包括但不限于：多个卷积层，且多个卷积层串联。卷积神经网络中的解码部分包括但不限于：多个卷积层和多个反卷积层，多个卷积层和多个反卷积层相互间隔设置，且串联连接。

本公开的卷积神经网络的一个例子，如图5所示。图5中，左侧第1个长方形表示输入卷积神经网络中的待处理图像，右侧第1个长方形表示卷积神经网络输出的视差图。左侧第2个长方形至第15个长方形中的每一个长方形均表示卷积层，左侧第16个长方形至右侧第2个长方形中的所有长方形表示相互间隔设置的反卷积层和卷积层，如左侧第16个长方形表示反卷积层，左侧第17个长方形表示卷积层，左侧第18个长方形表示反卷积层，左侧第19个长方形表示卷积层，以此类推，直到右侧第2个长方形，且右侧第2个长方形表示反卷积层。

在一个可选示例中，本公开的卷积神经网络可通过跳连接(Skip Connect)的方式，使卷积神经网络中的低层信息和高层信息融合。例如，将编码部分中的至少一卷积层的输出通过跳连接的方式提供给解码部分中的至少一反卷积层。可选的，卷积神经网络中的所有卷积层的输入通常包括：上一层(如卷积层或者反卷积层)的输出，卷积神经网络中的至少一反卷积层(如部分反卷积层或者所有反卷积层)的输入包括：上一卷积层的输出的上采样(Upsample)结果和与该反卷积层跳连接的编码部分的卷积层的输出。例如，由图5右侧的卷积层的下方引出的实线箭头所指向的内容表示上一卷积层的输出，图5中的虚线箭头表示提供给反卷积层的上采样结果，由图5左侧的卷积层的上方引出的实线箭头表示与反卷积层跳连接的卷积层的输出。本公开不限制跳连接的数量以及卷积神经网络的网络结构。本公开通过将卷积神经网络中的低层信息和高层信息进行融合，有利于提高卷积神经网络生成的视差图的准确性。可选的，本公开的卷积神经网络是利用双目图像样本训练获得的。该卷积神经网络的训练过程可以参见下述实施方式中的描述。在此不再详细说明。

在一个可选示例中，本公开还可以对利用卷积神经网络获得的待处理图像的第一视差图进行优化调整，以便于获得更为准确的第一视差图。可选的，本公开可以利用待处理图像的水平镜像图(例如，左镜像图或者右镜像图)的视差图，对待处理图像的第一视差图进行优化调整。为便于描述，下述将待处理图像的水平镜像图称为第一水平镜像图，将第一水平镜像图的视差图称为第二视差图。本公开对第一视差图进行优化调整的一个具体例子如下：

步骤A、获取第二视差图的水平镜像图。

可选的，本公开中的第一水平镜像图意在表明：该镜像图是对待处理图像进行水平方向上的镜像处理(不是竖直方向上的镜像处理)，所形成的镜像图。为便于描述，下述将第二视差图的水平镜像图称为第二水平镜像图。可选的，本公开中的第二水平镜像图是指，对第二视差图进行水平方向上的镜像处理后，形成的镜像图。第二水平镜像图仍然是视差图。

可选的，本公开可以先对待处理图像进行左镜像处理或右镜像处理(由于左镜像处理结果与右镜像处理结果相同，因此，本公开对待处理图像进行左镜像处理或右镜像处理均可)，获得第一水平镜像图；然后，再获取第一水平镜像图的视差图；最后，再对该第二视差图进行左镜像处理或者右镜像处理(由于第二视差图的左镜像处理结果与右镜像处理结果相同，因此，本公开对第二视差图进行左镜像处理或者右镜像处理均可)，从而获得第二水平镜像图。为了方便描述，下述将第二水平镜像图称为第三视差图。

由上述描述可知，本公开在对待处理图像进行水平镜像处理时，可以不考虑待处理图像是被作为左目图像进行镜像处理，还是被作为右目图像进行镜像处理。也就是说，无论待处理图像被作为左目图像，还是被作为右目图像，本公开均可以对待处理图像进行左镜像处理或者右镜像处理，从而获得第一水平镜像图。同样，本公开在对第二视差图进行水平镜像处理时，也可以不考虑是应该对第二视差图进行左镜像处理，还是应该对第二视差图进行右镜像处理。

需要说明的是，在训练用于生成待处理图像的第一视差图的卷积神经网络的过程，如果以双目图像样本中的左目图像样本作为输入，提供给卷积神经网络，进行训练，则成功训练后的卷积神经网络在测试以及实际应用中，会将输入的待处理图像作为左目图像，也就是说，本公开的待处理图像被作为待处理左目图像。如果以双目图像样本中的右目图像样本作为输入，提供给卷积神经网络，进行训练，则成功训练后的卷积神经网络在测试以及实际应用中，会将输入的待处理图像作为右目图像，也就是说，本公开的待处理图像被作为待处理右目图像。

可选的，本公开同样可以利用上述卷积神经网络，来获得第二视差图。例如，将第一水平镜像图输入至卷积神经网络中，经由该卷积神经网络对第一水平镜像图进行视差分析处理，卷积神经网络输出视差分析处理结果，从而本公开可以根据输出的视差分析处理结果，获得第二视差图。

步骤B、获取待处理图像的视差图(即第一视差图)的权重分布图以及第二水平镜像图(即第三视差图)的权重分布图。

在一个可选示例中，第一视差图的权重分布图用于描述第一视差图中的多个视差值(例如，所有视差值)各自对应的权重值。第一视差图的权重分布图可以包括但不限于：第一视差图的第一权重分布图以及第一视差图的第二权重分布图。

可选的，上述第一视差图的第一权重分布图是针对多个不同的待处理图像的第一视差图统一设置的权重分布图，即第一视差图的第一权重分布图可以面向多个不同的待处理图像的第一视差图，也就是说，不同待处理图像的第一视差图使用同一个第一权重分布图，因此，本公开可以将第一视差图的第一权重分布图称为第一视差图的全局权重分布图。第一视差图的全局权重分布图用于描述第一视差图中的多个视差值(如所有视差值)各自对应的全局权重值。

可选的，上述第一视差图的第二权重分布图是针对单个待处理图像的第一视差图而设置的权重分布图，即第一视差图的第二权重分布图是面向单个待处理图像的第一视差图，也就是说，不同待处理图像的第一视差图，使用了不同的第二权重分布图，因此，本公开可以将第一视差图的第二权重分布图称为第一视差图的局部权重分布图。第一视差图的局部权重分布图用于描述第一视差图中的多个视差值(如所有视差值)各自对应的局部权重值。

在一个可选示例中，第三视差图的权重分布图用于描述第三视差图中的多个视差值各自对应的权重值。第三视差图的权重分布图可以包括但不限于：第三视差图的第一权重分布图以及第三视差图的第二权重分布图。

可选的，上述第三视差图的第一权重分布图是针对多个不同的待处理图像的第三视差图统一设置的权重分布图，即第三视差图的第一权重分布图面向多个不同的待处理图像的第三视差图的，也就是说，不同待处理图像的第三视差图使用了同一个第一权重分布图，因此，本公开可以将第三视差图的第一权重分布图称为第三视差图的全局权重分布图。第三视差图的全局权重分布图用于描述第三视差图中的多个视差值(如所有视差值)各自对应的全局权重值。

可选的，上述第三视差图的第二权重分布图是针对单个待处理图像的第三视差图而设置的权重分布图，即第三视差图的第二权重分布图是面向单个待处理图像的第三视差图的，也就是说，不同待处理图像的第三视差图使用了不同的第二权重分布图，因此，本公开可以将第三视差图的第二权重分布图称为第三视差图的局部权重分布图。第三视差图的局部权重分布图用于描述第三视差图中的多个视差值(如所有视差值)各自对应的局部权重值。

在一个可选示例中，第一视差图的第一权重分布图包括：至少两个左右分列的区域，不同区域具有不同的权重值。可选的，位于左侧的区域的权重值与位于右侧的区域的权重值的大小关系，通常与待处理图像被作为待处理左目图像，还是被作为待处理右目图像，相关。

例如，在待处理图像被作为左目图像的情况下，对于第一视差图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值。图6为图3所示的视差图的第一权重分布图，该第一权重分布图被划分为五个区域，即图6所示的区域1、区域2、区域3、区域4以及区域5。区域1的权重值小于区域2的权重值，区域2的权重值小于区域3的权重值，区域3的权重值小于区域4的权重值，区域4的权重值小于区域5的权重值。另外，第一视差图的第一权重分布图中的任一区域内可以具有相同的权重值，也可以具有不同的权重值。在第一视差图的第一权重分布图中的一个区域内具有不同的权重值的情况下，区域内左侧的权重值通常不大于该区域内右侧的权重值。可选的，图6所示的区域1的权重值可以为0，即在第一视差图中，区域1对应视差是完全不可信的；区域2的权重值可以从左侧到右侧，由0逐渐增大并接近0.5；区域3的权重值为0.5；区域4的权重值可以从左侧到右侧，由一大于0.5的数值逐渐增大并接近1；区域5的权重值为1，即在第一视差图中，区域5对应视差是完全可信的。

再例如，在待处理图像被作为右目图像的情况下，对于第一视差图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值。图7示出了待处理图像被作为右目图像的第一视差图的第一权重分布图，第一权重分布图被划分为五个区域，即图7中的区域1、区域2、区域3、区域4和区域5。区域5的权重值小于区域4的权重值，区域4的权重值小于区域3的权重值，区域3的权重值小于区域2的权重值，区域2的权重值小于区域1的权重值。另外，第一视差图的第一权重分布图中的任一区域内可以具有相同的权重值，也可以具有不同的权重值。在第一视差图的第一权重分布图中的一个区域具有不同的权重值的情况下，该区域内右侧的权重值通常不大于该区域内左侧的权重值。可选的，图7中的区域5的权重值可为0，即在第一视差图中，区域5对应视差是完全不可信的；区域4的权重值可以从右侧到左侧，由0逐渐增大并接近0.5；区域3的权重值为0.5；区域2的权重值可以从右侧到左侧，由一大于0.5的数值逐渐增大并接近1；区域1的权重值为1，即在第一视差图中，区域1对应视差是完全可信的。

可选的，第三视差图的第一权重分布图包括：至少两个左右分列的区域，不同区域具有不同的权重值。位于左侧的区域的权重值与位于右侧的区域的权重值的大小关系，通常与待处理图像被作为左目图像，还是被作为右目图像，相关。

例如，在待处理图像被作为左目图像的情况下，对于第三视差图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值。另外，第三视差图的第一权重分布图中的任一区域内可以具有相同的权重值，也可以具有不同的权重值。在第三视差图的第一权重分布图中的一个区域内具有不同的权重值的情况下，该区域内左侧的权重值通常不大于该区域内右侧的权重值。

再例如，在待处理图像被作为右目图像的情况下，对于第三视差图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值。另外，第三视差图的第一权重分布图中的任一区域内可以具有相同的权重值，也可以具有不同的权重值。在第三视差图的第一权重分布图中的一个区域内具有不同的权重值的情况下，该区域内右侧的权重值通常不大于该区域内左侧的权重值。

可选的，第一视差图的第二权重分布图的设置方式可以包括下述步骤：

首先，对第一视差图进行水平镜像处理(例如，左镜像处理或者右镜像处理)，形成镜像视差图。为了便于描述，下述称为第四视差图。

其次，对于第四视差图中的任一像素点而言，如果该像素点的视差值大于该像素点对应的第一变量，则将待处理图像的第一视差图的第二权重分布图中的该像素点的权重值设置为第一值，否则，该像素点的权重值被设置为第二值。本公开中的第一值大于第二值。例如，第一值为1，第二值为0。

可选的，第一视差图的第二权重分布图的一个例子如图8所示。图8中的白色区域的权重值均为1，表示该位置处的视差值完全可信。图8中的黑色区域的权重值为0，表示该位置处的视差值完全不可信。

可选的，本公开中的像素点对应的第一变量可以是根据第一视差图中的相应像素点的视差值以及大于零的常数值设置的。例如，将第一视差图中的相应像素点的视差值与大于零的常数值的乘积，作为第四视差图中的相应像素点对应的第一变量。

可选的，第一视差图的第二权重分布图可以使用下述公式(1)表示：

在上述公式(1)中，L _l表示第一视差图的第二权重分布图；

表示第四视差图的相应像素点的视差值；d ^l表示第一视差图中的相应像素点的视差值；thresh 1表示大于零的常数值，thresh 1的取值范围可以为1.1-1.5，如thresh 1＝1.2或者thresh 2＝1.25等。

在一个可选示例中，第三视差图的第二权重分布图的设置方式可以为：对于第一视差图中的任一像素点而言，如果第一视差图中的该像素点的视差值大于该像素点对应的第二变量，则将第三视差图的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值。可选的，本公开中的第一值大于第二值。例如，第一值为1，第二值为0。

可选的，本公开中的像素点对应的第二变量可以是根据第四视差图中的相应像素点的视差值以及大于零的常数值设置的。例如，先对第一视差图进行左/右镜像处理，形成镜像视差图，即第四视差图，然后，将第四视差图中的相应像素点的视差值与大于零的常数值的乘积，作为第一视差图中的相应像素点对应的第二变量。

可选的，本公开基于图2的待处理图像，所形成的第三视差图的一个例子如图9所示。图9所示的第三视差图的第二权重分布图的一个例子，如图10所示。图10中的白色区域的权重值均为1，表示该位置处的视差值是完全可信的。图10中的黑色区域的权重值为0，表示该位置处的视差值完全不可信。

可选的，第三视差图的第二权重分布图可以使用下述公式(2)表示：

在上述公式(2)中，L _l′表示第三视差图的第二权重分布图；

表示第四视差图的相应像素点的视差值；d ^l表示第一视差图中的相应像素点的视差值；thresh 2表示大于零的常数值，thresh 2的取值范围可以为1.1-1.5，如thresh 2＝1.2或者thresh 2＝1.25等。

步骤C、根据待处理图像的第一视差图的权重分布图、以及第三视差图的权重分布图，对待处理图像的第一视差图进行优化调整，优化调整后的视差图即为最终获得的待处理图像的视差图。

在一个可选示例中，本公开可以利用第一视差图的第一权重分布图和第二权重分布图对第一视差图中的多个视差值进行调整，获得调整后的第一视差图；利用第三视差图的第一权重分布图和第二权重分布图，对第三视差图中的多个视差值进行调整，获得调整后的第三视差图；之后，对调整后的第一视差图和调整后的第三视差图进行合并处理，从而获得优化调整后的待处理图像的第一视差图。

可选的，获得优化调整后的待处理图像的第一视差图的一个例子如下：

首先，对第一视差图的第一权重分布图和第一视差图的第二权重分布图进行合并处理，获得第三权重分布图。第三权重分布图可以采用下述公式(3)表示：

W _l＝M _l+L _l·0.5 公式(3)

在公式(3)中，W _l表示第三权重分布图；M _l表示第一视差图的第一权重分布图；L _l表示第一视差图的第二权重分布图；其中的0.5也可以变换为其他常数值。

其次，对第三视差图的第一权重分布图和第三视差图的第二权重分布图进行合并处理，获得第四权重分布图。第四权重分布图可以采用下述公式(4)表示：

W _l'＝M _l'+L _l'·0.5 公式(4)

在公式(4)中，W _l'表示第四权重分布图，M _l'表示第三视差图的第一权重分布图；L _l'表示第三视差图的第二权重分布图；其中的0.5也可以变换为其他常数值。

再次，根据第三权重分布图调整第一视差图中的多个视差值，获得调整后的第一视差图。例如，针对第一视差图中的任一像素点的视差值而言，将该像素点的视差值替换为：该像素点的视差值与第三权重分布图中的相应位置处的像素点的权重值的乘积。在对第一视差图中的所有像素点均进行了上述替换处理后，获得调整后的第一视差图。

之后，根据第四权重分布图调整第三视差图中的多个视差值，获得调整后的第三视差图。例如，针对第三视差图中的任一像素点的视差值而言，将该像素点的视差值替换为：该像素点的视差值与第四权重分布图中的相应位置处的像素点的权重值的乘积。在对第三视差图中的所有像素点均进行了上述替换处理后，获得调整后的第三视差图。

最后，合并调整后的第一视差图和调整后的第三视差图，最终获得待处理图像的视差图(即最终的第一视差图)。最终获得的待处理图像的视差图可以采用下述公式(5)表示：

在公式(5)中，d _final表示最终获得的待处理图像的视差图(如图11中的右侧第1幅图所示)；W _l表示第三权重分布图(如图11中的左上第1幅图所示)；W _l'表示第四权重分布图(如图11中的左下第1幅图所示)；d _l表示第一视差图(如图11中的左上第2幅图所示)；

表示第三视差图(如图11中的左下第2幅图所示)。

需要说明的是，本公开不限制对第一权重分布图和第二权重分布图进行合并处理的两个步骤的执行顺序，例如，两个合并处理的步骤可以同时执行，也可以先后执行。另外，本公开也不限制对第一视差图中的视差值进行调整和对第三视差图中的视差值进行调整的先后执行顺序，例如，两个调整的步骤可以同时进行，也可以先后执行。

可选的，在待处理图像被作为左目图像的情况下，通常会存在左侧视差缺失以及物体的左侧边缘被遮挡等现象，这些现象会导致的待处理图像的视差图中的相应区域的视差值不准确。同样的，在待处理图像被作为待处理右目图像的情况下，通常会存在右侧视差缺失以及物体的右侧边缘被遮挡等现象，这些现象会导致的待处理图像的视差图中的相应区域的视差值不准确。本公开通过对待处理图像进行左/右镜像处理，并对该镜像图的视差图进行镜像处理，进而利用镜像处理后的视差图来优化调整待处理图像的视差图，有利于减弱待处理图像的视差图中的相应区域的视差值不准确的现象，从而有利于提高运动物体检测的精度。

在一个可选示例中，在待处理图像为双目图像的应用场景中，本公开获得待处理图像的第一视差图的方式包括但不限于：利用立体匹配的方式获得待处理图像的第一视差图。例如，利用BM(Block Matching，块匹配)算法、SGBM(Semi-Global Block Matching，半全局块匹配)算法、或者GC(Graph Cuts，图割)算法等立体匹配算法获得待处理图像的第一视差图。再例如，利用用于获取双目图像的视差图的卷积神经网络，对待处理图像进行视差处理，从而获得待处理图像的第一视差图。

在一个可选示例中，本公开在获得了待处理图像的第一视差图之后，可以利用下述公式(6)来获得待处理图像中的像素的深度信息：

在上述公式(6)中，Depth表示像素的深度值；f _x为已知值，表示摄像装置的水平方向(三维坐标系中的X轴方向)焦距；b为已知值，表示获得视差图的卷积神经网络所使用的双目图像样本的基线(baseline)，b属于双目摄像装置的标定参数；Disparity表示像素的视差。

S110、获取待处理图像和参考图像之间的光流信息。

在一个可选示例中，本公开中的待处理图像和参考图像可以为：在同一摄像装置的连续拍摄(如多张连续照相或者录像)过程中，所形成的存在时序关系的两幅图像。形成两幅图像的时间间隔通常较短，以保证两幅图像的画面内容大部分相同。例如，形成两幅图像的时间间隔可以为相邻的两视频帧之间的时间间隔。再例如，形成两幅图像的时间隔间可以为摄像装置的连续照相模式的相邻两照片之间的时间间隔。可选的，待处理图像可以为摄像装置所拍摄的视频中的一视频帧(如当前视频帧)，而待处理图像的参考图像为该视频中的另一视频帧，如参考图像为当前视频帧的前一视频帧。本公开也不排除参考图像为当前视频帧的后一视频帧的情况。可选的，待处理图像可以为摄像装置基于连续照相模式所拍摄的多张照片中的其中一张照片，而待处理图像的参考图像可以为多张照片中的另一张照片，如待处理图像的前一张照片或者后一张照片等。本公开中的待处理图像和参考图像可以均为RGB(Red Green Blue，红绿蓝)图像等。本公开中的摄像装置可以为设置在移动物体上的摄像装置，例如，设置于车辆、火车以及飞机等交通工具上的摄像装置。

在一个可选示例中，本公开中的参考图像通常为单目图像。即参考图像通常是利用单目摄像装置进行拍摄，所获得的图像。在待处理图像和参考图像均为单目图像的情况下，本公开可以在不需要设置双目摄像装置的情况下，实现运动物体检测，从而有利于降低运动物体检测成本。

在一个可选示例中，本公开中的待处理图像和参考图像之间的光流信息可以认为是待处理图像和参考图像中的像素的二维运动场，光流信息并不能表征出像素在三维空间中的真实运动。本公开在获取待处理图像和参考图像之间的光流信息的过程中，可以引入摄像装置在拍摄待处理图像和参考图像时的位姿变化，即本公开根据摄像装置的位姿变化信息，来获取待处理图像和参考图像之间的光流信息，从而有利于消除获得的光流信息中的由于摄像装置的位姿变化而引入的干扰。本公开的根据摄像装置的位姿变化信息，获取待处理图像和参考图像之间的光流信息的方式，可以包括如下步骤：

步骤1、获取摄像装置拍摄待处理图像和参考图像的位姿变化信息。

可选的，本公开中的位姿变化信息是指：摄像装置在拍摄待处理图像时的位姿，与在拍摄参考图像时的位姿之间的差异。该位姿变化信息为基于三维空间的位姿变化信息。该位姿变化信息可以包括：摄像装置的平移信息以及摄像装置的旋转信息。其中的摄像装置的平移信息可以包括：摄像装置分别在三个坐标轴(如图12所示的坐标系)上的位移量。其中的摄像装置的旋转信息可以为：基于Roll、Yaw和Pitch的旋转向量。也就是说，摄像装置的旋转信息可以包括：基于Roll、Yaw和Pitch，这三个旋转方向的旋转分量向量。

例如，摄像装置的旋转信息可以表示为如下公式(7)所示：

在上述公式(7)中：

R表示旋转信息，为3×3的矩阵；R ₁₁表示cosαcosγ-cosβsinαsinγ，

R ₁₂表示-cosβcosγsinα-cosαsinγ，R ₁₃表示sinαsinβ，

R ₂₁表示cosγsinα+cosαcosβsinγ，R ₂₂表示cosαcosβcosγ-sinαsinγ，

R ₂₃表示sinαsinβ，R ₃₁表示sinβsinγ，R ₃₂表示cosγsinβ，R ₃₃表示cosβ，

欧拉角(α,β,γ)表示基于Roll、Yaw和Pitch的旋转角。

可选的，本公开可以利用视觉技术，来获取摄像装置拍摄待处理图像和参考图像的位姿变化信息，例如，利用SLAM(Simultaneous Localization And Mapping，即时定位与地图构建)方式，获取位姿变化信息。进一步的，本公开可以利用开源ORB(Oriented FAST and Rotated BRIEF，定向快速和旋转摘要，一种描述子)-SLAM框架的RGBD(Red Green Blue Detph)模型，获取位姿变化信息。例如，将待处理图像(RGB图像)、待处理图像的深度图以及参考图像(RGB图像)输入RGBD模型，根据RGBD模型的输出获得位姿变化信息。另外，本公开也可以采用其他方式获得位姿变化信息，例如，利用GPS(Global Positioning System，全球定位系统)和角速度传感器，获得位姿变化信息等。

可选的，本公开可以采用如下述公式(8)所示的4×4的齐次矩阵，来表示位姿变化信息：

在上述公式(8)中，T _l ^c表示摄像装置拍摄待处理图像(如当前视频帧c)和参考图像(如当前视频帧c的前一视频帧l)的位姿变化信息，如位姿变化矩阵；R表示摄像装置的旋转信息，为3×3的矩阵，即

t表示摄像装置的平移信息，即平移向量；t可以利用t _x、t _y和t _z三个平移分量来表示，t _x表示X轴方向的平移分量，t _y表示在Y轴方向的平移分量，t _z表示在Z轴方向的平移分量。

步骤2、根据位姿变化信息，建立待处理图像中的像素的像素值与参考图像中的像素的像素值之间的对应关系。

可选的，在摄像装置处于运动状态下，摄像装置在拍摄待处理图像时的位姿与拍摄参考图像时的位姿通常不相同，因此，待处理图像对应的三维坐标系(即摄像装置拍摄待处理图像时的三维坐标系)与参考图像对应的三维坐标系(即摄像装置拍摄参考图像时的三维坐标系)不相同。本公开在建立对应关系时，可以先针对像素的三维空间位置进行转换，使待处理图像中的像素和参考图像中的像素在同一三维坐标系中。

可选的，本公开可以先根据上述获得的深度信息和摄像装置的参数(已知值)，获取待处理图像中的像素(如所有像素)在待处理图像对应的摄像装置的三维坐标系中的第一坐标；即本公开先将待处理图像中的像素转换到三维空间中，从而获得像素在三维空间中的坐标(即三维坐标)。例如，本公开可以利用下述公式(9)获得待处理图像中的任一像素的三维坐标：

在上述公式(9)中，Z表示像素的深度值，X、Y和Z表示像素的三维坐标(即第一坐标)；f _x表示摄像装置的水平方向(三维坐标系中的X轴方向)焦距；f _y表示摄像装置的竖直方向(三维坐标系中的Y轴方向)焦距；(u,v)表示像素在待处理图像中的二维坐标；c _x,c _y表示摄像装置的像主点坐标；Disparity表示像素的视差。

可选的，假定待处理图像中的任一像素被表示为p _i(u _i,v _i)，且多个像素均被转换到三维空间后，任一像素被表示为P _i(X _i,Y _i,Z _i)，那么，三维空间中的多个像素(如所有像素)所形成的三维空间点集可以表示为{P _i ^c}。其中，P _i ^c表示待处理图像中的第i个像素的三维坐标，即P _i(X _i,Y _i,Z _i)；c表示待处理图像，i的取值范围与多个像素的数量相关。例如，多个像素的数量为N(N为大于1的整数)，则i的取值范围可以为1至N或者0至N-1。

可选的，在获得了待处理图像中的多个像素(如所有像素)的第一坐标之后，本公开可以根据上述位姿变化信息，将多个像素的第一坐标分别转换到参考图像对应的摄像装置的三维坐标系中，获得多个像素的第二坐标。例如，本公开可以利用下述公式(10)获得待处理图像中的任一像素的第二坐标：

P _i ^l＝T _l ^cP _i ^c 公式(10)

在上述公式(10)中，P _i ^l表示待处理图像中的第i个像素的第二坐标，T _l ^c表示摄像装置拍摄待处理图像(如当前视频帧c)和参考图像(如当前视频帧c的前一视频帧l)的位姿变化信息，如位姿变化矩阵，即

P _i ^c表示待处理图像中的第i个像素的第一坐标。

可选的，在获得了待处理图像中的多个像素的第二坐标之后，本公开可以基于二维图像的二维坐标系，对多个像素的第二坐标进行投影处理，从而获得被转换到参考图像对应的三维坐标系的待处理图像的投影二维坐标。例如，本公开可以利用下述公式(11)获得投影二维坐标：

在上述公式(11)中，(u,v)表示待处理图像中的像素的投影二维坐标；f _x表示摄像装置的水平方向(三维坐标系中的X轴方向)焦距；f _y表示摄像装置的竖直方向(三维坐标系中的Y轴方向)焦距；c _x,c _y表示摄像装置的像主点坐标；(X,Y,Z)表示待处理图像中的像素的第二坐标。

可选的，在获得了待处理图像中的像素的投影二维坐标之后，本公开可以根据投影二维坐标和参考图像的二维坐标，建立待处理图像中的像素的像素值与参考图像中的像素的像素值之间的对应关系。该对应关系可以表示出：对于投影二维坐标所形成的图像和参考图像中的相同位置处的任一像素而言，该像素在待处理图像中的像素值以及该像素在参考图像中的像素值。

步骤3、根据上述对应关系，对参考图像进行变换处理。

可选的，本公开可以利用上述对应关系，对参考图像进行Warp(卷绕)处理，从而将参考图像变换到待处理图像中。对参考图像进行Warp处理的一个例子，如图13所示。图13中的左图为参考图像，图13中的右图为对参考图像进行Warp处理后所形成的图像。

步骤4、根据待处理图像和变换处理后的图像，计算待处理图像和参考图像之间的光流信息。

可选的，本公开的光流信息包括但不限于：稠密光流信息。例如，针对图像中的所有像素点均计算出光流信息。本公开可以利用视觉技术，来获取光流信息，例如，利用OpenCV(Open Source Computer Vision Library，开源计算机视觉库)方式，获取光流信息。进一步的，本公开可以将待处理图像和变换处理后的图像输入基于OpenCV的模型中，该模型会输出输入的两张图像之间的光流信息，从而本公开获得待处理图像和参考图像之间的光流信息。该模型所采用的计算光流信息的算法包括但不限于：Gunnar Farneback(人名)算法。

可选的，假定本公开所获得的待处理图像中的任一像素的光流信息表示为I _of(Δu,Δv)，那么，该像素的光流信息通常符合下述公式(12)：

I _t(u _t,v _t)+I _of(Δu,Δv)＝I _t+1(u _t+1,v _t+1) 公式(12)

在上述公式(12)中，I _t(u _t,v _t)表示参考图像中的一像素；I _t+1(u _t+1,v _t+1)表示待处理图像中的相应位置处的像素。

可选的，Warp处理后的参考图像(如Warp处理后的前一视频帧)、待处理图像(如当前视频帧)以及计算获得的光流信息如图14所示。图14中的上图为Warp处理后的参考图像，图14中的中图为待处理图像，图14中的下图为待处理图像和参考图像之间的光流信息，即待处理图像相对于参考图像的光流信息。图14中的竖线是为了方便细节对比而后添加的。

S120、根据深度信息和光流信息，获取待处理图像中的像素相对于参考图像的三维运动场。

在一个可选示例中，本公开在获得了深度信息和光流信息之后，可以根据深度信息和光流信息，获取待处理图像中的像素(如所有像素)相对于参考图像的三维运动场(可以简称为待处理图像中的像素的三维运动场)。本公开中的三维运动场可以认为是：由三维空间中的场景运动所形成的三维运动场。换而言之，待处理图像中的像素的三维运动场可以认为是：待处理图像中的像素在待处理图像和参考图像之间的三维空间位移。三维运动场可以使用场景流(Scene Flow)表示。

可选的，本公开可以使用下述公式(13)来获得待处理图像中的多个像素的场景流I _sf(ΔX,ΔY,ΔZ)：

在上述公式(13)中，(ΔX,ΔY,ΔZ)表示待处理图像中的任一像素在三维坐标系的三个坐标轴方向上的位移；ΔI _depth表示该像素的深度值，(Δu,Δv)表示该像素的光流信息，即该像素在待处理图像和参考图像之间的二维图像中的位移；f _x表示摄像装置的水平方向(三维坐标系中的X轴方向)焦距；f _y表示摄像装置的竖直方向(三维坐标系中的Y轴方向)焦距；c _x,c _y表示摄像装置的像主点坐标。

S130、根据三维运动场，确定待处理图像中的运动物体。

在一个可选示例中，本公开可以根据三维运动场，确定待处理图像中的物体在三维空间中的运动信息。物体在三维空间中的运动信息可以表示出该物体是否为运动物体。可选的，本公开可以先根据三维运动场，获取待处理图像中的像素在三维空间的运动信息；然后，根据像素在三维空间的运动信息，对像素进行聚类处理；最后，根据聚类处理的结果，确定待处理图像中的物体在三维空间的运动信息，以确定待处理图像中的运动物体。

在一个可选示例中，待处理图像中的像素在三维空间的运动信息可以包括但不限于：待处理图像中的多个像素(如所有像素)在三维空间的速度。这里的速度通常是为矢量形式，即本公开中的像素的速度可以体现出像素的速度大小和像素的速度方向。本公开通过借助三维运动场，可以便捷的获得待处理图像中的像素在三维空间的运动信息。

在一个可选示例中，本公开中的三维空间包括：基于三维坐标系的三维空间。其中的三维坐标系可以是：拍摄待处理图像的摄像装置的三维坐标系。该三维坐标系的Z轴通常是摄像装置的光轴，即深度方向。在摄像装置设置于车辆上的应用场景中的情况下，本公开的三维坐标系的X轴、Y轴、Z轴和原点的一个例子如图12所示。从图12的车辆自身角度而言(即面向车辆前方角度而言)，X轴指向为水平向右，Y轴指向为车辆下方，Z轴指向为车辆前方，三维坐标系的原点位于摄像装置的光心位置。

在一个可选示例中，本公开可以根据三维运动场以及摄像装置拍摄待处理图像和参考图像之间的时间差Δt，计算待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的速度。进一步的，本公开可以通过下述公式(14)获得速度：

在上述公式(14)中，v _x、v _y和v _z分别表示待处理图像中的任一像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的速度；(ΔX,ΔY,ΔZ)表示待处理图像中的该像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的位移；Δt表示摄像装置拍摄待处理图像和参考图像之间的时间差。

上述速度的速度大小|v|可以表示为下述公式(15)所示的形式：

上述速度的速度方向

可以表示为下述公式(16)所示的形式：

在一个可选示例中，本公开可以先确定出待处理图像中的运动区域，并针对运动区域中的像素进行聚类处理。例如，根据运动区域中的像素在三维空间的运动信息，对运动区域中的像素进行聚类处理。再例如，根据运动区域中的像素在三维空间的运动信息以及像素在三维空间中的位置，对运动区域中的像素进行聚类处理。可选的，本公开可以利用运动掩膜确定出待处理图像中的运动区域。例如，本公开可以根据像素在三维空间的运动信息，获取待处理图像的运动掩膜(Motion Mask)。

可选的，本公开可以根据预设速度阈值，对待处理图像中的多个像素(如所有像素)的速度大小进行过滤处理，从而根据过滤处理的结果，形成待处理图像的运动掩膜。例如，本公开可以利用下述公式(17)获得待处理图像的运动掩膜：

在上述公式(17)中，I _motion表示运动掩膜中的一个像素；如果该像素的速度大小|v|大于等于预设速度阈值v_thresh，则该像素的取值为1，表示该像素属于待处理图像中的运动区域；否则，该像素的取值为0，表示该像素不属于待处理图像中的运动区域。

可选的，本公开可以将运动掩膜中取值为1的像素所组成的区域称为运动区域，运动掩膜的大小与待处理图像的大小相同。因此，本公开可以根据运动掩膜中的运动区域确定出待处理图像中的运动区域。本公开中的运动掩膜的一个例子如图15所示。图15下图为待处理图像，图15上图是待处理图像的运动掩膜。上图中的黑色部分为非运动区域，上图中的灰色部分为运动区域。上图中的运动区域与下图中的运动物体基本相符。另外，随着获取深度信息、位姿变化信息以及计算光流信息的技术的提高，本公开确定待处理图像中的运动区域的精度也会随之提高。

在一个可选示例中，本公开在根据运动区域中的像素的三维空间位置信息和运动信息，进行聚类处理时，可以先对运动区域中的像素的三维空间位置信息和运动信息分别进行标准化处理，从而使运动区域中的像素的三维空间坐标值转化到预定坐标区间(如[0，1])中，并使运动区域中的像素的速度转化到预定速度区间(如[0，1])中。之后，在利用转化后的三维空间坐标值和速度，进行密度聚类处理，从而获得至少一个类簇。

可选的，本公开中的标准化处理包括但不限于：min-max(最小-最大)标准化处理、以及Z-score(分值)标准化处理等。

例如，对运动区域中的像素的三维空间位置信息进行min-max标准化处理可以通过下述公式(18)表示，对运动区域中的像素的运动信息进行min-max标准化处理可以通过下述公式(19)表示：

在上述公式(18)中，(X,Y,Z)表示待处理图像中的运动区域中的一像素的三维空间位置信息；(X ^*,Y ^*,Z ^*)表示该像素的标准化处理后的像素的三维空间位置信息；(X _min,Y _min,Z _min)表示运动区域中的所有像素的三维空间位置信息中的最小X坐标、最小Y坐标和最小Z坐标；(X _max,Y _max,Z _max)表示运动区域中的所有像素的三维空间位置信息中的最大X坐标、最大Y坐标和最大Z坐标。

在上述公式(19)中，(v _x,v _y,v _z)表示运动区域中的像素在三维空间中的三个坐标轴方向的速度；

表示对(v _x,v _y,v _z)进行min-max标准化处理处理后的速度；(v _xmin,v _ymin,v _zmin)表示运动区域中的所有像素在三维空间中的三个坐标轴方向的最小速度；(v _xmax,v _ymax,v _zmax)表示运动区域中的所有像素在三维空间中的三个坐标轴方向的最大速度。

在一个可选示例中，本公开在聚类处理时所采用的聚类算法包括但不限于：密度聚类算法。例如，DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)等。通过聚类获得的每一个类簇对应一个运动物体实例，即每一个类簇均可以被作为待处理图像中的一个运动物体。

在一个可选示例中，针对任一个类簇而言，本公开可以根据该类簇中的多个像素(如所有像素)的速度大小和速度方向，确定出该类簇所对应的运动物体实例的速度大小和速度方向。可选的，本公开可以用该类簇中的所有像素的平均速度大小以及平均方向，来表示该类簇所对应的运动物体实例的速度大小和方向。例如，本公开可使用下述公式(20)来表示一类簇所对应的运动物体实例的速度大小和方向：

在上述公式(20)中，|v _o|表示聚类处理获得的一类簇所对应的运动物体实例的速度大小；|v _i|表示该类簇中的第i个像素的速度大小；n表示该类簇所包含的像素的数量；

表示一类簇所对应的运动物体实例的速度方向；

表示该类簇中的第i个像素的速度方向。

在一个可选示例中，本公开还可以根据属于同一个类簇的多个像素(如所有像素)在二维图像中的位置信息(即在待处理图像中的二维坐标)，确定该类簇所对应的运动物体实例在待处理图像中的运动物体检测框(Bounding-Box)。例如，对于一个类簇而言，本公开可以计算该类簇中的所有像素在待处理图像中的最大列坐标u _max以及最小列坐标u _min，并计算该类簇中的所有像素的最大的行坐标v _max以及最小行坐标v _min(注：假定图像坐标系的原点位于图像的左上角)。本公开所获得的运动物体检测框在待处理图像中的坐标可以表示为(u _min，v _min，u _max，v _max)。

可选的，本公开确定出的待处理图像中的运动物体检测框的一个例子如图16中的下图所示。如果在运动掩膜中体现出运动物体检测框，则如图16中的上图所示。图16的上图和下图中的多个矩形框均为本公开获得的运动物体检测框。

在一个可选示例中，本公开也可以根据属于同一个类簇的多个像素在三维空间中的位置信息，确定运动物体在三维空间中的位置信息。运动物体在三维空间中的位置信息包括但不限于：运动物体在水平方向坐标轴(X坐标轴)上的坐标、运动物体在深度方向坐标轴(Z坐标轴)上的坐标以及运动物体在竖直方向上的高度(即运动物体的高度)等。

可选的，本公开可以先根据属于同一个类簇的所有像素在三维空间中的位置信息，确定一该类簇中的所有像素与摄像装置之间的距离，然后，将距离最近的像素在三维空间中的位置信息，作为运动物体在三维空间中的位置信息。

可选的，本公开可以采用下述公式(21)来计算一个类簇中的多个像素与摄像装置之间的距离，并选取出最小距离：

在上述公式(21)中，d _min表示最小距离；X _i表示一个类簇中的第i个像素的X坐标；Z _i表示一个类簇中的第i个像素的Z坐标。

在确定出最小距离后，可以将具有该最小距离的像素的X坐标和Z坐标作为该运动物体在三维空间中的位置信息，如下述公式(22)所示：

O _X＝X _close

O _Z＝Z _close 公式(22)

在上述公式(22)中，O _X表示运动物体在水平方向坐标轴上的坐标，即运动物体的X坐标；O _Z表示运动物体在深度方向坐标轴(Z坐标轴)上的坐标，即运动物体的Z坐标；X _close表示上述计算出具有最小距离的像素的X坐标；Z _close表示上述计算出具有最小距离的像素的Z坐标。

可选的，本公开可以采用下述公式(23)来计算运动物体的高度：

O _H＝Y _max-Y _min 公式(23)

在上述公式(23)中，O _H表示运动物体在三维空间中的高度；Y _max表示一类簇中的所有像素在三维空间中的最大Y坐标；Y _min表示一类簇中的所有像素在三维空间中的最小Y坐标。

本公开训练卷积神经网络的一个实施方式的流程，如图17所示。

S1700、将双目图像样本中的一目图像样本输入至待训练的卷积神经网络中。

可选的，本公开输入卷积神经网络中的图像样本可以始终为双目图像样本的左目图像样本，也可以始终为双目图像样本的右目图像样本。在输入卷积神经网络中的图像样本始终为双目图像样本的左目图像样本的情况下，成功训练后的卷积神经网络，在测试或者实际应用场景中，会将输入的待处理图像作为待处理左目图像。在输入卷积神经网络中的图像样本始终为双目图像样本的右目图像样本的情况下，成功训练后的卷积神经网络，在测试或者实际应用场景中，会将输入的待处理图像作为待处理右目图像。

S1710、经由卷积神经网络进行视差分析处理，基于该卷积神经网络的输出，获得左目图像样本的视差图和右目图像样本的视差图。

S1720、根据左目图像样本及右目图像样本的视差图重建右目图像。

可选的，本公开重建右目图像的方式包括但不限于：对左目图像样本以及右目图像样本的视差图进行重投影计算，从而获得重建的右目图像。

S1730、根据右目图像样本及左目图像样本的视差图重建左目图像。

可选的，本公开重建左目图像的方式包括但不限于：对右目图像样本以及左目图像样本的视差图进行重投影计算，从而获得重建的左目图像。

S1740、根据重建的左目图像和左目图像样本之间的差异、以及重建的右目图像和右目图像样本之间的差异，调整卷积神经网络的网络参数。

可选的，本公开在确定差异时，所采用的损失函数包括但不限于：L1损失函数、smooth损失函数以及lr-Consistency损失函数等。另外，本公开在将计算出的损失反向传播，以调整卷积神经网络的网络参数(如卷积核的权值)时，可以基于卷积神经网络的链式求导所计算出的梯度，来反向传播损失，从而有利于提高卷积神经网络的训练效率。

在一个可选示例中，在针对卷积神经网络的训练达到预定迭代条件时，本次训练过程结束。本公开中的预定迭代条件可以包括：基于卷积神经网络输出的视差图而重建的左目图像与左目图像样本之间的差异、以及基于卷积神经网络输出的视差图而重建的右目图像和右目图像样本之间的差异，满足预定差异要求。在该差异满足要求的情况下，本次对卷积神经网络成功训练完成。本公开中的预定迭代条件也可以包括：对卷积神经网络进行训练，所使用的双目图像样本的数量达到预定数量要求等。在使用的双目图像样本的数量达到预定数量要求，然而，基于卷积神经网络输出的视差图而重建的左目图像与左目图像样本之间的差异、以及基于卷积神经网络输出的视差图而重建的右目图像和右目图像样本之间的差异，并未满足预定差异要求情况下，本次对卷积神经网络并未训练成功。

图18为本公开的智能驾驶控制方法的一个实施例的流程图。本公开的智能驾驶控制方法可以适用但不限于：自动驾驶(如完全无人辅助的自动驾驶)环境或辅助驾驶环境中。

S1800、通过车辆上设置的摄像装置获取车辆所在路面的视频流。该摄像装置包括但不限于：基于RGB的摄像装置等。

S1810、对视频流包括的至少一视频帧进行运动物体检测，获得视频帧中的运动物体，例如，获得视频帧中的物体在三维空间的运动信息。本步骤的具体实现过程可参见上述方法实施方式中针对图1的描述，在此不再详细说明。

S1820、根据视频帧中的运动物体生成并输出车辆的控制指令。例如，根据视频帧中的物体在三维空间的运动信息生成并输出车辆的控制指令，以控制车辆。

可选的，本公开生成的控制指令包括但不限于：速度保持控制指令、速度调整控制指令(如减速行驶指令、加速行驶指令等)、方向保持控制指令、方向调整控制指令(如左转向指令、右转向指令、向左侧车道并线指令、或者向右侧车道并线指令等)、鸣笛指令、预警提示控制指令或者驾驶模式切换控制指令(如切换为自动巡航驾驶模式等)。

需要特别说明的是，本公开的运动物体检测技术除了可以适用于智能驾驶控制领域之外，还可以应用在其他领域中；例如，可以实现工业制造中的运动物体检测、超市等室内领域的运动物体检测以及安防领域中的运动物体检测等等，本公开不限制运动物体检测技术的适用场景。

本公开提供的运动物体检测装置如图19所示。图19所示的装置包括：第一获取模块1900、第二获取模块1910、第三获取模块1920以及确定运动物体模块1930。可选的，该装置还可以包括：训练模块。

第一获取模块1900用于获取待处理图像中的像素的深度信息。可选的，第一获取模块1900可包括：第一子模块和第二子模块。第一子模块用于获取待处理图像的第一视差图。第二子模块用于根据待处理图像的第一视差图，获取待处理图像中的像素的深度信息。可选的，本公开中的待处理图像包括：单目图像。第一子模块包括：第一单元、第二单元和第三单元。其中的第一单元用于将待处理图像输入至卷积神经网络中，经由卷积神经网络进行视差分析处理，基于卷积神经网络的输出，获得待处理图像的第一视差图。其中，所述卷积神经网络是训练模块利用双目图像样本，训练获得的。其中的第二单元用于获取待处理图像的第一水平镜像图的第二视差图的第二水平镜像图，待处理图像的第一水平镜像图是对待处理图像进行水平方向上的镜像处理所形成的镜像图，第二视差图的第二水平镜像图是对第二视差图进行水平方向上的镜像处理所形成的镜像图。其中的第三单元用于根据待处理图像的第一视差图的权重分布图以及第二视差图的第二水平镜像图的权重分布图，对待处理图像的第一视差图进行视差调整，最终获得待处理图像的第一视差图。

可选的，第二单元可以将待处理图像的第一水平镜像图输入至卷积神经网络中，经由卷积神经网络进行视差分析处理，基于神经网络的输出，获得待处理图像的第一水平镜像图的第二视差图；第二单元对待处理图像的第一水平镜像图的第二视差图进行镜像处理，获得待处理图像的第一水平镜像图的第二视差图的第二水平镜像图。

可选的，本公开中的权重分布图包括：第一权重分布图以及第二权重分布图中的至少一个；第一权重分布图是针对多个待处理图像统一设置的权重分布图；第二权重分布图是针对不同待处理图像分别设置的权重分布图。第一权重分布图包括至少两个左右分列的区域，不同区域具有不同的权重值。

在待处理图像被作为左目图像的情况下：对于待处理图像的第一视差图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值；对于第二视差图的第二水平镜像图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值。对于待处理图像的第一视差图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值；对于第二视差图的第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值。

在待处理图像被作为右目图像的情况下：对于待处理图像的第一视差图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值；对于第二视差图的第二水平镜像图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值。对于待处理图像的第一视差图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值；对于第二视差图的第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值。

可选的，第三单元还用于设置待处理图像的第一视差图的第二权重分布图，例如，第三单元对待处理图像的第一视差图进行水平镜像处理，形成镜像视差图；对于镜像视差图中的任一像素点而言，如果该像素点的视差值大于该像素点对应的第一变量，则将待处理图像的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值；其中，第一值大于第二值。其中，像素点对应的第一变量是根据待处理图像的第一视差图中的该像素点的视差值以及大于零的常数值，设置的。

可选的，第三单元还用于设置第二视差图的第二水平镜像图的第二权重分布图，例如，对于第二视差图的第二水平镜像图中的任一像素点而言，如果待处理图像的第一视差图中的该像素点的视差值大于该像素点对应的第二变量，则第三单元将第二视差图的第二水平镜像图的第二权重分布图中的该像素点的权重值设置为第一值，否则，第三单元将其设置为第二值；其中，第一值大于第二值。其中，像素点对应的第二变量是根据待处理图像的第一视差图的水平镜像图中的相应像素点的视差值以及大于零的常数值，设置的。

可选的，第三单元可以进一步用于：首先，根据待处理图像的第一视差图的第一权重分布图和第二权重分布图，调整待处理图像的第一视差图中的视差值；之后，第三单元根据第二视差图的第二水平镜像图的第一权重分布图和第二权重分布图，调整第二视差图的第二水平镜像图中的视差值；最后，第三单元合并视差值调整后的第一视差图和视差值调整后的第二水平镜像图，最终获得待处理图像的第一视差图。第一获取模块1900以及其包括的各子模块和单元具体执行的操作，可以参见上述针对S100的描述，在此不再详细说明。

第二获取模块1910用于获取待处理图像和参考图像之间的光流信息。其中的参考图像和待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像。例如，待处理图像为摄像装置拍摄的视频中的一视频帧，待处理图像的参考图像包括：视频帧的前一视频帧。

可选的，第二获取模块1910可以包括：第三子模块、第四子模块、第五子模块和第六子模块。其中的第三子模块用于获取摄像装置拍摄待处理图像和参考图像的位姿变化信息；第四子模块用于根据位姿变化信息，建立待处理图像中的像素的像素值与参考图像中的像素的像素值之间的对应关系；第五子模块，用于根据上述对应关系，对参考图像进行变换处理；第六子模块，用于根据待处理图像和变换处理后的参考图像，计算待处理图像和参考图像之间的光流信息。其中的第四子模块可以先根据深度信息和摄像装置的预设参数，获取待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系中的第一坐标；之后，第四子模块可以根据位姿变化信息，将第一坐标转换到所述参考图像对应的摄像装置的三维坐标系中的第二坐标；之后，基于二维图像的二维坐标系，第四子模块对第二坐标进行投影处理，获得待处理图像的投影二维坐标；最后，第四子模块根据待处理图像的投影二维坐标和参考图像的二维坐标，建立待处理图像中的像素的像素值与参考图像中的像素的像素值之间的对应关系。第二获取模块1910以及其包括的各子模块和单元具体执行的操作，可参见上述针对S110的描述，在此不再详细说明。

第三获取模块1920用于根据深度信息和光流信息，获取待处理图像中的像素相对于参考图像的三维运动场。第三获取模块1920具体执行的操作，可以参见上述针对S120的描述，在此不再详细说明。

确定运动物体模块1930用于根据三维运动场，确定待处理图像中的运动物体。可选的，确定运动物体模块可以包括：第七子模块、第八子模块和第九子模块。第七子模块用于根据三维运动场，获取待处理图像中的像素在三维空间的运动信息。例如，第七子模块可以根据三维运动场以及拍摄待处理图像和参考图像之间的时间差，计算待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的速度。第八子模块用于根据像素在三维空间的运动信息对像素进行聚类处理。例如，第八子模块包括：第四单元、第五单元和第六单元。第四单元用于根据像素在三维空间的运动信息，获取待处理图像的运动掩膜。其中的像素在三维空间的运动信息包括：像素在三维空间的速度大小，第四单元可以根据预设速度阈值，对待处理图像中的像素的速度大小进行过滤处理，形成待处理图像的运动掩膜。第五单元用于根据运动掩膜，确定待处理图像中的运动区域。第六单元用于根据运动区域中的像素的三维空间位置信息和运动信息，对运动区域中的像素进行聚类处理。例如，第六单元可以将运动区域中的像素的三维空间坐标值转化到预定坐标区间；之后，第六单元将运动区域中的像素的速度转化到预定速度区间；最后，第六单元根据转化后的三维空间坐标值和转化后的速度，对运动区域中的像素进行密度聚类处理，获得至少一个类簇。第九子模块用于根据聚类处理的结果，确定待处理图像中的运动物体。例如，针对任一个类簇，第九子模块可以根据该类簇中的多个像素的速度大小和速度方向，确定运动物体的速度大小和速度方向；其中，一个类簇被作为待处理图像中的一个运动物体。第九子模块还用于：根据属于同一个类簇的像素的空间位置信息，确定待处理图像中的运动物体检测框。确定运动物体模块1930以及其包括的各子模块和单元具体执行的操作，可以参见上述针对S130的描述，在此不再详细说明。

训练模块用于将双目图像样本中的其中一目图像样本输入至待训练的卷积神经网络中，经由卷积神经网络进行视差分析处理，基于卷积神经网络的输出，训练模块获得左目图像样本的视差图和右目图像样本的视差图；训练模块根据左目图像样本及右目图像样本的视差图重建右目图像；训练模块根据右目图像样本及左目图像样本的视差图重建左目图像；训练模块根据重建的左目图像和左目图像样本之间的差异、以及重建的右目图像和右目图像样本之间的差异，调整卷积神经网络的网络参数。训练模块执行的具体操作可以参见上述针对图17的描述，在此不再详细说明。

本公开提供的智能驾驶控制装置如图20所示。图20所示的装置包括：第四获取模块2000、运动物体检测装置2010以及控制模块2020。其中的第四获取模块2000用于通过车辆上设置的摄像装置获取车辆所在路面的视频流。运动物体检测装置2010用于对视频流包括的至少一视频帧进行运动物体检测，确定该视频帧中的运动物体。运动物体检测装置2010的结构以及各模块、子模块和单元具体执行的操作可以参见上述图19的描述，在此不再详细说明。控制模块2020用于根据运动物体生成并输出车辆的控制指令。控制模块2020生成并输出的控制指令包括但不限于：速度保持控制指令、速度调整控制指令、方向保持控制指令、方向调整控制指令、预警提示控制指令、驾驶模式切换控制指令。

示例性设备

图21示出了适于实现本公开的示例性设备2100，设备2100可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图21中，设备2100包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)2101，和/或，一个或者多个利用神经网络进行视觉跟踪的图像处理器(GPU)2113等，处理器可以根据存储在只读存储器(ROM)2102中的可执行指令或者从存储部分2108加载到随机访问存储器(RAM)2103中的可执行指令而执行各种适当的动作和处理。通信部2112可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器2102和/或随机访问存储器2103中通信以执行可执行指令，通过总线2104与通信部2112相连、并经通信部2112与其他目标设备通信，从而完成本公开中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。此外，在RAM 2103中，还可以存储有装置操作所需的各种程序以及数据。CPU2101、ROM2102以及RAM2103通过总线2104彼此相连。

在有RAM2103的情况下，ROM2102为可选模块。RAM2103存储可执行指令，或在运行时向ROM2102中写入可执行指令，可执行指令使中央处理单元2101执行上述运动物体检测方法或者智能驾驶控制方法所包括的步骤。输入/输出(I/O)接口2105也连接至总线2104。通信部2112可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口2105：包括键盘、鼠标等的输入部分2106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2107；包括硬盘等的存储部分2108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2109。通信部分2109经由诸如因特网的网络执行通信处理。驱动器2110也根据需要连接至I/O接口2105。可拆卸介质2111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2110上，以便于从其上读出的计算机程序根据需要被安装在存储部分2108中。

需要特别说明的是，如图21所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图21的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU2113和CPU2101可分离设置，再如理，可将GPU2113集成在CPU2101上，通信部可分离设置，也可集成设置在CPU2101或GPU2113上等。这些可替换的实施方式均落入本公开的保护范围。

特别地，根据本公开的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本公开实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本公开提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分2109从网络上被下载及安装，和/或从可拆卸介质2111被安装。在该计算机程序被中央处理单元(CPU)2101执行时，执行本公开中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的运动物体检测方法或者智能驾驶控制方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种运动物体检测方法或者智能驾驶控制方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中的方法包括：第一装置向第二装置发送运动物体检测指示或者智能驾驶控制指示，该指示使得第二装置执行上述任一可能的实施例中的运动物体检测方法或者智能驾驶控制方法；第一装置接收第二装置发送的运动物体检测结果或者智能驾驶控制结果。

在一些实施例中，该视运动物体检测指示或者智能驾驶控制指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行运动物体检测操作或者智能驾驶控制操作，相应地，响应于接收到调用指令，第二装置可以执行上述运动物体检测方法或者智能驾驶控制方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本公开的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述，是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本公开的原理以及实际应用，并且使本领域的普通技术人员能够理解本公开实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

一种运动物体检测方法，其特征在于，包括：

获取待处理图像中的像素的深度信息；

获取所述待处理图像和参考图像之间的光流信息；其中，所述参考图像和所述待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像；

根据所述深度信息和光流信息，获取所述待处理图像中的像素相对于所述参考图像的三维运动场；

根据所述三维运动场，确定所述待处理图像中的运动物体。
根据权利要求1所述的方法，其特征在于，所述待处理图像为所述摄像装置拍摄的视频中的一视频帧，所述待处理图像的参考图像包括：所述视频帧的前一视频帧。
根据权利要求1或2所述的方法，其特征在于，所述获取待处理图像中的像素的深度信息，包括：

获取待处理图像的第一视差图；

根据所述第一视差图，获取所述待处理图像中的像素的深度信息。
根据权利要求3所述的方法，其特征在于，所述待处理图像包括：单目图像，所述获取待处理图像的第一视差图，包括：

将待处理图像输入至卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述卷积神经网络的输出，获得所述待处理图像的第一视差图；

其中，所述卷积神经网络是利用双目图像样本，训练获得的。
根据权利要求4所述的方法，其特征在于，所述获取待处理图像的第一视差图，还包括：

获取所述待处理图像的第一水平镜像图的第二视差图的第二水平镜像图，所述待处理图像的第一水平镜像图是对所述待处理图像进行水平方向上的镜像处理所形成的镜像图，所述第二视差图的第二水平镜像图是对所述第二视差图进行水平方向上的镜像处理所形成的镜像图；

根据所述第一视差图的权重分布图、以及所述第二水平镜像图的权重分布图，对所述第一视差图进行视差调整，最终获得所述待处理图像的第一视差图。
根据权利要求5所述的方法，其特征在于，所述获取所述待处理图像的第一水平镜像图的第二视差图的第二水平镜像图，包括：

将待处理图像的第一水平镜像图输入至卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述神经网络的输出，获得所述待处理图像的第一水平镜像图的第二视差图；

对所述第二视差图进行镜像处理，获得所述第二水平镜像图。
根据权利要求5或6所述的方法，其特征在于，所述权重分布图包括：第一权重分布图以及第二权重分布图中的至少一个；

所述第一权重分布图是针对多个待处理图像统一设置的权重分布图；

所述第二权重分布图是针对不同待处理图像分别设置的权重分布图。
根据权利要求7所述的方法，其特征在于，所述第一权重分布图包括至少两个左右分列的区域，不同区域具有不同的权重值。
根据权利要求7或8所述的方法，其特征在于，在所述待处理图像被作为左目图像的情况下：

对于所述第一视差图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值；

对于所述第二水平镜像图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值。
根据权利要求9所述的方法，其特征在于：

对于所述第一视差图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值；

对于所述第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值。
根据权利要求7或8所述的方法，其特征在于，在所述待处理图像被作为右目图像的情况下：

对于所述第一视差图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值；

对于所述第二水平镜像图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值。
根据权利要求11所述的方法，其特征在于：

对于所述第一视差图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值；

对于所述第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值。
根据权利要求7至12中任一项所述的方法，其特征在于，所述第一视差图的第二权重分布图的设置方式包括：

对所述第一视差图进行水平镜像处理，形成镜像视差图；

对于所述镜像视差图中的任一像素点而言，如果该像素点的视差值大于该像素点对应的第一变量，则将所述第一视差图的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值；

其中，所述第一值大于第二值。
根据权利要求13所述的方法，其特征在于，所述像素点对应的第一变量是根据所述第一视差图中的该像素点的视差值以及大于零的常数值，设置的。
根据权利要求7至14中任一项所述的方法，其特征在于，所述第二水平镜像图的第二权重分布图的设置方式包括：

对于所述第二水平镜像图中的任一像素点而言，如果所述第一视差图中的该像素点的视差值大于该像素点对应的第二变量，则将所述第二水平镜像图的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值；

其中，所述第一值大于第二值。
根据权利要求15所述的方法，其特征在于，所述像素点对应的第二变量是根据所述第一视差图的水平镜像图中的相应像素点的视差值以及大于零的常数值，设置的。
根据权利要求7至16所述的方法，其特征在于，所述根据所述第一视差图的权重分布图、以及所述第二水平镜像图的权重分布图，对所述第一视差图进行视差调整，包括：

根据所述第一视差图的第一权重分布图和第二权重分布图，调整所述第一视差图中的视差值；

根据所述第二水平镜像图的第一权重分布图和第二权重分布图，调整所述第二水平镜像图中的视差值；

合并视差值调整后的第一视差图和视差值调整后的第二水平镜像图，最终获得所述待处理图像的第一视差图。
根据权利要求4至17中任一项所述的方法，其特征在于，所述卷积神经网络的训练过程，包括：

将双目图像样本中的其中一目图像样本输入至待训练的卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述卷积神经网络的输出，获得左目图像样本的视差图和右目图像样本的视差图；

根据所述左目图像样本及所述右目图像样本的视差图重建右目图像；

根据所述右目图像样本及所述左目图像样本的视差图重建左目图像；

根据重建的左目图像和左目图像样本之间的差异、以及重建的右目图像和右目图像样本之间的差异，调整所述卷积神经网络的网络参数。
根据权利要求1至18中任一项所述的方法，其特征在于，所述获取所述待处理图像和参考图像之间的光流信息，包括：

获取摄像装置拍摄所述待处理图像和所述参考图像的位姿变化信息；

根据所述位姿变化信息，建立所述待处理图像中的像素的像素值与所述参考图像中的像素的像素值之间的对应关系；

根据所述对应关系，对参考图像进行变换处理；

根据所述待处理图像和所述变换处理后的参考图像，计算所述待处理图像和参考图像之间的光流信息。
根据权利要求19所述的方法，其特征在于，所述根据所述位姿变化信息，建立所述待处理图像中的像素的像素值与所述参考图像中的像素的像素值之间的对应关系，包括：

根据所述深度信息和摄像装置的预设参数，获取所述待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系中的第一坐标；

根据所述位姿变化信息，将所述第一坐标转换到所述参考图像对应的摄像装置的三维坐标系中的第二坐标；

基于二维图像的二维坐标系，对所述第二坐标进行投影处理，获得所述待处理图像的投影二维坐标；

根据所述待处理图像的投影二维坐标和所述参考图像的二维坐标，建立所述待处理图像中的像素的像素值与所述参考图像中的像素的像素值之间的对应关系。
根据权利要求1-20任一所述的方法，其特征在于，根据所述三维运动场，确定所述待处理图像中的运动物体，包括：

根据所述三维运动场，获取所述待处理图像中的像素在三维空间的运动信息；

根据所述像素在三维空间的运动信息，对所述像素进行聚类处理；

根据所述聚类处理的结果，确定所述待处理图像中的运动物体。
根据权利要求21所述的方法，其特征在于，所述根据所述三维运动场，获取所述待处理图像中的像素在三维空间的运动信息，包括：

根据所述三维运动场以及拍摄所述待处理图像和所述参考图像之间的时间差，计算所述待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的速度。
根据权利要求21或22所述的方法，其特征在于，所述根据所述像素在三维空间的运动信息，对所述像素进行聚类处理，包括：

根据所述像素在三维空间的运动信息，获取所述待处理图像的运动掩膜；

根据所述运动掩膜，确定待处理图像中的运动区域；

根据运动区域中的像素的三维空间位置信息和运动信息，对所述运动区域中的像素进行聚类处理。
根据权利要求23所述的方法，其特征在于，所述像素在三维空间的运动信息包括：像素在三维空间的速度大小，所述根据所述像素在三维空间的运动信息，获取所述待处理图像的运动掩膜，包括：

根据预设速度阈值，对所述待处理图像中的像素的速度大小进行过滤处理，形成所述待处理图像的运动掩膜。
根据权利要求23或24所述的方法，其特征在于，所述根据运动区域中的像素的三维空间位置信息和运动信息，对所述运动区域中的像素进行聚类处理，包括：

将所述运动区域中的像素的三维空间坐标值转化到预定坐标区间；

将所述运动区域中的像素的速度转化到预定速度区间；

根据转化后的三维空间坐标值和转化后的速度，对所述运动区域中的像素进行密度聚类处理，获得至少一个类簇。
根据权利要求25所述的方法，其特征在于，所述根据所述聚类处理的结果，确定所述待处理图像中的运动物体，包括：

针对任一个类簇，根据该类簇中的多个像素的速度大小和速度方向，确定运动物体的速度大小和速度方向；

其中，一个类簇被作为待处理图像中的一个运动物体。
根据权利要求21至26中任一项所述的方法，其特征在于，所述根据所述聚类处理的结果，确定所述待处理图像中的运动物体，还包括：

根据属于同一个类簇的像素的空间位置信息，确定所述待处理图像中的运动物体检测框。
一种智能驾驶控制方法，其特征在于，包括：

通过车辆上设置的摄像装置获取所述车辆所在路面的视频流；

采用如权利要求1-27中任一项所述的方法，对所述视频流包括的至少一视频帧进行运动物体检测，确定该视频帧中的运动物体；

根据所述运动物体生成并输出所述车辆的控制指令。
根据权利要求28所述的方法，其特征在于，所述控制指令包括以下至少之一：速度保持控制指令、速度调整控制指令、方向保持控制指令、方向调整控制指令、预警提示控制指令、驾驶模式切换控制指令。
一种运动物体检测装置，其特征在于，包括：

第一获取模块，用于获取待处理图像中的像素的深度信息；

第二获取模块，用于获取所述待处理图像和参考图像之间的光流信息；其中，所述参考图像和所述待处理图像是基于摄像装置的连续拍摄而获得的具有时序关系的两幅图像；

第三获取模块，用于根据所述深度信息和光流信息，获取所述待处理图像中的像素相对于所述参考图像的三维运动场；

确定运动物体模块，用于根据所述三维运动场，确定所述待处理图像中的运动物体。
根据权利要求30所述的装置，其特征在于，所述待处理图像为所述摄像装置拍摄的视频中的一视频帧，所述待处理图像的参考图像包括：所述视频帧的前一视频帧。
根据权利要求30或31所述的装置，其特征在于，所述第一获取模块包括：

第一子模块，用于获取待处理图像的第一视差图；

第二子模块，用于根据所述待处理图像的第一视差图，获取所述待处理图像中的像素的深度信息。
根据权利要求32所述的装置，其特征在于，所述待处理图像包括：单目图像，所述第一子模块，包括：

第一单元，用于将待处理图像输入至卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述卷积神经网络的输出，获得所述待处理图像的第一视差图；

其中，所述卷积神经网络是利用双目图像样本，训练获得的。
根据权利要求33所述的装置，其特征在于，所述第一子模块，还包括：

第二单元，用于获取所述待处理图像的第一水平镜像图的第二视差图的第二水平镜像图，所述待处理图像的第一水平镜像图是对所述待处理图像进行水平方向上的镜像处理所形成的镜像图，所述第二视差图的第二水平镜像图是对所述第二视差图进行水平方向上的镜像处理所形成的镜像图；

第三单元，用于根据所述第一视差图的权重分布图、以及所述第二水平镜像图的权重分布图，对所述第一视差图进行视差调整，最终获得所述待处理图像的第一视差图。
根据权利要求34所述的装置，其特征在于，所述第二单元用于：

将所述第一水平镜像图输入至卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述神经网络的输出，获得所述第二视差图；

对所述第二视差图进行镜像处理，获得所述第二水平镜像图。
根据权利要求34或35所述的装置，其特征在于，所述权重分布图包括：第一权重分布图以及第二权重分布图中的至少一个；

所述第一权重分布图是针对多个待处理图像统一设置的权重分布图；

所述第二权重分布图是针对不同待处理图像分别设置的权重分布图。
根据权利要求36所述的装置，其特征在于，所述第一权重分布图包括至少两个左右分列的区域，不同区域具有不同的权重值。
根据权利要求36或37所述的装置，其特征在于，在所述待处理图像被作为左目图像的情况下：

对于所述第一视差图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值；

对于所述第二水平镜像图的第一权重分布图中的任意两个区域而言，位于右侧的区域的权重值大于位于左侧的区域的权重值。
根据权利要求38所述的装置，其特征在于：

对于所述第一视差图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值；

对于所述第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中左侧部分的权重值不大于该区域中右侧部分的权重值。
根据权利要求36或37所述的装置，其特征在于，在所述待处理图像被作为右目图像的情况下：

对于所述第一视差图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值；

对于所述第二水平镜像图的第一权重分布图中的任意两个区域而言，位于左侧的区域的权重值大于位于右侧的区域的权重值。
根据权利要求40所述的装置，其特征在于：

对于所述第一视差图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值；

对于所述第二水平镜像图的第一权重分布图中的至少一区域而言，该区域中右侧部分的权重值不大于该区域中左侧部分的权重值。
根据权利要求36至41中任一项所述的装置，其特征在于，所述第三单元还用于设置所述第一视差图的第二权重分布图，第三单元设置所述第一视差图的第二权重分布图的方式包括：

对所述第一视差图进行水平镜像处理，形成镜像视差图；

对于所述镜像视差图中的任一像素点而言，如果该像素点的视差值大于该像素点对应的第一变量，则将所述第一视差图的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值；

其中，所述第一值大于第二值。
根据权利要求42所述的装置，其特征在于，所述像素点对应的第一变量是根据所述第一视差图中的该像素点的视差值以及大于零的常数值，设置的。
根据权利要求36至43中任一项所述的装置，其特征在于，所述第三单元还用于设置所述第二水平镜像图的第二权重分布图，所述第三单元设置所述第二视差图的第二水平镜像图的第二权重分布图的方式包括：

对于所述第二水平镜像图中的任一像素点而言，如果所述第一视差图中的该像素点的视差值大于该像素点对应的第二变量，则将所述第二水平镜像图的第二权重分布图中的该像素点的权重值设置为第一值，否则，设置为第二值；

其中，所述第一值大于第二值。
根据权利要求44所述的装置，其特征在于，所述像素点对应的第二变量是根据所述第一视差图的水平镜像图中的相应像素点的视差值以及大于零的常数值，设置的。
根据权利要求36至45所述的装置，其特征在于，所述第三单元用于：

根据所述第一视差图的第一权重分布图和第二权重分布图，调整所述第一视差图中的视差值；

根据所述第二水平镜像图的第一权重分布图和第二权重分布图，调整所述第二水平镜像图中的视差值；

合并视差值调整后的第一视差图和视差值调整后的第二水平镜像图，最终获得所述待处理图像的第一视差图。
根据权利要求33至46中任一项所述的装置，其特征在于，所述装置还包括：训练模块，用于：

将双目图像样本中的其中一目图像样本输入至待训练的卷积神经网络中，经由所述卷积神经网络进行视差分析处理，基于所述卷积神经网络的输出，获得左目图像样本的视差图和右目图像样本的视差图；

根据所述左目图像样本及所述右目图像样本的视差图重建右目图像；

根据所述右目图像样本及所述左目图像样本的视差图重建左目图像；

根据重建的左目图像和左目图像样本之间的差异、以及重建的右目图像和右目图像样本之间的差异，调整所述卷积神经网络的网络参数。
根据权利要求30至47中任一项所述的装置，其特征在于，所述第二获取模块，包括：

第三子模块，用于获取摄像装置拍摄所述待处理图像和所述参考图像的位姿变化信息；

第四子模块，用于根据所述位姿变化信息，建立所述待处理图像中的像素的像素值与所述参考图像中的像素的像素值之间的对应关系；

第五子模块，用于根据所述对应关系，对参考图像进行变换处理；

第六子模块，用于根据所述待处理图像和所述变换处理后的参考图像，计算所述待处理图像和参考图像之间的光流信息。
根据权利要求48所述的装置，其特征在于，所述第四子模块用于：

根据所述深度信息和摄像装置的预设参数，获取所述待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系中的第一坐标；

根据所述位姿变化信息，将所述第一坐标转换到所述参考图像对应的摄像装置的三维坐标系中的第二坐标；

基于二维图像的二维坐标系，对所述第二坐标进行投影处理，获得所述待处理图像的投影二维坐标；

根据所述待处理图像的投影二维坐标和所述参考图像的二维坐标，建立所述待处理图像中的像素的像素值与所述参考图像中的像素的像素值之间的对应关系。
根据权利要求30-49任一所述的装置，其特征在于，所述确定运动物体模块，包括：

第七子模块，用于根据所述三维运动场，获取所述待处理图像中的像素在三维空间的运动信息；

第八子模块，用于根据所述像素在三维空间的运动信息，对所述像素进行聚类处理；

第九子模块，用于根据所述聚类处理的结果，确定所述待处理图像中的运动物体。
根据权利要求50所述的装置，其特征在于，所述第七子模块用于：

根据所述三维运动场以及拍摄所述待处理图像和所述参考图像之间的时间差，计算所述待处理图像中的像素在待处理图像对应的摄像装置的三维坐标系的三个坐标轴方向上的速度。
根据权利要求50或51所述的装置，其特征在于，所述第八子模块包括：

第四单元，用于根据所述像素在三维空间的运动信息，获取所述待处理图像的运动掩膜；

第五单元，用于根据所述运动掩膜，确定待处理图像中的运动区域；

第六单元，用于根据运动区域中的像素的三维空间位置信息和运动信息，对所述运动区域中的像素进行聚类处理。
根据权利要求52所述的装置，其特征在于，所述像素在三维空间的运动信息包括：像素在三维空间的速度大小，所述第四单元用于：

根据预设速度阈值，对所述待处理图像中的像素的速度大小进行过滤处理，形成所述待处理图像的运动掩膜。
根据权利要求52或53所述的装置，其特征在于，所述第六单元用于：

将所述运动区域中的像素的三维空间坐标值转化到预定坐标区间；

将所述运动区域中的像素的速度转化到预定速度区间；

根据转化后的三维空间坐标值和转化后的速度，对所述运动区域中的像素进行密度聚类处理，获得至少一个类簇。
根据权利要求54所述的装置，其特征在于，所述第九子模块用于：

针对任一个类簇，根据该类簇中的多个像素的速度大小和速度方向，确定运动物体的速度大小和速度方向；

其中，一个类簇被作为待处理图像中的一个运动物体。
根据权利要求50至55中任一项所述的装置，其特征在于，所述第九子模块还用于：

根据属于同一个类簇的像素的空间位置信息，确定所述待处理图像中的运动物体检测框。
一种智能驾驶控制装置，其特征在于，包括：

第四获取模块，用于通过车辆上设置的摄像装置获取所述车辆所在路面的视频流；

权利要求1-27中任一项所述的运动物体检测装置，用于对所述视频流包括的至少一视频帧进行运动物体检测，确定该视频帧中的运动物体；

控制模块，用于根据所述运动物体生成并输出所述车辆的控制指令。
根据权利要求57所述的装置，其特征在于，所述控制指令包括以下至少之一：速度保持控制指令、速度调整控制指令、方向保持控制指令、方向调整控制指令、预警提示控制指令、驾驶模式切换控制指令。
一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-29中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-29中任一项所述的方法。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-29中任一项所述的方法。