WO2020215194A1

WO2020215194A1 - 用于移动目标物体检测的方法、系统以及可移动平台

Info

Publication number: WO2020215194A1
Application number: PCT/CN2019/083782
Authority: WO
Inventors: 吴显亮; 杨振飞; 沈劭劼; 马陆
Original assignee: 深圳市大疆创新科技有限公司
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-10-29
Also published as: CN111247557A

Abstract

提供一种用于移动目标物体检测的方法和系统，可以准确地识别出动态障碍物及其运动状态，从而避免事故发生，提高安全性。该方法包括：基于多个采集时刻采集到的多帧图像，确定图像像素点的光流信息和深度信息；根据光流信息、深度信息和可移动平台的运动信息，确定图像像素点的运动信息；并基于图像像素点的运动信息监测一个或多个移动目标物体。

Description

用于移动目标物体检测的方法、系统以及可移动平台

版权申明

技术领域

本申请涉及自动驾驶领域，并且更为具体地，涉及一种用于移动目标物体检测的方法、系统以及可移动平台。

背景技术

无人机、无人驾驶车辆等可移动平台的使用愈发广泛。由于可移动平台在运动过程中，可能会遇到动态障碍物，例如，路上的行人、其他行驶的车辆、空中的小鸟等，若不及时避开，可能会造成事故发生。因此希望可移动平台能够准确地识别出动态障碍物，并估计其具体位置。

发明内容

本申请提供一种用于移动目标物体检测的方法、系统以及可移动平台，可以准确地识别出动态障碍物，并估计其具体位置，从而避免事故发生，提高了可移动平台使用的安全性。

第一方面，提供一种移动目标物体检测的方法，该方法可应用于可移动平台中。具体地，该方法包括：获取在多个采集时刻采集到的包含一个或多个移动目标物体的多帧图像；获取所述图像像素点的光流信息；获取所述图像像素点的深度信息；根据所述光流信息、所述深度信息和所述可移动平台的运动信息，确定所述图像像素点的运动信息；基于所述图像像素点的运动信息，检测一个或多个移动目标物体。

本申请实施例通过基于图像像素点的光流信息、深度信息和可移动平台的运动信息来确定图像像素点在三维空间的绝对运动信息，并基于图像像素点在三维空间的绝对运动信息检测移动目标物体。相比于现有技术中基于纹理的实例分割而言，对移动目标物体的识别更加准确、合理。由于能够准确地识别出动态障碍物及其运动信息，并可以结合可移动平台的位置估计动态障碍物的具体位置，从而可以避免事故发生，提供了使用的安全性。

第二方面，提供一种用于移动目标物体检测的系统，所述系统用于执行上述第一方面中的方法。

第三方面，提供一种用于移动目标物体检测的系统，所述系统包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得所述系统执行第一方面的方法。

第四方面，提供一种可移动平台，所述可移动平台包括上述第三方面或第四方面提供的移动目标物体检测的系统。

第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机执行时使得所述计算机实现第一方面的方法。具体地，所述计算机可以为上述第二方面或第三方面中提供的用于移动目标物体检测的系统。

第六方面，提供一种包含指令的计算机程序产品，所述指令被计算机执行时使得所述计算机实现第一方面的方法。具体地，所述计算机可以为上述第二方面或第三方面中提供的用于移动目标物体检测的系统。

附图说明

图1是本申请实施例提供的可移动平台的示意图；

图2是本申请实施例提供的用于移动目标物体检测的方法的示意性流程图；

图3是本申请实施例提供的由视觉传感器采集到的图像；

图4是本申请实施例提供的通过PWC-Net计算得到的光流图；

图5是本申请实施例提供的通过SGBM计算得到的深度图；

图6是基于本申请实施例提供的方法而检测出的移动目标物体；

图7是本申请实施例提供的用于移动目标物体检测的系统的示意性框图；

图8是本申请实施例提供的用于移动目标物体检测的系统的另一示意性框图；

图9是本申请实施例提供的可移动平台的示意性框图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

其中，作为示例而非限定，该可移动平台具体可以是无人机、无人驾驶车辆等。其中，无人机也称为无人飞行器(Unmanned Aerial Vehicle，UAV)。无人机例如可以包括但不限于，小型无人机或旋翼飞行器(rotorcraft)。

图1是根据本申请实施例提供的可移动平台的一例。具体地，图1示出了无人驾驶车辆100的示意性架构图。

如图1所示，无人驾驶车辆100可以包括动力系统110、控制系统120和壳体130。

动力系统110可以包括发动机111、传动系统112和车轮113等，可用于为无人驾驶汽车100提供动力。具体地，发动机111产生的动力经过一系列的动力传递，如经过传动系统112等，被输出至车轮113，具体地说被输出至驱动轮，进而带动整个无人驾驶车辆100前进或后退。其中，传动系统112具有减速、变速、变向、中断动力、轮间差速、轴间差速等功能，与发动机111配合工作，能保证车辆在各种工况条件下的正常行驶。传动系统112例如可以包括离合器、变速箱、万向传动和驱动桥等(例如可以包括主减速器、差速器和半轴等)。关于汽车动力系统110中各组成部分的连接关系和工作原理可以参考现有技术，这里不作详细说明。

控制系统120可以与车体110中的发动机111、传动系统112中的一项或多项连接。控制系统120可以包括控制器121和传感系统122。传感系统122用于感应无人驾驶车辆100周围的环境信息，例如可以感应得到障碍物的位置信息，或者还可以感应得到无人驾驶车辆100与障碍物之间的距离信息。传感系统122例如可以包括车速传感器、视觉传感器、飞行时间(time of flight，TOF)传感器、超声波测距传感器、激光雷达测距传感器、红外测距传感器与声呐传感器等传感器中的至少一种。控制器121用于控制无人驾驶车辆100的行驶。例如，控制器121根据传感系统122所感应的无人驾驶车辆100周围的环境信息确定无人驾驶车辆100的规划路径，控制无人驾驶车辆100按照规划路径飞行。

可选地，该传感系统122还包括温度传感器。温度传感器例如可用于测量冷却液温度、变速箱油温、进气温度、排气温度、车外温度、车内温度等。本申请对此不作限定。

控制系统120也可以称为电子控制单元(electronic control unit，ECU)。

车身130可以包括车架、外壳、车门、车窗、车身内外饰和座椅等。车身可用于保护车内设备，例如动力系统110、控制系统120等中的部分或全部组成。关于车身130所包括的具体部件可以参考现有技术，为了简洁，这里不一一列举。

应理解，图1中所示的车身130中包含动力系统110和控制系统120，但这仅为便于理解而示例，对各组成部分的相对位置关系并不构成限定。本申请对于无人驾驶车辆的具体组成部分和各组成部分的连接关系、相对位置并不做限定。

还应理解，上述对于无人驾驶车辆100各组成部分的命名仅是出于标识的目的，不应理解为是对本申请的实施例的限制。

另外，为便于理解本申请实施例，在介绍本申请实施例之前，对本申请中涉及到的几个术语做简单说明。

1、目标检测：找出图像中所有感兴趣的目标(物体)，确定他们的大小和位置。目标检测是计算机视觉领域的一个核心问题。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测一直是计算机视觉领域具有挑战性的问题之一。

2、光流(optical flow)：当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”；因此类似地，在图像中，光流表示的是两帧图像中每个像素的运动速度和运动方向。光流表达了图像的变化，由于它包含了目标运动的信息，因此可用来确定目标的运动情况。

简单来说，对于一个图像序列，把每帧图像中每个像素的运动速度和运动方向找出来就是光流场。例如，第t帧图像中像素点A的位置是(x1,y1)，第t+1帧图像中像素点A的位置是(x2,y2)，则可以确定像素点A的运动为：(u _x,v _y)＝(x2,y2)-(x1,y1)。

3、深度信息(depth information)：深度信息具体可以是指图像场景的深度。深度信息可用于表征与观察者的距离。深度信息可以通过深度图来表征。深度图具体是指，将从图像采集器到场景中各点的距离(深度)值作为像素值的图像。深度信息(或者说深度图)例如可以利用深度传感器(例如包括直接利用主动光技术(雷达激光、结构光、TOF等)来获取，也可以利用双目或多目视觉传感器、采用双目或多目匹配算法来获取。本申请对于获取深度信息的具体方式不作限定。

4、图像配准：将不同时间、不同传感器(如图形传感器)或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像进行匹配、叠加的过程。通过图像配准可以使得同一空间物理点与两幅或多幅图像中的像素点一一对应起来。

5、点云(point cloud)与点云配准：点云是三维物体或三维场景的一种表现形式，是由空间中一组无规则分布的、表达三维物体或三维场景的空间结构和表面属性的离散点所构成。与图像配准相对应，点云配准就是将两个或多个点云进行匹配、叠加的过程。通过点云配准可以使得同一空间物理点与两个或多个点云中的像素点一一对应起来。

6、双目立体视觉(binocular stereo vision)：基于视差原理并利用成像设备从不同的位置获取物体的两幅图像。由于该两幅图像是同时拍摄的，因此可以通过计算图像对应点的位置偏差，来获取物体三维几何信息。

由于双目立体视觉融合两只眼睛获得的图像并观察它们之间的差别，使观察者获得明显的深度感，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来，这个差别可以称为视差图像。由双目视觉传感器可以获得视差图，由视差图可以进一步获得深度图。

基于相似的原理，还可以利用多目立体视觉传感器来获得视差图和深度图。

下面结合附图详细说明本申请实施例提供的用于移动目标物体检测的方法。

图2是本申请实施例提供的用于移动目标物体检测的方法200的示意性流程图。图2所示的用于移动目标物体检测的方法200可以应用于控制系统，其中控制系统可以应用于各种类型的无人机、无人驾驶车辆等可移动平台。控制系统可以集成式的布置，例如为一个模块或设备；控制系统也可以是分散式的布置，例如传感模块和控制模块分布地设置在可移动平台的不同位置，并通过有线或无线的方式进行通信。例如，当该方法200应用于图1中个所示的无人驾驶车辆100时，该方法例如可以由图1中所示的控制系统120执行。

如图2所示，该方法200可以包括步骤210至步骤260。下面将结合附图详细说明方法200中的各个步骤。该方法200可以由配置在可移动平台中的处理器执行，该处理器可以通过读取存储在存储器中的一个或多个计算机程序，并通过控制该可移动平台中所配置的传感系统，来实现下文所示出的方法200中的各个步骤。

在步骤210中，获取在多个采集时刻采集到的包含一个或多个移动目标物体的多帧图像。

具体地，该多帧图像可以由配置在可移动平台中的传感系统获取。传感系统可以在多个采集时刻获取多帧图像。该多帧图像按照采集的先后顺序排列，可以构成一个图像序列。

该传感系统例如可以包括视觉传感器。该视觉传感器例如可以由一个或多个图形传感器组成。当该视觉传感器由多个图形传感器组成时，可以称为多目视觉传感器。

当该视觉传感器仅包括一个图形传感器时，该图形传感器所获取的多帧图像可以包括在多个采集时刻分别采集到的多帧图像。

当该视觉传感器为多目视觉传感器时，该多目视觉传感器所获取的多帧图像中，每个采集时刻都有多个图像。例如由双目视觉传感器所获取的多帧图像中，每个采集时刻都有两个图像，也就是由双目视觉传感器的左目和右目在同一时刻分别采集到的左图像和右图像。

此外，该传感系统还可以包括主动光深度传感器。主动光深度传感器可以是指，利用主动光技术获得深度信息的传感器。主动深度传感器例如可以是TOF传感器、结构光传感器或激光雷达传感器等等。该可移动平台可以配置TOF传感器、结构光传感器或激光雷达传感器中的一种或多种。主动光深度传感器可以获取三维点云，以便获取与上述多帧图像中各像素点对应的深度信息。

需要说明的是，主动光深度传感器与上述视觉传感器配合使用时，需要保证在同一采集时刻采集图像和三维点云。

在步骤220中，获取图像像素点的光流信息。

具体地，图像像素点的光流信息可以由至少两帧图像来确定。该至少两帧图像例如可以是在步骤210中获取的多帧图像中的部分或全部。

用于确定光流信息的至少两帧图像例如可以是在不同采集时刻由同一图形传感器所采集到的。该至少两帧图像中很大程度上存在图像重叠区域。该图像重叠区域也就是在不同的采集时刻对空间某一目标物体拍摄所得到的。通过对至少两帧图像中的每两帧相邻图像进行图像配准，可以使得该相邻两帧图像中对应于空间同一位置的点一一对应起来。上文所述的图像像素点便可以是指经过图像配准之后所得到的多帧图像中与空间同一位置的点对应的像素点。处理器可以进一步根据每个图像像素点在该相邻的两帧图像中的位置的变化，获取每个图像像素点的光流信息。该光流信息例如可以以二维向量的形式来表征。由于仅基于两帧相邻图像所确定的光流信息对于多个包含有多个采集时刻的一个时段而言，该光流信息可能并不能够反映在整个时段内的光流信息。因此，处理器可以基于多帧图像中的每两帧相邻图像所确定的光流信息，获得这个时段内完整的光流信息。

此外，若将空间同一位置的点在多帧图像中所对应的像素点连接，便可以获得这个点的二维运动轨迹。该二维运动估计可以称为光流图。

应理解，上文仅为便于理解而描述了基于同一个图像传感器采集到的多帧图像获得光流信息的具体过程，但这不应对本申请构成任何限定。当传感系统所配置的视觉传感器为多目视觉传感器时，也仍然可以基于相似的方法来获得光流信息。

例如，对于双目视觉传感器，可以先将每一个采集时刻左目和右目拍摄到图像进行像素点匹配，从而使得两张图像中对应于空间同一位置的点也对应起来。经过像素点匹配所得到的对应于空间同一位置的点可以称为匹配点或对应点。可以理解的是，无论是匹配点还是对应点，都是图像像素点。这里所述的像素点匹配也可以理解为上文所述的图像配准的一种。经过像素点匹配之后，可以得到与多个采集时刻对应的多个图像，每个图像都可以是由左目图像和右目图像经过像素点匹配得到。处理器可以进一步对该多个图像进行图像配准，以使得多个图像中对应于空间同一位置的点一一对应起来。然后根据每个图像像素点在多个图像中的位置的变化，获取每个图像像素点的光流信息。

应理解，上述至少两帧图像例如可以是相邻的多帧图像，也可以是不相邻的多帧图像，本申请对此不作限定。这里所述的相邻，可以是指该多帧图像的采集时刻连续；相对应地，不相邻，可以是指该多帧图像的采集时刻不连续。例如N个采集时刻包括t ₁，t ₂，t ₃，……，t _N，连续的采集时刻是可以是指从t ₁至t _N这N个采集时刻中截取的部分采集时刻或全部采集时刻。如，t ₁至t ₅这5个采集时刻是连续的采集时刻。不连续的采集是可以是指从t ₁至t _N这N个采集时刻中选择的部分采集时刻中，至少有两个采集时刻之间间隔了未被选择的采集时刻。如t ₁，t ₂，t ₅，t ₆、t ₉和t ₁₀这6个采集时刻是不连续的采集时刻。

处理器例如可以采用现有技术中的光流技术来获取每个图像像素点的光流信息。光流技术主要是通过在图像像素点的邻域内图像像素值的变化梯度来寻找该图像像素点在下一帧图像的位置。

应理解，光流技术的具体算法有很多种。传统的光流技术例如可以采用梯度的算法、基于匹配的算法、基于能量的算法、基于相位的算法等来获取光流信息。本申请中对于光流技术所采用的具体算法不作限定。

可选地，步骤220包括：采用深度学习方法，基于多帧图像确定图像像素点的光流信息。

传统的光流技术在精度、稠密性、边缘光滑度等方面效果并不是很好。随着深度卷积网络在计算机视觉领域的应用，通过搭建深度卷积学习网络来获取图像像素点的光流信息能够取得较好的效果，具有更高的匹配精度，并且能够更好地保留边缘效应，且具有更高的匹配效果。这使得基于光流的实例分割(instance segmentation)更具有实际意义。因此在本申请实施例中，处理器可以采用深度学习方法，基于多帧图像确定图像像素点的光流信息。换句话说，深度学习方法可以与传统的光流技术相结合，以获得图像像素点的光流信息。后文中会详细说明基于光流信息、深度信息和可移动平台的运动信息进行实例分割的具体过程，这里暂且省略对该具体过程的详细说明。

作为示例而非限定，深度学习方法包括光流神经网络(FlowNet)或图像金字塔，变形和本量神经网络(pyramid，warping，and cost volume-net，PWC-Net)。为便于理解，图3示出了由视觉传感器在某一采集时刻采集到的图像。图4示出了通过PWC-Net计算得到的光流图。可以看到，光流图中显示了发生了相对运动的物体。

可选地，该方法还包括：基于预先确定的参考帧，对图像像素点的光流信息进行校验。其中，该参考帧选择上述多帧图像。

为了保证图像配准的鲁棒性，处理器还可以从获取到的多帧图像中选择参考帧，将参考帧与当前帧进行图像配准，以获得两帧之间的光流信息，由此可以对由参考帧至当前帧所获得的完整的光流信息进行校验。

其中，参考帧可以是预先定义的。例如可以是多帧图像中的第一帧，或者是，多帧图像中的最后一帧，还可以是预定义的某一帧。本申请对此不做限定。应理解，参考帧仅为便于说明而定义，不应对本申请构成任何限定。本申请并不排除将参考帧替换为其他名词，但仍用于实现相同或相似功能的可能。

作为一个实施例，处理器根据某一时段内采集到的N帧图像确定光流信息，参考帧为该N帧图像中的第1帧。处理器可以根据该N帧图像中的每两帧相邻图像确定光流信息，从而由N帧图像确定该时段内完整的光流信息。处理器可以根据每两帧相邻图像确定光流信息。例如，根据第1帧和第2帧图像确定光流信息，根据第2帧和第3帧图像确定光流信息，以此类推，直至根据第N-1帧和第N帧图像确定光流信息。处理器可以将根据每两帧相邻图像所确定的光流信息融合在一起，获得该时段内完整的光流信息。此外，处理器可以根据第1帧图像和剩下的N-1帧图像中除第2帧图像之外的一帧或多帧图像确定光流信息。例如，处理器可以根据第1帧图像和第N帧图像确定光流信息，以对上文所述的由每两帧相邻图像的光流信息融合而得到的完整的光流信息进行校验。

若该光流信息与上文所述的由每两帧相邻图像的光流信息融合而得到的完整的光流信息一致，则校验成功，可以认为目前所获得的光流信息是准确的。若该光流信息与上文所述的由每两帧相邻图像的光流信息融合而得到的完整的光流信息不一致，则校验失败，可以选择其他更多图像和参考帧来确定光流信息，做进一步校验，并排查异常点(outlier)。

在步骤230中，获取图像像素点的深度信息。

具体地，图像像素点的深度信息可以由利用主动光深度传感器获取。主动光深度传感器例如可以包括激光雷达传感器、结构光传感器、TOF传感器等来获取。图像像素点的深度信息也可以利用多目视觉传感器、采用多目匹配算法来获取。

可选地，步骤230具体包括：基于多帧图像获取多个深度图；并基于该多个深度图获取图像像素点的深度信息。

该多帧图像可以是步骤210中获取到的多帧图像。步骤210中所述的传感系统例如可以包括多目视觉传感器。该多帧图像可以由多目视觉传感器在多个采集时刻采集到的。处理器可以基于每个采集时刻获取的多个图像，通过多目匹配算法，获得与各采集时刻对应的视差图，进而可以获取每个采集时刻的深度图。由于深度图和上述光流信息均可以基于同一多目视觉传感器所获取的多帧图像得到，故深度图中的图像像素点与光流图中的图像像素点是相对应的，因此可以获得每个图像像素点的光流信息和深度信息。

其中，作为示例而非限定，多目匹配算法例如包括半全局块匹配(semi-global block matching，SGBM)。处理器例如可以利用SGBM技术来进行双目像素的匹配，得到视差图，并结合标定信息得到这些匹配像素点的三维空间信息，由此也就获得了像素点的深度信息。

图5示出了通过SGBM计算得到的深度图。该深度图中各像素点对应不同的深度信息，在图中可以呈现为不同的灰度，灰度的深浅可以表示距离与传感器的远近。应理解，图中仅为示例，以图片的形式示出了深度图，事实上，该深度图中还可以进一步包括每个像素点的灰度值，以用于表示与传感器的距离。

应理解，通过多目匹配算法获取像素点的三维空间信息的具体方法可以参考现有技术。并且，多目匹配算法仅为立体匹配算法的一种具体方式，不应对本申请构成任何限定。处理器还可以通过其他立体匹配算法来进行像素匹配，以获得像素点的三维空间信息。本申请像素匹配的具体实现方式不作限定。

可选地，步骤230具体包括：通过主动光深度传感器获取在所述多个采集时刻采集到的多个点云；将多个点云和多帧图像中同一采集时刻采集到的点云与图像进行像素匹配，以获取图像像素点的深度信息。

该多个点云例如可以是通过雷达激光传感器、TOF传感器等在多个采集时刻分别采集到的点云。处理器可以对同一采集时刻采集到的点云和图像进行像素匹配，以确定与图像中各像素所匹配的三维点，继而获得各图像像素点的深度信息。

应理解，对点云和图像进行像素匹配的具体方法可以参考现有技术，本申请对此不作限定。

需要说明的是，主动光深度传感器是基于设备本身发射的能量来完成的深度信息的采集。相对于主动光深度传感器，上述通过多目视觉传感器来获取深度信息可以称为是被动测距的一种方式。

在步骤240中，根据图像像素点的光流信息、深度信息以及可移动平台的运动信息，确定图像像素点的运动信息。

具体地，运动信息可以包括：位置、运动速度、运动方向等信息。处理器在步骤240中获取到的运动信息是图像像素点的运动信息，也就是说，该处理器所获取的运动信息是像素级别的运动信息。

可选地，步骤240具体包括：

步骤2401，根据图像像素点的光流信息确定图像像素点在成像面的二维运动信息；

步骤2402，根据图像像素点的深度信息和可移动平台的运动信息，确定图像像素点的三维运动信息。

由于光流信息是基于两帧或更多帧图像中像素点位置的变化而确定的，因此真实地反映了像素点在成像面内的二维运动信息。处理器基于光流信息便可以确定图像像素点在成像面内的二维运动信息。

深度信息表征的是与传感器之间的距离，也就是相对距离，又由于传感器通常固定搭载于可移动平台上，因此深度信息的变化所反映的运动信息是相对于可移动平台的相对运动信息。

基于光流信息所确定的成像面内的二维运动信息和基于深度信息确定的垂直于成像面方向的运动信息，处理器可以获得图像像素点的三维运动信息。需注意，该三维运动信息是动态物体在本车坐标系下的三维运动信息，或者说，相对于可移动平台的三维运动信息。若进一步结合可移动平台的运动信息，便可将该动态物体在本车坐标系下的三维运动信息转换到绝对坐标系(或者称世界坐标系)下的三维运动信息。

其中，光流信息和深度信息都是通过配置在可移动平台上的传感系统采集到的图片而确定的，例如可以由上述步骤210至步骤230得到。

可移动平台的运动信息例如可以包括可移动平台的定位信息以及运动速度。其中，定位信息和运动速度的获取可以通过即时定位与建图技术(simultaneous localization and mapping，SLAM)以及多传感器技术来实现。例如，可以将惯性测量单元(inertial measurement unit，imu)、全球定位系统 (global positioning system，GPS)以及可移动平台可能采用的轮子里程计、激光点云、实时动态(real-time kinematic，RTK)以及高精度地图等进行融合。从而可以得到本车坐标系到绝对坐标系的转换关系。

通过对可移动平台的定位信息和运动速度的获取可以使得处理器能够获得动态物体在绝对坐标系下的三维运动信息。动态物体在绝对坐标系下的三维运动信息，也就是动态物体在三维空间的绝对运动信息。

因此，通过上述光流信息、深度信息和可移动平台的运动信息的结合，处理器可以获得动态物体的在三维空间的绝对运动信息，从而可以准确地区分动态物体和静态物体。

应理解，上文列举的通过用于获取可移动平台定位信息以及运动速度的具体实现方法和所采用的设备仅为示例，本申请对于获取可移动平台的定位信息和运动速度的实现方式和所采用的设备不作限定。

在步骤250中，基于图像像素点的运动信息，检测一个或多个移动目标物体。

处理器在获取到图像像素点的运动信息之后，便可以根据图像像素点的运动信息检测出一个或多个移动目标物体。

在一种实现方式中，处理器可以基于图像像素点的运动信息进行实例分割。处理器基于图像像素点的运动信息进行实例分割，也就是基于图像像素点的光流信息和深度信息以及可移动平台的运动信息，对图像进行实例分割。

其中，实例分割是指对属于同一类别的物体的分割。例如，将人与人分隔开，将车与车分隔开等。实例分割技术同时还可以获取被分割物体的类别，起到了类别检测以及轮廓获取的作用。与实例分割所不同，场景分割(sematic segmentation)可用于分离具有不同类别的物体。例如，将天空和路面分割开。但场景分割对于同一类别的物体无法分割。

处理器例如可以采用传统的图像分割(graph-cut)技术来进行实例分割，以获得较高的性价比；也可以采用深度学习方法来进行实例分割，例如利用卷积神经网络(convolutional neural networks，CNN)框架，以获得较好的平滑信息。本申请对于实例分割的具体实现方式不作限定。

需要说明的是，对于可移动平台的动态物体感知而言，两个远处深度信息一致并且运动一致的车可以看成一个物体，但如果远处纹理颜色相近、运动方向完全相反完全不一致的两个车若被当成同一个物体，则可能会造成比较严重的规划决策错误。换言之，相比于传统技术中基于纹理信息进行实例分割而言，本申请所提出的基于运动信息进行实例分割更有利于目标检测。

可选地，处理器可以进一步结合原图，对图像进行实例分割。具体的，不同于通常的实例分割，本发明实施例中，在获取了图像像素点的三维运动信息后，可以对于相邻的具有一致运动状态的像素进行聚类分割，得到运动物体的聚类表达获得一个或多个移动目标物体。这里移动目标物体的像素点具有运动一致性，即对于同一个移动目标物体而言，其在图像上对应的像素点的三维运动信息相互之间的差异应当小于预设的差异最大值。而后可以再基于目标物体的实例分割结果，对该目标物体的运动信息进行进一步优化迭代，从而得到目标物体的最终运动信息。

也就是说，处理器可以基于图像像素点的光流信息和深度信息、原图以及可移动平台的运动信息，对图像进行实例分割。通过引入原图，可以提供足够强的边缘约束。因为深度图和光流图在物体边缘上面都具有较差的分割性能，通过引入原图，可以对边缘进行约束，从而可以获得较好的平滑信息。

可选地，步骤250具体包括：基于图像像素点在三维空间的绝对运动信息和预设门限，确定一个或多个移动目标物体，并确定每个移动目标物体的位置。

其中，预设门限表示被确定为移动目标物体的运动速度的最小值。该预设门限可以是预定义并配置在可移动平台中的，例如保存在存储器中。

处理器基于图像像素点在三维空间的绝对运动信息和预设门限，确定一个或多个移动目标物体，可以直接根据各图像像素点的三维运动信息和预设门限，确定一个或多个移动目标物体，也可以根据由实例分割得到的物体的三维运动信息和预设门限，确定一个或多个移动目标物体。本申请对此不作限定。

以某一图像像素点在三维空间的绝对运动信息为例，若该图像像素点在三维空间的运动速度大于或等于预设门限，则可以认为该图像像素点是动态的像素点，其所对应的物体可以认为是动态的物体；若该图像像素点在三维空间的运动速度小于该预设门限，则可以认为该图像像素点是静止的像素点，其所对应的物体可以认为是静态物体。

可选地，该预设门限与以下一项或多项相关：图像像素点的速度可信度、估计方差以及与可移动平台的距离。

其中速度可信度和估计方差与确定运动信息的具体实现方式相关。如前所述，处理器可以融合多种传感器来确定可移动平台的运动信息，而图像像素点的绝对运动信息是基于可移动平台的运动信息而确定。而融合多种传感器来确定可移动平台的运动信息需要考虑速度的可信度和/或估计方差，因此该预设门限的确定可以考虑图像像素点的速度可信度和/或估计方差。

此外，由于距离可移动平台的距离越远，发生事故的可能性也越小，因此，也可以根据距离可移动平台的远近来确定不同的预设门限，从而有利于更合理地规划路径和提供决策依据。

在检测出动态物体和静态物体之后，可以将静态物体排除，而对动态物体进行跟踪。

可选地，该方法还包括：步骤260，通过显示设备显示移动目标物体的实际区域和/或实际边界框。

处理器可以将检测移动目标物体的结果通过显示设备以图像的形式呈现出来。在本申请实施例中，检测移动目标物体所得到的结果可以通过实际边界框和/或实际区域来显示。其中，实际边界框是指与移动目标物体的轮廓相同或相近似的边界框，而不同于通常进行图像识别所使用的方形边界框。这里实际边界框与移动目标物体的轮廓相近似，指的是实际边界框与移动目标物体的轮廓边界形状相同，但大小不同，例如实际边界框可以比轮廓稍大或稍小，如框边界与轮廓相差一定比例或预设的距离，这样，对于占有图像面积过大或过小的移动目标物体可以赋予其不与实际轮廓相同例如稍小或稍大的边界框，从而可以获得更好的显示效果便于观察。实际区域可以通过相同的颜色或编号等来标识同一个移动目标物体或同一类移动目标物体。例如，对同一个人可以用同一种颜色或编号来标识，对不同的人用不同的颜色或编号来标识。又例如，对所有的人可以用同一种颜色或编号来标识，对所有的小型车辆可以用另一种颜色或编号来标识。再例如，对于中间部分被遮挡两头露出的车，可以在图像中通过边界框框出露出的车头和车尾，边界框的形状分别是露出的车头和车尾的外形轮廓。此外，还可以在两个边界框内标识相同的颜色或者编号，以表示这两个边界框内的物体是同一物体。

之所以能够通过实际区域或实际边界框来显示移动目标物体，是因为本申请所提供的实例分割是基于图像像素点的运动信息的实例分割，也就是说，该实例分割时基于像素级的运动信息而进行的，因此可以更加准确地识别出物体的轮廓。

其中，显示设备例如可以是车内已有的中控显示设备，或者是后装的外部显示设备，本申请对此不作限定。

图6示出了基于本申请实施例提供的方法而检测出的移动目标物体。具体地，图6是基于图像像素点的光流信息、深度信息、原图和可移动平台的运动信息进行实例分割后排除了静态物体之后的结果。如图6所示，图中仅将运动着的车和行人轮廓显示了出来。

进一步地，处理器可以基于优化方程来优化分割后的动态物体的运动信息。

具体地，可以假设该物体刚性，引入局部光流平滑但在边界处允许突变的边缘特性，从而定义优化方程来进行精修(refine)处理，得到的物体速度平滑。同时在优化前引入随机抽样一致法(random sample consensus，RanSaC)算法对严重的匹配错误进行异常点(outlier)处理，这样得到的对应物体的速度会很大程度上摆脱异常点的影响并具有较强的鲁棒性。

经过优化之后而进行实例分割得到的结果，边缘更加平滑，具有较强的鲁棒性，并且视觉效果也更好。

因此，本申请实施例通过基于图像像素点的光流信息、深度信息和可移动平台的运动信息来确定图像像素点在三维空间的绝对运动信息，并基于图像像素点在三维空间的绝对运动信息检测移动目标物体。相比于现有技术中基于纹理的实例分割而言，对移动目标物体的识别更加准确、合理。由于能够准确地识别出动态障碍物及其运动信息，并可以结合可移动平台的位置估计动态障碍物的具体位置，从而可以避免事故发生，提供了使用的安全性。

并且由于获得了像素级的运动信息，可以基于移动目标物体的轮廓来生成边界框。基于轮廓而生成的边界框相比于现有技术中的方形边界框而言，能够将不属于移动目标物体的像素点排除在外，从而有利于获得更加准确的运动信息。并且能够额外地提供目标移动物体在三维空间像素级的运动信息，通过提供更加丰富的信息，以便于更合理地进行路径规划和提供决策依据。

此外，上述基于图像像素点的光流信息、深度信息和可移动平台的运动信息而获得的图像像素点在三维空间的绝对运动信息，并不限于用于实例分割。例如，该图像像素点在三维空间的绝对运动信息还可以和其他基于类别的物体检测跟踪以及场景分割结合在一起。在类别物体检测和跟踪失败的情况下，可以利用图像像素点在三维空间的绝对运动信息来进行边界框的预测和重新初始化，还可以和不同视野中针对同一物体的数据关联，使得基于类别的物体检测跟踪算法具有更好的应对跟踪失败的处理方式、数据关联方式以及跟踪重新初始化方式。

上文中结合图2至图6详细说明了本申请实施例提供的用于移动目标物体检测的方法。下文中将结合图7至图9详细说明本申请实施例提供的系统。

图7是本申请实施例提供的用于移动目标物体检测的系统300的示意性框图。如图7所示，该系统300可以包括：图像获取模块310、光流信息获取模块320、深度信息获取模块330、运动信息获取模块340、定位模块350、移动目标物体检测模块360和显示模块370。

其中，图像获取模块310可用于执行上文方法实施例200中的步骤210，光流信息获取模块320可用于执行上文方法实施例200中的步骤220，深度信息获取模块330可用于执行上文方法实施例200中的步骤2320，运动信息获取模块340可用于执行上文方法实施例200中的步骤240，定位模块350可用于执行上文方法实施例200中获取可移动平台的运动信息等步骤，移动目标物体检测模块360可用于执行上文方法实施例200中的步骤250，显示模块370可用于执行上文方法实施例200中的步骤260。

应理解，各模块执行上述相应步骤的具体过程在上述方法实施例中已经详细说明，为了简洁，在此不再赘述。

图8是本申请实施例提供的用于移动目标物体检测的系统400的示意性框图。如图8所示，该系统400包括：传感系统410、处理器420和存储器430。传感系统410、处理器420和存储器430可以通过总线440通信连接。其中，存储器用于存储计算机程序，处理器可用于通过读取该存储器中保存的计算机程序，以使得该系统400执行上文方法实施例200中的各步骤。

具体地，当处理器420读取存储器430中的计算机程序时，可通过传感系统410获取在多个采集时刻采集到的包含一个或多个移动目标物体的多帧图像，该处理器420还可用于获取图像像素点的光流信息和深度信息，并基于图像像素点的光流信息、深度信息以及可移动平台的运动信息，检测一个或多个移动目标物体。

可选地，该系统400还包括显示设备440，用于显示检测到的一个或多个移动目标物体。

图9是本申请实施例提供的可移动平台500的示意性框图。如图9所示，该可移动平台500可以包括控制系统510和动力系统520。具体地，该控制系统510例如可以是图7中所示的系统300或图8中所示的系统400，该动力系统520可以是配置在可移动平台中用于提供动力的模块，例如可以是图1中所示的动力系统110。

其中，控制系统510的操作和功能可以参考上文方法实施例200中的描述。为了简洁，这里不再赘述。动力系统520的操作和功能可以参考现有技术，为了简洁，这里不作详细说明。

可选地，该可移动平台500为无人驾驶车辆。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种用于移动目标物体检测的方法，其特征在于，所述方法应用于控制系统，所述控制系统应用于可移动平台，所述方法包括：

获取在多个采集时刻采集到的包含一个或多个移动目标物体的多帧图像；

获取所述图像像素点的光流信息；

获取所述图像像素点的深度信息；

根据所述光流信息、所述深度信息和所述可移动平台的运动信息，确定所述图像像素点的运动信息；

基于所述图像像素点的运动信息，检测一个或多个移动目标物体。
如权利要求1所述的方法，其特征在于，所述获取在多个采集时刻采集到的包含一个或多个移动目标物体的多帧图像，包括：

通过多目视觉传感器在多个采集时刻采集包含所述一个或多个移动目标物体的所述多帧图像，所述多帧图像包括由所述多目视觉传感器中的多个图形传感器分别采集到的多个图像。
如权利要求2所述的方法，其特征在于，所述获取所述图像像素点的光流信息，包括：

采用深度学习方法，基于所述多帧图像确定所述图像像素点的光流信息。
如权利要求2所述的方法，其特征在于，所述获取所述图像像素点的深度信息，包括：

基于所述多帧图像获取多个深度图；

基于所述多个深度图获取所述图像像素点的深度信息。
如权利要求1所述的方法，其特征在于，所述获取所述图像像素点的深度信息，包括：

通过主动光深度传感器在所述多个采集时刻采集多个点云；

将所述多个点云和所述多帧图像中同一采集时刻采集到的点云与图像进行像素匹配，以获取所述图像像素点的深度信息。
如权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

基于预先确定的参考帧，对所述图像像素点的光流信息进行校验，所述参考帧取自所述多帧图像。
如权利要求1至6中任一项所述的方法，其特征在于，所述根据所述图像像素点的光流信息、所述深度信息以及所述可移动平台的运动信息，确定所述图像像素点的运动信息，包括：

根据所述图像像素点的光流信息和所述深度信息，确定所述图像像素点在三维空间的相对运动信息，所述相对运动信息是相对于所述可移动平台的运动信息；

基于所述可移动平台的运动信息和所述图像像素点在三维空间的相对运动信息，确定所述图像像素点在三维空间的绝对运动信息。
如权利要求7所述的方法，其特征在于，所述基于所述图像像素点的运动信息，检测一个或多个移动目标物体，包括：

基于所述图像像素点在三维空间的绝对运动信息对所述像素点进行聚类分割，检测一个或多个所述移动目标物体，其中所述移动目标物体的像素点具有运动一致性。
如权利要求7所述的方法，其特征在于，所述基于所述图像像素点的运动信息，检测一个或多个移动目标物体，包括：

基于所述图像像素点在三维空间的绝对运动信息和预设门限，确定所述一个或多个移动目标物体；

基于所述图像像素点在三维空间的绝对运动信息确定每个移动目标物体的位置。
如权利要求9所述的方法，其特征在于，所述预设门限表示被确定为所述移动目标物体的运动速度的最小值。
如权利要求9或10所述的方法，其特征在于，所述预设门限与以下一项或多项相关：所述图像像素点的速度可信度、估计方差以及与所述可移动平台的距离。
如权利要求1至11中任一项所述的方法，其特征在于，所述方法还包括：

通过显示设备显示所述移动目标物体的实际区域和/或实际边界框。
如权利要求12所述的方法，其特征在于，所述实际区域的颜色或编号相同。
如权利要求12或13所述的方法，其特征在于，所述实际边界框与所述移动目标物体的轮廓相近似。
一种用于移动目标物体检测的系统，其特征在于，用于设置于可移动平台中，所述系统包括：传感系统、处理器和存储器；其中，所述存储器用于存储计算机程序，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

通过所述传感系统在多个采集时刻采集包含一个或多个移动目标物体的多帧图像；

获取所述图像像素点的光流信息；

获取所述图像像素点的深度信息；

根据所述光流信息、所述深度信息以及所述可移动平台的运动信息，确定所述图像像素点的运动信息；以及

基于所述图像像素点的运动信息，检测一个或多个移动目标物体。
如权利要求15所述的系统，其特征在于，所述传感系统包括多目视觉传感器，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

通过多目视觉传感器在多个采集时刻采集包含所述一个或多个移动目标物体的所述多帧图像，所述多帧图像包括由所述多目视觉传感器中的多个图形传感器分别采集到的多个图像。
如权利要求16所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

采用深度学习方法，基于所述多帧图像确定所述图像像素点的光流信息。
如权利要求16所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

基于所述多帧图像获取多个深度图；

基于所述多个深度图获取所述图像像素点的深度信息。
如权利要求15所述的系统，其特征在于，所述传感系统包括主动光深度传感器，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

通过所述主动光深度传感器在所述多个采集时刻采集多个点云；

将所述多个点云和所述多帧图像中同一采集时刻采集到的点云与图像进行像素匹配，以获取所述图像像素点的深度信息。
如权利要求15至19中任一项所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

基于预先确定的参考帧，对所述图像像素点的光流信息进行校验，所述参考帧取自所述多帧图像。
如权利要求15至20中任一项所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

根据所述图像像素点的光流信息和所述深度信息，确定所述图像像素点在三维空间的相对运动信息，所述相对运动信息是相对于所述可移动平台的运动信息；

基于所述可移动平台的运动信息和所述图像像素点在三维空间的相对运动信息，确定所述图像像素点在三维空间的绝对运动信息。
如权利要求21所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：：

基于所述图像像素点在三维空间的绝对运动信息对所述像素点进行聚类分割，检测一个或多个所述移动目标物体，其中所述移动目标物体的像素点具有运动一致性。
如权利要求21所述的系统，其特征在于，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

基于所述图像像素点在三维空间的绝对运动信息和预设门限，确定所述一个或多个移动目标物体；

基于所述图像像素点在三维空间的绝对运动信息确定每个移动目标物体的位置。
如权利要求23所述的系统，其特征在于，所述预设门限表示被确定为所述移动目标物体的运动速度的最小值。
如权利要求22或23所述的系统，其特征在于，所述预设门限与以下一项或多项相关：所述图像像素点的速度可信度、估计方差以及与所述可移动平台的距离。
如权利要求15至25中任一项所述的系统，其特征在于，所述系统还包括显示设备，当所述计算机程序被所述处理器执行时，使得所述系统执行以下操作：

通过所述显示设备显示所述移动目标物体的实际区域和/或实际边界框。
如权利要求26所述的系统，其特征在于，所述实际区域的颜色或编号相同。
如权利要求26或27所述的系统，其特征在于，所述实际边界框与所受移动目标物体的轮廓相近似。
一种可移动平台，其特征在于，包括：如权利要求15至27中任一项所述的系统。
如权利要求29所述的可移动平台，其特征在于，所述可移动平台为无人驾驶车辆。
一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机执行时使得所述计算机执行如权利要求1至14中任一项所述的方法。