WO2022213729A1

WO2022213729A1 - 对目标的运动信息进行检测的方法和装置、设备和介质

Info

Publication number: WO2022213729A1
Application number: PCT/CN2022/076765
Authority: WO
Inventors: 孟文明; 朱红梅; 张骞
Original assignee: 地平线征程(杭州)人工智能科技有限公司
Priority date: 2021-04-07
Filing date: 2022-02-18
Publication date: 2022-10-13
Also published as: CN113096151B; US20240212170A1; CN113096151A; JP7306766B2; EP4246437A1; JP2023523527A

Abstract

公开了一种对目标的运动信息进行检测的方法和装置、设备和介质，其中，运动信息检测方法包括：对第一图像进行目标检测，得到第一目标的检测框；获取第一图像在对应的第一相机坐标系中的深度信息并由此确定第一目标的检测框的深度信息，基于第一目标的检测框在图像坐标系中的位置和深度信息确定第一目标在第一相机坐标系中的第一坐标；根据摄像装置的位姿变化信息，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标；基于第一坐标和第三坐标确定第一目标的运动信息。本公开实施例提供的技术方案，可以避免大量的计算处理，提高处理效率。

Description

对目标的运动信息进行检测的方法和装置、设备和介质

技术领域

本公开涉及计算机视觉技术，尤其是一种对目标的运动信息进行检测的方法和装置、基于目标的运动信息控制行驶对象的方法和装置、电子设备及存储介质。

背景技术

物体的运动速度和方向估计是无人驾驶、安防监控、场景理解等领域的研究重点。在无人驾驶、安防监控、场景理解等领域中，需要估计出场景中所有物体的运动速度和方向并提供给决策层，以便决策层进行相应决策。例如，在无人驾驶系统中，在感知到处于道路旁边的运动物体(如人或者动物等)向道路中央靠近时，决策层可以控制车辆减速行驶，甚至停车，以保障车辆的安全行驶。

目前，在无人驾驶、安防监控、场景理解等场景中，大多采用激光雷达进行数据采集，通过高频率的发射激光束，然后根据激光束的发出时间和接收时间来计算与目标点之间的距离，得到点云数据，然后在某个时间范围对应的两个时刻采集得到的点云数据上进行目标检测和目标追踪，再计算目标在该时间范围内的运动速度和方向。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种对目标的运动信息进行检测的方法和装置、基于目标的运动信息控制行驶对象的方法和装置、电子设备及存储介质。

根据本公开实施例的一个方面，提供了一种对目标的运动信息进行检测的方法，包括：

对第一图像进行目标检测，得到第一目标的检测框，所述第一图像为行驶对象上的摄像装置在所述行驶对象行驶过程中采集的所述行驶对象外场景的图像；

获取所述第一图像在对应的第一相机坐标系中的深度信息；

根据所述第一图像的深度信息，确定所述第一目标的检测框的深度信息，并基于所述第一目标的检测框在图像坐标系中的位置和所述第一目标的检测框的深度信息，确定所述第一目标在所述第一相机坐标系中的第一坐标；

获取摄像装置从采集第二图像到采集所述第一图像的位姿变化信息；其中，所述第二图像为所述第一图像所在图像序列中时序位于所述第一图像之前、且与所述第一图像间隔预设帧数的图像；

根据所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标；其中，所述第二目标为所述第一目标对应的第二图像中的目标；

基于所述第一坐标和所述第三坐标，确定所述第一目标从所述第二图像的采集时刻到所述第一图像的采集时刻对应时间范围内的运动信息。

根据本公开实施例的另一个方面，提供了一种智能驾驶控制方法，包括：

在行驶对象行驶过程中，通过所述行驶对象上的摄像装置采集所述行驶对象外场景的图像序列；

以所述图像序列中的至少一频帧图像作为第一图像、以所述图像序列中位于所述第一图像之前、且与所述第一图像间隔预设帧数的至少一帧图像作为第二图像，利用本公开任一实施例所述对目标的运动信息进行检测的方法，确定所述场景中目标的运动信息；

根据所述目标的运动信息生成用于控制所述行驶对象行驶状态的控制指令。

根据本公开实施例的又一个方面，提供了一种对目标的运动信息进行检测的装置，包括：

检测模块，用于对第一图像进行目标检测，得到第一目标的检测框，所述第一图像为行驶对象上的摄像装置在所述行驶对象行驶过程中采集的所述行驶对象外场景的图像；

第一获取模块，用于获取所述第一图像在对应的第一相机坐标系中的深度信息；

第一确定模块，用于根据所述第一获取模块获取的所述第一图像的深度信息，确定所述第一目标的检测框的深度信息；

第二确定模块，用于基于所述检测模块得到的所述第一目标的检测框在图像坐标系中的位置和所述第一确定模块确定的所述第一目标的检测框的深度信息，确定所述第一目标在所述第一相机坐标系中的第一坐标；

第二获取模块，用于获取摄像装置从采集第二图像到采集所述第一图像的位姿变化信息；其中，所述第二图像为所述第一图像所在图像序列中时序位于所述第一图像之前、且与所述第一图像间隔预设帧数的图像；

转换模块，用于根据所述第二获取模块获取的所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标；其中，所述第二目标为所述第一目标对应的第二图像中的目标；

第三确定模块，用于基于所述第二确定模块确定的所述第一坐标和所述转换模块转换到的所述第三坐标，确定所述第一目标从所述第二图像的采集时刻到所述第一图像的采集时刻对应时间范围内的运动信息。

根据本公开实施例的再一个方面，提供了一种智能驾驶控制装置，包括：

摄像装置，设置于行驶对象上，用于在行驶对象行驶过程中，采集所述行驶对象外场景的图像序列；

运动信息检测装置，用于以所述图像序列中的至少一频帧图像作为第一图像、以所述图像序列中位于所述第一图像之前、且与所述第一图像间隔预设帧数的至少一帧图像作为第二图像，确定所述场景中目标的运动信息；所述运动信息检测装置包括本公开任一实施例所述对目标的运动信息进行检测的装置；

控制装置，用于根据所述运动信息检测装置检测到的所述目标的运动信息，生成用于控制所述行驶对象行驶状态的控制指令。

根据本公开实施例的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法。

根据本公开实施例的再一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法。

基于本公开上述实施例提供的对目标的运动信息进行检测的方法和装置、电子设备及存储介质，通过行驶对象上的摄像装置在行驶对象行驶过程中采集该行驶对象外场景的图像，对采集到的第一图像进行目标检测，得到第一目标的检测框，获取第一图像在对应的第一相机坐标系中的深度信息，并根据该第一图像的深度信息确定第一目标的检测框的深度信息，然后，基于第一目标的检测框在图像坐标系中的位置和第一目标的检测框的深度信息，确定第一目标在第一相机坐标系中的第一坐标；获取摄像装置从采集第二图像到采集第一图像的位姿变化信息，其中的第二图像为第一图像所在图像序列中时序位于第一图像之前、且与第一图像间隔预设帧数的图像，然后根据该位姿变化信息，以第一目标对应的第二图像中的目标作为第二目标，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标，进而，基于第一坐标和第三坐标，确定第一目标从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息。本公开实施例利用计算机视觉技术，基于驾驶场景图像序列确定驾驶场景中目标的运动信息，无需借助于激光雷达，相比于采用激光雷

基于本公开上述实施例提供的基于目标的运动信息控制行驶对象的方法和装置、电子设备及存储介质，在行驶对象行驶过程中，通过行驶对象上的摄像装置采集行驶对象外场景的图像序列，以图像序列中的至少一频帧图像作为第一图像、以图像序列中位于第一图像之前、且与第一图像间隔预设帧数的至少一帧图像作为第二图像，利用本公开任一实施例所述对目标的运动信息进行检测的方法确定驾驶场景中目标的运动信息，进而根据该目标的运动信息生成用于控制行驶对象行驶状态的控制指令，从而实现了利用计算机视觉技术检测驾驶场景中目标的运动信息、对行驶对象的智能驾驶控制，有利于满足无人驾驶场景中对行驶对象的实时智能驾驶控制，以保障行驶对象的安全行驶。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的场景图。

图2是本公开一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图3是本公开另一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图4是本公开又一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图5是本公开再一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图6是本公开还一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图7是本公开又一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。

图8是本公开一示例性实施例提供的对目标的运动信息进行检测的方法的一个应用流程示意图。

图9是本公开一示例性实施例提供的基于目标的运动信息控制行驶对象的方法的流程示意图。

图10是本公开一示例性实施例提供的对目标的运动信息进行检测的装置的结构示意图。

图11是本公开另一示例性实施例提供的对目标的运动信息进行检测的装置的结构示意图。

图12是本公开一示例性实施例提供的基于目标的运动信息控制行驶对象的装置的结构示意图。

图13是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，本公开发明人通过研究发现，激光雷达可以获得一个瞬时场景中若干个点的深度值，但无法直接得到某个物体的运动速度和方向等信息，若想获知物体在某个时间范围内的运动速度和方向，还需要在该时间范围对应的两个时刻采集得到的点云数据上进行目标检测和目标追踪，再计算目标在该时间范围内的运动速度和方向，需要大量的计算处理，所需时间较长，效率较低，无法满足无人驾驶等对实时性要求较高的场景需求。

本公开实施例提供了一种利用计算机视觉技术，基于驾驶场景图像序列获取驾驶场景中目标的运动信息的技术方案，通过行驶对象上的摄像装置在行驶对象行驶过程中采集该行驶对象外场景的图像，对采集到的图像序列中间隔预设帧数的第一图像和第二图像进行目标检测和目标跟踪，同一目标在第一图像对应的第一相机坐标系中的第一坐标和在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系得到的第三坐标，再基于第一坐标和第三坐标确定该目标在第一图像和第二图像的采集时刻对应时间范围内的运动信息。本公开实施例无需借助于激光雷达，可以避免大量的计算处理，节省处理时间，提高处理效率，有利于满足无人驾驶等对实时性要求较高的场景需求。

基于本公开上述实施例提供的上述技术方案检测到驾驶场景中目标的运动信息后，可以根据目标的运动信息生成用于控制行驶对象行驶状态的控制指令，从而实现了利用计算机视觉技术检测驾驶场景中目标的运动信息、对行驶对象的智能驾驶控制，有利于满足无人驾驶场景中对行驶对象的实时智能驾驶控制，以保障行驶对象的安全行驶。

示例性系统

本公开实施例可以应用于行驶对象、机器人、玩具车等行驶对象的智能驾驶控制场景，通过检测行驶对象的驾驶场景中目标的运动信息，生成用于控制行驶对象行驶状态的控制指令，对行驶对象的行驶状态进行控制。

图1是本公开所适用的一个场景图。如图1所示，本公开实施例应用于行驶对象的智能驾驶控制场景时，由行驶对象上的图像采集模块101(例如摄像头等摄像装置)采集得到图像序列输入本公开实施例的运动信息检测装置102；运动信息检测装置102，以该图像序列中的每一帧图像或者间隔若干帧选取的一帧图像作为第二图像，以该图像序列中时序位于第二图像之后、与第二图像间隔一定帧数的一帧图像作为第一图像，对第一图像进行目标检测，得到第一目标的检测框；获取第一图像在对应的第一相机坐标系中的深度信息，并根据该第一图像的深度信息确定第一目标的检测框的深度信息；基于第一目标的检测框在图像坐标系中的位置和第一目标的检测框的深度信息确定第一目标在第一相机坐标系中的第一坐标；根据摄像装置从采集第二图像到采集第一图像的位姿变化信息，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标；进而，基于第一坐标和第三坐标，确定第一目标从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息并输出；控制装置103，基于运动信息检测装置102输出的第一目标在对应时间范围内的运动信息，控制车辆、机器人、玩具车等行驶对象的行驶状态。例如，在控制行驶对象行驶状态的应用场景中，若基于第一目标的运动信息(该运动信息可包括运动速度和运动方向)和行驶对象的行驶状态(该行驶状态可包括行驶速度和行驶方向)，确定行驶对象与第一目标在未来5秒钟内可能发生碰撞，则控制装置103生成用于控制行驶对象减速行驶的控制指令并输出给该行驶对象，以控制当前行驶对象减速行驶，避免行驶对象与第一目标发生碰撞。本公开实施例对具体的应用场景不做限制。

示例性方法

图2是本公开一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。本实施例可应用在电子设备上，也可以应用于车辆、机器人、玩具车等行驶对象上。如图2所示，该实施例的对目标的运动信息进行检测的方法包括如下步骤：

步骤201，对第一图像进行目标检测，得到第一目标的检测框。

其中，第一图像为行驶对象上的摄像装置在该行驶对象行驶过程中采集的该行驶对象外场景的图像。该第一图像可以为RGB(红绿蓝)图像，也可以为灰度图像，本公开实施例对第一图像不做限制。

可选地，本公开实施例中的目标，可以是行驶对象外场景中任意感兴趣的目标，例如运动或静止的人、小动物、物体等，其中的物体例如可以是车辆、道路两侧的建筑物、绿植、道路标线、交通交通信号灯等，本公开实施例对需要检测的目标不做限定，可以根据实际需求确定。

可选地，在其中一些实施方式中，可以采用预设目标检测框架，例如，循环卷积神经网络(Recurrent Neural Network，RCNN)、加速循环卷积神经网络(Fast RCNN)、掩模(Mask RCNN)等基于区域的算法，只需瞄一眼(You Only Look Once，YOLO)等基于回归的算法，Faster RCNN和YOLO结合得到的单步多框检测(Single Shot MultiBox Detector，SSD)算法，等等，对第一图像进行目标检测。本公开实施例对目标检测的具体方式、采用的目标检测框架不做限制。

本公开实施例中，第一目标为第一图像中的目标，可以为一个目标，也可以为多个目标，多个目标可以为相同类型的目标(例如都为人)，也可以为不同类型的目标(例如包括人、车辆等)。相应地，对第一图像进行目标检测，得到第一目标的检测框可以为一个，也可以为多个。本公开实施例对第一目标的数量和类型不做限制。

本公开实施例中的检测框为目标的边界框(Bounding Box)。可选地，可以使用思维向量(x，y，w，h)来表示每个检测框，其中，(x，y)表示检测框在图像坐标系中的坐标，可以是检测框的中心点或预设任一顶点在图像坐标系中的坐标；w、h分别表示检测框的宽和高。

步骤202，获取第一图像在对应的第一相机坐标系中的深度信息。

本公开实施例中，深度(Depth)信息用于场景中各点(分别对应于图像中的各像素点)与摄像装置之间的距离信息，在其中一些实施方式中，深度信息具体可以表示为深度图。深度图是包含场景中各点与摄像装置之间的距离信息的图像或图像通道。深度图类似于灰度图像，它的每个像素值是摄像装置距离场景中一个点的实际距离(L)，每个像素值占用一个短(short)长度来存储摄像装置到对应的一个点的距离。

可选地，在其中一些实施方式中，可以通过一个神经网络，来获取第一图像在对应的第一相机坐标系中的深度信息。其中的神经网络为预先训练好的神经网络，可以基于输入的图像进行深度预测，并输出该图像中场景的深度信息。例如，可以采用一个端到端的U-型深度神经网络，基于深度学习的单目深度预测方法，对输入的第一图像进行深度预测，得到第一图像在对应的第一相机坐标系中的深度信息。

本公开实施例中，相机坐标系是以摄像装置的聚焦中心为原点，以光轴(即深度方向)为Z轴建立的三维(3D)坐标系。在行驶对象行驶过程中，行驶对象上的摄像装置处于运动状态下，摄像装置的位姿也处于变化状态中，相应建立的3D坐标系也不相同，第一图像对应的第一相机坐标系即摄像装置采集第一图像时的3D坐标系。

可选地，步骤202与步骤201可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤203，根据第一图像的深度信息，确定第一目标的检测框的深度信息，并基于第一目标的检测框在图像坐标系中的位置和第一目标的检测框的深度信息，确定第一目标在第一相机坐标系中的第一坐标。

其中，在步骤203中，第一图像的深度信息，指的是通过步骤202确定的第一图像在对应的第一相机坐标系中的深度信息，第一目标的检测框的深度信息指的是第一目标的检测框在第一相机坐标系中的深度信息。

步骤204，获取摄像装置从采集第二图像到采集第一图像的位姿变化信息。

其中，第二图像为第一图像所在图像序列中时序位于第一图像之前、且与第一图像间隔预设帧数的图像。

本公开实施例中，预设帧数的具体取值可以根据实际需求(例如具体场景、行驶对象的运动状态、摄像装置的图像采集频率等)设置，可以为0、1、2、3等，预设帧数为0时，第二图像和第一图像为相邻的两帧图像。例如，在高速驾驶场景，行驶对象的运动速度较大和/或摄像装置的图像采集频率较高时，预设帧数的取值较小，以避免第二图像中的目标在摄像装置采集第一图像时已经移动至摄像装置的拍摄范围之外、从而无法出现在第一图像中，实现对行驶对象外场景中目标的运动信息的有效检测；而在拥挤的城市道路驾驶场景，行驶对象的运动速度较小和/或摄像装置的图像采集频率较低时，预设帧数的取值较大，这样，既可以检测到同一目标在第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息，还可以避免频繁执行运动信息检测方法所需占用的计算资源和存储资源，提高资源利用率。

可选的，本公开实施例中的位姿变化信息是指：摄像装置在采集第一图像时的位姿，与在采集第二图像时的位姿之间的差异。该位姿变化信息为基于3D空间的位姿变化信息，具体可以表示为矩阵，因此可以称为位姿变化矩阵。该位姿变化信息可以包括：摄像装置的平移信息和旋转信息。其中，摄像装置的平移信息可以包括：摄像装置分别在3D坐标系中三个坐标轴XYZ上的位移量。其中的摄像装置的旋转信息可以为：基于俯仰(Roll)、偏航(Yaw)和翻滚(Pitch)的旋转向量，其包括基于Roll、Yaw和Pitch这三个旋转方向的旋转分量向量，其中，Roll、Yaw和Pitch分别表示摄像装置绕3D坐标系中三个坐标轴XYZ的旋转。

可选的，在其中一些实施方式中，可以利用视觉技术，来获取摄像装置从采集第二图像到第一图像时的位姿变化信息，例如，利用即时定位与地图构建(Simultaneous Localization And Mapping，SLAM)方式，获取位姿变化信息。例如，可以将第一图像(RGB图像)和第一图像的深度信息以及第二图像(RGB图像)输入开源定向快速和旋转摘要(Oriented FAST and Rotated BRIEF，ORB)-SLAM框架的红绿蓝深度(Red Green Blue Depth，RGBD)模型，由RGBD模型输出位姿变化信息。另外，本公开实施例也可以采用其他方式，例如，利用全球定位系统(Global Positioning System，GPS)和角速度传感器，获取摄像装置从采集第二图像到第一图像时的位姿变化信息。本公开实施例对获取摄像装置从采集第二图像到第一图像时的位姿变化信息的具体方式不做限制。

步骤205，根据摄像装置从采集第二图像到采集第一图像的位姿变化信息，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标。

其中，第二目标为第一目标对应的第二图像中的目标，与第一目标相应地，第二目标可以为一个目标，也可以为多个目标，多个目标可以为相同类型的目标(例如都为人)，也可以为不同类型的目标(例如包括人、车辆等)。

本公开实施例中，第二图像对应的第二相机坐标系即摄像装置采集第二图像时的3D坐标系。

可选地，步骤204～步骤205与步骤201～步骤203可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤206，基于第一坐标和第三坐标，确定第一目标从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息。

本公开实施例中，第一目标的运动信息可以包括第一目标在对应时间范围内的运动速度和运动方向。

本实施例中，通过行驶对象上的摄像装置在行驶对象行驶过程中采集该行驶对象外场景的图像，对采集到的第一图像进行目标检测，得到第一目标的检测框，获取第一图像在对应的第一相机坐标系中的深度信息，并根据该第一图像的深度信息确定第一目标的检测框的深度信息，然后，基于第一目标的检测框在图像坐标系中的位置和第一目标的检测框的深度信息，确定第一目标在第一相机坐标系中的第一坐标；获取摄像装置从采集第二图像到采集第一图像的位姿变化信息，其中的第二图像为第一图像所在图像序列中时序位于第一图像之前、且与第一图像间隔预设帧数的图像，然后根据该位姿变化信息，以第一目标对应的第二图像中的目标作为第二目标，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标，进而，基于第一坐标和第三坐标，确定第一目标从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息。本公开实施例利用计算机视觉技术，基于驾驶场景图像序列确定驾驶场景中目标的运动信息，无需借助于激光雷达，相比于采用激光雷达获取目标运动速度和方向的方式，由于无需通过高频率的发射激光束构建点云数据、在两个点云数据上进行目标检测和目标追踪、计算目标的运动速度和方向，可以避免大量的计算处理，节省处理时间，提高处理效率，有利于满足无人驾驶等对实时性要求较高的场景需求。

图3是本公开另一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。如图3所示，在上述图2所示实施例的基础上，步骤203可包括如下步骤：

步骤2031，从第一图像的深度信息中获取第一目标的检测框中各像素点的深度值。

第一图像的深度信息包括第一图像中各像素点的深度值，可以从第一图像的深度信息中查询第一目标的检测框中各像素点的深度值。

步骤2032，采用预设方式，基于第一目标的检测框中各像素点的深度值，确定第一目标的检测框的深度信息。

第一目标的检测框中包括多个像素点，每个像素都有各自的深度值，基于本实施例，综合基于第一目标的检测框中各像素点的深度值确定第一目标的检测框的深度信息，以便根据该深度信息和第一目标的检测框在图像坐标系中的位置准确确定第一目标在第一相机坐标系中的第一坐标，可以提高第一目标在第一相机坐标系中坐标的准确性。

例如，在其中一些实施方式中，可以选取第一目标的检测框中各像素点的深度值中，出现频率最高的深度值作为第一目标的检测框的深度信息。

在实现本公开发明的过程中，发明人通过研究发现，在实际应用中，由于车辆行驶过程中的振动、光线等原因，可能影响摄像装置采集的图像质量，导致图像中存在一些噪声点，无法准确获取这些噪声点的深度值，导致深度信息中这些噪声点的深度值过大或过小。而场景中同一个目标上各点与摄像装置之间的距离相近，对应像素的深度值也相近，本实施例中，选取第一目标的检测框中各像素点的深度值中，出现频率最高的深度值即最多像素点对应的深度值，可以忽略个别差异较大的像素点的深度值，避免第一图像中噪声像素点的深度值对整个第一目标的检测框的深度信息的影响，提高第一目标的检测框的深度信息的准确性。

或者，在另一些实施方式中，也可以确定第一目标的检测框中各像素点的深度值中，分别处于预设各深度值范围内的像素点的数量，然后，基于深度值处于同一深度值范围内的像素点的数量最多的深度值范围，确定第一目标的检测框的深度信息，例如，以该深度值处于同一深度值范围内的像素点的数量最多的深度值范围的最大值、最小值、最大值和最小值的平均值、或者中值等，作为第一目标的检测框的深度值。

本实施例中，可以预先划分各深度值范围，统计第一目标的检测框中各像素点的深度值中分别处于预设各深度值范围内的像素点的数量，处于某一深度值范围内的像素点的数量越多，对应的第一目标表面上的点越多，基于深度值中处于某一深度值范围内的像素点的数量最多的深度值范围确定第一目标的检测框的深度信息，可以忽略部分差异较大的像素点的深度值，避免第一图像中噪声像素点的深度值对整个第一目标的检测框的深度信息的影响，进而提高第一目标的检测框的深度信息的准确性。

或者，在又一些实施方式中，还可以获取第一目标的检测框中各像素点的深度值的平均值，作为第一目标的检测框的深度信息。

本实施例中，获取第一目标的检测框中各像素点的深度值的平均值作为第一目标的检测框的深度信息，可以快速确定第一目标的检测框的深度信息，并降低个别差异较大的像素点的深度值对整个第一目标的检测框的深度信息的影响，进而提高第一目标的检测框的深度信息的准确性。

图4是本公开又一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。如图4所示，在上述图2或图3所示实施例的基础上，在步骤205之前，还可包括如下步骤：

步骤301，确定第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系。

其中，第一图像中的至少一个目标包括上述第一目标。

本公开实施例中，第一图像中的至少一个目标、第二图像中的至少一个目标，可以是行驶对象外场景中任意感兴趣的目标，例如人、车辆、建筑物等各种类型的目标。其中的第一目标为第一图像中的至少一个目标中的一个目标或者多个目标，第二目标为第二图像中的至少一个目标中的一个目标或者多个目标。

确定第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系，即确定第一图像和第二图像中的目标之间，哪些目标属于同一个目标，在第一图像和第二图像中属于同一个目标的两个目标之间建立对应关系。例如，第一目标为第一图像中需要进行运动信息检测的目标，第二目标即第二图像中与第一目标属于同一个目标的目标。

步骤302，根据上述对应关系，确定第一目标对应的第二图像中的目标作为第二目标。

通过步骤301，确定第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系后，基于该对应关系，可以确定第一图像中的第一目标对应的第二图像中的目标，即为第二目标。

基于本实施例，可以针对两个图像，确定两个图像中目标之间的对应关系，这样，便可以直接根据对应关系确定第一目标对应的第二图像中的第二目标，从而确定第二目标的效率。

可选地，在其中一些实施方式中，步骤301中，可以对第二图像中的至少一个目标的检测框进行跟踪，得到第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系。

基于本实施例，可以通过对目标的检测框进行跟踪的方式，得到不同图像中目标之间的对应关系。

图5是本公开再一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。如图5所示，在另一些实施方式中，步骤301可包括如下步骤：

步骤3011，获取第二图像到第一图像的光流信息。

本公开实施例中，光流信息用于表示视频或图像序列中图像之间像素点的运动或时序信息。第二图像到第一图像的光流信息，即第二图像到第一图像中的像素的二维运动场，用于表示第二图像中的像素点移动到第一图像中的移动情况。在其中一些实施方式中，可以利用视觉技术，例如，利用开源计算机视觉库(Open Source Computer Vision Library，OpenCV)方式，例如，将第二图像和第一图像输入基于OpenCV的模型中，由该模型输出第二图像和第一图像之间的光流信息。

步骤3012，分别针对第二图像中的至少一个目标中各目标的检测框，基于光流信息和第二图像中的目标的检测框，确定第二图像中的目标的检测框中像素点转移到第一图像中的位置。

步骤3013，获取第二图像中的目标的检测框中像素点转移到第一图像中的位置的集合与第一图像中的各检测框之间的交并比(Intersection over Union，IoU)，即该集合与第一图像中的各检测框之间的覆盖比例。

可选地，在其中一些实施方式中，可以获取上述集合与第一图像中的各检测框之间的交集I、上述集合与第一图像中的各检测框之间的并集U，分别计算上述集合与第一图像中的各检测框之间的交集I与并集U之间的比值，作为集合与第一图像中的各检测框之间的覆盖比例。

步骤3014，建立第二图像中的目标与第一图像中交并比最大的检测框对应目标之间的对应关系，即以该第一图像中交并比最大的检测框对应目标作为该第二图像中的目标对应的目标。

基于本实施例，基于两个图像之间的光流信息确定第二图像中某一目标的检测框中像素点转移到第一图像中的位置的集合，分别获取该集合与第一图像中的各检测框之间的交并比，交并比越大，说明第一图像中的该检测框与上述集合中像素的重复比例越大，第一图像中各检测框中与该集合交并比最大的检测框为第二图像中该目标的检测框的概率越大，通过两个图像之间的光流信息和第二图像中的目标的检测框中像素点转移到第一图像中的位置的集合与第一图像中的各检测框之间的交并比来确定两个图像中目标之间的对应关系，可以较准确、客观的确定两个图像中目标之间的对应关系。

图6是本公开还一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。如图6所示，在上述图2或图3所示实施例的基础上，步骤206可包括如下步骤：

步骤2061，获取第三坐标到第一坐标形成的向量。

其中，第三坐标到第一坐标形成的向量即从第三坐标到第一坐标形成的位移(displacement)向量，即从第三坐标到第一坐标形成的有向线段，该位移向量的大小，是从第三坐标到第一坐标的直线距离，该位移向量的方向是从第三坐标指向第一坐标。

步骤2062，基于第三坐标到第一坐标形成的向量的方向，确定第一目标在从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动方向，基于第三坐标到第一坐标形成的向量的范数与上述时间范围确定第一目标在上述时间范围内的运动速度，例如，可以获取第三坐标到第一坐标形成的向量的范数与上述时间范围的比值，作为第一目标在上述时间范围内的运动速度。其中，第一目标在上述时间范围内的运动方向和运动速度，构成第一目标在上述时间范围内的运动信息。

基于本实施例，可以基于第三坐标到第一坐标形成的向量，准确确定第一目标在上述对应时间范围内的运动方向和运动速度，从而获知第一目标的运动状态。

图7是本公开又一示例性实施例提供的对目标的运动信息进行检测的方法的流程示意图。如图7所示，在上述图2-图6所示实施例的基础上，在步骤205之前，还可包括如下步骤：

步骤401，对第二图像进行目标检测，得到第二目标的检测框。

步骤402，获取第二图像在第二相机坐标系中的深度信息。

另外，在确定第二图像在第二相机坐标系中的深度信息之后，根据该第二图像在第二相机坐标系中的深度信息，确定第二目标的检测框的深度信息。其中，第二目标的检测框的深度信息，指的是第二目标的检测框在第二相机坐标系中的深度信息。

步骤403，基于第二目标的检测框在图像坐标系中的位置和第二目标的检测框的深度信息，确定第二目标在第二相机坐标系中的第二坐标。

基于本实施例，可以预先针对图像序列中时序位于第一图像之前的第二图像进行目标检测和获取深度信息，并由此确定第二目标在第二相机坐标系中的第二坐标，以便后续直接对该第二目标的第二坐标进行转换处理来确定第一目标在对应时间范围内的运动信息，从而提高场景中目标运动信息的检测效率。

可选地，在其中一些实施方式中，基于上述图7所示实施例，确定第二目标在所述第二相机坐标系中的第二坐标后，还可以存储第二目标的第二坐标，以便后续直接查询使用，从而提高场景中目标运动信息的检测效率。

可选地，还可以以第一图像作为新的第二图像，以图像序列中时序位于第一图像之后的第三图像作为新的第一图像，执行本公开上述任一实施例所述对目标的运动信息进行检测的方法，确定第三图像中目标从上述第一图像的采集时刻到第三图像的采集时刻对应时间范围内的运动信息。

基于本实施例，可以针对图像序列逐帧或间隔若干帧检测图像中目标的运动信息，从而实现在行驶对象的行驶过程中，对行驶对象外场景中目标的运动状态的持续检测，以便根据目标的运动状态控制行驶对象的行驶，保障行驶对象的安全行驶。

图8是本公开一示例性实施例提供的对目标的运动信息进行检测的方法的一个应用流程示意图。以下以一个应用实施例为例，对本公开实施例对目标的运动信息进行检测的方法进行进一步说明。如图8所示，该应用实施例包括：

步骤501，在行驶对象行驶过程中，行驶对象上的摄像装置采集该行驶对象外场景的图像，得到图像序列。

以该图像序列中，t-1时刻采集的图像作为第二图像，表示为I _t-1，执行步骤502～步骤505以及步骤507；以该图像序列中，t时刻采集的图像作为第一图像，表示为I _t，执行步骤508～步骤511。针对摄像装置执行步骤506。

步骤502，采用预设目标检测框架，对第二图像I _t-1进行目标检测，得到第二图像I _t-1中目标的检测框，由于检测到的目标的检测框可能为一个或多个，以检测框集合BBox _t-1来表示检测到的第二图像I _t-1中目标的检测框，t-1时刻编号为k的目标(以下称为：目标k)的检测框描述为：

其中，(x，y)表示目标k的检测框在图像坐标系中的坐标，w、h分别表示目标k的检测框的宽和高。

步骤503，采用预设深度估计方式，对第二图像I _t-1进行深度估计，得到第二图像I _t-1对应的深度图D _t-1。

其中，深度图D _t-1中包括第二图像I _t-1中不同像素点在t-1时刻对应的第二相机坐标系中的深度值，第二图像I _t-1中像素点(i，j)在第二相机坐标系中的深度值可以表示为

步骤504，从第二图像I _t-1对应的深度图D _t-1中获取第二图像I _t-1中各目标的检测框中各像素点的深度值，并采用预设方式，基于第二图像I _t-1中各目标的检测框中各像素点的深度值，确定第二图像I _t-1中各目标的检测框的深度值。

其中，第二图像I _t-1中各目标的检测框中各像素点的深度值，指的是第二图像I _t-1中各目标的检测框中各像素点在第二相机坐标系中的深度值。

继续以t-1时刻目标k为例，从第二图像I _t-1对应的深度图D _t-1中，获取目标k的检测框

中各像素点的深度值，然后采用本公开上述实施例的方式，基于目标k的检测框

中各像素点的深度值确定目标k的检测框

的深度值

其中，步骤503～步骤504与步骤502可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤505，分别针对第二图像I _t-1中各目标的检测框，基于各目标的检测框在图像坐标系中的位置和各目标的检测框的深度值，确定各目标在t-1时刻对应的第二相机坐标系中的3D坐标(第二坐标)。

例如，继续以t-1时刻目标k为例，可以通过如下方式得到目标k的检测框在t-1时刻对应的第二相机坐标系中的3D坐标

其中，K为摄像装置的内参，用于表示摄像装置自身属性，可以预先通过标定获得。

步骤506，获取摄像装置从t-1时刻到t时刻的位姿变化矩阵T _t-1→t。

其中，步骤506与步骤502～步骤505、以及步骤508～513可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤507，根据上述位姿变化矩阵T _t-1→t，分别将第二图像I _t-1中各目标在第二相机坐标系中的第二坐标转换到第一相机坐标系中的3D坐标(即上述第三坐标)。

例如，继续以t-1时刻目标k为例，可以通过如下方式将第二图像I _t-1中目标k的检测框的第二坐标

转换到第三坐标

步骤508，采用预设目标检测框架，对第一图像I _t进行目标检测，得到第一图像I _t中目标(即上述第一目标)的检测框，由于检测到的目标的检测框可能为一个或多个，以检测框集合BBox _t来表示第一目标的检测框，t时刻第一目标中编号为k ^～的目标(以下称为：目标k ^～)的检测框描述为：

其中，(x，y)表示目标p的检测框在图像坐标系中的坐标，w、h分别表示目标k ^～的检测框的宽和高。

步骤509，采用预设深度估计方式，对第一图像I _t进行深度估计，得到第一图像I _t对应的深度图D _t。

其中，深度图D _t中包括第一图像I _t中不同像素点在t时刻对应的第一相机坐标系中的深度值，第一图像I _t中像素点(i，j)在第一相机坐标系中的深度值可以表示为

步骤510，从第一图像I _t对应的深度图D _t中获取第一目标的检测框中各像素点的深度值，并采用预设方式，基于第一目标的检测框中各像素点的深度值，确定第一目标的检测框的深度值。

其中，第一目标的检测框的深度值，指的是第一目标的检测框在第一相机坐标系中的深度值。

继续以t时刻目标k ^～为例，从第一图像I _t对应的深度图D _t中，获取目标k ^～的检测框

中各像素点的深度值，然后采用本公开上述实施例的方式，基于目标k ^～的检测框

中各像素点的深度值确定目标k的检测框

的深度值

其中，步骤509～步骤510与步骤508可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤511，基于第一目标的检测框在图像坐标系中的位置和第一目标的检测框的深度值，确定第一目标在t时刻对应的第一相机坐标系中的第一坐标。

其中的第一目标可以是一个目标，也可以是多个目标，第一目标是多个目标时，分别针对第一目标中的每个目标，基于每个目标的检测框在图像坐标系中的位置和深度值，确定该目标的检测框在t时刻对应的第一相机坐标系中的3D坐标(即上述第一坐标)。例如，继续以t时刻目标k ^～为例，可以通过如下方式得到目标k ^～的检测框在t时刻对应的第一相机坐标系中的3D坐标

步骤512，确定第一图像I _t-1中第一目标和第二图像I _t中目标之间的对应关系。

步骤513，根据上述对应关系，确定与第一目标对应的第二图像中的目标作为第二目标。

其中的第二目标可以是一个目标，也可以是多个目标。与第一目标相应地，第二目标可以为一个目标，也可以为多个目标，多个目标可以为相同类型的目标(例如都为人)，也可以为不同类型的目标(例如包括人、车辆、建筑物等)。

其中，步骤512～步骤513可以通过本公开上述图4～图5任一实施例所述的方式，确定与第一目标对应的第二图像中的第二目标，

其中，步骤512～步骤513在通过步骤502和步骤508之后执行即可，与本应用实施例中的上述其他步骤之间可以同时执行，也可以以任意时间顺序执行，本公开实施例对此不做限制。

步骤514，基于第一目标的第一坐标和对应的第二目标的第三坐标，确定第一目标在从t-1时刻到t时刻对应时间范围Δ _t内的运动信息。

其中的第一目标可以是一个目标，也可以是多个目标，第一目标是多个目标时，分别针对每个第一目标，执行该步骤514。

假设第二图像I _t-1中的第二目标k与第一图像I _t中的第一目标k ^～对应，根据第一目标k ^～在t时刻的第一坐标

与对应的第二目标k在t-1时刻的第三坐标

确定第一目标k ^～在对应时间范围Δ _t内的运动信息。具体来说，获取第三坐标

到第一坐标

形成的向量，以该向量的方向作为第一目标k ^～在对应时间范围Δ _t内的运动方向，表示为：

获取第三坐标

到第一坐标

形成的向量的范数

通过如下方式获取第一目标k ^～在对应时间范围Δ _t内的运动速度v：

图9是本公开一示例性实施例提供的基于目标的运动信息控制行驶对象的方法的流程示意图。本实施例可应用在车辆、机器人、玩具车等行驶对象上。如图9所示，该实施例的基于目标的运动信息控制行驶对象的方法包括如下步骤：

步骤601，在行驶对象行驶过程中，通过行驶对象上的摄像装置采集行驶对象外场景的图像序列。

步骤602，以图像序列中的至少一频帧图像作为第一图像、以图像序列中位于所述第一图像之前、且与第一图像间隔预设帧数的至少一帧图像作为第二图像，利用本公开上述任一实施例行驶中的运动信息检测方法的方法，确定行驶对象外场景中目标的运动信息。

步骤603，根据上述目标的运动信息，生成用于控制行驶对象行驶状态的控制指令，以便控制行驶对象的行驶状态。

基于本实施例，可以在行驶对象行驶过程中，利用本公开任一实施例所述行驶中的运动信息检测方法确定驾驶场景中目标的运动信息，进而根据该目标的运动信息生成用于控制行驶对象行驶状态的控制指令，从而实现了利用计算机视觉技术检测驾驶场景中目标的运动信息、对行驶对象的智能驾驶控制，有利于满足无人驾驶场景中对行驶对象的实时智能驾驶控制，以保障行驶对象的安全行驶。

可选地，在其中一些实施方式中，上述控制指令例如可以包括但不限于以下至少之一：用于保持运动速度大小的控制指令、用于调整运动速度大小的控制指令(例如减速行驶的控制指令、加速行驶的控制指令等)、用于保持运动方向的控制指令、用于调整运动方向的控制指令(例如左转向的控制指令、右转向的控制指令、向左侧车道并线的控制指令、或者向右侧车道并线的控制指令等)、用于预警提示的控制指令(例如请注意前方目标等的提示消息)、用于进行驾驶模式切换的控制指令(例如切换为自动巡航驾驶模式的控制指令、切换为人工驾驶模式的控制指令等)等等。本公开实施例的控制指令可以根据实际需求设置，而不限于上述控制指令。

本公开上述任一实施例提供的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法，可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开上述任一实施例提供的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法，可以由处理器执行，如处理器通过调用存储器存储的相应指令，来执行本公开上述任一实施例提供的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法。下文不再赘述。

示例性装置

图10是本公开一示例性实施例提供的对目标的运动信息进行检测的装置的结构示意图。该对目标的运动信息进行检测的装置可以设置于终端设备、服务器等电子设备中，也可以设置于车辆、机器人、玩具车等行驶对象上，执行本公开上述任一实施例的对目标的运动信息进行检测的方法。如图10所示，该对目标的运动信息进行检测的装置包括：检测模块701、第一获取模块702、第一确定模块703、第二确定模块704、第二获取模块705、转换模块706和第三确定模块707。其中：

检测模块701，用于对第一图像进行目标检测，得到第一目标的检测框，其中的第一图像为行驶对象上的摄像装置在行驶对象行驶过程中采集的行驶对象外场景的图像。

第一获取模块702，用于获取第一图像在对应的第一相机坐标系中的深度信息。

第一确定模块703，用于根据第一获取模块702获取的第一图像的深度信息，确定第一目标的检测框的深度信息。

第二确定模块704，用于基于检测模块701得到的第一目标的检测框在图像坐标系中的位置和第一确定模块703确定的第一目标的检测框的深度信息，确定第一目标在第一相机坐标系中的第一坐标。

第二获取模块705，用于获取摄像装置从采集第二图像到采集第一图像的位姿变化信息。其中，第二图像为第一图像所在图像序列中时序位于第一图像之前、且与第一图像间隔预设帧数的图像。

转换模块706，用于根据第二获取模块705获取的位姿变化信息，将第二目标在第二图像对应的第二相机坐标系中的第二坐标转换到第一相机坐标系中的第三坐标。其中，第二目标为第一目标对应的第二图像中的目标。

第三确定模块707，用于基于第二确定模块704确定的第一坐标和转换模块706转换到的第三坐标，确定第一目标从第二图像的采集时刻到第一图像的采集时刻对应时间范围内的运动信息。

基于本实施例，利用计算机视觉技术，基于在行驶对象行驶过程中采集该行驶对象外场景的确定驾驶场景中目标的运动信息，无需借助于激光雷达，相比于采用激光雷达获取目标运动速度和方向的方式，由于无需通过高频率的发射激光束构建点云数据、在两个点云数据上进行目标检测和目标追踪、计算目标的运动速度和方向，可以避免大量的计算处理，节省处理时间，提高处理效率，有利于满足无人驾驶等对实时性要求较高的场景需求。

图11是本公开另一示例性实施例提供的对目标的运动信息进行检测的装置的结构示意图。如图11所示，在上述图11所示实施例的基础上，该实施例对目标的运动信息进行检测的装置中，第一确定模块703包括：第一获取单元7031，用于从第一图像的深度信息中获取第一目标的检测框中各像素点的深度值；第一确定单元7032，用于采用预设方式，基于第一获取单元7031获取的第一目标的检测框中各像素点的深度值，确定第一目标的检测框的深度信息。

可选地，在其中一些实施方式中，第一确定单元7032，具体用于选取第一获取单元7031获取的第一目标的检测框中各像素点的深度值中，出现频率最高的深度值作为第一目标的检测框的深度信息。

或者，在另一些实施方式中，第一确定单元7032，具体用于确定第一目标的检测框中各像素点的深度值中，分别处于预设各深度值范围内的像素点的数量；基于深度值处于同一深度值范围内的像素点的数量最多的深度值范围，确定第一目标的检测框的深度信息。

或者，在又一些实施方式中，第一确定单元7032，具体用于获取第一目标的检测框中各像素点的深度值的平均值，作为第一目标的检测框的深度信息。

可选地，再参见图11，在上述实施例对目标的运动信息进行检测的装置中，还可以包括：第四确定模块708和第五确定模块709。其中：

第四确定模块708，用于确定第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系；其中，第一图像中的目标包括上述第一目标。

第五确定模块709，用于根据第四模块708确定的对应关系，确定第一目标对应的第二图像中的目标作为上述第二目标。

可选地，在其中一些实施方式中，第四确定模块708，具体用于对第二图像中的至少一个目标的检测框进行跟踪，得到第一图像中的至少一个目标与第二图像中的至少一个目标之间的对应关系。

或者，在另一些实施方式中，第四确定模块708可以包括：第二获取单元7081，用于获取第二图像到第一图像的光流信息；第二确定单元7082，用于分别针对第二图像中的至少一个目标中各目标的检测框，基于上述光流信息和第二图像中的目标的检测框，确定第二图像中的目标的检测框中像素点转移到第一图像中的位置；第三获取单元7083，用于获取目标的检测框中像素点转移到第一图像中的位置的集合与第一图像中的各检测框之间的交并比；建立单元7084，用于建立第二图像中的目标与第一图像中交并比最大的检测框对应目标之间的对应关系。

可选地，再参见图11，在其中一些实施方式中，第三确定模块707包括：第四获取单元7071，用于获取第三坐标到第一坐标形成的向量；第三确定单元7072，用于基于第四获取单元7071获取的向量的方向，确定第一目标在上述时间范围内的运动方向，基于上述向量的范数与上述时间范围确定第一目标在上述时间范围内的运动速度。

可选地，在上述各实施例对目标的运动信息进行检测的装置中，检测模块701，还可用于对第二图像进行目标检测，得到第二目标的检测框。第一获取模块702，还可用于获取第二图像在第二相机坐标系中的深度信息。第二确定模块704，还可用于基于检测模块701得到的第二目标的检测框在图像坐标系中的位置和第一确定模块703确定的第二目标的检测框的深度信息，确定第二目标在第二相机坐标系中的第二坐标。

可选地，再参见图11，在上述实施例对目标的运动信息进行检测的装置中，还可以包括：存储模块710，用于存储第二确定模块704确定的第二目标的所述第二坐标。

可选地，在上述各实施例对目标的运动信息进行检测的装置中，还可以以第一图像作为新的第二图像，以图像序列中时序位于第一图像之后的第三图像作为新的第一图像，由对目标的运动信息进行检测的装置中的各模块执行相应的操作，以确定第三图像中目标从上述第一图像的采集时刻到第三图像的采集时刻对应时间范围内的运动信息。

图12是本公开一示例性实施例提供的基于目标的运动信息控制行驶对象的装置的结构示意图。该行驶中的基于目标的运动信息控制行驶对象的装置可以设置于车辆、机器人、玩具车等行驶对象上，来对行驶对象进行基于目标的运动信息控制行驶对象的基于目标的运动信息控制行驶对象的。如图12所示，该基于目标的运动信息控制行驶对象的装置包括：摄像装置801、运动信息检测装置802和控制装置803。其中：

摄像装置801，设置于行驶对象上，用于在行驶对象行驶过程中，采集行驶对象外场景的图像序列。

运动信息检测装置802，用于以上述图像序列中的至少一频帧图像作为第一图像、以上述图像序列中位于第一图像之前、且与第一图像间隔预设帧数的至少一帧图像作为第二图像，确定行驶对象外场景中目标的运动信息。该运动信息检测装置802具体可以通过上述图10-图11中任一实施例的对目标的运动信息进行检测的装置实现。

控制装置803，用于根据运动信息检测装置802检测到的目标的运动信息，生成用于控制行驶对象行驶状态的控制指令。

基于本实施例，在行驶对象行驶过程中，通过行驶对象上的摄像装置采集行驶对象外场景的图像序列，以图像序列中的至少一频帧图像作为第一图像、以图像序列中位于第一图像之前、且与第一图像间隔预设帧数的至少一帧图像作为第二图像，利用本公开任一实施例所述对目标的运动信息进行检测的方法确定驾驶场景中目标的运动信息，进而根据该目标的运动信息生成用于控制行驶对象行驶状态的控制指令，从而实现了利用计算机视觉技术检测驾驶场景中目标的运动信息、对行驶对象的智能驾驶控制，有利于满足无人驾驶场景中对行驶对象的实时智能驾驶控制，以保障行驶对象的安全行驶。

可选地，在其中一些实施方式中，上述控制指令例如可以包括但不限于以下至少之一：用于保持运动速度大小的控制指令、用于调整运动速度大小的控制指令、用于保持运动方向的控制指令、用于调整运动方向的控制指令、用于预警提示的控制指令、用于进行驾驶模式切换的控制指令等等。

示例性电子设备

下面，参考图13来描述根据本公开实施例的电子设备。图13图示了根据本公开实施例的电子设备的框图。如图13所示，电子设备包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(Central Processing Unit，CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如图像的深度信息、目标的检测框的深度信息、摄像装置的位姿变化信息等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，或者，该输入装置13可以是通信网络连接器。

此外，该输入设备13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的第一目标从第二图像的采集时刻到第一图像的采集时刻对应的时间范围内的运动信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图13中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的对目标的运动信息进行检测的方法或者基于目标的运动信息控制行驶对象的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器((Erasable Programmable Read-Only Memory，EPROM)或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

一种对目标的运动信息进行检测的方法，包括：

对第一图像进行目标检测，得到第一目标的检测框，所述第一图像为行驶对象上的摄像装置在所述行驶对象行驶过程中采集的所述行驶对象外场景的图像；

获取所述第一图像在对应的第一相机坐标系中的深度信息；

根据所述第一图像的深度信息，确定所述第一目标的检测框的深度信息，并基于所述第一目标的检测框在图像坐标系中的位置和所述第一目标的检测框的深度信息，确定所述第一目标在所述第一相机坐标系中的第一坐标；

获取所述摄像装置从采集第二图像到采集所述第一图像的位姿变化信息；其中，所述第二图像为所述第一图像所在图像序列中时序位于所述第一图像之前、且与所述第一图像间隔预设帧数的图像；

根据所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标；其中，所述第二目标为所述第一目标对应的第二图像中的目标；

基于所述第一坐标和所述第三坐标，确定所述第一目标从所述第二图像的采集时刻到所述第一图像的采集时刻对应时间范围内的运动信息。
根据权利要求1所述的方法，其中，所述根据所述第一图像在对应的第一相机坐标系中的深度信息，确定所述第一目标的检测框的深度信息，包括：

从所述第一图像的深度信息中获取所述第一目标的检测框中各像素点的深度值；

采用预设方式，基于所述第一目标的检测框中各像素点的深度值，确定所述第一目标的检测框的深度信息。
根据权利要求1所述的方法，其中，所述根据所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标之前，还包括：

确定所述第一图像中的至少一个目标与所述第二图像中的至少一个目标之间的对应关系；

所述第一图像中的至少一个目标包括所述第一目标；

根据所述对应关系，确定所述第一目标对应的第二图像中的目标作为所述第二目标。
根据权利要求3所述的方法，其中，所述确定所述第一图像中的至少一个目标与所述第二图像中的至少一个目标之间的对应关系，包括：

对所述第二图像中的至少一个目标的检测框进行跟踪，得到所述第一图像中的至少一个目标与所述第二图像中的至少一个目标之间的对应关系；

或者，

获取所述第二图像到所述第一图像的光流信息；

分别针对所述第二图像中的至少一个目标中各目标的检测框，基于所述光流信息和所述第二图像中的目标的检测框，确定所述第二图像中的目标的检测框中像素点转移到所述第一图像中的位置；

获取所述目标的检测框中像素点转移到所述第一图像中的位置的集合与所述第一图像中的各检测框之间的交并比；

建立所述第二图像中的目标与所述第一图像中交并比最大的检测框对应目标之间的对应关系。
根据权利要求1所述的方法，其中，所述基于所述第一坐标和所述第三坐标，确定所述第一目标从所述第二图像的采集时刻到所述第一图像的采集时刻对应时间范围内的运动信息，包括：

获取所述第三坐标到所述第一坐标形成的向量；

基于所述向量的方向确定所述第一目标在所述时间范围内的运动方向，基于所述向量的范数与所述时间范围确定所述第一目标在所述时间范围内的运动速度，其中，所述第一目标在所述时间范围内的运动信息包括：所述第一目标在所述时间范围内的运动方向和运动速度。
根据权利要求1-5任一所述的方法，其中，所述根据所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标之前，还包括：

对所述第二图像进行目标检测，得到所述第二目标的检测框；

获取所述第二图像在所述第二相机坐标系中的深度信息，并根据所述第二图像在所述第二相机坐标系中的深度信息，确定所述第二目标的检测框的深度信息；

基于所述第二目标的检测框在图像坐标系中的位置和所述第二目标的检测框的深度信息，确定所述第二目标在所述第二相机坐标系中的第二坐标。
一种基于目标的运动信息控制行驶对象的方法，包括：

在行驶对象行驶过程中，通过所述行驶对象上的摄像装置采集所述行驶对象外场景的图像序列；

以所述图像序列中的至少一帧图像作为第一图像、以所述图像序列中位于所述第一图像之前、且与所述第一图像间隔预设帧数的至少一帧图像作为第二图像，利用权利要求1-7任一所述的方法，确定所述场景中目标的运动信息；

根据所述目标的运动信息生成用于控制所述行驶对象行驶状态的控制指令。
一种对目标的运动信息进行检测的装置，包括：

检测模块，用于对第一图像进行目标检测，得到第一目标的检测框，所述第一图像为行驶对象上的摄像装置在所述行驶对象行驶过程中采集的所述行驶对象外场景的图像；

第一获取模块，用于获取所述第一图像在对应的第一相机坐标系中的深度信息；

第一确定模块，用于根据所述第一获取模块获取的所述第一图像的深度信息，确定所述第一目标的检测框的深度信息；

第二确定模块，用于基于所述检测模块得到的所述第一目标的检测框在图像坐标系中的位置和所述第一确定模块确定的所述第一目标的检测框的深度信息，确定所述第一目标在所述第一相机坐标系中的第一坐标；

第二获取模块，用于获取摄像装置从采集第二图像到采集所述第一图像的位姿变化信息；其中，所述第二图像为所述第一图像所在图像序列中时序位于所述第一图像之前、且与所述第一图像间隔预设帧数的图像；

转换模块，用于根据所述第二获取模块获取的所述位姿变化信息，将第二目标在所述第二图像对应的第二相机坐标系中的第二坐标转换到所述第一相机坐标系中的第三坐标；其中，所述第二目标为所述第一目标对应的第二图像中的目标；

第三确定模块，用于基于所述第二确定模块确定的所述第一坐标和所述转换模块转换到的所述第三坐标，确定所述第一目标从所述第二图像的采集时刻到所述第一图像的采集时刻对应时间范围内的运动信息。
一种基于目标的运动信息控制行驶对象的装置，包括：

摄像装置，设置于行驶对象上，用于在行驶对象行驶过程中，采集所述行驶对象外场景的图像序列；

运动信息检测装置，用于以所述图像序列中的至少一频帧图像作为第一图像、以所述图像序列中位于所述第一图像之前、且与所述第一图像间隔预设帧数的至少一帧图像作为第二图像，确定所述场景中目标的运动信息；所述运动信息检测装置包括权利要求10-16任一所述的装置；

控制装置，用于根据所述运动信息检测装置检测到的所述目标的运动信息，生成用于控制所述行驶对象行驶状态的控制指令。
一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。
一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。