WO2022033076A1

WO2022033076A1 - 目标检测方法、装置、设备、存储介质及程序产品

Info

Publication number: WO2022033076A1
Application number: PCT/CN2021/090359
Authority: WO
Inventors: 马新柱; 刘诗男; 曾星宇; 欧阳万里
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-08-08
Filing date: 2021-04-27
Publication date: 2022-02-17
Also published as: KR20220024193A; CN111931643A

Abstract

本公开实施例提供了一种目标检测方法、装置、设备、存储介质及程序产品，其中，该目标检测方法包括：获取图像采集部件采集的图像，以及该图像采集部件的内部参数；基于采集到的图像和内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息；根据采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像；三维信息图像中的像素点的排序与采集到的图像中的像素点的排序相同；基于三维信息图像，确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

Description

目标检测方法、装置、设备、存储介质及程序产品

相关申请的交叉引用

本公开基于申请号为202010792241.X、申请日为2020年08月08日、申请名称为“一种目标检测方法、装置、设备及存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以全文引入的方式引入本公开。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、设备、存储介质及程序产品。

背景技术

目标检测是指利用计算机技术检测与识别出图像或视频中的感兴趣目标，比如常见的行人检测、障碍物检测等，随着计算机技术的发展和计算机视觉原理的广泛应用，基于深度学习的目标检测技术已经广泛应用于多种领域，比如机器人领域、自动驾驶领域、行为识别领域等。

在目标检测技术中，二维目标检测技术发展相对比较成熟，相较于二维目标检测任务，三维目标检测任务难度更大，复杂度更高，并且意义重大。如何提供一种简便有效的三维目标检测方式，为亟需解决的问题。

发明内容

本公开实施例至少提供一种目标检测方案。

第一方面，本公开实施例提供了一种目标检测方法，包括：

获取图像采集部件采集的图像，以及所述图像采集部件的内部参数；基于采集到的图像和所述内部参数，确定所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息；根据所述采集到的图像和所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与所述采集到的图像对应的三维信息图像；所述三维信息图像中的像素点的排序与所述采集到的图像中的像素点的排序相同；基于所述三维信息图像，确定所述采集到的图像中包含的目标对象在所述世界坐标系下的三维检测信息。

第二方面，本公开实施例提供了一种目标检测装置，包括：

获取模块，配置为获取图像采集部件采集的图像，以及所述图像采集部件的内部参数；确定模块，配置为基于采集到的图像和所述内部参数，确定所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息；生成模块，配置为根据所述采集到的图像和所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与所述采集到的图像对应的三维信息图像；所述三维信息图像中的像素点的排序与所述采集到的图像中的像素点的排序相同；检测模块，配置为基于所述三维信息图像，确定所述采集到的图像中包含的目标对象在所述世界坐标系下的三维检测信息。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的目标检测方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的目标检测方法的步骤。

第五方面，本公开实施例提供了一种计算机程序产品，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行如第一方面所述的目标检测方法的步骤。

本公开实施例中，在图像采集部件采集到图像后，可以基于该采集到的图像得到图像结构相同，且增加每个像素点在世界坐标系下的三维坐标信息的三维信息图像，基于该三维信息图像可以完成针对目标对象的三维目标检测，图像采集部件相比雷达装置，具有便携性高、成本低的优点，且相比雷达装置采集的点云数据，图像采集部件在近距离区域内也能够获取到视野范围内完整的目标对象，包括体积较小的目标对象，因此能够准确地完成针对近距离区域的目标对象的三维目标检测。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1A示出了目标对象在三维空间中的检测结果示意图；

图1B示出了目标对象在二维图像上的检测结果示意图；

图1C示出了本公开实施例所提供的一种目标检测方法的流程图；

图2示出了本公开实施例所提供的一种确定像素点在世界坐标系下三维坐标信息的方法流程图；

图3示出了本公开实施例所提供的一种确定像素点在世界坐标系下的三维坐标信息的场景示意图；

图4示出了本公开实施例所提供的第一种生成三维信息图像的方法流程图；

图5示出了本公开实施例所提供的第二种生成三维信息图像的方法流程图；

图6示出了本公开实施例所提供的一种确定目标对象的三维检测信息的方法流程图；

图7示出了本公开实施例所提供的一种确定目标对象的三维检测信息的方法流程图；

图8示出了本公开实施例所提供的一种确定目标对象的三维检测信息的神经网络示意图；

图9A示出了本公开实施例所提供的一种神经网络的训练方法示意图；

图9B示出了本公开实施例所提供的一种神经网络的训练方法示意图；

图10示出了本公开实施例所提供的一种目标车辆的控制方法流程图；

图11A示出了本公开实施例所提供的一种目标检测方法的逻辑流程图；

图11B示出了本公开实施例所提供的一种待检测图像的示意图；

图11C示出了本公开实施例所提供的一种深度图像的示意图；

图11D示出了本公开实施例所提供的一种三维信息图像的示意图；

图12示出了本公开实施例所提供的一种目标检测装置的结构示意图；

图13示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

目标检测是指利用计算机技术检测与识别出图像或视频中的感兴趣目标，比如常见的行人检测、障碍物检测等。在目标检测中，包含二维目标检测和三维目标检测：二维目标检测结果可以标记出图像包含的目标对象的二维检测框，三维目标检测结果可以标记出图像中包含的目标对象的三维检测框，相比二维目标检测，三维目标检测的复杂度更高，意义更加重大。

计算机视觉中，三维目标检测是一个重要的任务。该任务需要检测目标在三维空间内的坐标和形状以及朝向。由于图像数据缺少深度信息，基于图像的三维检测系统一般需要对目标图像先进行深度估计，以获取图像中每个像素的深度信息，然后以RGB图像和估计出的深度图作为系统的输入，计算图像中目标的三维信息。如图1A和1B所示，分别为目标对象(汽车)在三维空间中的检测结果以及其在二维图像上的检测结果。其中矩形框11为检测结果，矩形框12为手工标注结果。

相关技术中基于图像的三维检测方法主要存在以下不足：一方面图像数据缺少对应的深度信息，无法有效地估计出目标的三维信息(位置、形状、朝向)；另一方面，图像数据与三维空间分属于不同坐标系，直接利用图像数据计算三维空间中的结果会产生较大误差，导致性能严重下降；再一方面，利用相机参数可以将深度数据映射到三维空间，然而这种方法会将图像像素映射为三维点云。会导致额外的问题产生：例如，整个系统会包含不同形态的数据(图像数据和点云数据)，导致系统中必须包含不同的模块分别处理这两种数据，无法对其进行统一处理。再如，两种不同形态的数据需要分阶段训练，会导致模型无法需要整体最优解。另外，目前面向点云的深度学习技术的发展远远落后于面向图像的深度学习技术，这会使得系统中处理点云数据的模块成为限制整个检测系统性能的瓶颈。

在基于雷达装置采集点云图像的方式对目标对象进行三维目标检测时，需要针对进行检测的物体安装雷达装置，比如针对进行三维目标检测的机器人安装雷达装置，通过安装雷达装置进行三维目标检测的方式成本较高且便携性较差。另外，通过雷达装置采集点云图像的方式进行三维目标检测时，由于雷达装置存在雷达盲区，且存在分辨率较低的问题，这样针对近距离的雷达盲区，或者体积较小的目标对象，可能无法生成包含目标对应的有效点云数据。因此雷达装置采集点云图像的方式进行目标检测时存在成本较高、便携性差、针对近距离区域或者体积较小的物体进行检测时准确度较低的问题。

基于上述研究，本公开实施例提供了一种目标检测方法，在获取到图像采集部件采集的图像后，可以通过采集到的图像和图像采集部件的内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息，然后按照采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，得到像素点排序与采集到的图像中的像素点排序一致的三维信息图像。因为像素点的排序不变，所以三维信息图像仍然可以保留与采集到的图像相同的图像结构，基于此可以有效确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

可见，本公开实施例在进行目标检测时，在图像采集部件采集到的图像后，可以基于该采集到的图像得到图像结构相同，且增加每个像素点在世界坐标系下的三维坐标信息的三维信息图像。基于该三维信息图像可以完成针对目标对象的三维目标检测。图像采集部件相比雷达装置，具有便携性高、成本低的优点；且相比雷达装置采集的点云数据，图像采集部件在近距离区域内也能够获取到视野范围内完整的目标对象，包括体积较小的目标对象，因此能够准确地完成针对近距离区域的目标对象的三维目标检测。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种目标检测方法进行详细介绍。本公开实施例所提供的目标检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备。在一些可能的实现方式中，该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1C所示，为本公开实施例提供的一种目标检测方法的流程图，该目标检测方法包括以下步骤S101至S104，其中：

步骤S101，获取图像采集部件采集的图像，以及该图像采集部件的内部参数。

示例性地，图像采集部件可以包括可见光(红：Red；绿：Green；蓝：Blue，RGB)摄像机或者RGB相机等可以采集到RGB图像的相机部件，对应的采集到的图像可以为RGB图像。

示例性地，图像采集部件的内部参数可以包括用于将图像坐标系向相机坐标系进行转换的相机内参矩阵中的部分或全部参数，本公开实施例在此不作限定。

步骤S102，基于采集到的图像和内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息。

示例性地，基于采集到的图像可以建立图像坐标系，基于构建的图像坐标系可以确定每个像素点在图像坐标系下的像素坐标值，基于图像坐标系和相机坐标系之间的转换关系(图像采集部件的内部参数)，可以确定采集到的图像中包含的每个像素点在相机坐标系下沿X轴和Y轴的坐标值。进一步基于世界坐标系和相机坐标系之间的相互转换关系(图像采集部件的外部参数)，可以确定采集到的图像中包含的每个像素点在世界坐标系下沿X轴和Y轴的坐标值。当相机坐标系和世界坐标系重合时，可以直接将每个像素点在相机坐标系下的坐标值作为该像素点在世界坐标系下的坐标值。

针对每个像素点在世界坐标系下沿Z轴方向的坐标值，可以根据该像素点在相机坐标系下的深度信息确定。在一些实施方式中，可以根据采集到的图像以及预先训练的用于确定深度图像的神经网络，来确定该采集到的图像对应的深度图像，从而得到采集到的图像中的每个像素点在相机坐标系下的深度信息。这样，结合每个像素点在图像坐标系的像素坐标值以及该像素点在相机坐标系下的深度信息，可以确定该像素点在世界坐标系下的三维坐标信息，实施过程将在后文进行详细阐述。

步骤S103，根据采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像；

其中，三维信息图像中的像素点的排序与采集到的图像中的像素点的排序相同。

示例性地，采集到的图像包含的多个像素点可以按照设定的纹理、色调以及排序等信息构成图像结构。图像结构可以反映出采集到的图像中包含的待检测的目标对象对应的结构信息，当采集到的图像中的像素点的排序不变时，采集到的图像具有的图像结构也不会发生变化，即图像中包含的目标对象的形状不会发生变化。因此，当三维信息图像中的像素点的排序与采集到的图像中的像素点的排序相同时，三维信息图像仍然可以保留与采集到的图像相同的图像结构，基于此可以有效确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

在一些实施方式中，在根据采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像时，可以包括：

按照每个像素点对应的三维坐标信息以及该像素点在采集到的图像中的索引信息，生成该三维信息图像；其中，三维信息图像中的每个像素点的通道信息至少包含该像素点在世界坐标系下的三维坐标信息。

示例性地，每个像素点在采集到的图像中的索引信息可以表示该像素点在采集到得到图像中的位置，比如采集到的图像包含m*n个像素点，可以通过索引信息(i，j)来表示像素点在采集到的图像中的索引信息，(i，j)可以表示该像素点位于采集到的图像中的i行j列。

在对采集到的图像中包含的目标对象进行三维目标检测时，需要知道构成目标对象的各个像素点的三维坐标信息，基于此，可以结合每个像素点对应的三维坐标信息和该像素点在采集到的图像中的索引信息，重新构建具备图像形式的三维信息图像。这样，在构建该三维信息图像时，因同时考虑了每个像素点在采集到的图像中的索引信息以及三维坐标信息，故构建的三维信息图像与采集到的图像具有相同的图像结构，即包含的目标对象的形状保持不变。另外再结合三维信息图像中包含的各个像素点对应的三维坐标信息，可以对该三维信息图像中包含的目标对象进行三维目标检测。

本公开实施例中，在生成与采集到的图像对应的三维信息图像时，是按照每个像素点在采集到的图像中的索引信息生成的，因此三维信息图像仍然可以保留与采集到的图像相同的图像结构。另外，相比采集到的图像，该三维信息图像针对每个像素点还增加了该像素点在世界坐标系下的三维坐标信息，因此可以基于该三维信息图像检测目标对象在世界坐标系下的三维检测信息。

步骤S104，基于三维信息图像，确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

示例性地，目标对象在不同的应用场景下包括的形态不同，在自动驾驶领域，目标对象可以包括车辆、行人、栏杆等待进行三维目标检测的目标对象。

在得到三维信息图像后，可以基于该三维信息图像对目标对象进行三维目标检测。因为该三维信息图像中包含与采集到的图像相同的图像结构，因此可以通过该三维信息图像来检测采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

示例性地，每个目标对象在世界坐标系下的三维检测信息可以包含该目标对象的中心点在世界坐标系下的位置坐标，以及该目标对象在世界坐标系下的长度、宽度和高度，以及该目标对象在世界坐标系下的朝向角度。该朝向角度可以通过预先设定的目标对象的正方向与预设方向的夹角来表示，比如目标对象为车辆时，可以将车辆的车头朝向与预设方向的夹角来表示该车辆的朝向角度。

示例性地，可以通过目标对象对应的三维(three-dimensional，3D)检测框的位置信息来表示目标对象的三维检测信息。在一些实施方式中，目标对象在世界坐标系下的长度、宽度和高度可以分别通过目标对象对应的3D检测框的长、宽和高来表示，目标对象的中心点可以通过该目标对象对应的3D检测框的中心点来表示，目标对象的朝向角度可以通过该目标对象对应的3D检测框的朝向角度来表示。一般情况下，目标对象对应的3D检测框可以通过该目标对象的外接长方体来表示。

本公开实施例中，在图像采集部件采集到图像后，可以基于该采集到的图像得到图像结构相同，且增加每个像素点在世界坐标系下的三维坐标信息的三维信息图像，基于该三维信息图像可以完成针对目标对象的三维目标检测。而图像采集部件相比雷达装置，具有便携性高、成本低的优点，且相比雷达装置采集的点云数据，图像采集部件在近距离区域内也能够获取到视野范围内完整的目标对象，包括体积较小的目标对象，因此能够准确地完成针对近距离区域的目标对象的三维目标检测。

下面将结合实施例对上述步骤S101至S104进行详细阐述：

针对上述步骤S102，在基于采集到的图像和内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息时，如图2所示，可以包括以下步骤S1021至S1022：

步骤S1021，基于采集到的图像，生成采集到的图像对应的深度图像，深度图像中包含采集到的图像中的每个像素点的深度信息；

步骤S1022，基于采集到的图像中每个像素点在图像坐标系下的二维坐标信息、该像素点的深度信息以及内部参数，确定该像素点在世界坐标系下的三维坐标信息。

示例性地，在确定采集到的图像对应的深度图像时，可以根据预先训练的用于确定深度图像的神经网络来确定该采集到的图像对应的深度图像，从而得到采集到的图像中的每个像素点的深度信息，例如可以为在相机坐标系下的深度信息。

其中，用于确定采集到的图像对应的深度图像的神经网络可以通过大量预先采集的样本图像，以及针对该样本图像标注的设定像素点在相机坐标系下的深度信息来训练得到，本公开实施例对确定深度图像的神经网络的训练过程不作限定。

在得到采集到的图像中的每个像素点对应的深度信息后，可以先确定每个像素点在相机坐标系下的三维坐标信息，然后确定该像素点在世界坐标系下的三维坐标信息。每个像素点在世界坐标系下的三维坐标信息可以包括沿世界坐标系下X轴方向的坐标值、沿Y轴方向的坐标值以及沿Z轴方向的坐标值。为了便于计算，本公开实施例可以使得相机坐标系与世界坐标系重合，即使得相机坐标系的坐标原点与世界坐标系的坐标原点重合，使得相机坐标系的X轴与世界坐标系的X轴重合，使得相机坐标系的Y轴与世界坐标系的Y轴重合，以及使得相机坐标系的Z轴与世界坐标系的Z轴重合。如图3所示，为相机坐标系和世界坐标系重合时的情况，在该情况下，Fc表示相机坐标系或者世界坐标系的原点，Xc表示相机坐标系或者世界坐标系的X轴，Yc表示相机坐标系或者世界坐标系的Y轴，Zc表示相机坐标系或者世界坐标系的Z轴。假设像素点P为采集到的图像中第i行第j列的像素点。在一些实施方式中，可以根据以下公式(1)来确定像素点P在世界坐标系下的三维坐标信息：

其中，Z _(i,j)表示采集到的图像的像素点P在世界坐标系下沿Z轴方向的坐标值；X _(i,j)表示采集到的图像的像素点P在世界坐标系下沿X轴方向的坐标值；Y _(i,j)表示采集到的图像的像素点P在世界坐标系下沿Y轴方向的坐标值；u _(i,j)表示采集到的图像的像素点P在像素坐标系下沿u轴方向的坐标值；v _(i,j)表示采集到的图像的像素点P在像素坐标系下沿v轴方向的坐标值；d _(i,j)表示采集到的图像的像素点P的深度值；(Cx，Cy)表示图像采集部件的光点C在世界坐标系下的坐标值，其中Cx表示图像采集部件的光轴与采集到的图像的交点在世界坐标系下沿X轴方向的坐标值；Cy表示图像采集部件的光轴与采集到的图像的交点在世界坐标系下沿Y轴方向的坐标值；f表示图像采集部件的焦距。

以上过程，当世界坐标系和相机坐标系重合时，使用到的相机参数信息包括图像采集部件的光轴与采集到的图像的交点在世界坐标系下沿X轴方向的坐标值、图像采集部件的光轴与采集到的图像的交点在世界坐标系下沿Y轴方向的坐标值以及图像采集部件的焦距。该方式在自动驾驶领域时，可以直接以目标车辆上设置的图像采集部件的光心为原点，使得世界坐标系与图像采集部件对应的相机坐标系重合，从而可以直接使用上述公式，来确定每个像素点在世界坐标系下的三维坐标信息。

本公开实施例中，可以基于采集到的图像快速预测出该采集到的图像每个像素点对应的深度信息，进一步可以基于每个像素点在图像坐标系下的二维坐标信息、对应的深度信息，再结合图像采集部件的内部参数，快速得到采集到的图像中每个像素点在世界坐标系下的三维坐标信息。在得到每个像素点在世界坐标系下的三维坐标信息后，可以基于每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像。

在一种实施方式中，针对上述步骤S103，在按照每个像素点对应的三维坐标信息，以及该像素点在采集到的图像中的索引信息，生成三维信息图像时，如图4所示，可以包括以下步骤S1031至S1032：

步骤S1031，将每个像素点对应的三维坐标信息，作为该像素点在三维信息图像中对应的多通道信息；

步骤S1032，基于该像素点在三维信息图像中对应的多通道信息，以及该像素点在采集到的图像中的索引信息，生成三维信息图像。

示例性地，以采集到的图像为RGB图像为例，RGB图像中每个像素点在RGB图像中包含三通道信息，即R通道上的通道值、G通道上的通道值和B通道上通道值。每个像素点在R通道上的通道值、G通道上的通道值和B通道上的通道值可以代表该像素点在RGB图像中的颜色信息。

三维信息图像作为图像表征形式，同样由多个像素点构成。为了使得三维信息图像与采集到的图像具有相同的图像结构，在得到每个像素点对应的三维坐标信息后，可以按照该像素点在采集到的图像中的索引信息，依次将该像素点对应的三维坐标信息替换该像素点在采集到得到图像中的多通道信息后，比如替换上述RGB图像中的每个像素点的三通道信息后，生成三维信息图像。

按照这样的方式，三维信息图像中每个像素点在三维信息图像中的多通道信息包含该像素点在世界坐标系下沿X轴通道上的坐标值、在世界坐标系下沿Y轴通道上的坐标值和在世界坐标系下沿Z轴通道上的坐标值。三维信息图像相比采集到的图像，包含的像素点的个数不变，像素点的排序方式不变，因此三维信息图像相比对应的采集到的图像，具有相同的图像结构。因此可以识别出采集到的图像中包含的目标对象的结构信息，从而便于基于该三维信息图像来对采集到的图像中包含的目标对象进行三维目标检测。

在另一种实施方式中，针对上述步骤S103，在按照每个像素点对应的三维坐标信息，以及该像素点在采集到的图像中的索引信息，生成三维信息图像时，如图5所示，可以包括以下步骤S1033至S1034：

步骤S1033，将每个像素点对应的三维坐标信息以及该像素点在采集到的图像中的信息，作为该像素点在三维信息图像中对应的多通道信息；

步骤S1034，基于该像素点在三维信息图像中对应的多通道信息，以及该像素点在采集到的图像中的索引信息，生成三维信息图像。

同样，为了使得三维信息图像具有与采集到的图像一致的图像结构，在得到每个像素点对应的三维坐标信息后，可以按照该像素点在采集到的图像中的索引信息，为该像素点增加由三维坐标信息构成的三通道信息，生成采集到的图像对应的三维信息图像，以采集到的图像为RGB图像为例，按照该方式得到的三维信息图像的每个像素点可以包含六通道信息，即包括R通道上的通道值、G通道上的通道值、B通道上通道值、世界坐标系下沿X轴通道上的坐标值、在世界坐标系下沿Y轴通道上的坐标值和在世界坐标系下沿Z轴通道上的坐标值。

按照该方式生成的三维信息图像相比采集到的图像，包含的像素点的个数不变、像素点的排序方式不变，因此三维信息图像相比对应的采集到的图像，具有与采集到的图像一致的图像结构。除此之外，三维信息图像还保留有采集到的图像的信息，比如可以包含采集到的图像的颜色信息，从而便于基于该三维信息图像来对采集到的图像中包含的目标对象进行准确的三维目标检测。

针对上述步骤S104，在基于三维信息图像，确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息时，如图6所示，可以包括以下步骤S1041至S1044：

步骤S1041，基于采集到的图像中包含的目标对象的二维检测信息，对三维信息图像进行裁剪，得到至少一个三维信息图像块，每个三维信息图像块中包含至少一个目标对象。

示例性地，可以通过预先训练的用于进行二维目标检测的神经网络，来对采集到的图像进行目标检测，从而得到该采集到得到图像中包含的目标对象的二维检测信息。目标对象的二维检测信息可以为目标对象的二维检测框在采集到的图像中的位置区域。

按照采集到的图像中包含的目标对象的二维检测框，可以在三维信息图像中剪裁得到与该二维检测框相同尺寸的三维信息样本图像块，这样可以过滤掉不包含目标对象的区域，从而后期可以直接针对三维信息图像块进行目标检测，该方式可以缩小检测范围，从而提高检测效率。

步骤S1042，针对每个三维信息图像块进行特征提取，得到该三维信息图像块对应的多个特征图像，多个特征图像中包含表征目标对象深度信息的深度特征图像。

这里可以基于预先训练的神经网络中的特征提取网络来提取每个三维信息图像块对应的多个特征图像。在针对三维信息图像块进行特征提取前，针对尺寸不同的三维信息图像块，可以进行尺寸调整，使得输入特征提取网络的三维信息图像块的尺寸一致。

特征提取网络可以包含多个卷积核，每个卷积核用于提取三维信息图像块对应的一个特征图像。多个特征图像中可以包含用于表征目标对象深度信息的深度特征图像、用于表征目标对象长度信息的特征图像、用于表征目标对象宽度信息的特征图像以及用于表征目标对象的中心点位置信息的特征图像。

步骤S1043，基于每个三维信息图像块对应的深度特征图像，对至少一个三维信息图像块进行分类，确定每种类别的三维信息图像块对应的三维目标检测网络。

每个三维信息图像块中包含的目标对象在世界坐标系下的深度信息可以不同，可以预先基于每个三维信息图像块对应的深度特征图像，对多个三维信息图像块进行分类，比如可以基于目标对象对应的深度信息，对多个三维信息图像块进行分类，确定每种类别的三维信息图像对应的三维目标检测网络。

示例性地，预先训练的神经网络中可以包含多个三维目标检测网络，每个三维目标检测网络可以预测一类三维信息图像块中包含的目标对象的三维检测信息，比如预先训练的神经网络中包含三个目标检测网络，第一个目标检测网络用于检测深度信息大于0且小于或等于L1的三维信息图像块，第二个目标检测网络用于检测深度信息大于L1且小于或等于L2的三维信息图像块，第三个目标检测网络用于检测深度信息大于L3的三维信息图像块。

通过预先训练针对不同深度信息进行三维目标检测的多个三维目标检测网络，可以使得每个三维目标检测网络能够针对具有相同深度范围的三维信息图像块进行检测。这样，一方面具有相同深度范围的三维信息图像块中的目标对象对应的三维检测信息差异性小，可以使得三维目标检测网络在进行三维目标检测时能够提高检测精度；另一方面当三维信息图像中包含多个具有不同深度信息的目标对象时，能够通过多个三维目标检测网络同时进行三维目标检测，从而能够提高检测速度。

按照上述方式，在基于每个三维信息图像块对应的深度特征图像，确定出每个三维信息图像块对应的深度信息后，可以确定该三维信息图像块对应的三维目标检测网络。

步骤S1044，针对每个三维信息图像块，按照该三维信息图像块对应的三维目标检测网络以及该三维信息图像块对应的多个特征图像，确定该三维信息图像块中的目标对象在世界坐标系下的三维检测信息。

在基于三维目标检测网络针对对应的三维信息图像块进行三维目标检测时，需要考虑该三维信息图像块对应的多个特征图像，比如上述提到的用于表征目标对象深度信息的深度特征图像、用于表征目标对象长度信息的特征图像、用于表征目标对象宽度信息的特征图像以及用于表征目标对象的中心点位置信息的特征图像等，每个三维目标检测网络可以基于这些特征图像，来预测对应的三维信息图像块包含的目标对象的三维检测信息。

本公开实施例中，首先可以基于采集到的图像中包含的目标对象对应的二维检测信息对三维信息图像进行剪裁，得到多个三维信息图像块，该方式可以过滤掉不包含目标对象的检测区域，从而可以缩小检测范围，提高检测效率，另外，在针对三维信息图像块进行三维目标检测时，可以基于预先构建多个三维目标检测网络进行同时检测，可以提高检测精度和速度。

针对上述步骤S1044，在针对每个三维信息图像块，按照该三维信息图像块对应的三维目标检测网络以及该三维信息图像块对应的多个特征图像，确定该三维信息图像块中的目标对象在世界坐标系下的三维检测信息时，如图7所示，可以包括以下步骤S10441至S10443：

步骤S10441，针对每个三维信息图像块，按照设定的池化尺寸和池化步长，对该三维信息图像块对应的每个特征图像进行最大池化处理，得到该特征图像池化处理后对应的池化值。

示例地，若进行特征提取的特征提取网络包含多个卷积核，则针对每个三维信息图像块可以得到对应的多个特征图像。每个特征图像包含该三维信息图像块中包含的目标对象的一种属性特征，比如可以包含该三维信息图像块中包含的目标对象的纹理属性特征、颜色属性特征、深度属性特征、长度属性特征、宽度属性特征、中心点位置属性特征等。

针对其中一个三维信息图像块对应的每个特征图像，可以进行最大池化处理，得到该特征图像池化处理后对应的池化值。比如以其中一个特征图像为例，该特征图像包含4*4的特征值，按照池化尺寸为2*2，步长为2进行最大池化处理，可以得到2*2个池化值，若按照与该特征图像相同尺寸的池化尺寸进行最大池化处理，可以得到1*1个池化值。

在一些实施方式中，在对三维信息图像块对应的每个特征图像进行池化处理之前，可以先确定该三维信息图像块对应的二进制掩码图像，该二进制掩码图像在表征目标对象的区域的值为1，与表征非目标对象的区域的值为0，在得到三维信息图像块对应的二进制掩码图像后，可以先基于该二进制掩码图像对该三维信息图像块对应的每个特征图像进行筛选处理，筛选出每个特征图像中表示目标对象的特征值，而将非目标对象的特征值变为0。这样后期在对该三维信息图像块进行池化处理时，一方面可以提高池化处理的速度，另一方面，由于将非目标对象的特征值变为0，这样可以去除作为非目标对象的背景区域的干扰特征值，从而可以得到更加准确的池化值，以便后期提高三维目标检测的准确度。

步骤S10442，将该三维信息图像块的每个特征图像对应的池化值，组成该三维信息图像块对应的目标检测特征向量。

针对每个三维信息图像块，可以基于该三维信息图像块对应的多个特征图像的池化值构成该三维信息图像块对应的目标检测特征向量，通过该目标检测特征向量来表示该三维信息图像块中包含的目标对象的全面特征信息，该全面特征信息可以包含上述提到的目标对象的纹理属性特征、颜色属性特征、深度属性特征、长度属性特征、宽度属性特征和中心点位置属性特征等。

示例性地，若针对每个三维信息图像块包含10个特征图像，每个特征图像对应1*1个池化值，则该三维信息图像块对应的目标检测特征向量包含10个特征值；若每个特征图像对应2*2个池化值，则该三维信息图像块对应的目标检测特征向量包含10*4个特征值。

步骤S10443，基于该三维信息图像块对应的目标检测特征向量，以及该三维信息图像块对应的三维目标检测网络，确定该三维信息图像块中的目标对象在世界坐标系下的三维检测信息。

将该三维信息图像块对应的目标检测特征向量输入与该三维信息图像块对应的三维目标检测网络，可以确定该三维信息图像块中包含的目标对象在世界坐标系下的三维检测信息。

下面结合图8，对上述确定三维信息图像块中的目标对象的三维检测信息的过程进行进一步说明：

如图8所示，将三个三维信息图像块81输入特征提取网络82，可以得到该三维信息图像块81对应的多个特征图像83。另外，这里还可以基于三维信息图像块81中每个像素点在世界坐标系下对应的深度信息，对三维信息图像块81进行阈值分割，得到三维信息图像块对应的二进制掩码图像84，然后先基于该二进制掩码图像84对三维信息图像块81对应的每个特征图像83进行筛选处理后，再对筛选处理后的特征图像进行池化处理，得到每个特征图像包含的目标对象对应的池化值85，基于此生成该三维信息图像块81对应的目标检测特征向量。另外，可以对池化值85进行类型预测处理，基于表示目标对象的深度信息的池化值来确定每个三维信息图像块各自对应的三维目标检测网络87，进一步将该三维信息图像块对应的目标检测特征向量输入对应的三维目标检测网络，完成三维目标检测。

本公开实施例中，提出通过对三维信息图像块的每个特征图像进行最大池化处理，便于提取待进行三维目标检测的有效特征信息，从而提高三维目标检测的效率。

上述多次提到的三维检测信息由预先训练的神经网络检测得到的，神经网络利用了包含目标样本对象的标注三维检测信息的样本图像训练得到。

预先可以采集大量的样本图像，并对每张样本图像均进行目标样本对象标注，确定每张样本图像中包含的目标样本对象对应的标注三维检测信息，该标注三维检测信息可以是基于预先设定好的目标样本对象在世界坐标系下的三维坐标信息确定的。

在一些实施方式中，如图9A所示，神经网络采用以下步骤训练得到，包括步骤S901至S905：

步骤S901，获取图像采集部件采集的样本图像，以及该图像采集部件的内部参数。

该过程与上述获取采集到的图像，以及图像采集部件的内部参数的过程相似，对于该过程中未披露的技术细节，请参照上述图像采集部件的内部参数的过程描述而理解。

步骤S902，基于采集到的样本图像和内部参数，确定采集到的样本图像中每个样本像素点在世界坐标系下的三维坐标信息。

该过程与上述确定每个采集到的图像中每个像素点在世界坐标系下的三维坐标信息的方式相似，对于该过程中未披露的技术细节，请参照上述确定每个采集到的图像中每个像素点在世界坐标系下的三维坐标信息的过程描述而理解。

步骤S903，根据采集到的样本图像和采集到的样本图像中每个样本像素点在世界坐标系下的三维坐标信息，生成与采集到的样本图像对应的三维信息样本图像；三维信息样本图像中的样本像素点的排序与采集到的样本图像中的样本像素点的排序相同。

该过程与上述生成三维信息图像的方式相似，对于该过程中未披露的技术细节，请参照上述生成三维信息图像的过程描述而理解。

步骤S904，基于三维信息样本图像和待训练的神经网络，预测得到样本图像中包含的目标样本对象在世界坐标系下的三维检测信息。

在一些实施方式中，待训练的神经网络中包含多种三维目标检测网络，针对上述步骤S904，在基于三维信息样本图像和待训练的神经网络，预测得到样本图像中包含的目标样本对象在世界坐标系下的三维检测信息时，如图9B所示，可以包括以下步骤S9041至S9043：

步骤S9041，基于样本图像中包含的目标样本对象的二维检测信息，对三维信息样本图像进行剪裁，得到至少一个三维信息样本图像块，每个三维信息图像块中包含至少一个目标对象；

步骤S9042，针对至少一个三维信息样本图像块进行特征提取，得到每个三维信息样本图像块对应的多个特征样本图像，多个特征样本图像中包含表征目标样本对象深度信息的深度特征样本图像；

步骤S9043，基于至少一个三维信息样本图像分别对应的深度特征样本图像，对至少一个三维信息样本图像块进行分类，确定每个三维信息样本图像块对应的三维目标检测网络；

步骤S9044，针对每个三维信息样本图像块，按照神经网络中与该三维信息样本图像块对应的三维目标检测网络以及该三维信息样本图像块对应的多个特征样本图像，预测该三维信息样本图像块中的目标样本对象在世界坐标系下的三维检测信息。

该过程与上述预测每个三维信息图像块中的目标对象在世界坐标系下的三维检测信息的方式相似。这里通过设置多种三维目标检测网络进行训练，可以得到多种三维目标检测网络，可以对深度信息不同的三维信息图像块进行三维目标检测，从而在应用过程中提高检测精度和速度。

步骤S905，基于预测得到的三维检测信息和标注三维检测信息，对待训练的神经网络中的网络参数值进行调整，得到用于确定三维检测信息的神经网络。

基于上述方式可以预测得到每张样本图像中包含的目标样本对象的三维检测信息，进一步基于预测得到的三维检测信息和真实的标注三维检测信息可以得到待训练的神经网络的损失函数对应的损失值，然后基于该损失值对网络参数值进行调整，可以得到用于确定三维检测信息的神经网络。

在一些实施方式中，预测得到的三维检测信息和真实的标注三维检测信息对应的损失值可以包含针对目标样本对象的尺寸的损失值、针对目标样本对象的中心点的损失值以及针对目标样本对象的朝向角度的损失值等，通过多次训练使得损失值小于设定损失阈值，或者训练次数达到设定训练次数后，可以完成对网络参数值的调整，得到训练完成的神经网络。

在一种实施方式中，本公开实施例提供的目标检测方式可以应用于自动驾驶领域，其中，图像采集部件可以位于目标车辆上。这样，在确定采集到的图像中包含的目标对象的三维检测信息后，如图10所示，本公开实施例提供的目标检测方法还包括以下步骤S1001至S1002：

步骤S1001，基于每个目标对象的三维检测信息，确定该目标对象与目标车辆之间的距离信息；

步骤S1002，基于每个目标对象的三维检测信息、距离信息、以及目标车辆的当前位姿数据，控制目标车辆行驶。

基于每个目标对象对应的三维检测信息，可以包括目标对象在世界坐标系下的尺寸、朝向角度和中心点位置坐标等，基于此可以表示目标对象在世界坐标系下的位姿数据。另外，基于每个目标对象的中心点位置坐标可以得到该目标对象与目标车辆之间的距离信息。

基于每个目标对象的三维检测信息、与目标车辆的距离信息以及目标车辆的当前位姿数据，可以控制目标车辆避开作为障碍物的目标对象。

示例性地，当图像采集部件位于目标车辆上时，可以以图像采集部件的光心为原点建立世界坐标系，这样可以通过目标对象的中心点和原点在世界坐标系下的距离表示目标对象与目标车辆之间的距离信息。

示例性地，在控制目标车辆行驶过程中，可以首先通过目标对象与目标车辆之间的距离，确定目标车辆是否驶入该目标对象对应的危险区域，比如当该距离小于预设安全距离时，可以确定目标车辆驶入该目标对象对应的危险区域，进一步基于该目标对象对应的三维位姿数据以及目标车辆的当前位姿数据，确定按照当前行驶路线行驶时是否会发生碰撞。在确定不会发生碰撞时，可以按照原始路线继续行驶，在确定会发生碰撞时，可以调整行驶路线，或者减速避障。

本公开实施例中，在检测出采集到的图像中包含的目标对象的三维检测信息后，可以基于此得到每个目标对象与目标车辆之间的距离信息，考虑到每个目标对象的三维检测信息可以表示该目标对象在世界坐标系中的位姿数据。因此，基于该目标对象的三维检测信息、与目标车辆的距离信息以及目标车辆的当前位姿数据，来控制目标车辆的行驶，能够提高目标车辆的行驶安全性。

本公开实施例提供了一种基于图像的三维检测系统的图像数据坐标系转换方法，可以在转换坐标系的同时保持图像结构，令检测系统的精度进一步提升。在实施中，先计算待检测图像的深度图像，之后获取图像的拍摄相机的内部参数；然后利用深度图像以及相机的内部参数计算出每个像素点的三维空间位置，并将其组织为图像数据形式；最后再利用面向图像的深度学习技术得到目标的三维信息。

图11A为本公开实施例提供的一种目标检测方法的逻辑流程图，如图11A所示，以图像采集部件为相机为例，该方法至少包括以下步骤：

步骤S1101，获取相机拍摄的待检测图像；

这里，如图11B所示，待检测图像为目标对象的二维图像，缺少对应的深度信息，无法有效地估计出目标对象的三维信息(位置，形状，朝向)。

步骤S1102，获取待检测图像的深度图像；

这里，待检测图像的深度图像如图11C所示，目标对象(汽车)部分的深度值与其他部分中的深度值不同。可以通过图像深度估计方法来弥补图像数据中缺少的深度信息。使用深度估计获取到待检测图像的深度图像，能够有效地补充二维图像中缺少的深度信息。

值得注意的是，相关技术中的深度估计算法一般都可以满足此要求即获取待检测图像拍摄时的相机参数，本公开实施例对采样何种深度估计算法不作限定。

步骤S1103，获取待检测图像拍摄时的相机参数；

这里，所述相机参数为相机的内部参数，可以包括焦距和主点。

步骤S1104，确定待检测图像中每一像素点的三维坐标信息；

这里，计算待检测图像的每个像素在三维坐标系下的位置。

对于待检测图像的每个像素点获取其在图像坐标系下的索引信息，例如索引值(i，j)可以表示该像素点位于待检测图像中的i行j列；在深度图像中获取该索引值的深度值d；以及上一步骤中获取的相机内部参数，利用公式(1)计算该像素点在三维空间下的坐标，从而得到待检测图像中所有像素点的三维坐标信息。

步骤S1105，基于每一像素点的三维坐标信息，生成三维信息图像；

这里，通过三维信息图像将待检测图像中每一像素点的三维坐标信息组织为图像形式，如图11D所示。在实施中，可以根据每一像素点的三维坐标信息在原始图像的索引值，将计算出的三维坐标视作不同的通道放回到图像中去，例如替代原始RGB通道。

这样以图像形式组织坐标转化后的像素信息，从而避免了引入点云数据，使得整个系统只存在图像一种数据表征形式，保持系统的简洁、高效。

步骤S1106，利用神经网络对三维信息图像进行检测，得到目标对象的检测结果。

这里，利用面向图像数据的深度学习技术进行三维目标检测，如估计三维物体的姿态。只需利用面向图像的深度学习技术估计目标的三维信息即可，本公开示例对采用何种神经网络不作限定。

本公开实施例利用深度估计方法得到待检测图像的深度图像，能够有效地补充二维图像中缺少的深度信息。本公开实施例引入了坐标系转换，通过相机的内部参数和估计出的深度图像建立了从图像坐标系到三维世界坐标系的一一对应的映射，消除了图像坐标系和三维世界坐标系之间的模糊性，能够大大地提高系统的检测性能。同时在进行数据坐标系转换的过程中，将生成的三维坐标点按照原始图像的坐标索引组织为图像表征形式，保持图像结构。以图像形式组织坐标转化后的像素信息，从而避免了引入点云数据，使得整个系统只存在图像一种数据表征形式，保持系统的简洁，高效。

本公开实施例相对于相关技术，只是具有以下有益效果：第一方面，精度高：与不使用坐标系转换(或使用坐标系转换，但不将转换后的数据组织为图像表征形式)的方法相比，本系统能够得到的检测性能更高；第二方面，模型训练/测试过程简洁：现有的其他方法将图像坐标系转化到三维坐标系后，将像素点视为点云数据，需要用不同结构的神经网络单独对后续步骤进行训练，本系统自始至终以图像形式使用数据，从而避免了数据形式的转换，使得系统整体的训练/测试过程更加简便；第三方面，支持端到端训练：以往的方法需要分阶段训练模型。在第一阶段使用面向二维图像的神经网络训练，在第二阶段使用面三维点云的神经网络训练。两个阶段无法交互，故而无法得到最优解。本系统可以整合两个部分，统一使用面向二维图像的神经网络训练，从而支持端到端训练。

在一些实施方式中，本公开实施例所提供的目标检测方法可以应用于基于图像数据的自动/辅助驾驶系统。在另一些实施方式中，本公开实施例所提供的目标检测方法可以应用于移动终端(例如手机)的AR(Augmented Reality，增强现实)系统和/或VR(Virtual Reality，虚拟现实)系统中，以实现AR系统和/或VR系统中的三维目标检测。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的实际执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与目标检测方法对应的目标检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述目标检测方法相似，因此装置的实施可以参见方法的实施。

参照图12所示，为本公开实施例提供的一种目标检测装置的示意图，该目标检测装置1200包括：

获取模块1201，配置为获取图像采集部件采集的图像，以及所述图像采集部件的内部参数；

确定模块1202，配置为基于采集到的图像和内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息；

生成模块1203，配置为根据采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像；三维信息图像中的像素点的排序与采集到的图像中的像素点的排序相同；

检测模块1204，配置为基于三维信息图像，确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

在一种可能的实施方式中，目标检测装置1200还包括控制模块1205，图像采集部件位于目标车辆上，在确定采集到的图像中包含的目标对象的三维检测信息后，控制模块1205配置为：

基于每个目标对象的三维检测信息，确定每个所述目标对象与目标车辆之间的距离信息；

基于每个目标对象的三维位姿数据、距离信息、以及目标车辆的当前位姿数据，控制目标车辆行驶。

在一种可能的实施方式中，确定模块1202，配置为：

基于采集到的图像，生成采集到的图像对应的深度图像，深度图像中包含采集到的图像中的每个像素点对应的深度信息；

基于采集到的图像中每个像素点在图像坐标系下的二维坐标信息、每个所述像素点的深度信息以及内部参数，确定每个所述像素点在世界坐标系下的三维坐标信息。

在一种可能的实施方式中，生成模块1203配置为：

按照每个像素点对应的三维坐标信息，以及每个所述像素点在采集到的图像中的索引信息，生成三维信息图像；三维信息图像中的每个像素点的通道信息至少包含每个所述像素点在世界坐标系下的三维坐标信息。

在一种可能的实施方式中，生成模块1203配置为：

将每个像素点对应的三维坐标信息，作为每个所述像素点在三维信息图像中对应的多通道信息；

基于每个所述像素点在三维信息图像中对应的多通道信息，以及每个所述像素点在采集到的图像中的索引信息，生成三维信息图像。

在一种可能的实施方式中，生成模块1203配置为：

将每个像素点对应的三维坐标信息以及每个所述像素点在采集到的图像中的信息，作为每个所述像素点在三维信息图像中对应的多通道信息；

在一种可能的实施方式中，检测模块1204配置为：

基于采集到的图像中包含的目标对象的二维检测信息，对三维信息图像进行裁剪，得到至少一个三维信息图像块，每个三维信息图像块中包含至少一个目标对象；

针对每个三维信息图像块进行特征提取，得到每个所述三维信息图像块对应的多个特征图像，多个特征图像中包含表征目标对象深度信息的深度特征图像；

基于每个三维信息图像对应的深度特征图像，对至少一个三维信息图像块进行分类，确定每种类别的三维信息图像块对应的三维目标检测网络；

针对每个三维信息图像块，按照每个所述三维信息图像块对应的三维目标检测网络以及每个所述三维信息图像块对应的多个特征图像，确定每个所述三维信息图像块中的目标对象在世界坐标系下的三维检测信息。

在一种可能的实施方式中，检测模块1204配置为：

针对每个三维信息图像块，按照设定的池化尺寸和池化步长，对每个所述三维信息图像块对应的每个特征图像进行最大池化处理，得到每个所述特征图像池化处理后对应的池化值；

将每个所述三维信息图像块的每个特征图像对应的池化值，组成每个所述三维信息图像块对应的目标检测特征向量；

基于每个所述三维信息图像块对应的目标检测特征向量，以及每个所述三维信息图像块对应的三维目标检测网络，确定每个所述三维信息图像块中的目标对象在世界坐标系下的三维检测信息。

在一种可能的实施方式中，目标检测装置1200还包括训练模块1206，训练模块1206配置为：

训练配置为检测三维检测信息的神经网络，神经网络利用了包含目标样本对象的标注三维检测信息的样本图像训练得到。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的目标检测方法，本公开实施例还提供了一种电子设备1300，如图13所示，为本公开实施例提供的电子设备的示意图，包括：

处理器131、存储器132、和总线133；存储器132配置为存储执行指令，包括内存1321和外部存储器1322；这里的内存1321也称内存储器，配置为暂时存放处理器131中的运算数据，以及与硬盘等外部存储器1322交换的数据，处理器131通过内存1321与外部存储器1322进行数据交换，当电子设备1300运行时，处理器131与存储器132之间通过总线133通信，使得处理器131执行以下指令：获取图像采集部件采集的图像，以及该图像采集部件的内部参数；基于采集到的图像和内部参数，确定采集到的图像中每个像素点在世界坐标系下的三维坐标信息；根据采集到的图像和采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与采集到的图像对应的三维信息图像；三维信息图像中的像素点的排序与采集到的图像中的像素点的排序相同；基于三维信息图像，确定采集到的图像中包含的目标对象在世界坐标系下的三维检测信息。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的目标检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的目标检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的目标检测方法的步骤，可参见上述方法实施例。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

工业实用性

Claims

一种目标检测方法，包括：

获取图像采集部件采集的图像，以及所述图像采集部件的内部参数；

基于采集到的图像和所述内部参数，确定所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息；

根据所述采集到的图像和所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与所述采集到的图像对应的三维信息图像；所述三维信息图像中的像素点的排序与所述采集到的图像中的像素点的排序相同；

基于所述三维信息图像，确定所述采集到的图像中包含的目标对象在所述世界坐标系下的三维检测信息。
根据权利要求1所述的目标检测方法，其中，所述图像采集部件位于目标车辆上，在确定所述采集到的图像中包含的目标对象的三维检测信息后，所述目标检测方法还包括：

基于每个目标对象的三维检测信息，确定每个所述目标对象与所述目标车辆之间的距离信息；

基于每个所述目标对象的所述三维检测信息、所述距离信息、以及所述目标车辆的当前位姿数据，控制所述目标车辆行驶。
根据权利要求1或2所述的目标检测方法，其中，所述基于采集到的图像和所述内部参数，确定所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，包括：

基于所述采集到的图像，生成所述采集到的图像对应的深度图像，所述深度图像中包含所述采集到的图像中的每个像素点的深度信息；

基于所述采集到的图像中每个像素点在图像坐标系下的二维坐标信息、每个所述像素点的深度信息以及所述内部参数，确定每个所述像素点在所述世界坐标系下的三维坐标信息。
根据权利要求1至3任一所述的目标检测方法，其中，所述根据所述采集到的图像和所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与所述采集到的图像对应的三维信息图像，包括：

按照所述采集到的图像中每个像素点对应的三维坐标信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像；所述三维信息图像中的每个像素点的通道信息至少包含每个所述像素点在世界坐标系下的三维坐标信息。
根据权利要求4所述的目标检测方法，其中，所述按照所述采集到的图像中每个像素点对应的三维坐标信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像，包括：

将所述采集到的图像中每个像素点对应的三维坐标信息，作为每个所述像素点在所述三维信息图像中对应的多通道信息；

基于每个所述像素点在所述三维信息图像中对应的多通道信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像。
根据权利要求4所述的目标检测方法，其中，所述按照所述采集到的图像中每个像素点对应的三维坐标信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像，包括：

将所述采集到的图像中每个像素点对应的三维坐标信息以及每个所述像素点在所述采集到的图像中的信息，作为每个所述像素点在所述三维信息图像中对应的多通道信息；

基于每个所述像素点在所述三维信息图像中对应的多通道信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像。
根据权利要求1至6任一所述的目标检测方法，其中，所述基于所述三维信息图像，确定所述采集到的图像中包含的目标对象在所述世界坐标系下的三维检测信息，包括：

基于所述采集到的图像中包含的目标对象的二维检测信息，对所述三维信息图像进行裁剪，得到至少一个三维信息图像块；其中，每个所述三维信息图像块中包含至少一个目标对象；

针对每个所述三维信息图像块进行特征提取，得到每个所述三维信息图像块对应的多个特征图像，所述多个特征图像中包含表征每个所述目标对象深度信息的深度特征图像；

基于每个所述三维信息图像块对应的深度特征图像，对所述至少一个三维信息图像块进行分类，确定每种类别的三维信息图像块对应的三维目标检测网络；

针对每个所述三维信息图像块，按照每个所述三维信息图像块对应的三维目标检测网络以及每个所述三维信息图像块对应的所述多个特征图像，确定每个所述三维信息图像块中的目标对象在所述世界坐标系下的三维检测信息。
根据权利要求7所述的目标检测方法，其中，所述针对每个三维信息图像块，按照每个所述三维信息图像块对应的三维目标检测网络以及每个所述三维信息图像块对应的所述多个特征图像，确定每个所述三维信息图像块中的目标对象在所述世界坐标系下的三维检测信息，包括：

针对每个三维信息图像块，按照设定的池化尺寸和池化步长，对每个所述三维信息图像块对应的每个特征图像进行最大池化处理，得到每个所述特征图像池化处理后对应的池化值；

将每个所述三维信息图像块的每个特征图像对应的池化值，组成每个所述三维信息图像块对应的目标检测特征向量；

基于每个所述三维信息图像块对应的目标检测特征向量，以及每个所述三维信息图像块对应的三维目标检测网络，确定每个所述三维信息图像块中的目标对象在所述世界坐标系下的三维检测信息。
根据权利要求1至8任一所述的目标检测方法，其中，所述三维检测信息由神经网络检测得到，所述神经网络利用了包含目标样本对象的标注三维检测信息的样本图像训练得到。
一种目标检测装置，包括：

获取模块，配置为获取图像采集部件采集的图像，以及所述图像采集部件的内部参数；

确定模块，配置为基于采集到的图像和所述内部参数，确定所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息；

生成模块，配置为根据所述采集到的图像和所述采集到的图像中每个像素点在世界坐标系下的三维坐标信息，生成与所述采集到的图像对应的三维信息图像；所述三维信息图像中的像素点的排序与所述采集到的图像中的像素点的排序相同；

检测模块，配置为基于所述三维信息图像，确定所述采集到的图像中包含的目标对象在所述世界坐标系下的三维检测信息。
根据权利要求10所述的目标检测装置，其中，所述目标检测装置还包括控制模块，所述图像采集部件位于目标车辆上，在确定所述采集到的图像中包含的目标对象的三维检测信息后，所述控制模块配置为：

基于每个目标对象的三维检测信息，确定每个所述目标对象与所述目标车辆之间的距离信息；

基于每个所述目标对象的所述三维检测信息、所述距离信息、以及所述目标车辆的当前位姿数据，控制所述目标车辆行驶。
根据权利要求10或11所述的目标检测装置，其中，所述确定模块配置为：

基于所述采集到的图像，生成所述采集到的图像对应的深度图像，所述深度图像中包含所述采集到的图像中的每个像素点的深度信息；

基于所述采集到的图像中每个像素点在图像坐标系下的二维坐标信息、每个所述像素点的深度信息以及所述内部参数，确定每个所述像素点在所述世界坐标系下的三维坐标信息。
根据权利要求10至12任一所述的目标检测装置，其中，所述生成模块配置为：

按照所述采集到的图像中每个像素点对应的三维坐标信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像；所述三维信息图像中的每个像素点的通道信息至少包含每个所述像素点在世界坐标系下的三维坐标信息。
根据权利要求13所述的目标检测装置，其中，所述生成模块配置为：

将所述采集到的图像中每个像素点对应的三维坐标信息，作为每个所述像素点在所述三维信息图像中对应的多通道信息；

基于每个所述像素点在所述三维信息图像中对应的多通道信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像。
根据权利要求13所述的目标检测装置，其中，所述生成模块配置为：

将所述采集到的图像中每个像素点对应的三维坐标信息以及每个所述像素点在所述采集到的图像中的信息，作为每个所述像素点在所述三维信息图像中对应的多通道信息；

基于每个所述像素点在所述三维信息图像中对应的多通道信息，以及每个所述像素点在所述采集到的图像中的索引信息，生成所述三维信息图像。
根据权利要求10至15任一所述的目标检测装置，其中，所述检测模块配置为：

基于所述采集到的图像中包含的目标对象的二维检测信息，对所述三维信息图像进行裁剪，得到至少一个三维信息图像块；其中，每个所述三维信息图像块中包含至少一个目标对象；

针对每个所述三维信息图像块进行特征提取，得到每个所述三维信息图像块对应的多个特征图像，所述多个特征图像中包含表征每个所述目标对象深度信息的深度特征图像；

基于每个所述三维信息图像块对应的深度特征图像，对所述至少一个三维信息图像块进行分类，确定每种类别的三维信息图像块对应的三维目标检测网络；

针对每个所述三维信息图像块，按照每个所述三维信息图像块对应的三维目标检测网络以及每个所述三维信息图像块对应的所述多个特征图像，确定每个所述三维信息图像块中的目标对象在所述世界坐标系下的三维检测信息。
根据权利要求16所述的目标检测装置，其中，所述检测模块配置为：

针对每个三维信息图像块，按照设定的池化尺寸和池化步长，对每个所述三维信息图像块对应的每个特征图像进行最大池化处理，得到每个所述特征图像池化处理后对应的池化值；

将每个所述三维信息图像块的每个特征图像对应的池化值，组成每个所述三维信息图像块对应的目标检测特征向量；

基于每个所述三维信息图像块对应的目标检测特征向量，以及每个所述三维信息图像块对应的三维目标检测网络，确定每个所述三维信息图像块中的目标对象在所述世界坐标系下的三维检测信息。
一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的目标检测方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至9任一所述的目标检测方法的步骤。
一种计算机程序产品，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行如权利要求1至9任一项所述的目标检测方法的步骤。