WO2022267275A1

WO2022267275A1 - 深度检测方法、装置、设备、存储介质、计算机程序及产品

Info

Publication number: WO2022267275A1
Application number: PCT/CN2021/125278
Authority: WO
Inventors: 张胤民; 马新柱; 伊帅; 侯军; 欧阳万里
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2021-06-25
Filing date: 2021-10-21
Publication date: 2022-12-29
Also published as: CN113344998B; CN113344998A

Abstract

一种深度检测方法、装置、设备、存储介质、计算机程序及产品，其中，该方法包括：获取待处理图像（S101）；基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息（S102）；基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值（S103）；基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值（S104）。

Description

深度检测方法、装置、设备、存储介质、计算机程序及产品

相关申请的交叉引用

本公开基于申请号为202110713298.0、申请日为2021年06月25日、申请名称为“深度检测方法、装置、计算机设备及存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以全文引入的方式引入本公开。

技术领域

本公开涉及图像处理技术领域，尤其涉及一种深度检测方法、装置、设备、存储介质、计算机程序及产品。

背景技术

三维目标检测是计算机视觉领域的一个重要而具有挑战性的问题，在自动驾驶、机器人技术、增强或虚拟现实等计算机视觉应用中发挥着重要作用。单目三维目标检测能够利用单目摄像机获取的单目图像，实现对弹幕图像中的目标对象进行三维检测的目的。

在对单目图像进行三维目标检测时，需要得到目标对象的中心点在单目图像对应的相机坐标系中的深度值；当前确定目标对象中心点在单目图像对应的相机坐标系中的深度值时，存在深度值精度置信度较差的问题。

发明内容

本公开实施例至少提供一种深度检测方法、装置、设备、存储介质、计算机程序及产品。

第一方面，本公开实施例提供了一种深度检测方法，包括：获取待处理图像；基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；基于所述中间深度值和所述待处理图像，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

这样，通过在获取待处理图像后，基于待处理图像，确定目标对象的二维检测框在待处理图像对应的图像坐标系中的二维位置信息、以及目标对象在待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息，然后基于二维位置信息、投影位置信息、以及二维检测框和三维检测框之间的投影关系信息，得到目标对象在相机坐标系中国的中间深度值，并基于该中间深度值，得到目标对象在相机坐标系中的目标深度值，从而将二维检测框和三维检测框之间的投影关系信息作为约束，提升最终所得到的目标对象在相机坐标系中的目标深度值的置信度。

一种可能的实施方式中，所述基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息，包括：对所述待处理图像进行特征提取，获取待处理图像的特征图；基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率、与各个特征点对应的第一位置偏移量、和以各个特征点为中心点的下采样二维检测框的下采样尺寸信息；基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息；其中，下采样二维检测框，为对待处理图像进行下采样后，所述目标对象二维检测框产生限缩形成的检测框。

一种可能的实施方式中，所述二维位置信息包括：所述二维检测框的中心点在所述图像坐标系中的第一坐标信息、以及所述二维检测框的尺寸信息。

一种可能的实施方式中，所述基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息，包括：基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中确定目标特征点；基于所述目标特征点在所述特征图中的位置信息、所述目标特征点的第一位置偏移量、以及下采样率，确定所述二维检测框的中心点在所述图像坐标系中的第一坐标信息；以及，基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息。

一种可能的实施方式中，所述对所述待处理图像进行特征提取，获取待处理图像的特征图，包括：利用预先训练的骨干神经网络对所述待处理图像进行特征提取，得到所述待处理图像的特征图；所述基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率，包括：利用预先训练的中心点预测神经网络对特征图进行中心点预测处理，得到特征图中的各个特征点属于目标对象的中心点的概率。

一种可能的实施方式中，采用下述方式训练所述中心点预测神经网络：获取样本图像，以及样本对象的中心点在所述样本图像中的标注位置信息；其中，所述样本对象的中心点为样本对象在所述样本图像对应的相机坐标系中的三维检测框的中心点在所述样本图像中的投影点；利用所述样本图像、以及所述位置标注信息，对待训练的骨干神经网络、以及待训练的中心点预测神经网络进行训练，得到训练好的所述中心点预测神经网络。

一种可能的实施方式中，基于所述待处理图像，所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息，包括：基于所述待处理图像的特征图，得到与所述特征图中的每个特征点对应的第二位置偏移量；基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息。

一种可能的实施方式中，所述投影位置信息包括下述至少一种：所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

一种可能的实施方式中，所述基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息，包括：基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中，确定目标特征点；基于所述目标特征点在所述特征图中的位置信息、所述目标特征点对应的第二位置偏移量、以及所述下采样率，确定所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

一种可能的实施方式中，所述基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值，包括：基于所述二维位置信息、所述投影位置信息、所述目标对象的实际尺寸信息、所述目标对象的朝向信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值。

一种可能的实施方式中，还包括：基于所述待处理图像的特征图，对所述目标对象进行尺寸预测处理，得到所述目标对象的实际尺寸信息；和/或，基于所述待处理图像的特征图，对所述目标对象进行朝向预测处理，得到所述目标对象在所述相机坐标系中的朝向信息。

一种可能的实施方式中，所述二维检测框和三维检测框的投影关系信息，是基于所述三维检测框在图像坐标系中的投影的尺寸信息和位置信息、与所述二维检测框的尺寸信息和位置信息建立的。

一种可能的实施方式中，所述基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值，包括：对所述目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换，得到深度特征图；基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

一种可能的实施方式中，所述基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值，包括：将所述深度特征图、以及所述待处理图像的特征图进行叠加，形成目标特征图；利用预先训练的深度值预测神经网络对所述目标特征图进行深度预测处理，得到所述特征图中各个特征点的目标深度值；基于所述特征图中各个特征点属于目标对象的中心点的概率、以及所述各个特征点分别对应的目标深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

一种可能的实施方式中，还包括：基于所述目标对象的中心点在所述相机坐标系中的目标深度值、以及所述目标对象的实际尺寸信息，得到所述目标对象在所述相机坐标系中的三维检测结果。

第二方面，本公开实施例还提供一种深度检测装置，包括：获取模块，配置为获取待处理图像；第一处理模块，配置为基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；第二处理模块，配置为基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；预测模块，配置为基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

第三方面，本公开可选实现方式还提供一种计算机设备，包括处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时实现上述第一方面，或第一方面中任一种可能的实施方式中的方法。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第五方面，本公开还提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第六方面，本公开还提供一种计算机程序产品，所述计算机程序产品包括一条或多条指令，所述一条或多条指令适于由处理器加载并执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述深度检测装置、计算机设备、及计算机可读存储介质的效果描述参见上述深度检测方法的说明。

为使本公开的上述目的、特征和优点能更明显易懂，根据下面参考附图对本公开实施例进行详细说明，本公开的其它特征及方面将变得清楚。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种深度检测方法的流程图；

图2示出了本公开实施例所提供的确定目标对象的二维检测框在待处理图像对应的图像坐标系中的二维位置信息的方法的流程图；

图3示出了本公开实施例所提供的确定三维检测框在图像坐标系中的投影位置信息的方法的流程图；

图4示出了本公开实施例所提供的一种用于进行深度检测的目标神经网络的结构示意图；

图5示出了本公开实施例所提供的深度检测装置的结构示意图；

图6示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，在基于单目图像的三维深度检测方法中，通常利用样本单目图像、以及对单目图像中的目标对象进行三维标记生成的标注信息，对神经网络进行训练。得到的神经网络能够直接预测得到目标对象的三维检测框的中心点在单目图像对应的相机坐标系中的深度值、以及三维检测框的尺寸信息。这种对单目图像中的目标对象的深度进行预测的方法存在预测精度较低的问题。

基于上述研究，本公开提供了一种深度检测方法、装置、设备、存储介质、计算机程序及产品，通过建立目标对象在图像坐标系中的二维位置、和在对应的相机坐标系中的三维位置之间的投影关系信息，并将投影关系信息作为目标对象在目标空间中的深度的特征信息，能够提升预测得到的目标对象在相机坐标系中深度信息的置信度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种深度检测方法进行详细介绍，本公开实施例所提供的深度检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该深度检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的深度检测方法加以说明。本公开实施例例如可以用于对单目二维图像进行目标检测，得到目标对象在二维图像中的二维位置信息、以及目标对象在二维图像对应的相机坐标系中的三维位置信息。

参见图1所示，为本公开实施例提供的深度检测方法的流程图，所述方法包括步骤S101至S104，其中：

S101：获取待处理图像；

S102：基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；

S103：基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；

S104：基于所述中间深度值和所述待处理图像，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

本公开实施例在获取待处理图像后，基于待处理图像，确定目标对象的二维检测框在待处理图像对应的图像坐标系中的二维位置信息、以及目标对象在待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息，然后基于二维位置信息、投影位置信息、以及二维检测框和三维检测框之间的投影关系信息，得到目标对象在相机坐标系中的中间深度值，并基于该中间深度值和待处理图像，得到目标对象在相机坐标系中的目标深度值，从而将二维检测框和三维检测框之间的投影关系信息作为特征信息，利用该投影关系信息对目标对象的深度进行预测，提升最终所得到的目标对象在相机坐标系中的目标深度值的精度。

在上述S101中，待处理图像在不同的应用场景下，所包括的目标对象不同。例如在将本公开实施例提供的深度检测方法应用于自动驾驶场景下时，目标对象例如包括车辆、行人、道路中的障碍物等；在将该深度检测方法应用于物体识别领域时，目标对象例如包括要识别的物体；在将该深度检测方法应用于相机定位领域时，目标对象例如包括目标场景中的各种物体。

本公开实施例以将该深度检测方法应用于自动驾驶场景为例，对深度检测方法的详细过程加以举例说明。

在上述S102中，待处理图像对应的图像坐标系，例如是以待处理图像中的左上角的像素点所在位置为原点建立的二维坐标系。待处理图像上的各个像素点在待处理图像中的位置均能够利用该图像坐标系中的坐标值来表征。

参见图2所示，本公开实施例提供一种确定目标对象的二维检测框在待处理图像对应的图像坐标系中的二维位置信息的方式，包括：

S201：对所述待处理图像进行特征提取，获取待处理图像的特征图。

此处，例如可以利用骨干神经网络对待处理图像进行特征提取，得到特征图；其中，对待处理图像进行特征提取的过程，即对待处理图像进行下采样的过程，也即按照一定的下采样率对待处理图像进行下采样，得到待处理图像的特征图；在下采样率为R的情况下，得到的待处理图像的尺寸与特征图的尺寸的比值为R。

在对待处理图像进行特征提取的过程中，例如可以对待处理图像进行至少一级卷积处理，得到待处理图像的特征图。在每级卷积处理过程中，例如可以利用至少一个卷积核对上一级卷积处理输出的结果或者待处理图像进行卷积，得到与本级卷积处理对应的结果，并将最后一级卷积处理的结果作为待处理图像的特征图。

在待处理图像的特征图中，每一个特征点与待处理图像中的像素点具有位置映射关系。

S202：基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率、与各个特征点对应的第一位置偏移量、和以各个特征点为中心点的下采样二维检测框的下采样尺寸信息。

其中，下采样二维检测框，为对待处理图像进行下采样后，所述目标对象二维检测框产生限缩形成的检测框。

在实施中，第一方面：在基于特征图得到特征图中的每个特征点属于目标对象的中心点的概率时，例如可以利用预先训练的中心点预测神经网络对特征图进行中心点预测处理，得到特征图中的各个特征点属于目标对象的中心点的概率。

此处，中心点预测神经网络例如可以是骨干神经网络延伸的一个分支；也即中心点预测神经网络与骨干神经网络属于同一神经网络；骨干神经网络对待处理图像进行特征提取后，将待处理图像对应的特征图传输给中心点预测神经网络；中心点预测神经网络基于特征图，预测特征图中的各个特征点属于目标对象的中心点的概率。

此处，中心点预测神经网络例如可以利用下述方式训练得到：获取样本图像，以及样本对象的中心点在所述样本图像中的标注位置信息；其中，所述样本对象的中心点为样本对象在所述样本图像对应的相机坐标系中的三维检测框的中心点在所述样本图像中的投影点；利用所述样本图像、以及所述位置标注信息，对待训练的骨干神经网络、以及待训练的中心点预测神经网络进行训练，得到训练好的所述中心点预测神经网络。

此处，在中心点预测神经网络是骨干神经网络延伸的一个分支的情况下，可以将骨干神经网络和待训练的中心点预测神经网络一起进行训练。

第二方面：假设神经网络输出的特征图中，任一特征点在特征图中坐标值为：(x1，y1)，其物理含义为：物体的在图像中的投影点在图像中的位置，经过下采样、以及进行下取整后得到的坐标。则(x1，y1)和第一位置偏移量相加，得到的坐标值，为二维检测框的中心在经过下采样后得到的坐标。

在基于特征图，确定特征图中的各个特征点对应的第一位置偏移量时，例如可以利用预先训练的第一位置偏移量预测神经网络对各个特征点对应的第一位置偏移量进行预测。

此处，第一位置偏移量预测神经网络例如也可以是骨干神经网络延伸的一个分支，其与上述第一方面中的中心点预测神经网络分别为骨干神经网络延伸的不同分支。

在一些实现方式中，待处理图像的中某个像素点的位置p1、和特征图中某个特征点的位置p2满足下述公式(1)：

floor(·)表示下取整；R表示下采样率。可见，在

并非整数的情况下，特征图中的特征点可能无法与待处理图像中的像素点进行像素级别的位置匹配，而是与待处理图像中的像素点进行亚像素级别的位置匹配关系。

此时，与特征图中特征点对应的第一位置偏移量D _offset满足下述公式(2)：

其中，mod(·)表示取余数。

则在D _offset通过位置偏移量预测神经网络预测得到后，即可以基于上述公式(2)，得到各个特征点分别在待处理图像中对应的第一像素点(或者亚像素点)。

在训练第一位置偏移量预测神经网络的时候，例如在上述第一方面中，对中心点预测神经网络进行训练的过程中，已经得到了样本图像，以及样本图像对应的标注图像。

可以基于上述第一方面中样本对象的中心点在样本图像中的标注位置信息、以及上述公式(2)，得到对待处理图像进行了下采样后，二维检测框在待处理图像中的中心点、与对应的特征点之间的第一偏移量；将得到的该第一偏移量作为样本图像的第一偏移量标注信息，利用样本图像对待训练的第一偏移量预测神经网络进行训练，得到训练后的第一偏移量预测神经网络。

这里，在第一偏移量预测神经网络为骨干神经网络延伸的一个分支的情况下，例如可以利用上述样本图像、和对应的第一偏移量标注信息，对待训练的骨干神经网络和待训练的第一偏移量预测神经网络进行训练，得到训练后的第一偏移量预测神经网络。

第三方面：在基于特征图，确定以特征图中的每个特征点为中心点的下采样二维检测框的下采样尺寸信息时，例如可以利用预先训练的二维检测框预测神经网络对待处理图像进行检测框预测处理，得到特征图中各个特征点分别对应的下采样二维检测框的下采样尺寸信息。

此处，二维检测框预测神经网络例如也可以作为骨干神经网络延伸的一个分支。

这里，由于下采样检测框，可以视作是利用下采样率对目标对象在待处理图像中的二维检测框进行限缩后所形成的检测框，因此，目标对象在待处理图像中的二维检测框的尺寸s1，与目标对象在特征图中的下采样二维检测框的尺寸s2满足下述公式(3)：

因此，在预测得到待处理图像中各个特征点分别对应的下采样二维检测框的下采样尺寸信息后，即可基于上述公式(3)得到待处理图像中二维检测框在待处理图像中的尺寸信息。

在一种可能的实施方式中，在对待训练的二维检测框预测神经网络进行训练时，例如可以采用下述方式：

获取样本图像、以及所述样本图像对应的二维检测框标注信息；其中，所述二维检测框标注信息基于样本对象在所述样本图像对应的相机坐标系中的三维检测框在所述样本图像中的投影生成；利用所述样本图像、以及所述样本图像对应的二维检测框标注信息，对待训练的骨干神经网络、以及待训练的二维检测框预测神经网络进行训练，得到训练后的二维检测框预测神经网络。

在本公开实施例中，是利用了二维检测框和三维检测框之间的投影关系作为特征数据，使得最终确定的目标对象在待处理图像对应的相机坐标系中的目标深度值，能够具有更高的置信度，但在图像中标注的真实二维检测框和基于三维检测框投影形成的二维检测框之间是具有一定差异的，这个差异会导致基于真实二维检测框和真实标注的三维检测框在生成两者投影关系时，投影关系会存在一定的误差。因此，本公开实施例中利用样本对象在所述样本图像对应的相机坐标系中的三维检测框，在所述样本图像中的投影生成二维检测框标注信息，以消除这种差异。

这里需要注意的是，由于上述第一方面中的中心点预测神经网络、第二方面中的第一位置偏移量预测神经网络、以及第三方面中的二维检测框预测神经网络均可以是骨干神经网络的一个分支，因此，可以采用同一批样本图像，同步训练上述骨干神经网络、中心点预测神经网络、第一位置偏移量预测神经网络、二维检测框预测神经网络。另外，可以采用不同的样本图像，分别训练上述三个不同的分支。

S203：基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息。

在实施中，目标对象在图像坐标系中的二维位置信息包括：所述二维检测框的中心点在所述图像坐标系中的第一坐标信息(2D Center)、以及所述二维检测框的尺寸信息(2D Size)。

在实施中，在基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息时，例如可以采用下述方式：

基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中确定目标特征点；

基于所述目标特征点在所述特征图中的位置信息、所述目标特征点的第一位置偏移量、以及下采样率，确定所述二维检测框的中心点在所述图像坐标系中的第一坐标信息；

以及，基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息。

在实施中，在从基于特征图中的每个特征点属于目标对象中心点的概率，从特征图中确定目标特征点时，例如可以将各个特征点对应的概率分别和预设的概率阈值进行比较；在某个特征点对应的概率大于预设的概率阈值的情况下，将该特征点作为目标特征点。

针对特征图中的任一特征点，其在特征图中的位置信息表示为(x,y)，与其对应的待处理图像中的像素点在待处理图像中的位置信息表示为(x′,y′)，(x,y)和(x′,y′)之间的位置关系满足下述公式(4)：

D ^x _offset表示该特征点与对应的第一像素点在图像坐标系X轴方向的第一位置偏移量。D ^y _offset表示该特征点与对应的第一像素点在图像坐标系Y轴方向的第一位置偏移量。

因此，该特征点为目标特征点的情况下，也即与该特征点(x,y)对应的像素点为目标对象的二维检测框的第一中心点。

此时，第一中心点(x′,y′)的坐标值满足下述公式(5)：

进而，在目标特征点确定了，且目标特征点的第一位置偏移量已经基于上述S202预测得知的情况下，可以利用上述公式(5)得到目标对象的二维检测框的中心点在所述图像坐标系中的第一坐标信息。

在基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息时，在目标特征点对应的下采样尺寸信息已经基于上述S202预测得到的情况下，可以基于上述公式(3)到目标对象的在待处理图像中二维检测框在待处理图像中的尺寸信息。

B：待处理图像对应的相机坐标系，例如是以拍摄待处理图像的相机的光轴为z轴，以相机的光心所在、且垂直于相机的光轴的平面为X轴和Y轴所在平面建立的三维坐标系。其中，Z轴方向称深度方向。

参见图3所示，本公开实施例还提供一种基于所述待处理图像，所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在图像坐标系中的投影位置信息的方法，包括：

S301：基于所述待处理图像的特征图，得到与所述特征图中的每个特征点对应的第二位置偏移量。

其中，假设神经网络输出的特征图中，任一特征点在特征图中坐标值为：(x1，y1)，其物理含义为：物体的在图像中的投影点在图像中的位置，经过下采样、以及进行下取整后得到的坐标。

则(x1，y1)和第二位置偏移量相加，得到的坐标值，为物体的三维中心投影在在图像上形成投影点，并对投影点进行下采样后得到的坐标。

其中，各个特征点对应的第二位置偏移量，用于表征各个特征点和与各个特征点对应的第二像素点在经过下采样后形成的位置偏移；所述第二像素点为所述三维检测框的中心点在所述待处理图像中的投影点在所述待处理图像中对应的像素点。

待处理图像的特征图的获取方式与上述S201中特征图的获取方式相同。

在基于待处理图像的特诊图，得到与特征图中的每个特征点对应的第二位置偏移量时，例如可以利用预先训练的第二位置偏移量预测神经网络，对特征图进行第二位置偏移量预测处理，得到特征图中的各个特征点分别对应的第二位置偏移量。

这里，第二位置偏移量预测神经网络例如也可以是骨干神经网络的延伸的分支网络。将待处理图像输入至骨干神经网络；骨干神经网络对待处理图像进行下采样，得到待处理图像的特征图；特征图进入到第二位置偏移量预测神经网络后，得到特征图中各个特征点分别对应的第二位置偏移量。

这里，在训练第二位置偏移量预测神经网络的时候，例如在上述(1)中，对中心点预测神经网络进行训练的过程中，已经得到了样本图像，以及样本图像对应的标注图像。

例如可以对样本图像分别标注二维标注框、并标注三维标注框，然后基于标注的三维标注框，得到标注的三维标注框的中心点在待处理图像中的投影点在待处理图像中的坐标值s1；标注的二维标注框的中心点在待处理图像中的坐标值为s1’。

然后将标注的二维标注框的中心点在待处理图像中的坐标值s1’，利用上述公式(1)得到与s1对应的特征点，在特征图中的位置s2。

然后将标注的三维标注框的中心点在待处理图像中的投影点在待处理图像中的坐标值s1、以及利用公式(1)得到的s2，代入到上述公式(2)，即得样本对象的中心在样本对象对应的特征图中的特征点、与对应样本对象中心在样本图像中的中心点经过下采样后形成的位置偏移。

可以基于上述(1)中样本对象的中心点在样本图像中的标注位置信息，得到对待处理图像进行了下采样后，样本对象的三维检测框在待处理图像中的投影的中心点，的中心点、与对应的特征点之间的第一偏移量；将得到的该第一偏移量作为样本图像的第一偏移量标注信息，利用样本图像对待训练的第一偏移量预测神经网络进行训练，得到训练后的第一偏移量预测神经网络。

S302：基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息。

此处，所述投影位置信息包括下述至少一种：所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

示例性的，可以采用下述方式得到所述三维检测框在所述图像坐标系中的投影位置信息：

基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中，确定目标特征点；

基于所述目标特征点在所述特征图中的位置信息、所述目标特征点对应的第二位置偏移量、以及所述下采样率，确定所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

这里，确定目标特征点的方式，与上述S203中确定目标特征点的方式相似。

在确定了目标特征点后，例如可以将目标特征点在特征图中的位置信息、目标特征点对应的第二位置偏移量、以及所述下采样率，代入到上述公式(5)中，得到三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

针对上述S103：在基于上述S102中的二维位置信息、投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值时，例如可以采用下述方式：

基于所述二维位置信息、所述投影位置信息、所述目标对象的实际尺寸信息、所述目标对象的朝向信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值。

在该种实施方式中，本公开实施例提供的深度检测方法还包括：

基于所述待处理图像的特征图，对所述目标对象进行尺寸预测处理，得到所述目标对象的实际尺寸信息；

和/或，基于所述待处理图像的特征图，对所述目标对象进行朝向预测处理，得到所述目标对象在所述相机坐标系中的朝向信息。

本公开实施例中，例如可以利用预先训练的尺寸预测神经网络，对待处理图像的特征图进行尺寸预测处理，得到目标对象的实际尺寸信息。此处，目标对象的实际尺寸信息，例如为目标对象在待处理图像对应的相机坐标系中的三维包围框的尺寸信息。

另外，也可以利用预先训练的朝向预测神经网络对待处理图像的特征图进行朝向预测处理，得到目标对象在相机坐标系中的朝向信息。

此处，尺寸预测神经网络、以及朝向预测神经网络可以为骨干申请网络延伸的不同分支。其可以与上述实施例中所述的中心点预测神经网络、第一位置偏移量预测神经网络、二维检测框预测神经网络、第二位置偏移量预测神经网络、以及骨干神经网络进行同步训练。

在本公开实施例中，还包括：建立二维检测框和所述三维检测框之间的投影关系信息。

示例性的，二维检测框和三维检测框的投影关系信息，是基于所述三维检测框在图像坐标系中的投影的尺寸信息和位置信息、与所述二维检测框的尺寸信息和位置信息建立的。例如可以采用下述方式建立二维检测框和三维检测框之间的投影关系信息：

在相机坐标系中，任一目标对象的三维包围框被表示为一个七元组：(W、H、L、x、y、z、r _y)；其中，W、H、L分别表示三维包围框的长度、宽度、以及高度；(x,y,z)表示三维包围框的中心点坐标；r _y表示目标对象在相机坐标系中绕Y周旋转的角度，范围为[-π,π]。任一目标对象在对应图像坐标系中的二维包围框被表示为一个四元组：(w,h,u,v)；其中，w,h表示二维包围框的宽度和高度，(u,v)表示二维包围框的中心点在图像坐标系中的坐标值。

三维包围框的第c个角(c＝1，…，8)的在相机坐标系中的坐标记为

其中，

满足下述公式(6)：

其中：

满足下述公式(7)：

分别表示三维包围框的角点与三维包围框的中心点在相机坐标系的X、Y、Z方向上的坐标差，i∈{1,2}，表示不同的Δ值的正负。则三维包围框的第c个角在相机坐标系中的坐标表示为下述公式(8)：

其中，Ρ _obj表示三维包围框的中心点做包在相机坐标系中的坐标值；

表示三维包围框的角点在相机坐标系中的坐标值。

基于相机的内参矩阵，可以将角点从相机坐标系中投影到图像坐标系中，角点在图像坐标系中的投影点的坐标

满足下述公式(9)：

其中，z ^c表示第c个角点在相机坐标系中的深度值，u ^c,v ^c分表表示第c个角点在图像坐标系中的投影点在图像坐标系中的x轴的坐标值、以及y轴的坐标值。

在给定了目标对象的三维包围框在相机坐标系中的8个角点后，可以基于图像坐标系中的最上角max _c{v ^c}、与最下角min _c{v ^c}之间的垂直距离，估算得到二维包围框的投影高度h，满足下述公式(10)：

v ^c来源于上述公式(9)，

表示三维包围框中各个角点与中心点点的最大深度差值；z表示中心点点的深度值；Δy _max表示三维包围框中各个角点与中心点在相机坐标系的Y轴上的坐标差的最大值；Δy _min表示三维包围框中各个角点与中心点点之间在Y周上的坐标差的最小值；f _v表示相机的焦距。

三维包围框的中心点与水平面的夹角β满足下述公式(11)：

其中，(u _o,v _o)表示三维包围框的中心点在图像坐标系中投影点在图像坐标系中的坐标值。c _v表示相机的主点偏移。

结合上述公式(10)和公式(11)，三维包围框的中心点在相机坐标系中的深度z满足下述公式(12)：

其中，参量b满足(13)：

tanβ满足下述公式(14)：

进而，在确定上述公式(12)、(13)、以及(14)的参量的情况下，可以确定三维包围框的中心点的深度值。

上述公式(12)即为本公开实施例中所述二维包围框和三维包围框之间的投影关系信息。

在将上述公式(12)、(13)以及(14)作为投影关系信息用于本公开实施例提供的深度检测方法中时，f _v表示相机的焦距，可以基于待处理图像的属性信息读取得到；h表示目标对象在图像坐标系中的二维检测框的高度，可以根据上述二维位置信息得到，也即基于上述二维检测框尺寸信息得到。

Δz _max表示目标对象的三维检测框的8个角点与三维检测框中心点深度之间深度差的最大值。其中，三维检测框的8个角点中的第c个角点与三维检测框的中心点的深度差Δz ^c满足下述公式(15)：

其中，L和W分别来源于目标对象的实际尺寸信息，分别表示目标对象的高度和宽度。r _y为目标对象的朝向信息。

基于目标对象的实际尺寸信息中的宽度值W和长度值L、以及目标对象的朝向信息、以及上述公式(15)，计算目标对象的三维检测框的8个角点分别与三维检测框的中心点的深度差，然后将然后取8个角点分别与三维检测框的中心点之间的深度差的最大值，即Δz _max。

然后利用上述公式(14)，确定三维包围框的中心点与水平面的夹角β的正切值即tan(β)。

然后，利用目标对象的实际尺寸信息中的高度值H，tan(β)、Δz _max、相机的焦距、以及待处理图像对应的二维检测框的高度h，代入到公式(12)、和(13)，得到目标对象的中心点的中间深度值。

针对S104：在得到目标对象的中心点在相机坐标系中的深度值后，例如可以采用下述方式得到所述目标对象的中心点在所述相机坐标系中的目标深度值：

对所述目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换，得到深度特征图；

基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

在实施中，对所述目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换，得到深度特征图，其目的是为了去除深度特征图的噪声，进而能够将深度特征图作为待处理图像的特征的一部分，将深度特征图和待处理图像的特征图叠加起来，构成待处理图像对应的目标特征图，然后利用预先训练的深度值预测神经网络对所述目标特征图进行深度预测处理，得到所述特征图中各个特征点的目标深度值；

基于所述特征图中各个特征点属于目标对象的中心点的概率、以及所述各个特征点分别对应的目标深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

此处，对目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换时，例如可以利用非线性变换模块，对目标对象的中心点在所述相机坐标系中的中间深度值进行非线性变换，以得到深度特征图。

这样，利用二维检测框和三维检测框之间的投影关系信息，生成能够对深度预测进行限制的深度特征图，然后利用深度特征图作为深度预测的特征数据，将之与待处理图像的特征图叠加后，得到待处理图像的目标特征图，然后利用深度预测神经网络对目标特征图进行深度预测处理，得到的目标对象的中心点的深度值，具有更高的置信度和准确度。

本公开另一实施例中，还包括：基于所述目标对象的中心点在所述相机坐标系中的目标深度值、以及所述目标对象的实际尺寸信息，得到所述目标对象在所述相机坐标系中的三维检测结果。

这样，可以基于三维检测结果进行后续的处理，例如在将本公开实施例应用于自动驾驶领域时，可以基于三维检测结果，控制自动驾驶车辆的自动驾驶过程。

参见图4所示，本公开实施例提供一种利用目标神经网络对待处理图像进行处理，得到目标对象在待处理图像对应的相机坐标系中的深度值的示例。包括：

该目标神经网络包括：骨干神经网络401、与骨干神经网络分别连接的中心点预测神经网络402、第一位置偏移量预测神经网络403、二维检测框预测神经网络404、第二位置偏移量预测神经网络405、尺寸预测神经网络406、朝向预测神经网络407。

将待处理图像输入至骨干神经网络401，得到特征图(Feature map)。

将特征图输入到中心点预测神经网络402，得到热图(Heatmap)，其中，热图中各个像素点的像素值，表征与该像素点对应的特征图中的特征点属于目标对象的中心点的概率。

将特征图输入到第一位置偏移量预测神经网络403，得到每个特征点对应的第一位置偏移量(2D offset)。

将特征图输入到二维检测框预测神经网络404，得到以各个特征点为中心点的下采样二维检测框的下采样尺寸信息即二维检测框尺寸信息。

将特征图输入到第二位置偏移量预测神经网络405，得到特征图中的每个特征点对应的第二位置偏移量(3D offset)。

将特征图输入到尺寸预测神经网络406，得到目标对象在图像坐标系中的实际尺寸信息(3D dimension)。

将特征图输入到朝向预测神经网络407，得到目标对象的朝向信息(Orientation)。

在目标神经网络中，还包括：与中心点预测神经网络402、第一位置偏移量预测神经网络403、二维检测框预测神经网络404连接的第一处理模块408。

热图、第一位置偏移量、以及二维检测框尺寸信息进入到第一处理模块408，第一处理模块408利用热图、第一位置偏移量、以及二维检测框尺寸信息，生成目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息。

在目标神经网络中，还包括：与中心点预测神经网络402、第二位置偏移量预测神经网络405连接的第二处理模块409。

热图、第二位置偏移量进入到第二处理模块409，第二处理模块利用热图、第二位置偏移量，生成目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息投影位置信息。

在目标神经网络中，还包括：与第一处理模块408、第二处理模块409、尺寸预测神经网络406、朝向预测神经网络407连接的第三处理模块410。

二维位置信息、投影位置信息、实际尺寸信息、朝向信息被输入至第三处理模块410，第三处理模块410基于二维检测框和三维检测框之间的投影关系信息(也即上述公式(12)、(13)、和(14))，利用二维位置信息、投影位置信息、实际尺寸信息、朝向信息，得到目标对象的中心点在所述相机坐标系中的中间深度值所构成的深度图(Depth map)。

在目标神经网络中，还包括：与第三处理模块410连接的非线性变换模块411。

深度图进入到非线性变换模块411，非线性变换模块411对深度图进行非线性变换，得到深度特征图(Geometric map)。

在目标神经网络中，还包括：与骨干网络401和非线性变换模块411连接的第四处理模块412。

深度特征图和特征图输入至第四处理模块412，第四处理模块412对深度特征图和特征图进行叠加处理，得到待处理图像的目标特征图。

在目标神经网络中，还包括：与第四处理模块412连接的深度预测神经网络413。

将目标特征图输入至深度预测神经网络413，深度预测神经网络413对目标特征图进行深度预测处理，得到目标对象的中心点在相机坐标系中的目标深度值。

通过上述目标神经网络，能够得到待处理图像的中心点在相机坐标系中的目标深度值。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与深度检测方法对应的深度检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述深度检测方法相似，因此装置的实施可以参见方法的实施。

参照图5所示，为本公开实施例提供的一种深度检测装置的示意图，所述装置包括：

获取模块51，配置为获取待处理图像；

第一处理模块52，配置为基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；

第二处理模块53，配置为基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；

预测模块54，配置为基于所述中间深度值和所述待处理图像，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

一种可能的实施方式中，所述第一处理模块52，在基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息时，配置为：

对所述待处理图像进行特征提取，获取待处理图像的特征图；

基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率、与各个特征点对应的第一位置偏移量、和以各个特征点为中心点的下采样二维检测框的下采样尺寸信息；

基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息；

一种可能的实施方式中，所述第一处理模块52，在基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息时，配置为：

以及，

基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息。

一种可能的实施方式中，所述第一处理模块52，在对所述待处理图像进行特征提取，获取待处理图像的特征图时，配置为：

利用预先训练的骨干神经网络对所述待处理图像进行特征提取，得到所述待处理图像的特征图；

一种可能的实施方式中，所述第一处理模块52，在基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率时，配置为：

利用预先训练的中心点预测神经网络对特征图进行中心点预测处理，得到特征图中的各个特征点属于目标对象的中心点的概率。

一种可能的实施方式中，还包括训练模块55，配置为采用下述方式训练所述中心点预测神经网络：

获取样本图像，以及样本对象的中心点在所述样本图像中的标注位置信息；其中，所述样本对象的中心点为样本对象在所述样本图像对应的相机坐标系中的三维检测框的中心点在所述样本图像中的投影点；

利用所述样本图像、以及所述位置标注信息，对待训练的骨干神经网络、以及待训练的中心点预测神经网络进行训练，得到训练好的所述中心点预测神经网络。

一种可能的实施方式中，所述第一处理模块52，在基于所述待处理图像，所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息时，配置为：

基于所述待处理图像的特征图，得到与所述特征图中的每个特征点对应的第二位置偏移量；

基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息。

一种可能的实施方式中，所述第一处理模块52，在投影位置信息包括下述至少一种：所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。

一种可能的实施方式中，所述第一处理模块52，在基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息时，配置为：

一种可能的实施方式中，所述第二处理模块53，在基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值时，配置为：

一种可能的实施方式中，所述第一处理模块52，还配置为：

一种可能的实施方式中，所述预测模块54，在所述基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值时，配置为：

一种可能的实施方式中，所述预测模块54，在基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值时，配置为：

将所述深度特征图、以及所述待处理图像的特征图进行叠加，形成目标特征图；

利用预先训练的深度值预测神经网络对所述目标特征图进行深度预测处理，得到所述特征图中各个特征点的目标深度值；

一种可能的实施方式中，还包括第三处理模块56，配置为基于所述目标对象的中心点在所述相机坐标系中的目标深度值、以及所述目标对象的实际尺寸信息，得到所述目标对象在所述相机坐标系中的三维检测结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图6所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器61和存储器62；所述存储器62存储有处理器61可执行的机器可读指令，处理器61用于执行存储器62中存储的机器可读指令，所述机器可读指令被处理器61执行时，处理器61执行下述步骤：

获取待处理图像；

基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；

基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；

基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。

上述存储器62包括内存621和外部存储器622；这里的内存621也称内存储器，用于暂时存放处理器61中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器61通过内存621与外部存储器622进行数据交换。

上述指令的执行过程可以参考本公开实施例中所述的深度检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的深度检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的深度检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

工业实用性

本公开实施例中，获取待处理图像；基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。本公开实施例能够提升预测得到的目标对象在相机坐标系中深度信息的准确度。

Claims

一种深度检测方法，包括：

获取待处理图像；

基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；

基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；

基于所述中间深度值和所述待处理图像，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求1所述的深度检测方法，其中，所述基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息，包括：

对所述待处理图像进行特征提取，获取待处理图像的特征图；

基于所述特征图，得到所述特征图中的各个特征点属于目标对象的中心点的概率、与各个特征点对应的第一位置偏移量、和以各特征点为中心点的下采样二维检测框的下采样尺寸信息；

基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息；

其中，下采样二维检测框，为对待处理图像进行下采样后，所述目标对象二维检测框产生限缩形成的检测框。
根据权利要求2所述的深度检测方法，其中，所述二维位置信息包括：所述二维检测框的中心点在所述图像坐标系中的第一坐标信息、以及所述二维检测框的尺寸信息。
根据权利要求3所述的深度检测方法，其中，所述基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息，包括：

基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中确定目标特征点；

基于所述目标特征点在所述特征图中的位置信息、所述目标特征点的第一位置偏移量、以及下采样率，确定所述二维检测框的中心点在所述图像坐标系中的第一坐标信息；

以及，

基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息。
根据权利要求2至4任一项所述的深度检测方法，其中，所述对所述待处理图像进行特征提取，获取待处理图像的特征图，包括：

利用预先训练的骨干神经网络对所述待处理图像进行特征提取，得到所述待处理图像的特征图；

所述基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率，包括：

利用预先训练的中心点预测神经网络对特征图进行中心点预测处理，得到特征图中的各个特征点属于目标对象的中心点的概率。
根据权利要求5所述的深度检测方法，其中，采用下述方式训练所述中心点预测神经网络：

获取样本图像，以及样本对象的中心点在所述样本图像中的标注位置信息；其中，所述样本对象的中心点为样本对象在所述样本图像对应的相机坐标系中的三维检测框的中心点在所述样本图像中的投影点；

利用所述样本图像、以及所述位置标注信息，对待训练的骨干神经网络、以及待训练的中心点预测神经网络进行训练，得到训练好的所述中心点预测神经网络。
根据权利要求1至6任一项所述的深度检测方法，其中，所述基于所述待处理图像，确定所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息，包括：

基于所述待处理图像的特征图，得到与所述特征图中的每个特征点对应的第二位置偏移量；

基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息。
根据权利要求7所述的深度检测方法，其中，所述投影位置信息包括下述至少一种：所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。
根据权利要求8所述的深度检测方法，其中，所述基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息，包括：

基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中，确定目标特征点；

基于所述目标特征点在所述特征图中的位置信息、所述目标特征点对应的第二位置偏移量、以及所述下采样率，确定所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。
根据权利要求1至9任一项所述的深度检测方法，其中，所述基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值，包括：

基于所述二维位置信息、所述投影位置信息、所述目标对象的实际尺寸信息、所述目标对象的朝向信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值。
根据权利要求10所述的深度检测方法，其中，还包括：

基于所述待处理图像的特征图，对所述目标对象进行尺寸预测处理，得到所述目标对象的实际尺寸信息；

和/或，基于所述待处理图像的特征图，对所述目标对象进行朝向预测处理，得到所述目标对象在所述相机坐标系中的朝向信息。
根据权利要求1至11任一项所述的深度检测方法，其中，所述二维检测框和三维检测框的投影关系信息，是基于所述三维检测框在图像坐标系中的投影的尺寸信息和位置信息、与所述二维检测框的尺寸信息和位置信息建立的。
根据权利要求1至12任一项所述的深度检测方法，其中，所述基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值，包括：

对所述目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换，得到深度特征图；

基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求13所述的深度检测方法，其中，所述基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值，包括：

将所述深度特征图、以及所述待处理图像的特征图进行叠加，形成目标特征图；

利用预先训练的深度值预测神经网络对所述目标特征图进行深度预测处理，得到所述特征图中各个特征点的目标深度值；

基于所述特征图中各个特征点属于目标对象的中心点的概率、以及所述各个特征点分别对应的目标深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求1至14任一项所述的深度检测方法，其中，还包括：基于所述目标对象的中心点在所述相机坐标系中的目标深度值、以及所述目标对象的实际尺寸信息，得到所述目标对象在所述相机坐标系中的三维检测结果。
一种深度检测装置，包括：

获取模块，配置为获取待处理图像；

第一处理模块，配置为基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息、以及所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息；

第二处理模块，配置为基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象的中心点在所述相机坐标系中的中间深度值；

预测模块，配置为基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求16所述的装置，其中，所述第一处理模块，在基于所述待处理图像，确定目标对象的二维检测框在所述待处理图像对应的图像坐标系中的二维位置信息时，配置为：对所述待处理图像进行特征提取，获取待处理图像的特征图；基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率、与各个特征点对应的第一位置偏移量、和以各个特征点为中心点的下采样二维检测框的下采样尺寸信息；基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息；其中，下采样二维检测框，为对待处理图像进行下采样后，所述目标对象二维检测框产生限缩形成的检测框。
根据权利要求17所述的装置，其中，所述二维位置信息包括：所述二维检测框的中心点在所述图像坐标系中的第一坐标信息、以及所述二维检测框的尺寸信息。
根据权利要求18所述的装置，其中，所述所述第一处理模块，在基于所述概率、所述第一位置偏移量以及所述下采样尺寸信息，得到所述二维位置信息时，配置为：基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中确定目标特征点；基于所述目标特征点在所述特征图中的位置信息、所述目标特征点的第一位置偏移量、以及下采样率，确定所述二维检测框的中心点在所述图像坐标系中的第一坐标信息；以及，基于所述目标特征点对应的下采样尺寸信息、以及所述下采样率，确定所述二维检测框的尺寸信息。
根据权利要求17至19任一项所述的装置，其中，所述第一处理模块，在对所述待处理图像进行特征提取，获取待处理图像的特征图时，配置为：利用预先训练的骨干神经网络对所述待处理图像进行特征提取，得到所述待处理图像的特征图；所述第一处理模块，在基于所述特征图，得到所述特征图中的每个特征点属于目标对象的中心点的概率时，配置为：利用预先训练的中心点预测神经网络对特征图进行中心点预测处理，得到特征图中的各个特征点属于目标对象的中心点的概率。
根据权利要求20所述的装置，其中，还包括训练模块，配置为采用下述方式训练所述中心点预测神经网络：获取样本图像，以及样本对象的中心点在所述样本图像中的标注位置信息；其中，所述样本对象的中心点为样本对象在所述样本图像对应的相机坐标系中的三维检测框的中心点在所述样本图像中的投影点；利用所述样本图像、以及所述位置标注信息，对待训练的骨干神经网络、以及待训练的中心点预测神经网络进行训练，得到训练好的所述中心点预测神经网络。
根据权利要求16至20任一项所述的装置，其中，所述第一处理模块，在基于所述待处理图像，确定所述目标对象在所述待处理图像对应的相机坐标系中的三维检测框在所述图像坐标系中的投影位置信息时，配置为：基于所述待处理图像的特征图，得到与所述特征图中的每个特征点对应的第二位置偏移量；基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息。
根据权利要求22所述的装置，其中，所述第一处理模块，在投影位置信息包括下述至少一种：所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。
根据权利要求23所述的装置，其中，所述第一处理模块，在基于所述特征图中的每个特征点属于目标对象的中心点的概率、所述第二位置偏移量、以及下采样率，得到所述三维检测框在所述图像坐标系中的投影位置信息时，配置为：基于所述特征图中的每个特征点属于目标对象的中心点的概率，从所述特征图中，确定目标特征点；基于所述目标特征点在所述特征图中的位置信息、所述目标特征点对应的第二位置偏移量、以及所述下采样率，确定所述三维检测框的中心点在所述图像坐标系中投影点的第二坐标信息。
根据权利要求16至24任一项所述的装置，其中，所述所述第二处理模块，在基于所述二维位置信息、所述投影位置信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值时，配置为：基于所述二维位置信息、所述投影位置信息、所述目标对象的实际尺寸信息、所述目标对象的朝向信息、以及所述二维检测框和所述三维检测框之间的投影关系信息，得到所述目标对象在所述相机坐标系中的中间深度值。
根据权利要求25所述的装置，其中，所述第一处理模块，还配置为：基于所述待处理图像的特征图，对所述目标对象进行尺寸预测处理，得到所述目标对象的实际尺寸信息；和/或，基于所述待处理图像的特征图，对所述目标对象进行朝向预测处理，得到所述目标对象在所述相机坐标系中的朝向信息。
根据权利要求16至26任一项所述的装置，其中，所述二维检测框和三维检测框的投影关系信息，是基于所述三维检测框在图像坐标系中的投影的尺寸信息和位置信息、与所述二维检测框的尺寸信息和位置信息建立的。
根据权利要求16至27任一项所述的装置，其中，所述预测模块，在所述基于所述中间深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值时，配置为：对所述目标对象的中心点在所述相机坐标系中的中间深度值构成的深度图像进行非线性变换，得到深度特征图；基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求28所述的装置，其中，所述预测模块，在基于所述深度特征图、以及所述待处理图像的特征图，得到所述目标对象的中心点在所述相机坐标系中的目标深度值时，配置为：将所述深度特征图、以及所述待处理图像的特征图进行叠加，形成目标特征图；利用预先训练的深度值预测神经网络对所述目标特征图进行深度预测处理，得到所述特征图中各个特征点的目标深度值；基于所述特征图中各个特征点属于目标对象的中心点的概率、以及所述各个特征点分别对应的目标深度值，得到所述目标对象的中心点在所述相机坐标系中的目标深度值。
根据权利要求16至29任一项所述的装置，其中，还包括第三处理模块，配置为基于所述目标对象的中心点在所述相机坐标系中的目标深度值、以及所述目标对象的实际尺寸信息，得到所述目标对象在所述相机坐标系中的三维检测结果。
一种计算机设备，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至15任一项所述的深度检测方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至15任一项所述的深度检测方法的步骤。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1至15中任一项所述的深度检测方法。
一种计算机程序产品，所述计算机程序产品包括一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1至15任一项所述深度检测方法中的步骤。