WO2021227694A1

WO2021227694A1 - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: WO2021227694A1
Application number: PCT/CN2021/084625
Authority: WO
Inventors: 王灿; 李杰锋; 刘文韬; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2020-05-13
Filing date: 2021-03-31
Publication date: 2021-11-18
Also published as: TWI777538B; TW202143100A; CN111582207A; CN111582207B

Abstract

一种图像处理方法、装置、电子设备及存储介质，其中，该方法包括：识别第一图像中的目标对象的目标区域（S101）；基于目标对象对应的目标区域，确定表征目标对象姿态的多个关键点分别在第一图像中的第一二维位置信息、每个关键点相对目标对象的参考节点的相对深度、以及目标对象的参考节点在相机坐标系中的绝对深度（S102）；基于目标对象的第一二维位置信息、相对深度、以及绝对深度，确定目标对象的多个关键点分别在相机坐标系中的三维位置信息（S103）。

Description

图像处理方法、装置、电子设备及存储介质

本公开要求在2020年05月13日提交中国专利局、申请号为202010403620.5、申请名称为“图像处理方法、装置、电子设备及存储介质”的中国专利的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

三维人体姿态检测计被广泛应用于安防、游戏、娱乐等领域。当前的三维人体姿态检测方法通常为识别人体关键点在图像中的第一二维位置信息，然后根据预先确定的人体关键点之间的位置关系，将第一二维位置信息转换为三维位置信息。

当前的三维人体姿态检测方法所得到的人体姿态存在较大的误差。

发明内容

本公开实施例至少提供一种图像处理方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种图像处理方法，包括：识别第一图像中的目标对象所在的目标区域；基于所述目标对象所在的目标区域，确定所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；基于所述目标对象的多个关键点分别对应的所述第一二维位置信息和所述相对深度、以及所述参考节点对应的所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。

这样，本公开实施例能够更精确的得到目标对象的多个关键点分别在相机坐标系中的三维位置信息，目标对象的多个关键点分别在相机坐标系中的三维位置信息能够表征目标对象的三维姿态，三维位置信息的精度越高，则得到的目标对象的三维姿态的精度也就越高。

一种可能的实施方式中，还包括：基于所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息，得到所述目标对象的姿态。

这样，基于本公开实施例得到的目标对象的多个关键点分别在相机坐标系中的三维位置信息，由于三维位置信息具有更高的精度，因而基于三维位置信息确定的目标对象的姿态也就更为精确。

一种可能的实施方式中，所述识别所述第一图像中的目标对象所在的目标区域，包括：对所述第一图像进行特征提取，得到所述第一图像的特征图；基于所述特征图，从预先生成的多个候选边界框中确定多个目标边界框；基于多个所述目标边界框，确定所述目标对象所在的目标区域。

这样，分为两步来确定目标对象所在的目标区域，能够精确的将各个目标对象在第一图像中的位置，从第一图像中检测出来，以提升后续关键点检测过程中的人体信息完整性、以及检测精度。

一种可能的实施方式中，所述基于多个所述目标边界框，确定所述目标对象所在的目标区域，包括：基于多个所述目标边界框以及所述特征图，确定每个所述目标边界框的特征子图；对多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象所在的目标区域。

这样，对多个目标边界框分别对应的特征子图进行边界框回归处理，能够精确的将各个目标对象在第一图像中的位置从第一图像中检测出来。

一种可能的实施方式中，基于所述目标对象所在的目标区域，确定所述目标对象的参考节点在相机坐标系中的绝对深度，包括：基于所述目标对象所在的目标区域以及所述第一图像，确定所述目标对象的目标特征图；对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度；基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

这样，能够尽可能避免相机的内参不同所造成的直接基于目标特征图预测参考节点的绝对深度，所造成对不同相机在相同视角、相同位置获取的不同第一图像获取的绝对深度不同的情况。

一种可能的实施方式中，所述对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度，包括：基于所述第一图像，确定初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值为所述第一图像中与所述第一像素点的位置对应的第二像素点在所述相机坐标系中的初始深度值；基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息；基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。

这样，能够使得通过该过程得到参考节点的归一化绝对深度更加精确。

一种可能的实施方式中，所述基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度，包括：对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；将所述特征向量和所述初始深度值进行拼接，得到拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。

一种可能的实施方式中，所述参数矩阵包括：所述相机的焦距；

所述基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度，包括：

基于所述归一化绝对深度、所述焦距、所述目标区域的面积、以及所述目标边界框的面积，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

一种可能的实施方式中，所述图像处理方法应用于预先训练好的神经网络中，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。

这样，通过目标检测网络、关键点检测网络以及深度预测网络三个分支网络，构成端到端的目标对象姿态检测框架，基于该框架对第一图像进行处理，得到第一图像中每个目标对象的多个关键点分别在相机坐标系中的三维位置信息，处理速度更快，识别精度更高。

第二方面，本公开实施例还提供一种图像处理装置，包括：识别模块，用于识别第一图像中的目标对象所在的目标区域；第一检测模块，用于基于所述目标对象所在的目标区域，确定所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；第二检测模块，用于基于所述目标对象的多个关键点分别对应的所述第一二维位置信息和所述相对深度、以及所述参考节点对应的所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。

一种可能的实施方式中，所述第二检测模块，还用于基于所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息，得到所述目标对象的姿态。

一种可能的实施方式中，所述识别模块，在识别所述第一图像中的目标对象所在的目标区域时，用于：对所述第一图像进行特征提取，得到所述第一图像的特征图；基于所述特征图，从预先生成的多个候选边界框中确定多个目标边界框；基于多个所述目标边界框，确定所述目标对象所在的目标区域。

一种可能的实施方式中，所述识别模块，在基于多个所述目标边界框，确定所述目标对象所在的目标区域时，用于：基于多个所述目标边界框以及所述特征图，确定每个所述目标边界框的特征子图；对多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象所在的目标区域。

一种可能的实施方式中，其中，所述第一检测模块，在基于目标对象所在的目标区域，确定所述目标对象的参考节点在相机坐标系中的绝对深度时，用于：基于所述目标对象所在的目标区域以及所述第一图像，确定所述目标对象的目标特征图；对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度；基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

一种可能的实施方式中，所述第一检测模块，在对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度时，用于：基于所述第一图像，确定初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值为所述第一图像中与所述第一像素点的位置对应的第二像素点在所述相机坐标系中的初始深度值；基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息；基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。

一种可能的实施方式中，所述第一检测模块，在基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度时，用于：对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；将所述特征向量和所述初始深度值进行拼接，得到拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。

一种可能的实施方式中，所述参数矩阵包括：所述相机的焦距；所述第一检测模块，在基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度时，用于：

一种可能的实施方式中，所述图像处理装置利用预先训练好的神经网络实现图像处理，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。

第三方面，本公开实施例还提供一种计算机设备，包括：相互连接的处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述机器可读指令被所述处理器执行以实现上述第一方面，或第一方面中任一种可能的实施方式中的图像处理方法的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的图像处理方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像处理方法的流程图；

图2示出了本公开实施例所提供的识别第一图像中目标对象所在的目标区域的具体方法的流程图；

图3示出了本公开实施例所提供的基于目标边界框，确定目标对象对应的目标区域的具体示例；

图4示出了本公开实施例所提供的确定目标对象的参考节点在相机坐标系中的绝对深度的具体方法的流程图；

图5示出了本公开实施例所提供的另一种得到参考节点的归一化绝对深度的具体方法的流程图；

图6示出了本公开实施例所提供的目标对象姿态检测框架的具体示例；

图7示出了本公开实施例所提供的另一种目标对象姿态检测框架的具体示例；

图8示出了本公开实施例所提供的一种图像处理装置的示意图；

图9示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

三维人体姿态检测方法通常为通过神经网络识别人体关键点在待识别图像中的第一二维位置信息，然后根据人体关键点之间的相互位置关系(如不同关键点之间的连接关系、相邻关键点之间的距离范围等)将各个人体关键点的第一二维位置信息转换为三维位置信息；但人的体型复杂多变，不同的人体所对应的人体关键点之间的位置关系也各不相同，导致通过这种方法得到的三维人体姿态存在较大的误差。

另外，当前的三维人体姿态检测方法的精度是建立在人体关键点精确估计的基础上，但由于衣服、肢体等遮挡，在很多情况下并不能精确的从图像中将人体关键点识别出来，进而造成通过上述方法得到的三维人体姿态误差会被进一步拉大。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

基于上述研究，本公开提供了一种图像处理方法及装置，通过识别第一图像中目标对象所在的目标区域，并基于目标区域，确定表征目标对象姿态的多个关键点分别在第一图像中的第一二维位置信息、每个关键点相对于目标对象的参考节点的相对深度、以及目标对象的参考节点在相机坐标系中的绝对深度，从而基于目标对象的第一二维位置信息、相对深度、以及绝对深度，更精确的得到目标对象的多个关键点分别在相机坐标系中的三维位置信息。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种图像处理方法进行详细介绍，本公开实施例所提供的图像处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的图像处理方法加以说明。

参见图1所示，为本公开实施例提供的图像处理方法的流程图，所述方法包括步骤S101～S103，其中：

S101：识别第一图像中的目标对象所在的目标区域；

S102：基于所述目标对象所在的目标区域，确定所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；

S103：基于所述目标对象的多个关键点分别对应的所述第一二维位置信息和所述相对深度、以及所述参考节点对应的所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。

下面分别对上述S101～S103加以详细说明。

I：在上述S101中，第一图像中包括有至少一个目标对象。目标对象例如为人、动物、机器人、车辆等待确定姿态的对象。

一种可能的实施方式中，当第一图像中包括的目标对象多于一个的时候，不同目标对象的类别可以相同，也可以不同；例如，多个目标对象均为人；或者多个目标对象均为车辆。又例如，第一图像中的目标对象包括：人和动物；或者第一图像中的目标对象包括人和车辆，具体根据实际的应用场景需要来确定目标对象类别。

目标对象所在的目标区域，是指第一图像中包括有目标对象的区域。

示例性的，参见图2所示，本公开实施例提供一种识别第一图像中目标对象所在的目标区域的具体方法，包括：

S201：对所述第一图像进行特征提取，得到所述第一图像的特征图。

此处，例如可以利用神经网络对第一图像进行特征提取，以得到第一图像的特征图。

S202：基于所述特征图，从预先生成的多个候选边界框中确定多个目标边界框；

S203：基于多个所述目标边界框，确定所述目标对象所在的目标区域。

在具体实施中，例如可以利用边界框预测算法，得到多个目标边界框。边界框预测算法例如包括RoIAlign、ROI-Pooling等，以RoIAlign为例，RoIAlign可以对预先生成的多个候选边界框进行遍历，确定各个候选边界框对应的子图像属于第一图像中任一目标对象的感兴趣区域(region of interest，ROI)值，该ROI值越高，与之对应的候选边界框对应的子图像属于某个目标对象的概率也就越大；在确定了每个候选边界框对应的ROI值后，根据各个候选边界框分别对应的ROI值从大到小的顺序，从候选边界框中确定多个目标边界框。

目标边界框例如为矩形；目标边界框的信息例如包括：目标边界框中任一顶点在第一图像中的坐标，以及目标边界框的高度值和宽度值。或者，目标边界框的信息例如包括：目标边界框中任一顶点在第一图像的特征图中的坐标，以及目标边界框的高度值和宽度值。

在得到多个目标边界框后，基于多个目标边界框，确定第一图像中所有的目标对象分别对应的目标区域。

参见图3所示，本公开实施例提供一种基于目标边界框，确定目标对象对应的目标区域的具体示例，包括：

S301：基于多个所述目标边界框以及所述特征图，确定每个所述目标边界框的特征子图。

在具体实施中，在目标边界框的信息包括目标边界框上的任一顶点在第一图像中的坐标，以及目标边界框的高度值和宽度值的情况下，特征图中的特征点和第一图像中的像素点具有一定的位置映射关系；根据该目标边界框的相关信息、以及特征图和第一图像之间的映射关系，从第一图像的特征图中确定各个目标边界框分别对应的特征子图。

在目标边界框的信息包括目标边界框中任一顶点在第一图像的特征图中的坐标，以及目标边界框的高度值和宽度值的情况下，可以直接基于该目标边界框，从第一图像的特征图中确定与各个目标边界框分别对应的特征子图。

S302：对多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象所在的目标区域。

此处，例如可以利用边界框回归(Bounding-Box Regression)算法，对各个目标边界框分别对应的特征子图进行边界框回归处理，以得到包括完整目标对象的多个边界框。

在利用边界框回归算法，能够准确的将目标对象从对应的目标区域确定出来，以将目标对象和图像背景区别开，进而减少图像背景对后续图像处理过程的影响。

多个边界框中的每个边界框与一个目标对象对应，基于与该目标对象对应的边界框确定的区域，即为对应目标对象所在的目标区域。

此时，所得到的目标区域的数量，与第一图像中目标对象的数量一致，且每个目标对象对应一个目标区域；若不同的目标对象之间存在相互遮挡的位置关系，则存在相互遮挡关系的目标对象分别对应的目标区域具有一定的重叠度。

本公开另一种实施例中，也可以采用其他目标检测算法是被第一图像中的目标对象所在的目标区域。例如，采用语义分割算法，确定第一图像中每个像素点的语义分割结果，然后根据语义分割结果，确定属于不同目标对象的像素点在第一图像中的位置；然后根据属于同一目标对象的像素点求最小包围框，将最小包围框对应的区域确定为目标对象所在的目标区域。

II：在上述S102中，图像坐标系，是指以第一图像的长和宽两个方向所建立的二维坐标系；相机坐标系，是指以相机的光轴所在方向、以及平行于光轴且相机的光心所在平面中的两个方向建立的三维坐标系。

目标对象的关键点，例如是位于目标对象上，且之间具有相互关系的，并且按照相互关系连接后能够表征目标对象姿态的像素点；例如，在目标对象为人体时，关键点例如包括人体各个关节的关键点。该关键点在图像坐标系中，表示为二维坐标值；在相机坐标系中，表示为三维坐标值。

在具体实施中，例如可以利用关键点检测网络，基于目标对象的目标特征图进行关键点检测处理，得到目标对象的多个关键点分别在第一图像中的二维位置信息，以及每个关键点相对于目标对象的参考节点的相对深度。此处，目标特征图的获取方式可以参见下述对S401的说明，在此不再赘述。

参考节点，例如为在目标对象上预先确定某个部位上的任一像素点。示例性的，可以根据实际的需要来预先确定该参考节点；例如在目标对象为人体时，可以将人体骨盆上的像素点确定为参考节点，或者将人体上任一像素点确定为参考节点，或者将人体的胸腹中央上的像素点确定为参考节点；具体的可以根据需要进行设定。

每个关键点相对于目标对象的参考节点的绝对深度，例如为关键点在相机坐标系的深度方向的坐标值、与参考节点在相机坐标系的深度方向的坐标值的差值。关键点的绝对深度，例如为关键点在相机坐标系的深度方向的坐标值。

参见图4所示，本公开实施例提供一种基于目标对象对应的目标区域，确定目标对象的参考节点在相机坐标系中的绝对深度的具体方法，包括：

S401：基于所述目标对象所在的目标区域以及所述第一图像，确定所述目标对象的目标特征图。

此处，例如可以基于对第一图像进行特征提取所得到第一图像的特征图、以及所述目标区域，从所述特征图中确定目标对象的目标特征图。

这里，为第一图像提取的特征图中的特征点和第一图像中的像素点具有一定的位置映射关系；在得到各个目标对象所在的目标区域后，能够根据该位置映射关系，确定各个目标对象在第一图像的特征图中的所在位置，然后将与各个目标对象的目标特征图从第一图像的特征图中截取出来。

S402：对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度。

此处，由于不同相机的内参不同，目标对象在不同相机的成像中会有所区别；若要直接确定目标对象的参考节点的绝对深度，会存在由于相机内参造成的误差，因此本公开实施例中，为了减少相机内参不同导致的图像差异对绝对深度造成的而影响，可以首先基于目标特征图，得到目标对象的参考节点的归一化绝对深度，然后再利用归一化绝对深度和相机内参，得到参考节点的绝对深度。该归一化绝对深度，是利用相机的参数矩阵对参考节点进行归一化后得到的绝对深度，在得到归一化绝对深度后，可以利用相机的参数矩阵，恢复参考节点的绝对深度。

在一种可能的实施方式中，例如可以采用预先训练的深度预测网络，对目标特征图执行深度检测处理，得到目标对象的参考节点的归一化绝对深度。

本公开另一种实施例中，参见图5所示，还提供另一种得到参考节点的归一化绝对深度的具体方法，包括：

S501：基于所述第一图像，确定初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值为所述第一图像中与所述第一像素点的位置对应的第二像素点在所述相机坐标系中的初始深度值。

在具体实施中，初始深度图像中的第一像素点与第一图像中的第二像素点具有一一对应关系，也即，第一像素点在初始深度图像中的坐标值，与位置对应的第二像素点在第一图像中的坐标值相同。

示例性的，可以利用可以采用深度预测网络，确定第一图像中每个像素点(第二像素点)初始深度值；各个第一像素点的初始深度值，构成了第一图像的初始深度图像；在初始深度图像中的任一像素点(第一像素点)的像素值，即为在第一图像中对应位置的像素点(第二像素点)的初始深度值。

S502：基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息；

S503：基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值。

此处，目标对象对应的目标特征图，例如可以基于各个目标对象对应的目标区域，从与第一图像的特征图中，为各个目标对象确定的目标特征图。

在得到各个目标对象对应的目标特征图后，例如可以利用预先训练的参考节点检测网络，基于目标特征图中确定目标对象的参考节点在第一图像中的第二二维位置信息。然后利用该第二二维位置信息，从初始深度图像确定与参考节点对应的像素点，并将该从初始深度图像中确定的像素点的像素值，确定为参考节点的初始深度值。

S504：基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。

示例性的，例如可以对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；将所述特征向量和所述初始深度值进行拼接，得到拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。

此处，例如可以采用一个用于对初始深度值进行调整的神经网络，该神经网络包括多个卷积层；其中，多个卷积层中的部分卷积层用于对目标特征图进行至少一级第一卷积处理；其他卷积层用于对拼接向量进行至少一级第二卷积处理，进而得到该修正值；然后根据该修正值对初始深度值进行调整，得到目标对象的参考节点的归一化深度。

承接上述S402，本公开实施例所提供的确定目标对象的参考节点在相机坐标系中的绝对深度的具体方法还包括：

S403：基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

在具体实施中，由于在对不同第一图像进行图像处理过程中，不同的第一图像可能通过不同的相机拍摄而成；而对于不同的相机，所对应的相机内参可能会不同；此处，相机内参例如包括：相机在x轴上的焦距、相机在y轴上的焦距、相机的光心在相机坐标系中的x轴和y轴的坐标。

相机内参不同，即使在相同视角、相同位置获取的第一图像也会有所区别；若直接基于目标特征图预测参考节点的绝对深度，会造成对不同相机在相同视角、相同位置获取的不同第一图像获取的绝对深度不同。

为了避免上述情况的产生，本公开实施例直接预测参考节点的归一化深度，该归一化绝对深度是在不考虑相机内参的情况下得到的；然后根据相机内参、以及归一化绝对深度，恢复参考节点的绝对深度。

在基于归一化绝对深度恢复参考节点的绝对深度时，例如可以基于所述归一化绝对深度、所述焦距、所述目标区域的面积、以及所述目标边界框的面积，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

示例性的，任一目标对象的参考节点的归一化绝对深度、和绝对深度满足下述公式(1)：

其中，

表示参考节点的归一化绝对深度；

表示参考节点绝对深度；A _Box表示目标区域的面积；A _RoI表示目标边界框的面积。

(f _x,f _y)表示相机焦距。示例性的，相机坐标系为三维坐标系；包括x、y和z三个坐标轴；相机坐标系的原点为相机的光心；相机的光轴为相机坐标系的z轴；光心所在的、且垂直于z轴的平面为x轴和y轴所在的平面；f _x为相机在x轴上的焦距；f _y为相机在y轴上的焦距。

这里需要注意的是，在上述S202中可知，通过RoIAlign确定的目标边界框有多个；且多个目标边界框的面积均相等。

由于相机焦距在相机获取第一图像的时候已经确定，且目标区域和目标边界框在确定目标区域的时候也已经确定，因而在得到参考节点的归一化绝对深度后，根据上述公式(1)得到目标对象的参考节点的绝对深度。

III：在上述S103中，假设每个目标对象包括J个关键点，且第一图像中的目标对象有N个；其中，N个目标对象的三维姿态表示为：

其中，第m个目标对象的三维姿态

可以表示为：

其中，

表示第m个目标对象的第j个关键点在相机坐标系中x轴方向的坐标值；

表示第m个目标对象的第j个关键点在相机坐标系中y轴方向的坐标值；

表示第m个目标对象的第j个关键点在相机坐标系中z轴方向的坐标值。

N个目标对象所在的目标区域表示为：

其中，第m个目标对象所在的目标区域

表示为：

此处，

和

表示目标区域的左上角所在的顶点的坐标值；

和

分别表示目标区域的宽度值和高度值。

N个目标对象的相对于参考节点的三维姿势表示为：

其中，第m个目标对象相对于参考节点的三维姿势

表示为：

其中，

表示第m个目标对象的第j个关键点在图像坐标系中x轴的坐标值；

表示第m个目标对象的第j个关键点在图像坐标系中y轴的坐标值；也即，

表示第m个目标对象的第j个关键点在图像坐标系中的二维坐标值。

表示第m个目标对象的第j个节点相对于第m个目标对象的参考节点的相对深度。

使用相机的内参矩阵K，通过反投影得到第m个目标对象的三维姿势，其中，第m个目标对象的第j个节点的三维坐标信息满足下述公式(2)

其中，

表示第m个目标对象的参考节点在相机坐标系中的绝对深度值。此处，需要注意的是，该

基于上述公式(1)对应的实施例获得。

内参矩阵K例如为：(f _x,f _y,c _x,c _y)；

其中：f _x为相机在相机坐标系中x轴上的焦距；f _y为相机在相机坐标系中在y轴上的焦距；c _x为相机的光心在相机坐标系中在x轴上的坐标值；c _y表示相机的光心在相机坐标系中在y轴上的坐标值。

通过上述过程，能够得到目标对象的多个关键点分别在相机坐标系中的三维位置信息；针对第m个目标对象，该目标对象的J个关键点分别对应的三维位置信息，表征第m个目标对象的三维姿态。

本公开实施例通过识别第一图像中目标对象所在的目标区域，并基于目标区域，确定表征目标对象姿态的多个关键点分别在第一图像中的第一二维位置信息、每个关键点相对于目标对象的参考节点的相对深度、以及目标对象的参考节点在相机坐标系中的绝对深度，从而基于目标对象的第一二维位置信息、相对深度、以及绝对深度，更精确的得到目标对象的多个关键点分别在相机坐标系中的三维位置信息。

本公开另一实施例中，还提供另外一种图像处理方法，其中，该图像处理方法应用于预先训练好的神经网络中。

其中，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。

上述三个分支网络的具体工作过程可以参见上述实施例所示，在此不再赘述。

本公开实施例通过目标检测网络、关键点检测网络以及深度预测网络三个分支网络，构成端到端的目标对象姿态检测框架，基于该框架对第一图像进行处理，得到第一图像中每个目标对象的多个关键点分别在相机坐标系中的三维位置信息，处理速度更快，识别精度更高。

参见图6所示，本公开实施例还提供一种目标对象姿态检测框架的具体示例，包括：

目标检测网络、关键点检测网络、以及深度预测网络三个网络分支；

其中，目标检测网络对第一图像进行特征提取，得到第一图像的特征图；然后，根据第一特征图，采用RoIAlign从预先生成的多个候选边界框中，确定多个目标边界框；对多个目标边界框执行边界框回归处理，得到与每个目标对象对应的目标区域。将目标区域对应的目标特征图，传输至关键点检测网络、以及深度预测网络。

关键点检测网络，基于目标特征图，确定表征目标对象姿态的多个关键点分别在所述第一图像中的第一二维位置信息、每个关键点相对所述目标对象的参考节点的相对深度。其中，针对每个目标特征图中各个关键点的第一二维位置信息、及相对深度，构成该目标特征图中目标对象的三维姿态。此时的三维姿态，是以自身为参照的三维姿态。

深度预测网络，基于目标特征图，确定目标对象的参考节点在相机坐标系中的绝对深度。

最终，根据目标对象的所述第一二维位置信息、相对深度、以及参考节点的所述绝对深度，确定目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。针对每个目标对象，该目标对象上的多个关键点分别在相机坐标系中的三维位置信息，构成了该目标对象在相机坐标系中的三维姿态。此时的三维姿态，是以相机为参照的三维姿态。

参见图7所示，本公开实施例还提供另一种目标对象姿态检测框架的具体示例，包括：

目标检测网络、关键点检测网络、以及深度预测网络；

深度预测网络，基于第一图像，获取初始深度图像；并基于目标对象对应的目标特征图，确定与目标对象对应的参考节点在所述第一图像中的第二二维位置信息，并基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；以及对目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；将所述特征向量和参考节点的初始深度值进行拼接，形成拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；将修正值与参考节点的初始深度值相加，得到参考节点的归一化绝对深度值。

然后，通过上述公式(1)，恢复参考节点的绝对深度值，然后根据目标对象的所述第一二维位置信息、相对深度、以及参考节点的所述绝对深度，确定目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。针对每个目标对象，该目标对象上的多个关键点分别在相机坐标系中的三维位置信息，构成了该目标对象在相机坐标系中的三维姿态。此时的三维姿态，是以相机为参照的三维姿态。

通过上述两种目标对象姿态检测框架中任一种，都能够得到第一图像中每个目标对象的多个关键点分别在相机坐标系中的三维位置信息，处理速度更快，识别精度更高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与图像处理方法对应的图像处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，为本公开实施例提供的一种图像处理装置的示意图，所述装置包括：识别模块81、第一检测模块82、第二检测模块83；其中，

识别模块81，用于识别所述第一图像中的目标对象所在的目标区域；

第一检测模块82，用于基于所述目标对象对应的目标区域，确定表征所述目标对象姿态的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；

第二检测模块83，用于基于所述目标对象的所述第一二维位置信息、所述相对深度、以及所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。

一种可能的实施方式中，所述识别模块81，在识别所述第一图像中的目标对象所在的目标区域时，用于：

对所述第一图像进行特征提取，得到所述第一图像的特征图；

基于所述特征图，从预先生成的多个候选边界框中，确定多个目标边界框，并基于所述目标边界框，确定所述目标对象对应的目标区域。

一种可能的实施方式中，所述识别模块81，在基于所述目标边界框，确定所述目标对象对应的目标区域时，用于：

基于多个所述目标边界框，以及所述特征图，确定每个所述目标边界框对应的特征子图；

基于多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象对应的目标区域。

一种可能的实施方式中，所述第一检测模块82，在基于所述目标对象对应的目标区域，确定所述目标对象的参考节点在相机坐标系中的绝对深度时，用于：

基于所述目标对象对应的目标区域以及所述第一图像，确定所述目标图像对应的目标特征图；

基于所述目标对象对应的目标特征图执行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度；

基于所述归一化绝对深度以及所述相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。

一种可能的实施方式中，所述第一检测模块82，在基于所述目标对象对应的目标特征图执行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度时，用于：

基于所述第一图像，获取初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值，表征所述第一图像中与所述第一像素点位置对应的第二像素点在所述相机坐标系中的初始深度值；

基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息，并基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；

基于所述目标对象对应的参考节点的初始深度值，以及所述目标对象对应的所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。

一种可能的实施方式中，所述第一检测模块82，在基于所述目标对象对应的参考节点的初始深度值，以及所述目标对象对应的所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度时，用于：

对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；

将所述特征向量和所述初始深度值进行拼接，形成拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；

基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。

一种可能的实施方式中，所述图像处理装置中部署有预先训练好的神经网络，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。

另外，本公开实施例通过目标检测网络、关键点检测网络以及深度预测网络三个分支网络，构成端到端的目标对象姿态检测框架，基于该框架对第一图像进行处理，得到第一图像中每个目标对象的多个关键点分别在相机坐标系中的三维位置信息，处理速度更快，识别精度更高。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备10，如图9所示，为本公开实施例提供的计算机设备10结构示意图，包括：

处理器11和存储器12；所述存储器12存储有所述处理器11可执行的机器可读指令，当计算机设备运行时，所述机器可读指令被所述处理器执行以实现下述步骤：

识别所述第一图像中的目标对象所在的目标区域；

基于所述目标对象对应的目标区域，确定表征所述目标对象姿态的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；

基于所述目标对象的所述第一二维位置信息、所述相对深度、以及所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。

上述指令的具体执行过程可以参考本公开实施例中所述的图像处理方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的图像处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的图像处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

一种图像处理方法，包括：

识别第一图像中的目标对象所在的目标区域；

基于所述目标对象所在的目标区域，确定所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；

基于所述目标对象的多个关键点分别对应的所述第一二维位置信息和所述相对深度、以及所述参考节点对应的所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。
根据权利要求1所述的图像处理方法，其中，还包括：基于所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息，得到所述目标对象的姿态。
根据权利要求1或2所述的图像处理方法，其中，所述识别所述第一图像中的目标对象所在的目标区域，包括：

对所述第一图像进行特征提取，得到所述第一图像的特征图；

基于所述特征图，从预先生成的多个候选边界框中确定多个目标边界框；

基于多个所述目标边界框，确定所述目标对象所在的目标区域。
根据权利要求3所述的图像处理方法，其中，所述基于多个所述目标边界框，确定所述目标对象所在的目标区域，包括：

基于多个所述目标边界框以及所述特征图，确定每个所述目标边界框的特征子图；

对多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象所在的目标区域。
根据权利要求1-4任一项所述的图像处理方法，其中，基于所述目标对象所在的目标区域，确定所述目标对象的参考节点在相机坐标系中的绝对深度，包括：

基于所述目标对象所在的目标区域以及所述第一图像，确定所述目标对象的目标特征图；

对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度；

基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。
根据权利要求5所述的图像处理方法，其中，所述对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度，包括：

基于所述第一图像，确定初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值为所述第一图像中与所述第一像素点的位置对应的第二像素点在所述相机坐标系中的初始深度值；

基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息；

基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；

基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。
根据权利要求6所述的图像处理方法，其中，所述基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度，包括：

对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；

将所述特征向量和所述初始深度值进行拼接，得到拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；

基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。
根据权利要求5-7任一项所述的图像处理方法，其特征在于，所述参数矩阵包括：所述相机的焦距；

所述基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度，包括：

基于所述归一化绝对深度、所述焦距、所述目标区域的面积、以及所述目标边界框的面积，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。
根据权利要求1-8任一项所述的图像处理方法，其中，所述图像处理方法应用于预先训练好的神经网络中，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。
一种图像处理装置，其中，包括：

识别模块，用于识别第一图像中的目标对象所在的目标区域；

第一检测模块，用于基于所述目标对象所在的目标区域，确定所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、每个所述关键点相对所述目标对象的参考节点的相对深度、以及所述目标对象的参考节点在相机坐标系中的绝对深度；

第二检测模块，用于基于所述目标对象的多个关键点分别对应的所述第一二维位置信息和所述相对深度、以及所述参考节点对应的所述绝对深度，确定所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息。
根据权利要求10所述的图像处理装置，其中，所述第二检测模块，还用于基于所述目标对象的多个关键点分别在所述相机坐标系中的三维位置信息，得到所述目标对象的姿态。
根据权利要求10或11所述的图像处理装置，其中，所述识别模块，在识别所述第一图像中的目标对象所在的目标区域时，用于：

对所述第一图像进行特征提取，得到所述第一图像的特征图；

基于所述特征图，从预先生成的多个候选边界框中确定多个目标边界框；

基于多个所述目标边界框，确定所述目标对象所在的目标区域。
根据权利要求12所述的图像处理装置，其中，所述识别模块，在基于多个所述目标边界框，确定所述目标对象所在的目标区域时，用于：

基于多个所述目标边界框以及所述特征图，确定每个所述目标边界框的特征子图；

对多个所述目标边界框分别对应的特征子图进行边界框回归处理，得到所述目标对象所在的目标区域。
根据权利要求10-13任一项所述的图像处理装置，其中，所述第一检测模块，在基于目标对象所在的目标区域，确定所述目标对象的参考节点在相机坐标系中的绝对深度时，用于：

基于所述目标对象所在的目标区域以及所述第一图像，确定所述目标对象的目标特征图；

对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度；

基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。
根据权利要求14所述的图像处理装置，其中，所述第一检测模块，在对所述目标对象对应的目标特征图进行深度识别处理，得到所述目标对象的参考节点的归一化绝对深度时，用于：

基于所述第一图像，确定初始深度图像；其中，所述初始深度图像中任一第一像素点的像素值为所述第一图像中与所述第一像素点的位置对应的第二像素点在所述相机坐标系中的初始深度值；

基于所述目标对象对应的目标特征图，确定与所述目标对象对应的参考节点在所述第一图像中的第二二维位置信息；

基于所述第二二维位置信息、以及所述初始深度图像，确定所述目标对象对应的参考节点的初始深度值；

基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度。
根据权利要求15所述的图像处理装置，其中，所述第一检测模块，在基于所述参考节点的初始深度值以及所述目标特征图，确定所述目标对象的参考节点的归一化绝对深度时，用于：

对所述目标对象对应的目标特征图进行至少一级第一卷积处理，得到所述目标对象的特征向量；

将所述特征向量和所述初始深度值进行拼接，得到拼接向量，并对所述拼接向量进行至少一级第二卷积处理，得到所述初始深度值的修正值；

基于所述初始深度值的修正值、以及所述初始深度值，得到所述归一化绝对深度。
根据权利要求14-16任一项所述的图像处理装置，其特征在于，所述参数矩阵包括：所述相机的焦距；所述第一检测模块，在基于所述归一化绝对深度以及相机的参数矩阵，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度时，用于：

基于所述归一化绝对深度、所述焦距、所述目标区域的面积、以及所述目标边界框的面积，得到所述目标对象的参考节点在所述相机坐标系中的绝对深度。
根据权利要求10-17任一项所述的图像处理装置，其中，所述图像处理装置利用预先训练好的神经网络实现图像处理，所述神经网络包括目标检测网络、关键点检测网络以及深度预测网络三个分支网络；所述目标检测网络用于获得所述目标对象所在的目标区域；所述关键点检测网络用于获取所述目标对象的多个关键点分别在所述第一图像中的第一二维位置信息、和每个所述关键点相对所述目标对象的参考节点的相对深度；所述深度预测网络用于获取所述参考节点在所述相机坐标系中的绝对深度。
一种计算机设备，其中，包括：相互连接的处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述机器可读指令被所述处理器执行以实现如权利要求1至9任一所述的图像处理方法的步骤。
一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任意一项所述的图像处理方法的步骤。