WO2022160587A1

WO2022160587A1 - 深度检测方法、装置、电子设备、存储介质及程序产品

Info

Publication number: WO2022160587A1
Application number: PCT/CN2021/103067
Authority: WO
Inventors: 李雷; 李健华; 张家旺; 史璇珂; 王权; 钱晨
Original assignee: 深圳市商汤科技有限公司
Priority date: 2021-01-26
Filing date: 2021-06-29
Publication date: 2022-08-04
Also published as: CN112802081A

Abstract

一种深度检测方法、装置、电子设备、存储介质及程序产品，其中，该方法包括：获取双目相机采集的目标场景的双目图像（S101）；基于双目图像，生成目标场景的深度图像以及与深度图像对齐的色彩图像（S102）；对色彩图像进行语义分割，得到色彩图像的语义分割结果，语义分割结果用于指示色彩图像中与目标对象匹配的像素点（S103）；基于色彩图像的语义分割结果以及深度图像，生成目标对象的目标对象深度图（S104）。

Description

深度检测方法、装置、电子设备、存储介质及程序产品

相关申请的交叉引用

本专利申请要求2021年1月26日提交的中国专利申请号为202110105980.1，申请人为深圳市商汤科技有限公司，申请名称为“一种深度检测方法、装置、电子设备及存储介质”的优先权，该公开的全文以引用的方式并入本公开中。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种深度检测方法、装置、电子设备、存储介质及程序产品。

背景技术

在计算机视觉技术中，常常需要涉及到深度信息识别的过程，比如在增强现实(Augmented Reality，AR)交互、虚拟拍照和短视频特效等应用场景中，需要通过对目标物进行深度信息识别，来实现更逼真的画面效果。

一般情况下，可以通过单目相机或者飞行时间法(Time Of Flight，TOF)相机来完成针对目标物的深度信息识别，比如通过单目相机采集的图像和预先训练的深度检测网络，可以预估目标物与单目相机之间的深度信息；或者可以通过TOF相机从发射光脉冲到接收光脉冲之间的时间间隔，以及光脉冲的传输速度，获取目标物所在的深度图像。

在基于单目相机采集的图像进行深度信息识别时，依赖预先训练的深度检测网络，会存在误差大的问题，而基于TOF相机确定深度信息时，容易存在分辨率低、户外场景效果差和硬件成本大的缺点。

发明内容

本公开实施例至少提供一种深度检测方法、装置、电子设备、存储介质及程序产品。

第一方面，本公开实施例提供了一种深度检测方法，包括：

获取双目相机采集的目标场景的双目图像；

基于所述双目图像，生成所述目标场景的深度图像以及与所述深度图像对齐的色彩图像；

对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，所述语义分割结果用于指示所述色彩图像中与目标对象匹配的像素点；

基于所述色彩图像中属于目标对象的目标图像信息，以及所述深度图像，生成所述目标对象的目标对象深度图。

本公开实施例中，通过双目相机采集的目标场景的双目图像，相比基于单目相机和TOF相机可以得到准确度较高的深度图像以及与深度图像对齐的色彩图像，进而可以对色彩图像进行语义分割，确定色彩图像中包含与目标对象匹配的像素点，这样可以在与色彩图像对齐的深度图像中准确得到目标对象的像素点的深度值。

在一种可能的实施方式中，所述基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图，包括：

将所述深度图像中深度值不符合预设深度值范围的像素点的深度值，调整为目标深度值；

基于所述色彩图像的语义分割结果所指示的：所述目标对象在所述色彩图像中的像素点的位置信息，确定所述目标对象在所述深度图像中的像素点的位置信息；

基于确定的所述像素点的位置信息，将所述深度图像中除所述目标对象所在图像区域之外的像素点的深度值，调整为所述目标深度值，得到所述目标对象的目标对象深度图。

本公开实施例中，通过将深度图像中深度值不符合预设深度值范围的像素点的深度值，以及深度图像中除目标对象所在图像区域之外的像素点的深度值，调整为目标深度值，比如调整为0，这样可以过滤掉除目标对象之外的像素点的深度信息，从而得到能够直观表示目标对象深度信息的目标对象深度图。

在一种可能的实施方式中，所述生成所述目标对象的目标对象深度图之后，还包括：

对所述目标对象深度图中，对应的深度值等于所述目标深度值的像素点进行深度值修正；

对修正后的目标对象深度图进行平滑处理，得到处理后的目标对象深度图。

本公开实施例中，提出对目标对象深度图中，目标对象所在图像区域中深度值等于目标深度值的像素点的深度值进行修正，补全目标对象所在图像区域中深度值等于目标深度值的像素点的深度值，然后对修正后的目标对象进行平滑处理，可以提高得到的目标对象深度图的准确度和完整性。

在一种可能的实施方式中，所述对所述目标对象深度图中，对应的深度值等于所述目标深度值的像素点进行深度值修正，包括：

遍历所述目标对象深度图中所述目标对象所在图像区域内的像素点，检测遍历的当前像素点的深度值是否等于所述目标深度值；

在检测到当前像素点的深度值不等于所述目标深度值的情况下，检测第一关联像素点的深度值是否等于所述目标深度值；所述第一关联像素点为：与所述当前像素点相邻且在所述目标对象所在图像区域内的像素点；

在检测到所述第一关联像素点的深度值等于所述目标深度值的情况下，将与所述第一关联像素点的深度值更新为所述当前像素点的深度值。

本公开实施例中，在当前像素点的深度值不等于目标深度值的情况下，可以通过当前像素点的深度值，对相邻的且在目标对象所在图像区域内的像素点的深度值进行补全，按照该方式可以快速确定深度图中，目标对象所在图像区域内深度值等于目标深度值的像素点的真实深度值，从而得到的完整的目标对象深度图。

在一种可能的实施方式中，所述对修正后的目标对象深度图进行平滑处理，包括：

针对所述修正后的目标对象深度图中，所述目标对象所在图像区域的任一像素点，确定所述任一像素点和第二关联像素点的平均深度值；所述第二关联像素点为：与所述任一像素点间隔预设像素点数量范围内且在所述目标对象所在图像区域内的像素点；

将所述任一像素点的深度值调整为所述平均深度值。

本公开实施例中，通过对目标对象中与任一像素点间隔预设像素点数量范围内的像素点和该任一像素点的深度值，对该任一像素点深度值进行平滑处理，从而可以得到平滑的目标对象深度图。

在一种可能的实施方式中，所述生成所述目标对象的目标对象深度图之后，所述深度检测方法还包括：

基于所述目标对象在所述色彩图像中的位置信息、所述目标对象深度图、以及所述双目相机的位姿数据，确定所述目标对象在现实场景中的第一位置信息；

基于目标虚拟对象在与所述现实场景匹配的三维场景模型中的位置信息，确定所述目标虚拟对象在所述现实场景中的第二位置信息；

根据增强现实AR设备在所述现实场景中的位姿数据、所述第一位置信息和所述第二位置信息，确定在所述AR设备呈现所述目标虚拟对象时的AR特效。

本公开实施例中，在确定出目标对象深度图后，还可以确定目标对象在世界坐标系中的第一位置信息，这样结合目标虚拟对象在世界坐标系中的第二位置信息，可以确定出目标虚拟对象在AR设备中呈现时的AR特效，提高AR特效的真实感。

在一种可能的实施方式中，所述对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，包括：

根据预先训练的目标神经网络对所述色彩图像中的像素点进行分类识别，得到所述色彩图像中的像素点属于目标对象的概率；

基于所述色彩图像中的像素点属于目标对象的概率，得到所述色彩图像的语义分割结果。

本公开实施例中，可以通过预先训练的目标神经网络对色彩图像中各像素点进行分类，快速确定出色彩图像中属于目标对象的像素点，便于后续基于属于目标对象的像素点在色彩图像中的像素位置信息在深度图像中提取目标对象包含的各像素点的深度值。

第二方面，本公开实施例提供了一种深度检测装置，包括：

获取模块，用于获取双目相机采集的目标场景的双目图像；

第一生成模块，用于基于所述双目图像，生成所述目标场景的深度图像以及与所述深度图像对齐的色彩图像；

分割模块，用于对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，所述语义分割结果用于指示与所述目标对象匹配的像素点；

第二生成模块，用于基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的深度检测方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的深度检测方法的步骤。

第五方面，本公开实施例提供了一种计算机程序产品，所述计算机程序产品承载有程序代码，所述程序代码包括的指令可配置为执行如第一方面所述的深度检测方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种深度检测方法的流程图；

图2a示出了本公开实施例所提供的一种对色彩图像进行语义分割的方法流程图；

图2b示出了本公开实施例所提供的一种确定目标对象深度图的方法流程图；

图3a示出了本公开实施例所提供的一种目标对象深度图；

图3b示出了本公开实施例所提供的一种修正后的目标对象深度图；

图4示出了本公开实施例所提供的一种针对目标对象深度图进行修正的方法流程图；

图5示出了本公开实施例所提供的一种针对目标对象深度图进行平滑处理的方法流程图；

图6示出了本公开实施例所提供的一种确定AR特效的方法流程图；

图7示出了本公开实施例所提供的一种深度检测装置的结构示意图；

图8示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

目标对象的深度检测，比如人体深度检测在多种场景中有着重要的应用，比如AR交互、虚拟拍照和短视频特效等，现有的人体深度检测技术通常基于单目相机或者飞行时间法(Time Of Flight，TOF)相机来完成，这两种方式确定的人体深度信息的误差较大。

基于上述研究，本公开提供了一种深度检测方法，通过双目相机采集的目标场景的双目图像，相比基于单目相机和TOF相机可以得到准确度较高的深度图像以及与深度图像对齐的色彩图像，进而可以对色彩图像进行语义分割，确定色彩图像中包含与目标对象匹配的像素点，这样可以在与色彩图像对齐的深度图像中准确得到目标对象的各像素点的深度值。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种深度检测方法进行描述，本公开实施例所提供的深度检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括以下之一或者至少两者的组合：服务器、手机(Mobile Phone)、平板电脑(Pad)、带无线收发功能的电脑、掌上电脑、台式计算机、个人数字助理、便捷式媒体播放器、智能音箱、导航装置、智能手表、智能眼镜、智能项链等可穿戴设备、计步器、数字TV、虚拟现实(VirtualReality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、工业控制(Industrial Control)中的无线终端、无人驾驶(SelfDriving)中的无线终端、远程手术(Remote Medical Surgery)中的无线终端、智能电网(Smart Grid)中的无线终端、运输安全(Transportation Safety)中的无线终端、智慧城市(Smart City)中的无线终端、智慧家庭(Smart Home)中的无线终端、车联网系统中的车、车载设备、车载模块等等。在一些可能的实现方式中，该深度检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的深度检测方法的流程图，该深度检测方法包括以下S101～S104：

S101，获取双目相机采集的目标场景的双目图像。

示例性地，目标场景中包含待进行深度提取的目标对象，通过双目相机可以采集同一目标场景的两幅图像，比如包含第一图像和第二图像，其中，第一图像和第二图像可以为红绿蓝RGB图像或者灰度图像。

S102，基于双目图像，生成目标场景的深度图像以及与深度图像对齐的色彩图像。

示例性地，在得到双目图像后，可以根据双目图像之间的视差信息确定目标场景的深度图像，比如可以通过双目立体匹配算法，从双目图像中得到目标场景的深度图像，以及与深度图像对齐的色彩图像。

示例性地，目标场景的深度图像中包含每个像素点对应的深度值，每个像素点对应的深度值，能够表示该像素点在目标场景中指示的位置与双目相机的距离。

示例性地，在双目图像为RGB图像的情况下，色彩图像也为RGB图像，在双目图像为灰度图像的情况下，色彩图像也为灰度图像。

示例性地，目标场景的深度图像以及与深度图像对齐的色彩图像的尺寸相同，深度图像和色彩图像中具有相同像素坐标的像素，能够表示目标场景中同一个位置点，比如，色彩图像对应的图像坐标系中像素坐标为(i，j)的像素点，能够表示目标场景中位置点A的色彩特征，与色彩图像对齐的深度图像对应的图像坐标系中像素坐标同为(i，j)的像素点，能够表示目标场景中位置点A的深度值，因此，后续可以基于色彩图像和深度图像来共同确定目标对象的目标对象深度图。

S103，对色彩图像进行语义分割，得到色彩图像的语义分割结果，语义分割结果用于指示色彩图像中与目标对象匹配的像素点。

示例性地，可以根据预先训练的语义分割模型对色彩图像进行语义分割，得到色彩图像的语义分割结果，该语义分割结果可以通过与色彩图像对齐的二值图像来表示，色彩图像中与目标对象匹配的像素点在二值图像中可以通过第一标签值表示，比如通过1表示，与目标对象之外区域匹配的像素点在二值图像中可以通过第二标签值表示，比如通过0表示。

S104，基于色彩图像的语义分割结果以及深度图像，生成目标对象的目标对象深度图。

示例性地，考虑到深度图像和色彩图像是对齐的，因此可以基于色彩图像中，与目标对象匹配的像素点在色彩图像中的像素位置信息，在与色彩图像对应的深度图像中提取该像素位置信息指示的像素点的深度值，按照这样的方式，在得到与目标对象匹配的各像素点对应的深度值后，可以生成目标对象的目标对象深度图，该目标对象深度图可以表征目标对象在目标场景中与双目相机之间的距离。

本公开实施例中，通过双目相机采集的目标场景的双目图像，相比基于单目相机和TOF相机可以得到准确度较高的深度图像以及与深度图像对齐的色彩图像，进而可以对色彩图像进行语义分割，确定色彩图像中包含与目标对象匹配的像素点，这样可以在与色彩图像对齐的深度图像中准确得到目标对象的各像素点的深度值。

参见图2a所示，为本公开实施例所提供的一种对色彩图像进行语义分割的方法流程图，在该实施方式中，针对上述S103，在对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果时，包括以下S1031～S1032：

S1031，对色彩图像中的像素点进行分类识别，得到色彩图像中的像素点属于目标对象的概率；

S1032，基于色彩图像中的像素点属于目标对象的概率，得到色彩图像的语义分割结果。

示例性地，可以基于预先训练的目标神经网络，对色彩图像的像素点进行分类识别，目标神经网络可以为进行语义分割的语义分割模型，以对色彩图像进行二分类预测为例，确定色彩图像属于目标对象的像素点以及不属于目标对象的像素点，可以将色彩图像输入目标神经网络进行类别预测，得到色彩图像中的各像素点属于目标对象的概率和不属于目标对象的概率，一个像素点的属于目标对象的概率和不属于目标对象的概率之和为1，因此可以基于色彩图像中各像素点属于目标对象的概率，确定出色彩图像中哪些像素点属于目标对象，从而可以确定色彩图像的语义分割结果。

示例性地，色彩图像的语义分割结果能够指示色彩图像中与目标对象匹配的像素点，比如可以将属于目标对象的像素点的标签值设置为第一标签值，将不属于目标对象的像素点的标签值记录为第二标签值，这样可以得到色彩图像对应的二值图像，该二值图像能够直观地表示色彩图像中属于目标对象的像素点和不属于目标对象的像素点。

参见图2b所示，为本公开实施例所提供的一种确定目标对象深度图的方法流程图，在该实施方式中，针对上述S104，在基于色彩图像的语义分割结果以及深度图像，生成目标对象的目标对象深度图时，可以包括以下S201～S203：

S201，将深度图像中深度值不符合预设深度值范围的像素点的深度值调整为目标深度值。

示例性地，考虑到在基于双目相机采集的双目图像确定深度图像的过程中，因双目相机的畸变问题，或深度图像的确定过程中存在的误差，会导致一些像素点的深度值无法获取，或者获取到的一些像素点的深度值超出合理范围，比如超过双目相机能够采集的最大深度值，或者深度值为负数，这种情况会影响后续确定目标对象的深度图，因此在得到目标场景的深度图像后，可以先对深度图像进行初始修正。

示例性地，预设深度值范围中的最大深度值和最小深度值可以根据双目相机的参数确定，在得到预设深度值范围后，可以重新设置深度图像中深度值不符合预设深度值范围的像素点的深度值，比如将不符合预设深度值范围的像素点的深度值设置为固定的目标深度值，比如设置为0，按照该方式得到的深度图像中存在一些空洞区域，即像素点的深度值为0的区域。

S202，基于色彩图像的语义分割结果所指示的：目标对象在色彩图像中的像素点的位置信息，确定该目标对象在与该色彩图像对齐的深度图像中的像素点的位置信息；

S203，基于确定的像素点的位置信息，将深度图像中除目标对象所在图像区域之外的像素点的深度值，调整为目标深度值，得到目标对象的目标对象深度图。

考虑到色彩图像和深度图像是对齐的，因此可以基于目标对象在色彩图像中的像素点位置信息，确定目标对象在深度图像中的像素点位置信息，这样可以遍历深度图像中的像素点，根据确定的像素点位置信息确定当前像素点是否属于目标对象，在确定当前像素点属于目标对象时，保留当前像素点的深度值，在确定当前像素点不属于目标对象时，将当前像素点的深度值设置为目标深度值，比如设置为0。

示例性地，按照上述方式得到的目标对象深度图中，目标对象所在图像区域中存在一些深度值等于目标深度值的像素点，可以将这些像素点构成的区域称为空洞区域，如图3a中的图像31所示，因此，在生成目标对象的目标对象深度图之后，本公开实施例提出的深度检测方法还包括：

对目标对象深度图中，对应的深度值等于目标深度值的像素点进行深度值修正，并对修正后的目标对象深度图进行平滑处理，得到处理后的目标对象深度图。

示例性地，在对具有空洞区域的目标对象深度图进行深度值修正后，可以得到如图3b中的图像32所示的目标对象深度图，另外，考虑到在进行深度值修正后得到的目标对象深度图中可能存在一些噪声，这样得到的目标对象的轮廓的深度不平滑，或者目标对象内部出现深度值变动较为剧烈的区域，影响目标对象深度图的准确度，因此可以对修正后的目标对象深度图进行平滑处理，以提高目标对象深度图的准确度。

在对目标对象深度图中，对应的深度值等于目标深度值的像素点进行深度值修正时，如图4所示，包括以下S301～S303：

S301，遍历目标对象深度图中目标对象所在图像区域内的像素点，检测遍历的当前像素点的深度值是否等于目标深度值。

示例性地，以图3a所示得目标对象深度图为例，将目标对象深度图中目标对象所在图像区域内，深度值等于目标深度值的像素点所在区域作为空洞区域，该空洞区域中像素点的深度值和目标对象所在区域之外的像素点的深度值均为目标深度值，这样造成目标对象深度图在表征目标对象的深度信息时存在缺失，可以对空洞区域中的像素点的深度值进行修正，例如，可以在确定目标对象深度图中属于目标对象的像素点后，遍历目标对象所在图像区域中的像素点，并确定当前像素点的深度值是否等于目标深度值。

S302，在检测到当前像素点的深度值不等于目标深度值的情况下，检测第一关联像素点的深度值是否等于目标深度值；第一关联像素点为：与当前像素点相邻且在目标对象所在图像区域内的像素点。

示例性地，在检测到当前像素点的深度值不等于目标深度值的情况下，可以继续检测与当前像素点相邻且在目标对象所在图像区域内的像素点的深度值是否等于目标深度值。

S303，在检测到第一关联的像素点的深度值等于目标深度值的情况下，将与第一关联像素点的深度值更新为当前像素点的深度值。

示例性地，通过当前像素点的深度值，对相邻的且在目标对象所在图像区域内的像素点的深度值进行补全，可以得到目标对象中空洞区域中各像素点的深度值，得到如图3b所示得目标对象深度图。

本公开实施例中，在当前像素点的深度值不等于目标深度值的情况下，可以通过当前像素点的深度值，对相邻且在目标对象所在图像区域内的像素点的深度值进行补全，按照该方式可以快速确定深度图中，目标对象所在图像区域内深度值等于目标深度值的像素点的真实深度值，从而得到的完整的目标对象深度图。

在一些实施方式中，在对修正后的目标对象深度图进行平滑处理时，如图5所示，可以包括以下S401～S402：

S401，针对修正后的目标对象深度图中，目标对象所在图像区域的任一像素点，确定该任一像素点和第二关联像素点的平均深度值；第二关联像素点为：与该任一像素点间隔预设像素点数量范围内且在目标对象所在图像区域内的像素点；

S402，将该任一像素点的深度值的调整为平均深度值。

示例性地，比如针对目标深度图中像素坐标为(i,j)的像素点，可以确定该像素点以及，与该像素点间隔预设像素点数量范围内，且在目标对象所在图像区域内的像素点的第二关联像素点的平均深度值，并将确定的平均深度值作为该像素点(i,j)更新后的深度值，按照该方式可以对目标对象所在图像区域中各像素点的深度值进行更新，得到平滑的目标对象深度图。

在一种实施方式中，生成目标对象的目标对象深度图之后，如图6所示，本公开实施例提供的深度检测方法还包括：

S501，基于目标对象在色彩图像中的位置信息、目标对象深度图、以及双目相机的位姿数据，确定目标对象在现实场景中的第一位置信息。

示例性地，双目相机的位姿数据可以包括：双目相机在现实场景中的位置和姿态，比如可以预先基于现实场景构建世界坐标系，通过预先对双目相机标定，可以确定该双目相机在现实场景对应的世界坐标系中的位置和姿态。

示例性地，以双目相机构建相机坐标系，基于目标对象在色彩图像中的位置信息、目标对象深度图以及双目相机在世界坐标系中位姿数据，可以确定色彩图像中目标对象包含的各像素点在世界坐标系中的第一位置信息，即得到目标对象在现实场景中的第一位置信息。

S502，基于目标虚拟对象在与现实场景匹配的三维场景模型中的位置信息，确定目标虚拟对象在现实场景中的第二位置信息。

示例性地，预先可以构建与现实场景匹配得三维场景模型，三维场景模型与现实场景在相同坐标系是1:1呈现的，目标虚拟对象在世界坐标系中的展示位置可以基于三维场景模型生成，比如目标虚拟对象为虚拟的卡通人物，可以基于目标虚拟对象在三维场景模型中的位置信息，确定该目标虚拟对象在现实场景对应的世界坐标系中的第二位置信息。

S503，根据AR设备在现实场景中的位姿数据、第一位置信息和第二位置信息，确定在AR设备呈现目标虚拟对象时的AR特效。

示例性地，AR设备可以包含上述提到的双目相机，也可以不包含上述提到的双目相机，例如，AR设备可以包括但不限于AR眼镜、平板电脑、智能手机、智能穿戴式设备等具有显示功能和数据处理能力的设备，这些AR设备中可以安装用于展示AR场景内容的应用程序，用户可以在该应用程序中体验AR特效。

示例性地，AR设备的位姿数据可以包括：AR设备在现实场景对应的世界坐标系中的位置和姿态，可以基于AR设备上安装的位姿传感器确定，也可以基于AR设备拍摄的现实场景图像确定，在此不进行具体限定。

示例性地，可以通过AR设备在世界坐标系中的位姿数据、目标对象在世界坐标系中的第一位置信息、以及目标虚拟对象在世界坐标系中的第二位置信息，确定目标虚拟对象在AR设备呈现时与目标对象之间的AR特效，比如是否存在目标虚拟对象被目标对象遮挡，或者目标虚拟对象遮挡目标对象。

下面以目标对象为人体为例，对本公开提供的深度检测方法进行介绍，可以包括以下过程：

(1)通过双目立体匹配算法，从输入的双目图像中得到目标场景的深度图像和与深度图像对齐的RGB图像；

(2)对RGB图像进行人像分割，得到能够表示RGB图像的语义分割结果的人像掩膜mask；

(3)通过深度图像和人像mask进行匹配，得到人体深度图；

(4)对人体深度图进行空洞补全和平滑处理，得到目标人体深度图。目标人体深度图可以对应上述的目标对象深度图。

其中第(4)步骤包括：(4-1)遍历人体深度图内的每个像素点，如果其深度值不为0，则将其深度值传播给与之相邻的深度值为0的像素点。重复迭代这个过程，直到人体深度图内所有深度值为0的空洞区域被填充；(4-2)对填充补全后的人体深度图进行平滑处理，得到目标人体深度图。

本领域技术人员可以理解，在实施上述方法的情况下，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与深度检测方法对应的深度检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述深度检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图7所示，为本公开实施例提供的一种深度检测装置600的示意图，该深度检测装置600包括：

获取部分601，配置为获取双目相机采集的目标场景的双目图像；

第一生成部分602，配置为基于双目图像，生成目标场景的深度图像以及与深度图像对齐的色彩图像；

分割部分603，配置为对色彩图像进行语义分割，得到色彩图像的语义分割结果，语义分割结果配置为指示色彩图像中与目标对象匹配的像素点；

第二生成部分604，配置为基于色彩图像的语义分割结果以及深度图像，生成目标对象的目标对象深度图。

在一种可能的实施方式中，第二生成部分604，还配置为：将深度图像中深度值不符合预设深度值范围的像素点的深度值调整为目标深度值；基于色彩图像的语义分割结果所指示的：目标对象在所述色彩图像中的像素点的位置信息，确定该目标对象在与该色彩图像对齐的深度图像中的像素点的位置信息；基于确定的像素点的位置信息，将深度图像中除目标对象所在图像区域之外的像素点的深度值，调整为目标深度值，得到目标对象的目标对象深度图。

在一种可能的实施方式中，第二生成部分604，还配置为：对目标对象深度图中，对应的深度值等于目标深度值的像素点进行深度值修正；对修正后的目标对象深度图进行平滑处理，得到处理后的目标对象深度图。

在一种可能的实施方式中，第二生成部分604，还配置为：遍历目标对象深度图中目标对象所在图像区域内的像素点，检测遍历的当前像素点的深度值是否等于目标深度值；在检测到当前像素点的深度值不等于目标深度值的情况下，检测第一关联像素点的深度值是否等于目标深度值；第一关联像素点为：与当前像素点相邻且在目标对象所在图像区域内的像素点；在检测到第一关联像素点的深度值等于目标深度值的情况下，将与第一关联像素点的深度值更新为当前像素点的深度值。

在一种可能的实施方式中，第二生成部分604，还配置为：针对修正后的目标对象深度图中，目标对象所在图像区域的任一像素点，确定该任一像素点和第二关联像素点的平均深度值；第二关联像素点为：与该任一像素点间隔预设像素点数量范围内且在目标对象所在图像区域内的像素点；将该任一像素点的深度值调整为平均深度值。

在一种可能的实施方式中，第二生成部分604，还配置为：

基于目标对象在色彩图像中的位置信息、目标对象深度图、以及双目相机的位姿数据，确定目标对象在现实场景中的第一位置信息；基于目标虚拟对象在与现实场景匹配的三维场景模型中的位置信息，确定目标虚拟对象在现实场景中的第二位置信息；根据增强现实AR设备在现实场景中的位姿数据、第一位置信息和第二位置信息，确定在AR设备呈现目标虚拟对象时的AR特效。

在一种可能的实施方式中，分割部分603，还配置为：对色彩图像中的像素点进行分类识别，得到色彩图像中的像素点属于目标对象的概率；基于色彩图像中的各像素点属于目标对象的概率，得到色彩图像的语义分割结果。

关于装置中的各部分的处理流程、以及各部分之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的深度检测方法，本公开实施例还提供了一种电子设备700，如图8所示，为本公开实施例提供的电子设备700结构示意图，包括：

处理器71、存储器72、和总线73；存储器72配置为存储执行指令，包括内存721和外部存储器722；这里的内存721也称内存储器，配置为暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换，当电子设备700运行时，处理器71与存储器72之间通过总线73通信，使得处理器71执行以下指令：获取双目相机采集的目标场景的双目图像；基于双目图像，生成目标场景的深度图像以及与深度图像对齐的色彩图像；对色彩图像进行语义分割，得到色彩图像的语义分割结果，语义分割结果配置为指示色彩图像中与目标对象匹配的像素点；基于色彩图像的语义分割结果以及深度图像，生成目标对象的目标对象深度图。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中的深度检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可配置为执行上述方法实施例中所述的深度检测方法的步骤，可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品可以体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

工业实用性

本公开实施例公开了一种深度检测方法、装置、电子设备、存储介质及程序产品，其中，深度检测方法包括：获取双目相机采集的目标场景的双目图像；基于所述双目图像，生成所述目标场景的深度图像以及与所述深度图像对齐的色彩图像；对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，所述语义分割结果用于指示所述色彩图像中与目标对象匹配的像素点；基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图。通过该方法，能够在与色彩图像对齐的深度图像中准确得到目标对象的像素点的深度值。

Claims

一种深度检测方法，包括：

获取双目相机采集的目标场景的双目图像；

基于所述双目图像，生成所述目标场景的深度图像以及与所述深度图像对齐的色彩图像；

对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，所述语义分割结果用于指示所述色彩图像中与目标对象匹配的像素点；

基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图。
根据权利要求1所述的深度检测方法，其中，所述基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图，包括：

将所述深度图像中深度值不符合预设深度值范围的像素点的深度值，调整为目标深度值；

基于所述色彩图像的语义分割结果所指示的：所述目标对象在所述色彩图像中的像素点的位置信息，确定所述目标对象在所述深度图像中的像素点的位置信息；

基于确定的所述像素点的位置信息，将所述深度图像中除所述目标对象所在图像区域之外的像素点的深度值，调整为所述目标深度值，得到所述目标对象的目标对象深度图。
根据权利要求2所述的深度检测方法，其中，所述生成所述目标对象的目标对象深度图之后，还包括：

对所述目标对象深度图中，对应的深度值等于所述目标深度值的像素点进行深度值修正；

对修正后的目标对象深度图进行平滑处理，得到处理后的目标对象深度图。
根据权利要求3所述的深度检测方法，其中，所述对所述目标对象深度图中，对应的深度值等于所述目标深度值的像素点进行深度值修正，包括：

遍历所述目标对象深度图中所述目标对象所在图像区域内的像素点，检测遍历的当前像素点的深度值是否等于所述目标深度值；

在检测到当前像素点的深度值不等于所述目标深度值的情况下，检测第一关联像素点的深度值是否等于所述目标深度值；所述第一关联像素点为：与所述当前像素点相邻且在所述目标对象所在图像区域内的像素点；

在检测到所述第一关联像素点的深度值等于所述目标深度值的情况下，将与所述第一关联像素点的深度值更新为所述当前像素点的深度值。
根据权利要求3或4所述的深度检测方法，其中，所述对修正后的目标对象深度图进行平滑处理，包括：

针对所述修正后的目标对象深度图中，所述目标对象所在图像区域的任一像素点，确定所述任一像素点和第二关联像素点的平均深度值；所述第二关联像素点为：与所述任一像素点间隔预设像素点数量范围内且在所述目标对象所在图像区域内的像素点；

将所述任一像素点的深度值调整为所述平均深度值。
根据权利要求1至5任一所述的深度检测方法，其中，所述生成所述目标对象的目标对象深度图之后，所述深度检测方法还包括：

基于所述目标对象在所述色彩图像中的位置信息、所述目标对象深度图、以及所述双目相机的位姿数据，确定所述目标对象在现实场景中的第一位置信息；

基于目标虚拟对象在与所述现实场景匹配的三维场景模型中的位置信息，确定所述目标虚拟对象在所述现实场景中的第二位置信息；

根据增强现实AR设备在所述现实场景中的位姿数据、所述第一位置信息和所述第二位置信息，确定在所述AR设备呈现所述目标虚拟对象时的AR特效。
根据权利要求1至6任一所述的深度检测方法，其中，所述对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，包括：

对所述色彩图像中的像素点进行分类识别，得到所述色彩图像中的像素点属于目标对象的概率；

基于所述色彩图像中的像素点属于目标对象的概率，得到所述色彩图像的语义分割结果。
一种深度检测装置，包括：

获取模块，用于获取双目相机采集的目标场景的双目图像；

第一生成模块，用于基于所述双目图像，生成所述目标场景的深度图像以及与所述深度图像对齐的色彩图像；

分割模块，用于对所述色彩图像进行语义分割，得到所述色彩图像的语义分割结果，所述语义分割结果用于指示与所述目标对象匹配的像素点；

第二生成模块，用于基于所述色彩图像的语义分割结果以及所述深度图像，生成所述目标对象的目标对象深度图。
根据权利要求8所述的深度检测装置，其中，所述第二生成部分，还配置为：

将所述深度图像中深度值不符合预设深度值范围的像素点的深度值，调整为目标深度值；

基于所述色彩图像的语义分割结果所指示的：所述目标对象在所述色彩图像中的像素点的位置信息，确定所述目标对象在所述深度图像中的像素点的位置信息；

基于确定的所述像素点的位置信息，将所述深度图像中除所述目标对象所在图像区域之外的像素点的深度值，调整为所述目标深度值，得到所述目标对象的目标对象深度图。
根据权利要求9所述的深度检测装置，其中，所述第二生成部分，还配置为：

对所述目标对象深度图中，对应的深度值等于所述目标深度值的像素点进行深度值修正；

对修正后的目标对象深度图进行平滑处理，得到处理后的目标对象深度图。
根据权利要求10所述的深度检测装置，其中，所述第二生成部分，还配置为：

遍历所述目标对象深度图中所述目标对象所在图像区域内的像素点，检测遍历的当前像素点的深度值是否等于所述目标深度值；

在检测到当前像素点的深度值不等于所述目标深度值的情况下，检测第一关联像素点的深度值是否等于所述目标深度值；所述第一关联像素点为：与所述当前像素点相邻且在所述目标对象所在图像区域内的像素点；

在检测到所述第一关联像素点的深度值等于所述目标深度值的情况下，将与所述第一关联像素点的深度值更新为所述当前像素点的深度值。
根据权利要求10或11所述的深度检测装置，其中，所述第二生成部分，还配置为：

针对所述修正后的目标对象深度图中，所述目标对象所在图像区域的任一像素点，确定所述任一像素点和第二关联像素点的平均深度值；所述第二关联像素点为：与所述任一像素点间隔预设像素点数量范围内且在所述目标对象所在图像区域内的像素点；

将所述任一像素点的深度值调整为所述平均深度值。
根据权利要求8至12任一所述的深度检测装置，其中，所述第二生成部分，还配置为：

基于所述目标对象在所述色彩图像中的位置信息、所述目标对象深度图、以及所述双目相机的位姿数据，确定所述目标对象在现实场景中的第一位置信息；

基于目标虚拟对象在与所述现实场景匹配的三维场景模型中的位置信息，确定所述目标虚拟对象在所述现实场景中的第二位置信息；

根据增强现实AR设备在所述现实场景中的位姿数据、所述第一位置信息和所述第二位置信息，确定在所述AR设备呈现所述目标虚拟对象时的AR特效。
根据权利要求8至13任一所述的深度检测装置，其中，所述分割部分，还配置为：

对所述色彩图像中的像素点进行分类识别，得到所述色彩图像中的像素点属于目标对象的概率；

基于所述色彩图像中的像素点属于目标对象的概率，得到所述色彩图像的语义分割结果。
一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的深度检测方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述的深度检测方法的步骤。
一种计算机程序产品，所述计算机程序产品承载有程序代码，所述程序代码包括的指令可配置为执行如权利要求1至7任一所述的深度检测方法的步骤。