WO2019223262A1

WO2019223262A1 - 单目图像的深度恢复方法及装置、计算机设备

Info

Publication number: WO2019223262A1
Application number: PCT/CN2018/116276
Authority: WO
Inventors: 鲍虎军; 章国锋; 蒋沁宏; 石建萍
Original assignee: 浙江商汤科技开发有限公司
Priority date: 2018-05-23
Filing date: 2018-11-19
Publication date: 2019-11-28
Also published as: JP2020524355A; US11004221B2; US20200143552A1; JP6850399B2; CN108932734A; SG11201912423WA; CN108932734B

Abstract

一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序，所述方法包括：对所述单目图像进行特征提取，得到所述单目图像的特征图像（101）；对所述特征图像进行解耦，得到所述特征图像的场景结构图（102）；将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像（103）；根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像（104）。

Description

单目图像的深度恢复方法及装置、计算机设备

相关申请的交叉引用

本申请基于申请号为201810502947.0、申请日为2018年05月23日、发明名称为“单目图像的深度恢复方法及装置、计算机设备”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机视觉领域，尤其涉及一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序。

背景技术

单目图像的深度恢复是指对单目图像进行深度恢复，单目图像的深度恢复是计算机视觉领域中的重要问题，且在很多领域都有重要的应用，比如三维重建、机器人实时定位、视觉避障等领域。

然而，单目图像的深度恢复由于深度尺度的不确定性，是一个复杂的多解问题。很多现有的深度估计方案往往简单地将场景结构估计和深度尺度估计耦合在一起同时求解，使得问题的求解过程相对困难，往往需要较多的数据和训练时间，精度低。

发明内容

为解决上述技术问题，本申请实施例提供了一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序。

本申请实施例提供的单目图像的深度恢复方法，包括：

对所述单目图像进行特征提取，得到所述单目图像的特征图像；

对所述特征图像进行解耦，得到所述特征图像的场景结构图；

将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；

根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。

本申请实施例中，所述对所述单目图像进行特征提取，得到所述单目图像的特征图像，包括：

将所述单目图像输入第一神经网络进行特征提取，得到所述单目图像的特征图像。

本申请实施例中，所述第一神经网络执行的特征提取，包括：

对所述单目图像进行多尺度特征提取，得到所述单目图像的多尺度特征信息；

对所述多尺度特征信息进行残差调整，得到调整后的多尺度特征信息；

对所述调整后的多尺度特征信息进行特征融合，得到所述特征图像。

本申请实施例中，所述对所述特征图像进行解耦，得到所述特征图像的场景结构图，包括：

将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。

本申请实施例中，在将所述特征图像输入第二神经网络之前，还包括：

预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。

本申请实施例中，所述将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像，包括：

将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。

本申请实施例中，所述第三神经网络执行的梯度感知处理，包括：

根据所述场景结构图得到所述场景结构图的实际梯度图像；

根据所述特征图像得到所述特征图像对应的预测梯度图像；

根据所述实际梯度图像和所述预测梯度图像进行相似度分析，得到掩模；

将所述掩模和所述特征图像进行残差滤波处理，得到区域增强的特征图像。

本申请实施例中，所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析，得到掩模，包括：

计算所述实际梯度图像和所述预测梯度图像之间的相似度；

将相似度大于预设阈值的实际梯度图像作为所述掩模。

本申请实施例中，所述将所述掩模和所述特征图像进行残差滤波处理，包括：

计算所述掩模和所述特征图像的乘积，得到融合图像；

将所述融合图像进行预处理，得到预处理后的图像，其中所述预处理依次包括：卷积计算、线性整流计算、卷积计算；

将所述特征图像和所述预处理后的图像进行叠加，得到区域增强的特征图像。

本申请实施例中，所述根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像，包括：

对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。

本申请实施例提供的单目图像的深度恢复装置，包括：

特征提取模块，配置为对所述单目图像进行特征提取，得到所述单目图像的特征图像；

场景结构估计模块，配置为对所述特征图像进行解耦，得到所述特征图像的场景结构图；

梯度感知模块，配置为将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；

深度估计模块，配置为根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。

本申请实施例中，所述特征提取模块，配置为将所述单目图像输入第一神经网络进行特征提取，得到所述单目图像的特征图像。

本申请实施例中，所述场景结构估计模块，配置为将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。

本申请实施例中，所述装置还包括：

建立模块，配置为预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。

本申请实施例中，所述梯度感知模块，配置为将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。

根据所述场景结构图得到所述场景结构图的实际梯度图像；

根据所述特征图像得到所述特征图像对应的预测梯度图像；

计算所述实际梯度图像和所述预测梯度图像之间的相似度；

将相似度大于预设阈值的实际梯度图像作为所述掩模。

计算所述掩模和所述特征图像的乘积，得到融合图像；

本申请实施例中，所述深度估计模块，配置为对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。

本申请实施例提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时，实现本申请实施例提供的单目图像的深度恢复方法。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请实施例提供的单目图像的深度恢复方法。

本申请实施例提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请实施例提供的单目图像的深度恢复方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本申请实施例的技术方案中，对所述单目图像进行特征提取，得到所述单目图像的特征图像；对所述特征图像进行解耦，得到所述特征图像的场景结构图；将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。上述的单目图像的深度恢复方法和装置，不仅能够采用少量的数据获得更好的深度估计结果，而且还采用梯度感知处理获得更多深度细节。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例的单目图像的深度恢复方法的流程示意图；

图2为本申请实施例的神经网络架构图；

图3为本申请实施例的单目图像的特征提取的流程示意图；

图4为本申请实施例的梯度感知处理的流程示意图；

图5为本申请实施例的单目图像的深度恢复装置的结构组成示意图一；

图6为本申请实施例的单目图像的深度恢复装置的结构组成示意图二；

图7为本申请实施例的计算机设备的结构组成示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本申请实施例的单目图像的深度恢复方法的流程示意图，如图1所示，所述单目图像的深度恢复方法包括以下步骤：

步骤101：对单目图像进行特征提取，得到所述单目图像的特征图像。

这里，单目图像也称为二维图像，单目图像的信息仅包含有各个像素点的颜色信息，例如RGB信息，而不包含有各个像素点的深度信息。本申请实施例旨在从单目图像中估计出对应的深度图像，假设(x，y)为单目图像中任一个像素点的坐标，从单目图像中可以确定坐标(x，y)对应的RGB信息，而无法确定坐标(x，y)对应的深度信息(depth)，为了确定坐标(x，y)对应的深度信息(depth)，需要对该单目图像的深度进行恢复。

为实现单目图像的深度恢复，首先需要对所述单目图像进行特征提取，得到所述单目图像的特征图像。这里的特征提取是指对所述单目图像进行深度感知特征提取，以为后续进行深度图像的估计提供基本特征。

本申请实施例中，可以采用卷积操作来实现对所述单目图像进行特征提取。

步骤102：对所述特征图像进行解耦，得到所述特征图像的场景结构图。

这里，场景结构图包含有单目图像的场景结构信息，其中，场景结构信息包括单目图像中各个物体的结构信息以及物体之间的相对位置关系(例如前后关系)，这里的场景结构信息本质上反映了物体的相对深度信息。

本申请实施例中，特征图像中包括了两种信息，一种是场景结构信息，另一种是深度尺度信息，同时对这两种信息进行估计非常困难，为此，本申请实施例对所述特征图像进行解耦，先估计所述特征图像的场景结构信息，进而得到场景结构图。

本申请实施例中，可以采用卷积操作来实现估计所述特征图像的场景结构信息。

步骤103：将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像。

考虑到深度图像的几何细节，对于3D重建等应用非常关键，本申请实施例通过梯度感知处理来估计特征图像的增强区域，从而得到区域增强的特征图像。

本申请实施例中，利用梯度和几何细节之间的强相关性，对获取到的特征图像和场景结构图分别进行梯度信息的估计，对比这两个估计结果，即可确定出增强区域，从而得到区域增强的特征图像。在该区域增强的特征图像中，几何细节得到增强，为后续得到高质量的深度图像提供了基本保障。

步骤104：根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。

本申请实施例中，通过卷积操作对所述区域增强的特征图像进行深度估计，从而得到所述单目图像的深度图像。具体地，对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。

本申请实施例的技术方案，将深度估计解耦为两个部分，即1)场景结构(scene structure)的估计、2)深度的估计，如此可以显著加速神经网络的收敛，并且提高深度估计的准确度。此外，深度图像的局部细节通过梯度感知处理进一步改进，可以得到高质量的深度图像，从而为需要精细的几何细节和准确的物体边界的3D重建等应用提供优质的数据源。

为实现上述的单目图像的深度恢复方法，本申请实施例还提供一种神经网络架构(称为DCNet)，如图2所示，DCNet由三部分组成，即：1)特征提取模块，2)解耦模块，以及3)梯度感知模块，其中，解耦模块包括两个部分，分别为2.1)场景结构估计模块、2.2)深度估计模块。参照图2，(a)部分的网络对应特征提取模块，(b)部分的网络对应场景结构估计模块，(d)部分的网络对应深度估计模块，(c)部分的网络对应梯度感知模块。本申请实施例中，可以采用欧几里德损失函数对图2所示的DCNet进行训练。在图2所示的DCNet中，通过(a)部分的网络对单目图像进行特征提取，得到所述单目图像的特征图像；通过(b)部分的网络对所述特征图像进行解耦，得到所述特征图像的场景结构图；通过(c)部分的网络将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；通过(d)部分的网络根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。

图1所示的方案中，单目图像的特征提取可以通过将所述单目图像输入第一神经网络进行特征提取，从而得到所述单目图像的特征图像。以下结合图2及图3对如何通过第一神经网络进行特征提取进行描述。

图3为本申请实施例的单目图像的特征提取的流程示意图，如图3所示，该流程包括以下步骤：

步骤301：对所述单目图像进行多尺度特征提取，得到所述单目图像的多尺度特征信息。

基于图2所示的DCNet，第一神经网络为(a)部分的网络，参照图2中的(a)部分的网络，左侧的一列卷积层用于对所述单目图像进行多尺度特征提取，得到所述单目图像的多尺度特征信息。

步骤302：对所述多尺度特征信息进行残差调整，得到调整后的多尺度特征信息。

这里，多尺度特征信息是指提取出的特征信息的尺度不同，有些特征信息的尺度较大，有些特征信息的尺度较小，由于多尺度特征信息的尺度不一致，会使得小尺度的特征信息在融合之后消失，因此，需要通过中间一列的类残差调整模块(Residual like adjustment，简称为adjust)(参照图2中的(e))对所述多尺度特征信息进行残差调整，得到调整后的多尺度特征信息，这里，残差调整的目的是对多尺度特征信息中的各个特征信息的尺度进行调整，以得到更好的融合效果。

步骤303：对所述调整后的多尺度特征信息进行特征融合，得到所述特征图像。

在一实施方式中，在调整后的多尺度特征信息中选择部分特征信息并上采样到输入图像大小的一半输入到右侧的融合模块(Concat)进行特征融合，得到所述特征图像。

通过上述步骤得到特征图像后，将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。以下结合图2对如何通过第二神经网络对场景结构图进行估计进行描述。

基于图2所示的DCNet，第二神经网络为(b)部分的网络，(a)部分的网络从单目图像中提取出特征图像I后，将特征图像I输入至(b)部分的网络，通过(b)部分的网络预测场景结构图R。本申请实施例中，预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。这里，卷积层可以是512通道的卷积层，线性整流函数通过修正线性单元(ReLU，Rectified Linear Unit)来实现。I和R之间的关系可以通过以下公式表示：

其中，F1表示从特征图像I到场景结构图R的映射，F1对应图2中的(b)部分的网络，(b)部分的网络用于学习场景结构图R。

为了细化图像的布局细节，本申请实施例将所述特征图像和所述场景结构图进行梯度感知处理，从而得到区域增强的特征图像。这里，梯度感知处理可以通过将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。以下结合图2及图4对如何通过第三神经网络进行梯度感知处理进行描述。

图4为本申请实施例的梯度感知处理的流程示意图，如图4所示，该流程包括以下步骤：

步骤401：根据所述场景结构图得到所述场景结构图的实际梯度图像。

步骤402：根据所述特征图像得到所述特征图像对应的预测梯度图像。

基于图2所示的DCNet，第三神经网络为(c)部分的网络，参照图2中的(c)部分的网络，根据场景结构图R估计实际梯度图像

根据特征图像I估计预测梯度图像

理想情况下，

和

相同，然而，由于

是实际梯度图像，而

是预测梯度图像，因此，

和

可能不同。

步骤403：根据所述实际梯度图像和所述预测梯度图像进行相似度分析，得到掩模。

本实施例中，计算所述实际梯度图像和所述预测梯度图像之间的相似度(例如通过余弦函数计算相似度)；将相似度大于预设阈值的实际梯度图像作为所述掩模。参照图2中的(c)部分的网络，计算

和

之间的相似度，将相似度大于δ的实际梯度图像作为所述掩模。

这里，掩模对应实际梯度图像的一个区域，这部分区域的特征有利于后续进一步优化深度图像的细节，使得深度图像能用于三维建模等高精度应用。

步骤404：将所述掩模和所述特征图像进行残差滤波处理，得到区域增强的特征图像。

在一实施方式中，区域增强的特征图像通过如下方式得到：计算所述掩模和所述特征图像的乘积，得到融合图像；将所述融合图像进行预处理，得到预处理后的图像，其中所述预处理依次包括：卷积计算、线性整流计算、卷积计算；将所述特征图像和所述预处理后的图像进行叠加，得到区域增强的特征图像。例如，参照图2中的(f)部分的网络(Residual like filtering)，Multiply模块用于计算掩模和特征图像的乘积，得到融合图像，将融合图像依次输入Conv模块、RuLU模块以及Conv模块，从而实现对应的卷积计算、线性整流计算以及卷积计算，最后的结果再通过Sum模块与原始的特征图像进行叠加，输出区域增强的特征图像。

通过上述方案得到区域增强的特征图像后，通过图2中的(d)部分的网络对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。这里，执行卷积计算的卷积层可以是64通道的卷积层。

本申请实施例中，通过场景结构估计模块(图2中的(b)部分的网络)和深度估计模块(图2中的(d)部分的网络)，将深度图像的估计以分治策略的方式分解成了对场景结构的估计和对深度的估计，从而能够加快DCNet的收敛速度并得到更加精准的结果。并且，在场景结构估计模块和深度估计模块之间建立梯度感知模块，通过深度估计模块能够得到区域增强的特征图像，使得较深层的神经网络(例如图2中的(d)部分的网络)能够更集中在增强的区域，恢复出具有更好的边界以及细节的深度图像，恢复出来的高精度深度图像为三维重建等应用提供了高质量的数据源。

图5为本申请实施例的单目图像的深度恢复装置的结构组成示意图一，如图5所示，所述单目图像的深度恢复装置包括：

特征提取模块501，配置为对所述单目图像进行特征提取，得到所述单目图像的特征图像；

场景结构估计模块502，配置为对所述特征图像进行解耦，得到所述特征图像的场景结构图；

梯度感知模块503，配置为将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；

深度估计模块504，配置为根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。

本领域技术人员应当理解，图5所示的单目图像的深度恢复装置中的各单元的实现功能可参照前述单目图像的深度恢复方法的相关描述而理解。图5所示的单目图像的深度恢复装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

图6为本申请实施例的单目图像的深度恢复装置的结构组成示意图二，如图6所示，所述单目图像的深度恢复装置包括：

在一实施方式中，所述特征提取模块501，配置为将所述单目图像输入第一神经网络进行特征提取，得到所述单目图像的特征图像。

在一实施方式中，所述第一神经网络执行的特征提取，包括：

在一实施方式中，所述场景结构估计模块502，配置为将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。

在一实施方式中，所述装置还包括：

建立模块505，配置为预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。

在一实施方式中，所述梯度感知模块503，配置为将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。

在一实施方式中，所述第三神经网络执行的梯度感知处理，包括：

根据所述场景结构图得到所述场景结构图的实际梯度图像；

根据所述特征图像得到所述特征图像对应的预测梯度图像；

在一实施方式中，所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析，得到掩模，包括：

计算所述实际梯度图像和所述预测梯度图像之间的相似度；

将相似度大于预设阈值的实际梯度图像作为所述掩模。

在一实施方式中，所述将所述掩模和所述特征图像进行残差滤波处理，包括：

计算所述掩模和所述特征图像的乘积，得到融合图像；

在一实施方式中，所述深度估计模块504，配置为对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。

本领域技术人员应当理解，图6所示的单目图像的深度恢复装置中的各单元的实现功能可参照前述单目图像的深度恢复方法的相关描述而理解。图6所示的单目图像的深度恢复装置中的各单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

本申请实施例上述单目图像的深度恢复装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请实施例的上述单目图像的深度恢复方法。

图7为本申请实施例的计算机设备的结构组成示意图，如图7所示，计算机设备100可以包括一个或多个(图中仅示出一个)处理器1002(处理器1002可以包括但不限于微处理器(MCU，Micro Controller Unit)或可编程逻辑器件(FPGA，Field Programmable Gate Array)等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。本领域普通技术人员可以理解，图7所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机设备100还可包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中的方法对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备100的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NIC，Network Interface Controller)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(RF，Radio Frequency)模块，其用于通过无线方式与互联网进行通讯。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

工业实用性

本申请实施例的技术方案，对所述单目图像进行特征提取，得到所述单目图像的特征图像；对所述特征图像进行解耦，得到所述特征图像的场景结构图；将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。上述的单目图像的深度恢复方法和装置，不仅能够采用少量的数据获得更好的深度估计结果，而且还采用梯度感知处理获得更多深度细节。

Claims

一种单目图像的深度恢复方法，所述方法包括：

对所述单目图像进行特征提取，得到所述单目图像的特征图像；

对所述特征图像进行解耦，得到所述特征图像的场景结构图；

将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；

根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。
根据权利要求1所述的方法，其中，所述对所述单目图像进行特征提取，得到所述单目图像的特征图像，包括：

将所述单目图像输入第一神经网络进行特征提取，得到所述单目图像的特征图像。
根据权利要求2所述的方法，其中，所述第一神经网络执行的特征提取，包括：

对所述单目图像进行多尺度特征提取，得到所述单目图像的多尺度特征信息；

对所述多尺度特征信息进行残差调整，得到调整后的多尺度特征信息；

对所述调整后的多尺度特征信息进行特征融合，得到所述特征图像。
根据权利要求1所述的方法，其中，所述对所述特征图像进行解耦，得到所述特征图像的场景结构图，包括：

将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。
根据权利要求4所述的方法，其中，在将所述特征图像输入第二神经网络之前，还包括：

预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。
根据权利要求1所述的方法，其中，所述将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像，包括：

将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。
根据权利要求6所述的方法，其中，所述第三神经网络执行的梯度感知处理，包括：

根据所述场景结构图得到所述场景结构图的实际梯度图像；

根据所述特征图像得到所述特征图像对应的预测梯度图像；

根据所述实际梯度图像和所述预测梯度图像进行相似度分析，得到掩模；

将所述掩模和所述特征图像进行残差滤波处理，得到区域增强的特征图像。
根据权利要求7所述的方法，其中，所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析，得到掩模，包括：

计算所述实际梯度图像和所述预测梯度图像之间的相似度；

将相似度大于预设阈值的实际梯度图像作为所述掩模。
根据权利要求7所述的方法，其中，所述将所述掩模和所述特征图像进行残差滤波处理，包括：

计算所述掩模和所述特征图像的乘积，得到融合图像；

将所述融合图像进行预处理，得到预处理后的图像，其中所述预处理依次包括：卷积计算、线性整流计算、卷积计算；

将所述特征图像和所述预处理后的图像进行叠加，得到区域增强的特征图像。
根据权利要求1所述的方法，其中，所述根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像，包括：

对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。
一种单目图像的深度恢复装置，所述装置包括：

特征提取模块，配置为对所述单目图像进行特征提取，得到所述单目图像的特征图像；

场景结构估计模块，配置为对所述特征图像进行解耦，得到所述特征图像的场景结构图；

梯度感知模块，配置为将所述特征图像和所述场景结构图进行梯度感知处理，得到区域增强的特征图像；

深度估计模块，配置为根据所述区域增强的特征图像进行深度估计，得到所述单目图像的深度图像。
根据权利要求11所述的装置，其中，所述特征提取模块，配置为将所述单目图像输入第一神经网络进行特征提取，得到所述单目图像的特征图像。
根据权利要求12所述的装置，其中，所述第一神经网络执行的特征提取，包括：

对所述单目图像进行多尺度特征提取，得到所述单目图像的多尺度特征信息；

对所述多尺度特征信息进行残差调整，得到调整后的多尺度特征信息；

对所述调整后的多尺度特征信息进行特征融合，得到所述特征图像。
根据权利要求11所述的装置，其中，所述场景结构估计模块，配置为将所述特征图像输入第二神经网络进行解耦，得到所述特征图像的场景结构图。
根据权利要求14所述的装置，其中，所述装置还包括：

建立模块，配置为预先建立所述第二神经网路，其中，所述第二神经网路至少包括一卷积层和一线性整流函数。
根据权利要求11所述的装置，其中，所述梯度感知模块，配置为将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理，得到区域增强的特征图像。
根据权利要求16所述的装置，其中，所述第三神经网络执行的梯度感知处理，包括：

根据所述场景结构图得到所述场景结构图的实际梯度图像；

根据所述特征图像得到所述特征图像对应的预测梯度图像；

根据所述实际梯度图像和所述预测梯度图像进行相似度分析，得到掩模；

将所述掩模和所述特征图像进行残差滤波处理，得到区域增强的特征图像。
根据权利要求17所述的装置，其中，所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析，得到掩模，包括：

计算所述实际梯度图像和所述预测梯度图像之间的相似度；

将相似度大于预设阈值的实际梯度图像作为所述掩模。
根据权利要求17所述的装置，其中，所述将所述掩模和所述特征图像进行残差滤波处理，包括：

计算所述掩模和所述特征图像的乘积，得到融合图像；

将所述融合图像进行预处理，得到预处理后的图像，其中所述预处理依次包括：卷积计算、线性整流计算、卷积计算；

将所述特征图像和所述预处理后的图像进行叠加，得到区域增强的特征图像。
根据权利要求11所述的装置，其中，所述深度估计模块，配置为对所述区域增强的特征图像进行卷积计算，得到所述单目图像的深度图像。
一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至10任一项所述的方法步骤。
一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至10任一项所述的方法。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现权利要求1至10任一项所述的方法。