WO2019174378A1 - 一种基于深度预测和增强子网络的高质量深度估计方法 - Google Patents

一种基于深度预测和增强子网络的高质量深度估计方法 Download PDF

Info

Publication number
WO2019174378A1
WO2019174378A1 PCT/CN2019/070590 CN2019070590W WO2019174378A1 WO 2019174378 A1 WO2019174378 A1 WO 2019174378A1 CN 2019070590 W CN2019070590 W CN 2019070590W WO 2019174378 A1 WO2019174378 A1 WO 2019174378A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
network
sub
prediction
resolution
Prior art date
Application number
PCT/CN2019/070590
Other languages
English (en)
French (fr)
Inventor
叶昕辰
仲维
李豪杰
林林
樊鑫
罗钟铉
Original Assignee
大连理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大连理工大学 filed Critical 大连理工大学
Priority to US16/649,322 priority Critical patent/US11238602B2/en
Publication of WO2019174378A1 publication Critical patent/WO2019174378A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the invention belongs to the field of image processing computer vision, and relates to depth prediction of a color map by using a depth prediction sub-network, and uses a depth enhancement sub-network to recover a resolution of a low-resolution depth map obtained by a depth prediction sub-network, thereby obtaining a high resolution.
  • the depth prediction map specifically relates to a high-quality depth estimation method based on deep prediction and enhanced sub-network.
  • the depth of field of the real scene is a method for measuring the third dimension of the scene. It is widely used in various computer vision tasks, such as pose estimation and 3D modeling. Although it is easy to obtain high-quality texture information using a color camera, the acquisition of depth information is still a challenging subject.
  • the depth information is mainly obtained by stereo matching technology, and other professional depth sensing devices.
  • the stereo matching technique utilizes two corresponding pictures acquired by the binocular camera to perform correlation matching and triangulation methods for depth inference.
  • Other deep acquisition methods mostly use depth sensing devices such as Time-of-Flight (TOF) cameras and Microsoft Kinect cameras. Although these methods have achieved good results, they rely heavily on deep acquisition devices.
  • TOF Time-of-Flight
  • the deep convolutional neural network can directly obtain the corresponding depth information from a single color picture, which solves the drawbacks of the traditional method of over-reliance on the depth acquisition device, but it has a new problem, that is, acquired.
  • the depth map is low resolution and the accuracy of depth prediction for multiscale objects is not high.
  • the existing convolutional neural network in order to obtain a larger receptive field, almost all of the pooling layer and the downsampling layer are included, resulting in a reduced resolution of the obtained depth map.
  • a common method is to scale the color map to different scales and perform depth prediction separately to obtain the final result. Although it improves the performance of the network, it is very time consuming.
  • the present invention designs a framework for high-quality depth prediction based on a convolutional neural network, which includes two parts: a depth prediction sub-network and a depth enhancement sub-network.
  • the depth prediction sub-network is based on a 101-layer residual network (K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in IEEE CVPR, 2016, pp. 770-778.) Build to get depth information from a color map.
  • the depth enhancement sub-network is used to recover the resolution of the depth map obtained from the depth prediction sub-network, thereby obtaining a high-resolution depth map.
  • the present invention aims to overcome the deficiencies of the prior art, and provides a high quality depth prediction method based on depth prediction and enhanced sub-network; a framework for high quality depth prediction based on convolutional neural network is designed, and the framework includes two Part: depth prediction sub-network and depth enhancement sub-network, wherein the depth prediction sub-network is based on a 101-layer residual network for obtaining depth information from a color map, and the depth enhancement sub-network is used to recover from a depth prediction sub-network The resolution of the depth map, resulting in a high resolution depth map. On this basis, a spatial pyramid pooling structure is adopted to solve the problem of the correct rate of depth prediction for objects of different sizes. Based on this, a framework for deep prediction through this convolutional neural network can obtain high-quality depth information.
  • a specific technical solution of the present invention is a high-quality depth prediction method based on a depth prediction sub-network and an enhanced sub-network, including the following steps:
  • the initial data includes color maps for training and corresponding depth maps, as well as color maps and corresponding depth maps for testing;
  • the spatial pyramid structure is realized by replacing the final fully connected layer of ResNet-101 with four cavity convolutions with different expansion rates; the different expansion rates are 6, 12, 18, 24 respectively; the cavity convolution of different expansion rates Effectively and accurately achieve coverage of objects of different scales, thereby improving the accuracy of depth prediction for objects of different sizes, and greatly improving time efficiency.
  • step (2) Based on step (2) and step (3), a convolutional neural network is obtained for training.
  • step 3 specifically includes the following steps:
  • the depth map input branch is a convolutional neural network structure, including three upsampling modules of the same structure, each module including a convolutional layer, a standard hopping structure, and a deconvolution layer; each module will The resolution is expanded to twice the original resolution;
  • step (2) obtaining a convolutional neural network based on step (2) and step (3) for training:
  • L represents the required loss function
  • d s represents Corresponding actual depth map
  • a high-resolution depth map obtained by a depth-enhanced network where d is Corresponding actual depth map, ⁇ represents the balance coefficient, the definition domain is (0, 1], N represents the number of pictures per training, i represents the current picture index, and the definition field is [1, N].
  • 2 represents the 2 norm.
  • the trained model can be used to test on the test set, and the output result of the corresponding input image is obtained.
  • the invention is based on a deep neural network, first constructs a depth prediction sub-network based on a 101-layer residual network, obtains a low-resolution depth map, and then builds a depth-enhanced sub-network for restoring the resolution of the depth map, and finally obtains a high Depth map of quality.
  • the system has the following features:
  • the system is easy to construct, and the convolutional neural network can be used to obtain the corresponding high-quality depth map from a single color map end-to-end;
  • the method recovers the information lost by sub-sampling of the depth prediction sub-network through the high-frequency information of the color image, and finally obtains a high-quality high-resolution depth map;
  • This method uses the space pooling pyramid structure to effectively solve the problem of the prediction accuracy caused by the object size.
  • Figure 1 is an actual flow chart.
  • Figure 2 is a simplified diagram of the network structure.
  • Figure 3 is a comparison of depth estimation results with other methods; (a) different color frames; (b) actual depth map; (c) Eigen method; (d) Liu method; (e) Laina method; The result of the invention.
  • the indoor data set NYUV2 data set select 464 scenes, 1449 color maps and corresponding depth maps as training data.
  • the training data is divided into 795 color maps and corresponding depth maps as training sets, and 654 color maps and corresponding depth maps are used as test sets.
  • the depth prediction sub-network is obtained based on the corresponding improvement of the 101-layer residual network.
  • the spatial pyramid structure is implemented by replacing the final fully connected layer of ResNet-101 with four cavity convolutions with different expansion rates (6, 12, 18, 24).
  • the cavity convolution with different expansion rates can effectively and accurately cover the objects of different scales, thus improving the accuracy of depth prediction for different sizes of objects, and greatly improving the time efficiency.
  • the convolutional neural network structure is used to replace the common linear interpolation and upsampling structure, and the depth map resolution is restored after the depth prediction sub-network.
  • the depth map input branch is a convolutional neural network structure, which mainly includes three up-sampling modules of the same structure, each module including a convolution layer, a standard jump structure, and a deconvolution layer. Each module expands the resolution to twice the original resolution.
  • step (2) Based on step (2) and step (3) to obtain a convolutional neural network for training:
  • the depth prediction and depth enhancement sub-networks are separately trained. Initialize our network using a pre-trained 101-layer residual network model and then optimize the deep prediction network using a two-norm loss function. For deep-enhanced networks, the network is randomly initialized, and the depth-enhanced network is also optimized using a two-norm loss function.
  • the formula of the two norm loss function is as follows:
  • L represents the required loss function
  • N represents the number of pictures per training
  • i represents the current picture index
  • the definition field is [1, N].
  • 2 means 2 norm.
  • L represents the required loss function
  • d s represents Corresponding actual depth map
  • a high-resolution depth map obtained by a depth-enhanced network where d is Corresponding actual depth map, ⁇ represents the balance coefficient, the definition domain is (0, 1], N represents the number of pictures per training, i represents the current picture index, and the definition field is [1, N].
  • the prediction and depth enhancement sub-network optimizes the entire network.
  • the momentum parameter is set to 0.9 during training, the learning rate is initialized to 1e-4, and the learning rate is decreased by 0.9 per cycle.
  • the trained model can be used to test on the test set, and the output result of the corresponding input image is obtained.
  • the final depth estimation results of the two data sets in this embodiment are compared with other methods as shown in FIG. 3, wherein (a) different color frames; (b) actual depth map; (c) Eigen method (D. Eigen) And R. Fergus, "Predicting depth, surface nor-mals and semantic labels with a common multi-scale convolutional architecture," in IEEE ICCV, 2015, pp. 2650-2658.); (d) Liu method (F. Liu, C. Shen, G. Lin, and I. Reid, "Learning depth from single monocular images using deep convolutional neural fields," IEEE TPAMI, vol. 38, no. 10, pp.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于深度预测和增强子网络的高质量深度估计方法,属于图像处理和计算机视觉领域。本方法通过搭建深度预测子网络对彩色图进行深度预测,并采用深度增强子网络对深度预测子网络得到的低分辨率图进行分辨率恢复,进而得到高分辨率的深度预测图。本方法程序简单,易于实现;系统容易构建,用卷积神经网络即可端到端的从单张彩色图得到对应的高质量的深度图;通过彩色图像高频信息恢复深度预测子网络下采样所损失的信息,最终得到高质量高分辨率的深度图;采用空间池化金字塔结构有效的解决了物体尺寸不一带来的预测准确率的问题。

Description

一种基于深度预测和增强子网络的高质量深度估计方法 技术领域
本发明属于图像处理计算机视觉领域,涉及采用深度预测子网络对彩色图进行深度预测,并采用深度增强子网络对深度预测子网络得到的低分辨率深度图进行分辨率恢复,进而得到高分辨率的深度预测图,具体涉及到一种基于深度预测和增强子网络的高质量深度估计方法。
背景技术
真实场景的景深,即深度信息,是衡量场景第三维度的方法,广泛应用于各种计算机视觉任务中,比如姿态估计,三维建模等。尽管能使用彩色相机轻松获取高质量的纹理信息,但是深度信息的获取依旧是一个极具挑战的课题。传统方法中,深度信息的获取主要采用立体匹配技术,以及其他一些专业深度传感装置。立体匹配技术利用双目相机采集的两张对应的图片进行相关性匹配和三角测量方法进行深度推断。其他的深度获取方式多数采用深度传感装置,比如Time-of-Flight(TOF)相机,微软的Kinect相机等。这些方法尽管取得了不错的效果,但是严重依赖于深度采集装置。
随着深度学习的发展,利用深度卷积神经网络可以从单张彩色图片直接获取对应的深度信息,解决了传统方法中过度依赖深度采集装置的弊端,但是却产生了新的问题,即所获取的深度图是低分辨率的,以及对于多尺度物体深度预测的准确性不高。在现有的卷积神经网络中为了获取更大的感受野几乎都会包含一些池化层和下采样层,导致得到的深度图分辨率减小。在现有的方法中,为了解决场景中不同大小物体深度预测的正确率问题,普遍的方法是将彩色图缩放到不同尺度大小分开进行深度预测得到最终的结果。尽管提高了网络的表现,但是非常的费时。
基于以上问题,本发明设计了一个基于卷积神经网络进行高质量深度预测的框架,该框架包括两个部分:深度预测子网络和深度增强子网络。深度预测子网 络基于101层残差网络(K.He,X.Zhang,S.Ren,and J.Sun,“Deep residual learning for image recognition,”in IEEE CVPR,2016,pp.770–778.)构建,用于从彩色图获取深度信息。深度增强子网络用于恢复从深度预测子网络得到的深度图的分辨率,从而得到高分辨率的深度图。
发明内容
本发明旨在克服现有技术的不足,提供了一种基于深度预测和增强子网络的高质量的深度预测方法;设计了一个基于卷积神经网络进行高质量深度预测的框架,该框架包括两个部分:深度预测子网络和深度增强子网络,其中,深度预测子网络基于101层残差网络,用于从彩色图获取深度信息,而深度增强子网络用于恢复从深度预测子网络得到的深度图的分辨率,从而得到高分辨率的深度图。在此基础上,采用了一种空间金字塔池化结构,解决不同大小物体深度预测的正确率问题。基于此,通过这个卷积神经网络进行深度预测的框架,可以得到高质量的深度信息。
本发明的具体技术方案为,一种基于深度预测子网络和增强子网络的高质量深度预测方法,包括下列步骤:
1)准备初始数据:初始数据包括用来训练的彩色图和对应的深度图,以及用来测试的彩色图和对应的深度图;
2)深度预测子网络的构建:
2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scale context aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层;在特征图分辨率不下降的情况下增大感受野的大小。
2-2)利用四个扩张率不同的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构;所述不同扩张率分别为6、12、18、24;不同扩张率的空洞卷积有效准确的实现对不同尺度物体的覆盖,从而提高对不同尺寸物体深度预测的 准确度,同时大大提高了时间效率。
3)深度增强子网络的构建:利用递进的卷积神经网络结构替代常见的线性插值和上采样结构,接在深度预测子网络的后面实现深度图分辨率的恢复;
4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练。
进一步地,步骤3)中深度增强子网络的构建,具体包括以下步骤:
3-1)利用高频滤波器提取彩色图像的高频信息,并利用多层卷积提取特征,作为深度增强子网络的输入之一,帮助深度增强子网络在进行分辨率恢复时进行边缘优化;
3-2)深度图输入分支为卷积神经网络结构,包括三个相同结构的上采样模块,每个模块包括一个卷积层、一个标准的跳跃结构和一个反卷积层;每个模块将分辨率扩大到原来分辨率的两倍;
3-3)将两个输入分支连接在一起,再经过一次卷积操作,得到最后的输出。
进一步地,4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练:
4-1)首先对深度预测、深度增强子网络进行分开训练,分别得到收敛的训练模型。
4-2)然后,设计一种损失函数用于促使预测深度图逼近实际深度图,公式如下:
Figure PCTCN2019070590-appb-000001
式中L表示所要求的损失函数,
Figure PCTCN2019070590-appb-000002
表示深度预测子网络得到的低分辨的深度图,d s表示与
Figure PCTCN2019070590-appb-000003
对应的实际深度图,
Figure PCTCN2019070590-appb-000004
表示深度增强网络得到的高分辨率的深度图,d表示与
Figure PCTCN2019070590-appb-000005
对应的实际深度图,λ表示平衡系数,定义域为(0,1],N表示每次训练的图片数量,i表示当前图片索引,定义域为[1,N]。||·|| 2表示2范数。利用上式联合训练深度预测、深度增强子网络,优化整个网络。
当训练完毕,即可以利用训练好的模型在测试集上进行测试,得到相应输入图像的输出结果。
本发明的有益效果是:
本发明基于深度神经网络,首先搭建一个基于101层残差网络的深度预测子网络,得到低分辨率的深度图,然后再搭建一个深度增强子网络用于恢复深度图的分辨率,最终得到高质量的深度图。该系统具有以下特点:
1、系统容易构建,用卷积神经网络即可端到端的从单张彩色图得到对应的高质量的深度图;
2、程序简单,易于实现;
3、本方法通过彩色图像高频信息恢复深度预测子网络下采样所损失的信息,最终得到高质量高分辨率的深度图;
4、本方法采用空间池化金字塔结构有效的解决了物体尺寸不一带来的预测准确率的问题。
附图说明
图1是实际流程图。
图2是网络结构简图。
图3是深度估计结果与其他方法的比较;其中(a)不同的彩色帧;(b)实际深度图;(c)Eigen方法;(d)Liu方法;(e)Laina方法;(f)本发明的结果。
具体实施方式
下面结合实施例和附图对本发明的基于深度预测和增强子网络的高质量深度估计方法做出详细说明:
一种基于深度预测和增强子网络的高质量深度估计方法,如图1所示,所述方法包括下列步骤;
1)准备初始数据;
1-1)使用两个公开数据集室内数据集NYUV2数据集,室外数据集Make3D 数据集训练、评估该发明;
1-2)对于室内数据集NYUV2数据集,选择464个场景、1449张彩色图与对应深度图作为训练数据。依据官方划分的方法将训练数据划分795张彩色图与对应深度图作为训练集,654张彩色图与对应深度图作为测试集。
1-3)对于室外数据集Make3D数据集共有400张数据对作为训练集,134张数据对作为测试集。由于该数据集彩色图大小为2272×1704,而深度图大小只有55×305,于是将彩色图和对应深度图大小调整为460×345。
2)深度预测子网络的构建:深度预测子网络基于101层残差网络进行相应的改进而得到。
2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scale context aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层,在特征图分辨率不下降的情况下增大感受野的大小。
2-2)利用四个扩张率不同(6,12,18,24)的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构。不同扩张率的空洞卷积可以有效准确的实现对不同尺度物体的覆盖,从而提高对不同尺寸物体深度预测的准确度,同时大大提高了时间效率。
3)深度增强子网络的构建:利用卷积神经网络结构替代常见的线性插值和上采样结构,接在深度预测子网络的后面实现深度图分辨率的恢复。
3-1)利用高频滤波器提取彩色图像的高频信息,并利用多层卷积提取特征,作为深度增强子网络的输入之一,帮助深度增强子网络在进行分辨率恢复时进行边缘优化。
3-2)深度图输入分支为卷积神经网络结构,主要包括三个相同结构的上采样模块,每个模块包括一个卷积层,一个标准的跳跃结构,一个反卷积层。每个模块将分辨率扩大到原来分辨率的两倍。
3-3)将两个输入分支连接在一起,再经过一次卷积操作,得到最后的输出。整个网络结构如图2所示。
4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练:
4-1)首先对深度预测、深度增强子网络进行分开训练。使用预训练好的101层残差网络模型初始化我们的网络,然后使用二范数的损失函数优化深度预测网络。对于深度增强网络,随机初始化网络,同样使用二范数的损失函数优化深度增强网络。二范数损失函数公式如下:
Figure PCTCN2019070590-appb-000006
式中L表示所要求的损失函数,
Figure PCTCN2019070590-appb-000007
表示深度增强网络得到的高分辨率的深度图,d表示与
Figure PCTCN2019070590-appb-000008
对应的实际深度图,N表示每次训练的图片数量,i表示当前图片索引,定义域为[1,N]。||·|| 2表示2范数。
4-2)然后,设计一种损失函数用于促使预测深度图逼近实际深度图,公式如下:
Figure PCTCN2019070590-appb-000009
式中L表示所要求的损失函数,
Figure PCTCN2019070590-appb-000010
表示深度预测子网络得到的低分辨的深度图,d s表示与
Figure PCTCN2019070590-appb-000011
对应的实际深度图,
Figure PCTCN2019070590-appb-000012
表示深度增强网络得到的高分辨率的深度图,d表示与
Figure PCTCN2019070590-appb-000013
对应的实际深度图,λ表示平衡系数,定义域为(0,1],N表示每次训练的图片数量,i表示当前图片索引,定义域为[1,N]。利用上式联合训练深度预测、深度增强子网络,优化整个网络,训练时设置动量参数为0.9,学习率被初始化为1e-4,学习率每一周期下降0.9。
当训练完毕,即可以利用训练好的模型在测试集上进行测试,得到相应输入 图像的输出结果。
本实施例对两个数据集合的最终深度估计结果及与其他方法的比较如图3所示,其中(a)不同的彩色帧;(b)实际深度图;(c)Eigen方法(D.Eigen and R.Fergus,“Predicting depth,surface nor-mals and semantic labels with a common multi-scale convolutional architecture,”in IEEE ICCV,2015,pp.2650–2658.);(d)Liu方法(F.Liu,C.Shen,G.Lin,and I.Reid,“Learning depthfrom single monocular images using deep convolutionalneural fields,”IEEE TPAMI,vol.38,no.10,pp.2024–2039,2016.);(e)Laina方法(IroLaina,Christian Rupprecht,Vasileios Belagiannis,Federico Tombari,and Nassir Navab,“Deeper depthprediction with fully convolutional residual networks,”in Fourth International Conference on 3d Vision,2016,pp.239–248.);(f)本发明的结果。

Claims (3)

  1. 一种基于深度预测和增强子网络的高质量深度预测方法,其特征在于,包括如下步骤:
    1)准备初始数据:初始数据包括用来训练的彩色图和对应的深度图,以及用来测试的彩色图和对应的深度图;
    2)深度预测子网络的构建:
    2-1)利用扩张率为2的空洞卷积(Fisher Yu and VladlenKoltun,“Multi-scale context aggregation by dilated convolutions,”CoRR,vol.abs/1511.07122,2015.)取代ResNet-101(101层残差网络)中最后两个下采样层;在特征图分辨率不下降的情况下增大感受野的大小;
    2-2)利用四个扩张率不同的空洞卷积代替ResNet-101最后的全连接层实现空间金字塔结构;所述不同扩张率分别为6、12、18、24;不同扩张率的空洞卷积有效准确的实现对不同尺度物体的覆盖,从而提高对不同尺寸物体深度预测的准确度,同时大大提高了时间效率;
    3)深度增强子网络的构建:利用递进的卷积神经网络结构替代常见的线性插值和上采样结构,接在深度预测子网络的后面实现深度图分辨率的恢复;
    4)基于步骤(2)和步骤(3)得到卷积神经网络进行训练。
  2. 根据权利要求1所述的一种基于深度预测和增强子网络的高质量深度预测方法,其特征在于,步骤3)中深度增强子网络的构建,具体包括以下步骤:
    3-1)利用高频滤波器提取彩色图像的高频信息,并利用多层卷积提取特征,作为深度增强子网络的输入之一,帮助深度增强子网络在进行分辨率恢复时进行边缘优化;
    3-2)深度图输入分支为卷积神经网络结构,包括三个相同结构的上采样模块,每个模块包括一个卷积层、一个标准的跳跃结构和一个反卷积层;每个模块将分辨率扩大到原来分辨率的两倍;
    3-3)将两个输入分支连接在一起,再经过一次卷积操作,得到最后的输出。
  3. 根据权利要求1或2所述的一种基于深度预测和增强子网络的高质量深度预测方法,其特征在于,步骤4)中基于步骤(2)和步骤(3)得到卷积神经网络进 行训练,具体包括以下步骤:
    4-1)首先对深度预测、深度增强子网络进行分开训练,分别得到收敛的训练模型;
    4-2)然后,设计一种损失函数用于促使预测深度图逼近实际深度图,公式如下:
    Figure PCTCN2019070590-appb-100001
    式中L表示所要求的损失函数,
    Figure PCTCN2019070590-appb-100002
    表示深度预测子网络得到的低分辨的深度图,d s表示与
    Figure PCTCN2019070590-appb-100003
    对应的实际深度图,
    Figure PCTCN2019070590-appb-100004
    表示深度增强网络得到的高分辨率的深度图,d表示与
    Figure PCTCN2019070590-appb-100005
    对应的实际深度图,λ表示平衡系数,定义域为(0,1],N表示每次训练的图片数量,i表示当前图片索引,定义域为[1,N],||·|| 2表示2范数;利用上式联合训练深度预测、深度增强子网络,优化整个网络。
PCT/CN2019/070590 2018-03-14 2019-01-07 一种基于深度预测和增强子网络的高质量深度估计方法 WO2019174378A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/649,322 US11238602B2 (en) 2018-03-14 2019-01-07 Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810207285.4A CN108510535B (zh) 2018-03-14 2018-03-14 一种基于深度预测和增强子网络的高质量深度估计方法
CN201810207285.4 2018-03-14

Publications (1)

Publication Number Publication Date
WO2019174378A1 true WO2019174378A1 (zh) 2019-09-19

Family

ID=63375998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/070590 WO2019174378A1 (zh) 2018-03-14 2019-01-07 一种基于深度预测和增强子网络的高质量深度估计方法

Country Status (3)

Country Link
US (1) US11238602B2 (zh)
CN (1) CN108510535B (zh)
WO (1) WO2019174378A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062981A (zh) * 2019-12-13 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN111105387A (zh) * 2019-11-08 2020-05-05 西安电子科技大学 基于统计特征视角合成质量预测方法、信息数据处理终端
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111506759A (zh) * 2020-03-04 2020-08-07 中国人民解放军战略支援部队信息工程大学 一种基于深度特征的影像匹配方法及装置
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112435191A (zh) * 2020-11-25 2021-03-02 西安交通大学 一种基于多个神经网络结构融合的低照度图像增强方法
CN113112585A (zh) * 2021-03-26 2021-07-13 西北工业大学 一种从单幅图像中重建高质量目标三维形状的方法
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN115063303A (zh) * 2022-05-18 2022-09-16 大连理工大学 一种基于图像修复的图像3d化方法
CN115294375A (zh) * 2022-10-10 2022-11-04 南昌虚拟现实研究院股份有限公司 一种散斑深度估算方法、系统、电子设备及存储介质
CN117474763A (zh) * 2023-12-26 2024-01-30 青岛埃克曼科技有限公司 基于神经网络的沿海低分辨率水深数据高分辨率化方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510535B (zh) * 2018-03-14 2020-04-24 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN109360206B (zh) * 2018-09-08 2021-11-12 华中农业大学 基于深度学习的大田稻穗分割方法
CN109376627A (zh) * 2018-10-10 2019-02-22 北京飞搜科技有限公司 一种基于深度学习的人脸检测方法,装置和设备
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
CN109801323A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 具有自我提升能力的金字塔双目深度估计模型
CN109741383A (zh) * 2018-12-26 2019-05-10 西安电子科技大学 基于空洞卷积和半监督学习的图像深度估计系统与方法
CN109829443B (zh) * 2019-02-23 2020-08-14 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110136136B (zh) 2019-05-27 2022-02-08 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
CN110427968B (zh) * 2019-06-28 2021-11-02 武汉大学 一种基于细节增强的双目立体匹配方法
US11321863B2 (en) * 2019-09-23 2022-05-03 Toyota Research Institute, Inc. Systems and methods for depth estimation using semantic features
CN111739077B (zh) * 2020-06-15 2022-11-18 大连理工大学 基于深度神经网络单目水下图像深度估计和颜色矫正方法
CN111738921B (zh) * 2020-06-15 2022-11-18 大连理工大学 基于深度神经网络的多信息渐进融合的深度超分辨率方法
CN112686830B (zh) * 2020-12-30 2023-07-25 太原科技大学 基于图像分解的单一深度图的超分辨率方法
CN112785636B (zh) * 2021-02-18 2023-04-28 上海理工大学 一种多尺度增强式的单目深度估计方法
CN113298814A (zh) * 2021-05-21 2021-08-24 浙江科技学院 一种基于渐进指导融合互补网络的室内场景图像处理方法
CN113344997B (zh) * 2021-06-11 2022-07-26 方天圣华(北京)数字科技有限公司 快速获取只含有目标对象的高清前景图的方法及系统
US11741671B2 (en) 2021-06-16 2023-08-29 Samsung Electronics Co., Ltd. Three-dimensional scene recreation using depth fusion
CN113505885B (zh) * 2021-06-29 2024-05-03 中国科学院深圳先进技术研究院 基于预设的损失函数的单目深度估计网络的训练方法
CN113643197B (zh) * 2021-07-19 2023-06-20 海南大学 一种结合引导滤波和nsct的两阶轻量型网络全色锐化方法
CN113763447B (zh) * 2021-08-24 2022-08-26 合肥的卢深视科技有限公司 深度图的补全方法、电子设备及存储介质
CN113935908A (zh) * 2021-09-16 2022-01-14 航天东方红卫星有限公司 一种基于双支路通道和特征强化机制的遥感图像去云方法
CN113705796B (zh) * 2021-09-28 2024-01-02 太原科技大学 基于epi特征强化的光场深度获取卷积神经网络
CN114494569B (zh) * 2022-01-27 2023-09-19 光线云(杭州)科技有限公司 基于轻量级神经网络和残差流式传输的云渲染方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107767380A (zh) * 2017-12-06 2018-03-06 电子科技大学 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107679477B (zh) * 2017-09-27 2021-02-02 深圳市未来媒体技术研究院 基于空洞卷积神经网络的人脸深度和表面法向量预测方法
US10646156B1 (en) * 2019-06-14 2020-05-12 Cycle Clarity, LLC Adaptive image processing in assisted reproductive imaging modalities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN107767380A (zh) * 2017-12-06 2018-03-06 电子科技大学 一种基于全局空洞卷积的高分辨率复合视野皮肤镜图像分割方法
CN108510535A (zh) * 2018-03-14 2018-09-07 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DUE MY VO ET AL.: "Semantic image segmentation using fully convolutional neural networks with multi-scale images and multi-scale dilated convolu- tions", MULTIMEDIA TOOLS AND APPLICATIONS, vol. 77, no. 14, 22 February 2018 (2018-02-22), pages 18689 - 18707, XP036554870 *
FISHER YU ET AL.: "Multiscale context aggregation by dilated convolutions", ICLR 2016- CONFERENCE, 30 April 2016 (2016-04-30), XP055579352 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105387A (zh) * 2019-11-08 2020-05-05 西安电子科技大学 基于统计特征视角合成质量预测方法、信息数据处理终端
CN111105387B (zh) * 2019-11-08 2023-05-26 西安电子科技大学 基于统计特征视角合成质量预测方法、信息数据处理终端
CN111062981B (zh) * 2019-12-13 2023-05-05 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN111062981A (zh) * 2019-12-13 2020-04-24 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN111242036A (zh) * 2020-01-14 2020-06-05 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111242036B (zh) * 2020-01-14 2023-05-09 西安建筑科技大学 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN111506759A (zh) * 2020-03-04 2020-08-07 中国人民解放军战略支援部队信息工程大学 一种基于深度特征的影像匹配方法及装置
CN111506759B (zh) * 2020-03-04 2023-10-24 中国人民解放军战略支援部队信息工程大学 一种基于深度特征的影像匹配方法及装置
CN112001960A (zh) * 2020-08-25 2020-11-27 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112001960B (zh) * 2020-08-25 2022-09-30 中国人民解放军91550部队 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN112435191A (zh) * 2020-11-25 2021-03-02 西安交通大学 一种基于多个神经网络结构融合的低照度图像增强方法
CN112435191B (zh) * 2020-11-25 2024-04-16 西安交通大学 一种基于多个神经网络结构融合的低照度图像增强方法
CN113112585A (zh) * 2021-03-26 2021-07-13 西北工业大学 一种从单幅图像中重建高质量目标三维形状的方法
CN113112585B (zh) * 2021-03-26 2024-05-14 西北工业大学 一种从单幅图像中重建高质量目标三维形状的方法
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN115063303A (zh) * 2022-05-18 2022-09-16 大连理工大学 一种基于图像修复的图像3d化方法
CN115294375B (zh) * 2022-10-10 2022-12-13 南昌虚拟现实研究院股份有限公司 一种散斑深度估算方法、系统、电子设备及存储介质
CN115294375A (zh) * 2022-10-10 2022-11-04 南昌虚拟现实研究院股份有限公司 一种散斑深度估算方法、系统、电子设备及存储介质
CN117474763A (zh) * 2023-12-26 2024-01-30 青岛埃克曼科技有限公司 基于神经网络的沿海低分辨率水深数据高分辨率化方法
CN117474763B (zh) * 2023-12-26 2024-04-26 青岛埃克曼科技有限公司 基于神经网络的沿海低分辨率水深数据高分辨率化方法

Also Published As

Publication number Publication date
US11238602B2 (en) 2022-02-01
US20200265597A1 (en) 2020-08-20
CN108510535B (zh) 2020-04-24
CN108510535A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
WO2019174378A1 (zh) 一种基于深度预测和增强子网络的高质量深度估计方法
CN110427877B (zh) 一种基于结构信息的人体三维姿态估算的方法
CN111739077B (zh) 基于深度神经网络单目水下图像深度估计和颜色矫正方法
CN107578436B (zh) 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN110427968B (zh) 一种基于细节增强的双目立体匹配方法
Wang et al. 360sd-net: 360 stereo depth estimation with learnable cost volume
CN107204010B (zh) 一种单目图像深度估计方法与系统
WO2019174377A1 (zh) 一种基于单目相机的三维场景稠密重建方法
CN108537848B (zh) 一种面向室内场景重建的两级位姿优化估计方法
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN111968217B (zh) 基于图片的smpl参数预测以及人体模型生成方法
CN106408524A (zh) 基于二维图像辅助的深度图像增强方法
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN110288712B (zh) 室内场景的稀疏多视角三维重建方法
CN115205489A (zh) 一种大场景下的三维重建方法、系统及装置
CN113205595B (zh) 一种3d人体姿态估计模型的构建方法及其应用
CN112819853B (zh) 一种基于语义先验的视觉里程计方法
WO2024045632A1 (zh) 基于双目视觉和imu的水下场景三维重建方法及设备
WO2020119620A1 (zh) 具有自我提升能力的金字塔双目深度估计模型
CN116664782B (zh) 一种基于融合体素的神经辐射场三维重建方法
CN116310098A (zh) 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法
CN117132737B (zh) 一种三维建筑模型构建方法、系统及设备
CN117612204A (zh) 一种三维手部姿态估计器构建方法及系统
CN113096039A (zh) 一种基于红外图和深度图的深度信息补全方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19766876

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19766876

Country of ref document: EP

Kind code of ref document: A1