WO2019174377A1 - 一种基于单目相机的三维场景稠密重建方法 - Google Patents

一种基于单目相机的三维场景稠密重建方法 Download PDF

Info

Publication number
WO2019174377A1
WO2019174377A1 PCT/CN2019/070589 CN2019070589W WO2019174377A1 WO 2019174377 A1 WO2019174377 A1 WO 2019174377A1 CN 2019070589 W CN2019070589 W CN 2019070589W WO 2019174377 A1 WO2019174377 A1 WO 2019174377A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
map
pixel
depth map
reconstruction
Prior art date
Application number
PCT/CN2019/070589
Other languages
English (en)
French (fr)
Inventor
叶昕辰
仲维
王智慧
李豪杰
林林
樊鑫
罗钟铉
Original Assignee
大连理工大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大连理工大学 filed Critical 大连理工大学
Priority to US16/650,331 priority Critical patent/US11210803B2/en
Publication of WO2019174377A1 publication Critical patent/WO2019174377A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering

Definitions

  • the invention belongs to the field of image processing and computer vision, and relates to modeling a pose and a three-dimensional scene of a camera by using feature-based simultaneous positioning and map construction methods, and deducing a fusion algorithm of traditional geometric depth estimation and convolutional neural network depth inference. Specifically, it relates to a three-dimensional scene dense reconstruction method based on a monocular camera.
  • monocular SLAM technology can be divided into two categories: direct method and feature method.
  • Feature-based monocular SLAM relies on extracting feature points of different scenes from different scenes, and performs feature point matching. Then, based on these feature point pairs, the multi-view geometry principle is used to solve the pose and 3D scene structure of the camera. The positioning accuracy of such algorithms is high, but the reconstructed 3D map is too sparse.
  • the monocular direct method does not rely on the extraction and matching of feature points, but directly solves the camera motion by comparing the pixel colors, so it is generally more robust in the case of feature missing, image blur, and the like.
  • a semi-dense depth map can be solved, which cannot be used in robot navigation or other practical application scenarios.
  • the invention aims to overcome the deficiencies of the prior art, and provides a dense reconstruction method for a three-dimensional scene based on a monocular camera, that is, constructing a fusion framework of the depth prediction of the CNN and the sparse depth map inferred by the feature method to perform depth information recovery and establish depth. Calculate the reconstruction model and build a high-performance solution algorithm to obtain a high-quality dense depth map.
  • a specific technical solution of the present invention is a method for densely reconstructing a three-dimensional scene based on a monocular camera, comprising the following steps:
  • Camera pose estimation and key frame screening In the tracking process, in order to ensure efficiency, key frames are selected; each key frame corresponds to a pose, and each pose includes position and orientation.
  • Scale normalization a sparse depth map and a CNN-predicted low-resolution depth map are generated in the camera pose estimation, and the scale factor between the sparse depth map and the low-resolution depth map is returned before the depth information fusion Once to the same scale.
  • Depth information fusion and reconstruction deep information fusion for each key frame and calculation of the corresponding confidence map, joint data item and smoothing term to establish energy equation, apply acceleration algorithm to solve, reconstruct complete dense depth map, and then A dense reconstruction of the 3D scene.
  • Camera pose estimation and key frame filtering including the following steps:
  • the scale is normalized and includes the following steps:
  • Deep information fusion and reconstruction including the following steps:
  • Depth information fusion low resolution depth map predicted by sparse depth map D' and CNN generated during camera tracking After normalization to the same scale, fusion is performed, and the depth map after fusion is recorded as Given p, p is the index of a pixel in the image, The definition is as follows:
  • D' p ⁇ 0 ⁇ , then H p 1; for the remaining pixel points, that is, the pixel points corresponding to the CNN prediction depth, the confidence is calculated as follows:
  • H p is the confidence value at pixel p
  • d p is the distance of the nearest pixel in pixel point p to Q
  • Q is the set of pixel points at the boundary acquired by the edge detection operator on the color map
  • Max represents the maximum distance threshold
  • D is the depth map to be reconstructed
  • D p The pixel values of the depth map and the depth map is required to be integrated in a point p, H p is the pixel value at point p confidence;
  • D is the depth map to be reconstructed
  • D p , D q is the pixel value of the depth map to be sought at points p and q
  • p, q is the pixel point index in the depth map
  • the weight w p,q represents the smoothness constraint coefficient between the pixel points p and q
  • the weight w p,q is defined according to the similarity between the pixel points in the color map C, the formula is as follows :
  • C p , C q represent the pixel values of the color map at points p and q
  • exp( ⁇ ) is an exponential function
  • is the standard deviation of the variation of the control filter, which ranges from 0.1 to 0.5, with an intermediate value optimal
  • the invention constructs a fusion algorithm of traditional geometric depth estimation and convolutional neural network depth inference; on this basis, a deep reconstruction model is established, and an acceleration algorithm is applied to solve the model, which has the following characteristics:
  • the system is easy to construct, and the hardware resources are low.
  • the dense reconstruction of the 3D scene can be completed by using a common monocular camera.
  • the feature-based SLAM method is used to ensure the accuracy of the positioning, and the sparse depth scatter and the CNN-inferred low-resolution depth map are combined to construct a high-performance deep computation reconstruction model, and the complete dense depth is obtained, thereby realizing the denseness of the three-dimensional scene. reconstruction.
  • the invention fully utilizes the depth scatter estimated by the traditional geometric method and the depth map of the CNN prediction, and uses the color map as a guide to construct an efficient deep fusion and reconstruction model, and realizes the dense reconstruction of the three-dimensional scene based on the monocular camera.
  • the proposed method is very scalable, and by combining different camera tracking algorithms, a more accurate dense reconstruction can be achieved.
  • Figure 1 is a system flow diagram of an actual implementation.
  • Figure 2 is a CNN network structure diagram.
  • conv represents the convolution operation
  • pool represents the pooling operation
  • Residual Blocks is the residual block
  • D-conv Kernel represents the expansion convolution
  • dilated factor represents the expansion factor.
  • Figure 3 is a graph of the results of deep fusion and three-dimensional reconstruction.
  • Fig. 3 (a) the true result of the grayscale image and the depth map; (b) the depth map obtained by the CNN prediction; (c) the depth map after the fusion reconstruction; (d) the three-dimensional reconstruction result corresponding to the true depth map; (e) 3D reconstruction results corresponding to the depth map predicted by CNN; (f) 3D reconstruction results corresponding to the depth map after fusion reconstruction.
  • the invention provides a three-dimensional scene dense reconstruction method based on a monocular camera, which is described in detail below with reference to the accompanying drawings and embodiments:
  • the video sequence obtained by the monocular camera as a sensor is experimental data, wherein the camera resolution is 480 ⁇ 640 and the video frame rate is 30 frames/second.
  • the feature-based SLAM technique is used to construct the fusion framework of CNN's depth prediction and feature method to infer the depth information recovery, establish the depth calculation reconstruction model, and build a high-performance solution algorithm to obtain high quality. Dense depth map.
  • the implementation process of the entire method is as shown in FIG. 2, and the method includes the following steps;
  • each key frame k i corresponds to a pose (position and orientation), recorded as Is a 3 ⁇ 3 rotation matrix, Is a three-dimensional translation vector.
  • denotes a set of three-dimensional map points and two-dimensional feature point matching pairs
  • j is an index of matching point pairs
  • is a robust Huber loss function
  • is the covariance matrix.
  • denotes the perspective projection function.
  • the specific solution can use optimization tools such as Ceres or g2o.
  • g2o which is a model solver based on graph optimization.
  • the CNN network model is based on ResNet-101 with the following changes: all the fully connected layers are replaced by convolutional layers; the L2 norm is used in the loss function; In the two downsampling layers, a hole convolution is used instead of the traditional convolution with a step size of 2.
  • the architecture of the entire network is shown in Figure 2.
  • Model training the entire network model is trained on the NYU-D v2 dataset, which consists of 1449 color maps and corresponding depth maps selected from 464 scenes, we will Divided into training set and verification set, containing 795 and 654 image pairs respectively.
  • the momentum parameter of the CNN network is set to 0.9, the initial learning rate is 1e-4, and is attenuated at a rate of 0.9.
  • Scale normalization The scale difference between the 3D map points generated in 1) and the depth predicted by CNN in 2) is a scale factor. Therefore, before deep integration, the scale is unified.
  • Depth information fusion and reconstruction deep information fusion for each key frame and calculation of the corresponding confidence map, joint data item and smoothing term to establish energy equation, apply acceleration algorithm to solve, reconstruct complete dense depth map, and then A dense reconstruction of the 3D scene.
  • Depth information fusion low resolution depth map predicted by sparse depth map D' and CNN generated during camera tracking After normalization to the same scale, fusion is performed, and the depth map after fusion is recorded as Given p, p is the index of a pixel in the image, The definition is as follows:
  • a confidence map H is calculated according to the source of the depth information and the distance from the depth boundary, and H indicates the accuracy of the depth information for later dense depth reconstruction.
  • H p 0; if p ⁇ ⁇ p
  • D' p ⁇ 0 ⁇ , then H p 1.
  • the confidence is calculated as follows:
  • H p is the confidence value at pixel p
  • d p is the distance of the nearest pixel point in pixel point p to Q
  • Q is the set of pixel points at the boundary acquired by the edge detection operator on the color map.
  • d max represents the maximum distance threshold, where 30 pixels are taken. The closer the pixel depth predicted by the CNN is, the lower the reliability is, so the smaller the confidence value is.
  • D is the depth map to be reconstructed
  • D p For the pixel value of the depth map and the fused depth map at point p, H p is the pixel value of the confidence point at point p.
  • D is the depth map to be reconstructed
  • D p D q is the pixel value of the depth map to be sought at points p and q
  • p, q is the pixel point index in the depth map
  • It is the four neighborhood of the pixel p
  • the weight w p, q represents the smoothness constraint coefficient between the pixel points p and q.
  • the weights w p,q are defined according to the similarity between pixel points in the color map C, and the formula is as follows:
  • C p , C q represent the pixel values of the color map at points p and q
  • exp( ⁇ ) is an exponential function
  • is the standard deviation of the variation of the control filter, which ranges from 0.1 to 0.5, with an intermediate value optimal.
  • the balance factor ⁇ takes a value of 30.
  • the final energy function can be written as a matrix form as follows and can be solved by a weighted least squares method:
  • d are D and Vector form
  • the value of the diagonal element is determined by the confidence map H.
  • W represents the spatial Laplacian transformation matrix defined by the weight coefficients w p,q .
  • the present invention employs a fast and efficient algorithm (D. Min, S. Choi, J. Lu, B. Ham, K. Sohn, and M. Do: "Fast global image smoothing based on weighted least squares.” IEEE TIP, 23 (12), 2014, 5638-5653) This method achieves a fast solution and guarantees an understanding of the numerical stability.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于单目相机的三维场景稠密重建方法,属于图像处理和计算机视觉领域。采用基于特征的同时定位与地图构建方法对相机的位姿和三维场景建模,并推导出传统几何深度估计和卷积神经网络深度推断的融合算法建立深度计算重建模型,并利用高性能求解算法以获得高质量的稠密深度图。系统容易构建,对硬件资源要求低,使用普通单目相机即可完成三维场景的稠密重建;利用基于特征的SLAM方法确保了定位的精度,融合稀疏深度散点和CNN推断的低分辨率深度图,使得恢复结果更加精确;利用快速高效算法来求解深度重建函数,避免了大规模矩阵求逆的问题,算法运行速度快,对实时的基于单目相机的三维场景稠密重建提供保障。

Description

一种基于单目相机的三维场景稠密重建方法 技术领域
本发明属于图像处理和计算机视觉领域,涉及采用基于特征的同时定位与地图构建方法对相机的位姿和三维场景建模,并推导出传统几何深度估计和卷积神经网络深度推断的融合算法。具体涉及一种基于单目相机的三维场景稠密重建方法。
背景技术
现阶段,运动结构恢复(structure from motion,SfM)和同时定位与地图构建(simultaneous localization and mapping,SLAM)技术已经发展成为计算机视觉和机器人领域的研究热点,其目的是在一个未知的环境中实时估计机器人的位姿并重建场景的三维结构。随着视觉SLAM技术在无人驾驶,移动机器人和虚拟现实等方面的广泛应用,人们对于SLAM技术的要求越来越高,尤其是在精准定位和重建稠密地图方面。(或者人们对于能够实现精准定位并重建稠密地图的SLAM技术方案的需求越来越明显。)基于深度相机或者双目相机的SLAM方法能够实现三维场景的稠密重建,但是这类方法的缺点很明显,过度依赖硬件设备,导致实际应用场景受限。尤其是深度相机存在有限的工作范围且对光照敏感,因此只适用于近距离的室内环境。所以,基于单目相机的SLAM研究更加具有应用前景。通常,单目SLAM技术又可以分为两类:直接法和特征法。基于特征的单目SLAM依赖于提取场景在不同视角下的特征点,并进行特征点匹配,然后根据这些特征点对,利用多视图几何原理,求解相机的位姿和三维场景结构。这类算法的定位精度很高,但是重建的三维地图太过稀疏。另一方面,单目直接法不依赖于特征点的提取和匹配,而是直接通过比较像素颜色来求解相机运动,因此通常在特征缺失、图像模糊等情况下有更好的鲁棒性。但是也只能求解出一个半稠密的深度图,无法用于机器人导航或者其它实际应用场景中。
现有的基于单目相机的稠密重建方法可以分为以下两类:(1)使用低层的人工设计的先验来获取稠密的深度图,例如,曼哈顿世界假设,分段平面先验,和深度平滑性假设。这类基于纯几何的SLAM方法过度关注场景的低层特征而忽视了对高层场景内容的理解。(2)使用卷积神经网络(convolutional neural networks,CNN)辅助深度推断,实现三维场景的稠密重建。大量研究证明端到端的CNN网络结构在深度和表面法线预测方面的有效性,这种方法虽然能够获取一个全局精确的深度图,但往往在深度边界处趋于模糊,最终导致重建结果缺乏结构信息。有研究人员基于直接法将单目稠密重建问题构造成一个能量最小化函数,并以CNN预测的表面法线作为约束项,来优化求解稠密深度(C.Weerasekera,Y.Latif,R.Garg,and I.Reid:“Dense monocular reconstruction using surface normal.”IEEE ICRA,2017,2524-2531)。曲面法线的引入能够提高整体的求解精度,但由于直接法的核心是最小化光测量误差(photometric error),所以整个算法对光照变化和动态干扰较为敏感,定位精度一般也会低于基于特征的SLAM方法。
发明内容
本发明旨在克服现有技术的不足,提供了一种基于单目相机的三维场景稠密重建方法,即搭建CNN的深度预测与特征法推断的稀疏深度图的融合框架进行深度信息恢复,建立深度计算重建模型,并构建高性能求解算法以获得高质量的稠密深度图。
本发明的具体技术方案为,一种基于单目相机的三维场景稠密重建方法,包括如下步骤:
1)相机位姿估计和关键帧筛选:实时的视频序列在跟踪过程中,为了保证效率,选择出关键帧;每个关键帧对应一个位姿,每个位姿包括位置和朝向。
2)基于CNN的单目彩色图的深度预测:对于上一步骤产生的关键帧,依次输入到已训练的CNN网络中预测深度。
3)尺度归一化:在相机位姿估计中会产生稀疏深度图和CNN预测的低分辨 率深度图,在深度信息融合前,将稀疏深度图和低分辨率深度图之间的尺度因子归一化到同一尺度下。
4)深度信息融合与重建:针对每个关键帧进行深度信息融合并计算对应的置信度图,联合数据项和平滑项建立能量方程,应用加速算法进行求解,重建出完整稠密的深度图,进而实现三维场景的稠密重建。
相机位姿估计和关键帧筛选,具体包括以下步骤:
1-1)地图的初始化,对于视频序列中的连续两帧,均匀提取特征点并进行特征匹配。然后根据对极约束或单应性约束(特征点位于同一平面的情况)利用归一化8点法或4点求解出本质矩阵(essential matrix)E或单应性矩阵(homography matrix)H。最后对本质矩阵或单应性矩阵进行奇异值分解(singular value decomposition,SVD),恢复出视频帧间的相对欧式变换(即旋转与平移)。获得帧间相对运动与匹配点对后,根据三角测量恢复出特征点的深度,构造初始的三维地图点。
1-2)结合1-1)中得到的初始的三维地图点,与后续视频帧中的特征点进行匹配,构造能量函数,最小化重投影误差,通过迭代优化的方法求解。
1-3)根据帧间的时间间隔和位姿的差异,以及跟踪过程中匹配到的地图点数目,来选择关键帧。
尺度归一化,具体包括以下步骤:
3-1)获取1)中产生的稀疏的深度图D′,D′中非零位置对应相机跟踪过程中产生的三维地图点,其余像素点值为零。
3-2)将2)中CNN预测的低分辨率深度图
Figure PCTCN2019070589-appb-000001
通过双线性插值,获取原视频帧同等大小的深度图。然后根据D′中非零位置的像素点,在插值后的深度图中找到对应像素点,构造成一组点对。
3-3)利用3-2)中的点对求解两种深度信息间的尺度因子。
深度信息融合与重建,具体包括以下步骤:
4-1)深度信息融合:对于相机跟踪过程中产生的稀疏深度图D′与CNN预测的低分辨率深度图
Figure PCTCN2019070589-appb-000002
归一化到同一尺度后进行融合,融合后的深度图记作
Figure PCTCN2019070589-appb-000003
给定p,p为图像中某个像素点的索引,
Figure PCTCN2019070589-appb-000004
的定义如下:
Figure PCTCN2019070589-appb-000005
其中,D′ p
Figure PCTCN2019070589-appb-000006
分别表示像素点p在D′,
Figure PCTCN2019070589-appb-000007
中的值;
4-2)对4-1)中融合后的深度图,根据深度信息的来源和与深度边界的距离计算一个置信度图H,H表示深度信息的精确程度,用于后面稠密深度重建;在置信度图中,对于像素点
Figure PCTCN2019070589-appb-000008
则H p=0;若p∈{p|D′ p≠0},则H p=1;对于剩下的像素点,即CNN预测深度所对应的像素点,其置信度的计算方式如下:
Figure PCTCN2019070589-appb-000009
其中,H p为像素点p处的置信度值,d p为像素点p到Q中最近像素点的距离,Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合;d max表示最大距离阈值;
4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图H构建深度重建模型中的数据项;根据像素点和周围像素间的深度平滑性,以彩色图作为指导信息,构建深度重建模型的约束项;联合上述两项建立最终的能量方程,应用加速算法进行求解。
所述步骤4-3)的具体步骤为:
4-3-1)构建深度重建模型中的数据项,结合4-1),4-2)中融合后的深度图和置信度图构建数据项E data(·),公式如下:
Figure PCTCN2019070589-appb-000010
其中,D为待重建的深度图,D p
Figure PCTCN2019070589-appb-000011
为待求深度图和融合后的深度图在p点的像素值,H p为置信度在p点的像素值;
4-3-2)构建深度重建模型中的平滑项,利用彩色图作为指导;平滑项E smooth(·)的定义如下:
Figure PCTCN2019070589-appb-000012
其中,D为待重建的深度图,D p,D q为待求深度图在p点和q点的像素值,p,q为深度图中的像素点索引,
Figure PCTCN2019070589-appb-000013
是像素点p的四邻域,权重w p,q代表像素点p和q之间的平滑性约束系数;权重w p,q是根据彩色图C中像素点间的相似性来定义的,公式如下:
w p,q=exp(-(C p-C q) 22)
其中,C p,C q表示彩色图在p,q点处的像素值,exp(·)为指数函数,σ为调控滤波器变化的标准差,其取值范围为0.1~0.5,以中间值最佳;
4-3-3)联合4-3-1)中的数据项E data(·)和4-3-2)中的平滑项E smooth(·),引入平衡因子λ将数据项和平滑项结合为如下能量方程:
Figure PCTCN2019070589-appb-000014
其中min为求取能量方程的最小值;平衡因子λ取值为30;最终的能量函数写成如下的矩阵形式,并可以通过加权的最小二乘法求解:
Figure PCTCN2019070589-appb-000015
其中,d,
Figure PCTCN2019070589-appb-000016
分别是D和
Figure PCTCN2019070589-appb-000017
的向量形式,
Figure PCTCN2019070589-appb-000018
为对角矩阵,对角元素的值由置信度图H确定;W表示由权重系数w p,q所定义的空间拉普拉斯变换矩阵。
本发明的有益效果是:
本发明构建了传统几何深度估计和卷积神经网络深度推断的融合算法;在此基础上,建立深度重建模型,并应用加速算法求解模型,具有以下特点:
1、系统容易构建,对硬件资源要求低,使用普通单目相机即可完成三维场 景的稠密重建;
2、利用基于特征的SLAM方法确保了定位的精度,融合稀疏深度散点和CNN推断的低分辨率深度图,构建高性能的深度计算重建模型,获取了完整稠密深度,进而实现三维场景的稠密重建。
3、利用快速高效算法来求解深度重建函数,避免了大规模矩阵求逆的问题,算法运行速度快,对实时的基于单目相机的三维场景稠密重建提供保障。
本发明充分的利用了传统几何方法估计的深度散点和CNN预测的深度图,并以彩色图作为指导,构建了高效的深度融合和重建模型,实现了基于单目相机的三维场景的稠密重建;所提的方法具有很好的可扩展性,通过结合不同的相机跟踪算法,能够实现更加精确的稠密重建。
附图说明
图1是实际实施的系统流程图。
图2是CNN网络结构图。图2中:conv表示卷积操作;pool表示池化操作;Residual Blocks是残差块;D-conv Kernel表示膨胀卷积;dilated factor表示膨胀因子。
图3是深度融合和三维重建的结果图。图3中:(a)灰度图和深度图的真实结果;(b)CNN预测得到的深度图;(c)融合重建后的深度图;(d)真实的深度图对应的三维重建结果;(e)CNN预测的深度图对应的三维重建结果;(f)融合重建后的深度图对应的三维重建结果。
具体实施方式
本发明提出了一种基于单目相机的三维场景稠密重建方法,结合附图及实施例详细说明如下:
本发明以单目相机为传感器获取的视频序列为实验数据,其中相机分辨率为480×640,视频帧率为30帧/每秒。在此基础上,利用基于特征的SLAM技术并搭建CNN的深度预测与特征法推断的稀疏深度图的融合框架进行深度信息恢复, 建立深度计算重建模型,并构建高性能求解算法以获得高质量的稠密深度图。整个方法的实施流程如图2所示,所述方法包括下列步骤;
1)相机位姿估计和关键帧筛选:实时的视频序列在跟踪过程中,为了保证效率,会选择出关键帧;每个关键帧k i都对应了一个位姿(位置和朝向),记作
Figure PCTCN2019070589-appb-000019
Figure PCTCN2019070589-appb-000020
是一个3×3的旋转矩阵,
Figure PCTCN2019070589-appb-000021
是一个三维的平移向量。
1-1)地图的初始化,对于视频序列中的连续两帧,均匀提取特征点并进行特征匹配。然后根据对极约束或单应性约束(特征点位于同一平面的情况)利用归一化8点法或4点求解出本质矩阵(essential matrix)E或单应性矩阵(homography matrix)H。最后对本质矩阵或单应性矩阵进行奇异值分解(singular value decomposition,SVD),恢复出视频帧间的相对欧式变换(即旋转与平移)。获得帧间相对运动与匹配点对后,根据三角测量恢复出特征点的深度,构造初始的三维地图点。
1-2)结合1-1)中得到的初始的三维地图点,与后续视频帧中的特征点进行匹配,构造能量函数,最小化重投影误差,通过迭代优化的方法求解。公式如下:
Figure PCTCN2019070589-appb-000022
式中,χ表示三维地图点和二维特征点匹配对构成的集合,j是匹配点对的索引。R,t表示当前帧的位姿(旋转和平移),ρ是鲁棒的Huber损失函数,∑为协方差矩阵,
Figure PCTCN2019070589-appb-000023
表示马氏距离(Mahalanobis distance),π表示透视投影函数。具体的求解可以使用Ceres或者g2o等优化工具,这里我们选用了g2o,它是一个基于图优化的模型求解器。
1-3)根据帧间的时间间隔和位姿的差异,以及跟踪过程中匹配到的地图点数目,来选择关键帧。
2)基于CNN的单目彩色图的深度预测:CNN网络模型以ResNet-101为基础做了以下几点改变:所有的全连接层替换成卷积层;损失函数中使用L2范数;在最后两个降采样层中,使用空洞卷积来代替步长为2的传统卷积。整个网络的 架构如图2所示。
2-1)模型的训练,整个网络模型是在NYU-D v2数据集上进行训练的,该数据集是由从464个场景中选出的1449张彩色图和对应深度图组成,我们将其划分成训练集和验证集,分别包含795和654张图像对。CNN网络的动量参数设置为0.9,初始学习率为1e-4,并以0.9的倍率衰减。
2-2)使用2-1)中训练好的模型来对1)中产生的关键帧进行深度预测。
3)尺度归一化:1)中产生的三维地图点和2)中CNN预测的深度间相差一个尺度因子。所以,在深度融合前,先统一尺度。
3-1)获取1)中产生的稀疏的深度图D′,D′中非零位置对应相机跟踪过程中产生的三维地图点,其余像素点值为零。
3-2)将2)中CNN预测的低分辨率深度图
Figure PCTCN2019070589-appb-000024
通过双线性插值,获取原视频帧同等大小的深度图。然后根据D′中非零位置的像素点,在插值后的深度图中找到对应像素点,构造成一组点对。
3-3)利用3-2)中的点对求解两种深度信息间的尺度因子。最简单的方法,就是分别求解两组点深度值的平均值,再计算一个比例,作为尺度因子,但是这种方法精度不够。另一方面,考虑到该问题是个简单的线性模型,且有足够的采样点对,可以尝试使用最小二乘拟合求解一个最优解。最小二乘拟合的结果能够很好的表示整个数据的分布形态,但对异值点敏感,所以,本发明采用基于随机采样一致性(random sample consensus,RANSAC))的最小二乘拟合来排除异值点的影响,提升求解精度。迭代过程中阈值设定为0.18,当某点通过尺度因子变换后与对应点的误差小于阈值被判定为内点。
4)深度信息融合与重建:针对每个关键帧进行深度信息融合并计算对应的置信度图,联合数据项和平滑项建立能量方程,应用加速算法进行求解,重建出完整稠密的深度图,进而实现三维场景的稠密重建。
4-1)深度信息融合:对于相机跟踪过程中产生的稀疏深度图D′与CNN预测 的低分辨率深度图
Figure PCTCN2019070589-appb-000025
归一化到同一尺度后进行融合,融合后的深度图记作
Figure PCTCN2019070589-appb-000026
给定p,p为图像中某个像素点的索引,
Figure PCTCN2019070589-appb-000027
的定义如下:
Figure PCTCN2019070589-appb-000028
其中,D′ p
Figure PCTCN2019070589-appb-000029
分别表示像素点p在D′,
Figure PCTCN2019070589-appb-000030
中的值。
4-2)对4-1)中融合后的深度图,根据深度信息的来源和与深度边界的距离计算一个置信度图H,H表示深度信息的精确程度,用于后面稠密深度重建。在置信度图中,对于像素点
Figure PCTCN2019070589-appb-000031
那么H p=0;若p∈{p|D′ p≠0},则H p=1。对于剩下的像素点,即CNN预测深度所对应的像素点,其置信度的计算方式如下:
Figure PCTCN2019070589-appb-000032
其中,H p为像素点p处的置信度值,d p为像素点p到Q中最近像素点的距离,Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合。d max表示最大距离阈值,这里取30个像素点。CNN预测的深度中距离Q越近的像素点,其可靠性越低,所以置信度值越小。
4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图构建深度重建模型中的数据项;根据像素点和周围像素间的深度平滑性,以彩色图作为指导信息,构建深度重建模型的约束项;联合上述两项建立最终的能量方程,应用加速算法进行求解。
4-3-1)构建深度重建模型中的数据项,结合4-1),4-2)中融合后的深度图和置信度图构建数据项E data(·),公式如下:
Figure PCTCN2019070589-appb-000033
其中,D为待重建的深度图,D p
Figure PCTCN2019070589-appb-000034
为待求深度图和融合后的深度图在p点 的像素值,H p为置信度在p点的像素值。
4-3-2)构建深度重建模型中的平滑项,利用彩色图作为指导。平滑项E smooth(·)的定义如下:
Figure PCTCN2019070589-appb-000035
其中,D为待重建的深度图,D p,D q为待求深度图在p点和q点的像素值,p,q为深度图中的像素点索引,
Figure PCTCN2019070589-appb-000036
是像素点p的四邻域,权重w p,q代表像素点p和q之间的平滑性约束系数。权重w p,q是根据彩色图C中像素点间的相似性来定义的,公式如下:
w p,q=exp(-(C p-C q) 22)
其中,C p,C q表示彩色图在p,q点处的像素值,exp(·)为指数函数,σ为调控滤波器变化的标准差,其取值范围为0.1~0.5,以中间值最佳。
4-3-3)联合4-3-1)中的数据项E data(·)和4-3-2)中的平滑项E smooth(·),引入平衡因子λ将数据项和平滑项结合为如下能量方程:
Figure PCTCN2019070589-appb-000037
其中min为求取能量方程的最小值。平衡因子λ取值为30。最终的能量函数可以写成如下的矩阵形式,并可以通过加权的最小二乘法求解:
Figure PCTCN2019070589-appb-000038
其中,d,
Figure PCTCN2019070589-appb-000039
分别是D和
Figure PCTCN2019070589-appb-000040
的向量形式,
Figure PCTCN2019070589-appb-000041
为对角矩阵,对角元素的值由置信度图H确定。W表示由权重系数w p,q所定义的空间拉普拉斯变换矩阵。
考虑到矩阵
Figure PCTCN2019070589-appb-000042
是高度病态的,直接求逆的结果是数值不稳定的且耗时的。本发明中采用快速高效求解算法(D.Min,S.Choi,J.Lu,B.Ham,K.Sohn,and M.Do:“Fast global image smoothing based on weighted least squares.”IEEE TIP,23(12),2014,5638-5653)该方法实现了快速求解,且保证了解的数值稳定性。
本实施对一组数据的最终恢复结果如图3所示,其中(a)图为一组数据中 挑选出来的灰色图和深度图的真实结果,(b)图为采用本发明中CNN预测得到的深度图;(c)图为本发明融合重建后的深度图;(d),(e),(f)分别是真实的深度图,CNN预测的深度图和融合重建后的深度图所对应的三维重建结果展示。

Claims (3)

  1. 一种基于单目相机的三维场景稠密重建方法,其特征在于,包括如下步骤:
    1)相机位姿估计和关键帧筛选:实时的视频序列在跟踪过程中,选择出关键帧;每个关键帧对应一个位姿,每个位姿包括位置和朝向;
    2)基于CNN的单目彩色图的深度预测:对于上一步骤产生的关键帧,依次输入到已训练的CNN网络中预测深度;
    3)尺度归一化:在相机位姿估计中产生稀疏深度图和CNN预测的低分辨率深度图,在深度信息融合前,将稀疏深度图和低分辨率深度图之间的尺度因子归一化到同一尺度下;
    4)深度信息融合与重建:针对每个关键帧进行深度信息融合并计算对应的置信度图,联合数据项和平滑项建立能量方程,应用加速算法进行求解,重建出完整稠密的深度图,进而实现三维场景的稠密重建。
  2. 根据权利要求1所述的一种基于单目相机的三维场景稠密重建方法,其特征在于,步骤4)深度信息融合与重建,具体包括以下步骤:
    4-1)深度信息融合:对于相机跟踪过程中产生的稀疏深度图D′与CNN预测的低分辨率深度图
    Figure PCTCN2019070589-appb-100001
    归一化到同一尺度后进行融合,融合后的深度图记作
    Figure PCTCN2019070589-appb-100002
    给定p,p为图像中某个像素点的索引,
    Figure PCTCN2019070589-appb-100003
    的定义如下:
    Figure PCTCN2019070589-appb-100004
    其中,D′ p
    Figure PCTCN2019070589-appb-100005
    分别表示像素点p在D′,
    Figure PCTCN2019070589-appb-100006
    中的值;
    4-2)对4-1)中融合后的深度图,根据深度信息的来源和与深度边界的距离计算一个置信度图H,H表示深度信息的精确程度,用于后面稠密深度重建;在置信度图中,对于像素点
    Figure PCTCN2019070589-appb-100007
    则H p=0;若p∈{p|D′ p≠0},则H p=1;对于剩下的像素点,即CNN预测深度所对应的像素点,其置信度的计算方式如下:
    Figure PCTCN2019070589-appb-100008
    其中,H p为像素点p处的置信度值,d p为像素点p到Q中最近像素点的距离,Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合;d max表示最大距离阈值;
    4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图H构建深度重建模型中的数据项;根据像素点和周围像素间的深度平滑性,以彩色图作为指导信息,构建深度重建模型的约束项;联合上述两项建立最终的能量方程,应用加速算法进行求解。
  3. 根据权利要求2所述的一种基于单目相机的三维场景稠密重建方法,其特征在于,所述步骤4-3)的具体步骤为:
    4-3-1)构建深度重建模型中的数据项,结合4-1),4-2)中融合后的深度图和置信度图构建数据项E data(·),公式如下:
    Figure PCTCN2019070589-appb-100009
    其中,D为待重建的深度图,D p
    Figure PCTCN2019070589-appb-100010
    为待求深度图和融合后的深度图在p点的像素值,H p为置信度在p点的像素值;
    4-3-2)构建深度重建模型中的平滑项,利用彩色图作为指导;平滑项E smooth(·)的定义如下:
    Figure PCTCN2019070589-appb-100011
    其中,D为待重建的深度图,D p,D q为待求深度图在p点和q点的像素值,p,q为深度图中的像素点索引,
    Figure PCTCN2019070589-appb-100012
    是像素点p的四邻域,权重w p,q代表像素点p和q之间的平滑性约束系数;权重w p,q是根据彩色图C中像素点间的相似性来定义的,公式如下:
    w p,q=exp(-(C p-C q) 22)
    其中,C p,C q表示彩色图在p,q点处的像素值,exp(·)为指数函数,σ为调控滤波器变化的标准差,其取值范围为0.1~0.5;
    4-3-3)联合4-3-1)中的数据项E data(·)和4-3-2)中的平滑项E smooth(·),引入平衡因子λ将数据项和平滑项结合为如下能量方程:
    Figure PCTCN2019070589-appb-100013
    其中min为求取能量方程的最小值;平衡因子λ取值为30;最终的能量函数写成如下的矩阵形式,并可以通过加权的最小二乘法求解:
    Figure PCTCN2019070589-appb-100014
    其中,d,
    Figure PCTCN2019070589-appb-100015
    分别是D和
    Figure PCTCN2019070589-appb-100016
    的向量形式,
    Figure PCTCN2019070589-appb-100017
    为对角矩阵,对角元素的值由置信度图H确定;W表示由权重系数w p,q所定义的空间拉普拉斯变换矩阵。
PCT/CN2019/070589 2018-03-14 2019-01-07 一种基于单目相机的三维场景稠密重建方法 WO2019174377A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/650,331 US11210803B2 (en) 2018-03-14 2019-01-07 Method for 3D scene dense reconstruction based on monocular visual slam

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810207145.7A CN108416840B (zh) 2018-03-14 2018-03-14 一种基于单目相机的三维场景稠密重建方法
CN201810207145.7 2018-03-14

Publications (1)

Publication Number Publication Date
WO2019174377A1 true WO2019174377A1 (zh) 2019-09-19

Family

ID=63131313

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/070589 WO2019174377A1 (zh) 2018-03-14 2019-01-07 一种基于单目相机的三维场景稠密重建方法

Country Status (3)

Country Link
US (1) US11210803B2 (zh)
CN (1) CN108416840B (zh)
WO (1) WO2019174377A1 (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781262A (zh) * 2019-10-21 2020-02-11 中国科学院计算技术研究所 基于视觉slam的语义地图的构建方法
CN110954933A (zh) * 2019-12-09 2020-04-03 王相龙 一种基于场景dna的移动平台定位装置及方法
CN111127522A (zh) * 2019-12-30 2020-05-08 亮风台(上海)信息科技有限公司 基于单目相机的深度光流预测方法、装置、设备及介质
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111223163A (zh) * 2020-01-07 2020-06-02 苏州瑞派宁科技有限公司 图像重建方法、装置、设备、系统及计算机可读存储介质
CN111260765A (zh) * 2020-01-13 2020-06-09 浙江未来技术研究院(嘉兴) 一种显微手术术野的动态三维重建方法
CN111582156A (zh) * 2020-05-07 2020-08-25 武汉大势智慧科技有限公司 一种基于倾斜摄影城市三维模型的高大植被提取方法
CN111882661A (zh) * 2020-07-23 2020-11-03 清华大学 一种视频的立体场景重建方法
CN111899277A (zh) * 2020-07-09 2020-11-06 浙江大华技术股份有限公司 运动目标检测方法及装置、存储介质、电子装置
CN112001223A (zh) * 2020-07-01 2020-11-27 安徽新知数媒信息科技有限公司 真实环境地图的快速虚拟化构建方法
CN112164117A (zh) * 2020-09-30 2021-01-01 武汉科技大学 一种基于Kinect相机的V-SLAM位姿估算方法
CN112200874A (zh) * 2020-10-30 2021-01-08 中国科学院自动化研究所 狭窄空间的多层次场景重建和快速分割方法、系统及装置
CN112233221A (zh) * 2020-11-10 2021-01-15 北京邮电大学 基于即时定位与地图构建的三维地图重建系统及方法
CN112560875A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质
CN112734915A (zh) * 2021-01-19 2021-04-30 北京工业大学 一种基于深度学习的多视角立体视觉三维场景重建方法
WO2021082771A1 (en) 2019-10-29 2021-05-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Augmented reality 3d reconstruction
CN113269689A (zh) * 2021-05-25 2021-08-17 西安交通大学 一种基于法向量和高斯权重约束的深度图像补全方法及系统
WO2021245290A1 (fr) 2020-06-06 2021-12-09 Querbes Olivier Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN114283199A (zh) * 2021-12-29 2022-04-05 北京航空航天大学 一种面向动态场景的点线融合语义slam方法
CN114463525A (zh) * 2022-01-25 2022-05-10 武汉大学 一种面向三维重建的大规模图像色彩一致性校正方法
CN114677550A (zh) * 2022-02-25 2022-06-28 西北工业大学 一种基于稀疏判别k均值的快速图像像素筛选方法
CN114782447A (zh) * 2022-06-22 2022-07-22 小米汽车科技有限公司 路面检测方法、装置、车辆、存储介质及芯片
CN115186600A (zh) * 2022-06-09 2022-10-14 大连海事大学 一种船行波数值模拟的稠密重建方法
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法
CN117437363A (zh) * 2023-12-20 2024-01-23 安徽大学 基于深度感知迭代器的大规模多视图立体方法

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416840B (zh) * 2018-03-14 2020-02-18 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN109300190B (zh) * 2018-09-06 2021-08-10 百度在线网络技术(北京)有限公司 三维数据的处理方法、装置、设备和存储介质
CN109461180B (zh) * 2018-09-25 2022-08-30 北京理工大学 一种基于深度学习的三维场景重建方法
CN111089579B (zh) * 2018-10-22 2022-02-01 北京地平线机器人技术研发有限公司 异构双目slam方法、装置及电子设备
US10839556B2 (en) * 2018-10-23 2020-11-17 Microsoft Technology Licensing, Llc Camera pose estimation using obfuscated features
US20200137380A1 (en) * 2018-10-31 2020-04-30 Intel Corporation Multi-plane display image synthesis mechanism
CN111161348B (zh) * 2018-11-08 2023-12-05 深圳市优必选科技有限公司 一种基于单目相机的物体位姿估计方法、装置及设备
CN111340922A (zh) * 2018-12-18 2020-06-26 北京三星通信技术研究有限公司 定位与地图构建的方法和电子设备
CN111382613B (zh) * 2018-12-28 2024-05-07 中国移动通信集团辽宁有限公司 图像处理方法、装置、设备和介质
CN109861752B (zh) * 2019-01-07 2021-09-21 华南理工大学 一种基于可见光定位的地下车库路径导航系统及方法
GB2580691B (en) 2019-01-24 2022-07-20 Imperial College Innovations Ltd Depth estimation
CN109816781B (zh) * 2019-02-01 2020-07-24 武汉大学 一种基于图像细节和结构增强的多视图立体几何方法
CN111862302B (zh) * 2019-04-12 2022-05-17 北京城市网邻信息技术有限公司 图像处理和对象建模方法与设备、图像处理装置及介质
CN110211190B (zh) * 2019-05-31 2022-11-01 北京百度网讯科技有限公司 相机自运动参数估计模型的训练方法、装置及存储介质
CN110176042A (zh) * 2019-05-31 2019-08-27 北京百度网讯科技有限公司 相机自运动参数估计模型的训练方法、装置及存储介质
CN110471048B (zh) * 2019-07-25 2022-04-15 南京信息工程大学 基于声呐三维图像置信度的自适应变尺度卷积核计算方法
CN110428461B (zh) * 2019-07-30 2022-07-05 清华大学 结合深度学习的单目slam方法及装置
CN112488915B (zh) * 2019-09-12 2022-06-21 清华大学 基于超像素关系分析的深度重建方法和装置
CN110689008A (zh) * 2019-09-17 2020-01-14 大连理工大学 一种面向单目图像的基于三维重建的三维物体检测方法
CN110880187B (zh) * 2019-10-17 2022-08-12 北京达佳互联信息技术有限公司 一种相机位置信息确定方法、装置、电子设备及存储介质
DE102019217160A1 (de) * 2019-11-07 2021-05-12 Robert Bosch Gmbh Computer-implementiertes Verfahren zum Erstellen einer Umgebungskarte für das Betreiben eines mobilen Agenten
CN111145238B (zh) * 2019-12-12 2023-09-22 中国科学院深圳先进技术研究院 单目内窥镜图像的三维重建方法、装置及终端设备
CN111062981B (zh) * 2019-12-13 2023-05-05 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN111016887A (zh) * 2019-12-23 2020-04-17 深圳市豪恩汽车电子装备股份有限公司 机动车自动泊车装置及方法
CN111179326B (zh) * 2019-12-27 2020-12-29 精英数智科技股份有限公司 一种单目深度估计方法、系统、设备及存储介质
CN111243093B (zh) * 2020-01-07 2023-05-12 腾讯科技(深圳)有限公司 三维人脸网格的生成方法、装置、设备及存储介质
CN111260711B (zh) * 2020-01-10 2021-08-10 大连理工大学 一种弱监督可信代价传播的视差估计方法
CN111292365B (zh) * 2020-01-23 2023-07-25 抖音视界有限公司 生成深度图的方法、装置、电子设备和计算机可读介质
CN111260713B (zh) * 2020-02-13 2023-04-14 青岛联合创智科技有限公司 一种基于图像的深度计算方法
CN111260706B (zh) * 2020-02-13 2023-04-25 青岛联合创智科技有限公司 一种基于单目相机的稠密深度图计算方法
US11501489B2 (en) * 2020-02-27 2022-11-15 Magic Leap, Inc. Cross reality system for large scale environment reconstruction
US11688073B2 (en) * 2020-04-14 2023-06-27 Samsung Electronics Co., Ltd. Method and system for depth map reconstruction
CN111652966B (zh) * 2020-05-11 2021-06-04 北京航空航天大学 一种基于无人机多视角的三维重建方法及装置
CN111599001B (zh) * 2020-05-14 2023-03-14 星际(重庆)智能装备技术研究院有限公司 基于图像三维重建技术的无人机导航地图构建系统及方法
CN111652901B (zh) * 2020-06-02 2021-03-26 山东大学 一种基于置信度和特征融合的无纹理三维物体跟踪方法
CN111998862B (zh) * 2020-07-02 2023-05-16 中山大学 一种基于bnn的稠密双目slam方法
CN111784754B (zh) * 2020-07-06 2024-01-12 浙江得图网络有限公司 基于计算机视觉的牙齿正畸方法、装置、设备及存储介质
EP3989163B1 (en) * 2020-10-24 2023-12-06 Tata Consultancy Services Limited Method and system for unsupervised prediction of image depth and confidence map
CN112308918B (zh) * 2020-10-26 2024-03-29 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112446882A (zh) * 2020-10-28 2021-03-05 北京工业大学 一种动态场景下基于深度学习的鲁棒视觉slam方法
CN112288875B (zh) * 2020-10-30 2024-04-30 中国有色金属长沙勘察设计研究院有限公司 一种面向无人机矿山巡检场景的快速三维重建方法
CN112102411B (zh) 2020-11-02 2021-02-12 中国人民解放军国防科技大学 一种基于语义误差图像的视觉定位方法及装置
CN112465984A (zh) * 2020-11-12 2021-03-09 西北工业大学 一种基于双层过滤的单目相机序列图像三维重构方法
CN114554030B (zh) * 2020-11-20 2023-04-07 空客(北京)工程技术中心有限公司 设备检测系统以及设备检测方法
CN112509109A (zh) * 2020-12-10 2021-03-16 上海影创信息科技有限公司 一种基于神经网络模型的单视图光照估计方法
CN112489119B (zh) * 2020-12-21 2023-01-31 北京航空航天大学 一种增强可靠性的单目视觉定位方法
CN112669358B (zh) * 2020-12-30 2023-09-26 中山大学 一种适用于多平台协同感知的地图融合方法
US11615594B2 (en) 2021-01-21 2023-03-28 Samsung Electronics Co., Ltd. Systems and methods for reconstruction of dense depth maps
CN112802186B (zh) * 2021-01-27 2022-06-24 清华大学 基于二值化特征编码匹配的动态场景实时三维重建方法
CN112802196B (zh) * 2021-02-01 2022-10-21 北京理工大学 基于点线特征融合的双目惯性同时定位与地图构建方法
FR3119897B1 (fr) * 2021-02-16 2022-12-30 Safran Procédé d’estimation d’une mesure de fiabilité d’une estimation de distance métrique entre une caméra et au moins un point de son environnement
CN113034563A (zh) * 2021-02-22 2021-06-25 苏州易航远智智能科技有限公司 基于特征共享的自监督式单目深度估计方法
CN112927279A (zh) * 2021-02-24 2021-06-08 中国科学院微电子研究所 一种图像深度信息生成方法、设备及存储介质
US11481871B2 (en) * 2021-03-12 2022-10-25 Samsung Electronics Co., Ltd. Image-guided depth propagation for space-warping images
CN113066036B (zh) * 2021-03-18 2022-06-03 中北大学 一种基于模糊熵和稀疏表示的x射线图像融合方法及装置
CN113066165B (zh) * 2021-03-19 2022-06-21 北京邮电大学 多阶段无监督学习的三维重建方法、装置和电子设备
CN112862959B (zh) * 2021-03-23 2022-07-12 清华大学 基于语义先验的实时概率单目稠密重建方法及系统
CN113096175B (zh) * 2021-03-24 2023-10-24 苏州中科广视文化科技有限公司 一种基于卷积神经网络的深度图置信度估计方法
CN112927251B (zh) * 2021-03-26 2022-10-14 中国科学院自动化研究所 基于形态学的场景稠密深度图获取方法、系统及装置
CN113177977B (zh) * 2021-04-09 2022-06-10 上海工程技术大学 一种非接触式三维人体尺寸的测量方法
CN112801074B (zh) * 2021-04-15 2021-07-16 速度时空信息科技股份有限公司 一种基于交通摄像头的深度图估计方法
CN113178009B (zh) * 2021-04-19 2023-08-25 中国人民解放军陆军工程大学 一种利用点云分割和网格修补的室内三维重建方法
CN113160375B (zh) * 2021-05-26 2022-12-13 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
US11741671B2 (en) 2021-06-16 2023-08-29 Samsung Electronics Co., Ltd. Three-dimensional scene recreation using depth fusion
CN113450410B (zh) * 2021-06-29 2022-07-26 浙江大学 一种基于对极几何的单目深度和位姿联合估计方法
US20230010105A1 (en) * 2021-07-12 2023-01-12 Midea Group Co., Ltd. Fast and Robust Initialization Method for Feature-Based Monocular Visual SLAM Using Inertial Odometry Assistance
WO2023009113A1 (en) * 2021-07-28 2023-02-02 Innopeak Technology, Inc. Interactive guidance for mapping and relocalization
CN113762099B (zh) * 2021-08-19 2023-10-03 复旦大学 一种基于路侧rsu的实时点云三维重构方法
CN115880347B (zh) * 2021-09-27 2023-10-20 荣耀终端有限公司 图像处理方法、电子设备、存储介质及程序产品
CN114119889B (zh) * 2021-11-12 2024-04-09 杭州师范大学 基于跨模态融合的360度环境深度补全和地图重建方法
CN114170306B (zh) * 2021-11-17 2022-11-04 埃洛克航空科技(北京)有限公司 图像的姿态估计方法、装置、终端及存储介质
CN113822919B (zh) * 2021-11-24 2022-02-25 中国海洋大学 基于语义信息约束的水下图像相对深度估计方法
CN114359509B (zh) * 2021-12-03 2024-07-09 三峡大学 一种基于深度学习的多视图自然场景重建方法
CN113920254B (zh) * 2021-12-15 2022-03-22 深圳市其域创新科技有限公司 一种基于单目rgb的室内三维重建方法及其系统
CN114332362A (zh) * 2021-12-15 2022-04-12 东南大学 一种耦合光学定位与实时更新的测斜监测装置及方法
US11928830B2 (en) * 2021-12-22 2024-03-12 Honeywell International Inc. Systems and methods for generating three-dimensional reconstructions of environments
CN114549746B (zh) 2022-01-28 2023-03-07 电子科技大学 一种高精度真彩三维重建方法
CN114627351B (zh) * 2022-02-18 2023-05-16 电子科技大学 一种基于视觉和毫米波雷达的融合深度估计方法
CN114708395A (zh) * 2022-04-01 2022-07-05 东南大学 用于变电站巡检机器人的电表识别、定位及三维建图方法
CN115035240B (zh) * 2022-05-13 2023-04-11 清华大学 实时三维场景重建方法及装置
CN115170817B (zh) * 2022-07-21 2023-04-28 广州大学 基于三维人-物网格拓扑增强的人物交互检测方法
CN115410135B (zh) * 2022-11-01 2023-04-07 中国民航大学 自主式搬运的航空行李特征感知重构方法、系统及其应用
CN115861434B (zh) * 2022-11-14 2024-03-22 中国人民解放军海军工程大学 用于超大场景测量多视角相机的位姿估计方法
CN115719407B (zh) * 2023-01-05 2023-06-27 安徽大学 一种面向大规模航拍图像的分布式多视图立体重建方法
CN116433856B (zh) * 2023-02-14 2023-12-05 腾晖科技建筑智能(深圳)有限公司 一种基于单目相机的塔吊下方场景三维重建方法及系统
CN117011466B (zh) * 2023-08-08 2024-03-29 苏州三垣航天科技有限公司 一种基于分段平面算法的三维重建方法
CN117291930A (zh) * 2023-08-25 2023-12-26 中建三局第三建设工程有限责任公司 一种基于图片序列中目标物体分割的三维重建方法和系统
CN117115225B (zh) * 2023-09-01 2024-04-30 安徽羽亿信息科技有限公司 一种自然资源智慧综合信息化管理平台
CN117115359B (zh) * 2023-10-17 2024-02-02 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法
CN117635679B (zh) * 2023-12-05 2024-05-28 之江实验室 一种基于预训练扩散概率模型的曲面高效重建方法和装置
CN117557617B (zh) * 2024-01-12 2024-04-09 山东师范大学 一种基于平面先验优化的多视密集匹配方法、系统及设备
CN117974895A (zh) * 2024-01-31 2024-05-03 中国矿业大学(北京) 一种管道单目视频三维重建和深度预测方法及系统
CN117765187B (zh) * 2024-02-22 2024-04-26 成都信息工程大学 基于多模态深度估计引导的单目隐神经的建图方法
CN117853695B (zh) * 2024-03-07 2024-05-03 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106856012A (zh) * 2017-01-12 2017-06-16 上海云拟科技有限公司 一种实时大规模场景三维扫描建模方法及系统
CN106875482A (zh) * 2017-01-13 2017-06-20 浙江大学 一种同时定位与稠密三维重建方法
CN107194985A (zh) * 2017-04-11 2017-09-22 中国农业大学 一种面向大场景的三维可视化方法及装置
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447098B1 (en) * 2010-08-20 2013-05-21 Adobe Systems Incorporated Model-based stereo matching
US9940553B2 (en) * 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
US9779508B2 (en) * 2014-03-26 2017-10-03 Microsoft Technology Licensing, Llc Real-time three-dimensional reconstruction of a scene from a single camera
CN106934827A (zh) * 2015-12-31 2017-07-07 杭州华为数字技术有限公司 三维场景的重建方法和装置
US10645366B2 (en) * 2016-06-10 2020-05-05 Lucid VR, Inc. Real time re-calibration of stereo cameras
US10462445B2 (en) * 2016-07-19 2019-10-29 Fotonation Limited Systems and methods for estimating and refining depth maps
US11397088B2 (en) * 2016-09-09 2022-07-26 Nanyang Technological University Simultaneous localization and mapping methods and apparatus
CN106485744B (zh) * 2016-10-10 2019-08-20 成都弥知科技有限公司 一种同步定位与地图构建方法
CN106780588A (zh) * 2016-12-09 2017-05-31 浙江大学 一种基于稀疏激光观测的图像深度估计方法
US11210805B2 (en) * 2017-01-13 2021-12-28 Zhejiang University Simultaneous localization and dense three-dimensional reconstruction method
US10755428B2 (en) * 2017-04-17 2020-08-25 The United States Of America, As Represented By The Secretary Of The Navy Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model
US10431000B2 (en) * 2017-07-18 2019-10-01 Sony Corporation Robust mesh tracking and fusion by using part-based key frames and priori model
KR102468897B1 (ko) * 2017-10-16 2022-11-21 삼성전자주식회사 깊이 값을 추정하는 방법 및 장치
US10733745B2 (en) * 2019-01-07 2020-08-04 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for deriving a three-dimensional (3D) textured surface from endoscopic video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157307A (zh) * 2016-06-27 2016-11-23 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN106856012A (zh) * 2017-01-12 2017-06-16 上海云拟科技有限公司 一种实时大规模场景三维扫描建模方法及系统
CN106875482A (zh) * 2017-01-13 2017-06-20 浙江大学 一种同时定位与稠密三维重建方法
CN107194985A (zh) * 2017-04-11 2017-09-22 中国农业大学 一种面向大场景的三维可视化方法及装置
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781262B (zh) * 2019-10-21 2023-06-02 中国科学院计算技术研究所 基于视觉slam的语义地图的构建方法
CN110781262A (zh) * 2019-10-21 2020-02-11 中国科学院计算技术研究所 基于视觉slam的语义地图的构建方法
EP4049245A4 (en) * 2019-10-29 2023-01-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. 3D RECONSTRUCTION FOR AUGMENTED REALITY
US11830156B2 (en) 2019-10-29 2023-11-28 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Augmented reality 3D reconstruction
WO2021082771A1 (en) 2019-10-29 2021-05-06 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Augmented reality 3d reconstruction
CN110954933A (zh) * 2019-12-09 2020-04-03 王相龙 一种基于场景dna的移动平台定位装置及方法
CN111127522A (zh) * 2019-12-30 2020-05-08 亮风台(上海)信息科技有限公司 基于单目相机的深度光流预测方法、装置、设备及介质
CN111127522B (zh) * 2019-12-30 2024-02-06 亮风台(上海)信息科技有限公司 基于单目相机的深度光流预测方法、装置、设备及介质
CN111223163B (zh) * 2020-01-07 2023-09-26 苏州瑞派宁科技有限公司 图像重建方法、装置、设备、系统及计算机可读存储介质
CN111223163A (zh) * 2020-01-07 2020-06-02 苏州瑞派宁科技有限公司 图像重建方法、装置、设备、系统及计算机可读存储介质
CN111260765B (zh) * 2020-01-13 2023-04-28 浙江未来技术研究院(嘉兴) 一种显微手术术野的动态三维重建方法
CN111260765A (zh) * 2020-01-13 2020-06-09 浙江未来技术研究院(嘉兴) 一种显微手术术野的动态三维重建方法
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111210518B (zh) * 2020-01-15 2022-04-05 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111582156A (zh) * 2020-05-07 2020-08-25 武汉大势智慧科技有限公司 一种基于倾斜摄影城市三维模型的高大植被提取方法
CN111582156B (zh) * 2020-05-07 2023-12-05 武汉大势智慧科技有限公司 一种基于倾斜摄影城市三维模型的高大植被提取方法
FR3111222A1 (fr) 2020-06-06 2021-12-10 Olivier Querbes Génération de modèles 3D à l’échelle à partir d’images 2D produites par un dispositif d’imagerie monoculaire
WO2021245290A1 (fr) 2020-06-06 2021-12-09 Querbes Olivier Génération de modèles 3d à l'échelle à partir d'images 2d produites par un dispositif d'imagerie monoculaire
CN112001223B (zh) * 2020-07-01 2023-11-24 安徽新知数字科技有限公司 真实环境地图的快速虚拟化构建方法
CN112001223A (zh) * 2020-07-01 2020-11-27 安徽新知数媒信息科技有限公司 真实环境地图的快速虚拟化构建方法
CN111899277A (zh) * 2020-07-09 2020-11-06 浙江大华技术股份有限公司 运动目标检测方法及装置、存储介质、电子装置
CN111882661A (zh) * 2020-07-23 2020-11-03 清华大学 一种视频的立体场景重建方法
CN112164117A (zh) * 2020-09-30 2021-01-01 武汉科技大学 一种基于Kinect相机的V-SLAM位姿估算方法
CN112200874A (zh) * 2020-10-30 2021-01-08 中国科学院自动化研究所 狭窄空间的多层次场景重建和快速分割方法、系统及装置
CN112200874B (zh) * 2020-10-30 2022-06-21 中国科学院自动化研究所 狭窄空间的多层次场景重建和快速分割方法、系统及装置
CN112233221A (zh) * 2020-11-10 2021-01-15 北京邮电大学 基于即时定位与地图构建的三维地图重建系统及方法
CN112233221B (zh) * 2020-11-10 2023-04-21 北京邮电大学 基于即时定位与地图构建的三维地图重建系统及方法
CN112560875B (zh) * 2020-12-25 2023-07-28 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质
CN112560875A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质
CN112734915A (zh) * 2021-01-19 2021-04-30 北京工业大学 一种基于深度学习的多视角立体视觉三维场景重建方法
CN113269689A (zh) * 2021-05-25 2021-08-17 西安交通大学 一种基于法向量和高斯权重约束的深度图像补全方法及系统
CN113269689B (zh) * 2021-05-25 2023-08-29 西安交通大学 一种基于法向量和高斯权重约束的深度图像补全方法及系统
CN113962858B (zh) * 2021-10-22 2024-03-26 沈阳工业大学 一种多视角深度获取方法
CN113962858A (zh) * 2021-10-22 2022-01-21 沈阳工业大学 一种多视角深度获取方法
CN114283199A (zh) * 2021-12-29 2022-04-05 北京航空航天大学 一种面向动态场景的点线融合语义slam方法
CN114463525A (zh) * 2022-01-25 2022-05-10 武汉大学 一种面向三维重建的大规模图像色彩一致性校正方法
CN114677550A (zh) * 2022-02-25 2022-06-28 西北工业大学 一种基于稀疏判别k均值的快速图像像素筛选方法
CN114677550B (zh) * 2022-02-25 2024-02-27 西北工业大学 一种基于稀疏判别k均值的快速图像像素筛选方法
CN115186600A (zh) * 2022-06-09 2022-10-14 大连海事大学 一种船行波数值模拟的稠密重建方法
CN114782447A (zh) * 2022-06-22 2022-07-22 小米汽车科技有限公司 路面检测方法、装置、车辆、存储介质及芯片
CN114782447B (zh) * 2022-06-22 2022-09-09 小米汽车科技有限公司 路面检测方法、装置、车辆、存储介质及芯片
CN115965758B (zh) * 2022-12-28 2023-07-28 无锡东如科技有限公司 一种图协同单目实例三维重建方法
CN115965758A (zh) * 2022-12-28 2023-04-14 无锡东如科技有限公司 一种图协同单目实例三维重建方法
CN117437363A (zh) * 2023-12-20 2024-01-23 安徽大学 基于深度感知迭代器的大规模多视图立体方法
CN117437363B (zh) * 2023-12-20 2024-03-22 安徽大学 基于深度感知迭代器的大规模多视图立体方法

Also Published As

Publication number Publication date
CN108416840A (zh) 2018-08-17
US11210803B2 (en) 2021-12-28
US20200273190A1 (en) 2020-08-27
CN108416840B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
WO2019174377A1 (zh) 一种基于单目相机的三维场景稠密重建方法
US10803546B2 (en) Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
US10553026B2 (en) Dense visual SLAM with probabilistic surfel map
Bozic et al. Neural non-rigid tracking
CN110163974B (zh) 一种基于无向图学习模型的单图像面片重建方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
US20230169727A1 (en) Generative Nonlinear Human Shape Models
US11948310B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
US12026892B2 (en) Figure-ground neural radiance fields for three-dimensional object category modelling
Xiang et al. Deep optical flow supervised learning with prior assumptions
CN112686952A (zh) 一种图像光流计算系统、方法及应用
Cao et al. Single view 3D reconstruction based on improved RGB-D image
CN117315169A (zh) 基于深度学习多视密集匹配的实景三维模型重建方法和系统
CN114913552A (zh) 一种基于单视角点云序列的三维人体稠密对应估计方法
CN111460741B (zh) 一种基于数据驱动的流体模拟方法
Lv Robust3D: a robust 3D face reconstruction application
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes
Li et al. A monocular SLAM system based on ResNet depth estimation
Ni et al. A hybrid framework for 3-D human motion tracking
US11900558B2 (en) Reconstructing three-dimensional models of objects from real images based on depth information
US20220198707A1 (en) Method and apparatus with object pose estimation
Aleksandrova et al. 3D face model reconstructing from its 2D images using neural networks
Olszewski Hashcc: Lightweight method to improve the quality of the camera-less nerf scene generation
Zhang et al. Human model adaptation for multiview markerless motion capture
Liao et al. VI-NeRF-SLAM: a real-time visual–inertial SLAM with NeRF mapping

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19767366

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19767366

Country of ref document: EP

Kind code of ref document: A1