WO2019174377A1

WO2019174377A1 - 一种基于单目相机的三维场景稠密重建方法

Info

Publication number: WO2019174377A1
Application number: PCT/CN2019/070589
Authority: WO
Inventors: 叶昕辰; 仲维; 王智慧; 李豪杰; 林林; 樊鑫; 罗钟铉
Original assignee: 大连理工大学
Priority date: 2018-03-14
Filing date: 2019-01-07
Publication date: 2019-09-19
Also published as: CN108416840A; US11210803B2; US20200273190A1; CN108416840B

Abstract

一种基于单目相机的三维场景稠密重建方法，属于图像处理和计算机视觉领域。采用基于特征的同时定位与地图构建方法对相机的位姿和三维场景建模，并推导出传统几何深度估计和卷积神经网络深度推断的融合算法建立深度计算重建模型，并利用高性能求解算法以获得高质量的稠密深度图。系统容易构建，对硬件资源要求低，使用普通单目相机即可完成三维场景的稠密重建；利用基于特征的SLAM方法确保了定位的精度，融合稀疏深度散点和CNN推断的低分辨率深度图，使得恢复结果更加精确；利用快速高效算法来求解深度重建函数，避免了大规模矩阵求逆的问题，算法运行速度快，对实时的基于单目相机的三维场景稠密重建提供保障。

Description

一种基于单目相机的三维场景稠密重建方法

技术领域

本发明属于图像处理和计算机视觉领域，涉及采用基于特征的同时定位与地图构建方法对相机的位姿和三维场景建模，并推导出传统几何深度估计和卷积神经网络深度推断的融合算法。具体涉及一种基于单目相机的三维场景稠密重建方法。

背景技术

现阶段，运动结构恢复(structure from motion，SfM)和同时定位与地图构建(simultaneous localization and mapping，SLAM)技术已经发展成为计算机视觉和机器人领域的研究热点，其目的是在一个未知的环境中实时估计机器人的位姿并重建场景的三维结构。随着视觉SLAM技术在无人驾驶，移动机器人和虚拟现实等方面的广泛应用，人们对于SLAM技术的要求越来越高，尤其是在精准定位和重建稠密地图方面。(或者人们对于能够实现精准定位并重建稠密地图的SLAM技术方案的需求越来越明显。)基于深度相机或者双目相机的SLAM方法能够实现三维场景的稠密重建，但是这类方法的缺点很明显，过度依赖硬件设备，导致实际应用场景受限。尤其是深度相机存在有限的工作范围且对光照敏感，因此只适用于近距离的室内环境。所以，基于单目相机的SLAM研究更加具有应用前景。通常，单目SLAM技术又可以分为两类：直接法和特征法。基于特征的单目SLAM依赖于提取场景在不同视角下的特征点，并进行特征点匹配，然后根据这些特征点对，利用多视图几何原理，求解相机的位姿和三维场景结构。这类算法的定位精度很高，但是重建的三维地图太过稀疏。另一方面，单目直接法不依赖于特征点的提取和匹配,而是直接通过比较像素颜色来求解相机运动，因此通常在特征缺失、图像模糊等情况下有更好的鲁棒性。但是也只能求解出一个半稠密的深度图，无法用于机器人导航或者其它实际应用场景中。

现有的基于单目相机的稠密重建方法可以分为以下两类：(1)使用低层的人工设计的先验来获取稠密的深度图，例如，曼哈顿世界假设，分段平面先验，和深度平滑性假设。这类基于纯几何的SLAM方法过度关注场景的低层特征而忽视了对高层场景内容的理解。(2)使用卷积神经网络(convolutional neural networks，CNN)辅助深度推断，实现三维场景的稠密重建。大量研究证明端到端的CNN网络结构在深度和表面法线预测方面的有效性，这种方法虽然能够获取一个全局精确的深度图，但往往在深度边界处趋于模糊，最终导致重建结果缺乏结构信息。有研究人员基于直接法将单目稠密重建问题构造成一个能量最小化函数，并以CNN预测的表面法线作为约束项，来优化求解稠密深度(C.Weerasekera,Y.Latif,R.Garg,and I.Reid:“Dense monocular reconstruction using surface normal.”IEEE ICRA,2017,2524-2531)。曲面法线的引入能够提高整体的求解精度，但由于直接法的核心是最小化光测量误差(photometric error)，所以整个算法对光照变化和动态干扰较为敏感，定位精度一般也会低于基于特征的SLAM方法。

发明内容

本发明旨在克服现有技术的不足，提供了一种基于单目相机的三维场景稠密重建方法，即搭建CNN的深度预测与特征法推断的稀疏深度图的融合框架进行深度信息恢复，建立深度计算重建模型，并构建高性能求解算法以获得高质量的稠密深度图。

本发明的具体技术方案为，一种基于单目相机的三维场景稠密重建方法，包括如下步骤：

1)相机位姿估计和关键帧筛选：实时的视频序列在跟踪过程中，为了保证效率，选择出关键帧；每个关键帧对应一个位姿，每个位姿包括位置和朝向。

2)基于CNN的单目彩色图的深度预测：对于上一步骤产生的关键帧，依次输入到已训练的CNN网络中预测深度。

3)尺度归一化：在相机位姿估计中会产生稀疏深度图和CNN预测的低分辨率深度图，在深度信息融合前，将稀疏深度图和低分辨率深度图之间的尺度因子归一化到同一尺度下。

4)深度信息融合与重建：针对每个关键帧进行深度信息融合并计算对应的置信度图，联合数据项和平滑项建立能量方程，应用加速算法进行求解，重建出完整稠密的深度图，进而实现三维场景的稠密重建。

相机位姿估计和关键帧筛选，具体包括以下步骤：

1-1)地图的初始化，对于视频序列中的连续两帧，均匀提取特征点并进行特征匹配。然后根据对极约束或单应性约束(特征点位于同一平面的情况)利用归一化8点法或4点求解出本质矩阵(essential matrix)E或单应性矩阵(homography matrix)H。最后对本质矩阵或单应性矩阵进行奇异值分解(singular value decomposition，SVD)，恢复出视频帧间的相对欧式变换(即旋转与平移)。获得帧间相对运动与匹配点对后，根据三角测量恢复出特征点的深度，构造初始的三维地图点。

1-2)结合1-1)中得到的初始的三维地图点，与后续视频帧中的特征点进行匹配，构造能量函数，最小化重投影误差，通过迭代优化的方法求解。

1-3)根据帧间的时间间隔和位姿的差异，以及跟踪过程中匹配到的地图点数目，来选择关键帧。

尺度归一化，具体包括以下步骤：

3-1)获取1)中产生的稀疏的深度图D′，D′中非零位置对应相机跟踪过程中产生的三维地图点，其余像素点值为零。

3-2)将2)中CNN预测的低分辨率深度图

通过双线性插值，获取原视频帧同等大小的深度图。然后根据D′中非零位置的像素点，在插值后的深度图中找到对应像素点，构造成一组点对。

3-3)利用3-2)中的点对求解两种深度信息间的尺度因子。

深度信息融合与重建，具体包括以下步骤：

4-1)深度信息融合：对于相机跟踪过程中产生的稀疏深度图D′与CNN预测的低分辨率深度图

归一化到同一尺度后进行融合，融合后的深度图记作

给定p，p为图像中某个像素点的索引，

的定义如下：

其中，D′ _p，

分别表示像素点p在D′，

中的值；

4-2)对4-1)中融合后的深度图，根据深度信息的来源和与深度边界的距离计算一个置信度图H，H表示深度信息的精确程度，用于后面稠密深度重建；在置信度图中，对于像素点

则H _p＝0；若p∈{p|D′ _p≠0}，则H _p＝1；对于剩下的像素点，即CNN预测深度所对应的像素点，其置信度的计算方式如下：

其中，H _p为像素点p处的置信度值，d _p为像素点p到Q中最近像素点的距离，Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合；d _max表示最大距离阈值；

4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图H构建深度重建模型中的数据项；根据像素点和周围像素间的深度平滑性，以彩色图作为指导信息，构建深度重建模型的约束项；联合上述两项建立最终的能量方程，应用加速算法进行求解。

所述步骤4-3)的具体步骤为：

4-3-1)构建深度重建模型中的数据项，结合4-1)，4-2)中融合后的深度图和置信度图构建数据项E _data(·)，公式如下：

其中，D为待重建的深度图，D _p，

为待求深度图和融合后的深度图在p点的像素值，H _p为置信度在p点的像素值；

4-3-2)构建深度重建模型中的平滑项，利用彩色图作为指导；平滑项E _smooth(·)的定义如下：

其中，D为待重建的深度图，D _p，D _q为待求深度图在p点和q点的像素值，p，q为深度图中的像素点索引，

是像素点p的四邻域，权重w _p，q代表像素点p和q之间的平滑性约束系数；权重w _p，q是根据彩色图C中像素点间的相似性来定义的，公式如下：

w _p，q＝exp(-(C _p-C _q) ²/σ ²)

其中，C _p，C _q表示彩色图在p，q点处的像素值，exp(·)为指数函数，σ为调控滤波器变化的标准差，其取值范围为0.1～0.5，以中间值最佳；

4-3-3)联合4-3-1)中的数据项E _data(·)和4-3-2)中的平滑项E _smooth(·)，引入平衡因子λ将数据项和平滑项结合为如下能量方程：

其中min为求取能量方程的最小值；平衡因子λ取值为30；最终的能量函数写成如下的矩阵形式，并可以通过加权的最小二乘法求解：

其中，d，

分别是D和

的向量形式，

为对角矩阵，对角元素的值由置信度图H确定；W表示由权重系数w _p，q所定义的空间拉普拉斯变换矩阵。

本发明的有益效果是：

本发明构建了传统几何深度估计和卷积神经网络深度推断的融合算法；在此基础上，建立深度重建模型，并应用加速算法求解模型，具有以下特点：

1、系统容易构建，对硬件资源要求低，使用普通单目相机即可完成三维场景的稠密重建；

2、利用基于特征的SLAM方法确保了定位的精度，融合稀疏深度散点和CNN推断的低分辨率深度图，构建高性能的深度计算重建模型，获取了完整稠密深度，进而实现三维场景的稠密重建。

3、利用快速高效算法来求解深度重建函数，避免了大规模矩阵求逆的问题，算法运行速度快，对实时的基于单目相机的三维场景稠密重建提供保障。

本发明充分的利用了传统几何方法估计的深度散点和CNN预测的深度图，并以彩色图作为指导，构建了高效的深度融合和重建模型，实现了基于单目相机的三维场景的稠密重建；所提的方法具有很好的可扩展性，通过结合不同的相机跟踪算法，能够实现更加精确的稠密重建。

附图说明

图1是实际实施的系统流程图。

图2是CNN网络结构图。图2中：conv表示卷积操作；pool表示池化操作；Residual Blocks是残差块；D-conv Kernel表示膨胀卷积；dilated factor表示膨胀因子。

图3是深度融合和三维重建的结果图。图3中：(a)灰度图和深度图的真实结果；(b)CNN预测得到的深度图；(c)融合重建后的深度图；(d)真实的深度图对应的三维重建结果；(e)CNN预测的深度图对应的三维重建结果；(f)融合重建后的深度图对应的三维重建结果。

具体实施方式

本发明提出了一种基于单目相机的三维场景稠密重建方法，结合附图及实施例详细说明如下：

本发明以单目相机为传感器获取的视频序列为实验数据，其中相机分辨率为480×640，视频帧率为30帧/每秒。在此基础上，利用基于特征的SLAM技术并搭建CNN的深度预测与特征法推断的稀疏深度图的融合框架进行深度信息恢复，建立深度计算重建模型，并构建高性能求解算法以获得高质量的稠密深度图。整个方法的实施流程如图2所示，所述方法包括下列步骤；

1)相机位姿估计和关键帧筛选：实时的视频序列在跟踪过程中，为了保证效率，会选择出关键帧；每个关键帧k _i都对应了一个位姿(位置和朝向)，记作

是一个3×3的旋转矩阵，

是一个三维的平移向量。

1-2)结合1-1)中得到的初始的三维地图点，与后续视频帧中的特征点进行匹配，构造能量函数，最小化重投影误差，通过迭代优化的方法求解。公式如下：

式中，χ表示三维地图点和二维特征点匹配对构成的集合，j是匹配点对的索引。R，t表示当前帧的位姿(旋转和平移)，ρ是鲁棒的Huber损失函数，∑为协方差矩阵，

表示马氏距离(Mahalanobis distance)，π表示透视投影函数。具体的求解可以使用Ceres或者g2o等优化工具，这里我们选用了g2o，它是一个基于图优化的模型求解器。

2)基于CNN的单目彩色图的深度预测：CNN网络模型以ResNet-101为基础做了以下几点改变：所有的全连接层替换成卷积层；损失函数中使用L2范数；在最后两个降采样层中，使用空洞卷积来代替步长为2的传统卷积。整个网络的架构如图2所示。

2-1)模型的训练，整个网络模型是在NYU-D v2数据集上进行训练的，该数据集是由从464个场景中选出的1449张彩色图和对应深度图组成，我们将其划分成训练集和验证集，分别包含795和654张图像对。CNN网络的动量参数设置为0.9，初始学习率为1e-4，并以0.9的倍率衰减。

2-2)使用2-1)中训练好的模型来对1)中产生的关键帧进行深度预测。

3)尺度归一化：1)中产生的三维地图点和2)中CNN预测的深度间相差一个尺度因子。所以，在深度融合前，先统一尺度。

3-2)将2)中CNN预测的低分辨率深度图

3-3)利用3-2)中的点对求解两种深度信息间的尺度因子。最简单的方法，就是分别求解两组点深度值的平均值，再计算一个比例，作为尺度因子，但是这种方法精度不够。另一方面，考虑到该问题是个简单的线性模型，且有足够的采样点对，可以尝试使用最小二乘拟合求解一个最优解。最小二乘拟合的结果能够很好的表示整个数据的分布形态，但对异值点敏感，所以，本发明采用基于随机采样一致性(random sample consensus，RANSAC))的最小二乘拟合来排除异值点的影响，提升求解精度。迭代过程中阈值设定为0.18，当某点通过尺度因子变换后与对应点的误差小于阈值被判定为内点。

归一化到同一尺度后进行融合，融合后的深度图记作

给定p，p为图像中某个像素点的索引，

的定义如下：

其中，D′ _p，

分别表示像素点p在D′，

中的值。

4-2)对4-1)中融合后的深度图，根据深度信息的来源和与深度边界的距离计算一个置信度图H，H表示深度信息的精确程度，用于后面稠密深度重建。在置信度图中，对于像素点

那么H _p＝0；若p∈{p|D′ _p≠0}，则H _p＝1。对于剩下的像素点，即CNN预测深度所对应的像素点，其置信度的计算方式如下：

其中，H _p为像素点p处的置信度值，d _p为像素点p到Q中最近像素点的距离，Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合。d _max表示最大距离阈值，这里取30个像素点。CNN预测的深度中距离Q越近的像素点，其可靠性越低，所以置信度值越小。

4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图构建深度重建模型中的数据项；根据像素点和周围像素间的深度平滑性，以彩色图作为指导信息，构建深度重建模型的约束项；联合上述两项建立最终的能量方程，应用加速算法进行求解。

其中，D为待重建的深度图，D _p，

为待求深度图和融合后的深度图在p点的像素值，H _p为置信度在p点的像素值。

4-3-2)构建深度重建模型中的平滑项，利用彩色图作为指导。平滑项E _smooth(·)的定义如下：

是像素点p的四邻域，权重w _p，q代表像素点p和q之间的平滑性约束系数。权重w _p，q是根据彩色图C中像素点间的相似性来定义的，公式如下：

w _p，q＝exp(-(C _p-C _q) ²/σ ²)

其中，C _p，C _q表示彩色图在p，q点处的像素值，exp(·)为指数函数，σ为调控滤波器变化的标准差，其取值范围为0.1～0.5，以中间值最佳。

其中min为求取能量方程的最小值。平衡因子λ取值为30。最终的能量函数可以写成如下的矩阵形式，并可以通过加权的最小二乘法求解：

其中，d，

分别是D和

的向量形式，

为对角矩阵，对角元素的值由置信度图H确定。W表示由权重系数w _p，q所定义的空间拉普拉斯变换矩阵。

考虑到矩阵

是高度病态的，直接求逆的结果是数值不稳定的且耗时的。本发明中采用快速高效求解算法(D.Min,S.Choi,J.Lu,B.Ham,K.Sohn,and M.Do:“Fast global image smoothing based on weighted least squares.”IEEE TIP,23(12),2014,5638-5653)该方法实现了快速求解，且保证了解的数值稳定性。

本实施对一组数据的最终恢复结果如图3所示，其中(a)图为一组数据中挑选出来的灰色图和深度图的真实结果，(b)图为采用本发明中CNN预测得到的深度图；(c)图为本发明融合重建后的深度图；(d),(e),(f)分别是真实的深度图，CNN预测的深度图和融合重建后的深度图所对应的三维重建结果展示。

Claims

一种基于单目相机的三维场景稠密重建方法，其特征在于，包括如下步骤：

1)相机位姿估计和关键帧筛选：实时的视频序列在跟踪过程中，选择出关键帧；每个关键帧对应一个位姿，每个位姿包括位置和朝向；

2)基于CNN的单目彩色图的深度预测：对于上一步骤产生的关键帧，依次输入到已训练的CNN网络中预测深度；

3)尺度归一化：在相机位姿估计中产生稀疏深度图和CNN预测的低分辨率深度图，在深度信息融合前，将稀疏深度图和低分辨率深度图之间的尺度因子归一化到同一尺度下；

4)深度信息融合与重建：针对每个关键帧进行深度信息融合并计算对应的置信度图，联合数据项和平滑项建立能量方程，应用加速算法进行求解，重建出完整稠密的深度图，进而实现三维场景的稠密重建。
根据权利要求1所述的一种基于单目相机的三维场景稠密重建方法，其特征在于，步骤4)深度信息融合与重建，具体包括以下步骤：

4-1)深度信息融合：对于相机跟踪过程中产生的稀疏深度图D′与CNN预测的低分辨率深度图
归一化到同一尺度后进行融合，融合后的深度图记作
给定p，p为图像中某个像素点的索引，
的定义如下：

其中，D′ _p，
分别表示像素点p在D′，
中的值；

4-2)对4-1)中融合后的深度图，根据深度信息的来源和与深度边界的距离计算一个置信度图H，H表示深度信息的精确程度，用于后面稠密深度重建；在置信度图中，对于像素点
则H _p＝0；若p∈{p|D′ _p≠0}，则H _p＝1；对于剩下的像素点，即CNN预测深度所对应的像素点，其置信度的计算方式如下：

其中，H _p为像素点p处的置信度值，d _p为像素点p到Q中最近像素点的距离，Q为通过边缘检测算子在彩色图上获取的边界处像素点的集合；d _max表示最大距离阈值；

4-3)利用4-1)中求出的稀疏的融合后的深度图和4-2)中的置信度图H构建深度重建模型中的数据项；根据像素点和周围像素间的深度平滑性，以彩色图作为指导信息，构建深度重建模型的约束项；联合上述两项建立最终的能量方程，应用加速算法进行求解。
根据权利要求2所述的一种基于单目相机的三维场景稠密重建方法，其特征在于，所述步骤4-3)的具体步骤为：

4-3-1)构建深度重建模型中的数据项，结合4-1)，4-2)中融合后的深度图和置信度图构建数据项E _data(·)，公式如下：

其中，D为待重建的深度图，D _p，
为待求深度图和融合后的深度图在p点的像素值，H _p为置信度在p点的像素值；

4-3-2)构建深度重建模型中的平滑项，利用彩色图作为指导；平滑项E _smooth(·)的定义如下：

其中，D为待重建的深度图，D _p，D _q为待求深度图在p点和q点的像素值，p，q为深度图中的像素点索引，
是像素点p的四邻域，权重w _p，q代表像素点p和q之间的平滑性约束系数；权重w _p，q是根据彩色图C中像素点间的相似性来定义的，公式如下：

w _p，q＝exp(-(C _p-C _q) ²/σ ₂)

其中，C _p，C _q表示彩色图在p，q点处的像素值，exp(·)为指数函数，σ为调控滤波器变化的标准差，其取值范围为0.1～0.5；

4-3-3)联合4-3-1)中的数据项E _data(·)和4-3-2)中的平滑项E _smooth(·)，引入平衡因子λ将数据项和平滑项结合为如下能量方程：

其中min为求取能量方程的最小值；平衡因子λ取值为30；最终的能量函数写成如下的矩阵形式，并可以通过加权的最小二乘法求解：

其中，d，
分别是D和
的向量形式，
为对角矩阵，对角元素的值由置信度图H确定；W表示由权重系数w _p，q所定义的空间拉普拉斯变换矩阵。