WO2024051184A1

WO2024051184A1 - 一种基于光流遮罩的无监督单目深度估计方法

Info

Publication number: WO2024051184A1
Application number: PCT/CN2023/092180
Authority: WO
Inventors: 王梦凡; 方效林; 杨明; 吴文甲; 罗军舟
Original assignee: 南京逸智网络空间技术创新研究院有限公司
Priority date: 2022-09-07
Filing date: 2023-05-05
Publication date: 2024-03-14
Also published as: CN115187638B; CN115187638A

Abstract

本发明公开了一种基于光流遮罩的无监督单目深度估计方法，该方法具体为：采用深度估计网络，对图像帧进行深度估计；对深度估计网络进行训练时引入相机位姿估计模型和光流估计网络；根据光流估计网络输出的相邻两幅图像帧之间的光流估计，对当前帧进行重构，得到光流重构图像；根据相机位姿估计模型估计出的相邻两幅图像帧之间的位姿变换矩阵，对当前帧进行重构，得到深度重构图像，根据深度重构图像和光流重构图像，建立损失函数对深度估计网络，相机位姿估计模型和光流估计网络进行联合训练。本发明提高了深度估计的准确性。

Description

一种基于光流遮罩的无监督单目深度估计方法

技术领域

本发明属于图像识别技术领域。

背景技术

从视频中对于三维场景进行理解感知是一个受到广泛关注的基本课题。它包括许多经典的计算机视觉任务，如深度恢复、光流估计、视觉里程测量等。这些技术具有广泛的工业应用，包括自动驾驶平台、交互式协同机器人、定位导航系统等。传统的结构自运动(Structure from Motion,SfM)方法对其进行了综合处理，旨在同时重构场景结构和摄像机运动。

深度估计是计算机视觉领域的一个基础性问题，其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBG-D图像的转化估计，主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法，还有结合SFM(Structure from motion)和SLAM(Simultaneous Localization And Mapping)等方式预测相机位姿的算法。其中虽然有很多设备可以直接获取深度，但是设备造价昂贵。也有利用双目进行深度估计，但是由于双目图像需要利用立体匹配进行像素点对应和视差计算，所以计算复杂度也较高，尤其是对于低纹理场景的匹配效果不好。

发明内容

发明目的：为了解决上述现有技术存在的问题，本发明提供了一种基于光流遮罩的无监督单目深度估计方法。

技术方案：本发明提供了一种基于光流遮罩的无监督单目深度估计方法，该方法具体为：采用深度估计网络，对图像帧进行深度估计；对深度估计网络进行训练时引入相机位姿估计模型和光流估计网络；根据光流估计网络输出的视频序列中相邻两幅图像帧I_t与I_t’之间的光流估计，对当前帧图像I_t进行重构，得到光流重构图像t’＝t-1或者t’＝t+1；根据相机位姿估计模型估计出的相邻两幅图像帧之间的位姿变换矩阵，对当前帧图像进行重构，得到深度重构图像根据和建立损失函数L对深度估计网络，相机位姿估计模型和光流估计网络进行联合训练：
L＝μL_p+λL_s

其中，λ和μ均为超参数，L_p为光度损失误差，L_s为平滑度损失；L_s的表达式为：

其中，表示在当前帧图像中坐标为(x,y)的像素点的深度归一化的值；表示对x进行求导，为对y进行求导；

L_p的表达式为：

其中，pe(.)的表达式为：

其中，I_a和I_b分别表示任意两幅图像帧，α为超参数，SSIM(.)为相似度计算函数，M_a的表达式为：

其中，r为预设的阈值。

进一步的，所述光流估计网络对训练样本中相邻的两帧图像I_t和I_t’进行如下处理：

步骤1：在光流估计网络中采用金字塔结构的编码器提取I_t和I_t’之间的n个尺度的特征图像对表示I_t的第i个尺度的特征图像；表示I_t’的第i个尺度的特征图像，i＝1，2，...，n；

步骤2：在光流估计网络的金字塔结构的解码器中包括n个编码器模块和n个上采样模块，当i＝1时，将和输入至第一个编码器模块中,得到和之间的运动光流当i＞1时，将和第i-1个上采样模块输出的上采样光流输入至第i个编码器模块，得到和之间的运动光流将和输入至第i个上采样模块，得到和之间的上采样光流当i＝n时，将I_t和I_t’输入至卷积模块，采用第n个上采样模块对卷积模块的输出和运动光流进行上采样，输出最终的光流估计。

进一步的，所述步骤2中，针对第i个尺度的特征图像对和光流相应的上采样模块进行如下处理：

步骤2.1：采用双线性插值的方式提高的分辨率得到初始光流

其中，p表示初始光流中任意像素点的坐标，N(p/s)表示光流中与点p/s相邻的四个像素点，s是比例放大率，ω(p/s，k)为双线性插值的权重；表示像素点p的初始光流值，表示光流中像素点k的光流值；

步骤2.2：采用编码器计算得到和之间的插值流采用插值流对初始光流进行翘曲变换得到光流

其中，N(d)表示初始光流中与像素点d相邻的四个像素点，表示初始光流中像素点k’的光流值，表示像素点p的插值流，ω(d，k’)表示权重；

步骤2.3：根据如下公式将和进行融合，得到相应的上采样模块的输出

其中，表示插值映射，⊙表示乘积。

进一步的，所述深度估计网络采用ResNet网络。

有益效果：本发明设计了一种基于光流遮罩的无监督单目深度估计方法，使用金字塔结构从不同的粒度进行光流估计，并加入了上采样模块和插值流，改善了运动边界区域的双线性插值混合问题；而后将根据光流估计重构的图像和当前图像进行比较，将差距较大的部分认为是自我运动的物体，将该部分在深度估计重构时进行掩码，以减少运动物体对深度估计的影响，提高深度估计的准确性；整体而言，本发明可以实现对图像的深度估计，以及对深度估计精度的部分改善。

附图说明

图1(a)为深度估计网络结构图；

图1(b)为深度估计网络的层级参数设置图；

图2是相机位姿估计模型示意图；

图3是光流估计网络中金字塔结构的解码器示意图；

图4是本发明基于光流作为遮罩的训练总架构示意图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

本发明提供的一种基于光流遮罩的无监督单目深度估计方法，按如下步骤S1-步骤S5，获得深度估计网络和相机位姿估计模型，然后应用这两个模型，完成对图像的深度估计，得到深度估计值D_t。

S1.获得KITTI数据集，使用raw data数据集标准文件(共包含180G数据，分为Road,City,Residential和Person四个序列)。其中深度估计网络使用传感器的原始数据图像作为输入的图像，使用标定文件查看相机内部参数，使用velodyne_points文件查看激光雷达数据作为地面真值。

S2.本实施例中深度估计网络采用ResNet网络，基于ResNet网络以视频帧中的每一帧图像作为输入，估计出图像每个像素的深度值。

S3.基于相机位姿估计模型，以视频帧的两帧连续图像作为输入，以估计的位姿变换矩阵T_t’-t作为输出，其中包括两部分，一部分是相机的旋转变换，一部分是相机的平移变换。

如图1中的图(a)，图1中的图(b)以及图2所示，使用ResNet网络进行深度估计的编码子模块，使用残差学习结构防止退化问题的出现，使用前向神经网络和短路机制，以便在编码过程中输出更具有语义信息的特征图，具体步骤如下：

S21：ResNet网络中的编码器以单张图片作为输入，以维度为C*H*W的特征图为输出，其中C为该特征图的通道数，H为该特征图的长度，W为该特征图的宽度，本实施例中ResNet网络输出五级特征，级数越高，特征空间分辨率越低，表示能力越强，特征个数越多。

在输入图片之后，经过ResNet网络第一个7×7的卷积层，输出的channel(通道) 为64，stride(步幅)为2，padding(填充)为3；然后经过一个3×3的最大池化层，stride为2，padding为1；除了最大池化层之外，其他的下采样都是使用卷积层实现的，分为四个卷积组：layer1，layer2，layer3，layer4，除了layer1的下采样使用最大池化层实现之外，其他层的下采样都是邻接上一个卷积组的残差块实现。

在ResNet网络的残差结构中，主分支使用了三个卷积层：一个1×1的卷积层用来压缩channel的维度，一个3×3的卷积层以及一个1×1的卷积层用来还原channel维度。

S22：解码器使用上采样的方式，联合ResNet网络中编码器输出的特征进行深度估计，得到预设的不同尺度下的深度估计值。

对于输入的特征图，先上采样两倍，将特征图的像素复制到行和列，一个像素产生2×2的输出，然后经过卷积操作，不改变分辨率，将通道数调整为一半，通过这样的操作实现通道数减半，分辨率不变。经过上采样的特征图和编码器输出的特征图进行跳跃连接，输出对应的通道数的视差图，最后再经过两个3×3的卷积层和一个sigmoid激活函数得到深度估计。

根据光度一致性原理，可以得知对于同一物体来说，外界的环境在较短的时间基本是没有变化的，那么时间间隔较短的相邻帧中同一物体的光度是具有一致性的特点的。由此根据由深度估计网络和相机位姿估计模型得到的深度重构图像t’＝t+1或者t’＝t-1，t表示第t帧；可以得到重构的光度损失误差L_s，再将误差回传到两个网络中，训练深度估计网络和相机位姿估计模型，提高估计结果的准确性。本实施例在此损失之上，继续增加了深度估计平滑化作为正则项及图像结构相似性(SSIM)损失，能够获得更好的深度估计效果。

深度重构图像是基于图像的变换完全是由相机的运动产生的这一原理得到的，重构过程使用深度估计网络估计的结果和相机位姿估计模型估计的结果。但是实际场景下大部分存在自我运动的物体，使用该方法进行重构会造成计算的失误，重构图像与原始的当前帧图像I_t之间差距较大可能不是由于深度估计结果错误，而是由于单纯的相机运动无法正确地重构出运动物体，导致正确的深度重构图像与当前帧图像差距较大，最终导致深度估计结果不准确。基于上述现象，在训练时加入光流估计网络，在深度估计计算损失的部分加入光流重构图像对运动物体的运动进行估计，将光流重构图像作为约束运动物体深度估计的一部分。使用光流重构图像和当前帧图像的差值作为损失计算的约束。

S4.基于光流估计网络，以视频帧的两帧连续图像作为输入，以估计的两帧图像之间的运动光流作为输出，表示图像中每个像素向下一个图像的运动变化，使用不同的颜色和亮度表示光流的大小和方向。

使用光流估计网络的金字塔结构对两帧连续图像之间的运动光流进行估计，得到光流重构的图像，步骤S4具体包括以下步骤：

S41:在光流估计网络中一般采用金字塔结构从粗粒度到细粒度捕捉全局运动和局部运动，将相邻的两幅图像I_t与I_t’输入至光流估计网络，采用H表述参数为θ的光流估计网络，V_f表示从I_t中的每一个像素到其在I_t’中对应像素移动的正向流场。

光流估计模型H为金字塔结构，分为两个阶段：金字塔编码和金字塔解码。编码阶段以两帧连续图像作为输入的图像对，经过不同的卷积层之后，输出提取出n个尺度的特征图像对表示I_t的第i个尺度的特征图像，表示I_t’的第i个尺度的特征图像，i＝1，2，...，n(本实施例中n＝5)。

如图3所示，针对第一个尺度的特征图像对(也即i＝1时)，在解码阶段对这对特征图像对使用第一个解码器模块D进行解码操作，由粗到细的方式进行估计，得到第i＝1个的特征图像对之间的运动光流采用第一个上采样模块S对运动光流和(也即和)进行上采样，得到i＝1时，和之间的上采样光流当i＞1时，将和第i-1个上采样模块输出的上采样光流输入至第i个编码器模块，得到和之间的运动光流将和输入至第i个上采样模块，得到和之间的上采样光流当i＝n时，将I_t和I_t’输入至卷积模块，采用第n个上采样模块对卷积模块的输出和运动光流进行上采样，输出最终的光流估计。

在实际应用中，考虑到效率问题，通常情况下使用五个尺度进行光流估计效果最佳。其中实现的逻辑公式如下所示：

其中，S_↑(.)是上采样模块S，D(.)是解码器模块D。

S42：本实施例中上采样模块为自引导上采样模块，本实施例对于双线性上采样的边界融合造成混合插值的情况做出改进。

在使用金字塔结构进行光流估计的时候，需要使用到上采样模块，在尺寸小的图像上进行上采样，一般使用双线性插值的方式。但是在运动边界附近而言，如果使用双线性插值的方式，对于两边运动情况不一致的运动边界附近，会由运动1，2进行插值计算，运动1靠近边界的区域会受到运动2的影响，运动2所在的靠近边界的区域会受到运动1插值的影响，产生混合插值的现象。但是实际情况下，他们属于俩个不同的运动区域，不应该受到其他运动区域的干涉。

为了避免上述这种现象，在上采样过程使用自引导上采样模块，对于运动边界区域来说，使用和它统一运动方向的附近的点进行插值计算，在这之后将该值通过学习到的插值流进行移动，将最终移动到边界位置的区域作为该区域的插值点。

针对得到的第i-1个尺度的特征图像对对应的运动光流(此时为低分辨率)，首先通过双线性插值的方式提高的分辨率生成初始光流

其中，p表示初始光流中任意像素点的坐标，N(p/s)表示光流中与点p/s相邻的四个像素点，s是比例放大率，ω(p/s，k)为线性插值的权重；表示像素点p的初始光流值，表示运动光流中像素点k的光流值。

然后根据特征和计算出对应的插值流(本实施例中采用编码器计算插值流)，采用插值流对初始光流进行翘曲变换得到光流是双线性插值得到的结果，但是这种插值方式会将边缘部分变为两边运动的差值之和，不符合实际，所以通过插值流将靠近边缘部分的点经过插值流变换边缘的点，如果边缘点d可以由同一运动区域的点p经过插值流变换而成，那么就对点p周围的四个点进行双线性插值计算公式如下所示：

其中，N(d)表示初始光流中与像素点d相邻的四个像素点，表示光流中像素点k’的光流值，表示像素点p的插值流，ω(d，k’)表示权重。

因为混合插值只发生在对象的边缘部分，所以无需在非边缘部分学习插值流。因此使用插值映射强制模型只在边缘部分学习插值流，最终的上采样模块输出的结果是和的融合，计算公式如下：

其中，⊙为对应元素的权重乘积运算。本实施例中为了产生插值流和插值映射使用一个具有五层卷积层的密集块。具体实现方式为，将和连接起来作为密集块的输入。密集块中每个卷积层的卷积核的个数依次为32，32，32，16，8；密集块的输出是一个3通道的张量映射。使用张量图的前两个通道作为插值流，使用最后一个通道通过sigmoid层形成插值映射，最终的自学习插值映射几乎是边缘映射，插值流也集中在对象边缘区域。

S5.如图4所示，基于深度估计网络、相机位姿估计模型以及光流估计网络，可以得到由相邻图像到当前帧图像的重构图像，分别是深度重构图像以及光流重构图像

最终的损失函数计算公式为L＝μL_p+λL_s；

表示在当前帧图像中坐标为(x,y)的像素点的深度归一化的值；表示对x进行求导，对y进行求导。

L_p的表达式为：

其中函数pe(.)的原始表达式为：

其中，I_a和I_b分别表示任意两幅图像帧，α为超参数，SSIM(.)为相似度计算函数。

本实施在该函数pe(.)中加入了光流重构图像则本实施例中函数pe(.)的表达式为：其中M_a的表达式为：

其中，r为预设的阈值。

其中M_a表示根据光流重构图像结果对原始的当前帧图像(也即图4中的原图像)估计进行遮罩，它是将光流重构的图像和实际图像(也即与当前帧图像相邻的图像)的差值大小为依据，而设定的一个掩码，由0，1组成，然后作为权重加入到原来的pe(.)损失函数中，其中如果光流重构图像与I_t’之间的差距大于0.8，那么认为该处很有可能是移动物体，对于该位置进行遮罩。

本实施例使用估计的光流进行重构图像的合成。因为光流中包括从相邻两帧图像之间的光流运动，包括整个场景中静态背景的刚体运动和场景中的移动物体的非刚体运动，根据光流变化以及与当前帧图像相邻的图，可以合成光流重构图像，这一步的合成图像考虑到了场景中的移动物体。而深度重构图像的计算公式中假设场景中没有移动物体，所以深度重构图像只考虑到了刚体流的部分。本实施例使用光流估计网络对于运动物体的深度估计效果有进一步改善，可以增加深度估计的准确性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

一种基于光流遮罩的无监督单目深度估计方法，其特征在于：该方法具体为：采用深度估计网络，对图像帧进行深度估计；对深度估计网络进行训练时引入相机位姿估计模型和光流估计网络；根据光流估计网络输出的视频序列中相邻两幅图像帧I_t与I_t’之间的光流估计，对当前帧图像I_t进行重构，得到光流重构图像t’＝t-1或者t’＝t+1；根据相机位姿估计模型估计出的相邻两幅图像帧之间的位姿变换矩阵，对当前帧图像进行重构，得到深度重构图像根据和建立损失函数L对深度估计网络，相机位姿估计模型和光流估计网络进行联合训练：
L＝μL_p+λL_s

其中，λ和μ均为超参数，L_p为光度损失误差，L_s为平滑度损失；L_s的表达式为：

其中，表示在当前帧图像中坐标为(x,y)的像素点的深度归一化的值；表示对x进行求导，为对y进行求导；

L_p的表达式为：

其中，pe(.)的表达式为：其中，I_a和I_b分别表示任意两幅图像帧，α为超参数，SSIM(.)为相似度计算函数，M_a的表达式为：

其中，r为预设的阈值。
根据权利要求1所述的一种基于光流遮罩的无监督单目深度估计方法，其特征在于：所述光流估计网络对训练样本中相邻的两帧图像I_t和I_t’进行如下处理：

步骤1：在光流估计网络中采用金字塔结构的编码器提取I_t和I_t’之间的n个尺度的特征图像对表示I_t的第i个尺度的特征图像；表示I_t’的第i个尺度的特征图像，i＝1，2，...，n；

步骤2：在光流估计网络的金字塔结构的解码器中包括n个编码器模块和n个上采样模块，当i＝1时，将和输入至第一个编码器模块中,得到和之间的运动光流当i＞1时，将和第i-1个上采样模块输出的上采样光流输入至第i个编码器模块，得到和之间的运动光流将和输入至第i个上采样模块，得到和之间的上采样光流当i＝n时，将I_t和I_t’输入至卷积模块，采用第n个上采样模块对卷积模块的输出和运动光流进行上采样，输出最终的光流估计。
根据权利要求2所述的一种基于光流遮罩的无监督单目深度估计方法，其特征在于：所述步骤2中，针对第i个尺度的特征图像对和运动光流相应的上采样模块进行如下处理：

步骤2.1：采用双线性插值的方式提高的分辨率得到初始光流

其中，p表示初始光流中任意像素点的坐标，N(p/s)表示光流中与点p/s相邻的四个像素点，s是比例放大率，ω(p/s，k)为双线性插值的权重；表示像素点p的初始光流值，表示光流中像素点k的光流值；

步骤2.2：采用编码器计算得到和之间的插值流采用插值流对初始光流进行翘曲变换得到光流

其中，N(d)表示初始光流中与像素点d相邻的四个像素点，表示初始光流中像素点k’的光流值，表示像素点p的插值流，ω(d，k’)表示权重；

步骤2.3：根据如下公式将和进行融合，得到相应的上采样模块的输出

其中，表示插值映射，⊙表示乘积。
根据权利要求1所述的一种基于光流遮罩的无监督单目深度估计方法，其特征在于：所述深度估计网络采用ResNet网络。