WO2021138992A1

WO2021138992A1 - 基于上采样及精确重匹配的视差估计优化方法

Info

Publication number: WO2021138992A1
Application number: PCT/CN2020/077961
Authority: WO
Inventors: 仲维; 张宏; 李豪杰; 王智慧; 刘日升; 樊鑫; 罗钟铉; 李胜全
Original assignee: 大连理工大学; 鹏城实验室
Priority date: 2020-01-10
Filing date: 2020-03-05
Publication date: 2021-07-15
Also published as: CN111242999B; US20220198694A1; CN111242999A

Abstract

本发明公开了一种基于上采样及精确重匹配的视差估计优化方法。即在优化网络部分小范围精确重匹配，同时改进以往对视差图或代价图邻插、双线性插值等上采样方法，用网络的方式学习出一种基于传播的上采样，使视差图在上采样的过程中能够好的恢复出准确的视差值。

Description

基于上采样及精确重匹配的视差估计优化方法

技术领域

本发明属于图像处理和计算机视觉领域，涉及一种基于监督学习的由粗到细的双目视差估计方法，具体涉及一种基于上采样及精确重匹配的视差估计优化方法。

背景技术

双目深度估计是通过两张标定好的左右视图，根据每个像素在不同视图之间的相对位置得到对应的视差值，根据相机成像模型，将视差恢复成图像的深度信息。现有的双目深度估计的方法主要分为传统方法和深度学习的方法。

传统方法分为局部算法和全局算法，局部算法利用窗口内邻域像素的相似度进行匹配。全局方法构造一个能量函数，包括像素点本身的匹配代价和不同像素点间的约束关系，通过最小化能量函数来得到最终的视差图。传统方法运行时间过长，精度不高，特别是在无纹理和遮挡区域误匹配误差较高。

深度学习方法是通过神经网络端到端的学习出左右视图的视差图，基本框架主要包括特征提取、构建代价图、视差聚合、优化视差。将左右视图输入网络中，通过特征提取网络得到左右特征图，然后在不同视差下进行匹配，得到低分辨率的代价图，聚合优化部分分为两种方法：一是优化低分辨率的代价图，逐步恢复成原分辨率，最后用soft argmin计算出视差图。二是低分辨率的代价图先得到低分辨率的视差图，将视差图逐步上采样优化得到最终原分辨率的视差图。为了满足网络计算和速度的需求，往往需要在低分辨率的特征图上进行匹配，这就导致了下采样的过程中小物体的丢失。而后续优化模块，未考虑小物体的缺失问题，通过监督从无到有重新生成小物体，未引入几何先验，导致细节缺失，网络泛化能力差。当前采用的上采样方法多基于邻插、双线性及三线性的采样方法，这样的插值方法并不符合视差图的分布，会导致对于正对成像平面的物体视差不一致，同时也破坏了在物体边缘视差的不连续性。

本发明提出一种由粗到细精确重匹配方法，在优化视差过程中重新引入几何约束，利用在低分辨率上得到视差图和左右图，再在小的视差范围内做一次匹配，精确视差图范围，提高网络的泛化能力。同时本发明提出一种基于传播的上采样方法。利用对应分辨率的左图特征学习出每个像素及其邻域内像素的相对关系权重，根据左右重建一致性得到的置信度和权重在上采样的视差图上进行传播，使在视差图上采样的过程中更好的结合上下文信息，减少插值上采样带来的错误填充。

发明内容

本发明旨在克服现有的深度学习方法的不足，提供了一种基于上采样及精确重匹配的视差估计优化方法，即在优化网络部分小范围精确重匹配，同时改进以往对视差图或代价图邻插、双线性插值等上采样方法，用网络的方式学习出一种基于传播的上采样，使视差图在上采样的过程中能够好的恢复出准确的视差值。

具体方案包括下列步骤：

一种基于上采样及精确重匹配的视差估计优化方法，其特征在于，包括步骤如下：

第一步，提取可判别性特征；

第二步，初始代价匹配与代价图优化，获得低分辨率初始视差图；

第三步，低分辨率初始视差图经过传播上采样方法和精确重匹配方法得到高一个分辨率的视差图，重复此过程直到恢复为原分辨率；

3.1所述的传播上采样方法

最低分辩率的初始视差图D _n+1首先插值上采样，得到粗匹配的视差图D′ _n，此时得到的视差图仅由数值插值得到，并没有参考任何原始图像的结构信息，用原始的右视图I _r，根据粗匹配的视差图D′ _n，重建出左视图，记为

然后计算重建的左视图

和真实的左视图I _l之间的误差，得到置信度图M _c：

normalization(.)为归一化操作，将差值归一化到(0,1)之间，置信度图M _c上每一点的概率值代表该像素视差值的可信程度；复制平移置信度图变为置信度图组，记为M _cg，

M _cg＝f _c(M _c,k,s) (3)

其中f _c(.)代表复制平移以改变尺寸的操作，k代表邻域窗口大小，s代表采样窗口的空洞率；感受野为(2s+1) ²，每个位置得到一个k*k的置信度向量，代表该像素周围k*k邻域窗口内像素的置信度；

通过一个相对关系网络模块，该模块输入对应分辨率的左特征图，在每个位置都学习出一个权重向量，代表着其邻域像素与该中心像素的相对关系，权重越大，表示邻域某像素对该像素的影响越大；该权重，记为W _relative

其中k为代表邻域窗口大小，θ _relative表示相对关系网络模型；

用粗匹配的视差图D′ _n、置信度图M _cg和相对关系权重W _relative进行传播，得到传播后的视差图，传播计算过程如下：

其中

代表传播后的视差图，<,>代表点乘操作，f _c(.)代表复制平移resize操作，softmax(W _relative*M _cg)代表传播时周围像素对中心像素的支持力度，由周围像素的置信度和相对关系权重相乘得到；

然后使用窗口空洞率为重复此传播过程，使其能在不同感受野上传播优化视差图；至此，完成从D _n+1到

的传播上采样过程；

3.2所述的精确重匹配方法

首先根据

将特征列表

中对应分辨率的右特征图

重建出左特征图，记为

用重建的左特征图

和原始的左特征图

在视差d＝[-d ₀,d ₀]小范围内做一次重匹配，得到代价图，再通过一个沙漏网络优化代价图，回归视差，得到一个偏置图Δ，代表和

的偏移量的大小，两者相加得到最终的优化网络的视差图D _n，

重复迭代3.1、3.2过程，直至恢复到原分辨率，得到最终的高精度的视差图。

本发明的有益效果是：

1)本发明提出一种由粗到细精确重匹配方法，在优化视差过程中重新引入几何约束，利用在低分辨率上得到视差图和左右图，再在小的视差范围内做一次匹配，精确视差图范围，提高网络的泛化能力。

2)本发明提出一种利用上下文关系进行传播上采样的方法，在优化视差过程中，通过结合上下文关系以及当前粗糙视差置信度进行上采样，解决了现有上采样方法存在的破坏边缘的问题，可以获得边缘更精细的较高分辨率视差图。

附图说明

图1为方案整体流程图；

图2为传播上采样模块流程图；

图3为精确重匹配流程图。

具体实施方式

本发明基于由粗到细视差估计框架的视差优化策略，对输入的左右视图进行端到端的视差图预测，在不引入额外的任务的前提下，用本申请提出的传播上采样方法和精确重匹配方法，预测出准确的视差图，具体实施方案如下：

方案网络具体流程如图一，具体操作如下：

第一步，提取可判别性特征；

对输入网络中的左右两张视图进行特征提取。比起在原始图像的灰度值上进行匹配，使用特征向量进行匹配能够更好的应对光照、外观的变化，提取的特征向量能更加详细、全面的描述图片的信息，有助于更好的匹配。使用一个简单的CNN网络进行特征提取，包括四个级联的部分，(每个部分都包括三种不同的卷积层来提取特征)，四个子部分分别产生不同分辨率的左右特征图F ₀～F ₃(下标表示下采样因子，例，F ₃表示1/8分辨率的特征图)，每个特征向量f的维度是32，将四个不同分辨率的特征图储存在特征列表中

作为后面优化网络的输入，然后在最小分辨率，即F ₃，1/8分辨率的特征图上做匹配。

第二步，初始代价匹配与代价图优化，获得低分辨率初始视差；

用

代表1/8分辨率的左右特征图，f ^l(x,y)f ^r(x,y)代表图像上某一点的特征向量，C表示代价图，形成代价图的公式如下：(式1)

C(x,y,d)＝<f ^l(x,y)-f ^r(x-d,y)> (1)

<>表示特征向量对应位置元素相减，d等于{0,1,2…D _max}，D _max为匹配时的最大视差，所以最终形成的代价图的尺寸为[H/8,W/8,D _max/8,f]。

得到1/8分辨率的代价图后，用一个沙漏网络优化；沙漏网络由不同步长的卷积层组成，沙漏网络输出的代价图经过soft argmin层回归出一张1/8分辨率的粗略的视差图，记为D ₃。

第三步，低分辨率初始视差进入优化网络，获得高分辨率精细视差；

得到的在最低分辨率上的视差图再经过传播上采样模块和精确重匹配模块得到高一个分辨率的视差图，重复此过程直到恢复为原分辨率。

具体流程如图2、图3所示。

具体步骤如下所示：(这里以D ₃到D ₂一步迭代为例)

3.1传播上采样方法

D ₃首先插值上采样，得到粗匹配的视差图D′ ₂，此时得到的视差图仅由数值插值得到，并没有参考任何原始图像的结构信息，无法恢复因下采样而导致的信息损失，因此得到的D′ ₂错误率较高。所以需要基于的传播策略优化视差图D′ ₂。用原始的右视图I _r，根据上采样的视差图D′ ₂，重建出左视图，记为

f _w(.)为warping函数。然后计算重建的左视图

和真实的左视图I _l之间的误差，得到置信度图M _c:

normalization(.)为归一化操作，将差值归一化到(0,1)之间，置信度图M _c上每一点的概率值代表该像素视差值的可信程度。复制平移置信度图变为[H/8,W/8,k*k]大小的置信度图组，记为M _cg，

M _cg＝f _c(M _c,k,s) (3)

其中f _c(.)代表复制平移更改尺寸操作，k代表邻域窗口大小，s代表采样窗口的空洞率。(感受野为(2s+1) ²)每个位置可以得到一个k*k的置信度向量，代表该像素周围k*k邻域窗口内像素的置信度。

提出了一个相对关系网络模块，该模块输入对应分辨率的左特征图，在每个位置都可以学习出一个权重向量，代表着其邻域像素与该中心像素的相对关系，权重越大，表示邻域某像素对该像素的影响越大。例如，在同一物体内部的像素及其邻域像素相对关系比较强，则权重也较大，相反，若邻域像素处在为边缘，则对该像素的权重较小。通过这个模块，每一张不同的图片，都可以学习出不同的权重，使传播的时候能根据周围像素的不同的权重，来更新该像素的视差值。而不是在常规的神经网络，对于不同的输入，都使用相同权重的卷积核来优化视差图。

该模块由三层空洞率分别为{1,2,3}的卷积层组成，输入左特征图，输出[H/8,W/8,k*k]大小的权重，记为W _relative

其中k为代表邻域窗口大小，θ _relative表示相对关系网络模型。

用上一步上采样得到的粗略的视差图D′ ₂、置信度图M _cg和相对关系权重W _relative进行传播，得到优化后的

(p:传播propagate)，传播计算过程如下：

其中

代表传播后的视差图，<,>代表点乘操作，f _c(.)代表复制平移resize操作，softmax(W _relative*M _cg)代表传播时周围像素对中心像素的支持力度，由周围像素的置信度和相对关系权重相乘得到。然后使用窗口空洞率为s＝1，2，3重复此传播三次过程，使其能在不同感受野上传播优化视差图。至此，完成从D _n+1到

的传播上采样过程。

3.2精确重匹配方法

传播上采样模块从低分辨率的D _n+1输出基于传播的高分辨率的视差图

精确重匹配模块将在

上进行小范围的重匹配。首先根据

将特征列表

中对应分辨率的右特征图

重建出左特征图，记为

用重建的左特征图

和原始的左特征图

在视差d＝[-2,2]小范围内做一次重匹配，得到一个大小为[H/4,W/4,5,f]的代价图(以

为例)，再通过一个沙漏网络优化代价图，回归视差，可以得到一个偏置图Δ，代表和

的偏移量的大小，两者相加可得到最终的优化网络的视差图D _n，

4.损失函数

本方案网络训练时采用两种损失函数，对传播上采样模块输出的视差图

用平滑项损失，记为

对精确重匹配模块的输出使用下采样到对应分辨率的视差标签进行监督，记为

公式(7)中，N代表图像像素个数，

代表视差图的梯度，

代表原图边缘图的梯度。公示(8)中，

代表对应分辨率的视差标签，||.|| ₂代表L2距离；最终的损失函数由两个损失函数相加构成。

Claims

一种基于上采样及精确重匹配的视差估计优化方法，其特征在于，包括步骤如下：

第一步，提取可判别性特征；

第二步，初始代价匹配与代价图优化，获得低分辨率初始视差图；

第三步，低分辨率初始视差图经过传播上采样方法和精确重匹配方法得到高一个分辨率的视差图，重复此过程直到恢复为原分辨率；

3.1所述的传播上采样方法

最低分辩率的初始视差图D _n+1首先插值上采样，得到粗匹配的视差图D′ _n，此时得到的视差图仅由数值插值得到，并没有参考任何原始图像的结构信息，用原始的右视图I _r，根据粗匹配的视差图D′ _n，重建出左视图，记为
然后计算重建的左视图
和真实的左视图I _l之间的误差，得到置信度图M _c：

normalization(.)为归一化操作，将差值归一化到(0,1)之间，置信度图M _c上每一点的概率值代表该像素视差值的可信程度；复制平移置信度图变为置信度图组，记为M _cg，

M _cg＝f _c(M _c,k,s) (3)

其中f _c(.)代表复制平移以改变尺寸的操作，k代表邻域窗口大小，s代表采样窗口的空洞率；感受野为(2s+1) ²，每个位置得到一个k*k的置信度向量，代表该像素周围k*k邻域窗口内像素的置信度；

通过一个相对关系网络模块，该模块输入对应分辨率的左特征图，在每个位置都学习出一个权重向量，代表着其邻域像素与该中心像素的相对关系，权重越大，表示邻域某像素对该像素的影响越大；该权重，记为W _relative

其中k为代表邻域窗口大小，θ _relative表示相对关系网络模型；

用粗匹配的视差图D′ _n、置信度图M _cg和相对关系权重W _relative进行传播，得到传播后的视差图，传播计算过程如下：

其中
代表传播后的视差图，<,>代表点乘操作，f _c(.)代表复制平移resize操作，softmax(W _relative*M _cg)代表传播时周围像素对中心像素的支持力度，由周围像素的置信度和相对关系权重相乘得到；

然后使用窗口空洞率为重复此传播过程，使其能在不同感受野上传播优化视差图；至此，完成从D _n+1到
的传播上采样过程；

3.2所述的精确重匹配方法

首先根据
将特征列表
中对应分辨率的右特征图
重建出左特征图，记为
用重建的左特征图
和原始的左特征图
在视差d＝[-d ₀,d ₀]小范围内做一次重匹配，得到代价图，再通过一个沙漏网络优化代价图，回归视差，得到一个偏置图Δ，代表和
的偏移量的大小，两者相加得到最终的优化网络的视差图D _n，

重复迭代3.1、3.2过程，直至恢复到原分辨率，得到最终的高精度的视差图。
根据权利要求1所述的基于上采样及精确重匹配的视差估计优化方法，其特征在于，第一步，对输入网络中的左右两张视图进行特征提取，将不同分辨率的特征图储存在特征列表
中，然后在最小分辨率的特征图上做匹配。
根据权利要求1所述的基于上采样及精确重匹配的视差估计优化方法，其特征在于，第二步，用最低分辨率的左右特征图，f ^l(x,y)f ^r(x,y)代表图像上某一点的特征向量，C表示代价图，形成代价图的公式如下：

C(x,y,d)＝<f ^l(x,y)-f ^r(x-d,y)> (1)

<>表示特征向量对应位置元素相减，d等于{0,1,2…D _max}，D _max为匹配时的最大视差；得到最低分辨率的代价图后，用一个沙漏网络优化；沙漏网络由不同步长的卷积层组成，沙漏网络输出的代价图经过soft argmin层回归出一张最低分辨率的初始视差图，记为D _n+1。