WO2022089077A1

WO2022089077A1 - 一种基于自适应候选视差预测网络的实时双目立体匹配方法

Info

Publication number: WO2022089077A1
Application number: PCT/CN2021/118609
Authority: WO
Inventors: 张旭翀; 孙宏滨; 戴赫; 赵永利; 郑南宁
Original assignee: 西安交通大学
Priority date: 2020-10-28
Filing date: 2021-09-15
Publication date: 2022-05-05
Also published as: CN112435282B; CN112435282A

Abstract

本发明公开了一种基于自适应候选视差预测网络的实时双目立体匹配方法。该方法首先利用二维卷积神经网络对立体图像对进行多尺度特征提取，得到高、低分辨率的特征图。然后，第一阶段视差估计利用低分辨率特征图进行视差粗估计。在利用粗估计结果和左图信息预测得到自适应候选视差以后，第二阶段视差估计则利用预测结果和高分辨率特征图进行精细视差估计。最后，对视差图进行层次化精修得到全尺寸视差图。与现有的由粗到精立体匹配神经网络相比，本发明可以为精细视差估计阶段预测更准确的动态偏移量，以满足图像中各种目标不同的视差校正需求。由于动态预测的有效性，本发明设计了两级处理结构以大幅提高实时双目立体匹配网络的计算精度和速度。

Description

一种基于自适应候选视差预测网络的实时双目立体匹配方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于自适应候选视差预测网络的实时双目立体匹配方法。

背景技术

双目立体视觉系统在机器人导航、智能监控、自动驾驶等应用领域有着广泛的应用。因此，准确，快速的双目立体匹配对于立体视觉系统在移动设备的实时部署具有重要意义。近年来，基于深度学习技术的双目立体匹配得益于神经网络模型的不断创新，其算法的处理精度显著提升。但是，当前的高精度立体匹配网络通常需要占用大量的内存和计算资源，这使得已有方法难以在资源受限的移动平台上应用。

端到端双目立体匹配网络主要包括特征提取、聚合代价量构建、匹配代价聚合以及视差回归/优化等步骤。其中，匹配代价聚合步骤对模型的计算速度和资源耗费起着决定性作用，因此对该步骤的合理优化成为网络轻量化设计的关键。当前，已有方法主要采用由粗到精(Coarse-to-fine)的视差估计策略来大幅降低代价聚合步骤的计算复杂度。具体地，该方法首先在小分辨率下进行全视差范围搜索得到粗视差估计结果，然后逐级上采样，并在大分辨率下用极少数的视差偏移量对粗估计视差进行精细化修正，因此计算速度显著提高。然而，已有方法均采用固定偏移量的方式为精细估计阶段提供候选视差，该方式将候选值限制在粗视差估计结果的局部小范围内，从而导致视差修正难以满足不同场景中不同目标的实际需求，因此已有方法的视差图质量相对较差。此外，为了一定程度提高估计结果，已有由粗到精方法通常采用多阶段(一般≥3级)处理来得到更准确的视差。但是，随着操作级数的增加，计算速度会显著降低。综上所述，已有采用由粗到精策略的轻量化双目立体匹配网络在计算精度和速度等方面仍难以满足移动设备对立体视觉的实时性要求。

发明内容

本发明的目的在于提出一种基于自适应候选视差预测网络的实时双目立体匹配方法，以克服现有技术的缺点。本发明利用粗视差估计结果和原始图像信息为每一像素动态预测精细估计阶段所需的视差偏移量，从而适应不同目标物体对视差校正范围的差异化需求。并且，由于该方法的有效性，本发明设计了一种两级处理结构以提升双目立体匹配网络的计算精度和速度。

为达到上述目的，本发明采用如下技术方案来实现：

一种基于自适应候选视差预测网络的实时双目立体匹配方法，该方法包括：

首先利用二维卷积对校正后的立体图像对进行多尺度特征提取，得到高、低分辨率的特征图；然后，在第一阶段中，在低分辨率特征图下进行视差粗估计；随后利用粗估计视差图和左图进行动态偏移量预测，该偏移量与粗估计结果相加生成自适应候选视差；第二阶段视差估计利用自适应候选视差和高分辨率特征图构建紧凑匹配代价量，该代价量通过正则化之后进行视差回归得到精细估计视差；最后，视差精修模块对精细视差图进行层次化上采样，得到全尺寸视差图。

本发明进一步的改进在于，特征提取时，首先用一系列二维卷积将输入原图逐级下采样到1/2、1/4、1/8和1/16，然后对1/4和1/16特征进行更深层次的特征提取。

本发明进一步的改进在于，第一阶段视差估计，利用特征提取的1/16特征图进行错位拼接，得到完整匹配代价量；通过堆叠的三维卷积对代价量进行正则化处理，得到聚合后的匹配代价量，对该代价量进行回归得到粗估计视差图。

本发明进一步的改进在于，动态偏移量预测DOP根据粗估计视差图和左图信息预测动态候选视差偏移量，将其与粗估计视差图相加生成自适应候选视差。

本发明进一步的改进在于，DOP利用视差粗估计结果和左图信息预测动态偏移量，进而得到自适应候选视差，表示如下：

其中，

表示像素点p的第n个视差偏移量

I _1p表示左图像素点p的值，

表示像素点p的第一阶段视差粗估计结果；使用一系列二维卷积实现DOP，具体过程为：首先将粗估计视差图和左图双线性插值到1/4分辨率，再沿通道方向级联，接着将该张量通过一个卷积得到C _DOP维表示，然后该张量通过4个步长为1的残差块得到尺寸为(N-1)×H/4×W/4的偏移量，其中，N为偏移量总数，H和W为输入图像的高和宽；将该偏移量和零张量加到粗估计视差图上，便可得到自适应的候选视差dc _p：

本发明进一步的改进在于，第二阶段视差估计，利用自适应候选视差对1/4右特征图进行扭曲操作，即根据自适应候选视差对右特征图的每一像素进行不同程度的位移，然后与左特征图级联得到紧凑匹配代价量，对该代价量正则化处理后，进行视差回归得到1/4分辨率的精细视差估计。

本发明进一步的改进在于，视差精修时，通过级联残差块，利用精细视差估计结果和左图信息层次化预测视差残差，将残差与视差相加得到精修视差图，并上采样得到全尺寸视差；

得到视差图后，采用Adam优化方法优化SmoothL1Loss目标函数，具体公式如下：

其中，

为像素点i的视差预测值，d _i为像素点i的视差真值；得到优化模型后，便可进行线上推理。

与现有技术相比，本发明具有以下有益效果：

本发明提出的一种基于自适应候选视差预测网络的实时双目立体匹配方法，该方法提出的DOP可以预测动态偏移量来代替已有方法的恒定偏移量，该偏移量与粗估计视差结果相加生成自适应候选视差，可以适应不同图像位置的不同视差校正范围需求，并且能够恢复粗估计阶段丢失的细小结构信息，显著提升视差图质量。

进一步，由于DOP的有效性，本发明无需采用与已有方法类似的多级处理操作。因此，本发明设计了两级由粗到精的处理结构，能够大幅提升精度的同时，速度也提高至原有方法的两倍。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明基于自适应候选视差预测网络的实时双目立体匹配方法的整体框架；

图2为本发明的特征提取网络示意图；

图3为本发明的动态偏移量预测以及自适应候选视差生成示意图；

图4为DOP的动态偏移量可视化示意图，图4(a)为动态候选视差偏移量，图4(b)为偏移量直方图；

图5为本发明的视差精修模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，不是全部的实施例，而并非要限制本发明公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要的混淆本发明公开的概念。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中，当将一层/元件称作位于另一层/元件“上”时，该层/元件可以直接位于该另一层/元件上，或者它们之间可以存在居中层/元件。另外，如果在一种朝向中一层/元件位于另一层/元件“上”，那么当调转朝向时，该层/元件可以位于该另一层/元件“下”。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下结合附图和实施例对本发明作进一步的详细说明。

如图1-5所示，在对原始输入图像进行打乱、裁剪、归一化等常规数据预处理操作后，本发明提供了一种基于自适应候选视差网络的实时双目立体匹配方法，该方法包括特征提取、第一阶段视差估计、动态偏移量预测DOP(Dynamic Offset Prediction,DOP)、第二阶段视差估计和视差精修等5个步骤：

1)图1是本发明的整体框架示意图。完成双目立体匹配任务的神经网络模型输入是匹配图像对I ₁和I ₂，输出是目标图像I ₁的稠密视差图D。该网络将学习一个函数(模型)f满足下列关系：

f(I ₁,I ₂)＝D

具体地，网络首先从经过校正的原始输入图像I ₁和I ₂中提取用于匹配代价计算的高维特征信息F ₁和F ₂，然后利用F ₁和F ₂构建三维匹配代价量并进行代价聚合，最终回归出稠密视差图D。如图1所示，本发明的整体模型主要包括特征提取f ₁、第一阶段视差估计f ₂、DOPf ₃、第二阶段视差估计f ₄和视差精修f ₅等5个模块。

2)特征提取f ₁：f ₁采用一系列二维卷积操作学习I ₁和I ₂的1/4和1/16分辨率特征表示

以及

该过程可表示为：

首先，本发明采用三个下采样率分别为2、1、2的卷积、一个残差块和一个卷积操作将原始输入图像I ₁变换为2C×H/4×W/4的高维特征图

其中，H、W分别表示输入图像的高和宽，C为控制特征提取通道数的常数。然后用两次2倍下采样卷积+残差块的操作组合、一个残差块和一个卷积操作提取到尺寸为8C×H/16×W/16的特征

I ₁和I ₂的特征提取网络权值共享，且I ₂的特征提取过程与上述一致。

3)第一阶段视差估计f ₂：该模块主要包含构建完整匹配代价量、代价聚合和视差计算三部分。完整匹配代价量的构建过程具体为：在每一个视差下，

沿宽度方向向左进行相应视差值个单位的平移，然后与目标特征图(左)在通道方向进行拼接。通过上述错位拼接，即可构建尺寸为16C×D/16×H/16×W/16的初始匹配代价量

其中D表示最大视差值。通过6个级联的标准三维卷积对

进行正则化得到尺寸为1×D/16×H/16×W/16的匹配代价量

最后用Soft Argmin对该代价量进行回归，得到粗估计视差值：

其中，c _d表示相应视差d下的匹配代价，D _max表示该分辨率下的最大视差。

4)DOP f ₃：DOP根据f ₂粗视差结果和左图信息动态预测每个像素的视差偏移量。具体可表示如下：

其中，

表示像素点p的第n个视差偏移量

I _1p表示左图像素点p的值，

表示像素点p的第一阶段视差粗估计结果。本发明使用一系列二维卷积来实现DOP函数。具体运算过程如图3所示，首先将粗估计视差图和左图双线性插值到1/4分辨率，再沿通道方向级联，接着将该张量通过一个卷积得到C _DOP维表示，然后该张量通过4个步长为1的残差块得到尺寸为(N-1)×H/4×W/4的偏移量，其中，N为偏移量总数，动态偏移量及其统计直方图如图4所示。将该偏移量和零张量加到粗估计视差图，便可得到自适应的候选视差dc _p：

5)第二阶段视差估计f ₄：该模块与f ₂类似，主要包含构建紧凑匹配代价量、代价聚合和视差计算三部分。本发明利用f ₃得到的dc _p对右图1/4分辨率特征图

进行扭曲操作，即根据候选视差对右特征图的每一个像素进行不同程度的位移，然后与左图1/4分辨率特征图

沿通道方向级联，形成尺寸为4C×D/4×H/4×W/4的初始匹配代价量

接下来对

进行正则化得到代价量

最后用Soft Argmin对该代价量进行回归：

其中，

表示相应视差

下的匹配代价。

由于DOP可以预测更准确的候选视差，本发明设计为两级由粗到精结构以进行准确且快速的视差估计。

6)视差精修f ₅：如图5所示，在得到1/4分辨率视差

以后，本发明对其进行两级精修和上采样。具体地，首先本发明将

和1/4左图级联，经过卷积后形成尺寸为32×H/4×W/4的张量，之后该张量经过膨胀率分别为1、2、4、8、1、1的残差块和一个二维卷积，得到尺寸为1×H/4×W/4的视差残差r ₁，将其与

相加后，便可得到1/4分辨率下的视差精修结果，将该结果上采样到1/2分辨率后重复上述过程得到1/2分辨率下的视差精修结果r ₂，最后将1/2精修视差图上采样到全分辨率便得到最终视差结果。

为了使反向传播的梯度随误差的变化更加平滑，对离群点更加鲁棒，本发明使用SmoothL1Loss函数作为优化目标，其具体公式如下：

其中，

为像素点i的视差预测值，d _i为像素点i的视差真值。

在训练阶段，本发明在第一、二阶段的第一个卷积后增加输出视差图

进行更有效的监督，损失函数计算如下：

为了提升学习收敛速度，防止陷入局部最优点，本发明选择Adam优化器对模型参数进行更新。本发明在FlyingThings3D、Driving和Monkaa数据集按上述过程做预训练，之后利用预训练得到的模型在KITTI 2012或KITTI 2015做迁移训练。至此，模型优化完成，可进行线上推理任务。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，该方法包括：

首先利用二维卷积对校正后的立体图像对进行多尺度特征提取，得到高、低分辨率的特征图；然后，在第一阶段中，在低分辨率特征图下进行视差粗估计；随后利用粗估计视差图和左图进行动态偏移量预测，该偏移量与粗估计结果相加生成自适应候选视差；第二阶段视差估计利用自适应候选视差和高分辨率特征图构建紧凑匹配代价量，该代价量通过正则化之后进行视差回归得到精细估计视差；最后，视差精修模块对精细视差图进行层次化上采样，得到全尺寸视差图。
根据权利要求1所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，特征提取时，首先用一系列二维卷积将输入原图逐级下采样到1/2、1/4、1/8和1/16，然后对1/4和1/16特征进行更深层次的特征提取。
根据权利要求2所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，第一阶段视差估计，利用特征提取的1/16特征图进行错位拼接，得到完整匹配代价量；通过堆叠的三维卷积对代价量进行正则化处理，得到聚合后的匹配代价量，对该代价量进行回归得到粗估计视差图。
根据权利要求3所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，动态偏移量预测DOP根据粗估计视差图和左图信息预测动态候选视差偏移量，将其与粗估计视差图相加生成自适应候选视差。
根据权利要求4所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，DOP利用视差粗估计结果和左图信息预测动态偏移量，进而得到自适应候选视差，表示如下：

其中，
表示像素点p的第n个视差偏移量
I _1p表示左图像素点p的值，
表示像素点p的第一阶段视差粗估计结果；使用一系列二维卷积实现DOP，具体过程为：首先将粗估计视差图和左图双线性插值到1/4分辨率，再沿通道方向级联，接着将该张量通过一个卷积得到C _DOP维表示，然后该张量通过4个步长为1的残差块得到尺寸为(N-1)×H/4×W/4的偏移量，其中，N为偏移量总数，H和W为输入图像的高和宽；将该偏移量和零张量加到粗估计视差图上，便可得到自适应的候选视差dc _p：
根据权利要求5所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，第二阶段视差估计，利用自适应候选视差对1/4右特征图进行扭曲操作，即根据自适应候选视差对右特征图的每一像素进行不同程度的位移，然后与左特征图级联得到紧凑匹配代价量，对该代价量正则化处理后，进行视差回归得到1/4分辨率的精细视差估计。
根据权利要求6所述的一种基于自适应候选视差预测网络的实时双目立体匹配方法，其特征在于，视差精修时，通过级联残差块，利用精细视差估计结果和左图信息层次化预测视差残差，将残差与视差相加得到精修视差图，并上采样得到全尺寸视差；

得到视差图后，采用Adam优化方法优化SmoothL1Loss目标函数，具体公式如下：

其中，
为像素点i的视差预测值，d _i为像素点i的视差真值；得到优化模型后，便可进行线上推理。