WO2022120988A1

WO2022120988A1 - 基于混合2d卷积和伪3d卷积的立体匹配方法

Info

Publication number: WO2022120988A1
Application number: PCT/CN2020/139400
Authority: WO
Inventors: 陈世峰; 甘万水
Original assignee: 深圳先进技术研究院
Priority date: 2020-12-11
Filing date: 2020-12-25
Publication date: 2022-06-16
Also published as: CN112489097B; CN112489097A

Abstract

一种基于混合2D卷积和伪3D卷积的立体匹配方法(HybridNet)，涉及计算机视觉领域。所述方法包括以下步骤：基于预设参数提取图像特征，得到特征图（S101）；基于特征图生成代价卷（S102）；通过PSMNet结构得到代价聚合后的代价卷；最后通过视差回归得到初始视差图；通过初始视差图得到残差代价卷，残差聚合后得到视差残差优以化初始视差图；其中，在PSMNet结构和残差聚合中将3D卷积换成混合2D卷积和伪3D卷积的组合（S103）；对视差图采用CSPNet的方法进行深度图优化（S105）；结合2D卷积来近似实现3D卷积的功能，这种数据切换操作不含可学习的参数以及不会产生计算量。所述混合2D卷积以及伪3D卷积的代价聚合方式可以在微小的精度损失的情况下，极大的降低现有模型的计算量。

Description

基于混合2D卷积和伪3D卷积的立体匹配方法

技术领域

本发明涉及计算机视觉领域，具体而言，涉及一种基于混合2D卷积和伪3D卷积的立体匹配方法。

背景技术

立体匹配作为立体视觉的基础任务可以被广泛运用到自动驾驶，三维重建，虚拟现实等领域。通过计算经立体校正之后的左右视图的视差，可以通过相似三角形的等比关系计算目标的距离。相比于一些常见的主动距离探测传感器如激光雷达，双目立体相机的优势在于可以获取稠密的深度图，同时成本也远低于主动式传感器。

在传统的立体匹配算法中，计算左右视图的视差主要分为以下四步：代价计算，代价聚合，视差计算，视差优化。传统的立体匹配算法常面临着视差准确率不高以及计算量大的问题。近年来，卷积神经网络(Convolutional neural networks，简称CNNs)在双目立体匹配上取得了很大的进展。通过卷积神经网络，将双目图像进行特征提取降采样，在进行视差聚合与计算可以显著的降低计算量。现阶段，神经网络代价聚合部分通常采用3D卷积可以有效地代价聚合，实现准确的视差回归计算。但是3D卷积的计算量较大，非常不利于在一些实时应用上使用。另外，也有一些仅使用2D卷积进行代价聚合的网络，为此这些网络压缩了整个学习特征的通道维度，这样导致特征信息的丢失，从而这些网络的准确率有所降低。

现有的基于神经网络的双目立体匹配算法主要分为两类。一类是使用2D卷积进行代价聚合的算法，另一类是使用3D卷积进行代价聚合的算法；两类至少具有以下不足：

2D卷积代价聚合算法在利用左右特征图生成代价卷上，采用了通过压缩通道信息的方式形成四维的代价卷。这样做可以直接利用2D卷积进行代价聚合，但是由于在压缩通道信息的时候丢弃了大量的特征信息，导致这类方法在准确率上不占优势。

3D卷积代价聚合算法在利用左右特征图生成代价卷上，保留了通道信息，形成五维的代价卷，需要使用3D卷积进行代价聚合。虽然在准确率上实现了优越的性能，但是由于3D卷积的计算量大，在面向实时性方面没有优势。

发明内容

本发明实施例提供了一种基于混合2D卷积和伪3D卷积的立体匹配方法，可以保证准确率的同时，极大的降低计算量。

根据本发明的一实施例，提供了一种基于混合2D卷积和伪3D卷积的立体匹配方法，包括以下步骤：

基于预设参数提取图像特征，得到特征图；

基于特征图生成代价卷；

通过PSMNet结构代价聚合后通过视差回归得到初始视差图；其中，在PSMNet结构中将3D卷积换成混合2D卷积和伪3D卷积的组合；

通过初始视差生成残差代价卷，通过残差代价聚合，得到视差残差优化初始视差；其中，残差代价聚合的3D卷积换成混合2D卷积和伪3D卷积的组合；

对优化的视差图采用CSPNet的方法进行深度图进一步优化。

进一步地，方法还包括采用PSMNet的沙漏结构的版本通过视差回归得到初始视差图，并将其3D卷积换成本发明提出的混合2D卷积与伪3D卷积组合。

进一步地，对代价卷采用深度切换方式及2D卷积公式代价聚合，在深度切换方式的基础上采用所述2D卷积与伪3D卷积间隔排列的方式。

进一步地，采用初始的视差图重构右特征图为生成左特征图，然后与原始左特征图生成残差代价卷。

进一步地，采用PSMNet结构提取图像特征；其特征为：

其中，H为输入图像高，W为输入图像的宽。

进一步地，采用相识度衡量的方式生成代价卷。

进一步地，2D卷积公式中，采用3×3×3时的表达如下：

其中，

为代价卷cost volume，

为卷积之后输出通道数，h、w、d分别为特征图的通道数、宽和深度，c为输入通道数，i、j、z分别为高、宽以及深度维度的索引。

进一步地，采用CSPNet的卷积仿射传播来优化视差，其中视差优化更新次数为4次。

本发明的有益效果在于：基于预设参数提取图像特征，得到特征图；基于特征图生成代价卷；通过PSMNet结构得到代价聚合后的代价卷；最后通过视差回归得到初始视差图；通过初始视差图得到残差代价卷，残差聚合后得到视差残差优以化初始视差图，其中，在PSMNet结构和残差聚合中将3D卷积换成混合2D卷积和伪3D卷积的组合；对优化的视差图采用CSPNet的方法进行深度图进一步优化。本发明结合2D卷积来近似实现3D卷积的功能，由于这种数据切换操作不含可学习的参数以及不会产生计算量，本发明提出的混合2D卷积以及伪3D卷积的代价聚合方式可以在微小的精度损失的情况下，极大的降低现有模型的计算量。本发明至少有以下优点：

1、针对目前模型计算量大的问题提出了一个解决方案，即提出了混合2D卷积与伪3D卷积的代价聚合方法。其中，通过伪3D卷积子模块可以在不带来额外参数以及计算量的情况下实现对深度维度的信息进行建模，从而让模型实现更高的准确率。

2、目前的立体匹配方法都面临着计算量大的问题，严重影响在实时应用场景的使用，本发明提出的基于混合2D卷积与伪3D卷积的代价聚合模块，可以保证准确率的同时，极大的降低计算量。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于混合2D卷积和伪3D卷积的立体匹配方法的流程图；

图2为本发明HybridNet算法框架图；

图3为本发明HybridNet提取特征的具体参数图；

图4为本发明深度切换模型图；

图5为本发明HybridNet中将3D卷积换成混合2D卷积与伪3D卷积组合的具体参数图；

图6为本发明HybridNet的沙漏结构的版本中，3D卷积换成混合2D卷积与伪3D卷积组合的具体参数图；

图7为本发明采用CSPNet的方法来进行深度优化图；

图8与图9为本发明HybridNet在Scene flow与KITTI Stereo 2015数据集上与现有技术算法的对比；

图10为本发明应用场景的车上搭载的双目立体相机图；

图11为本发明应用场景的车上搭载的双目立体相机的道路场景以及深度图；

图12为本发明应用场景物体的三维重建示例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1至图12所示，根据本发明一实施例，提供了一种基于混合2D卷积和伪3D卷积的立体匹配方法，参见图1，包括以下步骤：

S101：基于预设参数提取图像特征，得到特征图；

本实施例中，特征提取模块中本发明采用PSMNet中的特征提取模块并减小了将其卷积层的通道数降为原来的一半，得到的特征(32,H/4,W/4)，H为输入图像高，W为输入图像的宽。具体参数如图3所示。

S102：基于特征图生成代价卷；

本实施例中，采用了相似度衡量的代价卷生成方式，其特征形状为(32,H/4,W/4,D/4)；其中D为最大是视差值，这里本发明取192。

S103：通过PSMNet结构代价聚合得到代价聚合后的代价卷，通过视差回归得到初始视差图；其中，在PSMNet结构中将3D卷积换成混合2D卷积和伪3D卷积的组合。

本实施例中，本发明提出的深度切换加2D卷积模块的公式(depth shift module，DSM)；其中，DSM如图4所示。

S104：通过初始视差生成残差代价卷，通过残差代价聚合，得到视差残差优化初始视差图；其中，残差代价聚合的3D卷积换成混合2D卷积和伪3D卷积的组合。

S105：对优化的视差图采用CSPNet的方法进行深度图进一步优化。

本实施例中，视差优化采用了CSPNet的方法来进行深度图优化。如图7所示。

本实施例中，采用PSMNet沙漏结构得到初始视差图；代价聚合分别为初始视差回归以及残差视差微调；其中，初始视差回归：采用了PSMNet的结构，并将其3D卷积换成本发明提出的混合2D卷积与伪3D卷积组合。具体参数表如下图2所示；残差视差微调：采用了PSMNet的沙漏结构的版本，并将其3D卷积换成本发明提出的混合2D卷积与伪3D卷积组合。具体参数如下图5和图6所示。

目前利用3D卷积来进行代价聚合可以实现最好的立体匹配效果，但是缺点是计算量大；通过本申请发明提出的混合2D卷积与伪3D卷积的代价聚合方式可以较少超过一半的计算量。如图8和图9所示，为本发明与其他方法的简单对比，图8和图9所示为HybridNet在Scene flow与KITTI Stereo 2015数据集上与当下算法的对比。

在设计深度切换模块(DSM)时，需要考虑好各个维度之间的关系，需要书写代码的时候调整降采样后切换通道数，同时在立体匹配任务上(1×1×1)的卷积会降低代价聚合的效果。

如图10至图12是本申请发明的应用场景：

1、自动驾驶

通过车上搭载的双目立体相机(如图10)可以估计出图像范围内的距离信息(如图11)，为高级辅助驾驶提供预警信息，如前车距离，障碍物距离等。

2、双目三维重建

双目三维重建的关键在于高精度的立体匹配生成准确的深度图，然后通过三角剖分，以及纹理贴图完成对特定物体的三维重建(如图12)。

本发明提供了一种基于混合2D卷积和伪3D卷积的立体匹配方法，如图1所示，包括：

步骤一：提取特征；基于参数提取图像特征，得到特征图；

步骤二：生成代价卷；基于特征图生成代价卷；

步骤三：初始代价聚合；通过PSMNet结构代价聚合得到代价聚合后的代价卷，通过视差回归得到初始视差图；其中，在PSMNet结构中将3D卷积换成混合2D卷积和伪3D卷积的组合；

步骤四：残差优化；通过初始视差生成残差代价卷，通过残差代价聚合，得到视差残差优化初始视差；其中，残差代价聚合的3D卷积换成混合2D卷积和伪3D卷积的组合；

步骤五：深度优化；对优化的视差图采用CSPNet的方法进行深度图进一步优化。

本发明的有益效果在于：基于预设参数提取图像特征，得到特征图；基于特征图生成代价卷；通过PSMNet结构得到代价聚合后的代价卷；最后通过视差回归得到初始视差图；通过初始视差图得到残差代价卷，残差聚合后得到视差残差优以化初始视差图；其中，在PSMNet结构和残差聚合中将3D卷积换成混合2D 卷积和伪3D卷积的组合；对优化的视差图采用CSPNet的方法进行深度图进一步优化。本发明结合2D卷积来近似实现3D卷积的功能，由于这种数据切换操作不含可学习的参数以及不会产生计算量，本发明提出的混合2D卷积以及伪3D卷积的代价聚合方式可以在微小的精度损失的情况下，极大的降低现有模型的计算量。本发明至少有以下优点：

本实施例中，方法还包括采用PSMNet的沙漏结构的版本通过视差回归得到初始视差图，并将其3D卷积换成本发明提出的混合2D卷积与伪3D卷积组合；具体参数如图6所示。

本实施例中，本发明采用PSMNet中的特征提取模块并减小了将其卷积层的通道数降为原来的一半，得到的特征(32,H/4,W/4)；其中，H为输入图像高，W为输入图像的宽。具体参数如图3所示。

为了解决现阶段基于3D卷积代价聚合计算量大的问题，本发明设计了混合2D卷积与伪3D卷积的高效立体匹配网络(HybridNet，图3所示)来实现低计算量的深度估计。在图像卷积过程中，当卷积核的参数在0或者1的时候可以通过对相应数据进行切换来实现，这样做可以省略这部分的可学习参数以及计算量。为此本发明将这种数据切换作为深度视差维度的建模方式，提出伪3D卷积模块，从而可以结合2D卷积来近似实现3D卷积的功能。

本实施例中，对代价卷采用深度切换方式及2D卷积公式代价聚合，在深度切换方式的基础上采用2D卷积与伪3D卷积间隔排列的方式。

如图2所示，混合2D卷积与伪3D卷积的高效立体匹配网络(HybridNet，图2)来实现低计算量的深度估计。在图像卷积过程中，当卷积核的参数在0或者1的时候可以通过对相应数据进行切换来实现，这样做可以省略这部分的可学习参数以及计算量。为此我们将这种数据切换作为深度视差维度的建模方式，提出伪3D卷积模块，从而可以结合2D卷积来近似实现3D卷积的功能。

本实施例中，在深度切换方式的基础上采用2D卷积与伪3D卷积间隔排列的方式，保证代价聚合性能的同时，进一步减小推理时间。

提出伪3D卷积模块，结合2D卷积来近似实现3D卷积的功能。由于这种数据切换操作不含可学习的参数以及不会产生计算量，我们提出的混合2D卷积以及伪3D卷积的代价聚合方式可以在微小的精度损失的情况下，极大的降低现有模型的计算量。

本发明提出伪3D卷积模块，从而可以结合2D卷积来近似实现3D卷积的功能。由于这种数据切换操作不含可学习的参数以及不会产生计算量，本发明提出的混合2D卷积以及伪3D卷积的代价聚合方式可以在微小的精度损失的情况下，极大的降低现有模型的计算量。

本实施例中，采用初始的视差图重构右特征图为生成左特征图，然后与原始左特征图生成残差代价卷。

本实施例中，采用PSMNet结构提取图像特征；其特征为：

其中，H为输入图像高，W为输入图像的宽。

特征提取模块中我们采用PSMNet中的特征提取模块并减小了将其卷积层的通道数降为原来的一半；具体参数如图4所示。

为了进一步降低计算量，可考虑通过下采样进一步降低特征图的尺寸，但意味着准确率也相应下降一些。其他用途：提出的伪3D卷积也适用于其他的3D卷积网络，如光流估计，点云处理等。

本实施例中，采用相识度衡量的方式生成代价卷采用相识度衡量的方式生成代价卷。

本方法中采用了相似度衡量的代价卷生成方式，其特征形状为(32,H/4,W/4,D/4)；其中D为最大是视差值，本实施例中，取192。

如图4所示，本实施例中，在深度切换方式的基础上采用2D卷积与伪3D卷积间隔排列的方式，保证代价聚合性能的同时，进一步减小推理时间。

2D卷积公式中，采用3×3×3时的表达如下：

其中，

为代价卷cost volume，

在设计深度切换模块(DSM)时，需要考虑好各个维度之间的关系，需要书写代码的时候调整降采样后切换通道数，同时在立体匹配任务上的卷积会降低代价聚合的效果。

本实施例中，CSPNet的视差优化方法，采用CSPNet的卷积仿射传播来优化视差，其中视差优化更新次数为4次。

本申请发明，第一个可以解决的是通用性；本发明的模块可以插入到任意的3D卷积网络中实现以接近2D的计算量来实现3D卷积的效果，目前主流的立体匹配网络设计都包含3D卷积，本申请发明可以迁移到以上含3D卷积的网络。同时，对于类似的稠密回归型任务也同样使用，如光流估计以及3D点云分割等。

第二个计算量和准确率之间的平衡，是对比目前比较有名两个即插即用的视频识别模块TSM和nonlocal，TSM和Nonlocal同样可以嵌入到当前主流的2D网络中，但是本申请的模块效果高于TSM,通过残差连接鲁棒性更好；此外，通过2D卷积与伪3D卷积的间隔结合可以进一步在保证对深度维度建模能力的前提下，进一步降低计算量；Nonlocal的计算量大于本申请smallBIg，本申请2D网络上的结果也明显高于Nonlocal+3D网络。这说明本申请的设计在计算量和准确率上都有优势。

对于某些特殊的应用场景，比方说安防，异常行为或者动作往往持续时间短变化快，本申请的技术对于动作帧上的变化快慢不敏感，对于不同duration的动作都可以很好的建模，因为kinetics数据集是10s左右的视频，比方说投篮这个动作，从运球到准备投篮到最后投进持续时间长变化慢，而something-something上是2～3s的视频，比方说竖拇指，一个动作变化不会超过3S，在这两个数据集上本申请都取得很好的结果证明本申请的模块对于持续时间不同的动作都可以很好的建模。

另外这个技术应用范围很广：

1、智能体育运动训练/视频辅助裁判方面：因为该技术对视频动作快慢时间不敏感，因此可以普适于多种体育运动场景中，如动作慢的瑜伽和动作变化迅速的花滑/体操等。

2、智能视频审核：能在移动端即可完成异常动作识别及研判，直接把异常发送到云服务器，进一步提升研判速度及效率。

3、智能视频蒙太奇：面对庞大视频数据库，自动提取及剪辑汇总统一动作视频。

4、智能安防：可以在计算资源受限的智能终端如智能眼镜、无人机、智能摄像头等上直接进行动作识别，直接反馈异常行为，提高巡防等的即时性和准确性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，包括以下步骤：

基于预设参数提取图像特征，得到特征图；

基于所述特征图生成代价卷；

通过PSMNet结构代价聚合得到代价聚合后的代价卷，通过视差回归得到初始视差图；其中，在PSMNet结构中将3D卷积换成混合2D卷积和伪3D卷积的组合；

通过初始视差生成残差代价卷，通过残差代价聚合，得到视差残差优化初始视差图；其中，残差代价聚合的3D卷积换成混合2D卷积和伪3D卷积的组合；

对优化的视差图采用CSPNet的方法进行深度图进一步优化。。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，所述方法还包括采用PSMNet的沙漏结构的版本通过视差回归得到初始视差图，并将其3D卷积换成本发明提出的混合2D卷积与伪3D卷积组合。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，对代价卷采用深度切换方式及2D卷积公式代价聚合，在所述深度切换方式的基础上采用所述2D卷积与所述伪3D卷积间隔排列的方式。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，采用初始的视差图重构右特征图为生成左特征图，然后与原始左特征图生成残差代价卷。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，采用PSMNet结构提取图像特征；其特征为：

其中，H为输入图像高，W为输入图像的宽。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，采用相识度衡量的方式生成代价卷。
根据权利要求3所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，所述2D卷积公式中，采用3×3×3时的表达如下：

其中，
为代价卷cost volume，
为卷积之后输出通道数，h、w、d分别为特征图的通道数、宽和深度，c为输入通道数，i、j、z分别为高、宽以及深度维度的索引。
根据权利要求1所述的基于混合2D卷积和伪3D卷积的立体匹配方法，其特征在于，所述CSPNet的视差优化方法，采用CSPNet的卷积仿射传播来优化视差，其中视差优化更新次数为4次。