WO2020119620A1

WO2020119620A1 - 具有自我提升能力的金字塔双目深度估计模型

Info

Publication number: WO2020119620A1
Application number: PCT/CN2019/123949
Authority: WO
Inventors: 程俊; 杜聿博; 张锲石
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2018-12-14
Filing date: 2019-12-09
Publication date: 2020-06-18
Also published as: CN109801323A

Abstract

一种具有自我提升能力的金字塔双目深度估计模型，涉及深度学习、二维图像深度重建领域，包括以下步骤：1)搭建空间金字塔模块；2)进行代价整合；3)多层回归输出；4)计算损失函数。上述模型在金子塔双目模型的基础上，利用SPN(空间转换网络)根据模型生成的视差图对双目图像进行重建，并根据重建图像与原图像之间的损失对模型进行训练从而模型可以在没有任何预处理雷达数据的情况下进行训练，在有预处理的雷达数据的情况下，经过监督训练之后的模型在测试时可以通过利用双目重建损失进行在线训练以提升其表现。

Description

具有自我提升能力的金字塔双目深度估计模型

技术领域

本发明涉及深度学习、二维图像深度重建领域，具体涉及一种具有自我提升能力的金字塔双目深度估计模型。

背景技术

对于经过矫正的双目图片，如果左图中坐标点为(x,y)的像素点a与右图中坐标点为(x-d,y)的a`点匹配，d我们称为视差，则a点和a`点到摄像头的距离(即深度)＝相机焦距*两相机中心距离÷视差。因为视差d和深度成反比，所以我们可以将求解深度的问题转化为求解双目图像的视差。

现有的技术方案中，金字塔双目深度模型用SPP-Module(空间金字塔模块)(即不采用单一固定尺寸的池化，而是用四种大小的池化核对图像进行特征提取，并将四组特征上采样为固定尺寸特征并结合在一起)取代传统的GC-NET(几何与结构关系网络)的特征提取部分。在GC-NET的损失匹配之后建立三组编码-解码三维卷积模块，每一模块会生成一组视差图，在训练阶段利用这三组视差图进行逐级训练，在测试阶段以最后一级卷积模块的视差图为最终结果。

现有的方案如果将其在某一特定场景下训练所得的模型应用到新场景时，例如将在城市街道环境下训练后所得的模型应用到乡村街道的环境下，模型的表现将会变差，视差计算的误差变大；现有的模型只可以在有预先根据雷达扫描结果生成的视差图的条件下进行有监督学习，但是雷达的工作成本十分大，并且预先计算好的视差图数量有限造成模型的深度计算能力有限。

发明内容

为解决上述背景技术中存在的问题，本发明提出一种具有自我提升能力的金字塔双目深度估计模型，基于双目图像可以根据视差结果进行相互的图像重建这一特点，即左图可以根据右图生成的视差图片计算合成的右图，通过计算左右新合成图像与原始左右图像之间的损失进行训练使得模型可以不用依赖雷达数据进行学习以及当模型被应用到新场景中时可以通过在线学习的方式提高其深度计算的准确率。

本发明解决上述问题的技术方案是：一种具有自我提升能力的金字塔双目深度估计模型，其特殊之处在于，包括以下步骤：

1)搭建空间金字塔模块；

2)进行代价整合；

3)多层回归输出；

4)计算损失函数。

进一步地，上述步骤1)中搭建空间金字塔模块，具体为：

空间金字塔模块采用四种尺寸：8*8、16*16、32*32、64*64池化层，每个池化层后紧随卷积层和激活层；将所有特征都上采样为同一尺寸w/4*h/4，并将这些特征在通道的维度上融合在一起，融合后的特征作为下一层的输入；其中，w为输入图像的宽，h为输入图像的高。

进一步地，上述步骤2)中进行代价整合，具体为：

将左右图像各生成的特征在每个视差值上进行滑动融合，得到特征数为w/4*h/4*d/4*的三维特征模块。

进一步地，上述步骤3)中，

编码阶段进行步长为1、2、1的卷积操作，解码阶段进行2次步长为2的反卷积操作；每组编码解码模块的输出上采样为w*h*d，并进行归一化操作，并利用

将三维层转化为二维视差图作为每级输出D _p为预测的视差图像P _d为归一化之后的三维概率。

进一步地，上述步骤4)中，计算损失函数包括两种情况：

4.1)有监督损失；

4.2)无监督损失。

进一步地，上述步骤4.1)中，

有监督部分损失被定义为预测视差与实际测量视差的光滑绝对误差，具体如下：

其中：D _g实际测量视差，D _p模型预测视差，

进一步地，上述步骤4.2)中，

无监督部分的损失：

其中

和

为结构相似损失，

和

为光滑绝对误差；

4.2.1)结构相似损失：

其中，

μ _x和μ _y为图像X和Y的均值，σ _x和σ _y为图像X和Y的方差，σ _xy表示X和Y的协方差，

为输入左图像，

为合成的右图像；

4.2.2)光滑绝对误差：

光滑绝对误差的计算方式同有监督损失部分。

本发明的优点：

本发明在金子塔双目模型的基础上，利用SPN(空间转换网络)根据模型生成的视差图对双目图像进行重建，并根据重建图像与原图像之间的损失对模型进行训练从而模型可以在没有任何预处理雷达数据的情况下进行训练，在有预处理的雷达数据的情况下，经过监督训练之后的模型在测试时可以通过利用双目重建损失进行在线训练以提升其表现。

附图说明

图1是本发明一种具有自我提升能力的金字塔双目深度估计模型结构图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

图1是本发明一种具有自我提升能力的金字塔双目深度估计模型结构图。首先将双目图像输入SPP模块提取特征，然后在每个视差级别对它们进行累加，并且在残差模块之后将它们放入多级编码-解码输出结构中。partA部分是代价整合模块，本发明采用partA2所示的代价整合方式，将所有特征在每个视差值上进行融合。在partA部分中，较大的方块表示右侧特征，较小的方块表示左侧特征。partB部分显示了多层回归输出。输入图像，宽：w，高：h，通道数：c，预定义最大视差d＝160。

一种具有自我提升能力的金字塔双目深度估计模型，包括以下步骤：

1)搭建空间金字塔模块

空间金字塔模块是为了扩大模型的视野范围而设计的，它不采用固定尺寸的池化核，而是采用四种尺寸：8*8，16*16，32*32，64*64池化层，每个池化层后紧随卷积层和激活层。因为四种尺寸的池化层提取出的特征尺寸不一，故将所有特征都上采样为同一尺寸w/4*h/4，并将这些特征在通道的维度上融合在一起，融合后的特征作为下一层的输入；

2)代价整合Cost-volume

本发明中的代价整合模块如图1中partA2的过程，将左右图像各生成的特征在每个视差值上进行滑动融合，例如在第k个视差值上滑动时左图特征(x,y)处的元素与右图特征(x-k,y)处的元素融合，其中：k<＝x<w/4，0<＝y<h/4。我们可以得到一个w/4*h/4*d/4*特征数的三维特征模块，此处我们采用d/4而不是d是因为GPU的存储能力有限，采用d时无法一次训练多张图片，训练的效率会降低；

3)多层回归输出

多层回归输出模块如图1中PartB所示粗箭头表示流程的走向，细箭头表示将当前三维层连接到指定三维层上。

编码阶段进行步长为1、2、1的卷积操作，解码阶段进行2次步长为2的反卷积操作。每组编码解码模块的输出上采样为w*h*d，并进行归一化操作，并利用

将三维层转化为二维视差图作为每级输出D _p为预测的视差图像P _d为归一化之后的三维概率；

4)损失函数

4.1)有监督损失：

其中：

D _g实际测量视差 D _p模型预测视差

4.2)无监督损失：

无监督部分的损失：

其中

和

为结构相似损失，

和

为光滑绝对误差；

4.2.1)结构相似损失：

其中，

μ _x和μ _y为图像X和Y的均值；σ _x和σ _y为图像X和Y的方差；σ _xy表示X和Y的协方差，

为输入左图像，

为合成的右图像；

4.2.2)光滑绝对误差：

光滑绝对误差的计算方式同有监督损失部分。

右图的损失部分与左图的计算方式一样，这里就不再赘述。

当不存在事先测量的视差数据时：无监督的方式训练模型。

当存在事先测量好的视差数据时：利用有监督的方式训练模型，在测试的时候，模型用无监督的方式进行10次在线训练如果训练和测试是在不同场景中则将在线训练的次数增加到30次。本发明模型可以在没有雷达数据的情况下进行学习，并且当模型迁移到其它场景中时可以通过在线学习的方式在短时间内提高表现。

以上所述仅为本发明的实施例，并非以此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的系统领域，均同理包括在本发明的专利保护范围内。

Claims

一种具有自我提升能力的金字塔双目深度估计模型，其特征在于，包括以下步骤：

1)搭建空间金字塔模块；

2)进行代价整合；

3)多层回归输出；

4)计算损失函数。
根据权利要求1所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤1)中搭建空间金字塔模块，具体为：

空间金字塔模块采用四种尺寸：8*8、16*16、32*32、64*64池化层，每个池化层后紧随卷积层和激活层；将所有特征都上采样为同一尺寸w/4*h/4，并将这些特征在通道的维度上融合在一起，融合后的特征作为下一层的输入；其中，w为输入图像的宽，h为输入图像的高。
根据权利要求2所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤2)中进行代价整合，具体为：

将左右图像各生成的特征在每个视差值上进行滑动融合，得到特征数为w/4*h/4*d/4*的三维特征模块。
根据权利要求3所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤3)中，

编码阶段进行步长为1、2、1的卷积操作，解码阶段进行2次步长为2的反卷积操作；每组编码解码模块的输出上采样为w*h*d，并进行归一化操作，并利用

将三维层转化为二维视差图作为每级输出D _p为预测的视差图像P _d为归一化之后的三维概率。
根据权利要求4所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤4)中，计算损失函数包括两种情况：

4.1)有监督损失；

4.2)无监督损失。
根据权利要求5所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤4.1)中，

有监督部分损失被定义为预测视差与实际测量视差的光滑绝对误差，具体如下：

其中：D _g实际测量视差，D _p模型预测视差，
根据权利要求6所述的一种具有自我提升能力的金字塔双目深度估计模型，其特征在于：步骤4.2)中，

无监督部分的损失：

其中
和
为结构相似损失，
和
为光滑绝对误差；

4.2.1)结构相似损失：

其中，

μ _x和μ _y为图像X和Y的均值，σ _x和σ _y为图像X和Y的方差，σ _xy表示X和Y的协方差，
为输入左图像，
为合成的右图像；

4.2.2)光滑绝对误差：

光滑绝对误差的计算方式同有监督损失部分。