WO2021164269A1

WO2021164269A1 - 基于注意力机制的视差图获取方法和装置

Info

Publication number: WO2021164269A1
Application number: PCT/CN2020/119379
Authority: WO
Inventors: 周宸; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-02-18
Filing date: 2020-09-30
Publication date: 2021-08-26
Also published as: CN111340077B; CN111340077A

Abstract

本申请公开了一种基于注意力机制的视差图获取方法、装置、计算机设备及存储介质，涉及人工智能技术领域。该基于注意力机制的视差图获取方法包括：获取左原图和右原图；采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵；采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵；根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；根据所述目标匹配代价矩阵得到视差图。采用该基于注意力机制的视差图获取方法能够得到准确度较高的视差图。

Description

基于注意力机制的视差图获取方法和装置

[根据细则91更正 26.10.2020]　
本申请要求于2020年02月18日提交中国专利局、申请号为202010097878.7，发明名称为“基于注意力机制的视差图获取方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于注意力机制的视差图获取方法和装置。

背景技术

视差是指从有一定距离的两个点上观察同一个目标所产生的方向差异。目前，发明人意识到，当具有视差关系的图像对上存在仿射畸变、辐射畸变的情况，或者受遮挡、弱纹理、重复纹理、反射表面等病态区域时，计算视差值时的精确度较低，无法得到准确度较高的视差图。

技术问题

有鉴于此，本申请实施例提供了一种基于注意力机制的视差图获取方法、装置、计算机设备及存储介质，用以解决目前在具有视差关系的图像对上存在仿射畸变、辐射畸变或病态区域时，无法得到准确度较高的视差图的问题。

技术解决方案

第一方面，本申请实施例提供了一种基于注意力机制的视差图获取方法，包括：

获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

根据所述目标匹配代价矩阵得到视差图。

第二方面，本申请实施例提供了一种基于注意力机制的视差图获取装置，包括：

原图获取模块，用于获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

特征提取模块，用于采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

过滤模块，用于采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

匹配代价矩阵获取模块，用于根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

目标匹配代价矩阵获取模块，用于将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

视差图获取模块，用于根据所述目标匹配代价矩阵得到视差图。

第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种基于注意力机制的视差图获取方法的步骤：

根据所述目标匹配代价矩阵得到视差图。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括：计算机程序，所述计算机程序被处理器执行时实现一种基于注意力机制的视差图获取方法的步骤：

根据所述目标匹配代价矩阵得到视差图。

有益效果

在本申请实施例中，首先获取具有视差关系的左原图和右原图；然后采用预先训练的特征提取模型对左原图和右原图进行特征提取，并在特征提取后采用注意力机制模块过滤左原图特征矩阵和右原图特征矩阵，采用该注意力机制能够过滤掉左原图特征矩阵和右原图特征矩阵中包含的无用信息以及负面信息，从而帮助提高视差图的准确度；接着根据过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵，该匹配代价矩阵能够代表左原图和右原图之间每两个像素点之间的相似性，两个点越相似，可能为左原图和右原图之间的对应点的概率越大，在采用注意力机制进行特征选择时，能够帮助得到更准确的匹配代价矩阵，从而帮助提高视差图的准确度；最后将匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵，并根据目标匹配代价矩阵得到视差图。本实施例中，通过采用注意力机制对左原图特征矩阵和右原图特征矩阵进行特征选择，过滤掉特征矩阵中包含的无用信息以及负面信息，从而提高视差图的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本申请一实施例中基于注意力机制的视差图获取方法的一流程图；

图2是本申请一实施例中基于注意力机制的视差图获取装置的原理框图；

图3是本申请一实施例中计算机设备的一示意图。

本发明的最佳实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述预设范围等，但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一预设范围也可以被称为第二预设范围，类似地，第二预设范围也可以被称为第一预设范围。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

图1示出本实施例中基于注意力机制的视差图获取方法的一流程图。该基于注意力机制的视差图获取方法可应用在视差图获取系统上，在对具有视差关系的图像对获取视差图时可采用该视差图获取方法实现。该视差图获取系统具体可应用在计算机设备上，其中，该计算机设备是可与用户进行人机交互的设备，包括但不限于电脑、智能手机和平板等设备。如图1所示，该基于注意力机制的视差图获取方法包括：

S10：获取左原图和右原图，其中，左原图和右原图为具有视差关系的图像对。

视差是指从有一定距离的两个点上观察同一个目标所产生的方向差异。可以理解地，例如人在观察同一个目标时，人的左眼和右眼所观察的目标是有差别的，而这种差别称为视差。

在一实施例中，具体可以采用双目摄像头等设备获取左原图和右原图，由于双目摄像头不是从同一个点出发去拍摄图像，因此双目摄像头得到的图像，左原图和右原图存在视差关系。

S20：采用预先训练的特征提取模型从左原图提取得到左原图特征矩阵，以及从右原图提取得到右原图特征矩阵，其中，左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵。

进一步地，左原图高层特征矩阵是指在特征提取模型中第n层卷积层的输出，左原图低层特征矩阵是指在特征提取模型中第m层卷积层的输出，其中，0<m<n，右原图高层特征矩阵是指在特征提取模型中第q层卷积层的输出，右原图低层特征矩阵是指在特征提取模型中第p层卷积层的输出，其中，0<p<q。

其中，预先训练的特征提取模型包括卷积层，用于对输入的左原图和右原图进行特征矩阵的提取。可以理解地，在采用卷积神经网络进行特征提取时，神经网络包含的卷积层层数越多时，其提取的特征矩阵表示更深的图像特征。需要说明的是，本实施例中提及的低层特征矩阵和高层特征矩阵是一个相对的概念，低层特征矩阵表示采用较少的卷积层提取图像特征，高层特征矩阵表示采用较多的卷积层来提取图像特征，如左原图高层特征矩阵为在特征提取模型中第n层卷积层的输出，左原图低层特征矩阵为在特征提取模型中第m层卷积层的输出，其中，0<m<n。图像的低层特征矩阵和高层特征矩阵所表达的图像特征不同，一般来说，高层特征矩阵表达的图像特征更精简，低层特征矩阵虽然表达的图像特征中有部分无用的信息，但是仍保留着高层特征矩阵中所缺少的图像特征。低层特征矩阵中实际上仍然包括有价值的图像特征。

在一实施例中，m具体可以是5层，n具体可以是16层。p、q表示的层数可以分别与m、n相同，也可以不同，在此不作限定。

可以理解地，本实施例中对左原图和右原图进行的特征提取实际上分别进行了两次，提取了图像的低层特征矩阵和高层特征矩阵，为后续进行特征选择，提高特征矩阵表达能力提高了重要的基础。

S30：采用预设的注意力机制模块过滤左原图特征矩阵和右原图特征矩阵，其中，预设的注意力机制模块用于实现对左原图低层特征矩阵和左原图高层特征矩阵进行特征选择，以及对右原图低层特征矩阵和右原图高层特征矩阵进行特征选择。

其中，该注意力机制模块可看作是一个特征选择器或者特征过滤器，其将低层特征矩阵和高层特征矩阵进行结合处理，互相提高特征选择的注意力，低层特征矩阵和高层特征矩阵将一起进行比较并从中选出有效特征。

可以理解地，注意力机制模块可以采用多种方式实现，该注意力机制的重点是要将低层特征矩阵和高层特征矩阵进行结合处理，互相提高特征选择的注意力，因此注意力机制模块可采用不同的预设模型结构实现对左原图、右原图的低层特征矩阵和高层特征矩阵进行处理。

进一步地，可以采用以下的模型结构实现特征实现过滤左原图特征矩阵和右原图特征矩阵：

首先，注意力机制模块包括第一分支和第二分支。

在步骤S30中，采用预设的注意力机制模块过滤左原图特征矩阵和右原图特征矩阵中，具体包括对左原图特征矩阵进行过滤的步骤如下：

S31：将左原图高层特征矩阵输入到注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层。

其中，1×1卷积核的卷积层可用来调整左原图高层特征矩阵的尺寸，批规范层能够有效提高第一分支提取的准确性，非线性层具体可以采用Relu(Rectified Linear Unit,线性整流函数)实现，变换层可以采用sigmoid函数实现。通过该第一分支的提取，得到的左原图第一输出特征矩阵的矩阵元素的区间在(0,1)之间(由sigmoid函数实现)，此时实际上左原图第一输出特征矩阵是采用权重的方式表达图像特征，并且，采用该权重的方式表达图像特征的左原图第一输出特征矩阵(权重矩阵)还能够后续用于与左原图低层特征矩阵进行结合处理，从而提高特征选择的注意力。

S32：将左原图低层特征矩阵输入到注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，第二分支上包括采用1×1卷积核的卷积层。

其中，1×1卷积核的卷积层可用来调整左原图低层特征矩阵的尺寸，使其能够与左原图第一输出特征矩阵的尺寸相同，以便于进行后续的计算。

S33：将左原图第一输出特征矩阵和左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵。

可以理解地，左原图低层特征矩阵的尺寸和左原图综合输出特征矩阵的尺寸相同，则两者进行相乘时是按对应位置的元素进行相乘，从而得到左原图综合输出特征矩阵。

可以理解地，实际上该过程可以理解为给左原图低层特征矩阵作了矩阵中元素权重变化的处理，通过与左原图第一输出特征矩阵相乘，从而体现左原图高层特征矩阵的图像特征，将左原图高层特征矩阵与左原图低层特征矩阵作了初次结合，得到左原图综合输出特征矩阵。

S34：将左原图综合输出特征矩阵和左原图低层特征矩阵相加，得到过滤后的左原图特征矩阵。

可以理解地，左原图综合输出特征矩阵是在左原图低层特征矩阵的基础上乘以代表左原图高层的图像特征的权重矩阵得到的，主要体现的是左原图高层特征矩阵，在本实施例中将左原图综合输出特征矩阵和左原图低层特征矩阵相加，能够将左原图高层特征矩阵与左原图低层特征矩阵再进行一次结合，进一步提高特征选择的注意力。

需要说明的是，左原图综合输出特征矩阵是在左原图低层特征矩阵的基础上乘以代表左原图高层的图像特征的权重矩阵得到的，虽然主要体现的是左原图高层特征矩阵，但也是建立在左原图低层特征矩阵的基础上，因此能够使得在S34 中与左原图低层特征矩阵的相加得到的结果更加准确。

在步骤S31-S34中，提供了一种采用预设的注意力机制模块过滤左原图特征矩阵的具体实施例，通过将左原图高层特征矩阵和左原图低层特征矩阵进行两次结合，充分运用注意力机制，从而实现效果较好的过滤效果。

进一步地，注意力机制模块还可以采用其他的模型结构，例如，保留步骤S31-S34中的模型结构，增加另外一条与S31-S34中的模型结构并行且相同的结构，区别在于输入的数据正好与S31-S34的相反，最后将S34中输出的值和新增的结构中输出的值再进行一次相加，可以充分运用注意力机制，进一步提高过滤效果。

S40：根据过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵。

可以理解地，过滤后的左原图特征矩阵和过滤后的右原图特征矩阵代表的是左原图和右原图有效的图像特征，通过过滤后的左原图特征矩阵和过滤后的右原图特征矩阵得到的匹配代价矩阵具有较高的准确性。

在本实施例中，匹配代价矩阵是计算视差图所需的条件，代表了左原图和右原图之间每两个像素点之间的相似性。

进一步地，在步骤S40中，根据过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵，具体包括：

S41：采用预设的立体匹配算法确定最大视差范围。

其中，立体匹配算法是计算视差值的方法，采用匹配代价(最常见的三种匹配代价为绝对差值和(Sum of Absolute Differences，SAD)、截断绝对差值和(Sum of Truncated Absolute Differences，STAD)、差值平方和(Sum of squared Differences,SSD))计算视差值，从而确定最大视差范围。

S42：在最大视差范围内，级联过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵。

其中，级联是指矩阵进行拼接的操作，此时得到的匹配代价矩阵代表了左原图和右原图之间每两个像素点之间的相似性，当两个像素点越相似时，可能为对应像素点的概率越大。

具体地，在最大视差范围内，通过级联过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，可得到一个4维的匹配代价矩阵。若设左原图和右原图大小是W×H，左原图和右原图之间的最大视差为D，经过特征过滤后的维度为(H,W,c)，则经过级联操作后的尺寸为(H,W,2c)，最终获得的匹配代价矩阵的尺寸为(D+1,H,W,2c)。

在步骤S41-S42中，提供了一种得到匹配代价矩阵的具体实施例，通过级联操作得到的匹配代价矩阵保留了过滤后的左原图特征矩阵和过滤后的右原图特征矩阵的图像特征，能够保证匹配代价矩阵的准确性。

S50：将匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵。

具体地，匹配代价矩阵还可以再进行一次特征提取，具体可以是采用预先训练的卷积神经网络实现，能够进一步提高匹配代价矩阵的特征表达能力，得到目标匹配代价矩阵。

S60：根据目标匹配代价矩阵得到视差图。

进一步地，在步骤S60中，将匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵，具体包括：

S61：上采样目标匹配代价矩阵。

可以理解地，目标匹配代价矩阵的尺寸大小可能与左原图和右原图不相同，因此可采用上采样的方法使目标匹配代价矩阵的尺寸大小与左原图和右原图相同。

S62：基于上采样后的目标匹配代价矩阵进行回归计算，得到视差值的回归值，其中，视差值的回归值表示为

其中，Dmax表示最大视差值，d表示视差值，σ()表示softmax函数，c _d表示视差值的损失值，该损失值采用预设的损失函数得到。

具体地，可根据目标匹配代价矩阵，采用预设的立体匹配算法得到视差值，再对视差值进行回归计算，得到视差值的回归值。可以理解地，引入回归运算能够减少计算过程中的误差，进一步提高视差图获取的精确度。

S63：根据视差值的回归值得到视差图。

可以理解地，视差图可以是以左原图为基础得到的视差图，也可以是以右原图为基础得到的视差图，当左原图和右原图对应像素上的视差值的回归值确定时，即可确定并得到视差图。

进一步地，回归计算在训练阶段产生回归损失值，回归损失值采用smoothL1构建的匹配代价损失函数得到，其中，匹配代价损失函数表示为

N表示像素总数，d _i表示第i个视差值，

表示第i个视差值的回归值，其中，

应用到计算匹配代价损失函数中时x表示

其中，可以将整个获取视差图的系统看作一个模型，该模型中包括若干的神经网络，因此该模型也需要一个训练的过程，以使采用S10-S60步骤得到的视差图更加准确，具体地，回归计算在训练阶段产生回归损失值，因此可利用以上计算回归损失值的过程，根据回归损失值对训练阶段的网络参数进行更新。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于实施例中所提供的基于注意力机制的视差图获取方法，本申请实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

图2示出与实施例中基于注意力机制的视差图获取方法一一对应的基于注意力机制的视差图获取装置的原理框图。如图2所示，该基于注意力机制的视差图获取装置包括原图获取模块10、特征提取模块20、过滤模块30、匹配代价矩阵获取模块40、目标匹配代价矩阵获取模块50和视差图获取模块60。其中，原图获取模块10、特征提取模块20、过滤模块30、匹配代价矩阵获取模块40、目标匹配代价矩阵获取模块50和视差图获取模块60的实现功能与实施例中基于注意力机制的视差图获取方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

原图获取模块10，用于获取左原图和右原图，其中，左原图和右原图为具有视差关系的图像对。

特征提取模块20，用于采用预先训练的特征提取模型从左原图提取得到左原图特征矩阵，以及从右原图提取得到右原图特征矩阵，其中，左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵。

过滤模块30，用于采用预设的注意力机制模块过滤左原图特征矩阵和右原图特征矩阵，其中，预设的注意力机制模块用于实现对左原图低层特征矩阵和左原图高层特征矩阵进行特征选择，以及对右原图低层特征矩阵和右原图高层特征矩阵进行特征选择。

匹配代价矩阵获取模块40，用于根据过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵。

目标匹配代价矩阵获取模块50，用于将匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵。

视差图获取模块60，用于根据目标匹配代价矩阵得到视差图。

可选地，注意力机制模块包括第一分支和第二分支。

可选地，过滤模块包括：

第一获取单元，用于将左原图高层特征矩阵输入到注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层。

第二获取单元，用于将左原图低层特征矩阵输入到注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，第二分支上包括采用1×1卷积核的卷积层。

第三获取单元，用于将左原图第一输出特征矩阵和左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵。

可以理解地，实际上该过程可以理解为给左原图低层特征矩阵作了一次元素权重变化的处理，通过与左原图第一输出特征矩阵相乘，体现了左原图高层特征矩阵的图像特征，将左原图高层特征矩阵与左原图低层特征矩阵作了初次结合，得到左原图综合输出特征矩阵。

第四获取单元，用于将左原图综合输出特征矩阵和左原图低层特征矩阵相加，得到过滤后的左原图特征矩阵。

可选地，左原图高层特征矩阵是指在特征提取模型中第n层卷积层的输出，左原图低层特征矩阵是指在特征提取模型中第m层卷积层的输出，其中，0<m<n，右原图高层特征矩阵是指在特征提取模型中第q层卷积层的输出，右原图低层特征矩阵是指在特征提取模型中第p层卷积层的输出，其中，0<p<q。

可选地，匹配代价矩阵获取模块具体用于：

采用预设的立体匹配算法确定最大视差范围。

在最大视差范围内，级联过滤后的左原图特征矩阵和过滤后的右原图特征矩阵，得到匹配代价矩阵。

可选地，视差图获取模块具体用于：

上采样目标匹配代价矩阵；

基于上采样后的目标匹配代价矩阵进行回归计算，得到视差值的回归值，其中，视差值的回归值表示为

其中，Dmax表示最大视差值，d表示视差值，σ()表示softmax函数，c _d表示视差值的损失值，该损失值采用预设的损失函数得到；

根据视差值的回归值得到视差图。

可选地，回归计算在训练阶段产生回归损失值，回归损失值采用smoothL1构建的匹配代价损失函数得到，其中，匹配代价损失函数表示为

N表示像素总数，d _i表示第i个视差值，

表示第i个视差值的回归值，其中，

应用到计算匹配代价损失函数中时x表示

根据回归损失值对训练阶段的网络参数进行更新。

本实施例提供一计算机可读存储介质，上述存储介质可以是非易失性存储介质，也可以是易失性存储介质。该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例中基于注意力机制的视差图获取方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器执行时实现实施例中基于注意力机制的视差图获取装置中各模块/单元的功能，为避免重复，此处不一一赘述。

图3是本申请一实施例提供的计算机设备的示意图。如图3所示，该实施例的计算机设备70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序73，该计算机程序73被处理器71执行时实现实施例中基于注意力机制的视差图获取方法。或者，该计算机程序73被处理器71执行时实现实施例中与基于注意力机制的视差图获取方法一一对应的基于注意力机制的视差图获取装置中各模型/单元的功能。

计算机设备70可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备70可包括，但不仅限于，处理器71、存储器72。本领域技术人员可以理解，图3仅仅是计算机设备70的示例，并不构成对计算机设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器72可以是计算机设备70的内部存储单元，例如计算机设备70的硬盘或内存。存储器72也可以是计算机设备70的外部存储设备，例如计算机设备70上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器72还可以既包括计算机设备70的内部存储单元也包括外部存储设备。存储器72用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于注意力机制的视差图获取方法，其中，包括：

获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

根据所述目标匹配代价矩阵得到视差图。
根据权利要求1所述的方法，其中，所述左原图高层特征矩阵是指在所述特征提取模型中第n层卷积层的输出，所述左原图低层特征矩阵是指在所述特征提取模型中第m层卷积层的输出，其中，0<m<n，所述右原图高层特征矩阵是指在所述特征提取模型中第q层卷积层的输出，所述右原图低层特征矩阵是指在所述特征提取模型中第p层卷积层的输出，其中，0<p<q。
根据权利要求1所述的方法，其中，所述注意力机制模块包括第一分支和第二分支，所述采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵中，包括对所述左原图特征矩阵进行过滤的步骤如下：

将所述左原图高层特征矩阵输入到所述注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，所述第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层；

将所述左原图低层特征矩阵输入到所述注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，所述第二分支上包括采用1×1卷积核的卷积层；

将所述左原图第一输出特征矩阵和所述左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵；

将所述左原图综合输出特征矩阵和所述左原图低层特征矩阵相加，得到所述过滤后的左原图特征矩阵。
根据权利要求1所述的方法，其中，所述根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵，包括：

采用预设的立体匹配算法确定最大视差范围；

在所述最大视差范围内，级联过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到所述匹配代价矩阵。
根据权利要求1-4任意一项所述的方法，其中，所述根据所述目标匹配代价矩阵得到视差图，包括：

上采样所述目标匹配代价矩阵；

基于上采样后的所述目标匹配代价矩阵进行回归计算，得到视差值的回归值，其中，所述视差值的回归值表示为
其中，Dmax表示最大视差值，d表示视差值，σ()表示softmax函数，c _d表示视差值的损失值，该损失值采用预设的损失函数得到；

根据所述视差值的回归值得到视差图。
根据权利要求5所述的方法，其中，所述回归计算在训练阶段产生回归损失值，所述回归损失值采用smoothL1构建的匹配代价损失函数得到，其中，所述匹配代价损失函数表示为
N表示像素总数，d _i表示第i个视差值，
表示第i个视差值的回归值，其中，

应用到计算匹配代价损失函数中时所述x表示

根据所述回归损失值对训练阶段的网络参数进行更新。
一种基于注意力机制的视差图获取装置，其中，所述装置包括：

原图获取模块，用于获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

特征提取模块，用于采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

过滤模块，用于采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

匹配代价矩阵获取模块，用于根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

目标匹配代价矩阵获取模块，用于将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

视差图获取模块，用于根据所述目标匹配代价矩阵得到视差图。
根据权利要求7所述的装置，其中，所述注意力机制模块包括第一分支和第二分支，所述过滤模块包括：

第一获取单元，用于将所述左原图高层特征矩阵输入到所述注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，所述第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层；

第二获取单元，用于将所述左原图低层特征矩阵输入到所述注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，所述第二分支上包括采用1×1卷积核的卷积层；

第三获取单元，用于将所述左原图第一输出特征矩阵和所述左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵；

第四获取单元，用于将所述左原图综合输出特征矩阵和所述左原图低层特征矩阵相加，得到所述过滤后的左原图特征矩阵。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种基于注意力机制的视差图获取方法的步骤：

获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

根据所述目标匹配代价矩阵得到视差图。
根据权利要求9所述的计算机设备，其中，所述左原图高层特征矩阵是指在所述特征提取模型中第n层卷积层的输出，所述左原图低层特征矩阵是指在所述特征提取模型中第m层卷积层的输出，其中，0<m<n，所述右原图高层特征矩阵是指在所述特征提取模型中第q层卷积层的输出，所述右原图低层特征矩阵是指在所述特征提取模型中第p层卷积层的输出，其中，0<p<q。
根据权利要求9所述的计算机设备，其中，所述注意力机制模块包括第一分支和第二分支，所述采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵中，包括对所述左原图特征矩阵进行过滤的步骤如下：

将所述左原图高层特征矩阵输入到所述注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，所述第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层；

将所述左原图低层特征矩阵输入到所述注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，所述第二分支上包括采用1×1卷积核的卷积层；

将所述左原图第一输出特征矩阵和所述左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵；

将所述左原图综合输出特征矩阵和所述左原图低层特征矩阵相加，得到所述过滤后的左原图特征矩阵。
根据权利要求9所述的计算机设备，其中，所述根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵，包括：

采用预设的立体匹配算法确定最大视差范围；

在所述最大视差范围内，级联过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到所述匹配代价矩阵。
根据权利要求9-12任意一项所述的计算机设备，其中，所述根据所述目标匹配代价矩阵得到视差图，包括：

上采样所述目标匹配代价矩阵；

基于上采样后的所述目标匹配代价矩阵进行回归计算，得到视差值的回归值，其中，所述视差值的回归值表示为
其中，Dmax表示最大视差值，d表示视差值，σ()表示softmax函数，c _d表示视差值的损失值，该损失值采用预设的损失函数得到；

根据所述视差值的回归值得到视差图。
根据权利要求13所述的计算机设备，其中，所述回归计算在训练阶段产生回归损失值，所述回归损失值采用smoothL1构建的匹配代价损失函数得到，其中，所述匹配代价损失函数表示为
N表示像素总数，d _i表示第i个视差值，
表示第i个视差值的回归值，其中，
应用到计算匹配代价损失函数中时所述x表示

根据所述回归损失值对训练阶段的网络参数进行更新。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种基于注意力机制的视差图获取方法的步骤：

获取左原图和右原图，其中，所述左原图和所述右原图为具有视差关系的图像对；

采用预先训练的特征提取模型从所述左原图提取得到左原图特征矩阵，以及从所述右原图提取得到右原图特征矩阵，其中，所述左原图特征包括左原图低层特征矩阵和左原图高层特征矩阵，所述右原图特征包括右原图低层特征矩阵和右原图高层特征矩阵；

采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵，其中，所述预设的注意力机制模块用于实现对所述左原图低层特征矩阵和所述左原图高层特征矩阵进行特征选择，以及对所述右原图低层特征矩阵和所述右原图高层特征矩阵进行特征选择；

根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵；

将所述匹配代价矩阵输入到预先训练的卷积神经网络中，得到目标匹配代价矩阵；

根据所述目标匹配代价矩阵得到视差图。
根据权利要求15所述的计算机可读存储介质，其中，所述左原图高层特征矩阵是指在所述特征提取模型中第n层卷积层的输出，所述左原图低层特征矩阵是指在所述特征提取模型中第m层卷积层的输出，其中，0<m<n，所述右原图高层特征矩阵是指在所述特征提取模型中第q层卷积层的输出，所述右原图低层特征矩阵是指在所述特征提取模型中第p层卷积层的输出，其中，0<p<q。
根据权利要求15所述的计算机可读存储介质，其中，所述注意力机制模块包括第一分支和第二分支，所述采用预设的注意力机制模块过滤所述左原图特征矩阵和所述右原图特征矩阵中，包括对所述左原图特征矩阵进行过滤的步骤如下：

将所述左原图高层特征矩阵输入到所述注意力机制模块的第一分支上，得到左原图第一输出特征矩阵，其中，所述第一分支上包括采用1×1卷积核的卷积层、批规范层、非线性层和变换层；

将所述左原图低层特征矩阵输入到所述注意力机制模块的第二分支上，得到左原图第二输出特征矩阵，其中，所述第二分支上包括采用1×1卷积核的卷积层；

将所述左原图第一输出特征矩阵和所述左原图第二输出特征矩阵在对应元素上进行相乘，得到左原图综合输出特征矩阵；

将所述左原图综合输出特征矩阵和所述左原图低层特征矩阵相加，得到所述过滤后的左原图特征矩阵。
根据权利要求15所述的计算机可读存储介质，其中，所述根据过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到匹配代价矩阵，包括：

采用预设的立体匹配算法确定最大视差范围；

在所述最大视差范围内，级联过滤后的所述左原图特征矩阵和过滤后的所述右原图特征矩阵，得到所述匹配代价矩阵。
根据权利要求15-18任意一项所述的计算机可读存储介质，其中，所述根据所述目标匹配代价矩阵得到视差图，包括：

上采样所述目标匹配代价矩阵；

基于上采样后的所述目标匹配代价矩阵进行回归计算，得到视差值的回归值，其中，所述视差值的回归值表示为
其中，Dmax表示最大视差值，d表示视差值，σ()表示softmax函数，c _d表示视差值的损失值，该损失值采用预设的损失函数得到；

根据所述视差值的回归值得到视差图。
根据权利要求19所述的计算机可读存储介质，其中，所述回归计算在训练阶段产生回归损失值，所述回归损失值采用smoothL1构建的匹配代价损失函数得到，其中，所述匹配代价损失函数表示为

N表示像素总数，d _i表示第i个视差值，
表示第i个视差值的回归值，其中，
应用到计算匹配代价损失函数中时所述x表示

根据所述回归损失值对训练阶段的网络参数进行更新。