WO2020168716A1

WO2020168716A1 - 双目匹配方法及装置、设备和存储介质

Info

Publication number: WO2020168716A1
Application number: PCT/CN2019/108314
Authority: WO
Inventors: 郭晓阳; 杨凯; 杨武魁; 李鸿升; 王晓刚
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2019-02-19
Filing date: 2019-09-26
Publication date: 2020-08-27
Also published as: US20210042954A1; JP7153091B2; SG11202011008XA; CN109887019B; JP2021526683A; CN109887019A; KR20200136996A

Abstract

一种双目匹配方法、双目匹配装置、计算机设备和存储介质，所述方法包括：获取待处理的图像，其中，所述图像为包括左图和右图的2D图像（S101）；利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征（S102）；利用所述3D匹配代价特征，确定所述图像的深度（S103）。

Description

双目匹配方法及装置、设备和存储介质

相关申请的交叉引用

本申请要求在2019年02月19提交中国专利局、申请号为201910127860.4、申请名称为“一种双目匹配方法及装置、设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉领域，涉及但不限于一种双目匹配方法及装置、设备和存储介质。

背景技术

双目匹配是一种从一对不同角度拍摄的图片中恢复深度的技术，通常每对图片通过一对左右或者上下放置的相机获得。为了简化问题，会对从不同摄像机拍摄的图片进行校正，使得当左右放置相机时对应像素位于同一水平线，或者上下放置相机时对应像素位于同一竖直线。此时问题变成了估计对应匹配像素的距离(又称为视差)。通过视差，相机的焦距与两个相机中心的距离，即可计算深度。目前双目匹配可以大致分为两种方法，基于传统匹配代价的算法，以及基于深度学习的算法。

发明内容

本申请实施例提供一种双目匹配方法及装置、设备和存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种双目匹配方法，所述方法包括：获取待处理的图像，其中，所述图像为包括左图和右图的2D(2 Dimensions，二维)图像；利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D(3 Dimensions，三维)匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；利用所述3D匹配代价特征，确定所述图像的深度。

第二方面，本申请实施例提供一种双目匹配网络的训练方法，所述方法包括：利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；根据所述3D匹配代价特征，利用所述双目匹配网络确定样本图像的预测视差；将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；利用所述损失函数对所述双目匹配网络进行训练。

第三方面，本申请实施例提供一种双目匹配装置，所述装置包括：获取单元，配置为获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；构建单元，配置为利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；确定单元，配置为利用所述3D匹配代价特征，确定所述图像的深度。

第四方面，本申请实施例提供一种双目匹配网络的训练装置，所述装置包括：特征提取单元，配置为利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；视差预测单元，配置为利用所述双目匹配网络根据所述3D匹配代价特征，确定样本图像的预测视差；比较单元，配置为将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；训练单元，配置为利用所述损失函数对所述双目匹配网络进行训练。

第五方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述双目匹配方法中的步骤，或，实现如上所述双目匹配网络的训练方法中的步骤。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述双目匹配方法中的步骤，或，实现如上所述双目匹配网络的训练方法中的步骤。

本申请实施例提供一种双目匹配方法及装置、设备和存储介质。通过获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；利用所述3D匹配代价特征，确定所述图像的深度，如此，能够提高双目匹配的准确度并降低网络的计算需求。

附图说明

图1A为本申请实施例双目匹配方法的实现流程示意图一；

图1B为本申请实施例待处理的图像深度估计示意图；

图2A为本申请实施例双目匹配方法的实现流程示意图二；

图2B为本申请实施例双目匹配方法的实现流程示意图三；

图3A为本申请实施例双目匹配网络的训练方法的实现流程示意图；

图3B为本申请实施例分组互相关特征示意图；

图3C为本申请实施例连接特征示意图；

图4A为本申请实施例双目匹配方法的实现流程示意图四；

图4B为本申请实施例双目匹配网络模型示意图；

图4C为本申请实施例双目匹配方法和现有技术双目匹配方法的实验结果对比图；

图5为本申请实施例双目匹配装置的组成结构示意图；

图6为本申请实施例双目匹配网络的训练装置的组成结构示意图；

图7为本申请实施例计算机设备的一种硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对申请的具体技术方案做进一步详细描述。以下实施例仅用于说明本申请，不用于限制本申请的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例使用分组互相关匹配代价特征提高双目匹配的准确度并降低网络的计算需求。下面结合附图和实施例对本申请的技术方案进一步详细阐述。

本申请实施例提供一种双目匹配方法，该方法应用于计算机设备，该方法所实现的功能可以通过服务器中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该服务器至少包括处理器和存储介质。图1A为本申请实施例双目匹配方法的实现流程示意图一，如图1A所示，所述方法包括：

步骤S101、获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

这里，所述计算机设备可以是终端，所述待处理图像，可以包含任意场景的图片。并且，所述待处理的图像，一般是包括左图和右图的双目图片，是一对不同角度拍摄的图片，通常每对图片通过一对左右或者上下放置的相机获得。

一般来说，所述终端在实施的过程中可以为各种类型的具有信息处理能力的设备，例如所述移动终端可以包括手机、PDA(Personal Digital Assistant，个人数字助理)、导航仪、数字电话、视频电话、智能手表、智能手环、可穿戴设备、平板电脑等。服务器在实现的过程中可以是移动终端如手机、平板电脑、笔记本电脑，固定终端如个人计算机和服务器集群等具有信息处理能力的计算机设备。

步骤S102、利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

这里，当所述3D匹配代价特征可以包括分组互相关特征，也可以包括分组互相关特征与连接特征拼接后的特征，并且，无论使用上述哪两种特征构成3D匹配代价特征，都能得到非常精准的视差预测结果。

步骤S103、利用所述3D匹配代价特征，确定所述图像的深度；

这里，可以通过所述3D匹配代价特征，确定每个左图中像素可能的视差的概率，也就是说，通过所述3D匹配代价特征，确定左图上像素点的特征和右图对应像素点的特征的匹配程度。即通过左特征图上一个点的特征去需找它在右特征图上所有可能的位置，然后分别将右特征图上每个可能的位置的特征和左图所述点的特征结合，进行分类，得到右特征图上每个可能的位置是所述点在右图上的对应点的概率。

这里，确定图像的深度，指的是确定左图的点在右图对应的点，并且确定他们之间的横向像素距离(当相机为左右放置时)。当然，也可以是确定右图的点在左图的对应点，本申请并不做限制。

本申请实例中，所述步骤S102至步骤S103，可以通过训练得到的双目匹配网络实现，其中，所述双目匹配网络包括但不限于：CNN(Convolutional Neural Networks，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)和RNN(Recurrent Neural Network，循环神经网络)等。当然，所述双目匹配网络可以包含所述CNN、DNN和RNN等网络中的一种网络，也可以包含所述CNN、DNN和RNN等网络中的至少两种网络。

图1B为本申请实施例待处理的图像深度估计示意图，如图1B所示，图片11为待处理的图像中的左图，图片12为待处理的图像中的右图，图片13为图片11根据所述图片12确定出的视差图，即图片11对应的视差图，根据所述视差图，即可获取图片11对应的深度图。

本申请实施例中，通过获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；利用所述3D匹配代价特征，确定所述图像的深度，如此，能够提高双目匹配的准确度并降低网络的计算需求。

基于上述的方法实施例，本申请实施例再提供一种双目匹配方法，图2A为本申请实施例双目匹配方法的实现流程示意图二，如图2A所示，所述方法包括：

步骤S201、获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

步骤S202、利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征；

本申请实施例中，所述步骤S202、利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征，可以通过以下步骤实现：

步骤S2021、将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果；

步骤S2022、将所述互相关结果进行拼接，得到分组互相关特征。

其中，所述步骤S2021、将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果，可以通过以下步骤实现：

步骤S2021a、将提取的所述左图的特征进行分组，形成第一预设数量的第一特征组；

步骤S2021b、将提取的所述右图的特征进行分组，形成第二预设数量的第二特征组，所述第一预设数量与所述第二预设数量相同；

步骤S2021c、确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果；其中，g为大于等于1小于等于第一预设数量的自然数；所述不同视差包括：零视差、最大视差和零视差与最大视差之间的任一视差，所述最大视差为待处理的图像对应的使用场景下的最大视差。

这里，可以将左图的特征分成多个特征组，将右图的特征也分成多个特征组，确定左图的多个特征组中的某一特征组和右图对应的特征组在不同视差下的互相关结果。所述分组互相关，指的是分别得到左右图的特征后，对左图的特征进行分组(同右组)，然后对应的组进行互相关计算(计算他们的相关性)。

在一些实施例中，所述确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果，包括：利用公式

确定第g组第一特征组与第g组第二特征组在不同视差d下的互相关结果；其中，所述N _c表示所述左图的特征或所述右图的特征的通道数，所述N _g表示第一预设数量或第二预设数量，所述f _l ^g表示所述第一特征组中的特征，所述f _r ^g表示所述第二特征组中的特征，所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标，所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标。

步骤S203、将所述分组互相关特征，确定为3D匹配代价特征；

这里，对于某个像素点，通过提取出所述像素点在0至D _max视差下的3D匹配特征，确定每个可能视差的概率，将所述概率进行加权平均，就可以得到图像的视差，其中，所述D _max表示待处理的图像对应的使用场景下的最大视差。也可以将可能视差中概率最大的视差，确定为图像的视差。

步骤S204、利用所述3D匹配代价特征，确定所述图像的深度。

本申请实施例中，通过获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征；将所述分组互相关特征，确定为3D匹配代价特征；利用所述3D匹配代价特征，确定所述图像的深度，如此，能够提高双目匹配的准确度并降低网络的计算需求。

基于上述的方法实施例，本申请实施例再提供一种双目匹配方法，图2B为本申请实施例双目匹配方法的实现流程示意图三，如图2B所示，所述方法包括：

步骤S211、获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

步骤S212、利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征和连接特征；

本申请实施例中，所述步骤S212、利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征的实现方法，与所述步骤S202的实现方法相同，在此不做赘述。

步骤S213、将所述分组互相关特征与所述连接特征进行拼接后的特征，确定为3D匹配代价特征；

其中，所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。

这里，可以将分组互相关特征和连接特征在特征维度上进行拼接，得到3D匹配代价特征。3D匹配代价特征相当于对每种可能的视差都得到一个特征。比如最大视差是D _max，那么对可能的视差0，1，……，D _max-1都得到相应的2D特征，再拼起来就是3D特征。

在一些实施例中，可以利用公式C _d(x,y)＝Concat(f _l(x,y),f _r(x+d,y))，确定左图的特征和右图的特征对每种可能的视差d的拼接结果，得到D _max个拼接图；其中，所述f _l表示所述左图的特征，所述f _r表示所述右图的特征，所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标，所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标，所述Concat表示对两个特征进行拼接；然后，将所述D _max个拼接图进行拼接，得到连接特征。

步骤S214、利用所述3D匹配代价特征，确定所述图像的深度。

本申请实施例中，通过获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征和连接特征；将所述分组互相关特征与所述连接特征进行拼接后的特征，确定为3D匹配代价特征；利用所述3D匹配代价特征，确定所述图像的深度，如此，能够提高双目匹配的准确度并降低网络的计算需求。

基于上述的方法实施例，本申请实施例再提供一种双目匹配方法，所述方法包括：

步骤S221、获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

步骤S222、利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征；

本申请实施例中，所述全卷积神经网络是双目匹配网络中的一个组成部分。在所述双目匹配网络中，可以利用一个全卷积神经网络提取待处理图像的2D特征。

步骤S223、利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

步骤S224、使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率；

本申请实施例中，所述步骤S224可以由一个分类的神经网络实现，所述分类的神经网络也是双目匹配网络中的一个组成部分，用于确定每一像素点对应的不同视差的概率。

步骤S225、确定所述每一像素点对应的不同视差的概率的加权平均值；

在一些实施例中，可以利用公式

确定获取的每一像素点对应的不同视差d的概率的加权平均值；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为待处理的图像对应的使用场景下的最大视差，所述p _d表示所述视差d对应的概率。

步骤S226、将所述加权平均值确定为所述像素点的视差；

步骤S227、根据所述像素点的视差，确定所述像素点的深度。

在一些实施例中，所述方法还包括：利用公式

确定获取的像素点的视差

对应的深度信息D；其中，所述F表示拍摄样本的摄像机的镜头焦距，所述L表示拍摄样本的摄像机的镜头基线距离。

基于上述的方法实施例，本申请实施例提供一种双目匹配网络的训练方法，图3A为本申请实施例双目匹配网络的训练方法的实现流程示意图，如图3A所示，所述方法包括：

步骤S301、利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

步骤S302、根据所述3D匹配代价特征，利用所述双目匹配网络确定样本图像的预测视差；

步骤S303、将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

这里，可以通过得到的损失函数对所述双目匹配网络中的参数进行更新，更新参数后的双目匹配网络能够预测出更好的效果。

步骤S304、利用所述损失函数对所述双目匹配网络进行训练。

基于上述的方法实施例，本申请实施例再提供一种双目匹配网络的训练方法，所述方法包括：

步骤S311、利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

本申请实施例中，所述步骤S311、利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征，可以通过以下步骤实现：

步骤S3111、利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征；

这里，所述全卷积神经网络为共享参数的全卷积神经网络；对应地，所述利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，包括：利用双目匹配网络中的共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，其中，所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。

举例来说，样本的尺寸为1200*400像素，则所述2D特征的尺寸在所述样本的尺寸的四分之一，即300*100像素。当然，所述2D特征的尺寸也可以是其他的尺寸，本申请实施例对此不做限制。

本申请实施例中，所述全卷积神经网络是双目匹配网络中的一个组成部分。在所述双目匹配网络中，可以利用一个全卷积神经网络提取样本图像的2D特征。

步骤S3112、确定用于进行2D特征拼接的卷积层的标识；

这里，所述确定用于进行2D特征拼接的卷积层的标识，包括：当第i卷积层的间隔率发生变化时，将所述第i卷积层确定为用于进行2D特征拼接的卷积层，其中，i为大于等于1的自然数。

步骤S3113、根据所述标识，将所述左图中不同卷积层的2D特征在特征维度上进行拼接，得到第一2D拼接特征；

举例来说，有多层级的特征分别是64维度、128维度和128维度(这里的维度指的是通道数目)，则连接起来就是一个320维的特征图。

步骤S3114、根据所述标识，将所述右图中不同卷积层的2D特征在特征维度上进行拼接，得到第二2D拼接特征。

步骤S312、利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征；

步骤S313、利用所述双目匹配网络根据所述3D匹配代价特征，确定样本图像的预测视差；

步骤S314、将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

步骤S315、利用所述损失函数对所述双目匹配网络进行训练。

步骤S321、利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

步骤S322、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

本申请实施例中，所述步骤S322、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征，可以通过以下步骤实现：

步骤S3221、将获取的第一2D拼接特征分成N _g组，得到N _g个第一特征组；

步骤S3222、将获取的第二2D拼接特征分成N _g组，得到N _g个第二特征组，N _g为大于等于1的自然数；

步骤S3223、确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

本申请实施例中，所述确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图，包括：确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图，其中，g为大于等于1小于等于N _g的自然数；确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图。

这里，所述确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图，包括：利用公式

确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图；其中，所述N _c表示所述第一2D拼接特征或所述第二2D拼接特征的通道数，所述f _l ^g表示所述第一特征组中的特征，所述f _r ^g表示所述第二特征组中的特征，所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标，所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标。

步骤S3224、将所述N _g*D _max个互相关图在特征维度上进行拼接，得到分组互相关特征。

这里，所述使用场景有很多，例如，驾驶场景、室内机器人场景和手机双摄场景等等。

步骤S323、将所述分组互相关特征，确定为3D匹配代价特征；

图3B为本申请实施例分组互相关特征示意图，如图3B所示，对左图的第一2D拼接特征进行分组，得到多个左图分组后的特征组31。对右图的第二2D拼接特征进行分组，得到多个右图分组后的特征组32。所述第一2D拼接特征或所述第二2D拼接特征的形状均为[C,H,W]，其中，C为拼接特征的通道数，H为拼接特征的高，W为拼接特征的宽。则左图或右图对应的每个特征组的通道数为C/N _g，所述N _g为分组的个数。将左图和右图对应的特征组进行互相关计算，计算每个对应的特征组在视差0，1，……，D _max-1下的互相关性，可以得到N _g*D _max个互相关图33，所述单个互相关图33的形状为[N _g,H,W]，将所述N _g*D _max个互相关图33在特征维度上进行拼接，可以得到分组互相关特征，然后将所述分组互相关特征作为3D匹配代价特征，所述3D匹配代价特征的形状为[N _g,D _max,H,W]，即所述分组互相关特征的形状为[N _g,D _max,H,W]。

步骤S324、根据所述3D匹配代价特征，利用所述双目匹配网络确定样本图像的预测视差；

步骤S325、将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

步骤S326、利用所述损失函数对所述双目匹配网络进行训练。

步骤S331、利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

步骤S332、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

本申请实施例中，所述步骤S332、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征的实现方法，与所述步骤S322的实现方法相同，在此不做赘述。

步骤S333、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征；

本申请实施例中，所述步骤S333、利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征，可以通过以下步骤实现：

步骤S3331、确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果，得到D _max个拼接图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

步骤S3332、将所述D _max个拼接图进行拼接，得到连接特征。

在一些实施例中，可以利用公式C _d(x,y)＝Concat(f _l(x,y),f _r(x+d,y))，确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果，得到D _max个拼接图；其中，所述f _l表示所述第一2D拼接特征中的特征，所述f _r表示所述第二2D拼接特征中的特征，所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标，所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标，所述Concat表示对两个特征进行拼接。

图3C为本申请实施例连接特征示意图，如图3C所示，将左图对应的第一2D拼接特征35和右图对应的第二2D拼接特征36在不同的视差0，1，……，D _max-1下进行连接，得到D _max个拼接图37，将所述D _max个拼接图37进行拼接，得到连接特征。其中，所述2D拼接特征的形状为[C,H,W]，所述单个拼接图37的形状为[2C,H,W]，所述连接特征的形状为[2C,D _max,H,W]，所述C为2D拼接特征的通道数，所述D _max为左图或右图对应的使用场景下的最大视差，所述H为左图或右图的高，所述W为左图或右图的宽。

步骤S334、将所述分组互相关特征和所述连接特征在特征维度上进行拼接，得到3D匹配代价特征；

举例来说，所述分组互相关特征的形状为[N _g,D _max,H,W]，所述连接特征的形状为[2C,D _max,H,W]，则所述3D匹配代价特征的形状为[N _g+2C,D _max,H,W]。

步骤S335、利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合；

这里，所述利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合，包括：使用所述双目匹配网络中的3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。

本申请实施例中，所述步骤S335可以由一个分类的神经网络实现，所述分类的神经网络也是双目匹配网络中的一个组成部分，用于确定每一像素点对应的不同视差d的概率。

步骤S336、对聚合后的结果进行视差回归，得到样本图像的预测视差；

这里，所述对聚合后的结果进行视差回归，得到样本图像的预测视差，包括：将所述每一像素点对应的不同视差d的概率的加权平均值，确定为所述像素点的预测视差，以得到样本图像的预测视差；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。

在一些实施例中，可以利用公式

确定获取的每一像素点对应的不同视差d的概率的加权平均值；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差，所述p _d表示所述视差d对应的概率。

步骤S337、将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

步骤S338、利用所述损失函数对所述双目匹配网络进行训练。

基于上述的方法实施例，本申请实施例再提供一种双目匹配方法，图4A为本申请实施例双目匹配方法的实现流程示意图四，如图4A所示，所述方法包括：

步骤S401、提取2D拼接特征；

步骤S402、利用所述2D拼接特征，构建3D匹配代价特征；

步骤S403、利用聚合网络对所述3D匹配代价特征进行处理；

步骤S404、对处理后的结果，进行视差回归。

图4B为本申请实施例双目匹配网络模型示意图，如图4B所示，所述双目匹配网络模型大致可以分为四个部分，2D拼接特征提取模块41，3D匹配代价特征构建模块42，聚合网络模块43和视差回归模块44。所述图片46和图片47分别为样本数据中的左图和右图。所述2D拼接特征提取模块41，配置为对左右图片使用共享参数(包括权值共享)的全卷积神经网络提取1/4相比原图大小的2D特征，不同层的特征图被连接成一个大的特征图。所述3D匹配代价特征构建模块42，配置为获取连接特征和分组互相关特征，并利用所述连接特征和分组互相关特征对所有可能的视差d构建特征图，形成3D匹配代价特征；其中，所述所有可能的视差d包括零视差到最大视差中的所有视差，最大视差指的是左图或右图对应的使用场景下的最大视差。所述聚合网络模块43，配置为使用3D神经网络来估计对所有可能的视差d的概率。所述视差回归模块44，配置为使用所有视差的概率得到最终的视差图45。

本申请实施例中，提出了基于分组互相关操作的3D匹配代价特征来替代旧的3D匹配代价特征。首先将得到的2D拼接特征分组分成N _g组，选取左右图对应的第g组特征组(比如g＝1时选取第1组左图特征和第1组右图特征)，计算它们对于视差d的互相关结果。对于每个特征组g(0<＝g<N _g)，每个可能的视差d(0<＝d<D _max)，可以得到一种N _g*D _max个互相关图。将这些结果连接合并即可得到形状为[N _g,D _max,H,W]的分组互相关特征。其中N _g，D _max，H和W分别为特征组数量，对于特征图的最大视差，特征高和特征宽。

然后，将所述分组互相关特征和连接特征结合，作为3D匹配代价特征，以达到更好的效果。

本申请提出了一种新的双目匹配网络，此匹配网络基于分组互相关匹配代价特征以及改进的3D堆叠沙漏网络，能够在限制3D聚合网络计算代价的同时提高匹配精度。其中，分组互相关匹配代价特征使用高维度特征直接构建，能够得到更好的表征特征。

本申请提出的基于分组互相关的网络结构由四个部分组成，2D特征提取，构建3D匹配代价特征，3D聚合和视差回归。

第一步是2D特征提取，其中采用了类似金字塔立体匹配网络的网络，然后将提取的第2、3、4卷积层的最终特征进行连接，形成一个320通道的2D特征图。

3D匹配代价特征由两部分组成：连接特征和基于分组的互相关特征。所述连接特征与金字塔立体匹配网络中的相同，只是相比金字塔立体匹配网络来说有更少的通道数。提取出的2D特征首先通过卷积压缩成12个通道，然后对每种可能的视差进行左右特征的视差连接。将所述连接特征和基于分组互相关特征拼接后，作为3D聚合网络的输入。

3D聚合网络用于聚合从相邻视差和像素预测匹配代价得到的特征。它是由一个预沙漏模块和三个堆叠的3D沙漏网络形成的，以规范卷积特征。

预沙漏模块和三个堆叠的3D沙漏网络连接到输出模块。对于每一个输出模块，采用两个3D卷积输出一个通道的3D卷积特征，然后对该3D卷积特征进行上采样并通过softmax函数沿着视差维度转换为概率。

左图的2D特征和右图的2D特征用f _l和f _r表示，用N _c表示通道，2D特征的大小为原始图像的1/4。现有技术中，左右特征在不同的差异层被连接以形成不同的匹配代价，但是匹配度量需要使用3D聚合网络进行学习，并且，在连接之前为了节省内存特征需要被压缩至很小的通道。但是，这种压缩特征的表示可能会丢失信息。为了解决了上述问题，本申请实施例提出了基于分组互相关，利用了传统的匹配度量，建立匹配代价特征。

基于分组互相关的基本思想是将2D特征分成多个组，计算左图和右图对应组的互相关性。本申请实施例中使用公式

计算分组互相关性，其中，所述N _c表示2D特征的通道数，所述N _g表示分组的个数，所述f _l ^g表示分组后的左图对应的特征组中的特征，所述f _r ^g表示分组后的右图对应的特征组中的特征，所述(x,y)表示横坐标为x纵坐标为y的像素点的像素坐标，所述(x+d,y)表示横坐标为x+d纵坐标为y的像素点的像素坐标，这里⊙表示两个特征的乘积。其中，相关性指的是计算所有特征组g和所有视差d的相关性。

为了进一步提高性能，分组互相关匹配代价可以与原始连接特征进行结合。实验结果表明，分组相关特征和连接特征是相互补充的。

本申请对金字塔立体匹配网络中的聚合网络进行了改进。首先，添加一个额外的辅助输出模块，这样，额外的辅助损失使网络学习较低层的更好聚合特征，有利于最终预测。其次，不同输出之间的剩余连接模块被移除，因此，节省了计算成本。

本申请实施例中，使用损失函数

来训练基于分组互相关的网络，其中，j表示实施例中使用的基于分组互相关的网络中有三个临时结果和一个最终结果，λ _j表示对于不同的结果所附加的不同权值，

表示使用所述基于分组互相关的网络得到的视差，所述d ^*表示真实视差，所述

是一种现有的损失函数计算方法。

这里，第i个像素的预测误差可以用公式

确定，其中，d _i表示使用本申请实施例提供的双目匹配方法确定的待处理图像左图或右图上第i个像素点的预测视差，

表示所述第i个像素点的真实视差。

图4C为本申请实施例双目匹配方法和现有技术双目匹配方法的实验结果对比图，如图4C所示，现有技术包括PSMNet(即金字塔立体匹配网络)和Cat64(即使用连接特征的方法)。而本申请实施例的双目匹配方法包括两种，第一种是Gwc40(GwcNet-g)(即基于分组互相关特征的方法)，第二种是Gwc40-Cat24(GwcNet-gc)(即基于分组互相关特征与连接特征拼接后的特征的方法)。其中，两种现有技术和本申请实施例的第二种方法，均使用了连接特征，但是，只有本申请实施例使用了分组互相关特征。进而，只有本申请实施例中的方法涉及到了特征分组，即，将得到的2D拼接特征分成了40组，每组8个通道数。最后，使用待处理图像对现有技术和本申请实施例中的方法进行测试，可以得到立体视差异常值的百分比，分别为大于1个像素的异常值的百分比，大于2个像素的异常值的百分比，和大于3个像素的异常值的百分比，从图中可以看出，本申请提出的两种方法得到的实验结果均优于现有技术，即使用本申请实施例的方法对待处理图像进行处理后，得到的立体视差异常值的百分比，均小于现有技术对待处理图像进行处理后得到的立体视差异常值的百分比。

基于前述的实施例，本申请实施例提供一种双目匹配装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为CPU(Central Processing Unit，中央处理器)、MPU(Microprocessor Unit，微处理器)、DSP(Digital Signal Processing，数字信号处理器)或FPGA(Field Programmable Gate Array，现场可编程门阵列)等。

图5为本申请实施例双目匹配装置的组成结构示意图，如图5所示，所述装置500包括：

获取单元501，配置为获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

构建单元502，配置为利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

确定单元503，配置为利用所述3D匹配代价特征，确定所述图像的深度。

在一些实施例中，所述构建单元502，包括：

第一构建子单元，配置为利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征；

第二构建子单元，配置为将所述分组互相关特征，确定为3D匹配代价特征。

在一些实施例中，所述构建单元502，包括：

第一构建子单元，配置为利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征和连接特征；

第二构建子单元，配置为将所述分组互相关特征与所述连接特征进行拼接后的特征，确定为3D匹配代价特征；

在一些实施例中，所述第一构建子单元，包括：

第一构建模块，配置为将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果；

第二构建模块，配置为将所述互相关结果进行拼接，得到分组互相关特征。

在一些实施例中，所述第一构建模块，包括：

第一构建子模块，配置为将提取的所述左图的特征进行分组，形成第一预设数量的第一特征组；

第二构建子模块，配置为将提取的所述右图的特征进行分组，形成第二预设数量的第二特征组，所述第一预设数量与所述第二预设数量相同；

第三构建子模块，配置为确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果；其中，g为大于等于1小于等于第一预设数量的自然数；所述不同视差包括：零视差、最大视差和零视差与最大视差之间的任一视差，所述最大视差为待处理的图像对应的使用场景下的最大视差。

在一些实施例中，所述装置还包括：

提取单元，配置为利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。

在一些实施例中，所述确定单元503，包括：

第一确定子单元，配置为使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率；

第二确定子单元，配置为确定所述每一像素点对应的不同视差的概率的加权平均值；

第三确定子单元，配置为将所述加权平均值确定为所述像素点的视差；

第四确定子单元，配置为根据所述像素点的视差，确定所述像素点的深度。

基于前述的实施例，本申请实施例提供一种双目匹配网络的训练装置，该装置包括所包括的各单元、以及各单元所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为CPU、MPU、DSP或FPGA等。

图6为本申请实施例双目匹配网络的训练装置的组成结构示意图，如图6所示，所述装置600包括：

特征提取单元601，配置为利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

视差预测单元602，配置为利用所述双目匹配网络根据所述3D匹配代价特征，确定样本图像的预测视差；

比较单元603，配置为将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

训练单元604，配置为利用所述损失函数对所述双目匹配网络进行训练。

在一些实施例中，所述特征提取单元601，包括：

第一特征提取子单元，配置为利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

第二特征提取子单元，配置为利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征。

在一些实施例中，所述第一特征提取子单元，包括：

第一特征提取模块，配置为利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征；

第二特征提取模块，配置为确定用于进行2D特征拼接的卷积层的标识；

第三特征提取模块，配置为根据所述标识，将所述左图中不同卷积层的2D特征在特征维度上进行拼接，得到第一2D拼接特征；

第四特征提取模块，配置为根据所述标识，将所述右图中不同卷积层的2D特征在特征维度上进行拼接，得到第二2D拼接特征。

在一些实施例中，所述第二特征提取模块，配置为当第i卷积层的间隔率发生变化时，将所述第i卷积层确定为用于进行2D特征拼接的卷积层，其中，i为大于等于1的自然数。

在一些实施例中，所述全卷积神经网络为共享参数的全卷积神经网络；对应地，所述第一特征提取模块，配置为利用双目匹配网络中的共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，其中，所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。

在一些实施例中，所述第二特征提取子单元，包括：

第一特征确定模块，配置为利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

第二特征确定模块，配置为将所述分组互相关特征，确定为3D匹配代价特征。

在一些实施例中，所述第二特征提取子单元，包括：

所述第一特征确定模块，还配置为利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征；

第二特征确定模块，配置为将所述分组互相关特征和所述连接特征在特征维度上进行拼接，得到3D匹配代价特征。

在一些实施例中，所述第一特征确定模块，包括：

第一特征确定子模块，配置为将获取的第一2D拼接特征分成N _g组，得到N _g个第一特征组；

第二特征确定子模块，配置为将获取的第二2D拼接特征分成N _g组，得到N _g个第二特征组，N _g为大于等于1的自然数；

第三特征确定子模块，配置为确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

第四特征确定子模块，配置为将所述N _g*D _max个互相关图在特征维度上进行拼接，得到分组互相关特征。

在一些实施例中，所述第三特征确定子模块，配置为确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图，其中，g为大于等于1小于等于N _g的自然数；确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图。

在一些实施例中，所述第一特征确定模块，还包括：

第五特征确定子模块，配置为确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果，得到D _max个拼接图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

第六特征确定子模块，配置为将所述D _max个拼接图进行拼接，得到连接特征。

在一些实施例中，所述视差预测单元602，包括：

第一视差预测子单元，配置为利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合；

第二视差预测子单元，配置为对聚合后的结果进行视差回归，得到样本图像的预测视差。

在一些实施例中，所述第一视差预测子单元，配置为使用所述双目匹配网络中的3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。

在一些实施例中，所述第二视差预测子单元，配置为将所述每一像素点对应的不同视差d的概率的加权平均值，确定为所述像素点的预测视差，以得到样本图像的预测视差；

其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的双目匹配方法或双目匹配网络的训练方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、ROM(Read Only Memory，只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例中提供的双目匹配方法中的步骤，或，实现上述实施例中提供的双目匹配网络的训练方法中的步骤。

对应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的双目匹配方法中的步骤，或，实现上述实施例中提供的双目匹配网络的训练方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图7为本申请实施例计算机设备的一种硬件实体示意图，如图7所示，该计算机设备700的硬件实体包括：处理器701、通信接口702和存储器703，其中

处理器701通常控制计算机设备700的总体操作。

通信接口702可以使计算机设备通过网络与其他终端或服务器通信。

存储器703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过FLASH(闪存)或RAM(Random Access Memory，随机访问存储器)实现。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM(Read Only Memory，只读存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种双目匹配方法，其中，所述方法包括：

获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

利用所述3D匹配代价特征，确定所述图像的深度。
根据权利要求1所述的方法，其特征在于，所述利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，包括：

利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征；

将所述分组互相关特征，确定为3D匹配代价特征。
根据权利要求1所述的方法，其特征在于，所述利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，包括：

利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征和连接特征；

将所述分组互相关特征与所述连接特征进行拼接后的特征，确定为3D匹配代价特征；

其中，所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
根据权利要求2或3所述的方法，其特征在于，所述利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征，包括：

将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果；

将所述互相关结果进行拼接，得到分组互相关特征。
根据权利要求4所述的方法，其特征在于，所述将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果，包括：

将提取的所述左图的特征进行分组，形成第一预设数量的第一特征组；

将提取的所述右图的特征进行分组，形成第二预设数量的第二特征组，所述第一预设数量与所述第二预设数量相同；

确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果；其中，g为大于等于1小于等于第一预设数量的自然数；所述不同视差包括：零视差、最大视差和零视差与最大视差之间的任一视差，所述最大视差为待处理的图像对应的使用场景下的最大视差。
根据权利要求1至5任一项所述的方法，其特征在于，所述利用提取的所述左图的特征和所述右图的特征之前，所述方法还包括：

利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。
根据权利要求6所述的方法，其特征在于，所述利用所述3D匹配代价特征，确定所述图像的深度，包括：

使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率；

确定所述每一像素点对应的不同视差的概率的加权平均值；

将所述加权平均值确定为所述像素点的视差；

根据所述像素点的视差，确定所述像素点的深度。
一种双目匹配网络的训练方法，其特征在于，所述方法包括：

利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

利用所述双目匹配网络根据所述3D匹配代价特征，确定样本图像的预测视差；

将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

利用所述损失函数对所述双目匹配网络进行训练。
根据权利要求8所述的方法，其特征在于，所述利用双目匹配网络确定获取的样本图像的3D匹配代价特征，包括：

利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征。
根据权利要求9所述的方法，其特征在于，所述利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征，包括：

利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征；

确定用于进行2D特征拼接的卷积层的标识；

根据所述标识，将所述左图中不同卷积层的2D特征在特征维度上进行拼接，得到第一2D拼接特征；

根据所述标识，将所述右图中不同卷积层的2D特征在特征维度上进行拼接，得到第二2D拼接特征。
根据权利要求10所述的方法，其特征在于，所述确定用于进行2D特征拼接的卷积层的标识，包括：当第i卷积层的间隔率发生变化时，将所述第i卷积层确定为用于进行2D特征拼接的卷积层，其中，i为大于等于1的自然数。
根据权利要求10或11所述的方法，其特征在于，所述全卷积神经网络为共享参数的全卷积神经网络；

所述利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，包括：利用双目匹配网络中的共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，其中，所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
根据权利要求9至12任一项所述的方法，其特征在于，所述利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征，包括：

利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

将所述分组互相关特征，确定为3D匹配代价特征。
根据权利要求9至12任一项所述的方法，其特征在于，所述利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征，包括：

利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征；

将所述分组互相关特征和所述连接特征在特征维度上进行拼接，得到3D匹配代价特征。
根据权利要求13或14所述的方法，其特征在于，所述利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征，包括：

将获取的第一2D拼接特征分成N _g组，得到N _g个第一特征组；

将获取的第二2D拼接特征分成N _g组，得到N _g个第二特征组，N _g为大于等于1的自然数；

确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

将所述N _g*D _max个互相关图在特征维度上进行拼接，得到分组互相关特征。
根据权利要求15所述的方法，其特征在于，所述确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图，包括：

确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图，其中，g为大于等于1小于等于N _g的自然数；

确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图。
根据权利要求14所述的方法，其特征在于，所述利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征，包括：

确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果，得到D _max个拼接图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

将所述D _max个拼接图进行拼接，得到连接特征。
根据权利要求8所述的方法，其特征在于，所述根据所述3D匹配代价特征，利用所述双目匹配网络确定样本图像的预测视差，包括：

利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合；

对聚合后的结果进行视差回归，得到样本图像的预测视差。
根据权利要求18所述的方法，其特征在于，所述利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合，包括：

使用所述双目匹配网络中的3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。
根据权利要求18所述的方法，其特征在于，所述对聚合后的结果进行视差回归，得到样本图像的预测视差，包括：

将所述每一像素点对应的不同视差d的概率的加权平均值，确定为所述像素点的预测视差，以得到样本图像的预测视差；

其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。
一种双目匹配装置，其中，所述装置包括：

获取单元，配置为获取待处理的图像，其中，所述图像为包括左图和右图的2D图像；

构建单元，配置为利用提取的所述左图的特征和所述右图的特征，构建所述图像的3D匹配代价特征，其中，所述3D匹配代价特征是包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

确定单元，配置为利用所述3D匹配代价特征，确定所述图像的深度。
根据权利要求21所述的装置，其中，所述构建单元，包括：

第一构建子单元，配置为利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征；

第二构建子单元，配置为将所述分组互相关特征，确定为3D匹配代价特征。
根据权利要求21所述的装置，其中，所述构建单元，包括：

第一构建子单元，配置为利用提取的所述左图的特征和所述右图的特征，确定分组互相关特征和连接特征；

第二构建子单元，配置为将所述分组互相关特征与所述连接特征进行拼接后的特征，确定为3D匹配代价特征；

其中，所述连接特征为将所述左图的特征与所述右图的特征在特征维度上进行拼接得到的。
根据权利要求22或23所述的装置，其中，所述第一构建子单元，包括：

第一构建模块，配置为将提取的所述左图的特征和所述右图的特征分别进行分组，确定分组后的左图的特征和分组后的右图的特征在不同视差下的互相关结果；

第二构建模块，配置为将所述互相关结果进行拼接，得到分组互相关特征。
根据权利要求24所述的装置，其中，所述第一构建模块，包括：

第一构建子模块，配置为将提取的所述左图的特征进行分组，形成第一预设数量的第一特征组；

第二构建子模块，配置为将提取的所述右图的特征进行分组，形成第二预设数量的第二特征组，所述第一预设数量与所述第二预设数量相同；

第三构建子模块，配置为确定第g组第一特征组与第g组第二特征组在不同视差下的互相关结果；其中，g为大于等于1小于等于第一预设数量的自然数；所述不同视差包括：零视差、最大视差和零视差与最大视差之间的任一视差，所述最大视差为待处理的图像对应的使用场景下的最大视差。
根据权利要求21至25任一项所述的装置，其中，所述装置还包括：

提取单元，配置为利用共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征。
根据权利要求26所述的装置，其中，所述确定单元，包括：

第一确定子单元，配置为使用3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差的概率；

第二确定子单元，配置为确定所述每一像素点对应的不同视差的概率的加权平均值；

第三确定子单元，配置为将所述加权平均值确定为所述像素点的视差；

第四确定子单元，配置为根据所述像素点的视差，确定所述像素点的深度。
一种双目匹配网络的训练装置，其中，所述装置包括：

特征提取单元，配置为利用双目匹配网络确定获取的样本图像的3D匹配代价特征，其中，所述样本图像包括有深度标记信息的左图和右图，所述左图和右图的尺寸相同；所述3D匹配代价特征包括分组互相关特征，或，包括分组互相关特征与连接特征拼接后的特征；

视差预测单元，配置为利用所述双目匹配网络根据所述3D匹配代价特征，确定样本图像的预测视差；

比较单元，配置为将所述深度标记信息与所述预测视差进行比较，得到双目匹配的损失函数；

训练单元，配置为利用所述损失函数对所述双目匹配网络进行训练。
根据权利要求28所述的装置，其中，所述特征提取单元，包括：

第一特征提取子单元，配置为利用双目匹配网络中的全卷积神经网络分别确定所述左图的2D拼接特征和所述右图的2D拼接特征；

第二特征提取子单元，配置为利用所述左图的2D拼接特征和所述右图的2D拼接特征，构建3D匹配代价特征。
根据权利要求29所述的装置，其中，所述第一特征提取子单元，包括：

第一特征提取模块，配置为利用双目匹配网络中的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征；

第二特征提取模块，配置为确定用于进行2D特征拼接的卷积层的标识；

第三特征提取模块，配置为根据所述标识，将所述左图中不同卷积层的2D特征在特征维度上进行拼接，得到第一2D拼接特征；

第四特征提取模块，配置为根据所述标识，将所述右图中不同卷积层的2D特征在特征维度上进行拼接，得到第二2D拼接特征。
根据权利要求30所述的装置，其中，所述第二特征提取模块，配置为当第i卷积层的间隔率发生变化时，将所述第i卷积层确定为用于进行2D特征拼接的卷积层，其中，i为大于等于1的自然数。
根据权利要求30或31所述的装置，其中，所述全卷积神经网络为共享参数的全卷积神经网络；所述第一特征提取模块，配置为利用双目匹配网络中的共享参数的全卷积神经网络分别提取所述左图的2D特征和所述右图的2D特征，其中，所述2D特征的尺寸是所述左图或右图的尺寸的四分之一。
根据权利要求29至32任一项所述的装置，其中，所述第二特征提取子单元，包括：

第一特征确定模块，配置为利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

第二特征确定模块，配置为将所述分组互相关特征，确定为3D匹配代价特征。
根据权利要求29至32任一项所述的装置，其中，所述第二特征提取子单元，包括：

第一特征确定模块，配置为利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定分组互相关特征；

所述第一特征确定模块，还配置为利用获取的第一2D拼接特征和获取的第二2D拼接特征，确定连接特征；

第二特征确定模块，配置为将所述分组互相关特征和所述连接特征在特征维度上进行拼接，得到3D匹配代价特征。
根据权利要求33或34所述的装置，其中，所述第一特征确定模块，包括：

第一特征确定子模块，配置为将获取的第一2D拼接特征分成N _g组，得到N _g个第一特征组；

第二特征确定子模块，配置为将获取的第二2D拼接特征分成N _g组，得到N _g个第二特征组，N _g为大于等于1的自然数；

第三特征确定子模块，配置为确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

第四特征确定子模块，配置为将所述N _g*D _max个互相关图在特征维度上进行拼接，得到分组互相关特征。
根据权利要求35所述的装置，其中，所述第三特征确定子模块，配置为确定第g组第一特征组和第g组第二特征组对于所述视差d的互相关结果，得到D _max个互相关图，其中，g为大于等于1小于等于N _g的自然数；确定N _g个第一特征组和N _g个第二特征组对于所述视差d的互相关结果，得到N _g*D _max个互相关图。
根据权利要求34所述的装置，其中，所述第一特征确定模块，还包括：

第五特征确定子模块，配置为确定获取的第一2D拼接特征和第二2D拼接特征对于所述视差d的拼接结果，得到D _max个拼接图；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差；

第六特征确定子模块，配置为将所述D _max个拼接图进行拼接，得到连接特征。
根据权利要求28所述的装置，其中，所述视差预测单元，包括：

第一视差预测子单元，配置为利用所述双目匹配网络对所述3D匹配代价特征，进行匹配代价聚合；

第二视差预测子单元，配置为对聚合后的结果进行视差回归，得到样本图像的预测视差。
根据权利要求38所述的装置，其中，所述第一视差预测子单元，配置为使用所述双目匹配网络中的3D神经网络确定所述3D匹配代价特征中每一像素点对应的不同视差d的概率；其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。
根据权利要求38所述的装置，其中，所述第二视差预测子单元，配置为将所述每一像素点对应的不同视差d的概率的加权平均值，确定为所述像素点的预测视差，以得到样本图像的预测视差；

其中，所述视差d为大于等于0小于D _max的自然数，所述D _max为样本图像对应的使用场景下的最大视差。
一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1至7任一项所述双目匹配方法中的步骤，或，实现权利要求8至20任一项所述双目匹配网络的训练方法中的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现权利要求1至7任一项所述双目匹配方法中的步骤，或，实现权利要求8至20任一项所述双目匹配网络的训练方法中的步骤。