WO2019192290A1

WO2019192290A1 - 一种深度信息确定的方法及相关装置

Info

Publication number: WO2019192290A1
Application number: PCT/CN2019/077669
Authority: WO
Inventors: 揭泽群; 凌永根; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-04-04
Filing date: 2019-03-11
Publication date: 2019-10-10
Also published as: CN108537837B; EP3779881A1; US11145078B2; US20200302629A1; EP3779881A4; CN108537837A

Abstract

本申请公开了一种深度信息确定的方法，包括：获取从左目图像至右目图像的第t次左目匹配相似度，以及从右目图像到左目图像的第t次右目匹配相似度，其中，t为大于1的整数；通过神经网络模型对第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；通过神经网络模型对第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；根据第t次左目视差图确定第一深度信息，并根据第t次右目视差图确定第二深度信息。本申请还公开一种深度信息确定装置。本申请利用递归式学习充分考虑双目的互补信息，不断修正双目视差图，从而对于双目难匹配的区域而言，能够有效地降低深度信息的误差。

Description

一种深度信息确定的方法及相关装置

本申请要求于2018年04月04日提交中国专利局、申请号为201810301988.3、申请名称为“一种深度信息确定的方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机处理领域，尤其涉及深度信息确定。

背景技术

视差是观测者在两个不同位置看同一物体的方向之差。比如，当你伸出一个手指放在眼前，先闭上右眼，用左眼看它，再闭上左眼，用右眼看它，会发现手指相对远方的物体的位置有了变化，这就是从不同角度去看同一点的视差。

目前，在预测物体深度信息的过程中，需要先预测左眼到右眼在不同视差时的匹配相似度，然后利用左眼到右眼在不同视差时的匹配相似度，对左眼图像进行视差预测，由此确定物体的深度信息。

然而，对于双目难匹配的区域(如重复性区域、纹理缺失区域以及复杂物体边缘)而言，只利用左眼到右眼在不同视差时的匹配相似度，容易导致深度信息误差较大。

发明内容

本申请实施例提供了一种深度信息确定的方法及相关装置，利用递归式的学习可充分考虑到双目的互补信息，不断修正双目视差图，从而对于双目难匹配的区域而言，能够有效地降低深度信息的误差。

本申请实施例的第一方面提供了一种深度信息确定的方法，包括：

获取从左目图像至右目图像的第t次左目匹配相似度，以及从所述右目图像到所述左目图像的第t次右目匹配相似度，其中，所述t为大于1的整数；

通过神经网络模型对所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

通过所述神经网络模型对所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息。

本申请实施例的第二方面提供了一种深度信息确定装置，包括：

获取模块，用于获取从左目图像至右目图像的第t次左目匹配相似度，以及从所述右目图像到所述左目图像的第t次右目匹配相似度，其中，所述t为大于1的整数；

处理模块，用于通过神经网络模型对所述获取模块获取的所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

所述处理模块，还用于通过所述神经网络模型对所述获取模块获取的所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

确定模块，用于根据所述处理模块处理得到的所述第t次左目视差图确定第一深度信息，并根据所述处理模块处理得到的所述第t次右目视差图确定第二深度信息。

本申请实施例的第三方面提供了一种深度信息确定装置，包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，具体包括如下步骤：

根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种深度信息确定的方法，获取从左目图像至右目图像的第t次左目匹配相似度，以及从右目图像到左目图像的第t次右目匹配相似度，然后通过神经网络模型对第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图，并且通过神经网络模型对第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图，最后可以根据第t次左目视差图确定第一深度信息，并根据第t次右目视差图确定第二深度信息。通过上述方式，利用神经网络模型以及上一次学习得到的双目注意力图，可以得到双目视差图，并且根据本次得到的双目视差图用于学习出双目注意力图，再指导下一次的双目视差图，这样递归式的学习可以充分利用双目的互补信息，不断修正双目视差图，从而对于双目难匹配的区域而言，能够有效地降低深度信息的误差。

附图说明

图1A为本申请实施例中基于递归学习的双目视差示意图；

图1B为本申请实施例中深度信息确定装置的一个架构示意图；

图2为本申请实施例中深度信息确定的方法一个实施例示意图；

图3为本申请实施例中原图和模型预测深度图的一个对比示意图；

图4为本申请实施例中生成双目注意力图的一个示意图；

图5为本申请实施例中递归双目视差网络的一个示意图；

图6为本申请实施例中卷积长短记忆网络的一个示意图；

图7为本申请实施例中深度信息确定装置的一个实施例示意图；

图8为本申请实施例中深度信息确定装置的另一个实施例示意图；

图9为本申请实施例中深度信息确定装置的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请可以应用于配备双目摄像头的设施(如双目机器人以及无人车等)进行物体深度估计。本申请主要通过深度神经网络获取双目视觉图像的视差，再用双摄像头间距离和焦距的积除以预测出的视差，得到深度值。具体而言，先利用一个卷积神经网络预测出一目图像到另一目图像(即左目到右目，以及右目到左目)在不同视差时匹配的相似度，得不同视差时的匹配相似度，再利用一个卷积长短记忆网络(Convolutional Long Short-Term Memory，ConvLSTM)递归地进行“双目视差预测——双目视差图对比”的循环。在这个循环中，通过不断进行双目视差图对比，能充分利用左右视觉的互补信息，自动检测出左右视觉中的难匹配区域(如重复性区域、纹理缺失区域或者复杂物体边缘)，达到双目视差预测值的修正更新，不断提高视差预测的准确度，也即深度的准确度。

对于双目摄像头拍摄的左右视角图像，先利用卷积神经网络对左目图像到右目图像，和右目图像到左目图像在不同视差时的匹配相似度进行预测，然后，基于上述预测出的匹配相似度，利用ConvLSTM对双目视差进行递归预测，整个流程图如图1A所示，图1A为本申请实施例中基于递归学习的双目视差示意图，如图所示，假设左右双目拍摄到的图像都为H*W(H为高度，W为宽度)分辨率大小，先利用卷积神经网络对双目图像进行像素级别的特征提取，对两图分别得到H*W*C(C为特征维度)的特征图。然后把两个H*W*C的特征图进行水平方向不同视差的特征组合，得到最多D _max种不同视差时的特征图(维数为H*W*2C*D _max)，再利用另一个卷积核为1*1的卷积神经网络，对所有像素在不同视差时的匹配相似度进行预测，基于2C的输入特征得到一个匹配相似度值。将H*W个像素在所有D _max可能视差时的相似度值写成张量形式，则左目图像到右目图像和右目图像到左目图像都能预测出一个H*W*D _max的匹配相似度。

基于上述预测出的双目匹配相似度张量，我们利用ConvLSTM对双目视差进行递归预测，从而得到左目视差图和右目视差图。

过几十年来的发展，立体视觉在机器人视觉、航空测绘、反求工程、军事运用、医学成像和工业检测等领域中的运用越来越广。请参阅图1B，图1B为本申请实施例中深度信息确定装置的一个架构示意图，如图所示，本申请所提供的深度信息确定装置可部署与服务器上，由服务器将处理结果传输至目标设备，也可以直接将深度信息确定装置部署在目标设备上。其中，目标设备包含但不仅限于(无人驾驶)汽车、机器人、(无人驾驶)飞机以及智能终端等，这些目标设备都具有双目立体视觉，能够基于视差原理并利用成像设备从不同位置获取被测物体的两幅图像，通过计算图像对应点间的位置偏差，来获取物体三维几何信息。双目立体视觉融合两只眼睛获得的图像并观察它们之间的差别，使我们可以获得明显的深度感，建立特征间的对应关系，将同一空间物理点在不同图像中的映像点对应起来，这个差别称作视差图像。

双眼视差有时候也被称为立体视差，是一种深度线索。物体离观察者越近，两只眼睛所看到物体的差别也越大，这就形成了双眼视差。大脑可以利用对这种视差的测量，估计出物体到眼睛的距离。

下面将对本申请中深度信息确定的方法进行介绍，请参阅图2，本申请实施例中深度信息确定的方法一个实施例包括：

101、获取从左目图像至右目图像的第t次左目匹配相似度，以及从右目图像到左目图像的第t次右目匹配相似度，其中，t为大于1的整数；

本实施例中，首先由深度信息确定装置通过双目摄像头获取左目图像和右目图像，然后计算从左目图像至右目图像的第t次左目匹配相似度，以及从右目图像到左目图像的第t次右目匹配相似度，t是一个大于1的整数，可认为是第t次获取到的匹配相似度。下面将介绍几种计算匹配相似度的算法，在实际应用中包含但不仅限于以下列举的算法。

第一种，平均绝对差算法(Mean Absolute Differences，MAD)，该算法的思想简单，具有较高的匹配精度，广泛用于图像匹配。在搜索图S中，可以将(i，j)作为左上角，取大小为M*N的子图，计算其与模板的相似度，遍历整个搜索图S，在所有能够取到的子图中，找到与模板图最相似的子图作为最终匹配结果。

第二种，绝对误差和算法(Sum of Absolute Differences，SAD)。SAD算法与MAD算法思想几乎是一致的，只是其相似度测量公式有一点改动，这里不再赘述。

第三种，误差平方和算法(Sum of Squared Differences，SSD)，也叫差方和算法。SSD算法与SAD算法如出一辙，只是其相似度测量公式有一点改动，这里不再赘述。

第四种，归一化积相关算法(Normalized Cross Correlation，NCC)，与上面算法相似，依然是利用子图与模板图的灰度，通过归一化的相关性度量公式来计算二者之间的匹配程度。

第五种，序贯相似性检测算法(Sequential Similiarity Detection Algorithm，SSDA)，它是对传统模板匹配算法的改进，比MAD算法快几十到几百倍。

102、通过神经网络模型对第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

本实施例中，深度信息确定装置将本次(第t次)得到的左目匹配相似度和上一次(第t-1次)生成的左目注意力输入至神经网络模型，该神经网络模型通常是预先训练得到的，由该神经网络模型输出本次(第t次)的左目视差图。

103、通过神经网络模型对第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

本实施例中，类似地，深度信息确定装置将本次(第t次)得到的右目匹配相似度和上一次(第t-1次)生成的右目注意力输入至神经网络模型，该神经网络模型通常是预先训练得到的，由该神经网络模型输出本次(第t次)的右目视差图。

可以理解的是，步骤102和步骤103之间的执行顺序可以是，先执行步骤102 再执行步骤103，也可以先执行步骤103再执行步骤102，还可以是同时执行步骤102和步骤103，此处不做限定。

104、根据第t次左目视差图确定第一深度信息，并根据第t次右目视差图确定第二深度信息。

本实施例中，深度信息确定装置根据神经网络模型输出的第t次左目视差图，确定第t次左目视差图的深度信息(即第一深度信息)。类似地，深度信息确定装置根据神经网络模型输出的第t次右目视差图，确定第t次右目视差图的深度信息(即第二深度信息)。

为了便于介绍，请参阅图3，图3为本申请实施例中原图和模型预测深度图的一个对比示意图，如图所示，利用本申请所提供的神经网络模型可预测得到高质量的深度图。本申请能够提高双目物体深度估计的准确率，对配备双目摄像头的机器人和无人车等设施的自动驾驶和工作具有决定性作用，具有潜在的经济效益。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的深度信息确定的方法第一个可选实施例中，还可以包括：

将第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图；

根据第t次左目映射视差图以及第t次左目视差图，生成第t次左目注意力图；

将第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图；

根据第t次右目映射视差图以及第t次右目视差图，生成第t次右目注意力图。

本实施例中，深度信息确定装置采用映射视差图和视差图生成注意力图，具体地，请参阅图4，图4为本申请实施例中生成双目注意力图的一个示意图，如图所示，在通过神经网络模型生成第t次右目视差图和第t次左目视差图之后，可以将第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图，并且将将第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图。所谓的映射，也就是将两个视差图转换到相反视差图的坐标上。接下来，将原始的第t次左目视差图和转换得到的第t次左目映射视差图连接起来，输入到由几个简单卷积层和变换层组成的模型中，以得到第t次左目注意力图。类似地，将原始的第t次右目视差图和转换得到的第t次右目映射视差图连接起来，输入到由几个简单卷积层和变换层组成的模型中，以得到第t次右目注意力图。

注意力图反映了左右图像对比彼此后，不同区域的视差预测的置信度，低置信度意味着网络该像素的视差预测值不够确信，这些左右目视差对比后自动检测出的低置信度像素区域往往是左右目难匹配区域，如重复性区域、纹理缺失区域和复杂的物体边缘。因此第t次递归学习到的注意力图能作为第t+1次递归视差预测的指导，网络能依此有针对性地修正更新第t次递归自动检测出的低置信度区域像素的视差值，也就是可以将注意力图用作下一步指导模型的聚焦区域。

其次，本申请实施例中，深度信息确定装置将第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图，根据第t次左目映射视差图以及第t次左目视差图，生成第t次左目注意力图，类似地，也可以得到第t次右目注意力图。通过上述方式，本次递归学习到的注意力图能作为第下一次递归视差预测的指导，网络能依此有针对性地修正更新本次递归自动检测出的低置信度区域像素的视差值，从而提升双目注意力图的可靠性。

可选地，在上述图2对应的第一个实施例的基础上，本申请实施例提供的深度信息确定的方法第二个可选实施例中，根据第t次左目视差图确定第一深度信息，并根据第t次右目视差图确定第二深度信息之后，还可以包括：

获取从左目图像至右目图像的第t+1次左目匹配相似度，以及从右目图像到左目图像的第t+1次右目匹配相似度；

通过神经网络模型对第t+1次左目匹配相似度以及第t次左目注意力图进行处理，得到第t+1次左目视差图；

通过神经网络模型对第t+1次右目匹配相似度以及第t次右目注意力图进行处理，得到第t+1次右目视差图；

根据第t+1次左目视差图确定第三深度信息，并根据第t+1次右目视差图确定第四深度信息。

本实施例中，将介绍预测下一次深度信息的方式。请参阅图5，图5为本申请实施例中递归双目视差网络的一个示意图，如图所示，该递归双目视差网络又可以称为左右循环比较(Left-Right Comparative Recurrent，LRCR)模型，LRCR模型包含两个并行的神经网络模型。左侧神经网络模型采用X' _t生成第t次左目视差图，其中，X' _t表示第t次左目匹配相似度和第t-1次左目注意力图的连接结果。类似地，右侧神经网络模型采用X” _t生成第t次右目视差图，其中，X” _t表示第t次右目匹配相似度和第t-1次右目注意力图的连接结果。接下来，采用第t次左目视差图和第t次右目视差图可以预测出第t次左目注意力图和第t次右目注意力图。

于是可进行下一次循环，即将左侧神经网络模型采用X' _t+1生成第t+1次左目视差图，其中，X' _t+1表示第t+1次左目匹配相似度和第t次左目注意力图的连接结果。类似地，右侧神经网络模型采用X” _t+1生成第t+1次右目视差图，其中，X” _t+1表示第t+1次右目匹配相似度和第t次右目注意力图的连接结果。接下来，采用第t+1次左目视差图和第t+1次右目视差图可以预测出第t+1次左目注意力图和第t+1次右目注意力图。以此类推，此处不作赘述。

再次，本申请实施例中，深度信息确定装置在得到本次的双目深度信息之后，还可以继续得到下一次的双目深度信息。通过上述方式，为了进行左右双目的比较，可在神经网络模型中添加卷积层和汇聚层，从而生成双目注意力图，将双目注意力图作为下一步的输入，启动LRCR模型，在下一步可更多地关注左右失配区域，由此提升预测的准确度。

可选地，在上述图2、图2对应的第一个或第二个实施例的基础上，本申请实施例提供的深度信息确定的方法第三个可选实施例中，通过神经网络模型对第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图，可以包括：

根据第t次左目匹配相似度以及第t-1次左目注意力图，利用ConvLSTM计算得到第t次左目隐变量；

根据第t次左目隐变量获取第t次左目视差代价；

根据第t次左目视差代价计算第t次左目视差预测值，其中，第t次左目视差预测值用于生成第t次左目视差图；

通过神经网络模型对第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图，包括：

根据第t次右目匹配相似度以及第t-1次右目注意力图，利用ConvLSTM计算得到第t次右目隐变量；

根据第t次右目隐变量获取第t次右目视差代价；

根据第t次右目视差代价计算第t次右目视差预测值，其中，第t次右目视差预测值用于生成第t次右目视差图。

本实施例中，在得到第t次左目视差图的过程中，首先需要将第t次左目匹配相似度以及第t-1次左目注意力图输入至ConvLSTM，由此计算得到第t次左目隐变量。然后根据第t次左目隐变量获取第t次左目视差代价，最后，根据第t次左目视差代价计算第t次左目视差预测值，得到第t次左目视差预测值也就意味着可以生成第t次左目视差图。类似地，生成第t次右目视差图的方式与生成第t次左目视差图的方式类似，此处不作赘述。

为了便于理解，请参阅图6，图6为本申请实施例中卷积长短记忆网络的一个示意图，如图所示，每一条黑线传输一整个向量，从一个节点的输出到其他节点的输入。圆圈代表逐点操作，诸如向量的和，而矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。若只有上面的那条水平线是没办法实现添加或者删除信息的，而是通过一种叫做门(gates)的结构来实现的，gates可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的。sigmoid的神经层输出(是一个向量)的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重(或者占比)。比如，0表示“不让任何信息通过”，1表示“让所有信息通过”。tanh层表示重复的结构模块。

ConvLSTM通过图6所示的结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。

进一步地，本申请实施例中，采用ConvLSTM对第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图，并且采用ConvLSTM对第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图。通过上述方式，基于预测出的双目匹配相似度，利用ConvLSTM对双目视差图进行递归预测，这种ConvLSTM能不仅具有常规递归神经网络的强大序列建模和信息处理能力，还能有效提取每个像素空间邻域内的信息，达到空间上下文信息整合的目的。

可选地，在上述图2对应的第三个实施例的基础上，本申请实施例提供的深度信息确定的方法第四个可选实施例中，根据第t次左目匹配相似度以及第t-1次左目注意力图，利用ConvLSTM计算得到第t次左目隐变量，可以包括：

采用如下方式计算第t次左目隐变量：

其中，i' _t表示第t次左目递归的网络输入门，*表示向量相乘，°表示卷积操作，σ表示sigmoid函数，W _xi、W _hi、W _ci以及b _i表示网络输入门的模型参数，X' _t表示第t次左目匹配相似度以及第t-1次左目注意力图，f' _t表示第t次左目递归的遗忘门，W _xf、W _hf、W _cf以及b _f表示遗忘门的模型参数，o' _t表示第t次左目递归的输出门，W _xo、W _ho、W _co以及b _o表示输出门的模型参数，C' _t表示第t次左目递归的记忆单元，C' _t-1表示第t-1次左目递归的记忆单元，tanh表示双曲正切，H' _t-1表示第t-1次左目隐变量，H' _t表示第t次左目隐变量；

根据第t次右目匹配相似度以及第t-1次右目注意力图，利用ConvLSTM计算得到第t次右目隐变量，可以包括：

采用如下方式计算第t次右目隐变量：

其中，i” _t表示第t次右目递归的网络输入门，X” _t表示第t次右目匹配相似度以及第t-1次右目注意力图，f” _t表示第t次右目递归的遗忘门，o' _t表示第t次右目递归的输出门，C” _t表示第t次右目递归的记忆单元，C” _t-1表示第t-1次右目递归的记忆单元，H” _t-1表示第t-1次右目隐变量，H” _t表示第t次右目隐变量。

本实施例中，结合公式对双目隐变量的计算进行具体说明，ConvLSTM通过输入门、遗忘门和输出门实现信息的获取。

在ConvLSTM中的第一步是决定丢弃什么信息。这个决定通过一个称为遗忘门完成。该门会读取H' _t-1(或H” _t-1)和X' _t(或X” _t)，输出一个在0到1之间的数值给每个在细胞状态C' _t-1(C” _t-1或)中的数字。1表示“完全保留”，0表示“完全舍弃”。其中H' _t-1(或H” _t-1)表示的是上一个细胞的输出，X' _t(或X” _t)表示的是当前细胞的输入，σ表示sigmod函数。

下一步是决定让多少新的信息加入到细胞状态中来。实现这个需要包括两个步骤，首先，一个叫做“输入门层”的sigmoid层决定哪些信息需要更新，一个tanh层生成一个向量，也就是备选的用来更新的内容，在下一步，我们把这两部分联合起来，对细胞状态进行一个更新，C' _t-1(或C” _t-1)更新为C' _t(或C” _t)。把旧状态与f' _t(或f” _t)相乘，丢弃掉我们确定需要丢弃的信息。

最终，我们需要确定输出什么值。这个输出将会基于我们的细胞状态，但是也是一个过滤后的版本。首先，我们运行一个sigmoid层来确定细胞状态的哪个部分将输出出去。接着，我们把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和sigmoid门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

更进一步地，本申请实施例中，介绍了一种计算第t次左目隐变量和第t 次右目隐变量的具体方式，采用ConvLSTM所提供的计算关系，能够得到双目的隐变量。通过上述方式，能够有效地提升隐变量计算的可靠性，并且为方案的实现提供了可操作的依据。

可选地，在上述图2对应的第三个实施例的基础上，本申请实施例提供的深度信息确定的方法第五个可选实施例中，根据第t次左目隐变量获取第t次左目视差代价，可以包括：

通过至少两层全连接层对第t次左目隐变量进行处理，得到第t次左目视差代价；

根据第t次右目隐变量获取第t次右目视差代价，可以包括：

通过至少两层全连接层对第t次右目隐变量进行处理，得到第t次右目视差代价。

本实施例中，可以将第t次左目隐变量输入至至少两层全连接层，由该至少两层全连接层输出第t次左目视差代价。类似地，将第t次右目隐变量输入至至少两层全连接层，由该至少两层全连接层输出第t次右目视差代价。

具体地，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。全连接层的参数的确很多。在前向计算过程，也就是一个线性的加权求和的过程，全连接层的每一个输出都可以看成前一层的每一个结点乘以一个权重系数W，最后加上一个偏置值b得到。假设输入有50×4×4个神经元结点，输出有500个结点，则一共需要50×4×4×500＝400000个权值参数W和500个偏置参数b。

连接层实际就是卷积核大小为上层特征大小的卷积运算，卷积后的结果为一个节点，就对应全连接层的一个点。假设最后一个卷积层的输出为7×7×512，连接此卷积层的全连接层为1×1×4096。连接层实际就是卷积核大小为上层特征大小的卷积运算，卷积后的结果为一个节点，就对应全连接层的一个点。如果将这个全连接层转化为卷积层，则共有4096组滤波器，每组滤波器含有512个卷积核，每个卷积核的大小为7×7则输出为1×1×4096。若后面再连接一个1×1×4096全连接层。则其对应的转换后的卷积层的参数为，共有4096组滤波器，每组滤波器含有4096个卷积核，每个卷积核的大小为1×1，输出为1×1×4096，相当于就是将特征组合起来进行4096个分类分数的计算，得分最高的就是划到的正确的类别。

更进一步地，本申请实施例中，获取双目视差代价的方法可以是，将双目隐变量输入至至少两层全连接层，由两层全连接层输出双目视差代价。通过上述方式，可以利用全连接层得到双目视差代价，从而提升方案的可行性和可操作性。

可选地，在上述图2对应的第三个实施例的基础上，本申请实施例提供的深度信息确定的方法第六个可选实施例中，根据第t次左目视差代价计算第t次左目视差预测值，可以包括：

采用如下方式计算第t次左目视差预测值：

其中，d'*表示第t次左目视差预测值，D _max表示不同视差图的数量最大值，d'表示第t次左目视差值，σ表示sigmoid函数。c' _d表示第t次左目视差代价；

根据第t次右目视差代价计算第t次右目视差预测值，包括：

采用如下方式计算第t次右目视差预测值：

d”*表示第t次右目视差预测值，c” _d表示第t次右目视差代价，d”表示第t次右目视差值，c” _d表示第t次右目视差代价。

本实施例中，通过卷积层来获得大小为H*W*D _max的双目视差代价。取双目视差代价的张量形式，将softmax标准化应用于张量，使得概率张量反映所有像素的每个可用差异的概率。最后，可使用微分argmin层来将所有通过其概率加权的差异来生成视差预测值。在数学上，如上公式描述了如何在给定每个可用视差c' _d(或c” _d)代价的情况下通过特定像素的代价张量获得双目视差预测值d'*(或d”*)。

更进一步地，本申请实施例中，提供了一种计算双目视差预测值的具体方式，即利用不同视差图的数量最大值和左目视差值，就能够计算出双目视差预测值。通过上述方式，为方案的实现提供了具体的依据，从而提升方案的实用性和可操作性。

可选地，在上述图2对应的第四个至第六个实施例中任一项的基础上，本申请实施例提供的深度信息确定的方法第七个可选实施例中，根据第t次左目视差图确定第一深度信息，可以包括：

采用如下方式计算第一深度信息：

其中，Z'表示第一深度信息，d'*表示第t次左目视差预测值，B表示双目摄像头间距，f表示焦距；

根据第t次右目视差图确定第二深度信息，可以包括：

采用如下方式计算所述第二深度信息：

其中，Z”表示第二深度信息，d”*表示第t次右目视差预测值。

本实施例中，在得到双目视差图之后，可利用双目视差图分别计算出双目的深度信息。以计算左视图的第一深度信息为例，需要获取双目摄像头间距和焦距，然后将双目摄像头间距和焦距的乘积结果，除以计算得到的左目视差预测值，即可得到左视图的第一深度信息。

下面将介绍上述公式的推导方式，假设两个相机的内部参数一致，如焦距和镜头，为了数学描述的方便需引入坐标，由于坐标是人为引入的，因此客观世界中的事物可以处于不同的坐标系中。假设两个相机的X轴方向一致，像平面重叠，坐标系以左相机为准，右相机相对于左相机是简单的平移，用坐标表示为(T _x,0,0)。T _x一般称为基线，根据三角形相似关系，很容易得出空间中的一点P(X,Y,Z)分别在左右像平面上的投影坐标。因此，能够得到视差的计算方式为：

从而推导得出：

显然，深度信息和视差成反比，这与我们用手指做试验是相吻合的，这也是为什么近的物体看起来比远的物体移动得快。

再进一步地，本申请实施例中，介绍了计算深度信息的方式，利用预测得到的视差预测值、双目摄像头间距和焦距就能预测出双目的深度信息。通过上述方式，可同时计算得到左目深度信息和右目深度信息，根据实际需求，选择所需的深度信息，从而提升方案的实用性和可行性。

下面对本申请中的深度信息确定装置进行详细描述，请参阅图7，图7为本申请实施例中一种配置双目摄像头的深度信息确定装置一个实施例示意图，深度信息确定装置20包括：

获取模块201，用于获取从左目图像至右目图像的第t次左目匹配相似度，以及从所述右目图像到所述左目图像的第t次右目匹配相似度，其中，所述t为大于1的整数；

处理模块202，用于通过神经网络模型对所述获取模块201获取的所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

所述处理模块202，还用于通过所述神经网络模型对所述获取模块201获取的所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

确定模块203，用于根据所述处理模块202处理得到的所述第t次左目视差图确定第一深度信息，并根据所述处理模块处理得到的所述第t次右目视差图确定第二深度信息。

本实施例中，获取模块201获取从左目图像至右目图像的第t次左目匹配相似度，以及从右目图像到左目图像的第t次右目匹配相似度，其中，t为大于1的整数，处理模块202通过神经网络模型对获取模块201获取的第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图，处理模块202通过神经网络模型对获取模块201获取的第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图，确定模块203根据处理模块202处理得到的第t次左目视差图确定第一深度信息，并根据处理模块处理得到的第t次右目视差图确定第二深度信息。

本申请实施例中，提供了一种深度信息确定装置，可以利用神经网络模型以及上一次学习得到的双目注意力图，得到双目视差图，并且根据本次得到的双目视差图用于学习出双目注意力图，再指导下一次的双目视差图，这样递归式的学习可以充分利用双目的互补信息，不断修正双目视差图，从而对于双目难匹配的区域而言，能够有效地降低深度信息的误差。

可选地，在上述图7所对应的实施例的基础上，请参阅图8，本申请实施例提供的深度信息确定装置20的另一实施例中，深度信息确定装置20还包括映射模块204和生成模块205；

所述映射模块204，用于将第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图；

所述生成模块205，用于根据所述映射模块204映射得到的第t次左目映射视差图以及第t次左目视差图，生成第t次左目注意力图；

所述映射模块204，还用于将第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图；

所述生成模块205，还用于根据所述映射模块204映射得到的第t次右目映射视差图以及第t次右目视差图，生成第t次右目注意力图。

可选地，在上述图8所对应的实施例的基础上，本申请实施例提供的深度信息确定装置20的另一实施例中，

所述获取模块201，还用于所述确定模块203根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息之后，获取从左目图像至右目图像的第t+1次左目匹配相似度，以及从所述右目图像到所述左目图像的第t+1次右目匹配相似度；

所述处理模块202，还用于通过所述神经网络模型对所述第t+1次左目匹配相似度以及第t次左目注意力图进行处理，得到第t+1次左目视差图；

所述处理模块202，还用于通过所述神经网络模型对所述第t+1次右目匹配相似度以及第t次右目注意力图进行处理，得到第t+1次右目视差图；

所述确定模块203，还用于根据所述处理模块202处理得到的所述第t+1次左目视差图确定第三深度信息，并根据所述处理模块202处理得到的所述第t+1次右目视差图确定第四深度信息。

可选地，在上述图7或图8所对应的实施例的基础上，本申请实施例提供的深度信息确定装置20的另一实施例中：

所述处理模块202，具体用于根据所述第t次左目匹配相似度以及所述第t-1次左目注意力图，利用ConvLSTM计算得到第t次左目隐变量；

根据所述第t次左目隐变量获取第t次左目视差代价；

根据所述第t次左目视差代价计算第t次左目视差预测值，其中，所述第t次左目视差预测值用于生成所述第t次左目视差图；

所述处理模块202，具体用于根据所述第t次右目匹配相似度以及所述第t-1次右目注意力图，利用所述ConvLSTM计算得到第t次右目隐变量；

根据所述第t次右目隐变量获取第t次右目视差代价；

根据所述第t次右目视差代价计算第t次右目视差预测值，其中，所述第t次右目视差预测值用于生成所述第t次右目视差图。

所述处理模块202，具体用于采用如下方式计算所述第t次左目隐变量：

其中，所述i' _t表示第t次左目递归的网络输入门，所述*表示向量相乘，所述°表示卷积操作，所述σ表示sigmoid函数，所述W _xi、所述W _hi、所述W _ci以及所述b _i表示所述网络输入门的模型参数，所述X' _t表示所述第t次左目匹配相似度以及所述第t-1次左目注意力图，所述f' _t表示第t次左目递归的遗忘门，所述W _xf、所述W _hf、所述W _cf以及所述b _f表示所述遗忘门的模型参数，所述o' _t表示第t次左目递归的输出门，所述W _xo、所述W _ho、所述W _co以及所述b _o表示所述输出门的模型参数，所述C' _t表示第t次左目递归的记忆单元，所述C' _t-1表示第t-1次左目递归的记忆单元，所述tanh表示双曲正切，所述H' _t-1表示第t-1次左目隐变量，所述H' _t表示所述第t次左目隐变量；

所述处理模块202，具体用于采用如下方式计算所述第t次右目隐变量：

其中，所述i” _t表示第t次右目递归的网络输入门，所述X” _t表示所述第t次右目匹配相似度以及所述第t-1次右目注意力图，所述f” _t表示第t次右目递归的遗忘门，所述o' _t表示第t次右目递归的输出门，所述C” _t表示第t次右目递归的记忆单元，所述C” _t-1表示第t-1次右目递归的记忆单元，所述H” _t-1表示第t-1次右目隐变量，所述H” _t表示所述第t次右目隐变量。

更进一步地，本申请实施例中，介绍了一种计算第t次左目隐变量和第t次右目隐变量的具体方式，采用ConvLSTM所提供的计算关系，能够得到双目的隐变量。通过上述方式，能够有效地提升隐变量计算的可靠性，并且为方案的实现提供了可操作的依据。

可选地，在上述图7或图8所对应的实施例的基础上，本申请实施例提供的深度信息确定装置20的另一实施例中，

所述处理模块202，具体用于通过至少两层全连接层对所述第t次左目隐变量进行处理，得到所述第t次左目视差代价；

所述处理模块202，具体用于通过所述至少两层全连接层对所述第t次右目隐变量进行处理，得到所述第t次右目视差代价。

所述处理模块202，具体用于采用如下方式计算所述第t次左目视差预测值：

其中，所述d'*表示所述第t次左目视差预测值，所述D _max表示不同视差图的数量最大值，所述d'表示第t次左目视差值，所述σ表示sigmoid函数。所述c' _d表示第t次左目视差代价；

所述处理模块202，具体用于采用如下方式计算所述第t次右目视差预测值：

所述d”*表示所述第t次右目视差预测值，所述c” _d表示所述第t次右目视差代价，所述d”表示第t次右目视差值，所述c” _d表示第t次右目视差代价。

所述确定模块203，具体用于采用如下方式计算所述第一深度信息：

其中，所述Z'表示所述第一深度信息，所述d'*表示所述第t次左目视差预测值，所述B表示双目摄像头间距，所述f表示焦距；

所述根据所述第t次右目视差图确定第二深度信息，包括：

所述确定模块203，具体用于采用如下方式计算所述第二深度信息：

其中，所述Z”表示所述第二深度信息，所述d”*表示所述第t次右目视差预测值。

图9是本申请实施例提供的一种深度信息确定装置结构示意图，该深度信息确定装置300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对深度信息确定装置中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在深度信息确定装置300上执行存储介质330中的一系列指令操作。

深度信息确定装置300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由深度信息确定装置所执行的步骤可以基于该图9所示的深度信息确定装置结构。

CPU 322用于执行如下步骤：

可选地，CPU 322还用于执行如下步骤：

将所述第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图；

根据所述第t次左目映射视差图以及所述第t次左目视差图，生成第t次左目注意力图；

将所述第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图；

根据所述第t次右目映射视差图以及所述第t次右目视差图，生成第t次右目注意力图。

可选地，CPU 322还用于执行如下步骤：

获取从左目图像至右目图像的第t+1次左目匹配相似度，以及从所述右目图像到所述左目图像的第t+1次右目匹配相似度；

通过所述神经网络模型对所述第t+1次左目匹配相似度以及第t次左目注意力图进行处理，得到第t+1次左目视差图；

通过所述神经网络模型对所述第t+1次右目匹配相似度以及第t次右目注意力图进行处理，得到第t+1次右目视差图；

根据所述第t+1次左目视差图确定第三深度信息，并根据所述第t+1次右目视差图确定第四深度信息。

可选地，CPU 322具体用于执行如下步骤：

根据所述第t次左目匹配相似度以及所述第t-1次左目注意力图，利用 ConvLSTM计算得到第t次左目隐变量；

根据所述第t次左目隐变量获取第t次左目视差代价；

根据所述第t次右目匹配相似度以及所述第t-1次右目注意力图，利用所述ConvLSTM计算得到第t次右目隐变量；

根据所述第t次右目隐变量获取第t次右目视差代价；

可选地，CPU 322具体用于执行如下步骤：

采用如下方式计算所述第t次左目隐变量：

采用如下方式计算所述第t次右目隐变量：

可选地，CPU 322具体用于执行如下步骤：

通过至少两层全连接层对所述第t次左目隐变量进行处理，得到所述第t次左目视差代价；

通过所述至少两层全连接层对所述第t次右目隐变量进行处理，得到所述第t次右目视差代价。

可选地，CPU 322具体用于执行如下步骤：

采用如下方式计算所述第t次左目视差预测值：

采用如下方式计算所述第t次右目视差预测值：

可选地，CPU 322具体用于执行如下步骤：

采用如下方式计算所述第一深度信息：

采用如下方式计算所述第二深度信息：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种深度信息确定的方法，其特征在于，应用于配备双目摄像头的设施，所述方法包括：

获取从左目图像至右目图像的第t次左目匹配相似度，以及从所述右目图像到所述左目图像的第t次右目匹配相似度，其中，所述t为大于1的整数；

通过神经网络模型对所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

通过所述神经网络模型对所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图；

根据所述第t次左目映射视差图以及所述第t次左目视差图，生成第t次左目注意力图；

将所述第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图；

根据所述第t次右目映射视差图以及所述第t次右目视差图，生成第t次右目注意力图。
根据权利要求2所述的方法，其特征在于，所述根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息之后，所述方法还包括：

获取从左目图像至右目图像的第t+1次左目匹配相似度，以及从所述右目图像到所述左目图像的第t+1次右目匹配相似度；

通过所述神经网络模型对所述第t+1次左目匹配相似度以及第t次左目注意力图进行处理，得到第t+1次左目视差图；

通过所述神经网络模型对所述第t+1次右目匹配相似度以及第t次右目注意力图进行处理，得到第t+1次右目视差图；

根据所述第t+1次左目视差图确定第三深度信息，并根据所述第t+1次右目视差图确定第四深度信息。
根据权利要求1至3中任一项所述的方法，其特征在于，所述通过神经网络模型对所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图，包括：

根据所述第t次左目匹配相似度以及所述第t-1次左目注意力图，利用卷积长短记忆网络ConvLSTM计算得到第t次左目隐变量；

根据所述第t次左目隐变量获取第t次左目视差代价；

根据所述第t次左目视差代价计算第t次左目视差预测值，其中，所述第t次左目视差预测值用于生成所述第t次左目视差图；

所述通过所述神经网络模型对所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图，包括：

根据所述第t次右目匹配相似度以及所述第t-1次右目注意力图，利用所述ConvLSTM计算得到第t次右目隐变量；

根据所述第t次右目隐变量获取第t次右目视差代价；

根据所述第t次右目视差代价计算第t次右目视差预测值，其中，所述第t次右目视差预测值用于生成所述第t次右目视差图。
根据权利要求4所述的方法，其特征在于，所述根据所述第t次左目匹配相似度以及所述第t-1次左目注意力图，利用卷积长短记忆网络ConvLSTM计算得到第t次左目隐变量，包括：

采用如下方式计算所述第t次左目隐变量：

其中，所述i' _t表示第t次左目递归的网络输入门，所述*表示向量相乘，所述
表示卷积操作，所述σ表示sigmoid函数，所述W _xi、所述W _hi、所述W _ci以及所述b _i表示所述网络输入门的模型参数，所述X' _t表示所述第t次左目匹配相似度以及所述第t-1次左目注意力图，所述f' _t表示第t次左目递归的遗忘门，所述W _xf、所述W _hf、所述W _cf以及所述b _f表示所述遗忘门的模型参数，所述o' _t表示第t次左目递归的输出门，所述W _xo、所述W _ho、所述W _co以及所述b _o表示所述输出门的模型参数，所述C' _t表示第t次左目递归的记忆单元，所述C' _t-1表示第t-1次左目递归的记忆单元，所述tanh表示双曲正切，所述H' _t-1表示第t-1次左目隐变量，所述H' _t表示所述第t次左目隐变量；

所述根据所述第t次右目匹配相似度以及所述第t-1次右目注意力图，利用所述ConvLSTM计算得到第t次右目隐变量，包括：

采用如下方式计算所述第t次右目隐变量：

其中，所述i” _t表示第t次右目递归的网络输入门，所述X” _t表示所述第t次右目匹配相似度以及所述第t-1次右目注意力图，所述f” _t表示第t次右目递归的遗忘门，所述o' _t表示第t次右目递归的输出门，所述C” _t表示第t次右目递归的记忆单元，所述C” _t-1表示第t-1次右目递归的记忆单元，所述H” _t-1表示第t-1次右目隐变量，所述H” _t表示所述第t次右目隐变量。
根据权利要求4所述的方法，其特征在于，所述根据所述第t次左目隐变量获取第t次左目视差代价，包括：

通过至少两层全连接层对所述第t次左目隐变量进行处理，得到所述第t次左目视差代价；

所述根据所述第t次右目隐变量获取第t次右目视差代价，包括：

通过所述至少两层全连接层对所述第t次右目隐变量进行处理，得到所述第t次右目视差代价。
根据权利要求4所述的方法，其特征在于，所述根据所述第t次左目视差代价计算第t次左目视差预测值，包括：

采用如下方式计算所述第t次左目视差预测值：

其中，所述d'*表示所述第t次左目视差预测值，所述D _max表示不同视差图的数量最大值，所述d'表示第t次左目视差值，所述σ表示sigmoid函数。所述c' _d表示第t次左目视差代价；

所述根据所述第t次右目视差代价计算第t次右目视差预测值，包括：

采用如下方式计算所述第t次右目视差预测值：

所述d”*表示所述第t次右目视差预测值，所述c” _d表示所述第t次右目视差代价，所述d”表示第t次右目视差值，所述c” _d表示第t次右目视差代价。
根据权利要求5至7中任一项所述的方法，其特征在于，所述根据所述第t次左目视差图确定第一深度信息，包括：

采用如下方式计算所述第一深度信息：

其中，所述Z'表示所述第一深度信息，所述d'*表示所述第t次左目视差预测值，所述B表示双目摄像头间距，所述f表示焦距；

所述根据所述第t次右目视差图确定第二深度信息，包括：

采用如下方式计算所述第二深度信息：

其中，所述Z”表示所述第二深度信息，所述d”*表示所述第t次右目视差预测值。
一种配备双目摄像头的深度信息确定装置，其特征在于，所述装置包括：存储器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，具体包括如下步骤：

获取从左目图像至右目图像的第t次左目匹配相似度，以及从所述右目图像到所述左目图像的第t次右目匹配相似度，其中，所述t为大于1的整数；

通过神经网络模型对所述第t次左目匹配相似度以及第t-1次左目注意力图进行处理，得到第t次左目视差图；

通过所述神经网络模型对所述第t次右目匹配相似度以及第t-1次右目注意力图进行处理，得到第t次右目视差图；

根据所述第t次左目视差图确定第一深度信息，并根据所述第t次右目视差图确定第二深度信息；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
根据权利要求9所述的深度信息确定装置，其特征在于，

所述处理器还用于将所述第t次右目视差图映射至左目坐标系，得到第t次左目映射视差图；

根据所述第t次左目映射视差图以及所述第t次左目视差图，生成第t次左目注意力图；

将所述第t次左目视差图映射至右目坐标系，得到第t次右目映射视差图；

根据所述第t次右目映射视差图以及所述第t次右目视差图，生成第t次右目注意力图。
根据权利要求9所述的深度信息确定装置，其特征在于，

所述处理器还用于获取从左目图像至右目图像的第t+1次左目匹配相似度，以及从所述右目图像到所述左目图像的第t+1次右目匹配相似度；

通过所述神经网络模型对所述第t+1次左目匹配相似度以及第t次左目注意力图进行处理，得到第t+1次左目视差图；

通过所述神经网络模型对所述第t+1次右目匹配相似度以及第t次右目注意力图进行处理，得到第t+1次右目视差图；

根据所述第t+1次左目视差图确定第三深度信息，并根据所述第t+1次右目视差图确定第四深度信息。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任意一项所述的方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1-8任意一项所述的方法。