WO2020020160A1

WO2020020160A1 - 图像视差估计

Info

Publication number: WO2020020160A1
Application number: PCT/CN2019/097307
Authority: WO
Inventors: 石建萍
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2018-07-25
Filing date: 2019-07-23
Publication date: 2020-01-30
Also published as: CN109191515A; US20210142095A1; SG11202100556YA; CN109191515B; JP2021531582A; JP7108125B2

Abstract

本申请公开了一种图像视差估计方法及装置、存储介质，其中，所述的方法包括：获取目标场景的第一视角图像和第二视角图像；对所述第一视角图像进行特征提取处理，得到第一视角特征信息；对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。

Description

图像视差估计

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种图像视差估计方法及装置、存储介质。

背景技术

视差估计是计算机视觉的基础研究问题，在诸多领域中有着深入的应用，例如深度预测、场景理解等等。大多数方法会将视差估计任务作为一个匹配问题，从这个角度出发，这些方法利用稳定可靠的特征来表示图像块，并从立体图像中寻找近似的图像块作为匹配，进而计算视差值。

发明内容

本申请提供一种图像视差估计的技术方案。

第一方面，本申请实施例提供了一种图像视差估计方法，所述方法包括：获取目标场景的第一视角图像和第二视角图像；对所述第一视角图像进行特征提取处理，得到第一视角特征信息；对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。

上述方案中，可选地，所述方法还包括：对所述第二视角图像进行特征提取处理，得到第二视角特征信息；基于所述第一视角特征信息与所述第二视角特征信息进行关联处理，得到所述关联信息。

上述方案中，可选地，基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的所述关联信息，得到所述第一视角图像和所述第二视角图像的所述视差预测信息，包括：对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；基于所述混合特征信息，得到视差预测信息。

上述方案中，可选地，所述图像视差估计方法通过视差估计神经网络实现，所述方法还包括：基于所述视差预测信息，训练所述视差估计神经网络。

上述方案中，可选地，基于所述视差预测信息，训练所述视差估计神经网络，包括：对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：基于所述第一视角重建语义信息，确定语义损失值；基于所述语义损失值，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，还包括：基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，基于所述视差预测信息，训练所述视差估计神经网络，包括：基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像之间的光度差，确定光度损失值；基于所述视差预测信息，确定平滑损失值；根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，所述第一视角图像和所述第二视角图像对应于标注视差信息，所述方法还包括：基于所述视差预测信息和所述标注视差信息，训练用于实现所述方法的视差估计神经网络。

上述方案中，可选地，基于所述视差预测信息和所述标注视差信息，训练所述视差估计神经网络，包括：基于所述视差预测信息与所述标注视差信息，确定视差回归损失值；根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。

第二方面，本申请实施例提供了一种图像视差估计装置，所述装置包括：图像获取模块，用于获取目标场景的第一视角图像和第二视角图像；视差估计神经网络，用于根据所述第一视角图像和所述第二视角图像得到视差预测信息，包括：初级特征提取模块，用于对所述第一视角图像进行特征提取处理，得到第一视角特征信息；语义特征提取模块，用于对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；视差回归模块，用于基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。

上述方案中，可选地，所述初级特征提取模块，还用于对所述第二视角图像进行特征提取处理，得到第二视角特征信息；所述视差回归模块还包括：关联特征提取模块，用于基于所述第一视角特征信息与所述第二视角特征信息进行关联处理，得到所述关联信息。

上述方案中，可选地，所述视差回归模块，还用于：对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；基于所述混合特征信息，得到所述视差预测信息。

上述方案中，可选地，所述装置还包括：第一网络训练模块，用于基于所述视差预测信息，训练所述视差估计神经网络。

上述方案中，可选地，所述第一网络训练模块，还用于：对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，所述第一网络训练模块，还用于：基于所述第一视角重建语义信息，确定语义损失值；基于所述语义损失值，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，所述第一网络训练模块，还用于：基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，所述第一网络训练模块，还用于：基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失值；基于所述视差预测信息，确定平滑损失值；根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。

上述方案中，可选地，所述装置还包括：第二网络训练模块，用于基于所述视差预测信息和标注视差信息，训练所述视差估计神经网络，所述第一视角图像和所述第二视角图像对应于标注视差信息。

上述方案中，可选地，所述第二网络训练模块，还用于：基于所述视差预测信息与标注视差信息，确定视差回归损失值；根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。

第三方面，本申请实施例提供了一种图像视差估计装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例所述的图像视差估计方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请实施例所述的图像视差估计方法的步骤。

本申请提供的技术方案，获取目标场景的第一视角图像和第二视角图像；对所述第一视角图像进行特征提取处理，得到第一视角特征信息；对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息；能提高视差预测的准确率。

附图说明

图1为本申请实施例提供的一种图像视差估计方法的实现流程示意图。

图2为本申请实施例提供的视差估计系统架构示意图。

图3A-图3D为本申请实施例提供的KITTI Stereo数据集上采用现有预测方法与本申请预测方法的效果对比图。

图4A和图4B为本申请实施例提供的在KITTI Stereo测试集上有监督的定性结果，其中，图4A为KITTI 2012测试数据定性结果，图4B为KITTI 2015测试数据定性结果。

图5A-图5C为本申请实施例提供的CityScapes验证集上的无监督定性结果。

图6为本申请实施例提供的一种图像视差估计装置的组成结构示意图。

具体实施方式

为了更好的解释本申请，下面，先介绍一些视差估计方法的例子。

视差估计是计算机视觉中的基本问题。它具有广泛的应用，包括深度预测、场景理解和自动驾驶。视差估计的主要过程是从立体图像对的左右图像中找出匹配的像素，匹配像素间的距离即为视差。大多数视差估计方法主要依靠设计可靠的特征来表示图像块，然后在左右图像上选择匹配的图像块，进而计算视差。这些方法中，大部分采用有监督的学习方式来训练神经网络预测视差，也有少部分方法尝试使用无监督方法进行训练。

最近，随着深度神经网络的发展，视差估计的性能大大提高。得益于深度神经网络在提取图像特征时较好的鲁棒性，可以实现更加准确可靠的匹配图像块的搜索与定位。

但是，尽管给定了特定的局部搜索范围，且深度学习方法本身具有较大的感受野，仍然难以克服局部歧义的问题，局部歧义主要来自于图像中的无纹理区域。例如，对道路中心、车辆中心、强光区域、阴影区域的视差预测往往是不正确的，这主要是因为这些区域缺乏足够的纹理信息，光度一致性损失不足以帮助神经网络寻求正确的匹配位置。并且，而这个问题在以有监督学习或无监督学习的方式训练神经网络中都会遇到。

基于此，本申请提出了一种利用语义信息的图像视差估计的技术方案。

下面结合附图和具体实施例对本申请的技术方案进一步详细阐述。

本申请实施例提供一种图像视差估计方法，如图1所示，所述方法主要包括以下步骤。

步骤101、获取目标场景的第一视角图像和第二视角图像。

这里，所述第一视角图像和所述第二视角图像是由双目视觉系统中的两个摄像机或两个相机在同一时刻所采集到的关于同一时空场景图像。

例如，所述第一视角图像可以是所述双目视觉系统中的第一摄像机采集的图像，所述第二视角图像可以是所述双目视觉系统中的第二摄像机采集的图像。

第一视角图像和第二视角图像表示针对同一场景在不同视角采集到的图像。第一视角图像和第二视角图像可以分别为左视角图像和右视角图像。具体地，所述第一视角图像可以是左视角图像，对应的，所述第二视角图像可以是右视角图像；或者，所述第一视角图像可以是右视角图像，对应的，所述第二视角图像可以是左视角图像。本申请实施例对第一视角图像和第二视角图像的具体实现不作限定。

这里，所述场景包括辅助驾驶场景、机器人跟踪场景、机器人定位场景等。本申请对此不作限定。

步骤102、对所述第一视角图像进行特征提取处理，得到第一视角特征信息。

步骤102可以利用卷积神经网络来实现。例如，所述第一视角图像可以输入到视差估计神经网络中进行处理，为了便于描述，下文中将该视差估计神经网络命名为SegStereo网络。

第一视角图像可以作为视差估计神经网络中的用于进行特征提取处理的第一子网络的输入。具体地，向所述第一子网络输入第一视角图像，经过多层卷积运算或者在卷积处理的基础上进一步地经过其他处理之后得到第一视角特征信息。

这里，所述第一视角特征信息为第一视角初级特征图，或者，第一视角特征信息和第二视角特征信息可以为三维张量，并且包含至少一个矩阵，本公开实施例对第一视角特征信息的具体实现不做限定。

利用视差估计神经网络的特征提取网络或卷积子网络提取第一视角图像的特征信息或初级特征图。

步骤103、对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息。

SegStereo网络至少包括2个子网络，分别记为第一子网络和第二子网络；所述第一子网络可以是特征提取网络，所述第二子网络可以是语义分割网络。所述特征提取网络能够得到视角初级特征图，所述语义分割网络能够得到语义特征图。示例性地，第一子网络可以利用PSPNet-50(Pyramid Scene Parsing Network)的至少一部分实现，第二子网络的至少一部分也可以利用PSPNet-50实现，也就是说第一子网络和第二子网络可以共享PSPNet-50的部分结构。但本申请实施例对SegStereo网络的具体实现不作限定。

可以将第一视角图像输入到语义分割网络中进行语义分割处理，得到第一视角语义分割信息。

也可以将第一视角特征信息输入到语义分割网络中进行语义分割处理，得到第一视角语义分割信息。相应地，对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息，包括：基于第一视角特征信息，得到第一视角语义分割信息。

第一视角语义分割信息可以为三维张量或者第一视角语义特征图，本公开实施例对第一视角语义分割信息的具体实现不作限定。

第一视角初级特征图可以作为视差估计神经网络中的用于进行语义信息提取处理的第二子网络的输入。具体地，向第二子网络输入第一视角特征信息或第一视角初级特征图，经过多层卷积运算或者在卷积处理的基础上进一步地经过其他处理之后得到第一视角语义分割信息。

步骤104、基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。

可以对第一视角图像和第二视角图像进行关联处理，得到第一视角图像和第二视角图像的关联信息。

也可以基于第一视角特征信息与第二视角特征信息进行关联处理，得到所述第一视角图像和所述第二视角图像的关联信息；其中，所述第二视角特征信息是经对所述第二视角图像进行特征提取处理得到的。第二视角特征信息可以为第二视角初级特征图；或者，第二视角特征信息可以为三维张量，并且包含至少一个矩阵。本公开实施例对第二视角特征信息的具体实现不做限定。

第二视角图像可以作为视差估计神经网络中的用于进行特征提取处理的第一子网络的输入。具体地，向所述第一子网络输入第二视角图像，经过多层卷积运算之后得到第二视角特征信息。然后，基于所述第一视角特征信息与所述第二视角特征信息进行关联计算，得到所述第一视角图像和所述第二视角图像的关联信息。

基于所述第一视角特征信息与所述第二视角特征信息进行关联计算，包括：对所述第一视角特征信息与所述第二视角特征信息中可能匹配的图像块进行关联计算，得到关联信息。也就是说，对第一视角特征信息与第二视角特征信息做相关(correlation)计算，得到关联信息，关联信息主要用于匹配特征的提取。关联信息可以为关联特征图。

第一视角初级特征图和第二视角初级特征图可以作为视差估计神经网络中的用于关联运算的关联运算模块的输入。例如，向图2所示关联运算模块240输入第一视角初级特征图和第二视角初级特征图，经过关联运算之后得到所述第一视角图像和所述第二视角图像的关联信息。

基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息，包括：对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；基于所述混合特征信息，得到视差预测信息。

这里的混合处理可以为连接处理，例如融合或者按通道叠加，等等，本公开实施例对此不做限定。

在对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理之前，可以对第一视角特征信息、第一视角语义分割信息和关联信息中的一项或者多项进行转换处理，以使得经过所述转换处理后的第一视角特征信息、第一视角语义分割信息和关联信息具有相同的维度。

所述方法还可包括：对所述第一视角特征信息进行转换处理，得到第一视角转换特征信息。此时，可以对第一视角转换特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息。比如，对所述第一视角特征信息进行空间转换处理，得到第一视角转换特征信息，其中，该第一视角转换特征信息的维度是预设的。

可选地，第一视角转换特征信息可以为第一视角转换特征图，本公开实施例对第一视角转换特征信息的具体实现不作限定。

例如，对所述第一子网络输出的所述第一视角特征信息，再经过一个卷积层的卷积运算之后，得到第一视角转换特征信息。可采用卷积模块对第一视角特征信息进行处理，得到第一视角转换特征信息。

可选地，混合特征信息可以为混合特征图，本公开实施例对混合特征信息的具体实现不作限定。视差预测信息可以为视差预测图，本公开实施例对视差预测信息的具体实现不作限定。

SegStereo网络除包括第一子网络和第二子网络外，还包括第三子网络。所述第三子网络用于确定第一视角图像和第二视角图像的视差预测信息，所述第三子网络可以是视差回归网络。

具体地，向所述视差回归网络输入所述第一视角转换特征信息、所述关联信息、所述第一视角语义分割信息，所述视差回归网络将这些信息合并成混合特征信息，基于所述混合特征信息回归得到视差预测信息。

基于所述混合特征信息，利用图2所示视差回归网络中的残差网络和反卷积模块250预测得到视差预测信息。

也就是说，可以将第一视角转换特征图、关联特征图、第一视角语义特征图合并，得到混合特征图，从而实现语义特征的嵌入。在得到混合特征图之后，继续利用视差回归网络的残差网络以及反卷积结构，最终输出视差预测图。

SegStereo网络主要采用了残差结构，能够提取更具辨识度的图像特征，并且在提取第一视角图像和第二视角图像的关联特征的同时，嵌入了高层的语义特征，从而提高了预测的准确性。

上述方法可以为视差估计神经网络的应用过程，即利用训练好的视差估计神经网络对待处理图像对进行视差估计的方法。在一些例子中，上述方法可以为视差估计神经网络的训练过程，即上述方法也可以应用于训练视差估计神经网络，此时，第一视角图像和第二视角图像为样本图像。

本公开实施例中，可以通过无监督方式训练预定义的神经网络，得到包含所述第一子网络、所述第二子网络和所述第三子网络的视差估计神经网络。或者，通过有监督方式训练视差估计神经网络，得到包含所述第一子网络、所述第二子网络和所述第三子网络的视差估计神经网络。

所述方法还包括：基于所述视差预测信息，训练所述视差估计神经网络。

基于所述视差预测信息，训练所述视差估计神经网络，包括：对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。第一视角重建语义信息可以是重建的第一语义特征图。

可以对第二视角图像进行语义分割处理，得到第二视角语义分割信息。

也可以将第二视角特征信息输入到语义分割网络中进行处理，得到第二视角语义分割信息。相应地，对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息，包括：基于第二视角特征信息，得到第二视角语义分割信息。

可选地，第二视角语义分割信息可以为三维张量或者第二视角语义特征图，本公开实施例对第二视角语义分割信息的具体实现不作限定。

第二视角初级特征图可以作为视差估计神经网络中的用于进行语义信息提取处理的第二子网络的输入。具体地，向第二子网络输入第二视角特征信息或第二视角初级特征图，经过多层卷积运算或者在卷积处理的基础上进一步地经过其他处理之后得到第二视角语义分割信息。

利用视差估计神经网络的语义分割网络或卷积子网络提取第一视角语义特征图和第二视角语义特征图。

可将第一视角特征信息和第二视角特征信息接入到语义分割网络，由语义分割网络输出第一视角语义分割信息和第二视角语义分割信息。

可选地，基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：基于所述第一视角重建语义信息，确定语义损失值；结合所述语义损失值，调整所述视差估计神经网络的网络参数。

基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。

可选地，基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：基于所述第一视角重建语义信息和所述第一视角语义分割信息二者之间的差异，确定语义损失值；结合所述语义损失值，调整所述视差估计神经网络的网络参数。

可选的，基于预测得到的视差预测信息和第二视角的语义分割信息进行重建操作，得到第一视角重建语义信息；还可以将所述第一视角重建语义信息与真实的第一语义标签进行比较，得到语义损失值，结合所述语义损失值，调整所述视差估计神经网络的网络参数。该真实的第一语义标签是手动进行标注的，此处的无监督学习方式是针对视差的无监督学习，而非针对语义分割信息的无监督学习。

语义损失也可以为交叉熵损失，但本公开实施例对语义损失的具体实现不作实现。

在训练视差估计神经网络时，定义了用以计算语义损失的函数，该函数可以引入丰富的语义一致性信息，从而使得训练出来的网络可以克服常见的局部歧义问题。

基于所述视差预测信息，训练所述视差估计神经网络，包括：基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失值；基于所述视差预测信息，确定平滑损失值；根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。

通过对所述视差预测信息中不平滑区域施加约束，可以确定平滑损失。

基于预测得到的视差预测信息和真实的第二视角图像进行重建操作，得到第一视角重建图像；比较所述第一视角重建图像与真实的第一视角图像之间的光度差，可以得到光度损失。

通过重建图像度量光度差的方式，能够以无监督的方式训练网络，从而在很大程度上减少了对于真值图像的依赖。

基于所述视差预测信息，训练所述视差估计神经网络，还包括：基于所述视差预测信息和所述第二视角图像进行重建操作，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失；通过对所述视差预测信息中不平滑区域施加约束，确定平滑损失；基于所述第一视角重建语义信息和所述真实的第一语义标签二者之间的差异，确定语义损失；根据所述光度损失、所述平滑损失和所述语义损失，确定总体损失；基于所述总体损失最小化来训练视差估计神经网络。其中，训练时所采用的训练集无需提供真值视差图像。

这里，所述总体损失等于各个损失的加权和。

如此，不需要提供真值视差图像，可以根据重建图像与原图像的光度差来训练网络；在提取第一视角图像和第二视角图像的关联特征时，嵌入了语义特征图，并且定义了语义损失，结合低层纹理信息与高层语义信息，增加了语义一致性约束，使得训练出来的神经网络在大目标区域的视差预测水平有所提高，在一定程度上克服了局部歧义问题。

可选地，所述训练视差估计神经网络的方法还包括：基于所述视差预测信息，通过有监督方式训练所述视差估计神经网络。

具体地，所述第一视角图像和所述第二视角图像对应于标注视差信息，基于所述视差预测信息和所述标注视差信息，训练所述视差估计神经网络。

可选地，基于所述视差预测信息和标注视差信息，训练所述视差估计神经网络，包括：基于所述视差预测信息与标注视差信息，确定视差回归损失值；基于所述视差预测信息，确定平滑损失值；根据所述视差回归损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。

可选地，基于所述视差预测信息和标注视差信息，训练所述视差估计神经网络，包括：基于所述视差预测信息与标注视差信息，确定视差回归损失；通过对视差预测信息中不平滑区域施加约束，确定平滑损失；基于第一视角重建语义信息和真实的第一语义标签二者之间的差异，确定语义损失；根据所述视差回归损失、所述语义损失和所述平滑损失，确定有监督方式训练下的总体损失；基于所述总体损失最小化来训练视差估计神经网络；其中，训练时所采用的训练集需要提供标注视差信息。

可选地，基于所述视差预测信息和标注视差信息，训练所述视差估计神经网络，包括：基于所述视差预测信息与标注视差信息，确定视差回归损失；通过对视差预测信息中不平滑区域施加约束，确定平滑损失；基于所述第一视角重建语义信息和所述第一视角语义分割信息二者之间的差异，确定语义损失；根据所述视差回归损失、所述语义损失和所述平滑损失，确定有监督方式训练下的总体损失；基于所述总体损失最小化来训练视差估计神经网络；其中，训练时所采用的训练集需要提供标注视差信息。

如此，可以通过有监督方式训练得到视差估计神经网络，对于有真值信号的位置，计算预测值与真实值之差，作为有监督的视差回归损失，此外，无监督训练的语义损失与平滑损失仍然适用。

所述第一子网络、所述第二子网络和所述第三子网络均是对视差估计神经网络进行训练得到的子网络。对于不同子网络，即对于第一子网络、第二子网络和第三子网络，不同子网络的输入和输出内容是不一样的，但是，它们针对的都是同一目标场景。

对视差估计神经网络进行训练的方法包括：采用训练样本集对视差估计神经网络同时进行视差预测图训练与语义特征图训练，以得到所述第一子网络、所述第二子网络和第三子网络的优化后的参数。

对视差估计神经网络进行训练的方法包括：先采用训练样本集对视差估计神经网络进行语义特征图训练；再采用所述训练样本集对经过语义特征图预测训练的视差估计神经网络进行视差预测图训练，以得到所述第二子网络和所述第一子网络的优化后的参数。

也就是说，在对视差估计神经网络进行训练时，可分阶段对其进行语义特征图预测训练与视差预测图训练。

本申请实施例提出的基于语义信息的图像视差估计方法，利用端到端的视差预测神经网络，输入立体图像对的左右视角的图像，可以直接得到视差预测图，能满足实时性需求。同时，通过重建图像和原图像度量光度差的方式，能够以无监督的方式训练网络，很大程度上减少了对于真值图像的依赖。另外，在提取左右视角图像关联特征时，嵌入了语义特征图，并且定义了语义损失，结合低层纹理信息与高层语义信息，增加了语义一致性约束，提高了网络在大目标区域如大的路面、大车等的视差预测水平，在一定程度上克服了局部歧义问题。

图2示出了一种视差估计系统架构示意图，将该视差估计系统架构记为SegStereo视差估计系统架构，该SegStereo视差估计系统架构适合于无监督学习和有监督学习。

首先，给出视差估计神经网络基本的网络结构；然后，详细介绍在该视差估计神经网络中如何引入语义线索策略；最后，展示如何在无监督和有监督的方式下训练视差估计神经网络时使用的损失项的计算方法。

首先描述视差估计神经网络的基本结构。

整个系统架构示意图如图2所示，经过预校准的立体图像对可以包括第一视角图像(或称为左视角图像)I ^l和第二视角图像(或称为右视角图像)I ^r。可以采用一个浅层的神经网络210来提取初级图像特征图，将第一视角图像I ^l输入该浅层的神经网络210，得到第一视角初级特征图F ^l，将第二视角图像I ^r输入该浅层的神经网络210，得到第二视角初级特征图F ^r。其中，第一视角初级特征图可表示前述第一视角特征信息，第二视角初级特征图可表示前述第二视角特征信息。浅层神经网络210可以是卷积核为3*3*256的卷积块，该卷积块包括卷积层以及批量归一化和修正线性单元(ReLU，Rectified linear unit)层。浅层神经网络210可以是第一子网络。

在初级特征图的基础之上，利用一个训练好的的语义分割网络220提取语义特征图，该语义分割网络220可以用部分PSPNeT-50网络实现。将第一视角初级特征图F ^l输入语义分割网络220，可以得到第一视角语义特征图

将第二视角初级特征图F ^r输入语义分割网络220，可以得到第二视角语义特征图

为了保留第一视角图像的细节，对于第一视角初级特征图F ^l，可以使用另一个卷积块230计算第一视角转换特征图

这里，相对于原始图像的尺寸，初级特征图、语义特征图和转换特征图的尺寸有缩减，例如是原始图像的尺寸的1/8。其中，第一视角初级特征图、第二视角初级特征图、第一语义特征图、第二语义特征图和第一视角转换特征图的尺寸一致。第一视角图像和第二视角图像的尺寸一致。

可以使用关联模块240来计算第一视角初级特征图F ^l和第二视角初级特征图F ^r之间的匹配代价，得到关联特征图F _c。关联模块240可以应用光流预测网络(Flow Net)中使用的相关方法来计算两幅特征图的相关性。在相关运算F ^l⊙F ^r中，最大视差参数设置可为d。由此可得到如尺寸为h×w×(d+1)的关联特征图F _c，其中h为第一视角初级特征图F ^l的高度，w为第一视角初级特征图F ^l的宽度。

将第一视角转换特征图

第一视角语义特征图

与关联特征图F _c拼接，可以得到混合特征图(或称为混合特征信息表示)F _h。将混合特征图F _h送入后续的残差网络和反卷积模块250，可得到尺寸与第一视角图像I ^l的原始尺寸相同的视差图D。

下面详细描述本申请提供的语义特征对视差估计神经网络的作用，以及在视差网络应用语义特征的模块。

如前所述，由于视差估计的难点在于局部歧义的问题，局部歧义主要来自于图像中的相对模糊的无纹理区域。这些区域内部具有连续性，这些区域在分割中具有明确的语义含义。所以可以使用语义线索来帮助预测和纠正最终的视差图。可以以两种方式整合这些语义线索。第一方面，在特征学习过程将语义线索嵌入到视差预测图中。第二方面，通过在损失项的计算中引入语义线索，来指导神经网络的训练过程。

首先介绍第一方面，如何在特征学习过程将语义线索嵌入到视差预测图中。

如前所述，参考图2，输入的立体图像对包括第一视角图像和第二视角图像，通过浅层神经网络210可以分别得到第一视角初级特征图和第二视角初级特征图，然后可以使用语义分割网络220分别提取第一视角初级特征图和第二视角初级特征图的语义特征，得到第一视角语义特征图和第二视角语义特征图。在输入的立体图像对上采用已训练好的浅层神经网络210和语义分割网络220(例如，可以由PSP Net-50框架实现)提取特征，并将语义分割网络220最终的特征映射(即conv5_4特征)的输出作为第一视角语义特征图

和第二视角语义特征图

浅层神经网络210可以使用PSP Net-50网络的一部分，将该网络的中间特征(即conv3_1特征)的输出作为第一视角初级特征图F ^l和第二视角初级特征图F ^r。为了嵌入语义特征，可以在第一视角语义特征图

上进行卷积操作，例如可以应用具有卷积核的大小为1×1×128的一个卷积块进行卷积操作，得到变换后的第一语义特征图

(图2中未示出)。然后，将

与第一视角转换特征图

和关联特征图F _c连接起来，得到混合特征图(或称为混合特征信息表示)F _h，并将所得到的混合特征图F _h馈送到视差回归网络的其余部分、例如后续的残差网络和反卷积模块250。

然后介绍第二方面，如何在损失项的计算中引入语义线索以训练神经网络。

在训练视差估计神经网络时，损失项引入语义线索，还可以帮助指导视差学习。语义线索可以用语义交叉熵损失L _seg来表征。可以利用图2中的重建模块260进行重建操作，作用在第二视角语义特征图和视差预测图上，得到重建的第一语义特征图，然后可以利用第一视角语义特征图的真值语义标签，来度量语义交叉熵损失L _seg。第二视角语义特征图

的尺寸是原图、即第二视角图像的尺寸大小的1/8，视差预测图D和第二视角图像的尺寸相同、即是全尺寸的。为了进行特征重建，首先将第二视角语义特征图上采样到全尺寸，然后将特征重建应用于上采样的全尺寸的第二视角语义特征图以及视差预测图D，得到全尺寸的重建第一视角语义特征图。将该重建第一视角语义特征图进行下采样，缩放到1/8的全尺寸，从而得到重建的第一语义特征图

然后采用卷积核大小为1×1×C的卷积分类器来正则化视差学习，其中C是语义类的个数。最后使用softmax损失函数的形式表示语义交叉熵损失L _seg。

对于本例的视差估计神经网络的训练来讲，损失项除了语义交叉熵损失之外，还包括其他参数。上述语义信息可以结合到无监督方式和有监督方式的模型训练中。介绍这两个方式下的总体损失的计算方法如下。

无监督方式

输入的立体图像对包括两幅图像，其中的一幅图像可以利用视差预测图从另一幅图像重建，理论上重建得到的图像应该接近原始输入的图像。利用光度一致性，以帮助在无监督的方式中学习视差。假设给定视差预测图D，在第二视角图像I ^r上应用例如图2所示在重建模块260进行图像重建操作，并得到第一视角重建图像

然后采用L1范数来正则化光度一致性，得到的光度损失L _p如公式(1)所示：

其中，N是像素的数量，i和j是像素的索引，|| || ₁是L1范数。

光度一致性能够以无监督方式进行视差学习。如果L _p中没有正则化项来估计视差局部平滑度，那么局部视差可能是不连续的。为了弥补这个问题，可以利用L1范数，对于视差预测图的梯度图

的平滑度进行惩罚或约束，得到的平滑损失L _s为如公式(2)所示：

其中，ρ _s(·)是用泛化Charbonnier函数实现的空间平滑惩罚函数。

为了利用语义线索，考虑到语义特征嵌入和语义损失，在每一个像素位置上，针对每一种可能的语义类别都有一个预测值。语义类别可以是路面、车辆、建筑等，同时使用真实标签来标记语义类别，真实标签可以是一个类别编号。真实标签上的预测值最大。语义交叉熵损失L _seg如公式(3)所示：

其中，

这里，f _yi是真实标签，yj为类别编号，f _yj是类别为yj的激活值(activation)，i为像素索引，定义单个像素的softmax损失如下：对于整张图像，针对带标签的像素位置计算softmax损失，带标签的像素集合为N _v。

无监督方式下的总体损失L _unsup，包含光度损失L _p、平滑损失L _s和语义交叉熵损失L _seg。为了平衡不同损失分支的学习，为光度损失L _p引入损失权重λ _p，为平滑损失L _s引入损失权重λ _s，为语义交叉熵损失L _seg引入损失权重λ _seg。因此，总体损失L _unsup如公式(4)所示：

L _unsup＝λ _pL _p+λ _sL _s+λ _segL _seg (4)

然后，基于总体损失L _unsup最小化来训练视差预测神经网络，从而得到预设的视差预测神经网络。具体的训练方法可以使用本领域技术人员常见的方法，在此不再赘述。有监督的方式

本申请提出的用于帮助视差预测的语义线索，在有监督的方式下也能很好地发挥作用。

在有监督的方式下，对于一个立体图像对的样本，除了第一视角图像和第二视角图像外，还同时提供该立体图像对的真值视差图像

因此，可以直接采用L1范数来正则化预测回归。视差回归损失L _r可表示为如下公式(5)：

有监督方式下的总体损失L _sup，包含光视差回归损失L _r、平滑损失L _s和语义交叉熵损失L _seg。为了平衡不同损失的学习，为视差回归损失L _r引入损失权重λ _r，为平滑损失L _s引入损失权重λ _s，为语义交叉熵损失L _seg引入损失权重λ _seg。因此，总体损失L _sup如公式(6)所示：

L _sup＝λ _rL _r+λ _sL _s+λ _segL _seg (6)

然后，基于总体损失L _sup最小化来训练视差预测神经网络，从而得到预设的视差预测神经网络。同样的，具体的训练方法可以使用本领域技术人员常见的方法，在此不再赘述。

本申请提供的视差预测神经网络在提取左右视角图像的关联信息的同时，嵌入了高层的语义特征，这有助于提高视差图的预测精度。并且，在训练网络时，定义了用于计算语义交叉熵损失的函数，该函数可以引入丰富的语义一致性信息，从而可有效克服常见的局部歧义问题。此外，在采用无监督的学习方式时，由于可以根据重建图像与原始图像的光度差来训练网络输出正确的视差值，不需要提供大量的真值视差图像，可有效降低训练复杂度和计算成本。

需要说明的是，本技术方案的主要贡献至少包括下述几部分：

提出的SegStereo框架，将语义分割信息合并到视差估计中，其中语义一致性可以作为视差估计的主动引导；语义特征嵌入策略和语义损失函数softmax可以在无监督或有监督的方式下帮助训练网络；提出的视差估计方法能在KITTI Stereo2012和2015的基准中获得最先进的成果；在CityScapes数据集上的预测也显示该方法的有效性。其中，KITTI Stereo数据集是自动驾驶场景下的计算机视觉算法评测数据集，该数据集除了提供生数据格式的数据外，还为每项任务提供了基准。CityScapes数据集是一个面向城市道路街景语义理解的数据集。

图3A-图3D示出了KITTI Stereo数据集上采用现有预测方法与本申请预测方法的效果对比图，其中，图3A和图3B表示输入的立体图像对，图3C表示根据现有预测方法对图3A和图3B进行处理后得到的误差图，图3D表示根据本申请预测方法对图3A和图3B进行处理后得到的误差图。其中，误差图是重建图像与输入的原始图像相减得到的。图3C中的右下方的深色区域表示错误的预测区域。相比于图3C，从图3D可以看出，右下方的错误区域大幅减少。因此在语义线索的指导下，SegStereo网络的视差估计更加准确，特别是在局部模糊区域。

图4A和图4B示出了KITTI测试集的几个定性例子，通过本申请提供的方法，SegStereo网络处理具有挑战性的复杂场景也可以得到较好的视差估计结果。图4A示出了KITTI 2012测试数据定性结果，如图4A所示，从左到右依次为：第一视角图像、视差预测图、误差图。图4B示出了KITTI 2015测试数据定性结果，如图4B所示，从左到右依次为：第一视角图像、视差预测图、误差图。从图4A和图4B可以看出，在KITTI Stereo测试集上有监督的定性结果。通过融入语义信息，本申请提出的方法能够处理复杂的场景。

SegStereo网络还可以适应其他数据集，例如可以在CityScapes验证集上测试无监督训练得到的SegStereo网络。图5A-图5C示出了CityScapes验证集上的无监督训练网络的预测结果，在图5A为第一视角图像，图5B为使用SGM算法对图5A进行处理后得到的视差预测图、图5C为使用SegStereo网络对图5A进行处理后得到的视差预测图。显然，与SGM算法相比，SegStereo网络在全局场景结构和对象细节方面产生了更好的结果。

综上，本申请提供的SegStereo视差估计架构将语义线索引入视差估计网络。具体来说，可以使用PSP Net作为分割分支以提取立体图像对的语义特征，并使用残差网络(ResNet)和关联模块(Correlation)作为视差部分以回归视差预测图。关联模块用于编码立体图像对的匹配线索。分割特征作为语义特征嵌入关联模块后面的视差分支。此外，通过语义损失正则化重建立体图像对的语义的一致性，这进一步增强视差估计的鲁棒性。语义分割网络和视差回归网络都是完全卷积的，所以该网络可以进行端到端的训练。

将语义线索纳入SegStereo网络可以用于无监督和有监督的训练。在无监督训练过程中，光度一致性损失和语义交叉熵损失均被计算并向后传播。语义特征嵌入和语义交叉熵损失都可以引入语义一致性的有利约束。此外，对于有监督的训练方案，可以采用有监督的视差回归损失而不是无监督的光度一致性损失来训练网络，这将获得KITTI Stereo基准上的先进的成果，如在KITTI Stereo2012和2015的基准中获得先进的成果。在CityScapes数据集上的预测也显示了该方法的有效性。

上述结合语义信息的立体图像的视差估计方法，首先获取目标场景的第一视角图像和第二视角图像，利用一个特征提取网络提取第一视角图像和第二视角图像的初级特征图；针对第一视角的初级特征图，增加一个卷积块得到第一视角转换特征图；在第一视角初级特征图和第二视角初级特征图的基础之上，采用关联模块计算第一视角初级特征图和第二视角初级特征图的关联特征图；再使用一个语义分割网络来获取第一视角语义特征图；将第一视角转换特征图、关联特征图与第一视角语义特征图合并起来得到混合特征图；最后利用残差网络及反卷积模块回归出视差预测图。如此，能利用由特征提取网络、语义分割网络、视差回归网络构成的视差估计神经网络，输入第一视角图像和第二视角图像，能快速输出视差预测图，从而实现端到端的视差预测，并满足实时性需求。这里，在计算第一视角图像和第二视角图像的匹配特征时，嵌入了语义特征图，也即增加了语义一致性约束，在一定程度上克服了局部歧义问题，能提高视差预测的准确率。

应理解，图1至图2所示的例子中的各种具体实现方式可以根据其逻辑以任意方式进行组合，而非必须同时满足，也就是说，图1所示的方法实施例中的任意一个或多个步骤和/或流程可以以图2所示的例子为一种可选的具体实现方式，但不限于此。

还应理解，图1至图2所示的例子仅仅是为了示例性地本申请实施例，本领域技术人员可以基于图1至图2的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本申请实施例的公开范围。

对应上述图像视差估计方法，本公开实施例提供了一种图像视差估计装置，如图6所示，所述装置包括以下模块。

图像获取模块10，用于获取目标场景的第一视角图像和第二视角图像。

视差估计神经网络20，用于根据所述第一视角图像和所述第二视角图像得到视差预测信息。该视差估计神经网络20包括如下的模块。

初级特征提取模块21，用于对所述第一视角图像进行特征提取处理，得到第一视角特征信息。

语义特征提取模块22，用于对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息。

视差回归模块23，用于基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。

上述方案中，可选地，所述初级特征提取模块21，还用于对所述第二视角图像进行特征提取处理，得到第二视角特征信息；所述视差回归模块23还包括：关联模块，用于：基于第一视角特征信息与第二视角特征信息进行关联处理，得到所述关联信息。

作为一种实施方式，可选地，所述视差回归模块23，还用于：对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；基于所述混合特征信息，得到视差预测信息。

上述方案中，可选地，所述装置还包括：第一网络训练模块24，用于基于所述视差预测信息，训练视差估计神经网络20。

作为一种实施方式，可选地，所述第一网络训练模块24，还用于：对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；基于所述第一视角重建语义信息，调整所述视差估计神经网络20的网络参数。

作为一种实施方式，可选地，所述第一网络训练模块24，还用于：基于所述第一视角重建语义信息，确定语义损失值；基于所述语义损失值，调整所述视差估计神经网络20的网络参数。

作为一种实施方式，可选地，所述第一网络训练模块24，还用于：基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络20的网络参数；或者基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络20的网络参数。

作为一种实施方式，可选地，所述第一网络训练模块24，还用于：基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失值；基于所述视差预测信息，确定平滑损失值；根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络20的网络参数。

上述方案中，可选地，所述装置还包括：第二网络训练模块25，用于基于所述视差预测信息和标注视差信息，训练视差估计神经网络20；所述第一视角图像和所述第二视角图像对应于标注视差信息。

作为一种实施方式，可选地，所述第二网络训练模块25，还用于：基于所述视差预测信息与标注视差信息，确定视差回归损失值；根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。

本领域技术人员应当理解，图6中所示的图像视差估计装置中的各处理模块的实现功能可参照前述图像视差估计方法的相关描述而理解。本领域技术人员应当理解，图6所示的图像视差估计装置中各处理单元的功能可通过运行于处理器上的程序而实现，也可通过具体的逻辑电路而实现。

实际应用中，上述图像获取模块10获取信息的方式不同，则结构不同；从客户端接收时，它是通信接口；自动采集时，它对应的是图像采集器。上述所述图像获取模块10、视差估计神经网络20的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(CPU，Central Processing Unit)、微处理器(MCU，Micro Controller Unit)、数字信号处理器(DSP，Digital Signal Processing)或可编程逻辑器件(PLC，Programmable Logic Controller)等具有处理功能的电子元器件或电子元器件的集合。其中，所述处理器包括可执行代码，所述可执行代码存储在存储介质中，所述处理器可以通过总线等通信接口与所述存储介质中相连，在执行具体的各单元的对应功能时，从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非易失性存储介质。

所述图像获取模块10、视差估计神经网络20可以集成对应于同一处理器，或分别对应不同的处理器；当集成对应于同一处理器时，所述处理器采用时分处理所述图像获取模块10、视差估计神经网络20对应的功能。

本申请实施例提供的图像视差估计装置，能利用由初级特征提取模块、语义特征提取模块、视差回归模块构成的视差估计神经网络，输入第一和第二视角图像，能快速输出视差预测图，从而实现端到端的视差预测，并满足实时性需求；这里，在计算第一和第二视角图像的特征时，嵌入了语义特征图，也即增加了语义一致性约束，在一定程度上克服了局部歧义问题，能提高视差预测的准确率以及最终视差预测的精确度。

本申请实施例还记载了一种图像视差估计装置，所述装置包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任意一个技术方案提供的图像视差估计方法。

作为一种实施方式，所述处理器执行所述程序时实现：对所述第二视角图像进行特征提取处理，得到第二视角特征信息；基于第一视角特征信息与第二视角特征信息进行关联处理，得到所述关联信息。

作为一种实施方式，所述处理器执行所述程序时实现：对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；基于所述混合特征信息，得到视差预测信息。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述视差预测信息，训练所述视差估计神经网络。

作为一种实施方式，所述处理器执行所述程序时实现：对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一视角重建语义信息，确定语义损失值；基于所述语义损失值，调整所述视差估计神经网络的网络参数。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失值；基于所述视差预测信息，确定平滑损失值；根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述视差预测信息和标注视差信息，训练用于实现所述方法的视差估计神经网络；所述第一视角图像和所述第二视角图像对应于所述标注视差信息。

作为一种实施方式，所述处理器执行所述程序时实现：基于所述视差预测信息与标注视差信息，确定视差回归损失值；根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。

本申请实施例提供的图像视差估计装置，能提高视差预测的准确率以及最终视差预测的精确度。

本申请实施例还记载了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行前述各个实施例所述的图像视差估计方法。也就是说，所述计算机可执行指令被处理器执行之后，能够实现前述任意一个技术方案提供的图像视差估计方法。

本领域技术人员应当理解，本实施例的计算机存储介质中各程序的功能，可参照前述各实施例所述的图像视差估计方法的相关描述而理解。

基于上述各实施例所述的图像视差估计方法和装置，下面给出具体应用在无人驾驶领域的应用场景。

将视差估计神经网络应用到无人驾驶平台中，面对道路交通场景，实时输出车体前方的视差图，进一步地可以估计前方各个目标、位置的距离。针对更为复杂的条件，例如大目标、遮挡等情况，视差估计神经网络也能有效地给出可靠的视差预测。在安装有双目立体相机的自动驾驶平台上，面对道路交通场景，视差估计神经网络能够给出准确的视差预测结果，特别是针对局部歧义位置(强光、镜面、大目标)，仍然可以给出可靠的视差值。如此，智能汽车能获得更加清晰明了的周围环境信息以及路况信息，并根据周围环境信息以及路况信息执行无人驾驶，从而提高驾驶的安全性。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

一种图像视差估计方法，其特征在于，所述方法包括：

获取目标场景的第一视角图像和第二视角图像；

对所述第一视角图像进行特征提取处理，得到第一视角特征信息；

对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；

基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第二视角图像进行特征提取处理，得到第二视角特征信息；

基于所述第一视角特征信息与所述第二视角特征信息进行关联处理，得到所述关联信息。
根据权利要求1或2所述的方法，其特征在于，所述基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的所述关联信息，得到所述第一视角图像和所述第二视角图像的所述视差预测信息，包括：

对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；

基于所述混合特征信息，得到所述视差预测信息。
根据权利要求1至3中任一项所述的方法，其特征在于，所述图像视差估计方法通过视差估计神经网络实现，所述方法还包括：

基于所述视差预测信息，训练所述视差估计神经网络。
根据权利要求4所述的方法，其特征在于，所述基于所述视差预测信息，训练所述视差估计神经网络，包括：

对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；

基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；

基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。
根据权利要求5所述的方法，其特征在于，所述基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：

基于所述第一视角重建语义信息，确定语义损失值；

基于所述语义损失值，调整所述视差估计神经网络的网络参数。
根据权利要求5或6所述的方法，其特征在于，所述基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数，包括：

基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者

基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。
根据权利要求4至7中任一项所述的方法，其特征在于，所述基于所述视差预测信息，训练所述视差估计神经网络，包括：

基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；

根据所述第一视角重建图像与所述第一视角图像之间的光度差，确定光度损失值；

基于所述视差预测信息，确定平滑损失值；

根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。
根据权利要求1至8中任一项所述的方法，其特征在于，所述第一视角图像和所述第二视角图像对应于标注视差信息，所述方法还包括：

基于所述视差预测信息和所述标注视差信息，训练用于实现所述方法的视差估计神经网络。
根据权利要求9所述的方法，其特征在于，所述基于所述视差预测信息和所述标注视差信息，训练所述视差估计神经网络，包括：

基于所述视差预测信息与所述标注视差信息，确定视差回归损失值；

根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。
一种图像视差估计装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标场景的第一视角图像和第二视角图像；

视差估计神经网络，用于根据所述第一视角图像和所述第二视角图像得到视差预测信息，包括：

初级特征提取模块，用于对所述第一视角图像进行特征提取处理，得到第一视角特征信息；

语义特征提取模块，用于对所述第一视角图像进行语义分割处理，得到第一视角语义分割信息；

视差回归模块，用于基于所述第一视角特征信息、所述第一视角语义分割信息以及所述第一视角图像和所述第二视角图像的关联信息，得到所述第一视角图像和所述第二视角图像的视差预测信息。
根据权利要求11所述的装置，其特征在于，

所述初级特征提取模块，还用于对所述第二视角图像进行特征提取处理，得到第二视角特征信息；

所述视差回归模块还包括：

关联特征提取模块，用于基于所述第一视角特征信息与所述第二视角特征信息进行关联处理，得到所述关联信息。
根据权利要求11或12所述的装置，其特征在于，所述视差回归模块，还用于：

对所述第一视角特征信息、所述第一视角语义分割信息以及所述关联信息进行混合处理，得到混合特征信息；

基于所述混合特征信息，得到所述视差预测信息。
根据权利要求11-13中任一项所述的装置，其特征在于，所述装置还包括：

第一网络训练模块，用于基于所述视差预测信息，训练所述视差估计神经网络。
根据权利要求14所述的装置，其特征在于，所述第一网络训练模块，还用于：

对所述第二视角图像进行语义分割处理，得到第二视角语义分割信息；

基于所述第二视角语义分割信息和所述视差预测信息，得到第一视角重建语义信息；

基于所述第一视角重建语义信息，调整所述视差估计神经网络的网络参数。
根据权利要求15所述的装置，其特征在于，所述第一网络训练模块，还用于：

基于所述第一视角重建语义信息，确定语义损失值；

基于所述语义损失值，调整所述视差估计神经网络的网络参数。
根据权利要求15或16所述的装置，其特征在于，所述第一网络训练模块，还用于：

基于所述第一视角重建语义信息和所述第一视角图像的第一语义标签，调整所述视差估计神经网络的网络参数；或者

基于所述第一视角重建语义信息和所述第一视角语义分割信息，调整所述视差估计神经网络的网络参数。
根据权利要求14至17中任一项所述的装置，其特征在于，所述第一网络训练模块，还用于：

基于所述视差预测信息和所述第二视角图像，得到第一视角重建图像；

根据所述第一视角重建图像与所述第一视角图像二者之间的光度差，确定光度损失值；

基于所述视差预测信息，确定平滑损失值；

根据所述光度损失值和所述平滑损失值，调整所述视差估计神经网络的网络参数。
根据权利要求11至18中任一项所述的装置，其特征在于，所述装置还包括：

第二网络训练模块，用于基于所述视差预测信息和标注视差信息，训练所述视差估计神经网络，所述第一视角图像和所述第二视角图像对应于所述标注视差信息。
根据权利要求19所述的装置，其特征在于，所述第二网络训练模块，还用于：

基于所述视差预测信息与标注视差信息，确定视差回归损失值；

根据所述视差回归损失值，调整所述视差估计神经网络的网络参数。
一种图像视差估计装置，其特征在于，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的图像视差估计方法。
一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至10任一项所述的图像视差估计方法。