WO2021232609A1

WO2021232609A1 - Rgb-d图像的语义分割方法、系统、介质及电子设备

Info

Publication number: WO2021232609A1
Application number: PCT/CN2020/112278
Authority: WO
Inventors: 屠长河; 曹金明; 冷汉超; 李扬彦; 陈颖; 里奇斯·达尼; 科恩·奥尔·丹尼尔
Original assignee: 山东大学
Priority date: 2020-05-20
Filing date: 2020-08-28
Publication date: 2021-11-25
Also published as: CN111738265B; CN111738265A

Abstract

一种RGB-D图像的语义分割方法、系统、介质及电子设备，属于图像处理技术领域，包括以下步骤：获取待处理的RGB-D图像；采用预设的卷积神经网络对得到的RGB-D图像进行处理，得到语义分割结果；其中，所述预设卷积神经网络的卷积层学习RGB-D图像中的每个图像块的与像素相关的几何权重，然后对加权后的图像块进行卷积；通过从每个图像块对应的三维几何结构中学习每个图像块的与像素相关的权重，然后对加权后的图像块进行卷积，使得不同类别的像素可以更好的被鉴别开。

Description

RGB-D图像的语义分割方法、系统、介质及电子设备

技术领域

本公开涉及图像处理技术领域，特别涉及一种RGB-D图像的语义分割方法、系统、介质及电子设备。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

语义分割作为一项基本任务，在计算机视觉中有众多应用。近年来，深度传感器的广泛使用显著提高了RGB-D数据的可用性，由此，产生了很多针对RGB-D数据的语义分割方法。由于卷积神经网络(Convolutional Neural Networks，CNN)的蓬勃发展极大地提高了RGB图像语义分割的准确性，对于RGB-D数据，很自然的想法就是基于CNN的方法来利用深度信息进行语义分割。在这其中，大多数方法使用对称方式处理RGB信息和深度信息，也就是说，将深度信息作为附加通道连接到RGB通道，然后馈入单个CNN，或者通过两个独立的CNN流处理深度信息和RGB信息，然后将其输出串联以用于进一步处理。

本公开发明人发现，卷积操作的使用是假定输入是具有局部相关性的，即当卷积操作使用滑动窗口在图像上取得对应的图像块作为操作单位时，每个图像块中的像素高度相关。然而，尽管在一个图像块上的像素在图像平面上接近，但是它们不一定在3D空间中(在几何上)是连贯的，这种情况的像素可能相关性很小，不符合局部一致性假设，这使得直接对它们使用卷积操作的效率降低，使用对一组相关值进行平均的权重来对一组不相关值进行平均，这显然不是最优的方案；也有方法是直接把RGB-D图像(RGB-Depth Map)转换成3D体素格式或者点云格式，再在新的数据格式上使用相应的3D卷积或者点云的网络结构。但是这类方法往往网络框架比较复杂，且耗费巨大的内存和计算需求。

发明内容

为了解决现有技术的不足，本公开提供了一种RGB-D图像的语义分割方法、系统、介质及电子设备，从每个图像块对应的三维几何结构中学习每个图像块的与像素相关的权重，然后对加权后的图像块进行卷积，使得不同类别的像素可以更好的被鉴别开，极大的提高了语义分割的准确度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种RGB-D图像的语义分割方法。

一种RGB-D图像的语义分割方法，包括以下步骤：

获取待处理的RGB-D图像；

采用预设的卷积神经网络对得到的RGB-D图像进行处理，得到语义分割结果；

其中，所述预设卷积神经网络的卷积层学习RGB-D图像中的每个图像块的与像素相关的几何权重，然后对加权后的图像块进行卷积。

本公开第二方面提供了一种RGB-D图像的语义分割系统。

一种RGB-D图像的语义分割系统，包括：

数据获取模块，被配置为：获取待处理的RGB-D图像；

语义分割模块，被配置为：采用预设的卷积神经网络对得到的RGB-D图像进行处理，得到语义分割结果；

本公开第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的RGB-D图像的语义分割方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的RGB-D图像的语义分割方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开提供的语义分割方法、系统、介质及电子设备，从每个图像块对应的三维几何结构中学习每个图像块的与像素相关的权重，然后对加权后的图像块进行卷积，即使图像块的原始颜色外观相似，通过添加图像块的几何感知后，使得不同类别的像素可以更好的被鉴别开，极大的提高了语义分割的准确度。

2、本公开提供的语义分割方法、系统、介质及电子设备，对RGB和几何信息进行非对称处理，因为它们在语义上本质上是不同的：RGB值捕获投影图像空间中的外观属性，而D(深度通道)是一个几何属性。以乘法的方式融合这两类信息，丰富了局部图像块的分辨能力，使卷积在学习过程中具有更强的几何感知能力。

3、本公开提供的语义分割方法、系统、介质及电子设备，只是添加一个组件，该组件在将图像块输入标准编码器-解码器CNN之前动态地重新加权图像块的局部像素强度值，重新加权由一个简单的多层感知器完成的，该感知器根据深度通道的网络学习权重。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为为本公开实施例1提供的RGB-D图像的语义分割方法的流程示意图。

图2为本公开实施例1提供的用于RGB-D数据格式的普通卷积流程图。

图3为本公开实施例1提供的用于RGB-D数据格式的几何加权卷积流程图。

图4为本公开实施例1提供的NYU-Dv2数据集的语义分割可视化结果。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

本公开实施例1提供了一种RGB-D图像的语义分割方法，如图1所示，包括以下步骤：

获取待处理的RGB-D图像；

具体实现的方案分为以下几个部分：

(1)网络输入

RGB-D语义分割的原始输入是具有RGB通道I _RGB和深度通道I _D的RGB-D图像I。然而在实际应用中，从I _D派生的HHA通道I _HHA比原始深度通道I _D在网络中可以更有效的表示几何信息，因此被广泛使用。

除此之外，还输入了对应于像素的3D坐标I _xyz，与I _HHA类似，I _xyz也是从深度通道派生。几何加权卷积在这些图像块的(P _RGB，P _HHA，P _xyz)上操作，P _xyz是3D空间中的点的坐标，将每个图像块中心像素对应的点的3D坐标相对的表示为p _xyz。

(2)几何加权卷积

对于RGB图像块P _RGB的普通卷积可以表示为：

f＝Conv(K，P _RGB) (1)

其中K表示卷积层中可学习的内核，f表示从图像块中提取的特征。图2中的方法可以表示为：

f＝Conv(K，[P _RGB,P _HHA]) (2)

其中[·,·]表示沿通道维度的连接，P _RGB和P _HHA均为张量，形状为k ₁×k ₂×3，在此公式中仅启用颜色信息(存储在RGB通道中)和几何信息(存储在HHA通道中)之间的加性交互，更准确地说，这里仅为RGB通道和HHA通道的线性组合(对应通道直接连接在一起)，并在这些组合上应用非线性激活。

本实施例提出的几何加权卷积，如图3所示，为：

f＝Conv(K，[P _RGB·W _geo,P _HHA]) (3)

其中W _geo是从P _xyz中学到的几何权重(形状为k ₁×k ₂的张量)，而·表示空间位置上的乘积。将加权的RGB色块表示为

更准确地说，空间位置上的乘法可以表示为：

其中i,j,c是相应张量中元素的索引下标，例如W _geo(i,j)表示W _geo中第i行第j列的元素，公式(2)和(3)之间的唯一区别是通过与W _geo相乘获得的几何加权，加权的

色块原始P _RGB色块更具判别力。

在公式(3)中，对RGB与几何信息之间的加性和乘性交互都进行了建模，其中，P _RGB·W _geo是乘性建模，因为W _geo是由几何信息学习得到的，[P _RGB·W _geo,P _HHA]是将乘性建模后再加性建模。

W _geo旨在反映每个图像块内部的局部几何相关性，因此本实施例中将P _xyz转换为局部坐标系中的p _xyz，得出

本实施例是从

而不是从P _xyz中学习W _geo，其中：

其中

是

的元素平方，而MLP(·)是多层感知器，将

连接到用于学习W _geo的输入可以改善性能，这是因为

是表示L ₂距离之类的几何信息的重要元素，并将其馈入MLP使其更了解高阶几何结构以产生更有效的权重。

P _xyz(用以学习W _geo)和P _HHA均来自深度通道，但是在几何加权卷积中它们以非常不同和互补的方式使用。P _HHA更像是语义场景布局的一种表示形式，尤其是其中有一个通道表示的是相对于水平地面的高度(Height)，而P _xyz虽然是可以通过深度信息直接计算得到，但是更着重于空间位置所代表的局部几何信息，而W _geo更着重于局部几何信息，以解决语义分割的细节问题。

(3)网络体系结构

本实施例所提出的几何加权卷积是一个简单轻量级的模块，可以通过几何信息学习RGB图像块的权重。通过几何加权的RGB图像块可以替代原始卷积中的RGB图像块。因此，从理论上讲，几何加权卷积层可以轻松插入任何现存的CNN结构中，以替代以RGB图像块为输入的普通卷积层。

本实施例选择将几何权重卷积插入图2所示样式的网络，以证明提出模块的有效性。插入几何加权卷积后的网络结构如图3中所示，本实施例使用U-Net和DeepLab series体系结构构建这种样式的RGB-D分割网络。

为了验证提出的方法的有效性，在两个标准RGB-D数据集上进行了广泛的实验：NYU-Dv2和SUN-RGBD。NYU-Dv2数据集包含1449个RGB-D场景图像，采用提供的40个分类的设置，795张图像用于训练，而654张图像用于测试。SUN-RGBD数据集由10355个RGB-D图像组成，每个像素标签有37个类别。按照中的设置将数据集分为5285张图像的训练集和5050张图像的测试集。

评估指标：假设共有K+1个类，N _ij表示属于i类并在测试集中被预测为j类的像素数，i和j可以相同。

本实施例中，使用三种常用指标评估了该方法的性能：

除了以上与性能相关的指标外，本实施例还考虑了网络参数的数量和乘法累加(MACC)操作，因为它们实际上与内存和计算使用量密切相关。

除了以上与性能相关的指标外，还考虑了网络参数的数量和乘法累加(MACC)操作，因为它们实际上与内存和计算使用量密切相关。

NYU-Dv2数据集的实验结果：GWConv在NYU-Dv2数据集的结果展示在表1，并与几种最新方法进行了比较。

图4显示了对NYU-Dv2测试集的定性比较。如图4所示，通过利用几何加权卷积，可以很好地利用几何信息来提取物体的特征，特别是物体的边界细节。例如，在图4中的(d)中，枕头的颜色与沙发的颜色非常相似，尤其是在照明条件较差的情况下。在图4中的(e)中也存在类似情况，比如桌脚处于阴影中，从RGB图像上几乎无法区分。在这些情况下，即使将HHA通道与RGB通道串联并以加法方式使用，也很难确定正确的像素标签。像图4中的(c)中的椅子的水平横杆这样的细节结构通常很难进行细分。它们倾向于被邻近区域“平滑“并分类为与它们共享相同的标签。在本实施例的GWConv方法中，从几何信息中学习的权重可以有效的对RGB图像块重新分配权重，使它们更具几何意识，从而解决了这些困难情况下的问题。在图4中的(a)中的桌子上的盒子和图4中的(b)中的橱柜上逐渐变化的颜色给进行准确的分割边界增加了难度。从几何学到的权重帮助网络学习到这些特性，并根据几何提示进行精确切割。

表1：GWConv和其他方法在NYU-Dv2数据集的比较

Method

Pixel

Mean

#Param.(M)

MACC(B)

	Acc.(％)	Acc.(％)	IoU.(％)
FCN	65.4	46.1	34.0	275.4	352.2
Multi-Scale Conv	65.6	45.1	34.1	52.2	151.4
HHA-3DGNN	-	55.2	42.0	47.3	115.7
CFN(VGG16)	-	-	41.7	20.48	73.5
CFN(RefineNet-152)	-	-	47.7	135.4	249.5
Gate Fusion	71.9	60.7	45.9	48.3	425.5
Depth-Aware	-	56.3	43.9	47.0	115.7
Baseline	74.1	60.8	47.8	40.8	49.4
GWConv	74.1+0.9	60.8+0.9	47.8+0.9	40.8+0.001	49.4+0.07

SUN-RGBD数据集的实验结果：GWConv在SUN-RGBD数据集的结果展示在表2，并与几种最新方法进行了比较。同样，GWConv在基线方法上带来了显著改善(+0.6 Pixel Acc和Mean Acc以及+1.2 Mean IoU)

实施例2：

本公开实施例2提供了一种RGB-D图像的语义分割系统，包括：

数据获取模块，被配置为：获取待处理的RGB-D图像；

所述系统的工作方法与实施例1中的RGB-D图像的语义分割方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的RGB-D图像的语义分割方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的RGB-D图像的语义分割方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种RGB-D图像的语义分割方法，其特征在于，包括以下步骤：

获取待处理的RGB-D图像；

采用预设的卷积神经网络对得到的RGB-D图像进行处理，得到语义分割结果；

其中，所述预设卷积神经网络的卷积层学习RGB-D图像中的每个图像块的与像素相关的几何权重，然后对加权后的图像块进行卷积。
如权利要求1所述的RGB-D图像的语义分割方法，其特征在于，所述预设卷积神经网络的卷积层，具体为：

f＝Conv(K，[P _RGB·W _geo,P _HHA])

其中，[·,·]表示沿通道维度的连接，P _RGB为图像块的RGB通道张量，P _HHA为图像块的HHA通道张量，K表示卷积层中可学习的内核，f表示从图像块中提取的特征，W _geo为学习到的几何权重。
如权利要求1所述的RGB-D图像的语义分割方法，其特征在于，加权后的图像块为图像块的RGB通道张量与学习到的几何权重在空间位置上的乘积，具体为：

其中，P _RGB为图像块的RGB通道张量，W _geo为学习到的几何权重，i,j,c分别是张量中元素的索引。
如权利要求1所述的RGB-D图像的语义分割方法，其特征在于，与像素相关的几何权重反映每个图像块内部的局部几何相关性，通过图像块的3D空间中的点的坐标计算几何权重。
如权利要求4所述的RGB-D图像的语义分割方法，其特征在于，所述几何权重的计算方式，具体为：

其中，而MLP(·)是多层感知器，
为图像块的3D空间中的点的坐标与图像块中心像素对应的点的3D坐标的差值。
如权利要求4所述的RGB-D图像的语义分割方法，其特征在于，图像块的3D空间中的点的坐标和HHA通道均通过RGB-D图像的深度通道获得。
如权利要求1所述的RGB-D图像的语义分割方法，其特征在于，获取的RGB-D图像为具有RGB通道和深度通道的图像。
一种RGB-D图像的语义分割系统，其特征在于，包括：

数据获取模块，被配置为：获取待处理的RGB-D图像；

语义分割模块，被配置为：采用预设的卷积神经网络对得到的RGB-D图像进行处理，得到语义分割结果；

其中，所述预设卷积神经网络的卷积层学习RGB-D图像中的每个图像块的与像素相关的几何权重，然后对加权后的图像块进行卷积。
一种介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的RGB-D图像的语义分割方法中的步骤。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的RGB-D图像的语义分割方法中的步骤。