WO2020077535A1

WO2020077535A1 - 图像语义分割方法、计算机设备和存储介质

Info

Publication number: WO2020077535A1
Application number: PCT/CN2018/110493
Authority: WO
Inventors: 林迪; 黄惠
Original assignee: 深圳大学
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2020-04-23

Abstract

本申请涉及一种图像语义分割方法、计算机设备和存储介质。该方法包括：对待处理图像进行卷积处理，得到多尺度特征图集，将多尺度特征图集作为上下文交织处理的输入特征图集；对输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集；将交织特征图集作为上下文交织处理的输入特征图集，返回对输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集的步骤，直至所获得的交织特征图集仅包括一个交织特征图；对交织特征图进行语义预测，获得与待处理图像对应的语义分割图像。通过上下文交织不断学习相邻特征图的上下文信息，使最终获得的交织特征图具有更好的分类特性，进而得到更精确的语义分割图像。

Description

图像语义分割方法、计算机设备和存储介质

技术领域

本申请涉及图像分割技术领域，特别是涉及一种图像语义分割方法、计算机设备和存储介质。

背景技术

图像语义分割是计算机视觉和模式识别领域重要研究课题之一，广泛应用于自动驾驶系统、无人机、医学影像等场景中，其目标是对图像的每个像素点进行分类，将图像分割成一组具有一定语义含义的区域块，并识别出每个区域块的类别，最终得到一幅具有语义标注的图像。以应用于自动驾驶系统为例，通过图像语义分割可将人、车辆、树木等不同类别的对象进行分割归类，并针对不同类别的对象采用不同的标注方式，得到语义分割图像，以根据语义分割图像避让行人和车辆等障碍。

在现有的图像语义分割方法中，按照低分辨率至高分辨率的顺序，依次组合卷积获得的各特征图。而低分辨率特征图由于卷积时会遗漏信息，因此通过上述方式组合得到的特征图，也存在信息衰减的问题，进而影响语义分割的准确性。

申请内容

根据本申请的各种实施例，提供一种图像语义分割方法、计算机设备和存储介质。

一种图像语义分割方法，所述方法包括：

对待处理图像进行卷积处理，得到多尺度特征图集，将所述多尺度特征图集作为上下文交织处理的输入特征图集；

对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集；

将所述交织特征图集作为所述上下文交织处理的输入特征图集，返回对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集的步骤，直至所获得的所述交织特征图集仅包括一个交织特征图；

对所述交织特征图进行语义预测，获得与所述待处理图像对应的语义分割图像。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行任一项实施例中图像语义分割方法的步骤。

一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行任一项实施例中图像语义分割方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中图像语义分割方法的应用环境图；

图2为一个实施例中图像语义分割方法的流程示意图；

图3为一个实施例中上下文交织处理过程的示意图；

图4为一个实施例中相邻特征图对进行特征增强处理的示意图；

图5为一个实施例中进行特征增强处理步骤的流程示意图；

图6为一个实施例中基于超像素进行上下文信传递的示意图；

图7为一个实施例中图像语义分割方法的流程示意图；

图8为一个实施例中图像语义分割效果对比图；

图9为一个实施例中基于口音的语音识别处理装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本申请，并不限定本申请的保护范围。

本申请提供的图像语义分割方法，可以应用于如图1所示的应用环境中。当终端102检测到图像语义分割指令时，利用卷积神经网络对输入的待处理图像进行卷积处理，以对其进行卷积滤波，获得多尺度特征图集。而后对多尺度特征图集中的各相邻特征图对分别进行上下文交织处理，最终获得与待处理图像具有分辨率相同的交织特征图，并对该交织特征图进行语义预测，获得与待处理图像对应的语义分割图像。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和服务器端等。

在一个实施例中，如图2所示，提供了一种图像语义分割方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，对待处理图像进行卷积处理，得到多尺度特征图集，将多尺度特征图集作为上下文交织处理的输入特征图集。其中，多尺度特征图集是指不同分辨率的卷积特征图的集合，这里的的多尺度也即是多分辨率。

具体地，通过不同卷积核，依次对待处理图像以及卷积处理得到的卷积特征图进行卷积处理(此处的卷积处理也即卷积处理)，得到不同分辨率的卷积特征图，所有不同分辨率的卷积特征图即组成多尺度特征图集。参照图3，通过对X ₀进行卷积处理，得到卷积特征图X ₁；再对X ₁进行卷积，得到对应的卷积特征图X ₂；对进行X ₂卷积，得到对应的卷积特征图X ₃，X ₀、X ₁、X ₂和X ₃组成多尺度特征图集。将多尺度特征图集作为上下文交织处理的输入特征图集，以便对多尺度特征图集中的各卷积特征图进行上下文交织处理。

S204，对输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集。

其中，相邻特征图对是指同一输入特征图集中，两个相邻分辨率的特征图组合。以图3为例，X ₀-X ₁为一个相邻特征图对，X ₁-X ₂为一个相邻特征图对，X ₂-X ₃为一个相邻特征图对。

本实施例中，对输入特征图集中的各相邻特征图对分别进行上下文交织处理，得到与各相邻特征图对相应的交织特征图，所有交织特征图组成一个交织特征图集。

上下文交织处理是指在相邻特征图对中，两个卷积特征图相互传递上下文信息，最终生成一个交织特征图的处理。其中，上下文信息是指不同的对象之间的相互作用信息、对象与场景之间的相互作用信息。在图像中，某一对象不可能单独的存在，它一定会与周围其他的对象和环境有着或多或少的关系，这就是通常所说的上下文信息。比如，在拍摄的马路图片中，马路上通常包括行人、车辆，马路、行人和车辆之间会存在一定共现性，而体现这一共现性的相关信息即为上下文信息，该上下文信息能够有助于对行人、车辆进行分类预测，比如，在马路上出现的物体是行人或车辆的几率更大。

S206，判断所获得的交织特征图集是否仅包括一个交织特征图。若否，执行步骤S208；否则，执行步骤S210。

S208，将交织特征图集作为上下文交织处理的输入特征图集，返回步骤S204。

本实施例中，当最新得到的交织特征图集包括至少两个交织特征图时，继续对交织特征图进行上下文交织处理，直至最终仅能得到一个交织特征图时，结束上下文交织处理。如图3所示，通过对由上采样特征图构成的相邻特征图对进行上下文交织，生成新的交织特征图，再对由交织特征图构成的相邻特征图对进行上下文交织，依次迭代，将上下文信息在相邻特征图之间不断传递，最终得到一个具有更好分类特性的交织特征图。

从图3可看出，采用依次迭代的方式进行上下文件交织处理，可使上下文信息沿着不同的维度进行传播。第一个维度沿着垂直的深层次结构，在相邻特征图之间交换多尺度上下文信息；第二维度沿着水平层次结构，将上下文交织处理生成的交织特征图被馈送到下一阶段的上下文交织处理。各特征图的上下文信息沿着这两个方向维度不断传递，编码至新生成的交织特征图中，从而显著增强交织特征图中特征的描述能力，以获得更精确的语义标识。

S210，对交织特征图进行语义预测，获得与待处理图像对应的语义分割图像。

其中，进行语义预测的交织特征图为最终得到的一个交织特征图(以下简称最终交织特征图)，且最终交织特征图具有与待处理图像相同的分辨率。

具体地，将最终交织特征图作为待预测图进行语义预测，对具有不同语义的对象进行分类标识，获得与待处理图像对应的语义分割图像。其中，分类标识可以是针对不同对象采用不同的颜色标识，也可以是其他可区分不同类别的对象的表示形式。

上述图像语义分割方法，通过对待处理图像进行卷积处理，将得到的多尺度特征图集中的各相邻特征图对，分别进行上下文交织处理，获得具有更丰富特征的交织特征图集。再对交织特征图集作中的各相邻特征图对分别进行上下文交织处理，以双向和递归的方式合并相邻特征图对，直至所获得的交织特征图集仅包括一个交织特征图。通过递归的上下文交织处理，不断学习相邻特征图的上下文信息，使得最终获得的交织特征图具有更好的分类特性，进而使利用最终获得的交织特征图进行语义预测时，能够得到更为精确的语义分割图像。

在一实施例中，对输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集，包括：对输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各相邻特征图对相应的增强特征图对；分别将各增强特征图对中的两个最终增强特征图合并，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集。

特征增强处理是指增强特征的描述性能力的处理。具体地，针对每个相邻特征图对，利用相邻特征图对中的其中一个待交织特征图，对另一个待交织特征图进行特征增强处理，生成与两个待交织特征图分别对应的两个最终增强特征图，两个最终增强特征图即构成一个增强特征图对。再对两个最终增强特征图进行合并，生成交织特征图。

由于输入特征图集中的每个相邻特征图对，均生成一个对应的交织特征图，各交织特征图即组成一个交织特征图集，以将交织特征图集作为输入特征图集，继续进行上下文交织处理。其中，交织特征图的分辨率与对应的相邻特征图对中的高分辨率特征图相同。

在一实施例中，对输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各相邻特征图对应的增强特征图对，包括：分别根据对应的相邻特征图，对输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各待交织特征图对应的最终增强特征图；相邻特征图为：与当前特征增强处理的待交织特征图同属一个相邻特征图对的待交织特征图；将同一相邻特征图对的各最终增强特征图组合，作为增强特征图对。

具体地，针对每个相邻特征图对，利用相邻特征图对中的其中一个待交织特征图的上下文信息，对另一个待交织特征图进行特征增强处理，生成与两个待交织特征图分别对应的两个最终增强特征图，两个最终增强特征图即构成一个增强特征图对。

由于相邻特征图对包括两个相邻分辨率的待交织特征图，其中一个待交织特征图为高分辨率特征图，另一个待交织特征图为低分辨率特征图。可以理解，当前特征增强处理的待交织特征图为高分辨率特征图，则相邻特征图为同属一个相邻特征图对的低分辨率特征图；当前特征增强处理的为低分辨率特征图，则相邻特征图为同属一个相邻特征图对的高分辨率特征图。

更具体地，利用高分辨率特征图的上下文信息，对低分辨率特征图进行特征增强处理，生成一个低分辨率的最终增强特征图，利用低分辨率特征图的上下文信息，对高分辨率特征图进行特征增强处理，生成一个高分辨率的最终增强特征图，两个最终增强特征图即构成一个增强特征图对。

参照图4，给出一相邻特征图对

进行特征增强处理的示意图，图4中，高分辨率特征图

和低分辨率特征图

互相进行特征增强处理，最终生成两个最终增强特征图

和

其中，l表示分辨率等级，T表示对内交织的最大次数。

在一实施例中，如图5所示，分别根据对应的相邻特征图，对输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各待交织特征图对应的最终增强特征图的步骤，包括以下子步骤：

S502，将输入特征图集中的各相邻特征图对作为输入特征图对，将各待交织特征图作为输入特征图。

例如，

作为其中一个输入特征图对，

和

均作为输入特征图。

S504，提取各相邻输入特征图的上下文信息。

其中，相邻输入特征图是指同属一个输入特征图对的另一个输入特征图。可以理解，在同一个输入特征图对中，高分辨率输入特征图是低分辨率输入特征图的相邻输入特征图，低分辨率输入特征图同样也是高分辨率输入特征图的相邻输入特征图。

本实施例中，提取各相邻输入特征图的上下文信息，实际就是提取各输入特征图的上下文信息。

S506，分别根据各相邻输入特征图的上下文信息，对对应的输入特征图进行特征增强处理，获得与各输入特征图对应的增强特征图。

具体地，根据低分辨率输入特征图的上下文信息，对高分辨率输入特征图进行语义增强处理，获得高分辨率增强特征图；根据高分辨率输入特征图的上下文信息，对低分辨率输入特征图进行语义增强处理，获得低分辨率增强特征图。

如图4所示，将低分辨率输入特征图

的上下文信息，传递给高分辨率输入特征图

对

进行语义增强处理，获得高分辨率增强特征图

将

的上下文信息传递给

对

进行语义增强处理，获得低分辨率增强特征图

其中，t表示对内交织次数。

S508，判断是否达到预设的对内交织总次数。若否，执行步骤S510；否则，执行步骤S512。

其中，对内交织总次数是指一个相邻特征图对进行上下文交织的总次数。可按需预先设置。通常对内交织总次数不宜过大，以免造成处理耗时过长。

S510，将各增强特征图作为输入特征图，将同一输入特征图对相应的各增强特征图组合，作为输入特征图对，返回步骤S504。

当未达到对内交织总次数时，则采用上下文交织的方式，继续对新生成的增强特征图进行特征增强处理。

S512，将最终获得的各增强特征图作为最终增强特征图。

具体地，图5中各步骤所实现的上下文交织，可通过两个LSTM(Long Short-Term Memory，长短期记忆网络)链之间的连接，以双向和递归的方式进行，如图4所示。

在一实施例中，分别根据各相邻输入特征图的上下文信息，对对应的输入特征图进行特征增强处理，获得与各输入特征图对应的增强特征图的步骤，包括：分别根据各相邻输入特征图的上下文信息，以及对应的输入特征图，获得输入特征图的增强特征；将增强特征与对应的输入特征图进行合并处理，获得与各输入特征图对应的增强特征图。

具体地，在同一输入特征图对中，根据低分辨率输入特征图的上下文信息和高分辨率输入特征图，获得高分辨率输入特征图的增强特征，将增强特征与高分辨率输入特征图进行合并处理，获得高分辨率增强特征图；根据高分辨率输入特征图的上下文信息和低分辨率输入特征图，获得低分辨率输入特征图的增强特征，将该增强特征与低分辨率输入特征图进行合并处理，获得低分辨率增强特征图。

在一实施例中，待处理图像为对原始图像进行超像素分割后的图像。其中，超像素分割是指将数字图像细分为多个图像子区域的过程。超像素是指由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。

进一步地，图像语义分割方法还包括：对原始图像进行超像素分割，获得包括预设数量的超像素的待处理图像。通过对原始图像进行超像素分割，将原始图像划分为多个不重叠的超像素定义的区域，以便于获取上下文信息。

在一实施例中，分别根据各相邻输入特征图的上下文信息，以及对应的输入特征图，获得输入特征图的增强特征的步骤，包括：根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得输入特征图中各感受野中心的增强特征。

其中，感受野是指卷积神经网络每一层输出特征图上的像素点，在输入图像上映射的区域大小。感受野中心即为映射的区域中心。感受野中心的上下文信息即指该感受野中心本身的特征，以及相邻区域的感受野中心的特征。

具体地，首先输入特征图中各感受野中心进行映射，确定相邻输入特征图中与之对应的感受野中心，再获取所确定的感受野中心以及相邻区域的感受野中心的特征，将输入特征图中感受野中心本身的特征，以及从相邻输入特征图获取的特征进行合并，得到输入特征图中感受野中心的增强特征。输入特征图中每一个感受野中心的增强特征集合，即为输入特征图的增强特征。

可以理解，当输入特征图为高分辨率输入特征图时，对应的相邻输入特征图中即为低分辨率输入特征图；当输入特征图为低分辨率输入特征图时，对应的相邻输入特征图中即为高分辨率输入特征图。

进一步地，当待处理图像为对原始图像进行超像素分割后的图像时，上下文信息包括：感受野中心所属的超像素的聚合特征以及相邻超像素的聚合特征。其中，相邻超像素是指与所属超像素相邻的超像素；聚合特征是指超像素定义的区域内所有感受野中心的特征之和。

如图6所示，为基于超像素进行上下文信传递的示意图。其中，图6(a)为将低分辨率输入特征图

的上下文信息，传递至高分辨率输入特征图

图6(b)为将高分辨率输入特征图

的上下文信息，传递至低分辨率输入特征图

以图6(a)为例，假设高分辨率输入特征图

中存在一个感受野中心O，根据位置对应关系，确定在低分辨率输入特征图

中与之对应的为感受野中心O’，O’属于超像素A，与超像素A相邻的区域包括：超像素B、超像素C、超像素D、超像素E和超像素J。聚合超像素A、超像素B、超像素C、超像素D、超像素E和超像素J中所有感受野中心的特征，分别得到各超像素的聚合特征，将包括各聚合特征的上下文信息传递给感受野中心O。

假设给定特征图

和区域S _n，聚合区域S _n中所有感受野中心的特征，得到区域S _n的聚合特征

其中，(h,w)表示感受野中心在特征图中

的坐标，

表示感受野中心的特征，φ(S _n)表示区域S _n内感受野中心的坐标集合，n表示区域标识。

进一步地，通过聚合区域S _n的邻域N(S _n)(相邻超像素定义的区域集合)的特征，得到一个更全局的聚合特征

其中，m表示邻域N(S _n)中各区域的标识。

在一实施例中，采用LSTM进行上下文交织时，增强特征由的门函数值和细胞状态确定，而门函数值和细胞状态进一步由相邻输入特征图的上下文信息，以及对应的输入特征图确定。

具体地，根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得输入特征图中各感受野中心的增强特征的步骤，包括以下子步骤：根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值和细胞状态；根据门函数值和细胞状态，获得输入特征图中各感受野中心的增强特征。

其中，门函数值是指感受野中心在LSTM的输入门、输入值、遗忘门和输出门的具体函数值。在图4中，

表示对应LSTM单元输出的隐藏特征，包括输出门的门函数值和细胞状态。

具体地，结合LSTM的门函数值和细胞状态的计算方式，利用输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息进行计算，获得门函数值和细胞状态。

进一步地，根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值和细胞状态的步骤，包括以下子步骤：根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值；根据门函数值和历史细胞状态，获得细胞状态。其中历史细胞状态是指上一次对相同分别率的特征图进行特征增强处理时，计算得到的细胞状态。

以在t阶段，LSTM单元从特征图

和

生成增强特征图

为例，门函数值和细胞状态的计算通过以下公式实现：

其中，

表示输入门i的门函数值，

表示输入值c的门函数值，

表示遗忘门f的门函数值，

表示输出门o的门函数值，

表示细胞状态，W表示对应门或者细胞状态的卷积核，b表示偏差，σ为预设系数。在本实施例中，

表示历史细胞状态，

又可以作为下一阶段上下文交织的历史细胞状态。

进一步地，根据门函数值和细胞状态，获得输入特征图中各感受野中心的增强特征的步骤，包括：根据输出门的门函数值和细胞状态，获得输入特征图中各感受野中心的增强特征。具体通过以下公式实现：

其中，

表示感受野中心(h,w)的增强特征。

在一实施例中，将增强特征与对应的输入特征图进行合并处理，获得与各输入特征图对应的增强特征图的步骤，包括：将输入特征图中各感受野中心的特征，分别与对应的增强特征进行合并处理，获得与各输入特征图对应的增强特征图。

具体地，分别将输入特征图中各感受野中心的特征，以及对应的增强特征相加，得到各感受野中心在增强特征图中的特征，从而得到增强特征图。具体通过以下公式实现：

其中，

表示感受野中心(h,w)在增强特征图

中的特征。

通过沿着LSTM链，使得增强特征图包含具有更大感受野的特征，即具有更丰富的全局上下文。此外，LSTM的细胞状态还可以记忆在不同阶段交换的上下文信息，来自早期阶段的局部上下文可以容易地传播到最后阶段，将包括局部和全局信息的多尺度上下文信息编码到最终增强特征图中。

在一实施例中，分别将各增强特征图对中的两个最终增强特征图合并，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集的步骤，包括以下子步骤：分别将各增强特征图对中低分辨率的最终增强特征图进行上采样处理，获得上采样特征图，上采样特征图的分辨率与增强特征图对中高分辨率的最终增强特征图相同；将上采样特征图和高分辨率的最终增强特征图中的特征合并，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集。

具体地，利用特定的上采样卷积核对低分辨率的最终增强特征图进行上采样处理，获得上采样特征图，将上采样特征图和高分辨率的最终增强特征图中的对应特征相加，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集。其中，对于不同分辨率的上采样处理，所采用的上采样卷积核也不同。

如下式所示，对低分辨率的最终增强特征图进行上采样处理，再与高分辨率的最终增强特征图合并，通过以下公式实现：

其中，Q ^l表示交织特征图，

表示上采样卷积核。

在一实施例中，如图7所示，提供一种图像语义分割方法，具体包括以下步骤：

对原始图像进行超像素分割，获得包括预设数量的超像素的待处理图像。

S701，对待处理图像进行卷积处理，得到多尺度特征图集，将多尺度特征图集作为上下文交织处理的输入特征图集。

S702，将输入特征图集中的各相邻特征图对作为输入特征图对，将各待交织特征图作为输入特征图。

S703，提取各相邻输入特征图的上下文信息。上下文信息包括：感受野中心所属的超像素的聚合特征以及相邻超像素的聚合特征。

S704，根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值。

S705，根据门函数值和历史细胞状态，获得细胞状态。

S706，根据门函数值和细胞状态，获得输入特征图中各感受野中心的增强特征。

S707，将输入特征图中各感受野中心的特征，分别与对应的增强特征进行合并处理，获得与各输入特征图对应的增强特征图。

S708，判断是否达到预设的对内交织总次数。若否，执行步骤S709；否则，执行步骤S710。

S709，将各增强特征图作为输入特征图，将同一输入特征图对相应的各增强特征图组合，作为输入特征图对，返回步骤S703。

S710，将最终获得的各增强特征图作为最终增强特征图，将同一相邻特征图对的各最终增强特征图组合，作为增强特征图对。

S711，分别将各增强特征图对中低分辨率的最终增强特征图进行上采样处理，获得上采样特征图，上采样特征图的分辨率与增强特征图对中高分辨率的最终增强特征图相同；

S712，将上采样特征图和高分辨率的最终增强特征图中的特征合并，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集。

S713，判断所获得的交织特征图集是否仅包括一个交织特征图。若否，执行步骤S714；否则，执行步骤S715。

S714，将交织特征图集作为上下文交织处理的输入特征图集，返回步骤S702。

S715，对交织特征图进行语义预测，获得与待处理图像对应的语义分割图像。

如图8所示，分别示出了采用现有的图像语义分割方法、图7所示方法对原始图像进行语义分割以及实际分割的效果对比图。其中，第一列为原始图像，第二列ground-truth分割效果图，第三列为采用ASPP(Atrous Spatial pyramid pooling，多孔空间金字塔池化)模型分割的效果图，第四列为采用Encoder-Decoder+ASPP模型(带有ASPP模型的编码器-解码器)分割的效果图，第五列为采用图7所示实施方法分割的效果图。

从图8可看出，本申请方法相比于现有方法，明显具有更准确的分割效果。这是因为，本申请以双向和递归的方式对各相邻特征图对进行上下文交织，并合并相邻特征图对，使各特征图的上下文信息沿着垂直和水平两个维度不断传递，编码至新生成的交织特征图，从而显著增强交织特征图中特征的描述能力，使得最终获得的交织特征图具有更好的分类特性，进而使利用最终获得的交织特征图进行语义预测时，能够得到更为精确的语义分割图像。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一实施例中，如图9所示，提供一种图像语义分割装置900，该装置包括：卷积模块902、上下文交织模块904、输入特征图集确定模块906和预测模块908。其中：

卷积模块902，用于对待处理图像进行卷积处理，得到多尺度特征图集，将多尺度特征图集作为上下文交织处理的输入特征图集。

上下文交织模块904，用于对输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集。

输入特征图集确定模块906，用于将交织特征图集作为上下文交织处理的输入特征图集，直至所获得的交织特征图集仅包括一个交织特征图。

预测模块908，用于对交织特征图进行语义预测，获得与待处理图像对应的语义分割图像。

在一实施例中，上下文交织模块包括特征增强模块和特征图合并模块。其中：

特征增强模块，用于对输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各相邻特征图对相应的增强特征图对。

特征图合并模块，用于分别将各增强特征图对中的两个最终增强特征图合并，获得与相邻特征图对相应的交织特征图。

在一实施例中，特征增强模块还用于分别根据对应的相邻特征图，对输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各待交织特征图对应的最终增强特征图；将同一相邻特征图对的各最终增强特征图组合，作为增强特征图对。其中，相邻特征图为：与当前特征增强处理的待交织特征图同属一个相邻特征图对的待交织特征图。

在一实施例中，特征增强模块包括：输入特征图确定模块、上下文提取模块和特征增强子模块。其中：

输入特征图确定模块，用于将输入特征图集中的各相邻特征图对作为输入特征图对，将各待交织特征图作为输入特征图。

上下文提取模块，用于提取各相邻输入特征图的上下文信息。

特征增强子模块，用于分别根据各相邻输入特征图的上下文信息，对对应的输入特征图进行特征增强处理，获得与各输入特征图对应的增强特征图。

进一步地，输入特征图确定模块，还用于将各增强特征图作为输入特征图，将同一输入特征图对相应的各增强特征图组合，作为输入特征图对，直至达到预设的对内交织总次数。

在一实施例中，特征增强子模块包括增强特征确定模块和特征合并模块。其中，增强特征确定模块，用于分别根据各相邻输入特征图的上下文信息，以及对应的输入特征图，获得输入特征图的增强特征；特征合并模块，用于将增强特征与对应的输入特征图进行合并处理，获得与各输入特征图对应的增强特征图。

在一实施例中，增强特征确定模块还用于根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得输入特征图中各感受野中心的增强特征。

在一实施例中，增强特征确定模块包括参数确定模块和增强特征确定子模块。

其中，参数确定模块，用于根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值和细胞状态。

增强特征确定子模块，用于根据门函数值和细胞状态，获得输入特征图中各感受野中心的增强特征。

在一实施例中，参数确定模块包括门函数确定模块和细胞状态确定模块。

其中，门函数确定模块，用于根据输入特征图中各感受野中心的特征，以及相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值。

细胞状态确定模块，用于根据门函数值和历史细胞状态，获得细胞状态。

在一实施例中，特征图合并模块，还用于将输入特征图中各感受野中心的特征，分别与对应的增强特征进行合并处理，获得与各输入特征图对应的增强特征图。

在一实施例中，特征图合并模块包括上采样模块和合并子模块。其中：

上采样模块，用于分别将各增强特征图对中低分辨率的最终增强特征图进行上采样处理，获得上采样特征图，上采样特征图的分辨率与增强特征图对中高分辨率的最终增强特征图相同。

合并子模块，用于将上采样特征图和高分辨率的最终增强特征图中的特征合并，获得与相邻特征图对相应的交织特征图，由各交织特征图组成交织特征图集。

在一实施例中，图像语义分割装置还包括超像素处理模块，用于对原始图像进行超像素分割，获得包括预设数量的超像素的待处理图像。

上述图像语义分割装置，以双向和递归的方式对各相邻特征图对进行上下文交织，并合并相邻特征图对，使各特征图的上下文信息沿着垂直和水平两个维度不断传递，编码至新生成的交织特征图中，从而显著增强交织特征图中特征的描述性能力，使得最终获得的交织特征图具有更好的分类特性，进而使利用最终获得的交织特征图进行语义预测时，能够得到更为精确的语义分割图像。

关于图像语义分割装置的具体限定可以参见上文中对于图像语义分割方法的限定，在此不再赘述。上述图像语义分割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和麦克风阵列。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像语义分割方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以上任一项实施例中图像语义分割方法的步骤。

在一实施例中，提供一个或多个存储有计算机可读指令的非易失性存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以上任一项实施例中图像语义分割方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像语义分割方法，所述方法包括：

对待处理图像进行卷积处理，得到多尺度特征图集，将所述多尺度特征图集作为上下文交织处理的输入特征图集；

对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集；

将所述交织特征图集作为所述上下文交织处理的输入特征图集，返回对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集的步骤，直至所获得的所述交织特征图集仅包括一个交织特征图；

对所述交织特征图进行语义预测，获得与所述待处理图像对应的语义分割图像。
根据权利要求1所述的方法，其特征在于，所述对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集，包括：

对所述输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各所述相邻特征图对相应的增强特征图对；

分别将各所述增强特征图对中的两个最终增强特征图合并，获得与所述相邻特征图对相应的交织特征图，由各所述交织特征图组成交织特征图集。
根据权利要求2所述的方法，其特征在于，所述对所述输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各所述相邻特征图对应的增强特征图对，包括：

分别根据对应的相邻特征图，对所述输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各所述待交织特征图对应的最终增强特征图；所述相邻特征图为：与当前特征增强处理的待交织特征图同属一个相邻特征图对的待交织特征图；

将同一相邻特征图对的各所述最终增强特征图组合，作为增强特征图对。
根据权利要求3所述的方法，其特征在于，所述分别根据对应的相邻特征图，对所述输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各所述待交织特征图对应的最终增强特征图，包括：

将所述输入特征图集中的各相邻特征图对作为输入特征图对，将所述各所述待交织特征图作为输入特征图；

提取各相邻输入特征图的上下文信息；

分别根据各所述相邻输入特征图的所述上下文信息，对对应的所述输入特征图进行特征增强处理，获得与各所述输入特征图对应的增强特征图；

将各所述增强特征图作为输入特征图，将同一输入特征图对相应的各所述增强特征图组合，作为输入特征图对，返回提取各相邻输入特征图的上下文信息的步骤，直至达到预设的对内交织总次数，将最终获得的各所述增强特征图作为最终增强特征图。
根据权利要求4所述的方法，其特征在于，所述分别根据各所述相邻输入特征图的所述上下文信息，对对应的所述输入特征图进行特征增强处理，获得与各所述输入特征图对应的增强特征图，包括：

分别根据各所述相邻输入特征图的所述上下文信息，以及对应的所述输入特征图，获得所述输入特征图的增强特征；

将所述增强特征与对应的所述输入特征图进行合并处理，获得与各所述输入特征图对应的增强特征图。
根据权利要求5所述的方法，其特征在于，所述分别根据各所述相邻输入特征图的所述上下文信息，以及对应的所述输入特征图，获得所述输入特征图的增强特征，包括：

根据所述输入特征图中各感受野中心的特征，以及所述相邻输入特征图中对应的感受野中心的上下文信息，获得所述输入特征图中各感受野中心的增强特征。
根据权利要求6所述的方法，其特征在于，所述根据所述输入特征图中各感受野中心的特征，以及所述相邻输入特征图中对应的感受野中心的上下文信息，获得所述输入特征图中各感受野中心的增强特征，包括：

根据所述输入特征图中各感受野中心的特征，以及所述相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值和细胞状态；

根据所述门函数值和所述细胞状态，获得所述输入特征图中各感受野中心的增强特征。
根据权利要求7所述的方法，其特征在于，所述根据所述输入特征图中各感受野中心的特征，以及所述相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值和细胞状态，包括：

根据所述输入特征图中各感受野中心的特征，以及所述相邻输入特征图中对应的感受野中心的上下文信息，获得门函数值；

根据所述门函数值和历史细胞状态，获得细胞状态。
根据权利要求6所述的方法，其特征在于，所述将所述增强特征与对应的所述输入特征图进行合并处理，获得与各所述输入特征图对应的增强特征图，包括：

将所述输入特征图中各感受野中心的特征，分别与对应的所述增强特征进行合并处理，获得与各所述输入特征图对应的增强特征图。
根据权利要求6所述的方法，其特征在于，所述待处理图像为对原始图像进行超像素分割后的图像；所述上下文信息包括：所述感受野中心所属的超像素的聚合特征以及相邻超像素的聚合特征。
根据权利要求2所述的方法，其特征在于，所述分别将各所述增强特征图对中的两个最终增强特征图合并，获得与所述相邻特征图对相应的交织特征图，由各所述交织特征图组成交织特征图集，包括：

分别将各所述增强特征图对中低分辨率的最终增强特征图进行上采样处理，获得上采样特征图，所述上采样特征图的分辨率与所述增强特征图对中高分辨率的最终增强特征图相同；

将所述上采样特征图和所述高分辨率的最终增强特征图中的特征合并，获得与所述相邻特征图对相应的交织特征图，由各所述交织特征图组成交织特征图集。
根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：

对原始图像进行超像素分割，获得包括预设数量的超像素的待处理图像。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

对待处理图像进行卷积处理，得到多尺度特征图集，将所述多尺度特征图集作为上下文交织处理的输入特征图集；

对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集；

将所述交织特征图集作为所述上下文交织处理的输入特征图集，返回对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集的步骤，直至所获得的所述交织特征图集仅包括一个交织特征图；

对所述交织特征图进行语义预测，获得与所述待处理图像对应的语义分割图像。
根据权利要求13所述的计算机设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

对所述输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各所述相邻特征图对相应的增强特征图对；

分别将各所述增强特征图对中的两个最终增强特征图合并，获得与所述相邻特征图对相应的交织特征图，由各所述交织特征图组成交织特征图集。
根据权利要求14所述的计算机设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

分别根据对应的相邻特征图，对所述输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各所述待交织特征图对应的最终增强特征图；所述相邻特征图为：与当前特征增强处理的待交织特征图同属一个相邻特征图对的待交织特征图；

将同一相邻特征图对的各所述最终增强特征图组合，作为增强特征图对。
根据权利要求15所述的计算机设备，其特征在于，所述计算机可读指令还使得所述处理器执行如下步骤：

将所述输入特征图集中的各相邻特征图对作为输入特征图对，将所述各所述待交织特征图作为输入特征图；

提取各相邻输入特征图的上下文信息；

分别根据各所述相邻输入特征图的所述上下文信息，对对应的所述输入特征图进行特征增强处理，获得与各所述输入特征图对应的增强特征图；

将各所述增强特征图作为输入特征图，将同一输入特征图对相应的各所述增强特征图组合，作为输入特征图对，返回提取各相邻输入特征图的上下文信息的步骤，直至达到预设的对内交织总次数，将最终获得的各所述增强特征图作为最终增强特征图。
一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

对待处理图像进行卷积处理，得到多尺度特征图集，将所述多尺度特征图集作为上下文交织处理的输入特征图集；

对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集；

将所述交织特征图集作为所述上下文交织处理的输入特征图集，返回对所述输入特征图集中的各相邻特征图对分别进行上下文交织处理，获得交织特征图集的步骤，直至所获得的所述交织特征图集仅包括一个交织特征图；

对所述交织特征图进行语义预测，获得与所述待处理图像对应的语义分割图像。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

对所述输入特征图集中的各相邻特征图对分别进行特征增强处理，获得与各所述相邻特征图对相应的增强特征图对；

分别将各所述增强特征图对中的两个最终增强特征图合并，获得与所述相邻特征图对相应的交织特征图，由各所述交织特征图组成交织特征图集。
根据权利要求18所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

分别根据对应的相邻特征图，对所述输入特征图集中各相邻特征图对中的各待交织特征图进行特征增强处理，获得各所述待交织特征图对应的最终增强特征图；所述相邻特征图为：与当前特征增强处理的待交织特征图同属一个相邻特征图对的待交织特征图；

将同一相邻特征图对的各所述最终增强特征图组合，作为增强特征图对。
根据权利要求19所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

将所述输入特征图集中的各相邻特征图对作为输入特征图对，将所述各所述待交织特征图作为输入特征图；

提取各相邻输入特征图的上下文信息；

分别根据各所述相邻输入特征图的所述上下文信息，对对应的所述输入特征图进行特征增强处理，获得与各所述输入特征图对应的增强特征图；

将各所述增强特征图作为输入特征图，将同一输入特征图对相应的各所述增强特征图组合，作为输入特征图对，返回提取各相邻输入特征图的上下文信息的步骤，直至达到预设的对内交织总次数，将最终获得的各所述增强特征图作为最终增强特征图。