WO2024021413A1

WO2024021413A1 - 一种结合超像素和多尺度分层特征识别的图像分割方法

Info

Publication number: WO2024021413A1
Application number: PCT/CN2022/135319
Authority: WO
Inventors: 张登银; 倪文晔; 金小飞; 杜群荐
Original assignee: 南京邮电大学
Priority date: 2022-07-26
Filing date: 2022-11-30
Publication date: 2024-02-01
Also published as: CN115170805A

Abstract

本发明公开了一种结合超像素和多尺度分层特征识别的图像分割方法，该方法建立在卷积神经网络模型上，以从图像的高斯金字塔中提取多尺度分层特征作为识别依据，再与多层感知器相连接实现图像中各像素的识别，解决现有技术中基于卷积神经网络结构的图像分割方法中需要将数据集归一化，并且不同的尺寸混合在一起难以训练的问题；并且该方法对图像进行超像素分割，结合LBP纹理特征改进的超像素方法对原图像进行分割，使得到的超像素块更贴合目标边缘，再利用颜色均值对原图像进行合并，最终实现图像中各目标的识别，从而解决在前期图像预处理过程中没有人为的对图像中的目标进行划分，导致对于图像处于交叠边缘位置的像素可能出现误判的问题。

Description

一种结合超像素和多尺度分层特征识别的图像分割方法

技术领域

本发明涉及一种结合超像素和多尺度分层特征识别的图像分割方法，属于图像处理技术领域。

背景技术

图像识别是通过模板进行匹配，并且从人类自身的视觉识别中演变而来。人类自身的视觉识别的方法是将自己眼前的目标物体与脑海中记忆的内容作对比，最终对眼前的目标物体进行定义。图像识别的原理也是如此，先对原始图像提取相应的特征，再和需要的目标特征进行对比，最终达到识别的功能。在现代科技中，图像识别扮演着至关重要的角色，例如无人驾驶、人脸识别、导弹跟踪等领域，都与图像识别息息相关。随着时代的不断进步、科学技术的不断发展，图像识别技术发展的越来越快，至今为止，主要有统计识别、模糊集识别、神经网络识别、模板匹配识别、结构识别、支持向量机识别等方法。此外，在某种特殊条件下，还有利用靶标进行辅助识别的方法。

现如今，基本上所有的图像识别技术都离不开图像预处理、图像分别、特征提取、特征匹配识别等步骤。其中，图像分割节约了大量的计算资源，它通过将图像根据某些参数分割成不同的区域，从中提取出有效的区域。基于阈值、区域、聚类分析的分割方法，以及通过引入超像素进行图像分割的方法，都是如今较常用的图像分割方法。

图像分割是图像识别中至关重要的一环，是图像理解和分析的前提，若根据不同的使用场景选择合理有效的分割方法，可以大大减少图像识别的时间，从而节省大量的计算资源。例如在自动驾驶领域，通过图像分割可以快速准确地识别出车道行驶线、交通指示牌、路口交通信号灯等重要的交通信息。由此可见，图像分割处于十分重要的地位。

随着近些年来图像分割相关领域的研究不断地发展，现已经出现了很多十分完善的图像分割技术。图像分割是指将图像中拥有相似特性的像素划分为一个类别，进而使得每个类别具有不同的语义。图像分割方法大致可以分为两类：传统的无监督方法和有监督的深度学习方法。

传统的图像分割方法主要分为五类，分别为：基于阈值的图像分割方法、基于边缘的图像分割方法、基于图的图像分割方法、基于聚类的图像分割方法以及基于区域的图像分割方法。

基于阈值的图像分割方法是经典的分割方法，通过设定阈值，对图像的灰度直方图进行分类，其本质是利用区域内部灰度的一致性和区域间灰度的多样性，选取阈值将图像划分为目标对象和背景。这种方法实现起来较为简单，但对于较复杂的图像分割任务，往往表现出较差的结果。

基于边缘的图像分割方法通过检测图像的边缘来分割图像，其通常利用不同区域中像素灰度值不同，以及区域边界的像素灰度值变化比较大的特点，得到图像的边缘点，然后将各个边缘点连接起来，从而形成分割区域，但对于生成的未闭合边界可能导致不充分的分割结果。基于图的图像分割方法是将图像的分割问题转换为图的划分问题，将图像映射到加权无向图，再通过最小化给定的代价函数，从而将图划分为多个分类，但其计算量大且算法复杂。基于聚类的图像分割方法是将相似的像素点聚集为一个类别，反复迭代直至结果收敛，但其需要预先设定聚类的簇数。

基于区域的图像分割方法分为区域生长法和区域分裂合并法。区域生长法选择一组种子点作为生长起点，根据生长准则将种子点附近与其相似的像素点归并到种子点所在的像素区域内，实现区域的生长扩张；区域分裂合并法通过相似性准则，将图像分裂为特性不同的区域，再将特性相同的区域进行合并，重复操作直至没有分裂和合并发生。区域分割法可以明显减少噪声的干扰，具有更强的鲁棒性。有监督的深度学习图像分割方法，随着深度学习的发展，计算机领域的研究者逐渐将卷积神经网络作为图像处理的主要手段，可以充分利用图像的深层特征信息，完成图像的分割任务。

发明内容

本发明的目的在于提供一种结合超像素和多尺度分层特征识别的图像分割方法，以解决现有技术中基于卷积神经网络结构的图像分割方法中需要将数据集归一化，并且不同的尺寸混合在一起难以训练，以及在前期图像预处理过程中没有人为的对图像中的目标进行划分，导致对于图像处于交叠边缘位置的像素可能出现误判的问题。

技术方案：为解决上述技术问题，本发明所采用的技术方案是：

一种结合超像素和多尺度分层特征识别的图像分割方法，包括：

将待分割图像输入预先构建的多尺度高斯金字塔中进行提取多尺度分层特征识别，得到多个多尺度图像；

将多个多尺度图像输入到预先训练的多尺度卷积神经网络中，生成特征图，并对特征图进行采样，并将相同尺度的图像组合一起，生成多尺度分层特征矩阵；

将多尺度分层特征矩阵通过多层感知器对待分割图像实现图像像素类别分布；

采用结合LBP纹理特征改进的超像素对图像像素类别分布好的待分割图像进行分割，利用颜色均值对待分割图像合并，实现图像目标的识别与分割。

进一步地，所述多尺度高斯金字塔的构建方法包括：

将原图像的第一组第一层，经过高斯卷积之后，作为第一组金字塔的第二层，图像上的像素位置(x，y)对应的二维高斯卷积函数为：

其中σ是尺度空间因子(σ＝1.6)，σ值越大，图像越平滑；m，n为高斯矩阵的维数；M，N为二维图像的维数；

图像的尺度空间L(x，y，σ)设为一个变化尺度的高斯函数G(x，y，σ)与原图像I(x，y)的卷积，则有：

L(x，y，σ)＝G(x，y，σ)*I(x，y)；由此得到每一组第L层的图像，其中每组图像面积为上组图像的1/2，反复执行，得到一共O组，每组L层，共计O*L个的图像，构成了多尺度高斯金字塔SIFT。

进一步地，所述多尺度卷积神经网络包括：三个相同的CNN结构网络，所述CNN结构网络由三个阶段组成，第一阶段和第二阶段均由滤波器组、非线性激活函数tanh和池化操作构成，第三阶段由滤波器组成。

进一步地，所述第一阶段的滤波器组包含16个卷积核，其中8个与输入图像的Y通道相连，8个与U和V通道相连，将原始图像转换成16维特征图；第二阶段的滤波器组与第一阶段的最大池化操作结果相连接，其中滤波器组包含64个卷积核，每个卷积核与任意的8张特征图相连，将上一阶段的16维特征图转换为64维特征图，所述第三阶段的滤波器组与第二阶段的最大池化操作结果相连接，其中滤波器组包含256个卷积核，每个卷积核与任意的32张特征图相连，将上一阶段的64维特征图转换为256维特征图。

进一步地，所述滤波器组的卷积核大小均为7×7，池化操作采用的是2×2最大池化方法。

进一步地，所述多尺度卷积神经网络设为f _n，其内部参数为θ _n，则多尺度卷积神经网络由每一个相应尺度图像的卷积神经网络模型组成，所有模型内的参数都为θ _n，即θ _n＝θ ₀，n∈{1，2，...，N}，式中θ ₀是模型的初始参数，在尺度为n的卷积神经网络模型下，对于具有S个阶段的多尺度卷积神经网络f _n存在，

f _n(X _n；θ _n)＝W _SH _S-1；

式中W _S是第S个阶段的权值矩阵，H _S-1为第S-1个阶段的输出，且有H ₀＝X _n。

进一步地，所述多尺度分层特征矩阵公式为：

F＝[f ₁，μ(f ₂)，...，μ(f _N)]，其中μ是上采样函数。

进一步地，所述图像像素类别分布包括：

在多尺度卷积神经网络模型中加入线性分类器对多尺度分层特征进行学习，从而对图像中的每个像素目标产生正确的分类预测；

设

为线性分类器对于像素i所属类别的标准化预测向量；为了计算损失函数，利用softmax函数计算像素i属于类别a的标准化预测概率分布

式中w是仅用于学习特征的临时权值矩阵，F _i表示像素i所在位置对应的多尺度分层特征表达向量。

进一步地，所述超像素分割采用基于LBP纹理特征改进方法，该方法算法具体实现如下：

初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点，设图片共有N个像素点，预分割为K个相同尺寸的超像素，每个超像素大小为N/K，相邻种子点的距离，即步长为

则计算出种子点中心C _k＝[l _k，a _k，b _k，x _k，y _k] ^T；

距离度量，在每个种子点周围的邻域内为每个像素点分配类标签，采用欧式距离度量的方法，搜索的范围为2S×2S，则计算出聚类中心的种子点与2S×2S范围内每个像素点之间的距离D为

d _lab＝√(l _k-l _i) ²+(a _k-a _i) ²+(b _k-b _i) ²

d _xy＝√(x _k-x _i) ²+(y _k-y _i) ²

其中d _lab是颜色距离，d _xy是空间距离，m是调节空间距离的权重系数，S是种子点间的距离，可得，D值越小，则像素之间越相似；

继续迭代优化，更新出种子点中心，直到误差收敛；

增强连通性，将超像素按照“Z”型走向分配给邻近的超像素。

进一步地，所述超像素分割方法包括：

采用LBP算法，将其邻域内像素点的灰度值与阈值进行比较，从而得到二进制编码用来表述局部纹理特征，LBP值计算公式为：

其中i _c是中心像素点灰度值，i _p是邻域内像素点的灰度值，s是一个符号函数，

将LBP纹理特征引入SLIC算法，在改进的SLIC算法在初始化种子点时，加入LBP值，即

C _k＝[l _k，a _k，b _k，x _k，y _k，LBP _k] ^T

在距离度量步骤加入纹理距离，即

d _LBP＝√(LBP _k-LBP _i) ²

其中n为调节纹理距离的权重系数；

最后，将相邻颜色特征相似的区域进行合并，实现图像的分割。

与现有技术相比，本发明所达到的有益效果：本发明结合超像素方法能够获得包含图像目标边缘的准确过分割，在对图像进行分割之前，先对图像进行预处理，对图像的局部进行增强，使图像的目标变得更为明显，从而让图像的目标与背景更容易区分，再利用LBP纹理特征对图像分割的影响，在对图像进行超像素分割时加入LBP纹理特征，从而产生的超像素块会更加贴合目标的边缘，再对颜色特征相似的区域进行合并，最后分割出图像。该方法能够完整准确的提取出图像的结果，能够解决对于图像处于交叠边缘位置的像素可能出现误判的问题，也减少了图像预处理的要求。

附图说明

图1为本发明方法多尺度分层特征提取的整体结构示意图；

图2为本发明方法图像识别流程示意图；

图3为本发明方法卷积神经网络结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1-图3所示，公开了一种结合超像素和多尺度分层特征识别的图像分割方法，包括：

步骤1，将待分割图像输入预先构建的多尺度高斯金字塔中进行提取多尺度分层特征识别，得到多个多尺度图像；

步骤2，将多个多尺度图像输入到预先训练的多尺度卷积神经网络中，生成特征图；

步骤3，对特征图进行采样，并将相同尺度的图像组合一起，生成多尺度分层特征矩阵；

步骤4，多尺度分层特征矩阵通过多层感知器对待分割图片实现图像像素类别分布；

步骤5，采用结合LBP纹理特征改进的超像素方法对图像像素类别分布好的待分割图像进行分割，利用颜色均值对待分割图像合并，实现图像目标的识别与分割。

针对上述该方法进行详细阐述：

所述多尺度高斯金字塔的构建方法包括：

获取VOC2012数据集作为训练样本和测试样本；

在步骤1中，原始图像在输入到多尺度高斯金字塔SIFT前需转换到YUV颜色空间中，再构建多尺度高斯金字塔SIFT。

步骤2中，如图3所示，所述多尺度卷积神经网络包括：三个相同的CNN结构网络，所述CNN结构网络由三个阶段组成，第一阶段和第二阶段均由滤波器组、非线性激活函数tanh和池化操作构成，第三阶段由滤波器组成。

所述第一阶段的滤波器组包含16个卷积核，其中8个与输入图像的Y通道相连，8个与U和V通道相连，将原始图像转换成16维特征图；第二阶段的滤波器组与第一阶段的最大池化操作结果相连接，其中滤波器组包含64个卷积核，每个卷积核与任意的8张特征图相连，将上一阶段的16维特征图转换为64维特征图，所述第三阶段的滤波器组与第二阶段的最大池化操作结果相连接，其中滤波器组包含256个卷积核，每个卷积核与任意的32张特征图相连，将上一阶段的64维特征图转换为256维特征图。

所述滤波器组的卷积核大小均为7×7，池化操作采用的是2×2最大池化方法。

对多尺度金字塔中每一个图像相邻区域的数据都进行零均值化和归一化处理。所述多尺度卷积神经网络设为f _n，其内部参数为θ _n，则多尺度卷积神经网络由每一个相应尺度图像的卷积神经网络模型组成，所有模型内的参数都为θ _n，即θ _n＝θ ₀，n∈{1，2，...，N}，式中θ ₀是模型的初始参数，在尺度为n的卷积神经网络模型下，对于具有S个阶段的多尺度卷积神经网络f _n存在，

f _n(X _n；θ _n)＝W _SH _S-1；

最终，对多尺度卷积神经网络模型的输出特征图进行上采样，并且将相同尺度的图像组合在一起，从而生成N维特征矩阵F，即

F＝[f ₁，μ(f ₂)，...，μ(f _N)]，其中μ是上采样函数。

所述图像像素类别分布包括：

设

所述超像素分割采用基于LBP纹理特征改进方法，该方法算法具体实现如下：

则计算出种子点中心C _k＝[l _k，a _k，b _k，x _k，y _k] ^T；

d _lab＝√(l _k-l _i) ²+(a _k-a _i) ²+(b _k-b _i) ²

d _xy＝√(x _k-x _i) ²+*(y _k-y _i) ²

继续迭代优化，更新出种子点中心，直到误差收敛；

所述超像素分割方法包括：

C _k＝[l _k，a _k，b _k，x _k，y _k，LBP _k] ^T

在距离度量步骤加入纹理距离，即

d _LBP＝√(LBP _k-LBP _i) ²

其中n为调节纹理距离的权重系数；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

一种结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，包括：

将待分割图像输入预先构建的多尺度高斯金字塔中进行提取多尺度分层特征识别，得到多个多尺度图像；

将多个多尺度图像输入到预先训练的多尺度卷积神经网络中，生成特征图，并对特征图进行采样，并将相同尺度的图像组合一起，生成多尺度分层特征矩阵；

将多尺度分层特征矩阵通过多层感知器对待分割图像实现图像像素类别分布；

采用结合LBP纹理特征改进的超像素对图像像素类别分布好的待分割图像进行分割，利用颜色均值对待分割图像合并，实现图像目标的识别与分割。
根据权利要求1所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述多尺度高斯金字塔的构建方法包括：

将原图像的第一组第一层，经过高斯卷积之后，作为第一组金字塔的第二层，图像上的像素位置(x，y)对应的二维高斯卷积函数为：

其中σ是尺度空间因子(σ＝1.6)，σ值越大，图像越平滑；m，n为高斯矩阵的维数；M，N为二维图像的维数；

图像的尺度空间L(x，y，σ)设为一个变化尺度的高斯函数G(x，y，σ)与原图像I(x，y)的卷积，则有：

L(x，y，σ)＝G(x，y，σ)*I(x，y)；由此得到每一组第L层的图像，其中每组图像面积为上组图像的1/2，反复执行，得到一共O组，每组L层，共计O*L个的图像，构成了多尺度高斯金字塔SIFT。
根据权利要求1所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述多尺度卷积神经网络包括：三个相同的CNN结构网络，所述CNN结构网络由三个阶段组成，第一阶段和第二阶段均由滤波器组、非线性激活函数tanh和池化操作构成，第三阶段由滤波器组成。
根据权利要求3所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述第一阶段的滤波器组包含16个卷积核，其中8个与输入图像的Y通道相连，8个与U和V通道相连，将原始图像转换成16维特征图；第二阶段的滤波器组与第一阶段的最大池化操作结果相连接，其中滤波器组包含64个卷积核，每个卷积核与任意的8张特征图相连，将上一阶段的16维特征图转换为64维特征图，所述第三阶段的滤波器组与第二阶段的最大池化操作结果相连接，其中滤波器组包含256个卷积核，每个卷积核与任意的32张特征图相连，将上一阶段的64维特征图转换为256维特征图。
根据权利要求4所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述滤波器组的卷积核大小均为7×7，池化操作采用的是2×2最大池化方法。
根据权利要求3所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述多尺度卷积神经网络设为f _n，其内部参数为θ _n，则多尺度卷积神经网络由每一个相应尺度图像的卷积神经网络模型组成，所有模型内的参数都为θ _n，即θ _n＝θ ₀，n∈{1，2，...，N}，式中θ ₀是模型的初始参数，在尺度为n的卷积神经网络模型下，对于具有S个阶段的多尺度卷积神经网络f _n存在，

f _n(X _n；θ _n)＝W _SH _S-1；

式中W _S是第S个阶段的权值矩阵，H _S-1为第S-1个阶段的输出，且有H ₀＝X _n。
根据权利要求6所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述多尺度分层特征矩阵公式为：

F＝[f ₁，μ(f ₂)，...，μ(f _N)]，其中μ是上采样函数。
根据权利要求1所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述图像像素类别分布包括：

在多尺度卷积神经网络模型中加入线性分类器对多尺度分层特征进行学习，从而对图像中的每个像素目标产生正确的分类预测；

设
为线性分类器对于像素i所属类别的标准化预测向量；为了计算损失函数，利用softmax函数计算像素i属于类别a的标准化预测概率分布

式中w是仅用于学习特征的临时权值矩阵，F _i表示像素i所在位置对应的多尺度分层特征表达向量。
根据权利要求1所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述超像素分割采用基于LBP纹理特征改进方法，该方法算法具体实现如下：

初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点，设图片共有N个像素点，预分割为K个相同尺寸的超像素，每个超像素大小为N/K，相邻种子点的距离，即步长为
则计算出种子点中心C _k＝[l _k，a _k，b _k，x _k，y _k] ^T；

距离度量，在每个种子点周围的邻域内为每个像素点分配类标签，采用欧式距离度量的方法，搜索的范围为2S×2S，则计算出聚类中心的种子点与2S×2S范围内每个像素点之间的距离D为

d _lab＝√(l _k-l _i) ²+(a _k-a _i) ²+(b _k-b _i) ²

d _xy＝√(x _k-x _i) ²+(y _k-y _i) ²

其中d _lab是颜色距离，d _xy是空间距离，m是调节空间距离的权重系数，S是种子点间的距离，可得，D值越小，则像素之间越相似；

继续迭代优化，更新出种子点中心，直到误差收敛；

增强连通性，将超像素按照“Z”型走向分配给邻近的超像素。
根据权利要求9所述的结合超像素和多尺度分层特征识别的图像分割方法，其特征在于，所述超像素分割方法包括：

采用LBP算法，将其邻域内像素点的灰度值与阈值进行比较，从而得到二进制编码用来表述局部纹理特征，LBP值计算公式为：

其中i _c是中心像素点灰度值，i _p是邻域内像素点的灰度值，s是一个符号函数，

将LBP纹理特征引入SLIC算法，在改进的SLIC算法在初始化种子点时，加入LBP值，即

C _k＝[l _k，a _k，b _k，x _k，y _k，LBP _k] ^T

在距离度量步骤加入纹理距离，即

d _LBP＝√(LBP _k-LBP _i) ²

其中n为调节纹理距离的权重系数；

最后，将相邻颜色特征相似的区域进行合并，实现图像的分割。