WO2023019698A1

WO2023019698A1 - 基于富上下文网络的高光谱图像分类方法

Info

Publication number: WO2023019698A1
Application number: PCT/CN2021/122346
Authority: WO
Inventors: 杜博; 王迪; 张良培
Original assignee: 武汉大学
Priority date: 2021-08-16
Filing date: 2021-09-30
Publication date: 2023-02-23
Also published as: CN113705641A; CN113705641B; US11941865B2; US20230334829A1

Abstract

本发明公开了一种基于富上下文网络的端到端高光谱图像分类方法，包括训练和预测两个阶段，其中训练阶段包括图像预处理，样本的选取和网络训练。首先将高光谱图像进行全局归一化，然后每类随机选取适当比例的带有标记的样本生成标记图并使用设计好的网络进行训练；在预测阶段，直接将整幅图像输入训练好的网络并得到最终的分类结果。本发明整个流程综合考虑了数据预处理、特征提取，富上下文信息捕获和分类过程，通过构建端到端网络，实现高光谱图像的分类。

Description

基于富上下文网络的高光谱图像分类方法

技术领域

本发明属于遥感影像处理技术领域，尤其涉及一种基于富上下文网络的高光谱图像分类方法。

背景技术

随着对地观测技术的发展，可以获得具有成百上千个连续狭窄波段和丰富空谱信息的高光谱图像。高光谱图像分类的目标是对图像中的每一个像素赋予一个唯一的类别标签，进而生成一幅精确完整的分类图。这种分类图在农业，环境管理，异常探测等行业起到了重要作用。然而，这一任务仍然具有挑战性，因为高光谱图像中不同地物的尺度，形状及位置的复杂性都会影响对地物类别的判断。

传统的分类方法直接将原始光谱向量输入到分类器中，这意味着缺少周围环境信息，因此这些方法精度往往十分有限。后来，有许多方法通过特征工程方法同时提取空间和光谱特征，然而这些方法提取到的特征是浅层特征，其在复杂条件下表现不够稳定，也不能刻画出对象的本质属性。此外，这些特征工程方法往往会局限于设计者本身的工作经验，不够灵活。

为了获取更本质的特征，数据驱动的深度学习技术被广泛的应用于高光谱图像分类。最早是全连接网络，然而这些网络限制了输入数据的尺寸因为所有多维数据都必须展平，这毫无疑问损失了空间结构。后来出现了很多方法借助于卷积神经网络局部感知和权重共享的良好特性来解决这一问题。它们基本上都采用产生一系列以待分类像素为中心的空间补丁并将这些补丁输入网络得到中心像素类别的流程。然而，这意味着相邻像素的补丁因为有重叠区域因此存在着不必要的冗余计算。此外，这些补丁有限的尺寸不仅限制了网络的感受野，而且也阻碍了长程依赖的建模。事实上，除了波段数较多以外，高光谱图像分类的输入输出与自然图像的语义分割任务十分相似，这说明高光谱图像分类可以采用与自然图像分割类似的方法。到目前为止，已经有一些基于全卷积的分割网络开始应用于高光谱图像分类中，不过这些网络依然不能完全获得提取信息，因为它们仅仅通过堆积卷积层来增大感受野。这些网络也不能捕捉非局部上下文信息，因为它们采用的空洞卷积或者普通卷积操作都属于局部算子。后来，一些工作利用空间非局部自注意力模块来提取大范围的上下文信息。然而这些模块仅仅能捕捉特定特征内部的不同像素间的上下文信息，而特征之间，尤其是对高光谱图像分类至关重要的多尺度特征间的关系以及更有效的能够同时跨空间位置跨不同尺度的富上下文信息，还未被获得，这限制了分类精度的进一步提高。

发明内容

针对现有技术存在的不足，本发明提供了一种基于富上下文网络的高光谱图像分类方法。

本发明提供一种基于富上下文网络的高光谱图像分类方法，包括训练和预测两个阶段。训练阶段包括图像预处理，样本的选取和网络训练。其特征在于：利用已有的多尺度特征提取模块，通过特征内关系捕捉和特征间关系捕捉两部分从该模块产生的多个特征上提取出更丰富的上下文信息用于高光谱图像分类。首先在每个特征内捕捉特征内存在的上下文关系，利用已有的非局部自注意力机制，通过计算像素表示间的相似度完成了空间信息的自适应聚合，从而获得了更有效的空间上下文特征。然后利用自注意力算法，添加了尺度上下文感知模块来捕捉特征间存在的尺度关系。最后获得了能够同时感知跨空间和不同尺度间位置的富上下文特征用于高光谱图像分类。该方法包含以下步骤：

步骤1，将高光谱图像进行预处理；

步骤2，选取训练集，并生成与相应步骤1中图像宽高相同的地面真值标记图，其值为类别ID，将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值；

步骤3，构建富上下文网络，网络整体结构分为特征提取模块，富上下文信息捕获模块和分类模块三部分；

其中特征提取模块用于处理输入的预处理后的高光谱图像，获得特征X；

富上下文信息捕获模块的具体处理过程为：将通过特征提取模块获得的特征X并行在不同路径进行不同尺寸的网格划分，在每个路径中，分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合，利用PAM模块实现网格内的空间上下文信息提取过程；在每个路径都完成空间上下文信息提取操作后得到特征集，然后利用尺度上下文感知模块提取特征间含有的上下文关系，最终获得的是同时具有空间和尺度上下文信息的特征，然后将此特征输入分类模块；

分类模块用于预测得到的分类图；

步骤4，利用训练集对上述富上下文网络进行训练，使损失函数达到收敛；

步骤5，将经过步骤1预处理后的待分类图像输入到训练好的网络，即可完成高光谱图像分类。

进一步的，所述预处理为对高光谱图像进行Z-score标准化或归一化处理，具体实现如下；

将高光谱数据X ₀按公式

或

进行归一化处理，其中x _ijc表示X ₀中第i行j列像元x _ij在波段c处的值，x _cmin,x _cmax则是X ₀中波段c的最小值与最大值，μ _c和σ _c则是波段c的均值与标准差，得到X′ ₀。

进一步的，所述基础特征提取是直接将输入的预处理后的高光谱图像通过五个卷积层，这些卷积层均包含卷积-组归一化-非线性映射三个操作，五个卷积层的卷积核个数分别为64,112,160,208,256，其中第一个卷积层后有个平均池化层。

进一步的，所述分类模块包括第一卷积-组归一化-非线性映射-第二卷积及softmax函数五个操作，第一卷积操作中包含128个卷积核，第二卷积操作中卷积核的个数与类别数相同。

进一步的，训练过程中网络参数采用Xavier初始化，参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数，损失函数为交叉熵损失函数，训练完成后的网络能够有效对高光谱图像的富上下文特征进行分类。

进一步的，所述富上下文信息捕获模块中，在进行特征内上下文信息提取之前，从特征提取模块获得的特征

的维度通过一个1×1卷积进行降维，其中C ₀,H与W分别是X的通道数与宽高，路径个数为N _s；在每个路径中，分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合；对于某条网格数为n×n的，即在宽高两个方向分别分成n份，每个网格的大小为

的路径i来说，首先分别通过三个1×1卷积将降维后的X分别映射为Q _i,K _i,V _i三个特征，则对于某个网格g来说，在Q _i,K _i,V _i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换，其中Q _i,K _i通道数均为c1，V _i通道数为c2，得到

然后将q _g,k _g,v _g分别作为查询特征，键特征与值特征实现该网格内的空间上下文信息提取过程，并通过矩阵尺寸变换获得新特征

其中

此过程如下

然后将p _g填充到X _i降维后的特征中网格g所覆盖的位置，而对于其他网格也都采用同样的方式进行处理，从而获得了该路径中完成空间上下文的新特征P _i，而各个路径中都会生成一个新特征，将其表示为特征集

C ₁表示通道数，C ₁＝c2＝4c1。

进一步的，利用尺度上下文感知模块提取特征间的关系的具体实现过程如下；

首先利用三组1×1卷积将特征P分别映射并在尺度维级联，获得查询特征

关键字特征

与值特征

其中

接下来将Q,K,V进行矩阵尺寸变换得到

与

并通过下式获得尺度注意力图

其中i和j分别表示两个不同的尺度，即两个路径的编号，同时也是尺度注意力图中对应注意力值所处的行列位置；将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S：

S＝MV′

最后，将S与X在通道维级联后输入到分类模块。

与现有技术相比，本发明的优点和有益效果为：

(1)本发明提出了尺度上下文提取模块，能够有效捕获多个特征间存在的上下文依赖。

(2)本发明提出了富上下文提取模块，该模块能够同时提取特征间任意位置的关系信息。

(3)本发明基于上述模型构建了富上下文分类网络，端到端的实现了高光谱图像分类。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明特征间上下文信息提取示意图；

图3为本发明富上下文信息捕获模块示意图，其中上图是完整的模块流程，而下图则是上图中的富上下文信息提取部分；

图4为本发明的富上下文分类网络示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明技术方案，下面结合附图和实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明公开了一种基于富上下文网络的端到端高光谱图像分类方法，包括训练和预测两个阶段。训练阶段包括图像预处理，样本的选取和网络训练。首先将高光谱图像进行全局归一化。然后每类随机选取适当比例的带有标记的样本生成标记图并使用设计好的网络进行训练。在预测阶段，直接将整幅图像输入训练好的网络并得到最终的分类结果。包括以下步骤：

步骤1：将高光谱数据X ₀按公式

或

步骤2：将步骤1中提取的含有标签的数据中随机选择一半或少于一半的数据作为训练集，并生成与相应步骤1中图像宽高相同的地面真值标记图，其值为类别ID，将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值(通过在Pytorch的CrossEntropy损失函数中设置ignore_value来实现)。

步骤3：构建富上下文网络，网络整体结构分为特征提取，富上下文信息捕获和分类三部分，其中基础特征提取是直接将输入的预处理后的高光谱图像(即步骤1中经过归一化处理后的高光谱图像)通过五个卷积层(卷积核个数为64,112,160,208,256)，这些卷积层均包含卷积(size＝3,stride＝1,padding＝1)-组归一化(组数16)-非线性映射(ReLU)三个操作，其中第一个卷积层后有个平均池化层(size＝2，stride＝2)。然后进行富上下文信息捕获，将通过卷积层获得的特征

并行在不同路径进行不同尺寸的网格划分，这些网格事实上是后续特征内关系捕捉的虚拟边界。C ₀,H与W分别是X的通道数与宽高，路径个数为N _s，路径中网格的个数与网格所在的位置参照文献(Zhao et al,“Pyramid scene parsing network,”CVPR.2017.)与文献(Yuan etal,“Ocnet:Object context network for scene parsing,”CoRR.2018.)。以图3为例，有4条路径，各路径网格个数均不相同，分别为(1,2 ²,3 ²,6 ²)。在进行特征内上下文信息提取之前，X的维度通过一个1×1卷积降为C＝64。在每个路径中，分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合。对于某条网格数为n×n的，即在宽高两个方向分别分成n份，每个网格的大小为

的路径i来说，首先分别通过三个1×1卷积将降维后的X分别映射为Q _i,K _i,V _i三个特征，其中Q _i,K _i通道数均为16，V _i通道数为64。则对于某个网格g来说，在Q _i,K _i,V _i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换，得到

其中

此过程如下

然后将p _g填充到X _i降维后的特征中网格g所覆盖的位置，而对于其他网格也都采用同样的方式进行处理，从而获得了该路径中完成空间上下文的新特征P _i，而各个路径中都会生成一个新特征，我们将其表示为特征集

C ₁＝64。接下来利用新添加的尺度上下文感知模块提取特征间的关系：首先利用三组1×1卷积将特征P分别映射并在尺度维级联，获得查询特征

关键字特征

与值特征

其中C ₂＝16。接下来将Q,K,V进行矩阵尺寸变换得到

与

并通过下式获得尺度注意力图

其中i和j分别表示两个不同的尺度(两个路径的编号)，同时也是尺度注意力图中对应注意力值所处的行列位置。将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S：

S＝MV′

在分类阶段，将S与X在通道维级联后通过卷积(128个卷积核，size＝3×3,stride＝1,padding＝1)-组归一化(组数16)-非线性映射(ReLU)-卷积(类别数个卷积核，size＝1×31stride＝1,padding＝0)及softmax函数后既可得到预测出的分类图。网络的整体运算过程由前向运算，误差计算，反向传播，参数更新四部分构成。

步骤4：利用训练数据对上述网络进行训练，网络参数采用Xavier初始化，参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数，训练完成后该网络能够有效提取高光谱图像的富上下文特征进行分类。网络仅仅采用交叉熵损失函数。

步骤5：将步骤1预处理后的图像再次输入训练好的网络，即可完成高光谱图像分类。

以上是本发明涉及的高光谱图像分类方法的具体实现步骤。整个流程综合考虑了数据预处理、特征提取，富上下文信息捕获和分类过程，通过构建端到端网络，实现高光谱图像的分类。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

一种基于富上下文网络的高光谱图像分类方法，其特征在于，包含以下步骤：

步骤1，将高光谱图像进行预处理；

步骤2，选取训练集，并生成与相应步骤1中图像宽高相同的地面真值标记图，其值为类别ID，将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值；

步骤3，构建富上下文网络，网络整体结构分为特征提取模块，富上下文信息捕获模块和分类模块三部分；

其中特征提取模块用于处理输入的预处理后的高光谱图像，获得特征X；

富上下文信息捕获模块的具体处理过程为：将通过特征提取模块获得的特征X并行在不同路径进行不同尺寸的网格划分，在每个路径中，分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合，利用PAM模块实现网格内的空间上下文信息提取过程；在每个路径都完成空间上下文信息提取操作后得到特征集，然后利用尺度上下文感知模块提取特征间含有的上下文关系，最终获得的是同时具有空间和尺度上下文信息的特征，然后将此特征输入分类模块；

分类模块用于预测得到的分类图；

步骤4，利用训练集对上述富上下文网络进行训练，使损失函数达到收敛；

步骤5，将经过步骤1预处理后的待分类图像输入到训练好的网络，即可完成高光谱图像分类。
如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：所述预处理为对高光谱图像进行Z-score标准化或归一化处理，具体实现如下；

将高光谱数据X ₀按公式
或
进行归一化处理，其中x _ijc表示X ₀中第i行j列像元x _ij在波段c处的值，x _cmin,x _cmax则是X ₀中波段c的最小值与最大值，μ _c和σ _c则是波段c的均值与标准差，得到X′ ₀。
如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：所述基础特征提取是直接将输入的预处理后的高光谱图像通过五个卷积层，这些卷积层均包含卷积-组归一化-非线性映射三个操作，五个卷积层的卷积核个数分别为64,112,160,208,256，其中第一个卷积层后有个平均池化层。
如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：所述分类模块包括第一卷积-组归一化-非线性映射-第二卷积及softmax函数五个操作，第一卷积操作中包含128个卷积核，第二卷积操作中卷积核的个数与类别数相同。
如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：训练过程中网络参数采用Xavier初始化，参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数，损失函数为交叉熵损失函数，训练完成后的网络能够有效对高光谱图像的富上下文特征进行分类。
如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：所述富上下文信息捕获模块中，在进行特征内上下文信息提取之前，从特征提取模块获得的特征
的维度通过一个1×1卷积进行降维，其中C ₀,H与W分别是X的通道数与宽高，路径个数为N _s；在每个路径中，分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合；对于某条网格数为n×n的，即在宽高两个方向分别分成n份，每个网格的大小为
的路径i来说，首先分别通过三个1×1卷积将降维后的X分别映射为Q _i,K _i,V _i三个特征，则对于某个网格g来说，在Q _i,K _i,V _i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换，其中Q _i,K _i通道数均为c1，V _i通道数为c2，得到
然后将q _g,k _g,v _g分别作为查询特征，键特征与值特征实现该网格内的空间上下文信息提取过程，并通过矩阵尺寸变换获得新特征
其中
此过程如下

然后将p _g填充到X _i降维后的特征中网格g所覆盖的位置，而对于其他网格也都采用同样的方式进行处理，从而获得了该路径中完成空间上下文的新特征P _i，而各个路径中都会生成一个新特征，将其表示为特征集
C ₁表示通道数，C ₁＝c2＝4c1。
如权利要求6所述的一种基于富上下文网络的高光谱图像分类方法，其特征在于：利用尺度上下文感知模块提取特征间的关系的具体实现过程如下；

首先利用三组1×1卷积将特征P分别映射并在尺度维级联，获得查询特征
关键字特征
与值特征
其中
接下来将Q,K,V进行矩阵尺寸变换得到
与
并通过下式获得尺度注意力图

其中i和j分别表示两个不同的尺度，即两个路径的编号，同时也是尺度注意力图中对应注意力值所处的行列位置；将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S：

S＝MV′

最后，将S与X在通道维级联后输入到分类模块。