WO2023019698A1 - 基于富上下文网络的高光谱图像分类方法 - Google Patents

基于富上下文网络的高光谱图像分类方法 Download PDF

Info

Publication number
WO2023019698A1
WO2023019698A1 PCT/CN2021/122346 CN2021122346W WO2023019698A1 WO 2023019698 A1 WO2023019698 A1 WO 2023019698A1 CN 2021122346 W CN2021122346 W CN 2021122346W WO 2023019698 A1 WO2023019698 A1 WO 2023019698A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
network
hyperspectral image
features
module
Prior art date
Application number
PCT/CN2021/122346
Other languages
English (en)
French (fr)
Inventor
杜博
王迪
张良培
Original Assignee
武汉大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 武汉大学 filed Critical 武汉大学
Publication of WO2023019698A1 publication Critical patent/WO2023019698A1/zh
Priority to US18/337,444 priority Critical patent/US11941865B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/194Terrestrial scenes using hyperspectral data, i.e. more or other wavelengths than RGB
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Definitions

  • the specific processing process of the rich context information capture module is: divide the feature X obtained by the feature extraction module into grids of different sizes in parallel in different paths, and in each path, perform feature inter-relationships in each grid.
  • the spatial context information aggregation is extracted, and the spatial context information extraction process in the grid is realized by using the PAM module;
  • the feature set is obtained after the spatial context information extraction operation is completed in each path, and then the contextual relationship between the features is extracted using the scale context awareness module , what is finally obtained is a feature with both spatial and scale context information, and then this feature is input into the classification module;
  • the basic feature extraction is to directly pass the input preprocessed hyperspectral image through five convolutional layers, and these convolutional layers all include three operations of convolution-group normalization-nonlinear mapping, five
  • the number of convolution kernels in the convolutional layer is 64, 112, 160, 208, and 256, respectively, and there is an average pooling layer after the first convolutional layer.

Abstract

本发明公开了一种基于富上下文网络的端到端高光谱图像分类方法,包括训练和预测两个阶段,其中训练阶段包括图像预处理,样本的选取和网络训练。首先将高光谱图像进行全局归一化,然后每类随机选取适当比例的带有标记的样本生成标记图并使用设计好的网络进行训练;在预测阶段,直接将整幅图像输入训练好的网络并得到最终的分类结果。本发明整个流程综合考虑了数据预处理、特征提取,富上下文信息捕获和分类过程,通过构建端到端网络,实现高光谱图像的分类。

Description

基于富上下文网络的高光谱图像分类方法 技术领域
本发明属于遥感影像处理技术领域,尤其涉及一种基于富上下文网络的高光谱图像分类方法。
背景技术
随着对地观测技术的发展,可以获得具有成百上千个连续狭窄波段和丰富空谱信息的高光谱图像。高光谱图像分类的目标是对图像中的每一个像素赋予一个唯一的类别标签,进而生成一幅精确完整的分类图。这种分类图在农业,环境管理,异常探测等行业起到了重要作用。然而,这一任务仍然具有挑战性,因为高光谱图像中不同地物的尺度,形状及位置的复杂性都会影响对地物类别的判断。
传统的分类方法直接将原始光谱向量输入到分类器中,这意味着缺少周围环境信息,因此这些方法精度往往十分有限。后来,有许多方法通过特征工程方法同时提取空间和光谱特征,然而这些方法提取到的特征是浅层特征,其在复杂条件下表现不够稳定,也不能刻画出对象的本质属性。此外,这些特征工程方法往往会局限于设计者本身的工作经验,不够灵活。
为了获取更本质的特征,数据驱动的深度学习技术被广泛的应用于高光谱图像分类。最早是全连接网络,然而这些网络限制了输入数据的尺寸因为所有多维数据都必须展平,这毫无疑问损失了空间结构。后来出现了很多方法借助于卷积神经网络局部感知和权重共享的良好特性来解决这一问题。它们基本上都采用产生一系列以待分类像素为中心的空间补丁并将这些补丁输入网络得到中心像素类别的流程。然而,这意味着相邻像素的补丁因为有重叠区域因此存在着不必要的冗余计算。此外,这些补丁有限的尺寸不仅限制了网络的感受野,而且也阻碍了长程依赖的建模。事实上,除了波段数较多以外,高光谱图像分类的输入输出与自然图像的语义分割任务十分相似,这说明高光谱图像分类可以采用与自然图像分割类似的方法。到目前为止,已经有一些基于全卷积的分割网络开始应用于高光谱图像分类中,不过这些网络依然不能完全获得提取信息,因为它们仅仅通过堆积卷积层来增大感受野。这些网络也不能捕捉非局部上下文信息,因为它们采用的空洞卷积或者普通卷积操作都属于局部算子。后来,一些工作利用空间非 局部自注意力模块来提取大范围的上下文信息。然而这些模块仅仅能捕捉特定特征内部的不同像素间的上下文信息,而特征之间,尤其是对高光谱图像分类至关重要的多尺度特征间的关系以及更有效的能够同时跨空间位置跨不同尺度的富上下文信息,还未被获得,这限制了分类精度的进一步提高。
发明内容
针对现有技术存在的不足,本发明提供了一种基于富上下文网络的高光谱图像分类方法。
本发明提供一种基于富上下文网络的高光谱图像分类方法,包括训练和预测两个阶段。训练阶段包括图像预处理,样本的选取和网络训练。其特征在于:利用已有的多尺度特征提取模块,通过特征内关系捕捉和特征间关系捕捉两部分从该模块产生的多个特征上提取出更丰富的上下文信息用于高光谱图像分类。首先在每个特征内捕捉特征内存在的上下文关系,利用已有的非局部自注意力机制,通过计算像素表示间的相似度完成了空间信息的自适应聚合,从而获得了更有效的空间上下文特征。然后利用自注意力算法,添加了尺度上下文感知模块来捕捉特征间存在的尺度关系。最后获得了能够同时感知跨空间和不同尺度间位置的富上下文特征用于高光谱图像分类。该方法包含以下步骤:
步骤1,将高光谱图像进行预处理;
步骤2,选取训练集,并生成与相应步骤1中图像宽高相同的地面真值标记图,其值为类别ID,将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值;
步骤3,构建富上下文网络,网络整体结构分为特征提取模块,富上下文信息捕获模块和分类模块三部分;
其中特征提取模块用于处理输入的预处理后的高光谱图像,获得特征X;
富上下文信息捕获模块的具体处理过程为:将通过特征提取模块获得的特征X并行在不同路径进行不同尺寸的网格划分,在每个路径中,分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合,利用PAM模块实现网格内的空间上下文信息提取过程;在每个路径都完成空间上下文信息提取操作后得到特征集,然后利用尺度上下文感知模块提取特征间含有的上下文关系,最终获得的是同时具有空间和尺度上下文信息的特征,然后将此特征输入分类模块;
分类模块用于预测得到的分类图;
步骤4,利用训练集对上述富上下文网络进行训练,使损失函数达到收敛;
步骤5,将经过步骤1预处理后的待分类图像输入到训练好的网络,即可完成高光谱图像分类。
进一步的,所述预处理为对高光谱图像进行Z-score标准化或归一化处理,具体实现如下;
将高光谱数据X 0按公式
Figure PCTCN2021122346-appb-000001
Figure PCTCN2021122346-appb-000002
进行归一化处理,其中x ijc表示X 0中第i行j列像元x ij在波段c处的值,x cmin,x cmax则是X 0中波段c的最小值与最大值,μ c和σ c则是波段c的均值与标准差,得到X′ 0
进一步的,所述基础特征提取是直接将输入的预处理后的高光谱图像通过五个卷积层,这些卷积层均包含卷积-组归一化-非线性映射三个操作,五个卷积层的卷积核个数分别为64,112,160,208,256,其中第一个卷积层后有个平均池化层。
进一步的,所述分类模块包括第一卷积-组归一化-非线性映射-第二卷积及softmax函数五个操作,第一卷积操作中包含128个卷积核,第二卷积操作中卷积核的个数与类别数相同。
进一步的,训练过程中网络参数采用Xavier初始化,参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数,损失函数为交叉熵损失函数,训练完成后的网络能够有效对高光谱图像的富上下文特征进行分类。
进一步的,所述富上下文信息捕获模块中,在进行特征内上下文信息提取之前,从特征提取模块获得的特征
Figure PCTCN2021122346-appb-000003
的维度通过一个1×1卷积进行降维,其中C 0,H与W分别是X的通道数与宽高,路径个数为N s;在每个路径中,分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合;对于某条网格数为n×n的,即在宽高两个方向分别分成n份,每个网格的大小为
Figure PCTCN2021122346-appb-000004
的路径i来说,首先分别通过三个1×1卷积将降维后的X分别映射为Q i,K i,V i三个特征,则对于某个网格g来说,在Q i,K i,V i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换,其中Q i,K i通道数均为c1,V i通道数为c2, 得到
Figure PCTCN2021122346-appb-000005
然后将q g,k g,v g分别作为查询特征,键特征与值特征实现该网格内的空间上下文信息提取过程,并通过矩阵尺寸变换获得新特征
Figure PCTCN2021122346-appb-000006
其中
Figure PCTCN2021122346-appb-000007
此过程如下
Figure PCTCN2021122346-appb-000008
然后将p g填充到X i降维后的特征中网格g所覆盖的位置,而对于其他网格也都采用同样的方式进行处理,从而获得了该路径中完成空间上下文的新特征P i,而各个路径中都会生成一个新特征,将其表示为特征集
Figure PCTCN2021122346-appb-000009
C 1表示通道数,C 1=c2=4c1。
进一步的,利用尺度上下文感知模块提取特征间的关系的具体实现过程如下;
首先利用三组1×1卷积将特征P分别映射并在尺度维级联,获得查询特征
Figure PCTCN2021122346-appb-000010
关键字特征
Figure PCTCN2021122346-appb-000011
与值特征
Figure PCTCN2021122346-appb-000012
其中
Figure PCTCN2021122346-appb-000013
接下来将Q,K,V进行矩阵尺寸变换得到
Figure PCTCN2021122346-appb-000014
Figure PCTCN2021122346-appb-000015
并通过下式获得尺度注意力图
Figure PCTCN2021122346-appb-000016
Figure PCTCN2021122346-appb-000017
其中i和j分别表示两个不同的尺度,即两个路径的编号,同时也是尺度注意力图中对应注意力值所处的行列位置;将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S:
S=MV′
最后,将S与X在通道维级联后输入到分类模块。
与现有技术相比,本发明的优点和有益效果为:
(1)本发明提出了尺度上下文提取模块,能够有效捕获多个特征间存在的上下文依赖。
(2)本发明提出了富上下文提取模块,该模块能够同时提取特征间任意位置的关系信息。
(3)本发明基于上述模型构建了富上下文分类网络,端到端的实现了高光 谱图像分类。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明特征间上下文信息提取示意图;
图3为本发明富上下文信息捕获模块示意图,其中上图是完整的模块流程,而下图则是上图中的富上下文信息提取部分;
图4为本发明的富上下文分类网络示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明技术方案,下面结合附图和实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明公开了一种基于富上下文网络的端到端高光谱图像分类方法,包括训练和预测两个阶段。训练阶段包括图像预处理,样本的选取和网络训练。首先将高光谱图像进行全局归一化。然后每类随机选取适当比例的带有标记的样本生成标记图并使用设计好的网络进行训练。在预测阶段,直接将整幅图像输入训练好的网络并得到最终的分类结果。包括以下步骤:
步骤1:将高光谱数据X 0按公式
Figure PCTCN2021122346-appb-000018
Figure PCTCN2021122346-appb-000019
进行归一化处理,其中x ijc表示X 0中第i行j列像元x ij在波段c处的值,x cmin,x cmax则是X 0中波段c的最小值与最大值,μ c和σ c则是波段c的均值与标准差,得到X′ 0
步骤2:将步骤1中提取的含有标签的数据中随机选择一半或少于一半的数据作为训练集,并生成与相应步骤1中图像宽高相同的地面真值标记图,其值为类别ID,将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值(通过在Pytorch的CrossEntropy损失函数中设置ignore_value来实现)。
步骤3:构建富上下文网络,网络整体结构分为特征提取,富上下文信息捕获和分类三部分,其中基础特征提取是直接将输入的预处理后的高光谱图像(即步骤1中经过归一化处理后的高光谱图像)通过五个卷积层(卷积核个数为64,112,160,208,256),这些卷积层均包含卷积(size=3,stride=1,padding=1)-组归一化(组数16)-非线性映射(ReLU)三个操作,其中第一个卷积层后有个平均池 化层(size=2,stride=2)。然后进行富上下文信息捕获,将通过卷积层获得的特征
Figure PCTCN2021122346-appb-000020
并行在不同路径进行不同尺寸的网格划分,这些网格事实上是后续特征内关系捕捉的虚拟边界。C 0,H与W分别是X的通道数与宽高,路径个数为N s,路径中网格的个数与网格所在的位置参照文献(Zhao et al,“Pyramid scene parsing network,”CVPR.2017.)与文献(Yuan etal,“Ocnet:Object context network for scene parsing,”CoRR.2018.)。以图3为例,有4条路径,各路径网格个数均不相同,分别为(1,2 2,3 2,6 2)。在进行特征内上下文信息提取之前,X的维度通过一个1×1卷积降为C=64。在每个路径中,分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合。对于某条网格数为n×n的,即在宽高两个方向分别分成n份,每个网格的大小为
Figure PCTCN2021122346-appb-000021
的路径i来说,首先分别通过三个1×1卷积将降维后的X分别映射为Q i,K i,V i三个特征,其中Q i,K i通道数均为16,V i通道数为64。则对于某个网格g来说,在Q i,K i,V i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换,得到
Figure PCTCN2021122346-appb-000022
然后将q g,k g,v g分别作为查询特征,键特征与值特征实现该网格内的空间上下文信息提取过程,并通过矩阵尺寸变换获得新特征
Figure PCTCN2021122346-appb-000023
其中
Figure PCTCN2021122346-appb-000024
Figure PCTCN2021122346-appb-000025
此过程如下
Figure PCTCN2021122346-appb-000026
然后将p g填充到X i降维后的特征中网格g所覆盖的位置,而对于其他网格也都采用同样的方式进行处理,从而获得了该路径中完成空间上下文的新特征P i,而各个路径中都会生成一个新特征,我们将其表示为特征集
Figure PCTCN2021122346-appb-000027
Figure PCTCN2021122346-appb-000028
C 1=64。接下来利用新添加的尺度上下文感知模块提取特征间的关系:首先利用三组1×1卷积将特征P分别映射并在尺度维级联,获得查询特征
Figure PCTCN2021122346-appb-000029
关键字特征
Figure PCTCN2021122346-appb-000030
与值特征
Figure PCTCN2021122346-appb-000031
其中C 2=16。接下来将Q,K,V进行矩阵尺寸变换得到
Figure PCTCN2021122346-appb-000032
Figure PCTCN2021122346-appb-000033
Figure PCTCN2021122346-appb-000034
并通过下式获得尺度注意力图
Figure PCTCN2021122346-appb-000035
Figure PCTCN2021122346-appb-000036
其中i和j分别表示两个不同的尺度(两个路径的编号),同时也是尺度注意力图中对应注意力值所处的行列位置。将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S:
S=MV′
在分类阶段,将S与X在通道维级联后通过卷积(128个卷积核,size=3×3,stride=1,padding=1)-组归一化(组数16)-非线性映射(ReLU)-卷积(类别数个卷积核,size=1×31stride=1,padding=0)及softmax函数后既可得到预测出的分类图。网络的整体运算过程由前向运算,误差计算,反向传播,参数更新四部分构成。
步骤4:利用训练数据对上述网络进行训练,网络参数采用Xavier初始化,参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数,训练完成后该网络能够有效提取高光谱图像的富上下文特征进行分类。网络仅仅采用交叉熵损失函数。
步骤5:将步骤1预处理后的图像再次输入训练好的网络,即可完成高光谱图像分类。
以上是本发明涉及的高光谱图像分类方法的具体实现步骤。整个流程综合考虑了数据预处理、特征提取,富上下文信息捕获和分类过程,通过构建端到端网络,实现高光谱图像的分类。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

  1. 一种基于富上下文网络的高光谱图像分类方法,其特征在于,包含以下步骤:
    步骤1,将高光谱图像进行预处理;
    步骤2,选取训练集,并生成与相应步骤1中图像宽高相同的地面真值标记图,其值为类别ID,将未被选择位置的像素在该标记图置为后续计算损失函数时待忽略的背景值;
    步骤3,构建富上下文网络,网络整体结构分为特征提取模块,富上下文信息捕获模块和分类模块三部分;
    其中特征提取模块用于处理输入的预处理后的高光谱图像,获得特征X;
    富上下文信息捕获模块的具体处理过程为:将通过特征提取模块获得的特征X并行在不同路径进行不同尺寸的网格划分,在每个路径中,分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合,利用PAM模块实现网格内的空间上下文信息提取过程;在每个路径都完成空间上下文信息提取操作后得到特征集,然后利用尺度上下文感知模块提取特征间含有的上下文关系,最终获得的是同时具有空间和尺度上下文信息的特征,然后将此特征输入分类模块;
    分类模块用于预测得到的分类图;
    步骤4,利用训练集对上述富上下文网络进行训练,使损失函数达到收敛;
    步骤5,将经过步骤1预处理后的待分类图像输入到训练好的网络,即可完成高光谱图像分类。
  2. 如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:所述预处理为对高光谱图像进行Z-score标准化或归一化处理,具体实现如下;
    将高光谱数据X 0按公式
    Figure PCTCN2021122346-appb-100001
    Figure PCTCN2021122346-appb-100002
    进行归一化处理,其中x ijc表示X 0中第i行j列像元x ij在波段c处的值,x cmin,x cmax则是X 0中波段c的最小值与最大值,μ c和σ c则是波段c的均值与标准差,得到X′ 0
  3. 如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:所述基础特征提取是直接将输入的预处理后的高光谱图像通过五个卷 积层,这些卷积层均包含卷积-组归一化-非线性映射三个操作,五个卷积层的卷积核个数分别为64,112,160,208,256,其中第一个卷积层后有个平均池化层。
  4. 如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:所述分类模块包括第一卷积-组归一化-非线性映射-第二卷积及softmax函数五个操作,第一卷积操作中包含128个卷积核,第二卷积操作中卷积核的个数与类别数相同。
  5. 如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:训练过程中网络参数采用Xavier初始化,参数优化时则采用带有动量的随机梯度下降法最小化网络的损失函数,损失函数为交叉熵损失函数,训练完成后的网络能够有效对高光谱图像的富上下文特征进行分类。
  6. 如权利要求1所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:所述富上下文信息捕获模块中,在进行特征内上下文信息提取之前,从特征提取模块获得的特征
    Figure PCTCN2021122346-appb-100003
    的维度通过一个1×1卷积进行降维,其中C 0,H与W分别是X的通道数与宽高,路径个数为N s;在每个路径中,分别在其中的各个网格中进行特征内关系提取完成空间上下文信息聚合;对于某条网格数为n×n的,即在宽高两个方向分别分成n份,每个网格的大小为
    Figure PCTCN2021122346-appb-100004
    的路径i来说,首先分别通过三个1×1卷积将降维后的X分别映射为Q i,K i,V i三个特征,则对于某个网格g来说,在Q i,K i,V i三个特征分别取该网格覆盖范围内的特征并进行矩阵尺寸变换,其中Q i,K i通道数均为c1,V i通道数为c2,得到
    Figure PCTCN2021122346-appb-100005
    然后将q g,k g,v g分别作为查询特征,键特征与值特征实现该网格内的空间上下文信息提取过程,并通过矩阵尺寸变换获得新特征
    Figure PCTCN2021122346-appb-100006
    其中
    Figure PCTCN2021122346-appb-100007
    此过程如下
    Figure PCTCN2021122346-appb-100008
    然后将p g填充到X i降维后的特征中网格g所覆盖的位置,而对于其他网格也都采用同样的方式进行处理,从而获得了该路径中完成空间上下文的新特征P i,而各个路径中都会生成一个新特征,将其表示为特征集
    Figure PCTCN2021122346-appb-100009
    C 1表示通道数,C 1=c2=4c1。
  7. 如权利要求6所述的一种基于富上下文网络的高光谱图像分类方法,其特征在于:利用尺度上下文感知模块提取特征间的关系的具体实现过程如下;
    首先利用三组1×1卷积将特征P分别映射并在尺度维级联,获得查询特征
    Figure PCTCN2021122346-appb-100010
    关键字特征
    Figure PCTCN2021122346-appb-100011
    与值特征
    Figure PCTCN2021122346-appb-100012
    其中
    Figure PCTCN2021122346-appb-100013
    接下来将Q,K,V进行矩阵尺寸变换得到
    Figure PCTCN2021122346-appb-100014
    Figure PCTCN2021122346-appb-100015
    并通过下式获得尺度注意力图
    Figure PCTCN2021122346-appb-100016
    Figure PCTCN2021122346-appb-100017
    其中i和j分别表示两个不同的尺度,即两个路径的编号,同时也是尺度注意力图中对应注意力值所处的行列位置;将尺度注意力图M再与值特征V′相乘就得到同时感知了特征内和特征间上下文依赖的新特征S:
    S=MV′
    最后,将S与X在通道维级联后输入到分类模块。
PCT/CN2021/122346 2021-08-16 2021-09-30 基于富上下文网络的高光谱图像分类方法 WO2023019698A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/337,444 US11941865B2 (en) 2021-08-16 2023-06-20 Hyperspectral image classification method based on context-rich networks

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110935090.3A CN113705641B (zh) 2021-08-16 2021-08-16 基于富上下文网络的高光谱图像分类方法
CN202110935090.3 2021-08-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/337,444 Continuation US11941865B2 (en) 2021-08-16 2023-06-20 Hyperspectral image classification method based on context-rich networks

Publications (1)

Publication Number Publication Date
WO2023019698A1 true WO2023019698A1 (zh) 2023-02-23

Family

ID=78652746

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/122346 WO2023019698A1 (zh) 2021-08-16 2021-09-30 基于富上下文网络的高光谱图像分类方法

Country Status (3)

Country Link
US (1) US11941865B2 (zh)
CN (1) CN113705641B (zh)
WO (1) WO2023019698A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612334A (zh) * 2023-07-18 2023-08-18 山东科技大学 一种基于空谱联合注意力机制的医学高光谱图像分类方法
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115668B (zh) * 2023-10-23 2024-01-26 安徽农业大学 一种作物冠层表型信息提取方法、电子设备及存储介质
CN117423004B (zh) * 2023-12-19 2024-04-02 深圳大学 高光谱图像的波段选择方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126256A (zh) * 2019-12-23 2020-05-08 武汉大学 一种基于自适应空谱多尺度网络的高光谱图像分类方法
US20200160533A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111914907A (zh) * 2020-07-13 2020-11-10 河海大学 一种基于深度学习空谱联合网络的高光谱图像分类方法
CN112287978A (zh) * 2020-10-07 2021-01-29 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590515B (zh) * 2017-09-14 2020-08-14 西安电子科技大学 基于熵率超像素分割的自编码器的高光谱图像分类方法
KR20200094058A (ko) * 2019-01-29 2020-08-06 한국과학기술원 렌즈리스 초분광 영상 이미징 방법 및 그 장치
CN111353463B (zh) * 2020-03-12 2023-07-25 北京工业大学 基于随机深度残差网络的高光谱图像分类方法
CN112163601B (zh) * 2020-09-14 2023-09-26 华南理工大学 图像分类方法、系统、计算机设备及存储介质
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160533A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Foreground-background-aware atrous multiscale network for disparity estimation
CN111126256A (zh) * 2019-12-23 2020-05-08 武汉大学 一种基于自适应空谱多尺度网络的高光谱图像分类方法
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法
CN111914907A (zh) * 2020-07-13 2020-11-10 河海大学 一种基于深度学习空谱联合网络的高光谱图像分类方法
CN112287978A (zh) * 2020-10-07 2021-01-29 武汉大学 一种基于自注意力上下文网络的高光谱遥感图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN HAO, SHI ZHENWEI: "A Spatial-Temporal Attention-Based Method and a New Dataset for Remote Sensing Image Change Detection", REMOTE SENSING, vol. 12, no. 10, pages 1662, XP093036359, DOI: 10.3390/rs12101662 *
WANG DI; DU BO; ZHANG LIANGPEI; XU YONGHAO: "Adaptive Spectral–Spatial Multiscale Contextual Feature Extraction for Hyperspectral Image Classification", IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING, IEEE, USA, vol. 59, no. 3, 19 June 2020 (2020-06-19), USA, pages 2461 - 2477, XP011838575, ISSN: 0196-2892, DOI: 10.1109/TGRS.2020.2999957 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612334A (zh) * 2023-07-18 2023-08-18 山东科技大学 一种基于空谱联合注意力机制的医学高光谱图像分类方法
CN116612334B (zh) * 2023-07-18 2023-10-10 山东科技大学 一种基于空谱联合注意力机制的医学高光谱图像分类方法
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法

Also Published As

Publication number Publication date
CN113705641A (zh) 2021-11-26
CN113705641B (zh) 2023-11-10
US11941865B2 (en) 2024-03-26
US20230334829A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
Zhu et al. High performance vegetable classification from images based on alexnet deep learning model
CN112446388A (zh) 一种基于轻量化二阶段检测模型的多类别蔬菜幼苗识别方法及系统
CN111291809B (zh) 一种处理装置、方法及存储介质
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN111242208A (zh) 一种点云分类方法、分割方法及相关设备
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
Cai et al. Residual-capsule networks with threshold convolution for segmentation of wheat plantation rows in UAV images
CN108921198A (zh) 基于深度学习的商品图像分类方法、服务器及系统
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN110019652A (zh) 一种基于深度学习的跨模态哈希检索方法
CN110263855B (zh) 一种利用共基胶囊投影进行图像分类的方法
CN111985325A (zh) 特高压环境评价中的航拍小目标快速识别方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Du et al. Training SegNet for cropland classification of high resolution remote sensing images
Chen et al. Deep convolutional network for citrus leaf diseases recognition
Prasomphan Toward Fine-grained Image Retrieval with Adaptive Deep Learning for Cultural Heritage Image.
CN111598140A (zh) 一种基于胶囊网络的遥感图像分类方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
Yang et al. Extraction of land covers from remote sensing images based on a deep learning model of NDVI-RSU-Net
CN113066537B (zh) 基于图神经网络的化合物分类方法
Jiang et al. A 3D lightweight Siamese network for hyperspectral image classification with limited samples
CN109472319B (zh) 一种三维模型分类方法以及检索方法
CN112818982A (zh) 基于深度特征自相关性激活的农业害虫图像检测方法

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE