WO2023201772A1 - 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 - Google Patents

基于迭代域内适应和自训练的跨域遥感图像语义分割方法 Download PDF

Info

Publication number
WO2023201772A1
WO2023201772A1 PCT/CN2022/090009 CN2022090009W WO2023201772A1 WO 2023201772 A1 WO2023201772 A1 WO 2023201772A1 CN 2022090009 W CN2022090009 W CN 2022090009W WO 2023201772 A1 WO2023201772 A1 WO 2023201772A1
Authority
WO
WIPO (PCT)
Prior art keywords
domain
target domain
image
target
segmentation
Prior art date
Application number
PCT/CN2022/090009
Other languages
English (en)
French (fr)
Inventor
尹建伟
蔡钰祥
杨莹春
尚永衡
陈振乾
沈正伟
Original Assignee
浙江大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江大学 filed Critical 浙江大学
Publication of WO2023201772A1 publication Critical patent/WO2023201772A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the invention belongs to the technical field of remote sensing image semantic segmentation, and specifically relates to a cross-domain remote sensing image semantic segmentation method based on iterative intra-domain adaptation and self-training.
  • remote sensing equipment such as satellites and drones are able to collect a large number of remote sensing satellite images.
  • drones can capture a large number of high spatial resolution remote sensing images over cities and countryside.
  • Such massive amounts of remote sensing data provide many application opportunities, such as urban monitoring, urban management, agriculture, automatic mapping, and navigation; in these applications, the key technologies are semantic segmentation or image classification of remote sensing images.
  • CNN Convolutional Neural Networks
  • domain adaptation in the field of remote sensing, domain shift is usually caused by different atmospheric conditions when imaging by remote sensing equipment, acquisition differences (these differences will change the spectral characteristics of the object), the spectrum of the sensor
  • the differences in features may be caused by different types of spectral bands (for example, some images may be in red, green and blue bands, while others may be in near-infrared, red and green bands).
  • Generative Adversarial Network [I.Goodfellow, J.Pouget-Abadie, M.Mirza, B.Xu, D.Warde-Farley, S.Ozair, A.Courville, and Y.Bengio.Generative adversarial nets[C].Proceedings of the international conference on Neural Information Processing Systems (NIPS).2014:2672 ⁇ 2680] is used to generate pseudo-target domain images that are similar to the data distribution of the target domain image. These The generated pseudo-target domain images can be used to train a classifier on the target domain.
  • GAN Generative Adversarial Network
  • x s is the source domain image
  • x t is the target domain image
  • G S ⁇ T is the image converter from the source domain image x s to the target domain image x t
  • G T ⁇ S is the target domain image x t to the source image converter for domain image x s
  • ⁇ 1 is the L1 norm.
  • This implementation requires three iterations of intra-domain adaptation.
  • a subset of 125 target domain images is and its corresponding pseudo-label subset Join the originally empty training set separately. and the corresponding label set
  • the training set of 125 images and the corresponding label set and a subset of 125 target domain images Conduct adversarial training, and use the source domain-target domain inter-domain semantic segmentation model F inter as the initial target domain intra-domain semantic segmentation model.
  • the network structure of the segmentation model adopts deeplabV3+, the discriminator network structure is a 4-layer CNN, the learning rate is 10 -4 , and the optimization algorithm is adam.
  • the training is stopped after 100 epochs.
  • the A subset of 125 target domain images Input to the target domain in-domain semantic segmentation model , get the category segmentation probability And according to the split probability Get a subset of target domain images pseudo-label subset of Subset target domain images and the corresponding pseudo-label subset Join the training set separately and corresponding label set , and then use the training set of 375 images and the corresponding label set and a subset of 125 target domain images and intra-domain semantic segmentation model
  • the segmentation model network structure uses deeplabV3+, the discriminator network structure is a 4-layer CNN, the learning rate is 10 -4 , and the optimization algorithm is adam.
  • the training is stopped after 100 epochs. After the training, the final semantic segmentation in the target domain is obtained.
  • this implementation method effectively improves the IoU index of semantic segmentation compared with before migration, and the improvement reaches 0.2510.
  • the IoU index of this implementation is also improved by 0.1973; comparing a single intra-domain adaptation and an inter-domain adaptation, the IoU index of a single intra-domain adaptation is improved by 0.0296, which shows that Within-domain domain adaptation can reduce intra-domain differences.
  • the IoU index of iterative intra-domain adaptation is further improved by 0.0172, which shows that iterative intra-domain adaptation can further reduce intra-domain differences. Therefore, the present invention is of great help in improving the performance of semantic segmentation of cross-satellite remote sensing images.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。本发明利用源-目标域域间域适应减小了源-目标域域间差异,同时利用目标域域内域适应减小了目标域域内差异,提高了跨域遥感图像语义分割模型的准确率,进一步通过提出的基于分割概率可信度对目标域图像进行分类和排序从而挑选出分割效果好的预测结果作为伪标签,同时提出新的伪标签筛选策略去掉伪标签中极有可能出错的像素点,从而避免了目标域内自训练时伪标签错误所带来的影响。

Description

基于迭代域内适应和自训练的跨域遥感图像语义分割方法 技术领域
本发明属于遥感图像语义分割技术领域,具体涉及一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法。
背景技术
随着遥感技术的不断发展,卫星和无人机等遥感设备能够收集大量的遥感卫星图像,例如无人机可以在城市和乡村上空捕获大量高空间分辨率的遥感图像。如此海量的遥感数据提供了许多应用机会,如城市监测、城市管理、农业、自动制图和导航;在这些应用中,关键技术都是遥感图像的语义分割或图像分类。
在最近几年里,卷积神经网络(CNN)已经成为语义分割和图像分类中最常用的技术,一些基于CNN的模型已经在这个任务中显示了它们的有效性,例如FCN、SegNet、U-Net系列、PSPNets和Deeplab系列。当训练图像和测试图像来自相同的卫星或城市时,这些模型都能得好不错的语义分割结果,但是当我们将这些模型用于不同卫星或城市获取的遥感图像的分类时,因为不同卫星和城市图像之间的数据分布不同(域偏移),模型的测试结果会变得很糟糕,无法让人满意。在一些相关文献中,这个问题被称为域适应;在遥感领域,域偏移通常是由遥感设备成像时不同的大气条件、采集差异(这些差异将会改变物体的光谱特征)、传感器的光谱特征的差异或与不同类型的光谱波段(比如一些图片可能时红色,绿色和蓝色波段,而其他可能时近红外,红色和绿色波段)引起的。
在一个典型的域适应问题中,训练图像和测试图像通常被指定为源域和目标域,处理域适应的一个普通解决方案是在目标域上创建一个新的语义标记数据集,并在其上训练模型。由于目标城市收集大量像素标记的图像将是耗时和昂贵的,这种解决方案非常昂贵且不切实际,为了减少人工按像素分类的工作量,已经有了一些解决方案,比如从弱监督标记中合成数据。然而,这些方法 仍然有局限性,因为它们也需要耗费大量的人工劳动。
为了提高基于CNN的语义分割模型的泛化能力,另一种常用的方法是随机变化颜色进行数据扩充,例如伽马校正和图像亮度转换,在遥感中得到了广泛的应用。尽管如此,当数据分布之间存在显著差异时,上述数据增强方法无法在跨域语义分割中取得不错的效果。使用这种简单的增强方法,不可能将一个包含红、绿、蓝波段的域的模型应用到另一个包含近红外、红、绿通道的域。为了克服这一限制,生成对抗网络(Generative Adversarial Network,GAN)[I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Bengio.Generative adversarial nets[C].Proceedings of the international conference on Neural Information Processing Systems(NIPS).2014:2672~2680]被用来生成与目标域图像的数据分布相似的拟目标域图像,这些生成的拟目标域图像可以用来训练目标域上分类器。与此同时,一些基于对抗学习[Y.-H.Tsai,W.-C.Hung,S.Schulter,K.Sohn,M.-H.Yang,and M.Chandraker.Learning to adapt structured output space for semantic segmentation[C].”Proceedings of the international conference on computer vision and pattern recognition(CVPR).2018:7472~7481]和自训练[Y.Zou,Z.Yu,B.Kumar,and J.Wang.Unsupervised domain adaptation for semantic segmentation via class-balanced self-training[C].Proceedings of the international conference on European conference on computer vision(ECCV).2018:289~305]的方法也被研究人员提出来用来解决域适应问题。虽然这些方法在自然图像上取得了不错的效果,但将这些方法直接运用遥感图像上仍存在一定的问题,其中最重要的一点就是这些方法忽略了目标域图像自身存在的差异,例如同一个城市中的建筑物风格形状等也会存在较大的差异。
由于目标域图像自身存在的差异,从源域迁移到目标域的域间语义分割模型在所有目标域图像上的分割效果也会存在差异,即在一部分目标域图像上能获得较为准确的分割结果,但在另一部分目标域图像上获得的分割结果会变得十分糟糕。因此如何对目标域图像进行进一步的域内域适应从而减小目标域内的差异,让跨域语义分割模型在所有目标域图像上都能取得不错的分割效果,这是跨域遥感图像语义分割面临的重要问题。其次,因为目标域图像没有对应 的标签,目前常用的方法是采用自训练技术,将训练后的跨域语义分割模型生成的语义分割结果作为目标域图像的伪标签,然后用伪标签来继续训练跨域语义分割模型,从而得到最终的目标域语义分割模型。这种基于伪标签的自训练模型的训练效果取决于伪标签质量,当伪标签质量较差时,模型的训练效果也会大大减弱,模型的语义分割能力也会大大减弱。因此,如何挑选模型分割效果好的图像结果作为伪标签以及如何提升伪标签的质量也是自训练技术中一个重要的问题。
发明内容
鉴于上述,本发明提供了一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,能够将一个域的遥感图像上训练的语义分割模型迁移到其他域遥感图像上,并在目标域遥感图像内进行进一步的域内域适应训练,在减小源域-目标域域间差异的同时减小目标域域内差异,从而进一步提高跨域遥感图像语义分割模型的性能和鲁棒性。
一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:
(1)利用源域图像x s、源域标签y s、源域语义分割模型F S以及目标域图像x t训练出源域-目标域域间语义分割模型F inter
(2)将目标域图像x t输入至源域-目标域域间语义分割模型F inter中,得到目标域图像x t的类别分割概率P t,进而利用类别分割概率P t计算出分割概率可信度S t和目标域伪标签
Figure PCTCN2022090009-appb-000001
(3)将所有目标域图像x t根据分割概率可信度S t大小进行降序排列,进而根据排列次序将所有目标域图像x t平均分成K个目标域图像子集
Figure PCTCN2022090009-appb-000002
K为大于1的自然数;
(4)利用分割概率可信度最高的一组目标域图像子集
Figure PCTCN2022090009-appb-000003
及其对应的伪标签子集
Figure PCTCN2022090009-appb-000004
以及源域-目标域域间语义分割模型F inter和目标域图像子集
Figure PCTCN2022090009-appb-000005
迭代训练出目标域域内语义分割模型F intra
(5)将目标域图像x t输入至目标域域内语义分割模型F intra中,即可得到目标域图像x t最终的类别分割概率P及分割结果map。
进一步地,所述步骤(1)的具体实现过程如下:
1.1利用源域图像x s和源域标签y s训练出源域语义分割模型F S
1.2利用源域图像x s以及目标域图像x t训练源-目标域图像双向转换器,其包含源→目标方向的图像转换器和目标→源方向的图像转换器;
1.3对于上述训练过程中生成的所有图像转换器的中间保存模型,从中选择一组最优的结果作为源→目标方向的图像转换器G S→T和目标→源方向的图像转换器G T→S
1.4利用图像转换器G S→T将源域图像x s从源域转换到目标域,得到拟目标域图像G S→T(x s);
1.5利用拟目标域图像G S→T(x s)和源域标签y s训练出源域-目标域域间语义分割模型F inter
进一步地,所述步骤(2)中分割概率可信度S t的计算表达式如下:
Figure PCTCN2022090009-appb-000006
其中:H和W分别为目标域图像x t的长度和宽度,C为目标域图像x t的分割类别数量,
Figure PCTCN2022090009-appb-000007
表示目标域图像x t中坐标为(h,w)的像素点对应类别c i的分割概率,c i表示第i个类别,i为自然数且1≤i≤C,θ()为用于度量像素点各类别分割概率之间似然度的函数。
进一步地,所述步骤(2)中目标域伪标签
Figure PCTCN2022090009-appb-000008
的计算表达式如下:
Figure PCTCN2022090009-appb-000009
其中:
Figure PCTCN2022090009-appb-000010
表示目标域伪标签
Figure PCTCN2022090009-appb-000011
中坐标为(h,w)的像素点的类别,
Figure PCTCN2022090009-appb-000012
表示目标域图像x t中坐标为(h,w)的像素点对应类别c的分割概率,μ c为类别c对应的分割概率阈值,
Figure PCTCN2022090009-appb-000013
表示目标域图像x t中坐标为(h,w)的像素点对应类别c i的分割概率,c i表示第i个类别,i为自然数且1≤i≤C,C为目标域图像x t的分割类别数量,
Figure PCTCN2022090009-appb-000014
表示目标域图像x t中坐标为(h,w)的像素点的分割概率混乱度,υ为分割概率混乱度阈值。
进一步地,所述分割概率混乱度
Figure PCTCN2022090009-appb-000015
的计算表达式如下:
Figure PCTCN2022090009-appb-000016
其中:δ()为用于度量像素点各类别分割概率之间混乱程度的函数。
进一步地,所述步骤(4)的具体实现过程如下:
4.1初始将分割概率可信度最高的一组目标域图像子集
Figure PCTCN2022090009-appb-000017
及其对应的伪标签子集
Figure PCTCN2022090009-appb-000018
作为训练集
Figure PCTCN2022090009-appb-000019
及其对应的标签集
Figure PCTCN2022090009-appb-000020
将源域-目标域域间语义分割模型F inter作为目标域域内语义分割模型
Figure PCTCN2022090009-appb-000021
4.2利用训练集
Figure PCTCN2022090009-appb-000022
标签集
Figure PCTCN2022090009-appb-000023
目标域域内语义分割模型
Figure PCTCN2022090009-appb-000024
以及目标域图像子集
Figure PCTCN2022090009-appb-000025
训练出目标域域内语义分割模型
Figure PCTCN2022090009-appb-000026
k为自然数且2≤k≤K;该训练过程与步骤(1)类似;
4.3将目标域图像子集
Figure PCTCN2022090009-appb-000027
输入至目标域域内语义分割模型
Figure PCTCN2022090009-appb-000028
中,得到对应的类别分割概率
Figure PCTCN2022090009-appb-000029
进而利用该类别分割概率
Figure PCTCN2022090009-appb-000030
计算出目标域图像子集
Figure PCTCN2022090009-appb-000031
的伪标签子集
Figure PCTCN2022090009-appb-000032
4.4将目标域图像子集
Figure PCTCN2022090009-appb-000033
及其伪标签子集
Figure PCTCN2022090009-appb-000034
分别加入到训练集
Figure PCTCN2022090009-appb-000035
和标签集
Figure PCTCN2022090009-appb-000036
中;
4.5令k=k+1;
4.6重复执行步骤4.2~4.5,直至k=K,训练得到目标域域内语义分割模型
Figure PCTCN2022090009-appb-000037
即作为目标域域内语义分割模型F intra
本发明方法是一个完整的跨域遥感图像语义分割框架,包含源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。
本发明提出了一个目标域域内的迭代域适应训练网络,在训练该迭代域适应训练网络时,本发明使用了常用的自训练学习技术,用分割效果较好的那一部分图像以及其分割结果作为伪标签来指导训练目标域分割模型,使目标域模型能在原本分割效果较差的那一部分图像上也能获得较好的分割结果。
除此之外,为了应对目标域内分布复杂和多样化的特点,本发明还提出将目标域分成多个子域,并对多个子域进行迭代域内适应训练;为了将目标域分成多个子域,本发明提出了一种分割概率可信度计算方法,根据目标域模型的分割结果好坏得分对目标域图像进行排序和分类,从而挑选出分割效果好的那 一部分目标域图像以及其伪标签来对目标域模型进行进一步的优化。
在获得伪标签的过程中,本发明提出一种分割概率阈值和分割概率混乱度阈值结合的方法,去掉伪标签中分割结果比较差的像素点,从而避免了低质量伪标签干扰目标域模型训练。
基于迭代域适应训练框架,本发明实现了目标域域内域适应训练,在获得了源域到目标域的迁移模型和目标域分割结果后,本发明采用的迭代域适应训练框架对目标域模型进行进一步的域内适应训练,得到了最后的目标域模型和语义分割结果,提高了跨域遥感图像语义分割的准确率。
附图说明
图1为本发明跨域遥感图像语义分割方法的步骤示意图。
图2为本发明跨域遥感图像语义分割方法的具体实施流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1和图2所示,本发明基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:
(1)利用源域图像x s,源域标签y s,源域语义分割模型F S以及目标域图像x t训练出源域-目标域域间语义分割模型F inter
本实施方式在没有源域语义分割模型F S时,可利用源域图像x s和源域标签y s训练得到,模型网络结构可采用常用的deeplab、U-net等,损失函数采用具有K类别的交叉熵损失,对应公式如下:
Figure PCTCN2022090009-appb-000038
式中:x s为源域图像,y s为源域图像标签,K为标签类别数量,F S为源域上的语义分割模型,
Figure PCTCN2022090009-appb-000039
为指示函数(当k=y s时,
Figure PCTCN2022090009-appb-000040
当k≠y s时,
Figure PCTCN2022090009-appb-000041
指示函数参考—周志华.机器学习[M].北京:清华大学出版社,2016年.主要符号表),
Figure PCTCN2022090009-appb-000042
表示数学期望函数,
Figure PCTCN2022090009-appb-000043
为x s输入至模型F S中得到的输出结果中第k 类的结果。
本实施方式将带建筑物标签的Potsdam城市图像作为源域,并将其大小裁剪为512*512像素,保留RGB 3通道,图像和对应建筑物标签数量各为4000张,模型网络结构可采用deeplabV3+,学习率为10 -4,优化算法为adam,训练900个epoch得到Potsdam域上的语义分割模型F S
常用的源域到目标域的域间域适应训练有基于图像转化和对抗学习,本实例以基于GAN的图像转换方法做说明,但不仅限于基于图像转换的方法。基于图像转换的方法首先需要训练一个源域到目标域之间的双向图像转换模型,双向图像转换模型包含源域图像x s到目标域图像x t的图像转换器G S→T、目标域图像x t到源域图像x s的图像转换器G T→S以及源域判别器D S和目标域判别器D T,训练损失函数包含循环一致损失函数、语义一致损失函数、自损失函数和对抗损失函数。
循环一致损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000044
式中:x s为源域图像,x t为目标域图像,G S→T为源域图像x s到目标域图像x t的图像转换器,G T→S为目标域图像x t到源域图像x s的图像转换器,
Figure PCTCN2022090009-appb-000045
为数学期望函数,‖‖ 1为L1范数。
语义一致损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000046
式中:x s为源域图像,x t为目标域图像,G S→T为源域图像x s到目标域图像x t的图像转换器,G T→S为目标域图像x t到源域图像x s的图像转换器,
Figure PCTCN2022090009-appb-000047
为数学期望函数,F T为目标域上语义分割模型,F S为源域上语义分割模型,KL(||)为两个分布之间的KL散度。
对抗损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000048
式中:x s为源域图像,x t为目标域图像,G S→T为源域图像x s到目标域图像x t的图像转换器,G T→S为目标域图像x t到源域图像x s的图像转换器,
Figure PCTCN2022090009-appb-000049
为数学期望函数,D S为源域判别器,D T为目标域判别器。
自损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000050
式中:x s为源域图像,x t为目标域图像,G S→T为源域图像x s到目标域图像x t的图像转换器,G T→S为目标域图像x t到源域图像x s的图像转换器,
Figure PCTCN2022090009-appb-000051
为数学期望函数,‖·‖ 1为L1范数。
本实施方式将Potsdam城市图像作为源域,Vaihingen城市图像作为目标域,图像大小均为512*512像素,3通道,其中Potsdam城市图像(源域)832张,Vaihingen城市图像(目标域)845张,图像中均包含建筑物。图像转换模型使用GAN,包含Potsdam图像x s到Vaihingen图像x t的图像转换器G S→T、Vaihingen图像x t到Potsdam图像x s的图像转换器G T→S以及Potsdam域判别器D S和Vaihingen域判别器D T,生成器网络结构为9层ResNet,判别器网络结构为4层CNN,训练损失函数包含循环一致损失函数、语义一致损失函数、对抗损失函数以及自损失函数,学习率为10 -4,优化算法为adam,训练100个epoch后停止,训练结束后得到Potsdam-Vaihingen方向的图像转换器G S→T和10个Vaihingen-Potsdam方向的图像转换器G T→S。然后用转换器G S→T将4000张512*512像素,3通道的Potsdam卫星图像从Potsdam域转换到Vaihingen域,得到拟Vaihingen图像G S→T(x s)。再利用拟Vaihingen(目标域)图像G S→T(x s)和Potsdam(源域)标签y s训练出拟Vaihingen(目标域)语义分割模型F inter
模型网络结构可采用常用的deeplab、U-net等,损失函数采用具有K类别的交叉熵损失,对应公式如下:
Figure PCTCN2022090009-appb-000052
式中:x s为源域图像,y s为源域图像标签,K为标签类别数量,F inter为目标域 上的语义分割模型,
Figure PCTCN2022090009-appb-000053
为指示函数(当k=y s时,
Figure PCTCN2022090009-appb-000054
当k≠y s时,
Figure PCTCN2022090009-appb-000055
Figure PCTCN2022090009-appb-000056
表示数学期望函数,G S→T(x s)为拟目标域图像,
Figure PCTCN2022090009-appb-000057
为G S→T(x s)输入至模型F inter中得到的输出结果中第k类的结果。
本实施方式使用步骤(1)中生成的4000张512*512像素,3通道的拟Vaihingen域图像G S→T(x s)和源域标签y s训练Vaihingen域上的语义分割模型F inter;模型网络结构采用deeplabV3+,学习率为10 -4,优化算法为adam,训练100个epoch得到拟Vaihingen域上的语义分割模型F inter
(2)将目标域图像x t输入至源域-目标域域间语义分割模型F inter中,得到目标域图像x t的类别分割概率P t,并利用类别分割概率P t计算得到分割概率可信度S T和目标域伪标签
Figure PCTCN2022090009-appb-000058
本实施方式将500张512*512像素,3通道的Vaihingen域图像x t输入至源域-目标域域间语义分割模型F inter中,得到目标域图像x t的类别分割概率P t,并利用类别分割概率P t计算得到分割概率可信度S T和目标域伪标签
Figure PCTCN2022090009-appb-000059
计算分割概率可信度S t的计算方式如下:
Figure PCTCN2022090009-appb-000060
其中:∑表示数学求和符号,∏表示数学乘积符号,H为目标域图像x t的长度,W为目标域图像x t的宽度,C为目标域图像x t的分类类别数量,P t为将目标域图像x t输入语义分割模型F inter后得到的类别分割概率(其大小为H×W×C的矩阵),
Figure PCTCN2022090009-appb-000061
为类别分割概率P t中坐标为(h,w),类别为c的像素点的类别分割概率,
Figure PCTCN2022090009-appb-000062
为计算坐标为(h,w)的像素点每一类别c对应的类别分割概率的乘积。
利用类别分割概率P t得到目标域伪标签
Figure PCTCN2022090009-appb-000063
的方式如下:
Figure PCTCN2022090009-appb-000064
其中:argmax为取最大值函数,
Figure PCTCN2022090009-appb-000065
为类别分割概率P t中坐标为(h,w)的像素点中类别分割概率最大的类别
Figure PCTCN2022090009-appb-000066
μ c为用于生成类别c的伪标签的分割概率阈值,
Figure PCTCN2022090009-appb-000067
为目标域图像x t在坐标为(h,w)的像素点的分割概率混乱度,υ为用于生成伪标签的分割概率混乱度阈值。其中分割概率混乱度
Figure PCTCN2022090009-appb-000068
的计算方 式如下:
Figure PCTCN2022090009-appb-000069
其中:∏表示数学乘积符号,H为目标域图像x t的长度,W为目标域图像x t的宽度,C为目标域图像x t的分类类别数量,
Figure PCTCN2022090009-appb-000070
为计算坐标为(h,w)的像素点每一类别c对应的类别分割概率的乘积。
(3)将500张Vaihingen(目标)域图像x t的分割概率可信度S t根据数值大小进行降序排序,并根据排序后的分割概率可信度S t将目标域图像x t平均分成4个目标域图像集合
Figure PCTCN2022090009-appb-000071
(4)利用分割概率可信度最高的Vaihingen(目标)域图像子集
Figure PCTCN2022090009-appb-000072
及其对应的伪标签子集
Figure PCTCN2022090009-appb-000073
源域-目标域域间语义分割模型F inter和目标域图像子集
Figure PCTCN2022090009-appb-000074
Figure PCTCN2022090009-appb-000075
迭代训练得到目标域域内语义分割模型F intra
本实施方式采用的域内单次域适应方式以基于对抗学习的方法做说明,但不仅限于基于对抗学习的方法。基于对抗学习的方法需要域内语义分割模型F intra和判别器D intra,训练损失函数包括语义分割损失函数和对抗损失函数。
语义分割损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000076
式中:X i为第i部分的目标域图像子集,y i为x i对应的伪标签子集,K为标签类别数量,F intra为目标域上的语义分割模型,
Figure PCTCN2022090009-appb-000077
为指示函数(当k=Y i时,
Figure PCTCN2022090009-appb-000078
当k≠Y i时,
Figure PCTCN2022090009-appb-000079
指示函数参考—周志华.机器学习[M].北京:清华大学出版社,2016年.主要符号表),
Figure PCTCN2022090009-appb-000080
表示数学期望函数,
Figure PCTCN2022090009-appb-000081
为X i输入至模型F intra中得到的输出结果中第k类的结果。
对抗损失函数的方程表达式如下:
Figure PCTCN2022090009-appb-000082
式中:X i为第i部分的目标域图像子集,
Figure PCTCN2022090009-appb-000083
为数学期望函数,D intra为目标域判别器。
本实施方式需要进行3次迭代域内适应,首先第一次迭代将125张的目标域图像子集
Figure PCTCN2022090009-appb-000084
和其对应的伪标签子集
Figure PCTCN2022090009-appb-000085
分别加入原本为空的训练集
Figure PCTCN2022090009-appb-000086
以及 对应标签集
Figure PCTCN2022090009-appb-000087
然后用125张的训练集
Figure PCTCN2022090009-appb-000088
以及对应标签集
Figure PCTCN2022090009-appb-000089
和125张的目标域图像子集
Figure PCTCN2022090009-appb-000090
进行对抗训练,用源域-目标域域间语义分割模型F inter作为初始目标域域内语义分割模型
Figure PCTCN2022090009-appb-000091
分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10 -4,优化算法为adam,训练100个epoch后停止,训练结束后得到
Figure PCTCN2022090009-appb-000092
将125张的目标域图像子集
Figure PCTCN2022090009-appb-000093
输入至目标域域内语义分割模型
Figure PCTCN2022090009-appb-000094
中,得到类别分割概率
Figure PCTCN2022090009-appb-000095
并根据分割概率
Figure PCTCN2022090009-appb-000096
得到目标域图像子集
Figure PCTCN2022090009-appb-000097
的伪标签子集
Figure PCTCN2022090009-appb-000098
将目标域图像子集
Figure PCTCN2022090009-appb-000099
和对应伪标签子集
Figure PCTCN2022090009-appb-000100
分别加入训练集
Figure PCTCN2022090009-appb-000101
和对应标签集
Figure PCTCN2022090009-appb-000102
中,然后用250张的训练集
Figure PCTCN2022090009-appb-000103
以及对应标签集
Figure PCTCN2022090009-appb-000104
和125张的目标域图像子集
Figure PCTCN2022090009-appb-000105
以及域内语义分割模型
Figure PCTCN2022090009-appb-000106
进行对抗训练,分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10 -4,优化算法为adam,训练100个epoch后停止,训练结束后得到
Figure PCTCN2022090009-appb-000107
将125张的目标域图像子集
Figure PCTCN2022090009-appb-000108
输入至目标域域内语义分割模型
Figure PCTCN2022090009-appb-000109
中,得到类别分割概率
Figure PCTCN2022090009-appb-000110
并根据分割概率
Figure PCTCN2022090009-appb-000111
得到目标域图像子集
Figure PCTCN2022090009-appb-000112
的伪标签子集
Figure PCTCN2022090009-appb-000113
将目标域图像子集
Figure PCTCN2022090009-appb-000114
和对应伪标签子集
Figure PCTCN2022090009-appb-000115
分别加入训练集
Figure PCTCN2022090009-appb-000116
和对应标签集
Figure PCTCN2022090009-appb-000117
中,然后用375张的训练集
Figure PCTCN2022090009-appb-000118
以及对应标签集
Figure PCTCN2022090009-appb-000119
和125张的目标域图像子集
Figure PCTCN2022090009-appb-000120
以及域内语义分割模型
Figure PCTCN2022090009-appb-000121
进行对抗训练,分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10 -4,优化算法为adam,训练100个epoch后停止,训练结束后得到最终的目标域域内语义分割模型F intra
Figure PCTCN2022090009-appb-000122
(5)将目标域图像x t输入至目标域域内语义分割模型F intra中,得到目标域图像x t最终的分割结果map。
表1为通过相关实验测试出的迁移前、直方图匹配(传统方法)、基于GAN的域间域适应方法、单次域内域适应以及本发明迭代域内域适应策略得到的结果与标签真值计算得到的precision、recall、F1和IoU指标。
表1
  迁移前 直方图匹配 域间域适应 域内域适应 迭代域内域适应
precision 0.8387 0.4184 0.8920 0.8899 0.8884
recall 0.1548 0.2847 0.3704 0.4033 0.4226
F1 0.2614 0.3389 0.5234 0.5551 0.5728
IoU 0.1503 0.2040 0.3545 0.3841 0.4013
从上述实验结果可以看出,本实施方式与迁移前相比有效的提升语义分割的IoU指标,提升达到了0.2510。同时,与简单的直方图匹配相比,本实施方式的IoU指标也提升了0.1973;将单次域内域适应和域间域适应相比,单次域内域适应的IoU指标提升了0.0296,这说明了域内域适应能减少域内差异。与此同时,迭代域内域适应与单次域内域适应相比,IoU指标进一步提升了0.0172,这说明了迭代域内域适应能进一步减少域内差异。因此,本发明对提高跨卫星遥感图像语义分割的性能有很大的帮助。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (7)

  1. 一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:
    (1)利用源域图像x s、源域标签y s、源域语义分割模型F S以及目标域图像x t训练出源域-目标域域间语义分割模型F inter
    (2)将目标域图像x t输入至源域-目标域域间语义分割模型F inter中,得到目标域图像x t的类别分割概率P t,进而利用类别分割概率P t计算出分割概率可信度S t和目标域伪标签
    Figure PCTCN2022090009-appb-100001
    (3)将所有目标域图像x t根据分割概率可信度S t大小进行降序排列,进而根据排列次序将所有目标域图像x t平均分成K个目标域图像子集
    Figure PCTCN2022090009-appb-100002
    K为大于1的自然数;
    (4)利用分割概率可信度最高的一组目标域图像子集
    Figure PCTCN2022090009-appb-100003
    及其对应的伪标签子集
    Figure PCTCN2022090009-appb-100004
    以及源域-目标域域间语义分割模型F inter和目标域图像子集
    Figure PCTCN2022090009-appb-100005
    迭代训练出目标域域内语义分割模型F intra
    (5)将目标域图像x t输入至目标域域内语义分割模型F intra中,即可得到目标域图像x t最终的类别分割概率P及分割结果map。
  2. 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(1)的具体实现过程如下:
    1.1利用源域图像x s和源域标签y s训练出源域语义分割模型F S
    1.2利用源域图像x s以及目标域图像x t训练源-目标域图像双向转换器,其包含源→目标方向的图像转换器和目标→源方向的图像转换器;
    1.3对于上述训练过程中生成的所有图像转换器的中间保存模型,从中选择一组最优的结果作为源→目标方向的图像转换器G S→T和目标→源方向的图像转换器G T→S
    1.4利用图像转换器G S→T将源域图像x s从源域转换到目标域,得到拟目标域图像G S→T(x s);
    1.5利用拟目标域图像G S→T(x s)和源域标签y s训练出源域-目标域域间语义分割模型F inter
  3. 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(2)中分割概率可信度S t的计算表达式如下:
    Figure PCTCN2022090009-appb-100006
    其中:H和W分别为目标域图像x t的长度和宽度,C为目标域图像x t的分割类别数量,
    Figure PCTCN2022090009-appb-100007
    表示目标域图像x t中坐标为(h,w)的像素点对应类别c i的分割概率,c i表示第i个类别,i为自然数且1≤i≤C,θ()为用于度量像素点各类别分割概率之间似然度的函数。
  4. 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(2)中目标域伪标签
    Figure PCTCN2022090009-appb-100008
    的计算表达式如下:
    Figure PCTCN2022090009-appb-100009
    其中:
    Figure PCTCN2022090009-appb-100010
    表示目标域伪标签
    Figure PCTCN2022090009-appb-100011
    中坐标为(h,w)的像素点的类别,
    Figure PCTCN2022090009-appb-100012
    表示目标域图像x t中坐标为(h,w)的像素点对应类别c的分割概率,μ c为类别c对应的分割概率阈值,
    Figure PCTCN2022090009-appb-100013
    表示目标域图像x t中坐标为(h,w)的像素点对应类别c i的分割概率,c i表示第i个类别,i为自然数且1≤i≤C,C为目标域图像x t的分割类别数量,
    Figure PCTCN2022090009-appb-100014
    表示目标域图像x t中坐标为(h,w)的像素点的分割概率混乱度,v为分割概率混乱度阈值。
  5. 根据权利要求4所述的跨域遥感图像语义分割方法,其特征在于:所述分割概率混乱度
    Figure PCTCN2022090009-appb-100015
    的计算表达式如下:
    Figure PCTCN2022090009-appb-100016
    其中:δ()为用于度量像素点各类别分割概率之间混乱程度的函数。
  6. 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(4)的具体实现过程如下:
    4.1初始将分割概率可信度最高的一组目标域图像子集
    Figure PCTCN2022090009-appb-100017
    及其对应的伪标签子集
    Figure PCTCN2022090009-appb-100018
    作为训练集
    Figure PCTCN2022090009-appb-100019
    及其对应的标签集
    Figure PCTCN2022090009-appb-100020
    将源域-目标域域间语义分割模型F inter作为目标域域内语义分割模型
    Figure PCTCN2022090009-appb-100021
    4.2利用训练集
    Figure PCTCN2022090009-appb-100022
    标签集
    Figure PCTCN2022090009-appb-100023
    目标域域内语义分割模型
    Figure PCTCN2022090009-appb-100024
    以及 目标域图像子集
    Figure PCTCN2022090009-appb-100025
    训练出目标域域内语义分割模型
    Figure PCTCN2022090009-appb-100026
    k为自然数且2≤k≤K;
    4.3将目标域图像子集
    Figure PCTCN2022090009-appb-100027
    输入至目标域域内语义分割模型
    Figure PCTCN2022090009-appb-100028
    中,得到对应的类别分割概率
    Figure PCTCN2022090009-appb-100029
    进而利用该类别分割概率
    Figure PCTCN2022090009-appb-100030
    计算出目标域图像子集
    Figure PCTCN2022090009-appb-100031
    的伪标签子集
    Figure PCTCN2022090009-appb-100032
    4.4将目标域图像子集
    Figure PCTCN2022090009-appb-100033
    及其伪标签子集
    Figure PCTCN2022090009-appb-100034
    分别加入到训练集
    Figure PCTCN2022090009-appb-100035
    和标签集
    Figure PCTCN2022090009-appb-100036
    中;
    4.5令k=k+1;
    4.6重复执行步骤4.2~4.5,直至k=K,训练得到目标域域内语义分割模型
    Figure PCTCN2022090009-appb-100037
    即作为目标域域内语义分割模型F intra
  7. 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:该方法是一个完整的跨域遥感图像语义分割框架,包含源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。
PCT/CN2022/090009 2022-04-18 2022-04-28 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 WO2023201772A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210402338.4 2022-04-18
CN202210402338.4A CN114708434A (zh) 2022-04-18 2022-04-18 基于迭代域内适应和自训练的跨域遥感图像语义分割方法

Publications (1)

Publication Number Publication Date
WO2023201772A1 true WO2023201772A1 (zh) 2023-10-26

Family

ID=82174493

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/090009 WO2023201772A1 (zh) 2022-04-18 2022-04-28 基于迭代域内适应和自训练的跨域遥感图像语义分割方法

Country Status (2)

Country Link
CN (1) CN114708434A (zh)
WO (1) WO2023201772A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115507A (zh) * 2024-04-30 2024-05-31 苏州大学 基于跨域类别感知图卷积对齐的图像分割方法
CN118298185A (zh) * 2024-06-06 2024-07-05 山东锋士信息技术有限公司 一种基于码本与交叉变形融合的跨域遥感图像分割方法
CN118334458A (zh) * 2024-06-14 2024-07-12 中国海洋大学 一种通用跨域图像转换方法及系统
CN118334062A (zh) * 2024-06-13 2024-07-12 江西师范大学 无源域自适应眼底图像分割方法和设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830597B (zh) * 2023-01-05 2023-07-07 安徽大学 一种基于伪标签生成的从局部到全局的域自适应遥感影像语义分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
WO2021097055A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN113408537A (zh) * 2021-07-19 2021-09-17 中南大学 一种遥感影像域适应语义分割方法
CN113436197A (zh) * 2021-06-07 2021-09-24 华东师范大学 基于生成对抗和类特征分布的域适应无监督图像分割方法
CN113837191A (zh) * 2021-08-30 2021-12-24 浙江大学 基于双向无监督域适应融合的跨星遥感图像语义分割方法
CN113888547A (zh) * 2021-09-27 2022-01-04 太原理工大学 基于gan网络的无监督域自适应遥感道路语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021097055A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN112699892A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种无监督领域自适应语义分割方法
CN113436197A (zh) * 2021-06-07 2021-09-24 华东师范大学 基于生成对抗和类特征分布的域适应无监督图像分割方法
CN113408537A (zh) * 2021-07-19 2021-09-17 中南大学 一种遥感影像域适应语义分割方法
CN113837191A (zh) * 2021-08-30 2021-12-24 浙江大学 基于双向无监督域适应融合的跨星遥感图像语义分割方法
CN113888547A (zh) * 2021-09-27 2022-01-04 太原理工大学 基于gan网络的无监督域自适应遥感道路语义分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115507A (zh) * 2024-04-30 2024-05-31 苏州大学 基于跨域类别感知图卷积对齐的图像分割方法
CN118298185A (zh) * 2024-06-06 2024-07-05 山东锋士信息技术有限公司 一种基于码本与交叉变形融合的跨域遥感图像分割方法
CN118334062A (zh) * 2024-06-13 2024-07-12 江西师范大学 无源域自适应眼底图像分割方法和设备
CN118334458A (zh) * 2024-06-14 2024-07-12 中国海洋大学 一种通用跨域图像转换方法及系统

Also Published As

Publication number Publication date
CN114708434A (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
WO2023201772A1 (zh) 基于迭代域内适应和自训练的跨域遥感图像语义分割方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
WO2021003951A1 (zh) 一种基于标签约束弹性网图模型的高光谱图像分类方法
WO2018108129A1 (zh) 用于识别物体类别的方法及装置、电子设备
CN111325750B (zh) 一种基于多尺度融合u型链神经网络的医学图像分割方法
CN107123130B (zh) 一种基于超像素和混合哈希的核相关滤波目标跟踪方法
WO2023029111A1 (zh) 基于双向无监督域适应融合的跨星遥感图像语义分割方法
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN109543693B (zh) 基于正则化标签传播的弱标注数据降噪方法
CN109348229B (zh) 基于异构特征子空间迁移的jpeg图像失配隐写分析方法
CN111914696A (zh) 一种基于迁移学习的高光谱遥感影像分类方法
CN110675421A (zh) 基于少量标注框的深度图像协同分割方法
Yang et al. Unsupervised images segmentation via incremental dictionary learning based sparse representation
CN115410059A (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN117079017A (zh) 可信的小样本图像识别分类方法
CN115100451B (zh) 一种用于液压泵漏油监控的数据扩充方法
CN109145749B (zh) 一种跨数据集的面部表情识别模型构建及识别方法
Metre et al. Research opportunities for the detection and classification of plant leaf diseases
CN116152194A (zh) 一种物体缺陷检测方法、系统、设备及介质
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN115661539A (zh) 一种嵌入不确定性信息的少样本图像识别方法
Li et al. More correlations better performance: Fully associative networks for multi-label image classification
CN104537377A (zh) 一种基于二维核熵成分分析的图像数据降维方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22938007

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18579793

Country of ref document: US