WO2023201772A1 - 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 - Google Patents
基于迭代域内适应和自训练的跨域遥感图像语义分割方法 Download PDFInfo
- Publication number
- WO2023201772A1 WO2023201772A1 PCT/CN2022/090009 CN2022090009W WO2023201772A1 WO 2023201772 A1 WO2023201772 A1 WO 2023201772A1 CN 2022090009 W CN2022090009 W CN 2022090009W WO 2023201772 A1 WO2023201772 A1 WO 2023201772A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- domain
- target domain
- image
- target
- segmentation
- Prior art date
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 195
- 238000012549 training Methods 0.000 title claims abstract description 68
- 230000006978 adaptation Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003709 image segmentation Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012216 screening Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 38
- 238000013527 convolutional neural network Methods 0.000 description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 108020001568 subdomains Proteins 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Definitions
- the invention belongs to the technical field of remote sensing image semantic segmentation, and specifically relates to a cross-domain remote sensing image semantic segmentation method based on iterative intra-domain adaptation and self-training.
- remote sensing equipment such as satellites and drones are able to collect a large number of remote sensing satellite images.
- drones can capture a large number of high spatial resolution remote sensing images over cities and countryside.
- Such massive amounts of remote sensing data provide many application opportunities, such as urban monitoring, urban management, agriculture, automatic mapping, and navigation; in these applications, the key technologies are semantic segmentation or image classification of remote sensing images.
- CNN Convolutional Neural Networks
- domain adaptation in the field of remote sensing, domain shift is usually caused by different atmospheric conditions when imaging by remote sensing equipment, acquisition differences (these differences will change the spectral characteristics of the object), the spectrum of the sensor
- the differences in features may be caused by different types of spectral bands (for example, some images may be in red, green and blue bands, while others may be in near-infrared, red and green bands).
- Generative Adversarial Network [I.Goodfellow, J.Pouget-Abadie, M.Mirza, B.Xu, D.Warde-Farley, S.Ozair, A.Courville, and Y.Bengio.Generative adversarial nets[C].Proceedings of the international conference on Neural Information Processing Systems (NIPS).2014:2672 ⁇ 2680] is used to generate pseudo-target domain images that are similar to the data distribution of the target domain image. These The generated pseudo-target domain images can be used to train a classifier on the target domain.
- GAN Generative Adversarial Network
- x s is the source domain image
- x t is the target domain image
- G S ⁇ T is the image converter from the source domain image x s to the target domain image x t
- G T ⁇ S is the target domain image x t to the source image converter for domain image x s
- ⁇ 1 is the L1 norm.
- This implementation requires three iterations of intra-domain adaptation.
- a subset of 125 target domain images is and its corresponding pseudo-label subset Join the originally empty training set separately. and the corresponding label set
- the training set of 125 images and the corresponding label set and a subset of 125 target domain images Conduct adversarial training, and use the source domain-target domain inter-domain semantic segmentation model F inter as the initial target domain intra-domain semantic segmentation model.
- the network structure of the segmentation model adopts deeplabV3+, the discriminator network structure is a 4-layer CNN, the learning rate is 10 -4 , and the optimization algorithm is adam.
- the training is stopped after 100 epochs.
- the A subset of 125 target domain images Input to the target domain in-domain semantic segmentation model , get the category segmentation probability And according to the split probability Get a subset of target domain images pseudo-label subset of Subset target domain images and the corresponding pseudo-label subset Join the training set separately and corresponding label set , and then use the training set of 375 images and the corresponding label set and a subset of 125 target domain images and intra-domain semantic segmentation model
- the segmentation model network structure uses deeplabV3+, the discriminator network structure is a 4-layer CNN, the learning rate is 10 -4 , and the optimization algorithm is adam.
- the training is stopped after 100 epochs. After the training, the final semantic segmentation in the target domain is obtained.
- this implementation method effectively improves the IoU index of semantic segmentation compared with before migration, and the improvement reaches 0.2510.
- the IoU index of this implementation is also improved by 0.1973; comparing a single intra-domain adaptation and an inter-domain adaptation, the IoU index of a single intra-domain adaptation is improved by 0.0296, which shows that Within-domain domain adaptation can reduce intra-domain differences.
- the IoU index of iterative intra-domain adaptation is further improved by 0.0172, which shows that iterative intra-domain adaptation can further reduce intra-domain differences. Therefore, the present invention is of great help in improving the performance of semantic segmentation of cross-satellite remote sensing images.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。本发明利用源-目标域域间域适应减小了源-目标域域间差异,同时利用目标域域内域适应减小了目标域域内差异,提高了跨域遥感图像语义分割模型的准确率,进一步通过提出的基于分割概率可信度对目标域图像进行分类和排序从而挑选出分割效果好的预测结果作为伪标签,同时提出新的伪标签筛选策略去掉伪标签中极有可能出错的像素点,从而避免了目标域内自训练时伪标签错误所带来的影响。
Description
本发明属于遥感图像语义分割技术领域,具体涉及一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法。
随着遥感技术的不断发展,卫星和无人机等遥感设备能够收集大量的遥感卫星图像,例如无人机可以在城市和乡村上空捕获大量高空间分辨率的遥感图像。如此海量的遥感数据提供了许多应用机会,如城市监测、城市管理、农业、自动制图和导航;在这些应用中,关键技术都是遥感图像的语义分割或图像分类。
在最近几年里,卷积神经网络(CNN)已经成为语义分割和图像分类中最常用的技术,一些基于CNN的模型已经在这个任务中显示了它们的有效性,例如FCN、SegNet、U-Net系列、PSPNets和Deeplab系列。当训练图像和测试图像来自相同的卫星或城市时,这些模型都能得好不错的语义分割结果,但是当我们将这些模型用于不同卫星或城市获取的遥感图像的分类时,因为不同卫星和城市图像之间的数据分布不同(域偏移),模型的测试结果会变得很糟糕,无法让人满意。在一些相关文献中,这个问题被称为域适应;在遥感领域,域偏移通常是由遥感设备成像时不同的大气条件、采集差异(这些差异将会改变物体的光谱特征)、传感器的光谱特征的差异或与不同类型的光谱波段(比如一些图片可能时红色,绿色和蓝色波段,而其他可能时近红外,红色和绿色波段)引起的。
在一个典型的域适应问题中,训练图像和测试图像通常被指定为源域和目标域,处理域适应的一个普通解决方案是在目标域上创建一个新的语义标记数据集,并在其上训练模型。由于目标城市收集大量像素标记的图像将是耗时和昂贵的,这种解决方案非常昂贵且不切实际,为了减少人工按像素分类的工作量,已经有了一些解决方案,比如从弱监督标记中合成数据。然而,这些方法 仍然有局限性,因为它们也需要耗费大量的人工劳动。
为了提高基于CNN的语义分割模型的泛化能力,另一种常用的方法是随机变化颜色进行数据扩充,例如伽马校正和图像亮度转换,在遥感中得到了广泛的应用。尽管如此,当数据分布之间存在显著差异时,上述数据增强方法无法在跨域语义分割中取得不错的效果。使用这种简单的增强方法,不可能将一个包含红、绿、蓝波段的域的模型应用到另一个包含近红外、红、绿通道的域。为了克服这一限制,生成对抗网络(Generative Adversarial Network,GAN)[I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Bengio.Generative adversarial nets[C].Proceedings of the international conference on Neural Information Processing Systems(NIPS).2014:2672~2680]被用来生成与目标域图像的数据分布相似的拟目标域图像,这些生成的拟目标域图像可以用来训练目标域上分类器。与此同时,一些基于对抗学习[Y.-H.Tsai,W.-C.Hung,S.Schulter,K.Sohn,M.-H.Yang,and M.Chandraker.Learning to adapt structured output space for semantic segmentation[C].”Proceedings of the international conference on computer vision and pattern recognition(CVPR).2018:7472~7481]和自训练[Y.Zou,Z.Yu,B.Kumar,and J.Wang.Unsupervised domain adaptation for semantic segmentation via class-balanced self-training[C].Proceedings of the international conference on European conference on computer vision(ECCV).2018:289~305]的方法也被研究人员提出来用来解决域适应问题。虽然这些方法在自然图像上取得了不错的效果,但将这些方法直接运用遥感图像上仍存在一定的问题,其中最重要的一点就是这些方法忽略了目标域图像自身存在的差异,例如同一个城市中的建筑物风格形状等也会存在较大的差异。
由于目标域图像自身存在的差异,从源域迁移到目标域的域间语义分割模型在所有目标域图像上的分割效果也会存在差异,即在一部分目标域图像上能获得较为准确的分割结果,但在另一部分目标域图像上获得的分割结果会变得十分糟糕。因此如何对目标域图像进行进一步的域内域适应从而减小目标域内的差异,让跨域语义分割模型在所有目标域图像上都能取得不错的分割效果,这是跨域遥感图像语义分割面临的重要问题。其次,因为目标域图像没有对应 的标签,目前常用的方法是采用自训练技术,将训练后的跨域语义分割模型生成的语义分割结果作为目标域图像的伪标签,然后用伪标签来继续训练跨域语义分割模型,从而得到最终的目标域语义分割模型。这种基于伪标签的自训练模型的训练效果取决于伪标签质量,当伪标签质量较差时,模型的训练效果也会大大减弱,模型的语义分割能力也会大大减弱。因此,如何挑选模型分割效果好的图像结果作为伪标签以及如何提升伪标签的质量也是自训练技术中一个重要的问题。
发明内容
鉴于上述,本发明提供了一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,能够将一个域的遥感图像上训练的语义分割模型迁移到其他域遥感图像上,并在目标域遥感图像内进行进一步的域内域适应训练,在减小源域-目标域域间差异的同时减小目标域域内差异,从而进一步提高跨域遥感图像语义分割模型的性能和鲁棒性。
一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:
(1)利用源域图像x
s、源域标签y
s、源域语义分割模型F
S以及目标域图像x
t训练出源域-目标域域间语义分割模型F
inter;
(5)将目标域图像x
t输入至目标域域内语义分割模型F
intra中,即可得到目标域图像x
t最终的类别分割概率P及分割结果map。
进一步地,所述步骤(1)的具体实现过程如下:
1.1利用源域图像x
s和源域标签y
s训练出源域语义分割模型F
S;
1.2利用源域图像x
s以及目标域图像x
t训练源-目标域图像双向转换器,其包含源→目标方向的图像转换器和目标→源方向的图像转换器;
1.3对于上述训练过程中生成的所有图像转换器的中间保存模型,从中选择一组最优的结果作为源→目标方向的图像转换器G
S→T和目标→源方向的图像转换器G
T→S;
1.4利用图像转换器G
S→T将源域图像x
s从源域转换到目标域,得到拟目标域图像G
S→T(x
s);
1.5利用拟目标域图像G
S→T(x
s)和源域标签y
s训练出源域-目标域域间语义分割模型F
inter。
进一步地,所述步骤(2)中分割概率可信度S
t的计算表达式如下:
其中:H和W分别为目标域图像x
t的长度和宽度,C为目标域图像x
t的分割类别数量,
表示目标域图像x
t中坐标为(h,w)的像素点对应类别c
i的分割概率,c
i表示第i个类别,i为自然数且1≤i≤C,θ()为用于度量像素点各类别分割概率之间似然度的函数。
其中:
表示目标域伪标签
中坐标为(h,w)的像素点的类别,
表示目标域图像x
t中坐标为(h,w)的像素点对应类别c的分割概率,μ
c为类别c对应的分割概率阈值,
表示目标域图像x
t中坐标为(h,w)的像素点对应类别c
i的分割概率,c
i表示第i个类别,i为自然数且1≤i≤C,C为目标域图像x
t的分割类别数量,
表示目标域图像x
t中坐标为(h,w)的像素点的分割概率混乱度,υ为分割概率混乱度阈值。
其中:δ()为用于度量像素点各类别分割概率之间混乱程度的函数。
进一步地,所述步骤(4)的具体实现过程如下:
4.5令k=k+1;
本发明方法是一个完整的跨域遥感图像语义分割框架,包含源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。
本发明提出了一个目标域域内的迭代域适应训练网络,在训练该迭代域适应训练网络时,本发明使用了常用的自训练学习技术,用分割效果较好的那一部分图像以及其分割结果作为伪标签来指导训练目标域分割模型,使目标域模型能在原本分割效果较差的那一部分图像上也能获得较好的分割结果。
除此之外,为了应对目标域内分布复杂和多样化的特点,本发明还提出将目标域分成多个子域,并对多个子域进行迭代域内适应训练;为了将目标域分成多个子域,本发明提出了一种分割概率可信度计算方法,根据目标域模型的分割结果好坏得分对目标域图像进行排序和分类,从而挑选出分割效果好的那 一部分目标域图像以及其伪标签来对目标域模型进行进一步的优化。
在获得伪标签的过程中,本发明提出一种分割概率阈值和分割概率混乱度阈值结合的方法,去掉伪标签中分割结果比较差的像素点,从而避免了低质量伪标签干扰目标域模型训练。
基于迭代域适应训练框架,本发明实现了目标域域内域适应训练,在获得了源域到目标域的迁移模型和目标域分割结果后,本发明采用的迭代域适应训练框架对目标域模型进行进一步的域内适应训练,得到了最后的目标域模型和语义分割结果,提高了跨域遥感图像语义分割的准确率。
图1为本发明跨域遥感图像语义分割方法的步骤示意图。
图2为本发明跨域遥感图像语义分割方法的具体实施流程示意图。
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1和图2所示,本发明基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:
(1)利用源域图像x
s,源域标签y
s,源域语义分割模型F
S以及目标域图像x
t训练出源域-目标域域间语义分割模型F
inter。
本实施方式在没有源域语义分割模型F
S时,可利用源域图像x
s和源域标签y
s训练得到,模型网络结构可采用常用的deeplab、U-net等,损失函数采用具有K类别的交叉熵损失,对应公式如下:
式中:x
s为源域图像,y
s为源域图像标签,K为标签类别数量,F
S为源域上的语义分割模型,
为指示函数(当k=y
s时,
当k≠y
s时,
指示函数参考—周志华.机器学习[M].北京:清华大学出版社,2016年.主要符号表),
表示数学期望函数,
为x
s输入至模型F
S中得到的输出结果中第k 类的结果。
本实施方式将带建筑物标签的Potsdam城市图像作为源域,并将其大小裁剪为512*512像素,保留RGB 3通道,图像和对应建筑物标签数量各为4000张,模型网络结构可采用deeplabV3+,学习率为10
-4,优化算法为adam,训练900个epoch得到Potsdam域上的语义分割模型F
S。
常用的源域到目标域的域间域适应训练有基于图像转化和对抗学习,本实例以基于GAN的图像转换方法做说明,但不仅限于基于图像转换的方法。基于图像转换的方法首先需要训练一个源域到目标域之间的双向图像转换模型,双向图像转换模型包含源域图像x
s到目标域图像x
t的图像转换器G
S→T、目标域图像x
t到源域图像x
s的图像转换器G
T→S以及源域判别器D
S和目标域判别器D
T,训练损失函数包含循环一致损失函数、语义一致损失函数、自损失函数和对抗损失函数。
循环一致损失函数的方程表达式如下:
语义一致损失函数的方程表达式如下:
式中:x
s为源域图像,x
t为目标域图像,G
S→T为源域图像x
s到目标域图像x
t的图像转换器,G
T→S为目标域图像x
t到源域图像x
s的图像转换器,
为数学期望函数,F
T为目标域上语义分割模型,F
S为源域上语义分割模型,KL(||)为两个分布之间的KL散度。
对抗损失函数的方程表达式如下:
式中:x
s为源域图像,x
t为目标域图像,G
S→T为源域图像x
s到目标域图像x
t的图像转换器,G
T→S为目标域图像x
t到源域图像x
s的图像转换器,
为数学期望函数,D
S为源域判别器,D
T为目标域判别器。
自损失函数的方程表达式如下:
式中:x
s为源域图像,x
t为目标域图像,G
S→T为源域图像x
s到目标域图像x
t的图像转换器,G
T→S为目标域图像x
t到源域图像x
s的图像转换器,
为数学期望函数,‖·‖
1为L1范数。
本实施方式将Potsdam城市图像作为源域,Vaihingen城市图像作为目标域,图像大小均为512*512像素,3通道,其中Potsdam城市图像(源域)832张,Vaihingen城市图像(目标域)845张,图像中均包含建筑物。图像转换模型使用GAN,包含Potsdam图像x
s到Vaihingen图像x
t的图像转换器G
S→T、Vaihingen图像x
t到Potsdam图像x
s的图像转换器G
T→S以及Potsdam域判别器D
S和Vaihingen域判别器D
T,生成器网络结构为9层ResNet,判别器网络结构为4层CNN,训练损失函数包含循环一致损失函数、语义一致损失函数、对抗损失函数以及自损失函数,学习率为10
-4,优化算法为adam,训练100个epoch后停止,训练结束后得到Potsdam-Vaihingen方向的图像转换器G
S→T和10个Vaihingen-Potsdam方向的图像转换器G
T→S。然后用转换器G
S→T将4000张512*512像素,3通道的Potsdam卫星图像从Potsdam域转换到Vaihingen域,得到拟Vaihingen图像G
S→T(x
s)。再利用拟Vaihingen(目标域)图像G
S→T(x
s)和Potsdam(源域)标签y
s训练出拟Vaihingen(目标域)语义分割模型F
inter。
模型网络结构可采用常用的deeplab、U-net等,损失函数采用具有K类别的交叉熵损失,对应公式如下:
式中:x
s为源域图像,y
s为源域图像标签,K为标签类别数量,F
inter为目标域 上的语义分割模型,
为指示函数(当k=y
s时,
当k≠y
s时,
表示数学期望函数,G
S→T(x
s)为拟目标域图像,
为G
S→T(x
s)输入至模型F
inter中得到的输出结果中第k类的结果。
本实施方式使用步骤(1)中生成的4000张512*512像素,3通道的拟Vaihingen域图像G
S→T(x
s)和源域标签y
s训练Vaihingen域上的语义分割模型F
inter;模型网络结构采用deeplabV3+,学习率为10
-4,优化算法为adam,训练100个epoch得到拟Vaihingen域上的语义分割模型F
inter。
本实施方式将500张512*512像素,3通道的Vaihingen域图像x
t输入至源域-目标域域间语义分割模型F
inter中,得到目标域图像x
t的类别分割概率P
t,并利用类别分割概率P
t计算得到分割概率可信度S
T和目标域伪标签
计算分割概率可信度S
t的计算方式如下:
其中:∑表示数学求和符号,∏表示数学乘积符号,H为目标域图像x
t的长度,W为目标域图像x
t的宽度,C为目标域图像x
t的分类类别数量,P
t为将目标域图像x
t输入语义分割模型F
inter后得到的类别分割概率(其大小为H×W×C的矩阵),
为类别分割概率P
t中坐标为(h,w),类别为c的像素点的类别分割概率,
其中:argmax为取最大值函数,
为类别分割概率P
t中坐标为(h,w)的像素点中类别分割概率最大的类别
μ
c为用于生成类别c的伪标签的分割概率阈值,
为目标域图像x
t在坐标为(h,w)的像素点的分割概率混乱度,υ为用于生成伪标签的分割概率混乱度阈值。其中分割概率混乱度
的计算方 式如下:
(4)利用分割概率可信度最高的Vaihingen(目标)域图像子集
及其对应的伪标签子集
源域-目标域域间语义分割模型F
inter和目标域图像子集
迭代训练得到目标域域内语义分割模型F
intra。
本实施方式采用的域内单次域适应方式以基于对抗学习的方法做说明,但不仅限于基于对抗学习的方法。基于对抗学习的方法需要域内语义分割模型F
intra和判别器D
intra,训练损失函数包括语义分割损失函数和对抗损失函数。
语义分割损失函数的方程表达式如下:
式中:X
i为第i部分的目标域图像子集,y
i为x
i对应的伪标签子集,K为标签类别数量,F
intra为目标域上的语义分割模型,
为指示函数(当k=Y
i时,
当k≠Y
i时,
指示函数参考—周志华.机器学习[M].北京:清华大学出版社,2016年.主要符号表),
表示数学期望函数,
为X
i输入至模型F
intra中得到的输出结果中第k类的结果。
对抗损失函数的方程表达式如下:
本实施方式需要进行3次迭代域内适应,首先第一次迭代将125张的目标域图像子集
和其对应的伪标签子集
分别加入原本为空的训练集
以及 对应标签集
然后用125张的训练集
以及对应标签集
和125张的目标域图像子集
进行对抗训练,用源域-目标域域间语义分割模型F
inter作为初始目标域域内语义分割模型
分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10
-4,优化算法为adam,训练100个epoch后停止,训练结束后得到
将125张的目标域图像子集
输入至目标域域内语义分割模型
中,得到类别分割概率
并根据分割概率
得到目标域图像子集
的伪标签子集
将目标域图像子集
和对应伪标签子集
分别加入训练集
和对应标签集
中,然后用250张的训练集
以及对应标签集
和125张的目标域图像子集
以及域内语义分割模型
进行对抗训练,分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10
-4,优化算法为adam,训练100个epoch后停止,训练结束后得到
将125张的目标域图像子集
输入至目标域域内语义分割模型
中,得到类别分割概率
并根据分割概率
得到目标域图像子集
的伪标签子集
将目标域图像子集
和对应伪标签子集
分别加入训练集
和对应标签集
中,然后用375张的训练集
以及对应标签集
和125张的目标域图像子集
以及域内语义分割模型
进行对抗训练,分割模型网络结构采用deeplabV3+,判别器网络结构为4层CNN,学习率为10
-4,优化算法为adam,训练100个epoch后停止,训练结束后得到最终的目标域域内语义分割模型F
intra
(5)将目标域图像x
t输入至目标域域内语义分割模型F
intra中,得到目标域图像x
t最终的分割结果map。
表1为通过相关实验测试出的迁移前、直方图匹配(传统方法)、基于GAN的域间域适应方法、单次域内域适应以及本发明迭代域内域适应策略得到的结果与标签真值计算得到的precision、recall、F1和IoU指标。
表1
迁移前 | 直方图匹配 | 域间域适应 | 域内域适应 | 迭代域内域适应 | |
precision | 0.8387 | 0.4184 | 0.8920 | 0.8899 | 0.8884 |
recall | 0.1548 | 0.2847 | 0.3704 | 0.4033 | 0.4226 |
F1 | 0.2614 | 0.3389 | 0.5234 | 0.5551 | 0.5728 |
IoU | 0.1503 | 0.2040 | 0.3545 | 0.3841 | 0.4013 |
从上述实验结果可以看出,本实施方式与迁移前相比有效的提升语义分割的IoU指标,提升达到了0.2510。同时,与简单的直方图匹配相比,本实施方式的IoU指标也提升了0.1973;将单次域内域适应和域间域适应相比,单次域内域适应的IoU指标提升了0.0296,这说明了域内域适应能减少域内差异。与此同时,迭代域内域适应与单次域内域适应相比,IoU指标进一步提升了0.0172,这说明了迭代域内域适应能进一步减少域内差异。因此,本发明对提高跨卫星遥感图像语义分割的性能有很大的帮助。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (7)
- 一种基于迭代域内适应和自训练的跨域遥感图像语义分割方法,包括如下步骤:(1)利用源域图像x s、源域标签y s、源域语义分割模型F S以及目标域图像x t训练出源域-目标域域间语义分割模型F inter;(5)将目标域图像x t输入至目标域域内语义分割模型F intra中,即可得到目标域图像x t最终的类别分割概率P及分割结果map。
- 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(1)的具体实现过程如下:1.1利用源域图像x s和源域标签y s训练出源域语义分割模型F S;1.2利用源域图像x s以及目标域图像x t训练源-目标域图像双向转换器,其包含源→目标方向的图像转换器和目标→源方向的图像转换器;1.3对于上述训练过程中生成的所有图像转换器的中间保存模型,从中选择一组最优的结果作为源→目标方向的图像转换器G S→T和目标→源方向的图像转换器G T→S;1.4利用图像转换器G S→T将源域图像x s从源域转换到目标域,得到拟目标域图像G S→T(x s);1.5利用拟目标域图像G S→T(x s)和源域标签y s训练出源域-目标域域间语义分割模型F inter。
- 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:所述步骤(4)的具体实现过程如下:4.5令k=k+1;
- 根据权利要求1所述的跨域遥感图像语义分割方法,其特征在于:该方法是一个完整的跨域遥感图像语义分割框架,包含源域-目标域域间域适应模型训练、目标域类别分割概率以及伪标签生成、目标域图像分割概率可信度得分排序、目标域域内迭代域适应模型训练和目标域分割结果生成。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210402338.4 | 2022-04-18 | ||
CN202210402338.4A CN114708434A (zh) | 2022-04-18 | 2022-04-18 | 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023201772A1 true WO2023201772A1 (zh) | 2023-10-26 |
Family
ID=82174493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/090009 WO2023201772A1 (zh) | 2022-04-18 | 2022-04-28 | 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114708434A (zh) |
WO (1) | WO2023201772A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115507A (zh) * | 2024-04-30 | 2024-05-31 | 苏州大学 | 基于跨域类别感知图卷积对齐的图像分割方法 |
CN118298185A (zh) * | 2024-06-06 | 2024-07-05 | 山东锋士信息技术有限公司 | 一种基于码本与交叉变形融合的跨域遥感图像分割方法 |
CN118334458A (zh) * | 2024-06-14 | 2024-07-12 | 中国海洋大学 | 一种通用跨域图像转换方法及系统 |
CN118334062A (zh) * | 2024-06-13 | 2024-07-12 | 江西师范大学 | 无源域自适应眼底图像分割方法和设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115830597B (zh) * | 2023-01-05 | 2023-07-07 | 安徽大学 | 一种基于伪标签生成的从局部到全局的域自适应遥感影像语义分割方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
WO2021097055A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN113408537A (zh) * | 2021-07-19 | 2021-09-17 | 中南大学 | 一种遥感影像域适应语义分割方法 |
CN113436197A (zh) * | 2021-06-07 | 2021-09-24 | 华东师范大学 | 基于生成对抗和类特征分布的域适应无监督图像分割方法 |
CN113837191A (zh) * | 2021-08-30 | 2021-12-24 | 浙江大学 | 基于双向无监督域适应融合的跨星遥感图像语义分割方法 |
CN113888547A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 基于gan网络的无监督域自适应遥感道路语义分割方法 |
-
2022
- 2022-04-18 CN CN202210402338.4A patent/CN114708434A/zh active Pending
- 2022-04-28 WO PCT/CN2022/090009 patent/WO2023201772A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021097055A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
CN113436197A (zh) * | 2021-06-07 | 2021-09-24 | 华东师范大学 | 基于生成对抗和类特征分布的域适应无监督图像分割方法 |
CN113408537A (zh) * | 2021-07-19 | 2021-09-17 | 中南大学 | 一种遥感影像域适应语义分割方法 |
CN113837191A (zh) * | 2021-08-30 | 2021-12-24 | 浙江大学 | 基于双向无监督域适应融合的跨星遥感图像语义分割方法 |
CN113888547A (zh) * | 2021-09-27 | 2022-01-04 | 太原理工大学 | 基于gan网络的无监督域自适应遥感道路语义分割方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115507A (zh) * | 2024-04-30 | 2024-05-31 | 苏州大学 | 基于跨域类别感知图卷积对齐的图像分割方法 |
CN118298185A (zh) * | 2024-06-06 | 2024-07-05 | 山东锋士信息技术有限公司 | 一种基于码本与交叉变形融合的跨域遥感图像分割方法 |
CN118334062A (zh) * | 2024-06-13 | 2024-07-12 | 江西师范大学 | 无源域自适应眼底图像分割方法和设备 |
CN118334458A (zh) * | 2024-06-14 | 2024-07-12 | 中国海洋大学 | 一种通用跨域图像转换方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114708434A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023201772A1 (zh) | 基于迭代域内适应和自训练的跨域遥感图像语义分割方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
WO2021003951A1 (zh) | 一种基于标签约束弹性网图模型的高光谱图像分类方法 | |
WO2018108129A1 (zh) | 用于识别物体类别的方法及装置、电子设备 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN107123130B (zh) | 一种基于超像素和混合哈希的核相关滤波目标跟踪方法 | |
WO2023029111A1 (zh) | 基于双向无监督域适应融合的跨星遥感图像语义分割方法 | |
CN111127360B (zh) | 一种基于自动编码器的灰度图像迁移学习方法 | |
CN109543693B (zh) | 基于正则化标签传播的弱标注数据降噪方法 | |
CN109348229B (zh) | 基于异构特征子空间迁移的jpeg图像失配隐写分析方法 | |
CN111914696A (zh) | 一种基于迁移学习的高光谱遥感影像分类方法 | |
CN110675421A (zh) | 基于少量标注框的深度图像协同分割方法 | |
Yang et al. | Unsupervised images segmentation via incremental dictionary learning based sparse representation | |
CN115410059A (zh) | 基于对比损失的遥感图像部分监督变化检测方法及设备 | |
CN116310466A (zh) | 基于局部无关区域筛选图神经网络的小样本图像分类方法 | |
WO2020119624A1 (zh) | 一种基于深度学习的类别敏感型边缘检测方法 | |
CN117079017A (zh) | 可信的小样本图像识别分类方法 | |
CN115100451B (zh) | 一种用于液压泵漏油监控的数据扩充方法 | |
CN109145749B (zh) | 一种跨数据集的面部表情识别模型构建及识别方法 | |
Metre et al. | Research opportunities for the detection and classification of plant leaf diseases | |
CN116152194A (zh) | 一种物体缺陷检测方法、系统、设备及介质 | |
CN113177602B (zh) | 图像分类方法、装置、电子设备和存储介质 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
Li et al. | More correlations better performance: Fully associative networks for multi-label image classification | |
CN104537377A (zh) | 一种基于二维核熵成分分析的图像数据降维方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22938007 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 18579793 Country of ref document: US |