WO2023109709A1

WO2023109709A1 - 一种基于注意力机制的图像拼接定位检测方法

Info

Publication number: WO2023109709A1
Application number: PCT/CN2022/138200
Authority: WO
Inventors: 张玉兰; 朱国普; 杨建权; 刘祖权
Original assignee: 深圳先进技术研究院; 中国科学院深圳理工大学(筹)
Priority date: 2021-12-15
Filing date: 2022-12-09
Publication date: 2023-06-22
Also published as: CN114418840A

Abstract

本发明公开了一种基于注意力机制的图像拼接定位检测方法，一：准备图像拼接数据集，将其分为训练集、验证集和测试集三个部分；二：设计双流的多任务学习神经网络结构；三：设计多任务的损失函数；四：优化训练，得到拼接区域定位模型；五：将待检测的图像输入到步骤四中训练好的模型，得到拼接定位结果。本发明与现有技术相比的优点在于：引入浅层的低水平特征，能够提供更多的细节信息，提高网络的特征表示能力；引入图像的边缘和拼接区域的边缘作为监督信息，并设计多任务的损失函数，能够对拼接区域进行更准确的定位；引入Squeeze-excitation注意力机制，对融合特征进行重新校准，能够使模型更加关注对定位贡献较大的特征，得到更加准确的拼接定位结果。

Description

一种基于注意力机制的图像拼接定位检测方法

技术领域

本发明涉及图像拼接定位检测方法技术领域，具体是指一种基于注意力机制的图像拼接定位检测方法。

背景技术

数字图像作为一种重要的信息载体，在互联网上被广泛地分布与传播；与此同时，便捷的图像篡改操作引发了一系列图像安全问题。图像拼接是一种常用的图像篡改方法，通常将一幅图像(被称为捐赠图像)中的某个区域复制，然后经过缩放、旋转等几何操作后，粘贴到另一张图像(被称为受体图像)的某个区域中，最后对复合图像进行高斯滤波、图像增强等后处理操作，从而使拼接区域与受体图像保持一致。拼接区域边缘的后处理使得拼接定位更具挑战性。为了娱乐，人们可以采用图像拼接技术将碧海蓝天拼接到随意拍摄的照片中，伪造出自己出去旅游的美好景象。但在实际中，可能会有不法分子利用图像拼接技术来为了某种政治目的来伪造虚假宣传，或者是利用图像拼接技术来报道虚假新闻，导致不良的社会影响。因此，分析图像是否经过图像拼接操作以及定位出拼接区域具有重要的现实意义。

现有的图像拼接定位技术主要包括基于传统特征的方法和基于深度学习的方法。传统的图像拼接定位方法主要是针对拼接区域的传感器模式噪声、颜色滤波阵列的插值模式以或JPEG压缩痕迹等特征对拼接区域进行定位。但这些传统方法都是针对某种特定的图像属性，并不是对所有的拼接类型都适用。而基于深度学习的方法主要是利用大数据的数据驱动功能，对拼接区域的特征进行学习，然后对拼接区域进行定位。但现有的深度学习方法大多仅仅利用拼接图像以及对应的ground-truth mask进行学习，忽略了图像的边缘对拼接区域边缘的作用，得到定位区域边缘不是很理想。此外，现有基于深度学习的方法仅仅关注了卷积网络中较深层网络的高水平特征，而忽略了浅层网络的低水平特征，从而导致拼接定位的准确性不高。

现有技术的缺点1：现有技术仅利用了卷积网络深层的特征，而没有利用浅层网络输出的低水平特征，使得拼接定位结果有待进一步提升。浅层网络输出的低水平特征包含了图像的局部特征，包含了一些图像的细节信息，这些信息可以提高网络的特征表达能力，能够进一步地改善定位效果。

现有技术的缺点2：现有技术仅仅利用了拼接图像，而没有利用图像的边缘信息和拼接区域的边缘信息。图像的边缘信息和拼接区域的边缘信息对拼接区域的边缘能够起到引导作用，提高拼接边缘定位的准确率。

现有技术的缺点3：现有技术对特征进行简单融合而没有经过注意力机制重新校准，使得输出特征判别性较差，定位结果有待进一步提升。

发明内容

本发明要解决的技术问题是克服以上技术缺陷，提供一种基于注意力机制的图像拼接定位检测方法，设计多任务的损失函数，同时学习图像的边缘信息、拼接区域的边缘信息以及拼接区域，提高对拼接边缘的定位结果；利用浅层的网络提取低水平的纹理特征，增强所提网络的特征表达能力；最后，利用squeeze-excitation注意力机制对融合特征进行重新校准，使模型更加关注对定位拼接区域有用的特征，对其赋予更大的权重。

为解决上述技术问题，本发明提供的技术方案为：一种基于注意力机制的图像拼接定位检测方法，包括以下步骤：

步骤一：准备图像拼接数据集，将其分为训练集、验证集和测试集三个部分；

步骤二：设计双流的多任务学习神经网络结构；

步骤三：设计多任务的损失函数；

步骤四：优化训练，得到拼接区域定位模型；

步骤五：将待检测的图像输入到步骤四中训练好的模型，得到拼接定位结果。

优选的，步骤一中用4个基准的图像拼接数据集CASIA1.0，461张，CASIA2.0，5123张，Carvalho数据集100张，Columbia数据集180张，以及两个合成拼接数据集spliced_NIST13575张和spliced_Dresden 35712张，每个数据集按7:2:1的比例来分配训练集、验证集和测试集的数量。

优选的，步骤二中包括边缘引导路径和标签掩码路径，其中边缘引导路径是由U-Net构成的一条编码解码路径，采用图像的边缘进行监督，标签掩码路径由一条U-Net构成的一条编码解码路径，拼接区域的真实Groundtruth mask和拼接区域的边缘用来监督标签掩模路径。

优选的，步骤三中多任务损失函数包含三个方面，第一个是label mask损失，第二是mask边缘损失，第三是图像边缘损失。

优选的，步骤四中实验采用Pytorch网络框架在Ubuntu 16.04系统上实现，显卡为GeForce GTX 1080 Ti GPU，采用自适应矩估计作为优化器，学习率设置为1×10 ^-3，在30个epoch后设置为1×10 ^-4，总共训练300个epoch，批尺寸设置为8。

本发明与现有技术相比的优点在于：(1)引入浅层的低水平特征，能够提供更多的细节信息，提高网络的特征表示能力；

(2)引入图像的边缘和拼接区域的边缘作为监督信息，并设计多任务的损失函数，能够对拼接区域进行更准确的定位；

(3)引入Squeeze-excitation注意力机制，对融合特征进行重新校准，能够使模型更加关注对定位贡献较大的特征，得到更加准确的拼接定位结果。

附图说明

图1是本发明一种基于注意力机制的图像拼接定位检测方法的结构示意图。

图2是本发明一种基于注意力机制的图像拼接定位检测方法特征自适应层(FAL)结构图。

图3是本发明一种基于注意力机制的图像拼接定位检测方法Squeeze-excitation注意力机制(SEAM)示意图。

图4是本发明一种基于注意力机制的图像拼接定位检测方法部分测试集上的拼接定位结果。

图5是本发明一种基于注意力机制的图像拼接定位检测方法对不同拼接数据集的定位结果。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

一种基于注意力机制的图像拼接定位检测方法，包括以下步骤：

步骤一：采用4个基准的图像拼接数据集CASIA1.0(461张),CASIA2.0(5123张)，Carvalho数据集(100张)，Columbia数据集(180张)，以及两个合成拼接数据集spliced_NIST(13575张)和spliced_Dresden(35712张)，每个数据集按7:2:1的比例来分配训练集、验证集和测试集的数量。

步骤二：设计双流的多任务学习神经网络，包括边缘引导路径和标签掩码路径。其中边缘引导路径是由U-Net构成的一条编码解码路径，采用图像的边缘进行监督。编码器从输入的拼接图像中提取判别性的特征，解码器对提取的特征进行进一步的处理，得到逐像素的图像边缘预测图。边缘引导路径的编码器由四组连续的卷积模块和下采样层组成，每一个卷积模块由一个卷积层，一个批正则化层(Batch Normalization，BN)，和一个非线性修正单元(Rectified Linear Unit，ReLU)组成，其中卷积层的卷积核大小都是3×3，步长为1。下采样是由卷积核为4×4，步长为2的卷积实现。边缘引导路径的解码器是由四组连续的上采样层和卷积模块组成的。上采样层通过双线性差值实现，特征图的宽和高尺寸在每次上采样后都翻倍。编码器与解码器之间由一个卷积模块连接。最后，一个卷积核大小为1×1，步长为1的卷积层被经验性地用来细化上采样特征。尽管如此，上采样还是会导致特征损失，因此需要采用U-Net收缩路径与扩张路径之间的跳跃连接来对初始特征重利用并且弥补特征损失。

所提网络的标签掩模路径整体上边缘引导路径结构相似，也是由一条U-Net构成的一条编码解码路径。拼接区域的真实Groundtruth mask和拼接区域的边缘用来监督标签掩模路径。但是与边缘引导路径在以下几个地方有区别：

1)边缘引导路径中的特征通过特征适应层(Feature Adaption Layers,FALs)滤波后输入到标签掩码路径，与标签掩码路径中的特征融合。FAL由Res-block组成，结构如附图2所示。FAL包含一条卷积路径和一条恒等路径，其中卷积路径由一个卷积核大小为1×1，步长为1的卷积层和一个ReLU层组成。假设输入FAL的特征是y，那么FAL的输出

可以表示为

其中

表示逐像素相加，C _1×1表示归一化的1×1的卷积。为了减少融合时的损失，采用级联的方式将滤波后的特征与标签掩码路径中的特征融合。

2)从拼接图像中通过浅层网络提取的低层次特征输入到标签掩模路径中，与解码器中的上采样层中输出的特征融合。低层次特征通常指的是图像细节的局部特征，比如边，角或者梯度等。图4中的红色虚线路径表示低层次特征的提取，低层次特征能提供更多的判别信息。从左到右是4个下采样层，分别是8倍，4倍，2倍和1倍下采样，分别用卷积核大小/步长为8/8，4/4，2/2，1/1。低层次特征与标签掩模路径中的高层次特征融合能够增强高分辨率的表达。

3)直接融合的特征对修复定位很粗糙，因此所提网络将融合特征输入到挤压-激励注意力模块(Squeeze-Excitation Attention Mechanism，SEAM)。SEAM可以看作是一种简单的通道注意力机制，结构如附图3所示。用

表示SEAM的输入，通过一系列卷积等一般操作后得到一个通道数为C的特征

其中

*表示卷积，V＝[v ₁,v ₂,...,v _C]表示卷积核。

与传统的CNN不同，接下来采用三个操作重新标定得到的特征。首先是对卷积得到的特征进行squeeze操作，即

其中F _sq表示挤压操作，得到通道级的全局特征z＝[z ₁,z ₂,...,z _C]，顺着空间维度进行特征压缩，将每个二维特征通道变成一个实数z _c，这个实数在某种程度上具有全局的感受野，并且输出的维度与输入的特征通道数相匹配。

然后进行Excitation操作，学习各个通道之间的关系，得到不同通道的权重，即

e＝F _ex(z,W)＝σ(G(z,W))＝σ(W ₂ReLU(W ₁z)) (3)

其中F _ex表示激励操作，σ表示sigmoid激活函数，G表示由ReLU实现的门控机制，

r表示维度压缩比。采用一个类似于循环神经网络中门的机制，通过参数W来为每个特征通道生成权重。

最后，将Excitation输出的权重看作是经过特征选择后的每个特征通道的重要性，然后通过乘法逐通道加权到先前的通道，即

其中F _scale(u _c,e _c)表示u _c和e _c逐通道相乘。至此，完成在通道维度上对原始特征的重新标定。

步骤三：设计多任务损失函数。本发明的多任务损失函数主要包含三个方面，第一个是label mask的损失，第二是mask边缘的损失，第三是图像边缘损失。总的损失函数可以表示为：

L _total＝L _{label_mask}+λ ₁L _{label_edge}+λ ₂L _{image_edge}. (5)

为了解决正负样本之间分布的不均匀性以及样本中区分难易程度的不一致性，采用focal loss作为label mask损失，即

其中

和P _i,j分别表示在像素点(i,j)处的估计标签和预测为拼接像素的概率，α用来平衡正负样本的比例，γ用来平衡难易样本的比例，在本实验中经验性地设置α＝0.25，γ＝2。

对于mask edge采用一般的二值交叉熵(Binary Cross Entropy,BCE)作为损失函数，即

其中

和Q _i,j分别表示在像素点(i,j)处的估计的mask edge标签和预测为mask edge的概率。

对于图像边缘，采用最小均方误差(Minimum Square Error,MSE)作为损失函数，即

其中S _i,j和

分别表示图像边缘的真实值和估计值。

步骤四：优化训练。本发明的实验采用Pytorch网络框架在Ubuntu 16.04系统上实现，显卡为GeForce GTX 1080 Ti GPU。本发明的方案采用自适应矩估计(adaptive moment estimation,Adam)作为优化器，学习率设置为1×10 ^-3，在30个epoch后设置为1×10 ^-4，总共训练300个epoch，批尺寸设置为8。损失函数的调节系数λ ₁，λ ₂对最终拼接定位结果影响不是很大，且当λ ₁＝λ ₂＝1 时，获得最好的检测结果。因此，实验设置为λ ₁＝λ ₂＝1。最后选择对测试数据有最高的定位结果的模型作为最终模型。

步骤五：将待检测的图像输入到步骤四中保存的模型，得到拼接定位结果。

本发明在几个常用的图像拼接数据集上验证，实验结果证明所提方案可行。采用F1-socre作为判别标准，对不同拼接数据集的定位结果如附图5所示，部分测试集上的拼接定位结果如附图4所示。

注意力机制采用squeeze-excitation注意力机制，实际中也可采用其他的注意力机制，比如卷积块注意力机制代替，也能达到比较好的拼接定位结果。

本发明在具体实施时，设计多任务的损失函数，同时学习图像的边缘信息、拼接区域的边缘信息以及拼接区域，提高对拼接边缘的定位结果；利用浅层的网络提取低水平的纹理特征，增强所提网络的特征表达能力；最后，利用squeeze-excitation注意力机制对融合特征进行重新校准，使模型更加关注对定位拼接区域有用的特征，对其赋予更大的权重；

设计一条双流网络(包括边缘引导路径和标签掩模路径)，采用多任务的损失函数，对图像的边缘、mask边缘以及label mask进行学习。采用特征自适应层(Feature Adaptive Layer)将边缘引导路径中的特征输入到标签掩模路径。对标签掩模中的融合特征利用通道注意力机制进行重新校准，对判别具有重要性的特征赋予较大的权重，从而提高特征的表达能力。

1)本发明设计的多任务损失函数引入图像的边缘损失和拼接区域边缘的损失函数；2)浅层网络的低水平特征融合；3)边缘引导路径和标签掩模之间的特征自适应层的引入；4)Squeeze-excitation注意力机制的引入。

(1)本发明引入浅层的低水平特征，能够提供更多的细节信息，提高网络的特征表示能力。

(2)本发明引入图像的边缘和拼接区域的边缘作为监督信息，并设计多任务的损失函数，能够对拼接区域进行更准确的定位。

(3)本发明引入Squeeze-excitation注意力机制，对融合特征进行重新校准，能够使模型更加关注对定位贡献较大的特征，得到更加准确的拼接定位结果。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

一种基于注意力机制的图像拼接定位检测方法，其特征在于：包括以下步骤：

步骤一：准备图像拼接数据集，将其分为训练集、验证集和测试集三个部分；

步骤二：设计双流的多任务学习神经网络结构；

步骤三：设计多任务的损失函数；

步骤四：优化训练，得到拼接区域定位模型；

步骤五：将待检测的图像输入到步骤四中训练好的模型，得到拼接定位结果。
根据权利要求1所述的一种基于注意力机制的图像拼接定位检测方法，其特征在于：步骤一中用4个基准的图像拼接数据集CASIA1.0，461张，CASIA2.0，5123张，Carvalho数据集100张，Columbia数据集180张，以及两个合成拼接数据集spliced_NIST 13575张和spliced_Dresden 35712张，每个数据集按7:2:1的比例来分配训练集、验证集和测试集的数量。
根据权利要求1所述的一种基于注意力机制的图像拼接定位检测方法，其特征在于：步骤二中包括边缘引导路径和标签掩码路径，其中边缘引导路径是由U-Net构成的一条编码解码路径，采用图像的边缘进行监督，标签掩码路径由一条U-Net构成的一条编码解码路径，拼接区域的真实Groundtruth mask和拼接区域的边缘用来监督标签掩模路径。
根据权利要求1所述的一种基于注意力机制的图像拼接定位检测方法，其特征在于：步骤三中多任务损失函数包含三个方面，第一个是label mask的损失，第二是mask边缘的损失，第三是图像边缘损失。
根据权利要求1所述的一种基于注意力机制的图像拼接定位检测方法，其特征在于：步骤四中实验采用Pytorch网络框架在Ubuntu 16.04系统上实现，显卡为GeForce GTX 1080 Ti GPU，采用自适应矩估计作为优化器，学习率设置为1×10 ^-3，在30个epoch后设置为1×10 ^-4，总共训练300个epoch，批尺寸设置为8。