WO2024032158A1

WO2024032158A1 - 基于混合频域通道注意力的深度图像水印方法

Info

Publication number: WO2024032158A1
Application number: PCT/CN2023/101599
Authority: WO
Inventors: 张强; 王宾; 谭钧; 陈蓉蓉; 魏小鹏
Original assignee: 大连大学
Priority date: 2022-08-10
Filing date: 2023-06-21
Publication date: 2024-02-15
Also published as: CN115272044A

Abstract

一种基于混合频域通道注意力的深度图像水印方法，涉及人工神经网络和数字图像水印领域；该方法包括：步骤1：水印信息处理器生成水印信息特征图；步骤2：编码器将载体图像和水印信息特征图生成水印图像；步骤3：噪声层把水印图像作为输入，经过模拟的可微噪声生成噪声图像；步骤4：解码器对上述噪声图像进行降采样恢复水印信息；步骤5：对抗判别器对载体图像和水印图像进行分类以使编码器生成高质量水印图像。该方法将端到端的深度水印模型与频域通道注意力相结合，扩大了深度神经网络在图像水印领域的应用范围，并且借助频域通道注意力模块设计了新的编码器结构，最终得到了质量较高的水印图像以及解码效果较好的水印信息。

Description

基于混合频域通道注意力的深度图像水印方法

本申请要求于2022年08月10日提交中国专利局、申请号为202210955381.3、发明名称为“基于混合频域通道注意力的深度图像水印方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工神经网络和数字图像水印领域，具体涉及一种基于混合频域通道注意力的深度图像水印方法。

背景技术

近年来随着深度神经网络在计算机视觉任务上的大获成功，深度神经网络与数字图像水印算法的结合成为了信息隐藏领域一个比较热门的方向，二者的结合不仅能够保护图像的版权信息，并且由于神经网络强大的学习能力，训练好的水印算法模型可以适用于大部分的图像场景。除此之外神经网络能够很好的对水印信息的嵌入和提取进行拟合，并且使得本来是分开的水印嵌入、图像噪声和水印提取三个部分能够在神经网络的训练中都进行参与，相较于传统方法在鲁棒性和不可见性上都得到了提升。通道特征的选择对于图像水印有一定的作用，选择适用于嵌入水印的频域分量作为频域通道注意力模块中通道特征的权重能提高水印模型的性能。而目前的水印图像在经过JPEG压缩后提取水印效果不好，水印图像质量较差。

发明内容

为了解决水印图像在经过JPEG压缩后提取水印效果不好和水印图像质量较差的问题，本发明提供一种基于混合频域通道注意力的深度图像水印方法，将端到端的深度水印模型与频域通道注意力相结合，扩大了深度神经网络在图像水印领域的应用范围，并且借助频域通道注意力模块设计了新的编码器结构，最终得到了质量较高的水印图像以及解码效果较好的水印信息。

本发明为解决其技术问题所采用的技术方案是：

一种基于混合频域通道注意力的深度图像水印方法，包括如下步骤：

步骤1：水印信息处理器生成水印信息特征图；

步骤2：编码器将载体图像和水印信息特征图生成水印图像；

步骤3：噪声层把水印图像作为输入，经过模拟的可微噪声生成噪声图像；

步骤4：解码器对上述噪声图像进行降采样恢复水印信息；

步骤5：对抗判别器对载体图像和水印图像进行分类以使编码器生成高质量水印图像。

进一步的，所述步骤1具体为：水印信息处理器以水印信息作为输入，经过全连接层将水印信息扩散到每位信息上，再将扩散后的水印信息从一维变换为二维的特征图形式，然后通过扩散卷积层和注意力模块生成水印信息特征图。

进一步的，步骤2具体为：编码器以载体图像和水印信息特征图作为输入，经过ConvBNReLU卷积块和混合频域通道注意力模块以及跳跃连接生成水印图像。

进一步的，编码器中的混合频域通道注意力模块，由两个分支组成，其中一个分支由多个SENet注意力模块组成，SENet注意力模块在通道压缩过程中使用全局平均池化层，即以二维离散余弦变换中的最低频分量作为对通道特征分配的权重；另一个分支由一个FCA注意力模块组成，FCA注意力模块根据JPEG压缩原理的8×8分块方式划分64个频域分量，并按照之字形的方式从最低频分量开始选择16个低频分量作为FCA注意力模块压缩后的权重；经过FCA注意力模块分支和SENet注意力模块分支生成的特征张量再在通道维度上进行拼接，并用一个ConvBNReLU卷积模块进行特征融合。

进一步的，步骤4具体为：解码器以噪声图像作为输入，经过ConvBNReLU卷积模块和SENet注意力模块进行降采样恢复水印信息。

进一步的，训练编码器的损失函数包括和和用以辅助编码器生成高质量水印图像，

其中，I_CO为载体图像，I_EN为水印图像，E表示编码器，θ_E为编码器E的参数，M_EN为水印信息特征图；A表示对抗判别器，θ_A为对抗判别器A的参数。

进一步的，训练解码器的损失函数L_D为：
L_D＝MSE(M，M_D)＝MSE(M，D(θ_D，I_NO))

其中，M为原水印信息，M_D为解码恢复后的水印信息，D表示解码器，θ_D为解码器D的参数，I_NO为噪声图像。

进一步的，训练对抗判别器的损失函数L_A为：
L_A＝log(1-A(θ_A,E(θ_E,I_CO,M_EN)))+log(A(θ_A,I_CO))

其中，A表示对抗判别器，θ_A为对抗判别器A的参数，E表示编码器，θ_E为编码器E的参数，I_CO为载体图像，M_EN为水印信息特征图。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：

引入了频道通道注意力对载体图像进行特征提取，利用通道上的多个频域分量使得编码过程减少了丢失的信息量，并且通过自主选择16个低频分量作为通道注意力的权重参数，相比于中频和高频的分量对于JPEG压缩具有更好的鲁棒性；

设计了双分支的结构，两个分支使用不同的注意力对于特征图进行特征学习，二者生成的特征图在通道维度上进行拼接再通过卷积层进行特征融合，使得生成的水印图像质量得到了较大提高。

说明书附图

图1为本发明的整体方法网络模型架构图；

图2为频域通道注意力的原理图；

图3为频域分量的选择示意图；

图4为对于噪声为JPEG压缩进行专门训练后的测试结果图；

图5为对于混合噪声训练后在多种不同噪声测试下的实验结果。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明的整体方法网络模型架构。基于混合频域通道注意力的深度图像水印方法，包括：

S1：水印信息处理器把水印信息作为输入经过全连接层将水印信息扩散到每位信息上，再将扩散后的水印信息从一维变换至二维的特征图形式，然后通过扩散卷积层和注意力模块生成水印信息特征图。

S2：编码器把载体图像和水印信息特征图作为输入经过ConvBNReLU卷积块和混合频域通道注意力模块以及跳跃连接生成水印图像，其中混合频域通道注意力模块由两个分支组成。一个分支包含了多个SE注意力模块，SE注意力模块使用离散余弦变换域的最低频分量作为权重参数；另一个分支则根据8×8的分块按照之字形顺序选取了低频的16个分量作为权重参数。

关于频域通道注意力的原理见图2。具体而言，编码器中的混合频域通道注意力模块，其具体的结构设计为两个分支，一个分支是由多个SENet注意力模块组成，另一个分支是由一个FCA注意力模块组成，SENet在通道压缩过程中使用全局平均池化层，即以二维离散余弦变换中的最低频分量作为对通道特征分配的权重，而FCA注意力模块则根据上述的原理将全局平局池化层进行了修改，可以选择多个二维离散余弦变换的分量，本发明根据JPEG压缩原理的8×8分块方式也划分了64个频域分量，并按照之字形的方式从最低频分量开始选择16个低频分量作为FCA注意力模块压缩后的权重，经过FCA注意力模块分支和SENet注意力模块分支生成的特征张量再在通道维度上进行拼接，并用一个ConvBNReLU卷积模块进行特征融合。图2中的DCT^N指代的是分块离散余弦变换；Freq^N指代的是频率分量。关于频域分量的选择示意图见图3。

S3：噪声层把水印图像作为输入经过模拟的可微噪声生成带噪声的图像；在模型的训练过程中，对于每批输入的水印图像，噪声层从设置好的噪声中随机选择一个进行失真以模拟真实场景下的噪声环境。

S4：解码器把噪声图像作为输入经过ConvBNReLU卷积块和SENet注意力模块进行降采样恢复水印信息。

S5：对抗判别器对于载体图像和水印图像进行分类帮助编码器生成更高质量的水印图像，对抗判别器由多个卷积核大小为3×3的ConvBNReLU模块和一个全局平均池化层组成。

以下对上述的内容进行详细说明：

水印信息处理器主要负责处理水印信息并将处理后的特征图输入到编码器中。它接收由0和1组成的长度为L的二进制水印信息并输出大小为C'×H×W的水印信息特征图，其中C'是特征图的通道数。H是特征图的高，W是特征图的宽，具体来说，随机生成的长度为L的水印信息从一维变为二维的特征图其大小为{0,1}^1×h×w，其中L＝h×w。然后通过由卷积核大小为3×3的卷积层、批归一化层以及激活函数ReLU组成的卷积模块ConvBNReLU对其进行放大，并通过几个扩散卷积层将其大小扩展为C×H×W。最后，为了更适当地扩展信息，水印信息的特征图由几个SE注意力模块提取。

具有参数θ_E的编码器E把大小为3×H×W的RGB彩色图像，即载体图像I_CO和水印信息特征图M_EN作为输入，并输出大小为3×H×W的编码图像，即水印图像I_EN。为了更好地选择通道特征，编码器使用了混合频率通道注意块，包括多个SE通道注意力模块和一个FCA频域通道注意力模块。FCA注意力模块选择多频分量的原理是：

其中，是离散余弦变换的基函数，其去除了一些常量系数，不影响结果，x^2d作为离散余弦变换的输入，H是x^2d的高，W是x^2d的宽，并且u∈{0，1，...，H)1}，v∈{0，1，...，W)1}。全局平均池化操作实际相当于当u＝0和v＝0时的离散余弦变换值，即最低频的分量：

整个编码器由多个卷积核大小为3×3的ConvBNReLU卷积块、一个混合频率通道注意模块以及一个卷积核大小为1×1的卷积层组成。第一步，它首先通过卷积核大小为3×3的ConvBNReLU卷积块放大载体图像，然后使用所提出的混合频率通道注意模块保证特征图大小不变，再利用卷积核大小为3×3的ConvBNReLU卷积块集中由注意力模块得到的特征图。第二步把从水印信息处理器获得的水印信息特征图和之前输出的由混合频率通道注意模块得到的载体图像、特征图输入到卷积核大小为3×3的ConvBNReLU卷积块进行特征融合。第三步将融合后的特征图和由跳跃连接输送来的载体图像拼接成一个新的特征图，并将其送入一个卷积核大小为1×1的卷积层获得编码图像I_EN。训练编码器旨在通过更新参数θ_E来最小化I_CO和I_EN之间的L2距离：

整个模型的鲁棒性由噪声层提供。噪声层中的噪声从指定的噪声池中进行选择，它以编码图像I_EN作为输入并输出大小相同的噪声图像I_NO。在模型的训练过程中，对于每批输入的编码图像噪声层从设置好的噪声中随机选择一个进行失真以模拟真实场景下的噪声环境。

具有参数θ_D的解码器D的任务是从噪声图像I_NO中恢复长度为L的水印信息M_D，该部分决定了整个模型提取水印的能力。在解码阶段，将噪声图像I_NO输入到卷积核大小为3×3的ConvBNReLU层，并通过多个SE注意力模块对获得的特征图进行下采样。然后，通过卷积核大小为3×3的卷积层将多通道张量转换为单通道张量，并改变单通道张量的形状，得到解码后的水印信息M_D。解码器训练的目标是通过更新参数θ_D使原水印信息M和M_D之间的L2距离最小化：
L_D＝MSE(M，M_D)＝MSE(M，D(θ_D，NO))

由于在误码率指标中起着重要的作用，因此该损失函数L_D在总损失函数中所占的比例最大。

对抗判别器A由多个卷积核大小为3×3的ConvBNReLU模块和一个全局平均池化层组成。在对抗网络的影响下，编码器会尽可能地欺骗对手，使对手判别器无法对I_CO和I_EN做出正确的判断，并且更新参数θ_E去最小化损失函数L_E2，以提升编码器的编码质量：

参数为θ_A的判别器需要区分I_CO和I_EN作为二值分类器。对手的目标是通过更新θ_A来最小化分类损失L_A：
L_A＝log(1-A(θ_A，E(θ_E，I_CO，M_EN)))+log(A(θ_A，I_CO))

总的损失函数是并且L_A是对于对抗判别器的损失函数。λ_E，λ_D和λ_A分别是各个损失函数的权重参数，在训练中设置为1，10和0.0001。

上述对于损失函数的设计，体现在损失函数具体为两部分，一部分是对于编码器和解码器的损失函数LD和其中和用于辅助编码器生成高质量的水印图像，使用L2损失使载体图像和水印图像在视觉上尽可能的相似，由对抗判别器生成的损失辅助编码器；另一部分是用于训练判别器的损失函数L_A。

实施例1

本模型为了体现普适性，可以从ImageNet的图像数据集中随机选择10000张图像作为模型的训练集，然后从COCO的图像数据集中随机选择5000张作为验证集和5000张作为测试集。数据集在输入模型训练前先进行预处理裁剪为128×128的大小，设置批量为16，训练的轮次为150。对于训练过程中的优化算法选择动态的Adam，并且设置学习率为0.001。对于JPEG压缩噪声的测试，可以使用PIL中所带的库函数实现。在训练过程中，水印信息的嵌入强度设置为1。为了衡量水印算法的性能，使用PSNR和SSIM计算载体图像和水印图像之间的相似度来表示水印算法的不可感知性，使用水印信息和解码器恢复的水印信息之间的误码率来表现水印算法的鲁棒性。对于噪声为JPEG压缩进行专门训练后的测试结果图见图4。

采用其他方法在JPEG压缩噪声训练下的测试实验，相关数据见表1。

表1其他方法在JPEG压缩噪声训练下的测试实验

训练单噪声模型和混合噪声模型的设置。单噪声模型指噪声层只包括了一种噪声，训练好的水印模型只对该噪声具有较强的鲁棒性，以JPEG压缩为例，噪声层的设置为无噪声、模拟的JPEG-Mask和真实的JPEG压缩。这样选择的原因是因为真实的JPEG压缩是不可微分的噪声，反馈的模型参数无法加入到模型的训练中，而模拟的JPEG-Mask只是人工设置的一个JPEG压缩模板无法达到真实JPEG压缩的效果，所以选择无噪声、JPEG-Mask和真实JPEG压缩三种进行混合训练最大程度上模拟出真实环境的JPEG压缩，JPEG压缩的强度因子设置为50。

对于混合噪声训练后在多种不同噪声测试下的实验结果图见图5。混合噪声模型是在噪声层中设置了多种噪声，使得训练好的模型能够对大多数的噪声都实现较好的鲁棒性，本实施例提供一种混合噪声模型训练的设置，噪声层设置为JPEG(Q＝50)、JPEG-Mask(Q＝50)、无噪声和Crop(p＝0.0225)，注意在噪声层中包括类似于剪切的几何噪声时，水印信息处理器要对水印信息先通过一个全连接层扩散水印信息同时在解码器末尾也要加入一个全连接层进行逆变换。表2为在混合噪声训练下对于多种噪声与其它方法的测试实验。

权重的选择。训练的轮次预设是150，训练完成后从记录的训练日志中根据验证集的总损失选择几个极小值对应的训练轮次作为测试要导入模型的权重。

表2在混合噪声训练下对于多种噪声与其它方法的测试实验

测试的方法。测试过程中要强调的是训练过程中的水印图像和测试过程中是有所不同的。训练过程中编码器生成的水印图像是直接输入到噪声层中参与整个训练，而在测试过程中水印信息处理器、编码器、解码器的权重参数是固定的，编码器生成的水印图像与载体图像的差值I_diff代表水印信息，I_diff与水印嵌入强度α相乘再与载体图像在像素维度上相加生成测试用的水印图像即I_EN＝I_CO+α×I_diff＝I_CO+α×(I_EN-I_CO)，在训练过程中因为强度因子α是1，而在测试过程中可以调整强度因子的大小来平衡鲁棒性和不可见性以适用于不同的应用环境。在设置好测试的参数后，将之前选择的训练权重导入进行测试，根据测试集图像的结果取平均值代表测试的总体性能。

表3为对于每种噪声进行单一训练后，在调整强度因子使误码率接近0％的情况下比较编码图像质量的结果。

表3编码图像质量的结果

表4为对于噪声为JPEG压缩专门训练后在不同的质量因子和不同强度因子下的测试结果。

表4在不同的质量因子和不同强度因子下的测试结果

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

一种基于混合频域通道注意力的深度图像水印方法，其特征在于，包括如下步骤：

步骤1：水印信息处理器生成水印信息特征图；

步骤2：编码器将载体图像和水印信息特征图生成水印图像；

步骤3：噪声层把水印图像作为输入，经过模拟的可微噪声生成噪声图像；

步骤4：解码器对上述噪声图像进行降采样恢复水印信息；

步骤5：对抗判别器对载体图像和水印图像进行分类以使编码器生成高质量水印图像。
根据权利要求1所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，所述步骤1具体为：水印信息处理器以水印信息作为输入，经过全连接层将水印信息扩散到每位信息上，再将扩散后的水印信息从一维变换为二维的特征图形式，然后通过扩散卷积层和注意力模块生成水印信息特征图。
根据权利要求2所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，步骤2具体为：编码器以载体图像和水印信息特征图作为输入，经过ConvBNReLU卷积块和混合频域通道注意力模块以及跳跃连接生成水印图像。
根据权利要求3所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，编码器中的混合频域通道注意力模块，由两个分支组成，其中一个分支由多个SENet注意力模块组成，SENet注意力模块在通道压缩过程中使用全局平均池化层，以二维离散余弦变换中的最低频分量作为对通道特征分配的权重；另一个分支由一个FCA注意力模块组成，FCA注意力模块根据JPEG压缩原理的8×8分块方式划分64个频域分量，并按照之字形的方式从最低频分量开始选择16个低频分量作为FCA注意力模块压缩后的权重；经过FCA注意力模块分支和SENet注意力模块分支生成的特征张量再在通道维度上进行跳跃连接，并用一个ConvBNReLU卷积模块进行特征融合。
根据权利要求4所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，步骤4具体为：解码器以噪声图像作为输入，经过 ConvBNReLU卷积模块和SENet注意力模块进行降采样恢复水印信息。
根据权利要求4所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，训练编码器的损失函数包括和和用以辅助编码器生成高质量水印图像，

其中，I_CO为载体图像，I_EN为水印图像，E表示编码器，θ_E为编码器E的参数，M_EN为水印信息特征图；A表示对抗判别器，θ_A为对抗判别器A的参数。
根据权利要求5所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，训练解码器的损失函数L_D为：
L_D＝MSE(M，M_D)＝MSE(M，D(θ_D，I_NO))

其中，M为原水印信息，M_D为解码恢复后的水印信息，D表示解码器，θ_D为解码器D的参数，I_NO为噪声图像。
根据权利要求6所述的基于混合频域通道注意力的深度图像水印方法，其特征在于，训练对抗判别器的损失函数L_A为：
L_A＝log(1-A(θ_A,E(θ_E,I_CO,M_EN)))+log(A(θ_A,I_CO))

其中，A表示对抗判别器，θ_A为对抗判别器A的参数，E表示编码器，θ_E为编码器E的参数，I_CO为载体图像，M_EN为水印信息特征图。