WO2023070911A1

WO2023070911A1 - 一种基于自注意力的彩色纹理织物缺陷区域的检测方法

Info

Publication number: WO2023070911A1
Application number: PCT/CN2021/139961
Authority: WO
Inventors: 张宏伟; 熊文博; 张伟伟; 张蕾; 景军锋
Original assignee: 西安工程大学
Priority date: 2021-10-27
Filing date: 2021-12-21
Publication date: 2023-05-04
Also published as: CN113989228A

Abstract

一种基于自注意力的彩色纹理织物缺陷区域的检测方法，具体为：建立包括彩色纹理无缺陷图像的彩色纹理织物数据集，对彩色纹理织物数据集中的彩色纹理无缺陷图像叠加噪声；构建基于Transformer的Swin-Unet模型并训练得到训练好的模型；使用训练好的模型对待测彩色纹理织物图像进行重构，输出对应的重构图像，然后根据重构图像判断并定位缺陷区域。该方法能够有效地解决彩色纹理织物缺陷区域检测的问题。

Description

一种基于自注意力的彩色纹理织物缺陷区域的检测方法

技术领域

本发明属于缺陷检测方法技术领域，涉及一种基于自注意力的彩色纹理织物缺陷区域的检测方法。

背景技术

彩色纹理织物花型美观多样，近年来销量与日剧增，其不仅被用于服装制造，也被用于工业产品。然而，在其生产过程中，由于不可抗拒的因素影响会导致织物表面存在缺陷。目前，大多企业采用人工目测的方法对其进行缺陷检测，但人工目测会受人眼疲劳程度的影响导致效率低漏检率高。因此，需要一种准确且快速的彩色纹理织物自动缺陷检测方法。

当前，基于机器视觉的织物缺陷检测技术受到了许多研究人员的广泛关注。根据缺陷检测方法的不同，可分为传统方法和深度学习方法。传统检测方法可分为基于空间的、基于频域的、基于模型的、基于学习的方法。传统检测方法只针对纹理简单的灰度织物布匹，无法对复杂花型取得良好的检测效果。由于卷积深网络具有强大的特征提取和特征融合的能力，深度学习方法逐渐成为研究热点，其中有监督的方法在特定的织物场景下取得了良好的检测效果，但依赖于大量的缺陷样本和人工标记的缺陷区域。由于小批量生产的彩色纹理织物缺陷样本稀缺且缺陷种类不平衡，难以构建缺陷种类完备的彩色纹理织物数据库。因此，深度学习中有监督的方法无法解决彩色纹理织物缺陷检测问题。深度学习中无监督的方法由于无需缺陷样本且不需人工标记受到了部分研究人员的关注。深度学习中无监督的彩色纹理织物缺陷检测方法主要利用输入待测图像与其对应的重构图像之间的差异进行缺陷的检测和定位。具体来说，它要求模型具有去除缺陷区域且保留正常区域的能力。但在实际情况中，由于卷积神经网络层次的加深往往导致模型的过拟合，进而导致缺陷区域的漏检或过检，从而无法有效地解决彩色纹理织物缺陷区域的检测问题。

发明内容

本发明的目的是提供一种基于自注意力的彩色纹理织物缺陷区域的检测方法，解决了现有技术中存在的由于卷积神经网络层次的加深往往导致模型的过拟合，进而导致缺陷区域的漏检或过检，从而无法有效地解决彩色纹理织物缺陷区域检测的问题。

本发明所采用的技术方案是，一种基于自注意力的彩色纹理织物缺陷区域的检测方法，具体按照如下步骤实施：

步骤1，建立包括彩色纹理无缺陷图像的彩色纹理织物数据集，对彩色纹理织物数据集中的彩色纹理无缺陷图像叠加噪声；

步骤2，构建基于Transformer的Swin-Unet模型；

步骤3，将步骤1叠加噪声的彩色纹理织物无缺陷图像输入到步骤2构建的基于Transformer的Swin-Unet模型中进行训练，得到训练好的基于Transformer的Swin-Unet模型；

步骤4，使用步骤3训练好的基于Transformer的Swin-Unet模型对待测彩色纹理织物图像进行重构，输出对应的重构图像，然后根据重构图像判断并定位缺陷区域。

本发明的特征还在于，

步骤1具体为：

步骤1.1，建立彩色纹理织物数据集，彩色纹理织物数据包括彩色纹理织物无缺陷图像训练集和彩色纹理织物有缺陷图像测试集，彩色纹理织物数据集中的所有图像均整理成512×512×3大小的分辨率，图像格式均为.jpg；

步骤1.2，对步骤1.1中的彩色纹理织物无缺陷图像训练集中的彩色纹理织物无缺陷图像叠加噪声，如式(1)所示：

式中，X为彩色纹理织物无缺陷图像，N(0,0.1)表示服从均值为0、方差为0.1的标准正态分布的高斯噪声，

为叠加噪声后的彩色纹理织物无缺陷图像。步骤2中的基于Transformer的Swin-Unet模型具体为：

基于Transformer的Swin-Unet模型为一个基于Transformer的U型对称编码器-解码器结构，分别由编码器、瓶颈层、解码器依次连接组成，编码器的输入层为叠加噪声彩色纹理织物无缺陷图像，解码器的输出层为重构后的彩色纹理织物图像，编码器和解码器之间通过3个跳接层相互连接。

编码器由输入层、Patch Embedding层、3个Swin Transformer Block层和3个Patch Merging层连接组成，其中，Swin Transformer Block层和Patch Merging层交替相连，Patch Embedding层利用卷积核为4、步长为4、填充为0的卷积与Swin Transformer Block层相连，Swin Transformer Block层利用自注意力层与在Swin Transformer Block层之后的Patch Merging层相连，其中，自注意力层包括在Swin Transformer Block层中，Patch Merging层利用全连接层和通道归一化操作与在Patch Merging层之后的Swin Transformer Block层相连，其中，全连接层和通道归一化操作包括在Patch Merging层中，编码器的最后一个Patch Merging层与瓶颈层连接；

瓶颈层由2个Swin Transformer Block层依次连接组成，编码器的输出层通过通道归一化操作连接到瓶颈层的第一个Swin Transformer Block层，其中，通道归一化操作包括在所述编码器的输出层中，瓶颈层的第二个Swin Transformer Block层通过全连接层连接到解码器的输入层，其中，全连接层包括在所述第二个Swin Transformer Block层中；

解码器由3个Patch Expanding层、3个Swin Transformer Block层、Patch Projection层、输出层连接组成，解码器的第一个Patch Expanding层与瓶颈层的第二个Swin Transformer Block层连接，在解码器中，Patch Expanding层和Swin Transformer Block层交替相连，Patch Expanding层利用全连接层和通道归一化操作与Swin Transformer Block层相连，Swin Transformer Block层利用自注意力层与Patch Projection层连接，Patch Projection层利用卷积核为1、步长为1、填充为0的卷积与输出层相连；

编码器的3个Swin Transformer Block层与解码器的3个Swin Transformer Block层一一对应连接。

Swin Transformer Block层由LayerNorm层、窗口多头自注意力层、移位窗口多头自注意力层、MLP层组成，LayerNorm层是通道归一化操作，窗口多头自注意力层和移位窗口多头自注意力层都由2个全连接层组成，并在全连接层后加入了激活函数Softmax，移位窗口多头自注意力层在激活函数Softmax后加入了移位和切片操作，MLP层由2个全连接层组成，并在2个全连接层间加入了激活函数GELU，按照以下方式连接：

输入特征z ^l-1先经过LayerNorm层，再经过窗口多头自注意力层，接着经过相加操作得到

接着经过LayerNorm层、MLP层和相加操作得到z ^l，然后再经过LN层、移位窗口多头自注意力层和相加操作得到

最后经过LayerNorm层、MLP层和相加操作得到输出特征z ^l+1，过程如式(2)：

式中，LN()表示经过LayerNorm层处理输出，MLP()表示经过MLP层处理输出，W-MSA()表示经过窗口多头自注意力层处理输出、SW-MSA()表示经过移位窗口多头自注意力层处理输出，LayerNorm层为通道归一化操作。

窗口多头自注意力层和移位窗口多头自注意力层是在每个窗口中计算自注意力Attention(Q,K,V)，如式(3)：

式中，Q、K、V分别表示查询矩阵、键矩阵、值矩阵，d表示矩阵的维度，B表示偏置矩阵，SoftMax为激活函数。

编码器的第一个Swin Transformer Block层中MLP层神经元个数前者为48、后者为192，编码器的第二个Swin Transformer Block层中MLP层神经元个数前者为96、后者为384，编码器的第三个Swin Transformer Block层中MLP层神经元个数前者为192、后者为768，瓶颈层的Swin Transformer Block层中MLP层神经元个数前者和后者分别都为384和1536，解码器的每个Swin Transformer Block层中MLP层神经元个数与编码器的MLP层中相对应的神经元个数相等。

步骤3具体为：

步骤3.1，将叠加噪声的彩色纹理织物无缺陷图像输入到步骤2构建的基于Transformer的Swin-Unet模型中得到重构图像；

步骤3.2，对步骤3.1得到的重构图像与其对应未叠加噪声的彩色纹理织物图像计算均方差损失，如式(4)：

式中，

为重构图像，X(i)为重构图像对应未叠加噪声的彩色纹理织物图像，n为未叠加噪声的彩色纹理织物图像的个数，L _MSE为损失函数；

步骤3.3，以最小化L _MSE为优化目标参数，采用AdamW优化器使损失函数达到最小，学习率为0.0001，设置最大迭代次数对图像进行训练，得到训练好的基于Transformer的Swin-Unet模型。

步骤4具体为：

步骤4.1，将待测彩色织物图像输入到步骤3训练好的基于Transformer的Swin-Unet模型，得到对应的重构图像；

步骤4.2，将输入的待测彩色织物图像和其对应的重构图像分别进行灰度化，如式(5)：

X _Gray＝0.2125·X _r+0.7154·X _g+0.0721·X _b (5)

式中，X _Gray表示灰度化后的图像；X _r、X _g、X _b分别为待测彩色织物图像或对应的重构图像对应的RGB三个不同颜色通道下的像素值；

步骤4.3，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间对应像素点灰度值之差的绝对值，如式(6)：

式中，X _Gray为灰度化后的待测织物图像，

为灰度化后的待测织物图像对应的重构图像，X _Residual为残差图像；

步骤4.4，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间的结构相似性，如式(7)：

式中，μ _X和

分别为待测织物图像和对应重构图像的灰度平均值，即灰度像素平均值，σ _X和

分别为待测织物图像和对应重构图像的灰度标准差，

为待测织物图像和对应重构图像之间的协方差，C ₁和C ₂是防止分母为0的常数，

为从亮度、对比度和结构信息这三个方面衡量两幅图像之间的相似性，以给定的步长在图像平面上移动滑动窗口，对重叠区域的相似性取平均值，得到结构相似性图像X _SSIM；

步骤4.5，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间梯度幅值相似性，如式(8)：

式中，i为图像中像素值的位置，X _GMS为梯度幅值相似性，c为防止分母为0的常数，

和

分别为灰度化后的待测织物图像和灰度化后的重构图像对应的梯度幅值图像，梯度幅值图像定义如式(9)：

式中，

为卷积操作，X _Gray为灰度化后的待测织物图像，

为与待测织物图像对应的灰度化后的重构图像，

和

分别为灰度化后的待测织物图像和灰度化后的重构图像对应的梯度幅值图像，h _x和h _y分别为Prewitt滤波器在水平方向和垂直方向上的滤波；

基于上述式(8)计算的每个像素点的梯度幅值相似性，可组成梯度幅值相似性图；

步骤4.6，将步骤4.5得到的梯度幅值相似性图采用归一化操作，如式(10)：

式中，

为梯度幅值相似性图中最小的像素值，

为梯度幅值相似性图中最大的像素值，

为归一化后的梯度幅值相似性图；

步骤4.7，将步骤4.3得到的残差图像和步骤4.4得到的结构相似性图像以及步骤4.6得到的归一化后的梯度幅值相似性图像进行点乘融合，如式(11)：

式中，X _Residual为残差图像，X _SSIM为结构相似性图像，

为归一化后的梯度幅值相似性图像，X _Fusion为乘法融合后的融合图像；

步骤4.8，将步骤4.7得到的融合图像加入高斯滤波，采用高斯卷积核对图像进行滑窗操作，得到滤波后的图像，如式(12)：

X _{Fusion&Gaussian}＝X _Fusion*G(x,y) (12)

式中，X _Fusion为融合图像，X _{Fusion&Gaussian}为经过高斯滤波后的融合图像，*为滑窗卷积操作，G(x,y)为高斯核函数，如式(13)：

式中，(x,y)为融合图像的像素坐标，σ _x和σ _y分别为融合图像的x轴、y轴方向的像素标准差；

步骤4.9，将步骤4.8得到的经过高斯滤波后的融合图像采用自适应阈值的方法确定阈值，并进行二值化处理得到二值图像，如式(14)：

式中，p为二值化图像的像素值，T为图像自适应阈值，μ和σ分别为经过高斯滤波后的融合图像的均值和方差，ε为方差的系数，若图像中某一点的像素值低于图像自适应阈值，像素值置为逻辑0，反之置为逻辑1；

步骤4.10，将经过步骤4.9得到的二值化图像进行闭运算操作得到最终检测结果图像，其中闭运算操作如式(15)：

式中，X _binary为步骤4.9得到的二值化图像，E为3×3的闭运算结构元素，

为图像膨胀操作，

为图像腐蚀操作，X _Closing为最终检测结果图像；

步骤4.11，将步骤4.10得到的最终检测结果图像来检测缺陷是否存在和定位缺陷区域，若最终检测结果图像存在像素值为255的白色区域，即可判定待检测的彩色纹理织物图像存在缺陷，缺陷区域为白色区域所在的位置。

步骤4.5中Prewitt滤波器大小为3×3，其在水平方向和垂直方向的滤波参数分别为

步骤4.7中的点乘融合为三个矩阵之间的逐元素相乘，步骤4.8中的高斯卷积核大小为3×3，步骤4.9中自适应阈值的方法中的参数ε根据经验设置为3.5。

本发明的有益效果是：

本发明在训练阶段无需缺陷样本和不需人工标记的情况下，所构建的模型能有效重构彩色纹理织物，通过计算待测彩色织物图像和对应重构图像之间的差异，并结合所提出的点乘融合、自适应阈值、闭运算操作的后处理方法，减少对缺陷区域漏检或过检。该方法的检测精度和速度能够满足彩色纹理织物生产检测的工艺要求，为实际服装行业提供了一种易于工程实践的自动缺陷检测方案。

附图说明

图1是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中彩色纹理织物训练集中的部分无缺陷样本图；

图2是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中彩色纹理织物测试集中的部分缺陷样本图；

图3是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中Swin-Unet模型结构图；

图4是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中Swin Transformer Block层的结构图；

图5是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中步骤3的流程示意图；

图6是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中步骤4的流程示意图；

图7是本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法中实验所用Swin-Unet模型与UDCAE模型进行检测的结果对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于自注意力的彩色纹理织物缺陷区域的检测方法，具体按照如下步骤实施：

步骤1，建立包括彩色纹理无缺陷图像的彩色纹理织物数据集，对彩色纹理织物数据集中的彩色纹理无缺陷图像叠加噪声；具体为：

步骤1.1，建立彩色纹理织物数据集，彩色纹理织物数据包括彩色纹理织物无缺陷图像训练集和彩色纹理织物有缺陷图像测试集如图1和图2所示，图1为彩色纹理织物训练集中的部分无缺陷图像，图2为彩色纹理织物测试集中的部分缺陷图像，彩色纹理织物数据集中的所有图像均整理成512×512×3大小的分辨率，图像格式为.jpg文件；数据集共准备了4种不同的彩色纹理织物无缺陷图像和有缺陷图像，分别为SP3、SP5、SP24和CL1；

为叠加噪声后的彩色纹理织物无缺陷图像。

步骤2，构建基于Transformer的Swin-Unet模型，具体为：

如图3所示，基于Transformer的Swin-Unet模型为一个基于Transformer的U型对称编码器-解码器结构，分别由编码器、瓶颈层、解码器依次连接组成，编码器的输入层为叠加噪声彩色纹理织物无缺陷图像，解码器的输出层为重构后的彩色纹理织物图像，编码器和解码器之间通过3个跳接层相互连接。

编码器由输入层、Patch Embedding层、3个Swin Transformer Block层和3个Patch Merging层连接组成，其中，Swin Transformer Block层和Patch Merging层交替相连，Patch Embedding层利用卷积核为4、步长为4、填充为0的卷积与Swin Transformer Block层相连，Swin Transformer Block层利用自注意力层与在Swin Transformer Block层之后的Patch Merging层相连，其中，自注意力层包括在Swin Transformer Block层中，自注意力层可以在Swin Transformer Block层中通过窗口多头自注意力层(W-MSA)和移位窗口多头自注意力层(SW-MSA)共同组成，Patch Merging层利用全连接层和通道归一化操作与在Patch Merging层之后的Swin Transformer Block层相连，其中，全连接层和通道归一化操作包括在Patch Merging层中，Patch Merging层通过多个全连接层、再经过通道归一化层组成，编码器的最后一个Patch Merging层与瓶颈层连接；

瓶颈层由2个Swin Transformer Block层依次连接组成，编码器的输出层通过通道归一化操作连接到瓶颈层的第一个Swin Transformer Block层，其中，通道归一化操作包括在编码器的输出层中，瓶颈层的第二个Swin Transformer Block层通过全连接层连接到解码器的输入层，其中，全连接层包括在第二个Swin Transformer Block层中；

Swin Transformer Block层是模型的基本单元，如图4所示，Swin Transformer Block层由LayerNorm(LN)层、窗口多头自注意力层(W-MSA)、移位窗口多头自注意力层(SW-MSA)、MLP层组成，其中，LayerNorm层是通道归一化操作，W-MSA和SW-MSA层都由2个全连接层组成，并在全连接层后加入了激活函数Softmax，SW-MSA层在激活函数Softmax后加入了移位和切片操作，MLP层由2个全连接层组成，并在2个全连接层间加入了激活函数GELU：

步骤3，如图5所示，将步骤1叠加噪声的彩色纹理织物无缺陷图像输入到步骤2构建的基于Transformer的Swin-Unet模型中进行训练，得到训练好的基于Transformer的Swin-Unet模型；具体为：

式中，

步骤4，如图6所示，使用步骤3训练好的基于Transformer的Swin-Unet模型对待测彩色纹理织物图像进行重构，输出对应的重构图像，然后根据重构图像判断并定位缺陷区域，具体为：

X _Gray＝0.2125·X _r+0.7154·X _g+0.0721·X _b (5)

式中，X _Gray为灰度化后的待测织物图像，

式中，μ _X和

分别为待测织物图像和对应重构图像的灰度标准差，

和

式中，

为卷积操作，X _Gray为灰度化后的待测织物图像，

为与待测织物图像对应的灰度化后的重构图像，

和

式中，

为梯度幅值相似性图中最小的像素值，

为梯度幅值相似性图中最大的像素值，

为归一化后的梯度幅值相似性图；

步骤4.7，将步骤4.3得到的残差图像和步骤4.4得到的结构相似性图像以及步骤4.6得到的归一化后的梯度幅值相似性图像进行点乘融合，即，三个矩阵之间的逐元素相乘，如式(11)：

式中，X _Residual为残差图像，X _SSIM为结构相似性图像，

X _{Fusion&Gaussian}＝X _Fusion*G(x,y) (12)

式中，X _Fusion为融合图像，X _{Fusion&Gaussian}为经过高斯滤波后的融合图像，*为滑窗卷积操作，G(x,y)为高斯核函数，高斯卷积核大小为3×3，如式(13)：

式中，p为二值化图像的像素值，T为图像自适应阈值，μ和σ分别为经过高斯滤波后的融合图像的均值和方差，ε为方差的系数，例如ε＝3.5，若图像中某一点的像素值低于图像自适应阈值，像素值置为逻辑0，反之置为逻辑1；

为图像膨胀操作，

为图像腐蚀操作，X _Closing为最终检测结果图像；

下面以具体实施例对本发明一种针对彩色纹理织物缺陷区域的检测方法进行说明：

实验装置准备：硬件环境配置为Intel(R)Core(TM)i7-6850K CPU；显卡为GeForce RTX 3090(24G)；内存128G。软件配置为：操作系统为Ubuntu 18.04.5LTS；深度学习框架为PyTorch1.7.1；环境基于Anaconda3和Python3.6.2。

建立彩色纹理织物数据集：根据彩色织物图案的复杂程度，将其分为三类不同纹理的织物图像：简单格子(SL)、条形格子(SP)和复杂格子(CL)。实验准备了4种不同图案的彩色纹理织物数据集，分别为SP3、SP5、SP24和CL1，每种数据集包含用于训练的无缺陷样本和用于测试的有缺陷样本，所有图像均整理成512×512×3大小的分辨率，附图1为彩色纹理织物训练集中的部分无缺陷图像，附图2为彩色纹理织物测试集中的部分缺陷图像。

实验评价指标：采用像素级评价指标中的综合评价指标(F1-measure，F1)、平均交并比(IoU)作为评价指标。F1-measure可更加全面地评估检测性能，IoU表示检测到缺陷区域和真实缺陷区域的靠近程度，评价指标定义如式(16-17)：

式中，TP表示缺陷区域被成功检出的像素个数；FP表示无缺陷区域被误检为缺陷区域的像素个数；FN表示有缺陷区域未被检出的像素个数。

实验过程：首先，建立彩色纹理织物数据集，其中包括彩色纹理织物无缺陷图像训练集和有缺陷图像测试集；其次，构建一种基于Transformer的Swin-Unet模型；接着，训练模型使模型具有重构正常样本并修复缺陷区域的能力；最后，对待测彩色纹理织物图像进行缺陷检测，通过计算待测彩色纹理织物图像和对应重构图像之间的差异，并结合提出的后处理方法，实现对缺陷区域的检测并定位。

实验结果定性分析：本申请提出的Swin-Unet模型与UDCAE模型的检测结果进行了定性对比，部分检测结果如图7所示；通过附图7可见，Swin-Unet模型能够准确地检测出4种数据集的缺陷区域，UDCAE模型虽然也能够检测出缺陷区域，但存在许多过检的情况，相比之下，Swin-Unet模型能够更精确地检测并定位缺陷区域，且检测结果更接近真实缺陷区域。

实验结果定量分析：本申请提出的Swin-Unet模型与UDCAE模型的检测结果在评价指标F1和IoU上进行了定量对比，F1和IoU的值越大表明检测结果越好，对比结果如表1所示。

表1 UDCAE和Swin-Unet模型检测结果不同评价指标对比

通过表1可知，在这四个数据集上，两个模型评价指标的数值相差均在5％以上，Swin-Unet模型在F1和IoU两项评价指标下均取得了比UDCAE模型更高的值，UDCAE模型由于存在大量过检，导致F1和IoU的值较低。因此，在F1和IoU二项评价指标下，Swin-Unet模型比UDCAE模型效果更好。

实验总结：本发明提出的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，实质属于是一种基于Transformer的Swin-Unet的模型，在无需缺陷样本和不需人工标记的情况下，所构建的无监督模型能够有效重构正常样本并修复缺陷区域，通过计算待测彩色织物图像和对应重构图像之间的差异，并结合改进的后处理方法，实现对缺陷区域快速且准确地检测和定位。该方法无需大量人工标注的缺陷样本，可以有效避开缺陷样本数量稀缺、缺陷种类不平衡、人工构造特征成本高等实际问题。实验结果表明，该方法的检测精度和速度能够满足彩色纹理织物生产检测的工艺要求，为实际服装行业提供了一种易于工程实践的自动缺陷检测方案。

Claims

一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，具体按照如下步骤实施：

步骤1，建立包括彩色纹理无缺陷图像的彩色纹理织物数据集，对彩色纹理织物数据集中的彩色纹理无缺陷图像叠加噪声；

步骤2，构建基于Transformer的Swin-Unet模型；

步骤3，将步骤1叠加噪声的彩色纹理织物无缺陷图像输入到步骤2构建的基于Transformer的Swin-Unet模型中进行训练，得到训练好的基于Transformer的Swin-Unet模型；

步骤4，使用步骤3训练好的基于Transformer的Swin-Unet模型对待测彩色纹理织物图像进行重构，输出对应的重构图像，然后根据重构图像判断并定位缺陷区域。
根据权利要求1所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述步骤1具体为：

步骤1.1，建立彩色纹理织物数据集，彩色纹理织物数据包括彩色纹理织物无缺陷图像训练集和彩色纹理织物有缺陷图像测试集，彩色纹理织物数据集中的所有图像均整理成512×512×3大小的分辨率，图像格式均为.jpg；

步骤1.2，对步骤1.1中的彩色纹理织物无缺陷图像训练集中的彩色纹理织物无缺陷图像叠加噪声，如式(1)所示：

式中，X为彩色纹理织物无缺陷图像，N(0,0.1)表示服从均值为0、方差为0.1的标准正态分布的高斯噪声，
为叠加噪声后的彩色纹理织物无缺陷图像。
根据权利要求2所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述步骤2中的基于Transformer的Swin-Unet模型具体为：

所述基于Transformer的Swin-Unet模型为一个基于Transformer的U型对称编码器-解码器结构，分别由编码器、瓶颈层、解码器依次连接组成，编码器的输入层为叠加噪声彩色纹理织物无缺陷图像，解码器的输出层为重构后的彩色纹理织物图像，编码器和解码器之间通过3个跳接层相互连接。
根据权利要求3所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述编码器由输入层、Patch Embedding层、3个Swin Transformer Block层和3个Patch Merging层连接组成，其中，Swin Transformer Block层和Patch Merging层交替相连，所述Patch Embedding层利用卷积核为4、步长为4、填充为0的卷积与Swin Transformer Block层相连，所述Swin Transformer Block层利用自注意力层与在Swin Transformer Block层之后的Patch Merging层相连，其中，自注意力层包括在所述Swin Transformer Block层中，所述Patch Merging层利用全连接层和通道归一化操作与在Patch Merging层之后的Swin Transformer Block层相连，其中，全连接层和通道归一化操作包括在所述Patch Merging层中，编码器的最后一个所述Patch Merging层与所述瓶颈层连接；

所述瓶颈层由2个Swin Transformer Block层依次连接组成，编码器的输出层通过通道归一化操作连接到瓶颈层的第一个Swin Transformer Block层，其中，通道归一化操作包括在所述编码器的输出层中，瓶颈层的第二个Swin Transformer Block层通过全连接层连接到解码器的输入层，其中，全连接层包括在所述第二个Swin Transformer Block层中；

所述解码器由3个Patch Expanding层、3个Swin Transformer Block层、Patch Projection层、输出层连接组成，解码器的第一个所述Patch Expanding层与所述瓶颈层的第二个所述Swin Transformer Block层连接，在解码器中，Patch Expanding层和Swin Transformer Block层交替相连，所述Patch Expanding层利用全连接层和通道归一化操作与Swin Transformer Block层相连，所述Swin Transformer Block层利用自注意力层与Patch Projection层连接，所述Patch Projection层利用卷积核为1、步长为1、填充为0的卷积与输出层相连；

所述编码器的3个Swin Transformer Block层与解码器的3个Swin Transformer Block层一一对应连接。
根据权利要求4所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述Swin Transformer Block层由LayerNorm层、窗口多头自注意力层、移位窗口多头自注意力层、MLP层组成，所述LayerNorm层是通道归一化操作，所述窗口多头自注意力层和移位窗口多头自注意力层都由2个全连接层组成，并在全连接层后加入了激活函数Softmax，移位窗口多头自注意力层在激活函数Softmax后加入了移位和切片操作，所述MLP层由2个全连接层组成，并在2个全连接层间加入了激活函数GELU，按照以下方式连接：

输入特征z ^l-1先经过LayerNorm层，再经过窗口多头自注意力层，接着经过相加操作得到
接着经过LayerNorm层、MLP层和相加操作得到z ^l，然后再经过LN层、移位窗口多头自注意力层和相加操作得到
最后经过LayerNorm层、MLP层和相加操作得到输出特征z ^l+1，过程如式(2)：

式中，LN()表示经过LayerNorm层处理输出，MLP()表示经过MLP层处理输出，W-MSA()表示经过窗口多头自注意力层处理输出、SW-MSA()表示经过移位窗口多头自注意力层处理输出，LayerNorm层为通道归一化操作。
根据权利要求5所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述窗口多头自注意力层和移位窗口多头自注意力层是在每个窗口中计算自注意力Attention(Q,K,V)，如式(3)：

式中，Q、K、V分别表示查询矩阵、键矩阵、值矩阵，d表示矩阵的维度，B表示偏置矩阵，SoftMax为激活函数。
根据权利要求6所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述编码器的第一个Swin Transformer Block层中MLP层神经元个数前者为48、后者为192，编码器的第二个Swin Transformer Block层中MLP层神经元个数前者为96、后者为384，编码器的第三个Swin Transformer Block层中MLP层神经元个数前者为192、后者为768，所述瓶颈层的Swin Transformer Block层中MLP层神经元个数前者和后者分别都为384和1536，所述解码器的每个Swin Transformer Block层中MLP层神经元个数与编码器的MLP层中相对应的神经元个数相等。
根据权利要求7所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述步骤3具体为：

步骤3.1，将叠加噪声的彩色纹理织物无缺陷图像输入到步骤2构建的基于Transformer的Swin-Unet模型中得到重构图像；

步骤3.2，对步骤3.1得到的重构图像与其对应未叠加噪声的彩色纹理织物图像计算均方差损失，如式(4)：

式中，
为重构图像，X(i)为重构图像对应未叠加噪声的彩色纹理织物图像，n为未叠加噪声的彩色纹理织物图像的个数，L _MSE为损失函数；

步骤3.3，以最小化L _MSE为优化目标参数，采用AdamW优化器使损失函数达到最小，学习率为0.0001，设置最大迭代次数对图像进行训练，得到训练好的基于Transformer的Swin-Unet模型。
根据权利要求8所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述步骤4具体为：

步骤4.1，将待测彩色织物图像输入到步骤3训练好的基于Transformer的Swin-Unet模型，得到对应的重构图像；

步骤4.2，将输入的待测彩色织物图像和其对应的重构图像分别进行灰度化，如式(5)：

X _Gray＝0.2125·X _r+0.7154·X _g+0.0721·X _b (5)

式中，X _Gray表示灰度化后的图像；X _r、X _g、X _b分别为待测彩色织物图像或对应的重构图像对应的RGB三个不同颜色通道下的像素值；

步骤4.3，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间对应像素点灰度值之差的绝对值，如式(6)：

式中，X _Gray为灰度化后的待测织物图像，
为灰度化后的待测织物图像对应的重构图像，X _Residual为残差图像；

步骤4.4，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间的结构相似性，如式(7)：

式中，μ _X和
分别为待测织物图像和对应重构图像的灰度像素平均值，σ _X和
分别为待测织物图像和对应重构图像的灰度标准差，
为待测织物图像和对应重构图像之间的协方差，C ₁和C ₂是防止分母为0的常数，
为从亮度、对比度和结构信息这三个方面衡量两幅图像之间的相似性，以给定的步长在图像平面上移动滑动窗口，对重叠区域的相似性取平均值，得到结构相似性图像X _SSIM；

步骤4.5，计算步骤4.2中灰度化后的待测织物图像和对应的重构图像之间梯度幅值相似性，如式(8)：

式中，i为图像中像素值的位置，X _GMS为梯度幅值相似性，c为防止分母为0的常数，
和
分别为灰度化后的待测织物图像和灰度化后的重构图像对应的梯度幅值图像，梯度幅值图像定义如式(9)：

式中，
为卷积操作，X _Gray为灰度化后的待测织物图像，
为与待测织物图像对应的灰度化后的重构图像，
和
分别为灰度化后的待测织物图像和灰度化后的重构图像对应的梯度幅值图像，h _x和h _y分别为Prewitt滤波器在水平方向和垂直方向上的滤波；

基于式(8)计算的每个像素点的梯度幅值相似性，组成梯度幅值相似性图；

步骤4.6，将步骤4.5得到的梯度幅值相似性图采用归一化操作，如式(10)：

式中，
为梯度幅值相似性图中最小的像素值，
为梯度幅值相似性图中最大的像素值，
为归一化后的梯度幅值相似性图；

步骤4.7，将步骤4.3得到的残差图像和步骤4.4得到的结构相似性图像以及步骤4.6得到的归一化后的梯度幅值相似性图像进行点乘融合，如式(11)：

式中，X _Residual为残差图像，X _SSIM为结构相似性图像，
为归一化后的梯度幅值相似性图像，X _Fusion为乘法融合后的融合图像；

步骤4.8，将步骤4.7得到的融合图像加入高斯滤波，采用高斯卷积核对图像进行滑窗操作，得到滤波后的图像，如式(12)：

X _{Fusion&Gaussian}＝X _Fusion*G(x,y) (12)

式中，X _Fusion为融合图像，X _{Fusion&Gaussian}为经过高斯滤波后的融合图像，*为滑窗卷积操作，G(x,y)为高斯核函数，如式(13)：

式中，(x,y)为融合图像的像素坐标，σ _x和σ _y分别为融合图像的x轴、y轴方向的像素标准差；

步骤4.9，将步骤4.8得到的经过高斯滤波后的融合图像采用自适应阈值的方法确定阈值，并进行二值化处理得到二值图像，如式(14)：

式中，p为二值化图像的像素值，T为图像自适应阈值，μ和σ分别为经过高斯滤波后的融合图像的均值和方差，ε为方差的系数，若图像中某一点的像素值低于图像自适应阈值，像素值置为逻辑0，反之置为逻辑1；

步骤4.10，将经过步骤4.9得到的二值化图像进行闭运算操作得到最终检测结果图像，其中闭运算操作如式(15)：

式中，X _binary为步骤4.9得到的二值化图像，E为3×3的闭运算结构元素，
为图像膨胀操作，
为图像腐蚀操作，X _Closing为最终检测结果图像；

步骤4.11，将步骤4.10得到的最终检测结果图像来检测缺陷是否存在和定位缺陷区域，若最终检测结果图像存在像素值为255的白色区域，即可判定待检测的彩色纹理织物图像存在缺陷，缺陷区域为白色区域所在的位置。
根据权利要求9所述的一种基于自注意力的彩色纹理织物缺陷区域的检测方法，其特征在于，所述步骤4.5中Prewitt滤波器大小为3×3，其在水平方向和垂直方向的滤波参数分别为
所述步骤4.7中的点乘融合为三个矩阵之间的逐元素相乘，所述步骤4.8中的高斯卷积核大小为3×3，所述步骤4.9中自适应阈值的方法中的参数ε根据经验设置为3.5。