WO2023019636A1

WO2023019636A1 - 一种基于深度学习网络的瑕疵点识别方法

Info

Publication number: WO2023019636A1
Application number: PCT/CN2021/115494
Authority: WO
Inventors: 王慧燕; 姜欢
Original assignee: 浙江工商大学
Priority date: 2021-08-18
Filing date: 2021-08-31
Publication date: 2023-02-23
Also published as: CN113673594A; CN113673594B

Abstract

一种基于深度学习网络的瑕疵点识别方法。该方法首先将瑕疵的图片通过Resnet‑50特征提取网络，提取瑕疵的特征，然后通过改进的transformer网络对瑕疵进行检测，识别出瑕疵。该方法通过对DETR网络的transformer网络模块进行改进，能够提升速度的同时，将瑕疵能够更精确地检测出来。

Description

一种基于深度学习网络的瑕疵点识别方法

技术领域

本发明属于计算机视觉中的图像处理和目标检测领域，涉及一种基于深度学习网络来检测瑕疵的识别方法。

背景技术

传统的目标检测是通过生成建议框，接着提取目标框内的特征、最后进行分类的技术。传统的目标检测算法在速度和精度上都存在瓶颈，随着深度学习神经网络算法的快速发展，视频和图像中的目标检测任务也得到了快速发展。

瑕疵点检测是工业界一项很重要的工作，目前主要依靠工人手工进行瑕疵挑选，非常耗时，人力成本高，同时要求工人要有丰富的经验。现有基于深度学习的目标检测可以分成如下两类：one-stage和two-stage的目标检测。上述两种方向的算法，前者具有较快的速度，而后者能够有较好的精度。但上述两种方向上的算法，在对小物体的检测均不能达到一个理想的效果，本发明在深度学习one-stage模型的基础上，对已有算法进行改进，提出一种适用于瑕疵点的检测方法，提升对厘米级别的瑕疵小目标的检出率，同时提升检测速度。

发明内容

本发明针对现有技术的不足，提供了一种基于深度学习网络的瑕疵点识别方法。

本发明解决技术问题所采取的技术方案为：

本发明包括以下步骤：

步骤1、拍摄包含瑕疵点的视频图像序列，将其输入至特征提取分支进行特征提取。

步骤2、将特征提取分支输出的特征图经过展平，通过添加位置信息分支加入位置编码信息，输入至transformer分支中的编码器transformer-encoder。

所述的编码器transformer-encoder中的自注意力层Self-Attention进行了改进，具体是：在自注意力层Self-Attention中增加了一个用于增强局部性且基于位置的高斯分布Attention分支。

同时还对输入至编码器transformer-encoder的Key和Value矩阵进行卷积降维，用于提升自注意力层Self-Attention的计算速度。

步骤4、将编码器transformer-encoder的最后一层输出，作为transformer分支中解码器transformer-decoder的输入，并把可学习的矩阵object queries输入到解码器transformer-decoder中。

步骤5、将解码器transformer decoder的结果输入到前馈神经网络预测分支，分别得到分类分支和回归分支，其中分类分支通过全连接进行分类，回归分支通过多层感知机进行边界框的回归。

步骤6、对网络进行训练，训练时，分类损失为交叉熵损失，回归损失包括L _iou损失和L1损失；

所述网络由特征提取分支、添加位置信息分支、transformer分支和前馈神经网络预测分支组成。

步骤7、使用训练好的网络进行前向推理时，计算模型预测图像中的瑕疵点。

本发明的有益效果：

本发明在encoder(编码器)中计算Self-Attention(自注意力)层时，并行地计算一个增强局部性的基于位置的高斯分布Attention，然后叠加到本身的Attention上，从而能够让Self-Attention(自注意力)层增加局部性，能够更好地学习到厘米级别的瑕疵的特征，更加适合对瑕疵小目标的检测。在只增加一个矩阵的加法，不影响速度的情况下，提高了对瑕疵小目标的检测的精确度。

考虑到影响transformer分支速度的主要原因是Attention公式计算复杂，为了减少计算复杂度，本发明采用3*3的卷积核，步长为2的卷积，减少K、V矩阵中的参数；通过transformer分支后，输出到前馈神经网络预测分支中，同时进行分类和预测框的回归，本发明无需其他辅助设备即可实现高精度的瑕疵检测。

附图说明

为了更清楚的展示本发明实施例中的网络结构以及训练和前向推理过程，下面将对实施例中所需要使用的附图做以简单地介绍。

图1为整体网络结构图；

图2为transformer分支结构图；

图3为特征图转化矩阵和Self-Attention(自注意力)层结构图；

图4为本发明方法进行训练的流程图；

图5为本发明方法进行前向推理的流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明提出了一种基于深度学习网络的瑕疵识别方法。其网络框架结构如图1所示，主要包含四个分支，分别为特征提取分支(Resnet-50)，添加位置信息分支(Positional encoding)，transformer分支(transformer encoder和decoder)，前馈神经网络预测分支(FNN)。

网络训练过程如图4所示。其简要步骤如下：一、通过特征提取网络获得瑕疵的特征图；二、对提取的特征图展平后加入位置编码；三、通过transformer分支改进的编码器encoder；四、通过transformer分支的解码器decoder；五、输入到前馈神经网络预测分支(FNN)进行回归和分类；六、计算分类交叉熵损失L _Class、L1损失L ₁和交并比损失L _iou，最后计算匈牙利损失函数；七、反向传播更新网络参数。

网络前向推理过程如图5所示。其简要步骤如下：一、通过特征提取网络获得瑕疵的特征图；二、对提取的特征图展平加入位置编码；三、通过transformer分支改进的编码器encoder；四、通过transformer分支的解码器decoder；五、输入到前馈神经网络预测分支(FNN)进行回归和分类；六、使用训练好的网络进行前向推理时，预测出瑕疵位置以及瑕疵的类别。

实施例：

一种基于深度学习网络的瑕疵识别方法，包括如下步骤：

步骤1、拍摄包含瑕疵点的视频图像序列，将其输入Resnet-50网络进行特征提取，具体的：

首先将图片输入到Resnet-50特征提取网络，然后得到特征图为 7*7*2048，再通过一个卷积核大小为1，步长为1，卷积个数为256的卷积，降低特征图的通道数，通过卷积后的特征图为7*7*256。

步骤2、将输出得到的特征图经过展平，加入位置编码信息，放入到transformer-encoder(编码器)中，具体的：

展平操作如下：将特征图由7*7*256的形状变成49*256，即把H*W*C变成(H*W)*C，将高和宽压缩成同一个维度，通过展平后的特征图，记作X；

位置编码操作如下：将特征图49*256中的256维度分为x方向和y反向，其中前128维是x方向的，后128维是y方向的。先对x方向进行位置编码，其中位置编码函数如下，把公式中的d取256，k为当前的位置带入，x为特征图中对应的值，如果是偶数则使用sinx函数，为奇数使用cosx函数；再对y方向加入位置编码。计算完之后的矩阵，在步骤3、4中加入到Query、Key矩阵中。

其中，x代表当前的像素点在图像行或列中的位置，2k和2k+1分别代表当前位置是偶数还是奇数，d代表向量的维度。

步骤3、在transformer-encoder(编码器)中的Self-Attention(自注意力)层中加入高斯分布的Attention分支，并对Key和Value矩阵进行卷积降维。

如图2所示，transformer-encoder(编码器)结构由下之上分别是：Self-Attention(自注意力)层、Add&Norm层、FNN层、Add&Norm层。其具体流程如下：

第一步，将特征图X转化为Q、K、V矩阵后，这一步具体的如图3的左侧所示，再经过Self-Attention(自注意力)层，Self-Attention(自注意力)层具体结构如图3右侧所示。

第二步，通过Add&Norm层，其中Add操作就是把Self-Attention(自注意力)层计算的结果与原特征图X直接相加，类似于残差结构，Norm操作，把Add操作后的结果进行归一化处理。

第三步，通过FNN层，具体的，先通过一个全连接层，将通道数从256变成2048，再通过Relu激活函数，dropout设置为0.1，最后再通过一个全连接层，将通道数从2048变成256，dropout设置为0.1。

第四步，再通过Add&Norm层，具体的与第二步类似。

本实施例在编码器encoder中的Self-Attention(自注意力)层之前，对K、V矩阵进行改进，如图3左侧所示。具体的：根据输入的特征图X，分别通过三个线性层(W ^Q、W ^K、W ^V)，得到对应的Q、K、V三个矩阵大小均为49*256；对Q、K矩阵加上步骤二得到的位置编码，将K、V展成7*7*256后进行卷积，这里采用3*3的卷积核，卷积步长为2，卷积核个数与输入通道一致，然后将得到的3*3*256的卷积展平，在先前的实验中发现，Q、K、V矩阵是低秩，也就说Q、K、V矩阵实际训练中的维度并没这么高，那么本实施例用卷积处理，并不会丢失很多的信息。

改进前Q、K、V矩阵的大小均为H*W*C，则计算复杂度为 O((H*W) ²*C)，改进后的计算复杂度为O(H*W*h*w*C)，其中H*W＝49，而通过卷积后h*w＝9，与改进前的Attention相比，计算复杂度下降了5倍左右，极大提升了Self-Attention(自注意力)层的计算速度。

本实施例在encoder(编码器)中的Self-Attention(自注意力)层添加一个与高斯分布的Attention的分支，如图3右侧；增加的原因在于：一块瑕疵往往出现在当前像素点及其周围的像素点，虽然通过Resnet-50的特征提取，能够增加当前像素点周围的局部性，但是随着网络深度越深，对局部性感知不敏感，这不利于对小瑕疵对检测。

本实施例计算本身的Attention的Q、K的Matmul(矩阵乘法)和softmax函数的同时，可以计算Q、K矩阵的高斯Attention，接着将两者的结果相加，通过Norm层对结果进行归一化，最后，与V矩阵相乘得到最终的Attention矩阵。

本实施例高斯分布的Attention的分支中采用标准正态分布的标准差σ ²＝1/(2π)，概率密度函数为

其中s为两个q ⁱ(Q矩阵中的行向量)和k ⁱ(K矩阵中的行向量)个向量之间的距离。由于只做了一个矩阵的加法，不影响速度的情况下，提高对瑕疵的检测的精确度。

本实施例设置6个encoder(解码器)，对每个encoder(解码器)的Self-Attention都执行如上两步操作，将最后得到的结果输入到decoder中。

步骤4、从transformer的encoder(编码器)的最后一层输出Q输入到decoder(解码器)中，并把object queries(可学习的矩阵)输入到decoder中。具体的：

object queries是一个随机初始化大小为100*256的矩阵，其中100为预先设定的目标个数，在训练的过程，它会学习encoder(编码器)输入的特征编码，然后decoder(解码器)将这100个查询转换为100个目标输出，即学习目标和整张图的内容之间的关系，最后将输出到FNN(前馈神经网络预测分支)，进行分类和预测。

其中，transformer-decoder(解码器)结构如图2的右半部分虚线框所示，其结构由下之上分别是：Self-Attention(自注意力)层、Add&Norm层、Self-Attention层、Add&Norm层、FNN层、Add&Norm层。其流程具体如下：

第一步，将object queries(可学习的矩阵)转化为Q、K、V矩阵后，Q、K矩阵加上object queries(可学习的矩阵)用于学习目标与全局的关系，然后将Q、K、V矩阵输入Self-Attention(自注意力)层；

第二步，通过Add&Norm层；

第三步，Self-Attention(自注意力)中的Q分别由上一步的输出结果和object queries(可学习的矩阵)相加，这里的K和V矩阵与encoder(编码器)类似，将encoder(编码器)的结果Attention矩阵通过线性层得到K、V，这里不对K、V降维。这里要注意的是K矩阵需要加上位置编码，V不需要；

第四步，通过Add&Norm层；

第五步，通过FNN层，这里的FNN层的设置与encoder(编码器) 一致；

第六步，通过Add&Norm层。

步骤5、transformer decoder(解码器)的结果输入到两个分支，分类分支通过全连接进行分类，回归分支通过多层感知机进行边界框的回归，具体的：

decoder(解码器)最终会输出6*100*256，其中6代表了6个decoder(解码器)，本实施例只需要取最后一个decoder(解码器)的结果，在训练时，因为对其余5个decoder(解码器)加上同样的loss(损失函数)监督，对效果会有所提升，所以训练时会输出6个decoder(解码器)的结果。对分类这个分支直接采用全连接将通道数从256变成n，输出100*n，其中n代表瑕疵数据集的瑕疵类别数目；对预测框采用3层的MLP，输入通道数为256，隐藏层为256，输出层为4，输出为100*4。

步骤6、网络训练时，回归的损失函数由L _iou和L1损失函数组成，L _box＝λ _iou*L _iou+λ _L1*L ₁，经实验得出λ _iou取2.0，λ _L1取5.0效果比较理想。分类损失函数为交叉熵损失函数，最后将这个两个损失函数输入到匈牙利损失函数中，计算损失。匈牙利损失函数如下所示：

其中c _i是类别标签，

为预测的类别，

中c _i(类别的标签)不能为空集，如果没有类别，那么就不需要计算后面的预测框回归。其中L _box具体如下：

其中

为预测类别的预测框，b _i为预测类别的真实边框，

为c _i类的概率。

步骤7、使用训练好的网络进行前向推理时，预测出瑕疵位置以及瑕疵的类别。

Claims

一种基于深度学习网络的瑕疵点识别方法，其特征在于该方法包括以下步骤：

步骤1、拍摄包含瑕疵点的视频图像序列，将其输入至特征提取分支进行特征提取；

步骤2、将特征提取分支输出的特征图经过展平，通过添加位置信息分支加入位置编码信息，输入至transformer分支中的编码器transformer-encoder；

所述的编码器transformer-encoder中的自注意力层Self-Attention进行了改进，具体是：在自注意力层Self-Attention中增加了一个用于增强局部性且基于位置的高斯分布Attention分支；

同时还对输入至编码器transformer-encoder的Key和Value矩阵进行卷积降维，用于提升自注意力层Self-Attention的计算速度；

步骤4、将编码器transformer-encoder的最后一层输出，作为transformer分支中解码器transformer-decoder的输入，并把可学习的矩阵object queries输入到解码器transformer-decoder中；

步骤5、解码器transformer decoder的结果输入到前馈神经网络预测分支，分类分支和回归分支，其中分类分支通过全连接进行分类，回归分支通过多层感知机进行边界框的回归；

步骤6、对网络进行训练，训练时，分类损失为交叉熵损失，回归损失包括L _iou损失和L1损失；

所述网络由特征提取分支，添加位置信息分支，transformer分支，前馈神经网络预测分支组成；

步骤7、使用训练好的网络进行前向推理时，计算模型预测图像中的瑕疵点。
根据权利要求1所述的一种基于深度学习网络的瑕疵点识别方法，其特征在于：所述的特征提取分支采用Resnet-50网络。
根据权利要求2所述的一种基于深度学习网络的瑕疵点识别方法，其特征在于：卷积降维过程中采用3*3的卷积核，卷积步长为2，卷积核个数与输入通道一致。
根据权利要求1所述的一种基于深度学习网络的瑕疵点识别方法，其特征在于：高斯分布Attention分支的输入为Query矩阵和卷积降维后的Key矩阵。
根据权利要求1所述的一种基于深度学习网络的瑕疵点识别方法，其特征在于：回归的损失函数L _box由L _iou损失函数和L1损失函数组成，L _box＝2*L _iou+5*L1。