WO2024051686A1

WO2024051686A1 - 缺陷检测模型的压缩训练方法和装置

Info

Publication number: WO2024051686A1
Application number: PCT/CN2023/116994
Authority: WO
Inventors: 韩旭; 颜聪
Original assignee: 东声(苏州)智能科技有限公司
Priority date: 2022-09-05
Filing date: 2023-09-05
Publication date: 2024-03-14
Also published as: CN115147418A; CN115147418B

Abstract

本申请公开了一种缺陷检测模型的压缩训练方法和装置，通过分割标注得到每个样本图像的分割标注因子矩阵，将每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，提取第一缺陷检测模型中目标卷积层输出的第一特征图以及第二缺陷检测模型中对应的目标卷积层输出的第二特征图，利用分割标注因子矩阵计算第一特征图和第二特征图的对应特征向量之间的的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数。本实施例可以提升压缩后的缺陷检测模型对产品外观微小缺陷的检测准确率。

Description

缺陷检测模型的压缩训练方法和装置

相关申请的交叉引用

本申请要求于2022年09月05日提交中国国家知识产权局的申请号为202211075557.2、名称为“缺陷检测模型的压缩训练方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器视觉的缺陷检测技术领域，具体而言，涉及一种缺陷检测模型的压缩训练方法和装置。

背景技术

随着图像处理和人工智能技术的发展，业内通常采用训练深度学习缺陷检测模型部署至生产线工位上的工业智能相机用于产品表面缺陷检测。由于深度学习缺陷检测模型通常网络结构复杂，计算量大，需要较高的硬件算力环境，不适用于直接部署至低算力环境的移动设备，例如手持相机等。

为了解决在低算力的移动设备中部署基于深度学习的缺陷检测模型，从而可以基于手持相机等移动设备进行产品表面缺陷的快速检测，业内通常采用对模型进行剪枝、量化、知识蒸馏等技术进行模型压缩，从而得到轻量级的深度学习缺陷检测模型进行部署和加快推理。知识蒸馏是利用大规模的教师模型的监督信息(即知识)来训练一个轻量化的学生模型，以期达到较好的性能和精度。大规模的教师模型的监督信息可以来自教师模型的输出特征知识或中间层特征知识。

但是，现实的产品外观缺陷检测工业实践中，常常面临产品外观缺陷样本数量少且缺陷尺寸微小的问题，现有的通过模型的知识蒸馏等压缩方式得到轻量化的深度学习缺陷检测模型，对于这种较少缺陷样本量下的产品外观微小缺陷的检测准确率有所下降。因此，急需一种改进的方法来解决这个问题，实现在低算力的移动设备上使用深度学习缺陷检测模型准确、快速地进行产品外观缺陷的分类检测。

发明内容

有鉴于此，本申请提出一种缺陷检测模型的压缩训练方法和装置，从而提高蒸馏压缩得到的缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，提升压缩后的缺陷检测模型对产品外观微小缺陷的检测准确率。

第一方面，本申请一实施例提出一种缺陷检测模型的压缩训练方法，包括：

对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数；

基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

在可选的实施方式中，所述分割标注因子矩阵用于标注每个样本图像中各像素点对应的因子值，其中针对每个样本图像的缺陷区域的像素点的因子值与针对每个样本图像的非缺陷区域的像素点的因子值互为相反数。

在可选的实施方式中，所述计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，包括：

计算所述第一特征图和第二特征图的对应特征向量各自的归一化向量的平方欧式距离；

计算所述平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离。

在可选的实施方式中，所述计算所述平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，包括：

将所述分割标注因子矩阵进行尺寸变换操作，得到对齐到所述第一特征图和第二特征图的尺寸大小的变换后分割标注因子矩阵；

计算所述平方欧式距离与所述变换后分割标注因子矩阵中对应的元素的乘积，从而得到所述第一特征图和第二特征图的对应特征向量之间的修正距离。

在可选的实施方式中，所述方法还包括：

在将所述每个样本图像输入所述第二缺陷检测模型后，获得所述第二缺陷检测模型输出的缺陷分类概率向量；

计算所述缺陷分类概率向量与所述样本图像的分类标注向量之间的交叉熵损失，作为第二损失函数；

计算所述第一损失函数和第二损失函数的加权和作为总损失函数，基于最小化所述总损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

在可选的实施方式中，所述方法还包括：针对所述样本图像数据集中的每一批次的多个样本图像，计算每个样本图像输入所述第一缺陷检测模型和第二缺陷检测模型的总损失函数的平均值，基于最小化所述总损失函数的平均值，对所述第二缺陷检测模型进行迭代训练。

在可选的实施方式中，所述方法还包括：如果所述第一特征图与第二特征图的尺寸大小不一致，则对所述第一特征图进行下采样或者对所述第二特征图进行上采样，将所述第一特征图与第二特征图的尺寸大小对齐。

第二方面，本申请另一实施例还提出一种缺陷检测模型的压缩训练方法，包括：

将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数；

第三方面，本申请一实施例提出一种缺陷检测模型的压缩训练装置，包括：

分割标注单元，用于对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

特征提取单元，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

第一损失评估单元，用于计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数；

第一迭代训练单元，用于基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

第四方面，本申请另一实施例还提出一种缺陷检测模型的压缩训练装置，包括：

特征提取单元，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

第一损失评估单元，用于依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数；

本申请实施例至少可以达到如下有益效果：通过对第一特征图和第二特征图在全部特征向量之间的距离以分割标注因子矩阵中的因子值进行修正，使得基于最小化第一损失函数对缺陷检测模型进行压缩训练时，提高蒸馏压缩得到的缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，并且提升压缩后的缺陷检测模型对产品外观微小缺陷的检测准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本申请的某些实施例，而不应被看作是对本申请范围的限制。

图1是根据本申请一实施例的缺陷检测模型的压缩训练方法的流程示意图；

图2是根据本申请一实施例的第一缺陷检测模型ResNet101和第二缺陷检测模型ResNet18的网络结构示意图；

图3是根据本申请另一实施例的缺陷检测模型的压缩训练方法的流程示意图；

图4是根据本申请另一实施例的缺陷检测模型的压缩训练方法的流程示意图；

图5是根据本申请一实施例的缺陷检测模型的压缩训练装置的结构示意图；

图6是根据本申请另一实施例的缺陷检测模型的压缩训练装置的结构示意图；

图7是根据本申请另一实施例的缺陷检测模型的压缩训练装置的部分结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例的附图，对本申请实施例中的技术方案进行清楚、完整地描述。然而应当理解，所描述的实施例仅仅是本申请的部分示例性实施例，而不是全部实施例，因此以下对本申请实施例的详细描述并非旨在限制要求保护的本申请的范围。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等仅是用于区别描述类似的对象，而不是用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。

如前所述，在产品外观缺陷检测的工业实践中，常常面临产品外观缺陷样本数量少且缺陷尺寸微小的问题，现有的通过模型的知识蒸馏压缩得到轻量化的深度学习缺陷检测模型的方案，对于这种较少缺陷样本量下的产品外观微小缺陷的检测准确率有所下降。这种场景下，由于作为教师模型的预训练的第一深度学习缺陷检测模型经过较多的非缺陷图像数据集和较少的缺陷图像数据集训练，该模型对非缺陷图像的特征感知能力要强于对包含微小缺陷的缺陷图像的特征感知能力，使得该模型对包含微小缺陷的缺陷图像提取的特征整体上与对非缺陷图像提取的特征区分度并不明显。在通过该教师模型进行知识蒸馏的训练学习得到轻量化的第二深度学习缺陷检测模型的过程中，该第二深度学习缺陷检测模型学习教师模型输出的特征知识，使得第二深度学习缺陷检测模型对包含微小缺陷的缺陷图像提取的特征同样也存在上述问题，即不能与对非缺陷图像提取的特征具有显著的区分度。当经过知识蒸馏压缩后的第二深度学习缺陷检测模型部署至移动设备中并被用于对产品外观缺陷进行检测时，会影响对产品外观微小缺陷的分类检测准确性。

为此，本申请提出一种缺陷检测模型的压缩训练方法和装置，通过在缺陷检测模型的知识蒸馏的压缩训练过程中增加图像缺陷区域的分割标注因子，提高对包含微小缺陷的缺陷图像的特征感知能力，提升压缩后的缺陷检测模型对产品外观微小缺陷的检测准确率。

图1是根据本申请一实施例的缺陷检测模型的压缩训练方法的流程示意图。如图1所示，本申请实施例的缺陷检测模型的压缩训练方法包括如下步骤：

步骤S110，对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵。

本步骤中，首选对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵，每个样本图像的分割标注因子矩阵用于标注每个样本图像中的各像素点对应的因子值，并且给每个样本图像的缺陷区域的像素点赋予与样本图像中的非缺陷区域的像素点不一样的因子值，以便在后续步骤中用于对从第一缺陷检测模型提取的第一特征图和从第二缺陷检测模型提取的第二特征图之间的距离进行修正。

在一个实施方式中，分割标注因子矩阵的尺寸大小对应于每个样本图像的像素大小，针对样本图像中的每个像素点在该分割标注因子矩阵的对应像素位置处赋予一个因子值。其中，针对缺陷区域的像素点的因子值与针对非缺陷区域的像素点的因子值互为相反数。假设每个样本图像的分割标注因子矩阵表示为A，那么，针对每个像素点(i，j)，该像素点的因子值A(i，j)表示为：

其中，0<a≤1，R^d表示样本图像中的非缺陷区域的像素点集合，Rⁿ表示样本图像中的缺陷区域的像素点集合。上述表达式的含义是对样本图像中的非缺陷区域的像素点赋予正的因子值a，对样本图像中的缺陷区域的像素点赋予负的因子值-a。本实施方式通过将样本图像中缺陷区域的像素点赋予与非缺陷区域的像素点的因子值相反的因子值，使得从第一缺陷检测模型进行第二缺陷检测模型的蒸馏学习训练时，可以增加第一损失函数中样本图像的缺陷区域对应的特征点之间的距离，提高蒸馏压缩得到的第二缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，下面会结合后续步骤进一步阐述。

步骤S120，将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型。

本步骤中，选取预训练的第一缺陷检测模型作为教师模型，随机初始化的第二缺陷检测模型作为学生模型。其中，第一缺陷检测模型是大规模的深度卷积神经网络模型，而第二缺陷检测模型与所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型，第二缺陷检测模型作为对第一缺陷检测模型进行蒸馏学习得到的压缩模型，最终部署至移动设备中，用于执行对产品外观缺陷图像的分类检测。在一个实施方式中，第一缺陷检测模型可以选自深度残差网络模型ResNet50、ResNet101、ResNet152等，第二缺陷检测模型可以选自深度残差网络模型ResNet18。应当理解，深度残差网络模型仅是作为第一缺陷检测模型和第二缺陷检测模型的示例性的可选实施方式，本申请实施例中第一缺陷检测模型和第二缺陷检测模型不限于深度残差网络模型，其他适合于进行缺陷分类检测的深度卷积神经网络模型，如Desnet、VGG网络模型等，同样也适用于本申请的不同实施例。

在一个实施方式中，作为示例，本实施例可以选取更深层的ResNet101作为第一缺陷检测模型，浅层的ResNet18作为第二缺陷检测模型。图2示出了第一缺陷检测模型ResNet101和第二缺陷检测模型ResNet18的网络结构示意图。如图2所示，作为第一缺陷检测模型的ResNet101和作为第二缺陷检测模型的ResNet18二者具有相同的架构，即均包括五个卷积层部分。ResNet101的五个卷积层分别为第一卷积层210-1(conv1)、第二卷积层220-1(conv2_x)、第三卷积层230-1(conv3_x)、第四卷积层240-1(conv4_x)和第五卷积层250-1(conv5_x)。ResNet18的五个卷积层分别为第一卷积层210-2(conv1)、第二卷积层220-2(conv2_x)、第三卷积层230-2(conv3_x)、第四卷积层240-2(conv4_x)和第五卷积层250-2(conv5_x)。

对于第一缺陷检测模型ResNet101和第二缺陷检测模型的ResNet18，第一卷积层210-1、210-2(conv1)均为预处理层，卷积核大小为7×7，卷积核个数为64，对输入的样本图像进行预处理，输出112×112×64的特征图，112×112分别表示输出特征图的宽和高，64为输出特征图的通道数。

对于第一缺陷检测模型ResNet101，第二卷积层220-1(conv2_x)、第三卷积层230-1(conv3_x)、第四卷积层240-1(conv4_x)和第五卷积层250-1(conv5_x)分别包括3、4、23、3个卷积块，每个卷积块包括2个1×1卷积单元和1个3×3卷积单元。对于第二缺陷检测模型ResNet18，第二卷积层220-2(conv2_x)、第三卷积层230-2(conv3_x)、第四卷积层240-2(conv4_x)和第五卷积层250-2(conv5_x)分别包括2、2、2、2个卷积块，每个卷积块包括2个3×3卷积单元。依次经过各卷积层的处理，第二卷积层220-1、220-2(conv2_x)输出56×56×256的特征图，第三卷积层230-1、230-2(conv3_x)输出28×28×512的特征图，第四卷积层240-1、240-2(conv4_x)输出14×14×1024的特征图，第五卷积层250-1、250-2(conv5_x)输出7×7×2048的特征图。

经过上述五个卷积层的处理后，ResNet101和ResNet18还分别通过平均池化层260-1和260-2，全连接层270-1和270-2、softmax层280-1和280-2进行后续处理，输出样本图像数据的预测分类结果，该预测分类结果以缺陷分类概率向量的形式呈现。

本步骤中，首先将样本图像数据集中每个样本图像分别输入预训练的第一缺陷检测模型和随机初始化的第二缺陷检测模型，然后分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图。在一个实施方式中，本申请可以分别选取第一缺陷检测模型和第二缺陷检测模型中的最后一层卷积层作为目标卷积层，提取其各自输出的特征图。

假设样本图像数据集中任一样本图像表示为I_s，第一缺陷检测模型的目标卷积层输出的第一特征图为M₁(I_s)，第二缺陷检测模型的目标卷积层输出的第二特征图表示为M₂(I_s)，M₁(I_s)和M₂(I_s)的尺寸大小为W×H×C，W为特征图的宽度，H为特征图的高度，C为特征图的通道数。

步骤S130，计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数。

本步骤中，由于深度卷积神经网络模型的卷积层输出的特征图中，每个特征点可以提取出一个对应的特征向量，该特征向量的维度即为该特征图的通道数。因此，对于第一特征图和第二特征图各自中的每个特征点的位置(m,n)而言，可以分别从第一特征图提取出该特征点对应的第一特征向量M₁(I_s)_m,n，从第二特征图提取出该特征点对应的第二特征向量M₂(I_s)_m,n，第一特征向量和第二特征向量构成对应的特征向量对。然后，可以计算得到该第一特征向量和第二特征向量之间的距离。

在一个实施方式中，所述第一特征向量和第二特征向量之间的距离可以是所述第一特征向量和第二特征向量各自的归一化向量的平方欧式距离。具体而言，假设第一特征向量的归一化向量表示为第二特征向量的归一化向量表示为则：

其中，||M₁(I_s)_m,n||₂和||M₂(I_s)_m,n||₂分别表示第一特征向量和第二特征向量的L2范数。

那么，可以计算得到第一特征向量和第二特征向量各自的归一化向量的平方欧式距离E_m,n如下公式所示：

其中，和分别表示第一特征向量和第二特征向量各自的归一化向量的第p个元素。

随后，在计算得到第一特征向量和第二特征向量各自的归一化向量的平方欧式距离之后，计算该平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积，得到所述第一特征向量和第二特征向量之间的修正距离。

在一个实施方式中，由于分割标注因子矩阵的尺寸大小等于样本图像的像素大小，不同于第一特征图和第二特征图的宽高尺寸大小，因此，本申请实施例可以将分割标注因子矩阵进行尺寸变换操作，将分割标注因子矩阵的尺寸大小对齐到第一特征图和第二特征图的宽高尺寸大小W×H，这可以通过对分割标注因子矩阵执行最近邻插值或双线性插值的缩放操作resize()实现。以执行最近邻插值的缩放操作为例，将分割标注因子矩阵中的元素位置进行等比例的缩小操作，对应到变换后分割标注因子矩阵的目标元素位置，变换后分割标注因子矩阵的尺寸大小即变换为W×H。

相应地，计算该平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积可以包括计算该平方欧式距离与所述变换后分割标注因子矩阵中对应的元素的乘积，从而得到所述第一特征向量和第二特征向量之间的修正距离。具体而言，假设所述变换后分割标注因子矩阵表示为A^r，那么第一特征图和第二特征图各自中的特征点位置(m,n)所对应的第一特征向量和第二特征向量都可以在该变换后分割标注因子矩阵A^r中找到对应的元素A^r(m,n)，该元素就是第一特征向量和第二特征向量之间距离的修正因子。因此，所述第一特征向量和第二特征向量之间的修正距离可以用以下公式表示为：

随后，将所述第一特征图和第二特征图在全部特征点位置的特征向量之间的修正距离之和作为第一损失函数Loss₁(I_s)，即：

步骤S140，基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

本步骤中，在前述步骤得到的第一损失函数基础上，可以基于最小化该第一损失函数对所述第二缺陷检测模型进行迭代训练，在一定的学习率和批尺寸的条件下迭代更新第二缺陷检测模型的参数，最终得到合适的经过蒸馏压缩的所述第二缺陷检测模型，该压缩得到的第二缺陷检测模型可以随后部署至目标移动设备，进行产品外观图像的缺陷分类检测。

本实施例中，由于上述第一损失函数对第一特征图和第二特征图在全部特征点位置的特征向量之间的距离以分割标注因子矩阵中的分割标注因子进行了修正，而分割标注因子矩阵对样本图像中的非缺陷区域的像素点赋予了正的因子值，对样本图像中的缺陷区域的像素点赋予与非缺陷区域的像素点的因子值相反的因子值，使得基于最小化所述第一损失函数对第二缺陷检测模型进行蒸馏学习训练时，一方面减少了第一缺陷检测模型和第二缺陷检测模型提取的非缺陷图像特征之间的距离，使得经过蒸馏压缩得到的第二缺陷检测模型对非缺陷图像提取的非缺陷图像特征尽可能与第一缺陷检测模型相似；另一方面，同时增加了第一缺陷检测模型和第二缺陷检测模型提取的缺陷图像特征之间的距离，使得经过蒸馏压缩得到的第二缺陷检测模型对缺陷图像提取的缺陷图像特征与第一缺陷检测模型具有较大差异，从而使第二缺陷检测模型对缺陷图像提取的缺陷图像特征与对非缺陷图像提取的特征具有显著的区分度，从而提高蒸馏压缩得到的第二缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，提升了压缩后的第二缺陷检测模型对产品外观微小缺陷的检测准确率。

在一个实施方式中，如果第一缺陷检测模型提取的第一特征图的尺寸与第二缺陷检测模型提取的第二特征图的尺寸大小不一致，通常表现为第一缺陷检测模型提取的第一特征图的尺寸大于第二缺陷检测模型提取的第二特征图的尺寸，则需要对第一特征图进行下采样或者对第二特征图进行上采样，将第一特征图与第二特征图的尺寸大小对齐，然后再执行上述步骤S130和S140。

图3是根据本申请另一实施例的缺陷检测模型的压缩训练方法的方法流程图。如图3所示，本申请实施例的缺陷检测模型的压缩训练方法，在前述任一实施例的基础上，可以对步骤S120和S130进行进一步的优化改进，可以得到如下步骤：

步骤S320，将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型。

本实施例步骤中，预训练的第一缺陷检测模型和随机初始化的第二缺陷检测模型可以与前述实施例的实施方式相同，在此不再赘述。

该步骤在将每个样本图像数据分别输入预训练的第一缺陷检测模型和随机初始化的第二缺陷检测模型，分别从第一缺陷检测模型和第二缺陷检测模型中分别选取多个目标卷积层。在一个实施方式中，分别选取的多个目标卷积层可以包括从第一缺陷检测模型和第二缺陷检测模型各自的多个卷积层中选择连续的若干个卷积层作为目标卷积层。继续以图2所示的第一缺陷检测模型ResNet101和第二缺陷检测模型ResNet18的网络结构为例，作为示例，例如可以从第一缺陷检测模型中选择第一卷积层210-1(conv1)和第二卷积层220-1(conv2_x)，从第二缺陷检测模型中选择第一卷积层210-1(conv1)和第二卷积层220-1 (conv2_x)分别作为对应的目标卷积层，或者从第一缺陷检测模型中选择第四卷积层240-1(conv4_x)和第五卷积层250-1(conv5_x)，从第二缺陷检测模型中选择第四卷积层240-2(conv4_x)和第五卷积层250-2(conv5_x)分别作为对应的目标卷积层，等等。如此，可以分别从第一缺陷检测模型和第二缺陷检测模型中的多个目标卷积层提取到多个对应的第一特征图和第二特征图。

步骤S330，依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数。

具体而言，假设从第一缺陷检测模型和第二缺陷检测模型中分别选择L个目标卷积层，分别从第一缺陷检测模型和第二缺陷检测模型的各目标卷积层提取输出的L个第一特征图和对应的L个第二特征图，L为大于1的整数。那么，对于第l个第一特征图和对应的第二特征图，0<l≤L，第l个第一特征图和对应的第二特征图之间在特征点位置(m,n)所对应的第一特征向量和第二特征向量各自的归一化向量的平方欧式距离为第一特征向量和第二特征向量之间的修正距离表示为即用该平方欧式距离与所述分割标注因子矩阵对应于第l个第一特征图和对应的第二特征图的尺寸变换矩阵中对应的元素的乘积来表征该修正距离，用以下公式计算得到：其中，A^r,l(m,n)是所述分割标注因子矩阵对应于第l个第一特征图和对应的第二特征图的尺寸变换矩阵中对应于特征点位置(m,n)的元素。此外，由于多个目标卷积层输出特征图的尺寸大小并不相同，所以分割标注因子矩阵需要针对每个第一特征图进行对应的尺寸变换操作，将分割标注因子矩阵的尺寸大小分别对齐到各个第一特征图和第二特征图的宽高尺寸大小。

那么，将所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数，可以通过如下公式计算得到：

其中，W_l和H_l分别表示第l个第一特征图和对应的第二特征图的宽高尺寸。

本实施例通过对第一缺陷检测模型和第二缺陷检测模型中多个目标卷积层提取的多个第一特征图和对应的多个第二特征图之间的修正距离进行累加，可以综合考虑第一缺陷检测模型和第二缺陷检测模型中多个中间卷积层的特征提取特性，可以更加有利于第一缺陷检测模型和第二缺陷检测模型之间的蒸馏学习，使得基于最小化所述第一损失函数对第二缺陷检测模型进行蒸馏学习训练时，在减少了第一缺陷检测模型和第二缺陷检测模型提取的非缺陷图像特征之间的距离的同时，增加了第一缺陷检测模型和第二缺陷检测模型提取的缺陷图像特征之间的距离，使第二缺陷检测模型对缺陷图像提取的缺陷图像特征与对非缺陷图像提取的特征具有显著的区分度，从而进一步提高蒸馏压缩得到的第二缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，进一步提升压缩后的第二缺陷检测模型对产品外观微小缺陷的检测准确率。

在一些实施方式中，如图4所示，本申请实施例所述方法还可以包括：

步骤S410，在将所述每个样本图像输入所述第二缺陷检测模型后，获得所述第二缺陷检测模型输出的缺陷分类概率向量；

步骤S420，计算所述缺陷分类概率向量与所述样本图像数据的分类标注向量之间的交叉熵损失，作为第二损失函数；

步骤S430，计算所述第一损失函数和第二损失函数的加权和作为总损失函数，基于最小化所述总损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

本实施例中，在对第二缺陷检测模型进行蒸馏学习训练时，同时获得所述第二缺陷检测模型输出的缺陷分类概率向量。缺陷分类概率向量可以是经过如图2所示的softmax层280-2输出的概率向量[c₁,c₂,...,c_K]，其中，K为由非缺陷图像分类和多个缺陷图像分类构成的分类数量，该概率向量表示每个样本图像的预测分类概率。将每个样本图像的所述缺陷分类概率向量与所述样本图像数据的分类标注向量(分类真实值)之间的交叉熵损失，作为第二损失函数Loss₂(I_s)。然后，求取第一损失函数和第二损失函数的加权和作为总损失函数，即Loss_total(I_s)＝Loss₁(I_s)+αLoss₂(I_s)，α为第一损失函数和第二损失函数的权重系数，可以根据训练过程中的经验值调节。随后，可以基于最小化所述第一损失函数和第二损失函数的加权和，对所述第二缺陷检测模型进行迭代训练，更新第二缺陷检测模型的参数，从而得到经过蒸馏压缩的所述第二缺陷检测模型。

本实施例在第二缺陷检测模型的蒸馏学习训练中，在前述第一损失函数基础上，进一步考虑第二缺陷检测模型本身的预测损失，可以辅助性提升经过蒸馏学习后的第二缺陷检测模型对产品外观微小缺陷的预测准确率。

在一个实施方式，所述方法还包括：

针对所述样本图像数据集中的每一批次的多个样本图像，计算每个样本图像输入所述第一缺陷检测模型和第二缺陷检测模型的总损失函数的平均值，基于最小化所述总损失函数的平均值，对所述第二缺陷检测模型进行迭代训练。

假设模型训练的批尺寸为N，则针对每一批次的多个样本图像{I₁,I₂,...,I_N},依次输入所述第一缺陷检测模型和第二缺陷检测模型进行训练，可以计算得到每一批次的总损失函数的平均值为：

如此，可以基于最小化每一批次的所述总损失函数的平均值Loss_avg，对所述第二缺陷检测模型进行迭代训练，更新第二缺陷检测模型的参数，从而得到经过蒸馏压缩的所述第二缺陷检测模型。

图5是根据本申请一实施例的缺陷检测模型的压缩训练装置的结构示意图。如图5所示，本申请实施例的缺陷检测模型的压缩训练装置包括如下模块单元：

分割标注单元510，用于对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵。

特征提取单元520，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型。

第一损失评估单元530，用于计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数。

第一迭代训练单元540，用于基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

图6是根据本申请另一实施例的缺陷检测模型的压缩训练装置的结构示意图。如图6所示，本申请实施例的缺陷检测模型的压缩训练装置包括如下模块单元：

分割标注单元610，用于对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵。

特征提取单元620，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型。

第一损失评估单元630，用于依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数。

第一迭代训练单元640，用于基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

在一个实施方式中，如图7所示，本申请一实施例还可以包括：

概率向量获取单元710，用于在将所述每个样本图像输入所述第二缺陷检测模型后，获得所述第二缺陷检测模型输出的缺陷分类概率向量。

第二损失评估单元720，用于计算所述缺陷分类概率向量与所述样本图像的分类标注向量之间的交叉熵损失，作为第二损失函数。

第二迭代训练单元730，用于计算所述第一损失函数和第二损失函数的加权和作为总损失函数，基于最小化所述总损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。

在一个实施方式，所述装置还包括：

第三迭代训练单元，用于针对所述样本图像数据集中的每一批次的多个样本图像，计算每个样本图像输入所述第一缺陷检测模型和第二缺陷检测模型的总损失函数的平均值，基于最小化所述总损失函数的平均值，对所述第二缺陷检测模型进行迭代训练。

需要说明的是，本领域技术人员可以理解，本申请的方法实施例所描述的不同实施方式及其说明解释和所达到的技术效果，同样适用于本申请的装置实施例中，在此不再赘述。

本申请实施例通过在深度学习缺陷检测模型的知识蒸馏的压缩训练过程中增加图像缺陷区域的分割标注因子，提高经过蒸馏压缩后的深度学习缺陷检测模型对包含微小缺陷的缺陷图像的特征感知能力，提升压缩后的深度学习缺陷检测模型对产品外观微小缺陷的检测准确率。

本申请可以通过软件、硬件或软硬件结合的方式实施。当实现为计算机软件程序时，该计算机软件程序可以安装于计算装置的存储器中被一个或多个处理器执行以实现相应功能。

进一步地，本申请实施例还可以包括一种计算机可读介质，该计算机可读介质存储有程序指令，在这样的实施例中，当该计算机可读存储介质被装载在计算装置中时，该程序指令可以被一个或多个处理器执行以执行本申请任一实施例中描述的方法步骤。

进一步地，本申请的实施例还可以包括一种计算机程序产品，包括承载程序指令的计算机可读介质，在这样的实施例中，该程序指令可以被一个或多个处理器执行以执行本申请任一实施例中描述的方法步骤。

以上描述了本申请示例性的实施例，应当理解，上述示例性的实施例不是限制性的，而是说明性的，本申请的保护范围不限于此。应理解，本领域技术人员在不脱离本申请的精神和范围的情况下，可以对本申请实施例进行修改和变型，这些修改和变型理应在本申请的保护范围之内。

Claims

一种缺陷检测模型的压缩训练方法，其特征在于，包括：

对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数；

基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。
根据权利要求1所述的缺陷检测模型的压缩训练方法，其特征在于，所述分割标注因子矩阵用于标注每个样本图像中各像素点对应的因子值，其中针对每个样本图像的缺陷区域的像素点的因子值与针对每个样本图像的非缺陷区域的像素点的因子值互为相反数。
根据权利要求2所述的缺陷检测模型的压缩训练方法，其特征在于，所述计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，包括：

计算所述第一特征图和第二特征图的对应特征向量各自的归一化向量的平方欧式距离；

计算所述平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离。
根据权利要求3所述的缺陷检测模型的压缩训练方法，其特征在于，所述计算所述平方欧式距离与所述分割标注因子矩阵中对应的元素的乘积，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，包括：

将所述分割标注因子矩阵进行尺寸变换操作，得到对齐到所述第一特征图和第二特征图的尺寸大小的变换后分割标注因子矩阵；

计算所述平方欧式距离与所述变换后分割标注因子矩阵中对应的元素的乘积，从而得到所述第一特征图和第二特征图的对应特征向量之间的修正距离。
根据权利要求4所述的缺陷检测模型的压缩训练方法，其特征在于，所述方法还包括：

在将所述每个样本图像输入所述第二缺陷检测模型后，获得所述第二缺陷检测模型输出的缺陷分类概率向量；

计算所述缺陷分类概率向量与所述样本图像的分类标注向量之间的交叉熵损失，作为第二损失函数；

计算所述第一损失函数和第二损失函数的加权和作为总损失函数，基于最小化所述总损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。
根据权利要求5所述的缺陷检测模型的压缩训练方法，其特征在于，所述方法还包括：针对所述样本图像数据集中的每一批次的多个样本图像，计算每个样本图像输入所述第一缺陷检测模型和第二缺陷检测模型的总损失函数的平均值，基于最小化所述总损失函数的平均值，对所述第二缺陷检测模型进行迭代训练。
根据权利要求6所述的缺陷检测模型的压缩训练方法，其特征在于，所述方法还包括：如果所述第一特征图与第二特征图的尺寸大小不一致，则对所述第一特征图进行下采样或者对所述第二特征图进行上采样，将所述第一特征图与第二特征图的尺寸大小对齐。
一种缺陷检测模型的压缩训练方法，其特征在于，包括：

对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数；

基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。
一种缺陷检测模型的压缩训练装置，其特征在于，包括：

分割标注单元，用于对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

特征提取单元，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中目标卷积层输出的第一特征图以及所述第二缺陷检测模型中对应的目标卷积层输出的第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

第一损失评估单元，用于计算所述第一特征图和第二特征图的对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到所述第一特征图和第二特征图的对应特征向量之间的修正距离，并计算所述第一特征图和第二特征图的全部特征向量之间的修正距离之和作为第一损失函数；

第一迭代训练单元，用于基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。
一种缺陷检测模型的压缩训练装置，其特征在于，包括：

分割标注单元，用于对产品外观的样本图像数据集进行缺陷区域的分割标注，得到每个样本图像的分割标注因子矩阵；

特征提取单元，用于将所述样本图像数据集中每个样本图像分别输入第一缺陷检测模型和第二缺陷检测模型，分别提取所述第一缺陷检测模型中多个目标卷积层输出的多个第一特征图以及所述第二缺陷检测模型中对应的多个目标卷积层输出的多个第二特征图，其中所述第二缺陷检测模型是与预训练的所述第一缺陷检测模型属于相同架构但更轻量化的深度卷积神经网络模型；

第一损失评估单元，用于依次计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图在对应特征向量之间的距离，用所述分割标注因子矩阵中对应的元素对所述距离进行修正，得到每个第一特征图和对应的第二特征图在对应特征向量之间的修正距离，计算每个第一特征图和对应的第二特征图在全部特征向量之间的修正距离之和，并计算所述多个第一特征图和第二特征图中每个第一特征图和对应的第二特征图的修正距离之和的累加作为第一损失函数；

第一迭代训练单元，用于基于最小化所述第一损失函数，对所述第二缺陷检测模型进行迭代训练，得到经过蒸馏压缩的所述第二缺陷检测模型。