WO2024060917A1

WO2024060917A1 - 缺陷识别方法、装置和系统

Info

Publication number: WO2024060917A1
Application number: PCT/CN2023/114426
Authority: WO
Inventors: 张园; 韩韬; 梁伟; 杨明川
Original assignee: 中国电信股份有限公司
Priority date: 2022-09-23
Filing date: 2023-08-23
Publication date: 2024-03-28
Also published as: CN117808726A

Abstract

本公开提供一种缺陷识别方法、装置和系统，涉及机器视觉技术领域。缺陷识别方法包括：接收图像采集装置发送的待检测图像；利用图像特征提取模型提取待检测图像的特征图；将特征图进行展平处理，以得到多个视觉令牌；利用第一缺陷识别模型中的编码器对多个视觉令牌进行处理，以得到多个编码结果；利用第一缺陷识别模型中的译码器对多个编码结果进行处理，以得到多个译码结果；利用第一缺陷识别模型中的头模型对多个译码结果进行处理，以得到缺陷识别结果；在缺陷识别结果表明待检测图像不属于缺陷图像的情况下，将缺陷识别结果发送给用户终端。

Description

缺陷识别方法、装置和系统

相关申请的交叉引用

本申请是以CN申请号为202211163804.4，申请日为2022年9月23日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及机器视觉技术领域，特别涉及一种缺陷识别方法、装置和系统。

背景技术

面向智慧工业的机器视觉系统是指用机器或者计算机来代替人眼视觉来做检测、分类、测量或者判断的系统。机器视觉是用于视觉检测、视觉定位等领域，在工业互联网中得到广泛应用。机器视觉系统通过将机器视觉产品转换成图像信号，传送给专用的图像处理系统，图像系统对这些数据和信号进行各种计算来抽取目标的特征，根据判别的结果进而来控制工业现场的设备动作。基于智能制造的机器视觉系统在工业缺陷视觉检测、视觉分类、工业尺寸测量等领域具有非常重要的价值。

机器视觉系统的特点是提高生产的智能程度和自动化程度。例如，在一些不适合人工作业的危险工作环境或人工视觉难以满足要求的场合，可用机器视觉来替代人工视觉。又例如，在大批量工业生产过程中，用基于机器视觉的缺陷识别方法可以大大提高生产效率和生产的自动化程度。而且机器视觉易于实现信息集成，是实现计算机集成制造的基础技术。

发明内容

根据本公开实施例的第一方面，提供一种缺陷识别方法，由边缘侧设备执行，包括：接收图像采集装置发送的待检测图像；利用图像特征提取模型提取所述待检测图像的特征图；将所述特征图进行展平处理，以得到多个视觉令牌；利用第一缺陷识别模型中的编码器对所述多个视觉令牌进行处理，以得到多个编码结果；利用所述第一缺陷识别模型中的译码器对所述多个编码结果进行处理，以得到多个译码结果；利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理，以得到缺陷识别结果；在所述缺陷识别结果表明所述待检测图像不属于缺陷图像的情况下，将所述缺陷识别结果发送给用户终端。

在一些实施例中，利用编码器对所述多个视觉令牌进行处理包括：利用归一化模型对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数；利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果；将所述第二编码处理结果和所述第i个视觉令牌进行融合，以得到第三编码处理结果；利用归一化模型对所述第三编码处理结果进行归一化处理，以得第四编码处理结果；利用多层感知器模型对所述第四编码处理结果进行多层感知处理，以得到第五编码处理结果；将所述第五编码处理结果和所述第四编码处理结果进行融合，以得到所述第i个视觉令牌的编码结果。

在一些实施例中，利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理包括：针对所述第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定所述每个单头的注意力值；根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二编码处理结果。

在一些实施例中，利用译码器对所述多个编码结果进行处理包括：利用归一化模型对预设的对象查询信息进行归一化处理，以得到第一译码处理结果；利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果；将所述第二译码处理结果和所述对象查询信息进行融合，以得到第三译码处理结果；利用归一化模型对所述第三译码处理结果进行归一化处理，以得第四译码处理结果；利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数；将所述第五译码处理结果和所述第三译码处理结果进行融合，以得到第六译码处理结果；利用归一化模型对所述第六译码处理结果进行归一化处理，以得第七译码处理结果；利用多层感知器模型对所述第七译码处理结果进行多层感知处理，以得到第八译码处理结果；将所述第八译码处理结果和所述第七译码结果进行融合，以得到所述第j个编码结果的译码结果。

在一些实施例中，利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理包括：针对所述第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定所述每个单头的注意力值；根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二译码处理结果。

在一些实施例中，利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理包括：针对所述第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t；根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定所述每个单头的注意力值；根据全部单头的注意力值确定对应的多头注意力值，以作为所述第五译码处理结果。

在一些实施例中，利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理包括：利用所述头模型中的第一全连接网络模型对所述多个译码结果进行处理，以计算目标所属类别；利用所述头模型中的第二全连接网络模型对所述多个译码结果进行处理，以计算目标所在位置信息。

在一些实施例中，所述第一缺陷识别模型包括Vision Transformer模型。

在一些实施例中，在所述缺陷识别结果表明所述待检测图像属于缺陷图像的情况下，将所述待检测图像发送给云服务器，以便所述云服务器利用所述待检测图像对预设的第二缺陷识别模型进行训练。

在一些实施例中，利用所述云服务器发送的模型权重信息，对所述第一缺陷识别模型进行权重更新。

根据本公开实施例的第二方面，提供一种边缘侧设备，包括：第一处理模块，被配置为接收图像采集装置发送的待检测图像；第二处理模块，利用图像特征提取模型提取所述待检测图像的特征图，将所述特征图进行展平处理，以得到多个视觉令牌；第三处理模块，被配置为利用第一缺陷识别模型中的编码器对所述多个视觉令牌进行处理，以得到多个编码结果；第四处理模块，被配置为利用所述第一缺陷识别模型中的译码器对所述多个编码结果进行处理，以得到多个译码结果；第五处理模块，被配置为利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理，以得到缺陷识别结果；第六处理模块，被配置为在所述缺陷识别结果表明所述待检测图像不属于缺陷图像的情况下，将所述缺陷识别结果发送给用户终端。

在一些实施例中，第三处理模块被配置为利用归一化模型对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数，利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果，将所述第二编码处理结果和所述第i个视觉令牌进行融合，以得到第三编码处理结果，利用归一化模型对所述第三编码处理结果进行归一化处理，以得第四编码处理结果，利用多层感知器模型对所述第四编码处理结果进行多层感知处理，以得到第五编码处理结果，将所述第五编码处理结果和所述第四编码处理结果进行融合，以得到所述第i个视觉令牌的编码结果。

在一些实施例中，第三处理模块被配置为针对所述第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二编码处理结果。

在一些实施例中，第四处理模块被配置为利用归一化模型对预设的对象查询信息进行归一化处理，以得到第一译码处理结果，利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果，将所述第二译码处理结果和所述对象查询信息进行融合，以得到第三译码处理结果，利用归一化模型对所述第三译码处理结果进行归一化处理，以得第四译码处理结果，利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数，将所述第五译码处理结果和所述第三译码处理结果进行融合，以得到第六译码处理结果，利用归一化模型对所述第六译码处理结果进行归一化处理，以得第七译码处理结果，利用多层感知器模型对所述第七译码处理结果进行多层感知处理，以得到第八译码处理结果，将所述第八译码处理结果和所述第七译码结果进行融合，以得到所述第j个编码结果的译码结果。

在一些实施例中，第四处理模块被配置为针对所述第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二译码处理结果。

在一些实施例中，第四处理模块被配置为针对所述第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第五译码处理结果。

在一些实施例中，第五处理模块被配置为利用所述头模型中的第一全连接网络模型对所述多个译码结果进行处理，以计算目标所属类别，利用所述头模型中的第二全连接网络模型对所述多个译码结果进行处理，以计算目标所在位置信息。

在一些实施例中，第六处理模块被配置为在所述缺陷识别结果表明所述待检测图像属于缺陷图像的情况下，将所述待检测图像发送给云服务器，以便所述云服务器利用所述待检测图像对预设的第二缺陷识别模型进行训练。

在一些实施例中，第六处理模块被配置为利用所述云服务器发送的模型权重信息，对所述第一缺陷识别模型进行权重更新。

根据本公开实施例的第三方面，提供一种边缘侧设备，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种缺陷识别系统，包括：如上述任一实施例所述的边缘侧设备；图像采集装置，被配置为采集待检测图像，并将所述待检测图像发送给所述边缘侧设备。

在一些实施中，系统还包括：云服务器，被配置为在接收到所述边缘侧设备发送的待检测图像后，对所述待检测图像进行图像标注，将所述待检测图像存入训练数据集合中，并利用所述训练数据集合对预设的第二缺陷识别模型进行训练，在经过训练的第二缺陷识别模型的性能大于预设性能阈值的情况下，将所述第二缺陷识别模型的当前模型权重信息发送给所述边缘侧设备。

在一些实施中云服务器被配置为在所述训练数据集合中的图像数量大于预设数量阈值的情况下，利用所述训练数据集合对预设的第二缺陷识别模型进行训练。

在一些实施中所述第二缺陷识别模型包括Vision Transformer模型。

根据本公开实施例的第五方面，提供一种非瞬态计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例所述的方法。

根据本公开实施例的第六方面，提供一种计算机程序产品，包括计算机指令，其中所述计算机指令被处理器执行时实现如上述任一实施例所述的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的基于机器视觉的缺陷识别方法的流程示意图；

图2为本公开一个实施例的编码器的结构示意图；

图3为本公开一个实施例的译码器的结构示意图；

图4为本公开一个实施例的头模型的结构示意图；

图5为本公开另一个实施例的基于机器视觉的缺陷识别方法的流程示意图；

图6为本公开一个实施例的边缘侧设备的结构示意图；

图7为本公开另一个实施例的边缘侧设备的结构示意图；

图8为本公开一个实施例的基于机器视觉的缺陷识别系统的结构示意图；

图9为本公开另一个实施例的基于机器视觉的缺陷识别系统的结构示意图；

图10为本公开又一个实施例的基于机器视觉的缺陷识别方法的流程示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

发明人注意到，在相关技术中，需要通过边缘侧设备和云服务器协同工作以实现缺陷识别，这种协同工作会导致任务时延较长，计算效率较低，同时在边缘侧设备和云服务器之间的交互会占用较多的网络资源，对其它网络应用使用的网络资源产生影响。

据此，本公开提供一种基于机器视觉的缺陷识别方案，能够有效减小任务时延较长，提高计算效率，避免对其它网络应用使用的网络资源产生影响。

图1为本公开一个实施例的基于机器视觉的缺陷识别方法的流程示意图。在一些实施例中，下列的基于机器视觉的缺陷识别方法由边缘侧设备执行。

在步骤101，接收图像采集装置发送的待检测图像。

在一些实施例中，图像采集装置可包括2D相机、点云相机、物联网相机或其它用来获取图像和视频的硬件设备，例如包括智能制造领域的工业相机等。

在步骤102，利用图像特征提取模型提取待检测图像的特征图。

在一些实施例中，图像特征提取(Image Feature Extraction)模型包括利用残差网络结构设计的图像特征提取模型。

在步骤103，将特征图进行展平处理，以得到多个视觉令牌(Visual Token)。

例如，特征图为H×W×C维，通过将特征图进行展平处理，得到H×W个视觉令牌。

在步骤104，利用第一缺陷识别模型中的编码器对多个视觉令牌进行处理，以得到多个编码结果。

在一些实施例中，第一缺陷识别模型为Vision Transformer模型。

在一些实施例中，第一缺陷识别模型中的编码器如图2所示，相应的编码流程如下：

1)利用归一化(Normalize)模型21对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数。

2)利用多头自注意力(Multi-head Self Attention)模型22对第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果。

在一些实施例中，多头自注意力模型22的处理包括以下内容：

首先，针对第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t。

例如，例如，相应的计算公式如公式(1)所示，其中Ft为第一编码处理结果。

接下来，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码(Positional Encoding)信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t。

接下来，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定每个单头的注意力值s_t，如公式(2)所示。

其中，为矩阵K_t的维度，τ为注意力计算函数，ρ为Softmax逻辑回归函数。

然后，根据全部单头的注意力值确定对应的多头注意力值，以作为第二编码处理结果，如公式(3)所示。

其中，ε为Concatenate函数，为参数矩阵。

3)将第二编码处理结果和第i个视觉令牌进行融合，以得到第三编码处理结果。

4)利用归一化模型23对第三编码处理结果进行归一化处理，以得第四编码处理结果。

5)利用多层感知器(Multilayer Perceptron)模型24对第四编码处理结果进行多层感知处理，以得到第五编码处理结果。

6)将第五编码处理结果和第四编码处理结果进行融合，以得到第i个视觉令牌的编码结果。

在步骤105，利用第一缺陷识别模型中的译码器对多个编码结果进行处理，以得到多个译码结果。

在一些实施例中，第一缺陷识别模型中的译码器如图3所示，相应的译码流程如下：

1)利用归一化模型31对预设的对象查询(Object Queries)信息进行归一化处理，以得到第一译码处理结果。

2)利用多头自注意力模型32对第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果。

在一些实施例中，多头自注意力模型32的处理包括以下内容：

首先，针对第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t。

例如，相应的计算公式如上述公式(1)所示。

接下来，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t。

接下来，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定每个单头的注意力值。

例如，注意力值的计算公式如上述公式(2)所示。

然后，根据全部单头的注意力值确定对应的多头注意力值，以作为第二译码处理结果。

例如，相应的计算公式如上述公式(3)所示。

3)将第二译码处理结果和对象查询信息进行融合，以得到第三译码处理结果。

4)利用归一化模型33对第三译码处理结果进行归一化处理，以得第四译码处理结果。

5)利用多头自注意力模型34对第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数。

在一些实施例中，多头自注意力模型34的处理包括以下内容：

首先，针对第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t。

例如，相应的计算公式如上述公式(1)所示。

接下来，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t。将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t。

接下来，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定每个单头的注意力值。

例如，相应的计算公式如上述公式(2)所示。

然后，根据全部单头的注意力值确定对应的多头注意力值，以作为第五译码处理结果。

例如，相应的计算公式如上述公式(3)所示。

6)将第五译码处理结果和第三译码处理结果进行融合，以得到第六译码处理结果。

7)利用归一化模型35对第六译码处理结果进行归一化处理，以得第七译码处理结果。

8)利用多层感知器模型36对第七译码处理结果进行多层感知处理，以得到第八译码处理结果。

9)将第八译码处理结果和第七译码结果进行融合，以得到第j个编码结果的译码结果。

在步骤106，利用第一缺陷识别模型中的头(heads)模型对多个译码结果进行处理，以得到缺陷识别结果。

在一些实施例中，如图4所示，头模型中包括第一全连接(Fully Connected)网络模型41和第二全连接网络模型42。

例如，利用第一全连接网络模型41对多个译码结果进行处理，以计算目标所属类别。利用第二全连接网络模型42对多个译码结果进行处理，以计算目标所在位置信息。

在步骤107，在缺陷识别结果表明待检测图像不属于缺陷图像的情况下，将缺陷识别结果发送给用户终端。

在本公开上述实施例提供的基于机器视觉的缺陷识别方法中，通过在边缘侧设备设置经过训练的缺陷识别模型，以便边缘侧设备能够自行对待检测图像进行缺陷识别，从而有效减小任务时延较长，提高计算效率，避免对其它网络应用使用的网络资源产生影响。

图5为本公开另一个实施例的基于机器视觉的缺陷识别方法的流程示意图。在一些实施例中，下列的基于机器视觉的缺陷识别方法由边缘侧设备执行。

在步骤501，接收图像采集装置发送的待检测图像。

在步骤502，利用图像特征提取模型提取待检测图像的特征图。

在步骤503，将特征图进行展平处理，以得到多个视觉令牌(Visual Token)。

在步骤504，利用第一缺陷识别模型中的编码器对多个视觉令牌进行处理，以得到多个编码结果。

在一些实施例中，第一缺陷识别模型为Vision Transformer模型。

在一些实施例中，第一缺陷识别模型中的编码器如图2所示

在步骤505，利用第一缺陷识别模型中的译码器对多个编码结果进行处理，以得到多个译码结果。

在一些实施例中，第一缺陷识别模型中的译码器如图3所示

在步骤506，利用第一缺陷识别模型中的头模型对多个译码结果进行处理，以得到缺陷识别结果。

在一些实施例中，头模型如图4所示。

在步骤507，在缺陷识别结果表明待检测图像属于缺陷图像的情况下，将待检测图像发送给云服务器，以便云服务器利用待检测图像对预设的第二缺陷识别模型进行训练。

在一些实施例中，第二缺陷识别模型为Vision Transformer模型。

在步骤508，利用云服务器发送的模型权重信息，对第一缺陷识别模型进行权重更新。

需要说明的是，在边缘侧设备识别出待检测图像具有缺陷的情况下，边缘侧设备将该待检测图像发送给云服务器，以便云服务器利用该待检测图像对设置在云服务器侧的第二缺陷识别模型进行训练。在经过训练的第二缺陷识别模型的性能评估结果满足预设条件的情况下，云服务器将第二缺陷识别模型当前的模型权重信息发送给边缘侧设备，以便边缘侧设备利用第二缺陷识别模型当前的模型权重信息对设置在边缘侧设备侧的第一缺陷识别模型进行权重更新。由此可实现对设置在边缘侧设备侧的第一缺陷识别模型进行持续更新，从而持续提升边缘侧设备侧的第一缺陷识别模型的缺陷识别能力。

图6为本公开一个实施例的边缘侧设备的结构示意图。如图6所示，边缘侧设备包括第一处理模块61、第二处理模块62、第三处理模块63、第四处理模块64、第五处理模块65和第六处理模块66。

第一处理模块61被配置为接收图像采集装置发送的待检测图像。

第二处理模块62被配置为利用图像特征提取模型提取待检测图像的特征图，将特征图进行展平处理，以得到多个视觉令牌。

在一些实施例中，图像特征提取模型包括利用残差网络结构设计的图像特征提取模型。

第三处理模块63被配置为利用第一缺陷识别模型中的编码器对多个视觉令牌进行处理，以得到多个编码结果。

在一些实施例中，第一缺陷识别模型为Vision Transformer模型。

在一些实施例中，第一缺陷识别模型中的编码器如图2所示

在一些实施例中，第三处理模块63被配置为利用归一化模型对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数，利用多头自注意力模型对第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果，将第二编码处理结果和第i个视觉令牌进行融合，以得到第三编码处理结果，利用归一化模型对第三编码处理结果进行归一化处理，以得第四编码处理结果，利用多层感知器模型对第四编码处理结果进行多层感知处理，以得到第五编码处理结果，将第五编码处理结果和第四编码处理结果进行融合，以得到第i个视觉令牌的编码结果。

在一些实施例中，第三处理模块63被配置为针对第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为第二编码处理结果。

第四处理模块64被配置为利用第一缺陷识别模型中的译码器对多个编码结果进行处理，以得到多个译码结果。

在一些实施例中，第一缺陷识别模型中的译码器如图3所示。

在一些实施例中，第四处理模块64被配置为利用归一化模型对预设的对象查询信息进行归一化处理，以得到第一译码处理结果，利用多头自注意力模型对第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果，将第二译码处理结果和对象查询信息进行融合，以得到第三译码处理结果，利用归一化模型对第三译码处理结果进行归一化处理，以得第四译码处理结果，利用多头自注意力模型对第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数，将第五译码处理结果和第三译码处理结果进行融合，以得到第六译码处理结果，利用归一化模型对第六译码处理结果进行归一化处理，以得第七译码处理结果，利用多层感知器模型对第七译码处理结果进行多层感知处理，以得到第八译码处理结果，将第八译码处理结果和第七译码结果进行融合，以得到第j个编码结果的译码结果。

在一些实施例中，第四处理模块64被配置为针对第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和第三向量矩阵V_t确定每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为第二译码处理结果。

在一些实施例中，第四处理模块64被配置为针对第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t，根据更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为第五译码处理结果。

第五处理模块65被配置为利用第一缺陷识别模型中的头模型对多个译码结果进行处理，以得到缺陷识别结果。

在一些实施例中，头模型如图4所示。

在一些实施例中，第五处理模块65被配置为利用头模型中的第一全连接网络模型对多个译码结果进行处理，以计算目标所属类别，利用头模型中的第二全连接网络模型对多个译码结果进行处理，以计算目标所在位置信息。

第六处理模块66被配置为在缺陷识别结果表明待检测图像不属于缺陷图像的情况下，将缺陷识别结果发送给用户终端。

在一些实施例中，第六处理模块66被配置为在缺陷识别结果表明待检测图像属于缺陷图像的情况下，将待检测图像发送给云服务器，以便云服务器利用待检测图像对预设的第二缺陷识别模型进行训练。

在一些实施例中，第六处理模块66被配置为利用云服务器发送的模型权重信息，对第一缺陷识别模型进行权重更新。

图7为本公开另一个实施例的边缘侧设备的结构示意图。如图7所示，边缘侧设备包括存储器71和处理器72。

存储器71用于存储指令，处理器72耦合到存储器71，处理器72被配置为基于存储器存储的指令执行实现如图1、5中任一实施例涉及的方法。

如图7所示，该边缘侧设备还包括通信接口73，用于与其它设备进行信息交互。同时，该边缘侧设备还包括总线74，处理器72、通信接口73、以及存储器71通过总线74完成相互间的通信。

存储器71可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器71也可以是存储器阵列。存储器71还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器72可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1、5中任一实施例涉及的方法。

图8为本公开一个实施例的基于机器视觉的缺陷识别系统的结构示意图。如图8所示，基于机器视觉的缺陷识别系统包括图像采集装置81和边缘侧设备82。边缘侧设备82为图6或图7中任一实施例涉及的边缘侧设备。

图像采集装置81被配置为采集待检测图像，并将待检测图像发送给边缘侧设备82。

在一些实施例中，图像采集装置81可包括2D相机、点云相机、物联网相机或其它用来获取图像和视频的硬件设备，例如包括智能制造领域的工业相机等。

在本公开上述实施例提供的基于机器视觉的缺陷识别系统中，通过在边缘侧设备设置经过训练的缺陷识别模型，以便边缘侧设备能够自行对待检测图像进行缺陷识别，从而有效减小任务时延较长，提高计算效率，避免对其它网络应用使用的网络资源产生影响。

图9为本公开另一个实施例的基于机器视觉的缺陷识别系统的结构示意图。图9和图8的不同之处在于，在图9所示实施例中，基于机器视觉的缺陷识别系统还包括云服务器83。

云服务器83被配置为在接收到边缘侧设备82发送的待检测图像后，对待检测图像进行图像标注，将待检测图像存入训练数据集合中，并利用训练数据集合对预设的第二缺陷识别模型进行训练。

在一些实施例中，第二缺陷识别模型包括视觉转换器(Vision Transformer)模型。

在经过训练的第二缺陷识别模型的性能大于预设性能阈值的情况下，云服务器83将第二缺陷识别模型的当前模型权重信息发送给边缘侧设备82，以便边缘侧设备82对设置在边缘侧设备82本地的第一缺陷识别模型进行权重更新。

例如，若经过训练的第二缺陷识别模型的缺陷识别率高于原先的缺陷识别率，则云服务器83将第二缺陷识别模型的当前模型权重信息发送给边缘侧设备82。

在一些实施例中，云服务器83在训练数据集合中的图像数量大于预设数量阈值的情况下，利用训练数据集合对预设的第二缺陷识别模型进行训练。

需要说明的是，在训练数据集合中的图像数量大于预设数量阈值的情况下，云服务器83能够使用足够多的图像对第二缺陷识别模型进行训练，从而能够提高第二缺陷识别模型的训练效果。

在步骤1001，用户终端向云服务器发送业务调用请求。

在步骤1002，云服务器对用户终端的权限进行验证。

在步骤1003，在用户终端的权限通过验证后，云服务器将业务调用请求发送给边缘侧设备。

在步骤1004，边缘侧设备将业务调用请求发送给图像采集装置。

在步骤1005，图像采集装置根据业务调用请求采集待检测图像。

在步骤1006，图像采集装置将待检测图像发送给边缘侧设备。

在步骤1007，边缘侧设备利用设置在本地的第一缺陷识别模型对待检测图像进行处理，以得到缺陷识别结果。

在步骤1008，在缺陷识别结果表明待检测图像不属于缺陷图像的情况下，将缺陷识别结果发送给用户终端。

在步骤1009，在缺陷识别结果表明待检测图像属于缺陷图像的情况下，将待检测图像发送给云服务器。

在步骤1010，云服务器对待检测图像进行图像标注，将待检测图像存入训练数据集合中。在训练数据集合中的图像数量大于预设数量阈值的情况下，云服务器利用训练数据集合对设置在本地的第二缺陷识别模型进行训练。

在步骤1011，在经过训练的第二缺陷识别模型的性能大于预设性能阈值的情况下，云服务器将第二缺陷识别模型的当前模型权重信息发送给边缘侧设备。

在步骤1012，边缘侧设备利用云服务器发送的模型权重信息对设置在本地的第一缺陷识别模型进行权重更新。

通过实施本公开的上述实施例，能够得到以下有益效果：

1)本公开基于图像采集装置、边缘侧设备和云服务器的联合设计，能够有效缩短任务时延，提高计算效率，不会对基于机器视觉的缺陷识别任务产生影响。

2)本公开对工业网络的占用率较低，不会影响其他工业应用的网络资源，系统的实时性较好。

3)本公开通过边缘侧设备和云服务器的协同工作，工业现场部署的服务器性能不会影响整体系统的识别性能。

4)本公开通过对云服务器侧的基于机器视觉的缺陷识别模型进行重新训练和性能更新，并将更新后的模型权重反馈给边缘侧设备侧的基于机器视觉的缺陷识别模型，从而使得该系统中的基于机器视觉的缺陷识别模型能够进行持续更新。

在一些实施例中，在上面所描述的功能单元可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种缺陷识别方法，由边缘侧设备执行，包括：

接收图像采集装置发送的待检测图像；

利用图像特征提取模型提取所述待检测图像的特征图；

将所述特征图进行展平处理，以得到多个视觉令牌；

利用第一缺陷识别模型中的编码器对所述多个视觉令牌进行处理，以得到多个编码结果；

利用所述第一缺陷识别模型中的译码器对所述多个编码结果进行处理，以得到多个译码结果；

利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理，以得到缺陷识别结果；

在所述缺陷识别结果表明所述待检测图像不属于缺陷图像的情况下，将所述缺陷识别结果发送给用户终端。
根据权利要求1所述的方法，其中，利用编码器对所述多个视觉令牌进行处理包括：

利用归一化模型对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数；

利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果；

将所述第二编码处理结果和所述第i个视觉令牌进行融合，以得到第三编码处理结果；

利用归一化模型对所述第三编码处理结果进行归一化处理，以得第四编码处理结果；

利用多层感知器模型对所述第四编码处理结果进行多层感知处理，以得到第五编码处理结果；

将所述第五编码处理结果和所述第四编码处理结果进行融合，以得到所述第i个视觉令牌的编码结果。
根据权利要求2所述的方法，其中，利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理包括：

针对所述第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；

分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；

根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和所述第三向量矩阵V_t确定所述每个单头的注意力值；

根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二编码处理结果。
根据权利要求1所述的方法，其中，利用译码器对所述多个编码结果进行处理包括：

利用归一化模型对预设的对象查询信息进行归一化处理，以得到第一译码处理结果；

利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果；

将所述第二译码处理结果和所述对象查询信息进行融合，以得到第三译码处理结果；

利用归一化模型对所述第三译码处理结果进行归一化处理，以得第四译码处理结果；

利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数；

将所述第五译码处理结果和所述第三译码处理结果进行融合，以得到第六译码处理结果；

利用归一化模型对所述第六译码处理结果进行归一化处理，以得第七译码处理结果；

利用多层感知器模型对所述第七译码处理结果进行多层感知处理，以得到第八译码处理结果；

将所述第八译码处理结果和所述第七译码结果进行融合，以得到所述第j个编码结果的译码结果。
根据权利要求4所述的方法，其中，利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理包括：

针对所述第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；

分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；

根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和所述第三向量矩阵V_t确定所述每个单头的注意力值；

根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二译码处理结果。
根据权利要求4所述的方法，其中，利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理包括：

针对所述第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t；

分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t；

将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t；

根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定所述每个单头的注意力值；

根据全部单头的注意力值确定对应的多头注意力值，以作为所述第五译码处理结果。
根据权利要求1所述的方法，其中，利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理包括：

利用所述头模型中的第一全连接网络模型对所述多个译码结果进行处理，以计算目标所属类别；

利用所述头模型中的第二全连接网络模型对所述多个译码结果进行处理，以计算目标所在位置信息。
根据权利要求1所述的方法，其中，

所述第一缺陷识别模型包括Vision Transformer模型。
根据权利要求1-8中任一项所述的方法，还包括：

在所述缺陷识别结果表明所述待检测图像属于缺陷图像的情况下，将所述待检测图像发送给云服务器，以便所述云服务器利用所述待检测图像对预设的第二缺陷识别模型进行训练。
根据权利要求9所述的方法，还包括：

利用所述云服务器发送的模型权重信息，对所述第一缺陷识别模型进行权重更新。
一种边缘侧设备，包括：

第一处理模块，被配置为接收图像采集装置发送的待检测图像；

第二处理模块，被配置为利用图像特征提取模型提取所述待检测图像的特征图，将所述特征图进行展平处理，以得到多个视觉令牌；

第三处理模块，被配置为利用第一缺陷识别模型中的编码器对所述多个视觉令牌进行处理，以得到多个编码结果；

第四处理模块，被配置为利用所述第一缺陷识别模型中的译码器对所述多个编码结果进行处理，以得到多个译码结果；

第五处理模块，被配置为利用所述第一缺陷识别模型中的头模型对所述多个译码结果进行处理，以得到缺陷识别结果；

第六处理模块，被配置为在所述缺陷识别结果表明所述待检测图像不属于缺陷图像的情况下，将所述缺陷识别结果发送给用户终端。
根据权利要求11所述的边缘侧设备，其中，

第三处理模块被配置为利用归一化模型对第i个视觉令牌进行归一化处理，以得到第一编码处理结果，1≤i≤N，N为视觉令牌总数，利用多头自注意力模型对所述第一编码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二编码处理结果，将所述第二编码处理结果和所述第i个视觉令牌进行融合，以得到第三编码处理结果，利用归一化模型对所述第三编码处理结果进行归一化处理，以得第四编码处理结果，利用多层感知器模型对所述第四编码处理结果进行多层感知处理，以得到第五编码处理结果，将所述第五编码处理结果和所述第四编码处理结果进行融合，以得到所述第i个视觉令牌的编码结果。
根据权利要求12所述的边缘侧设备，其中，

第三处理模块被配置为针对所述第一编码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和所述第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二编码处理结果。
根据权利要求11所述的边缘侧设备，其中，

第四处理模块被配置为利用归一化模型对预设的对象查询信息进行归一化处理，以得到第一译码处理结果，利用多头自注意力模型对所述第一译码处理结果和对应的位置编码信息进行多头自注意力处理，以得到第二译码处理结果，将所述第二译码处理结果和所述对象查询信息进行融合，以得到第三译码处理结果，利用归一化模型对所述第三译码处理结果进行归一化处理，以得第四译码处理结果，利用多头自注意力模型对所述第四译码处理结果、第j个编码结果和对应的位置编码信息进行多头自注意力处理，以得到第五译码处理结果，1≤j≤N，N为编码结果总数，将所述第五译码处理结果和所述第三译码处理结果进行融合，以得到第六译码处理结果，利用归一化模型对所述第六译码处理结果进行归一化处理，以得第七译码处理结果，利用多层感知器模型对所述第七译码处理结果进行多层感知处理，以得到第八译码处理结果，将所述第八译码处理结果和所述第七译码结果进行融合，以得到所述第j个编码结果的译码结果。
根据权利要求14所述的边缘侧设备，其中，

第四处理模块被配置为针对所述第一译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和所述第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第二译码处理结果。
根据权利要求14所述的边缘侧设备，其中，

第四处理模块被配置为针对所述第四译码处理结果，分别根据每个单头的第一注意力权重矩阵第二注意力权重矩阵和第三注意力权重矩阵确定对应的第一向量矩阵Q_t、第二向量矩阵K_t和第三向量矩阵V_t，分别将第一向量矩阵Q_t和第二向量矩阵K_t与对应的位置编码信息相加，以得到更新后的第一向量矩阵Q_t和更新后的第二向量矩阵K_t，将第三向量矩阵V_t与第j个编码结果相加，以得到更新后的第三向量矩阵V_t，根据所述更新后的第一向量矩阵Q_t、更新后的第二向量矩阵K_t和更新后的第三向量矩阵V_t确定所述每个单头的注意力值，根据全部单头的注意力值确定对应的多头注意力值，以作为所述第五译码处理结果。
根据权利要求11所述的边缘侧设备，其中，

第五处理模块被配置为利用所述头模型中的第一全连接网络模型对所述多个译码结果进行处理，以计算目标所属类别，利用所述头模型中的第二全连接网络模型对所述多个译码结果进行处理，以计算目标所在位置信息。
根据权利要求11所述的边缘侧设备，其中，

所述第一缺陷识别模型包括Vision Transformer模型。
根据权利要求11-18中任一项所述的边缘侧设备，其中，

第六处理模块被配置为在所述缺陷识别结果表明所述待检测图像属于缺陷图像的情况下，将所述待检测图像发送给云服务器，以便所述云服务器利用所述待检测图像对预设的第二缺陷识别模型进行训练。
根据权利要求19所述的边缘侧设备，其中，

第六处理模块被配置为利用所述云服务器发送的模型权重信息，对所述第一缺陷识别模型进行权重更新。
一种边缘侧设备，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-10中任一项所述的方法。
一种缺陷识别系统，包括：

如权利要求11-21中任一项所述的边缘侧设备；

图像采集装置，被配置为采集待检测图像，并将所述待检测图像发送给所述边缘侧设备。
根据权利要求22所述的系统，还包括：

云服务器，被配置为在接收到所述边缘侧设备发送的待检测图像后，对所述待检测图像进行图像标注，将所述待检测图像存入训练数据集合中，并利用所述训练数据集合对预设的第二缺陷识别模型进行训练，在经过训练的第二缺陷识别模型的性能大于预设性能阈值的情况下，将所述第二缺陷识别模型的当前模型权重信息发送给所述边缘侧设备。
根据权利要求23所述的系统，其中，

云服务器被配置为在所述训练数据集合中的图像数量大于预设数量阈值的情况下，利用所述训练数据集合对预设的第二缺陷识别模型进行训练。
根据权利要求22所述的系统，其中，

所述第二缺陷识别模型包括Vision Transformer模型。
一种非瞬态计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-10中任一项所述的方法。
一种计算机程序产品，包括计算机指令，其中所述计算机指令被处理器执行时实现如权利要求1-8中任一项所述的方法。