WO2023179099A1

WO2023179099A1 - 一种图像检测方法、装置、设备及可读存储介质

Info

Publication number: WO2023179099A1
Application number: PCT/CN2022/137773
Authority: WO
Inventors: 项进喜; 杨森; 张军; 蒋冬先; 侯英勇; 韩骁
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-03-23
Filing date: 2022-12-09
Publication date: 2023-09-28
Also published as: US20240054760A1; CN114693624A

Abstract

本发明公开了一种图像检测方法、装置、设备及可读存储介质，该方法包括：对待检测图像进行特征提取处理，得到至少两个子图像特征；生成至少两个子图像特征各自对应的注意力权重，根据注意力权重对至少两个子图像特征进行加权聚合处理，得到第一特征向量；对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇各自包括的采样子图像特征，根据至少两个分类簇和块稀疏矩阵确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；根据第一特征向量和第二特征向量，确定待检测图像的分类结果。采用本发明，可以提高图像的检测速度和检测准确率。

Description

一种图像检测方法、装置、设备及可读存储介质

本申请要求于2022年03月23日提交中国专利局、申请号为2022102886990、申请名称为“一种图像检测方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及图像检测技术。

背景技术

在经典的机器学习图像分类问题中，经常假设一个图像清楚地隶属于某个类别。但是，在实际应用中，在一个图像中会观察到多个实例(instance)，而图像的标签仅对其中一个实例的类别有说明。这种问题一般称作多实例学习(multiple instance learning,MIL)。多实例学习的目的是通过对具有分类标签的多实例图像进行学习，建立多实例学习模型，进而将该多实例学习模型应用于未知的多实例图像的检测。

相关技术中，可以通过自注意力模块来挖掘已有的多实例图像中所有实例的信息，并从中找出实例之间的相关信息，进行建立多实例学习模型，从而检测未知的多实例图像。但是，自注意力模块具有高计算复杂度，对于数字化病理图像这种实例数量可能达到10000左右的多实例图像进行建模时，硬件资源和时间消耗都很大，训练困难。而且针对数字化病理图像这种数量少，且每张图像只对应一个全片的标签的多实例图像，监督信息很弱，在小数据集上训练如此高复杂度的自注意力模块，很难保证该自注意力模块能够挖掘出有效的信息，而且该自注意力模块容易产生过拟合的问题，导致检测准确率低。

发明内容

本申请实施例提供了一种图像检测方法、装置、设备及可读存储介质，可以提高图像的检测速度和检测准确率。

本申请实施例一方面提供了一种图像检测方法，由计算机设备执行，包括：

获取待检测图像，对待检测图像进行特征提取处理，得到待检测图像的特征表示子集；待检测图像包括至少两个子图像；特征表示子集包括至少两个子图像特征，至少两个子图像特征与至少两个子图像一一对应；

生成至少两个子图像特征各自对应的注意力权重，根据注意力权重，对至少两个子图像特征进行加权聚合处理，得到第一特征向量；

对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，分类簇包括采样子图像特征，根据至少两个分类簇和块稀疏矩阵，确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的；

根据第一特征向量和第二特征向量，确定待检测图像的分类结果。

获取样本图像，对样本图像进行特征提取处理，得到样本图像的样本特征表示子集；样本图像包括至少两个样本子图像；样本特征表示子集包括至少两个样本子图像特征，至少两个样本子图像特征与至少两个样本子图像一一对应；

将至少两个样本子图像输入初始图像识别模型，通过初始图像识别模型，生成至少两个样本子图像特征各自对应的样本注意力权重，根据至少两个样本子图像特征各自对应的样本注意力权重，对至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量；

通过初始图像识别模型，对至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，分类簇包括样本采样子图像特征，根据至少两个样本分类簇和块稀疏矩阵确定每个样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个样本块稀疏自注意力确定第二样本特征向量；样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的；

通过初始图像识别模型，根据第一样本特征向量和第二样本特征向量，确定样本图像的样本分类结果；

根据至少两个样本分类簇、至少两个样本子图像特征各自对应的注意力权重、样本分类结果以及样本图像对应的分类标签，对初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。

本申请实施例一方面提供了一种图像检测装置，包括：

特征提取模块，用于获取待检测图像，对待检测图像进行特征提取处理，得到待检测图像的特征表示子集；待检测图像包括至少两个子图像；特征表示子集包括至少两个子图像特征，至少两个子图像特征与至少两个子图像一一对应；

第一向量生成模块，用于生成至少两个子图像特征各自对应的注意力权重，根据注意力权重，对至少两个子图像特征进行加权聚合处理，得到第一特征向量；

第二向量生成模块，用于对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，分类簇包括采样子图像特征，根据至少两个分类簇和块稀疏矩阵，确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的；

分类模块，用于根据第一特征向量和第二特征向量，确定待检测图像的分类结果。

本申请实施例一方面提供了一种图像检测装置，包括：

样本特征提取模块，用于获取样本图像，对样本图像进行特征提取处理，得到样本图像的样本特征表示子集；样本图像包括至少两个样本子图像；样本特征表示子集包括至少两个样本子图像特征，至少两个样本子图像特征与至少两个样本子图像一一对应；

第一样本向量生成模块，用于将至少两个样本子图像输入初始图像识别模型，通过初始图像识别模型中，生成至少两个样本子图像特征各自对应的样本注意力权重，根据至少两个样本子图像特征各自对应的样本注意力权重，对至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量；

第二样本向量生成模块，用于通过初始图像识别模型，对至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，分类簇包括样本采样子图像特征，根据至少两个样本分类簇和块稀疏矩阵确定每个样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个样本块稀疏自注意力确定第二样本特征向量；样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的；

样本分类模块，用于通过初始图像识别模型，根据第一样本特征向量和第二样本特征向量，确定样本图像的样本分类结果；

训练模块，用于根据至少两个样本分类簇、至少两个样本子图像特征各自对应的注意力权重、样本分类结果以及样本图像对应的分类标签，对初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信网元，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

本申请实施例中，可以对包括至少两个子图像的待检测图像进行特征提取处理，得到该待检测图像的特征表示子集，该特征表示子集包括至少两个子图像各自对应的子图像特征，然后通过两种方式来挖掘子图像的信息，一是独立挖掘各个子图像的信息，即生成至少两个子图像特征各自对应的注意力权重，再根据注意力权重对至少两个子图像特征进行加权聚合处理，得到第一特征向量；二是挖掘同类别的子图像之间的相关信息，即对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇各自包括的采样子图像特征，根据至少两个分类簇和块稀疏矩阵确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；最后根据第一特征向量和第二特征向量，确定待检测图像的分类结果。采用本申请实施例提供的方法，通过两种信息挖掘方式得到的第一特征向量和第二特征向量之间可以相互补充且相互约束，因此可以提高图像的检测准确率，另外，通过块稀疏矩阵来计算采样子图像特征对应的块稀疏自注意力，可以保证只关注和该采样子图像特征属于同一分类簇的采样子图像特征之间的相关性，降低计算复杂度，提高检测速度。

附图说明

图1a是本申请实施例提供的一种网络架构示意图；

图1b是本申请实施例提供的一种图像检测方法的应用场景示意图；

图2是本申请实施例提供的一种图像检测方法的流程示意图；

图3是本申请实施例提供的一种图像特征提取处理的场景示意图；

图4是本申请实施例提供的一种图像检测方法的流程示意图；

图5是本申请实施例提供的一种结直肠病理图像的聚类结果示意图；

图6是本申请实施例提供的一种对全局自注意力进行块稀疏约束的原理示意图；

图7是本申请实施例提供的一种图像识别模型的结构示意图；

图8是本申请实施例提供的一种初始图像识别模型训练方法的流程示意图；

图9是本申请实施例提供的一种图像检测装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意；

图11是本申请实施例提供的另一种图像检测装置的结构示意图；

图12是本申请实施例提供的另一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习和深度学习等技术，具体通过如下实施例进行说明。

请参见图1a，图1a是本申请实施例提供的一种网络架构示意图。如图1a所示，该网络架构可以包括业务服务器100以及终端设备集群，该终端设备集群可以包括终端设备10a、终端设备10b、终端设备10c、…、终端设备10n，其中，终端设备集群中的任一终端设备均可以与业务服务器100之间存在通信连接，例如，终端设备10a与业务服务器100之间存在通信连接，终端设备10b与业务服务器100之间存在通信连接，终端设备10c与业务服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应该理解，图1a所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1a所示的业务服务器100之间进行数据交互，使得业务服务器100可以接收来自于每个终端设备的业务数据。其中，该应用客户端可以为游戏应用、视频编辑应用、社交应用、即时通信应用、直播应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用、浏览器等具有相关图像处理功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如即时通信客户端、社交客户端、视频客户端等)中的嵌入式子客户端，在此不做限定。

如图1a所示，终端设备集群中的每个终端设备可以通过运行该应用客户端，获取待检测图像，将其作为业务数据发送给业务服务器100，业务服务器100可以对待检测图像进行图像检测，以确定该待检测图像的分类结果。其中，待检测图像又可以称为多实例图像，即包括有至少两个子图像，一个子图像可以称之为一个实例，对于多实例图像，只要有一个实例异常，则多实例图像即可被视为异常图像，换言之，只要有一个子图像异常，则待检测图像的分类结果应该为异常图像。

在一种可行的实施例中，以待检测图像为数字化病理图像为例，数字化病理图像可以通过以下方式获得：通过全自动显微镜或光学放大系统扫描载波切片采集得到高分辨数字图像，再应用计算机对得到的高分配率数字图像自动进行高精度多视野无缝隙拼接和处理，从而获得优质可视化数据，即获得数字化病理图像。数字化病理图像可以在计算机设备中进行任意位置的放大和缩小，且不存在图像信息失真和细节不清的问题，相比较原始的载波切片观察，更方便医生进行癌症诊断、生存期检测、基因突变检测等病理学诊断。但是数字化病理图像的分辨率高，图像尺寸往往很大，且包含非常多的实例(细胞、基因等生物组织)，人工观察数字化病理图像时需要不断调整检测位置以及检测倍数，往往需要耗费大量的时间和精力，因此可以通过上述应用客户端上传数字化病理图像，终端设备获取到数字化病理图像后，可以将其作为业务数据发送给业务服务器100，进而，业务服务器100可以对该数字化病理图像进行图像检测，确定该数字化病理图像的分类结果，该分类结果可以辅助医生进行医学诊断。

业务服务器100获取到待检测图像后，可以对待检测图像进行图像检测，确定待检测图像的分类结果，该具体实现过程请一并参见图1b，图1b是本申请实施例提供的一种图像检测方法的应用场景示意图。为便于理解，仍然以待检测图像为上述实施方式中的数字化病理图像为例进行说明。如图1b所示，终端设备200(可以为上述图1a中任一终端设备，例如，终端设备10a)安装有患者管理应用300，对象A与终端设备200具有关联关系。假设对象A是对象B的主治医生，对象A在患者管理应用300上可以查看对象B的病例资料，例如结直肠病理图像301，通过观测结直肠病理图像301，对象A可以诊断对象B是否患有结直肠癌症。因为结直肠病理图像301的图像尺寸很大，且需观测的细胞组织很多，对象A人工观测所需时间长，因此对象A可以通过终端设备200上运行的患者管理应用300，向业务服务器400(例如，上述图1a所示的业务服务器100)发起针对该结直肠病理图像301的图像检测请求，然后业务服务器400可以对结直肠病理图像301进行图像检测，确定该结直肠病理图像301的分类结果，即确定该结直肠病理图像301属于正常图像还是异常图像。业务服务器400对结直肠病理图像301的分类结果可以辅助对象A进行对象B的病情诊断。

可以理解的是，结直肠病理图像301的图像尺寸大，包含的细胞组织众多，因此可以认为结直肠病理图像301中包括至少两个子图像(即通过划分结直肠病理图像301可以得到至少两个子图像)，只要有一个子图像中存在异常，则结直肠病理图像301就为异常图像。

如图1b所示，终端设备200将结直肠病理图像301发送至业务服务器400后，业务服务器400可以先对结直肠病理图像301进行特征提取处理，得到用于表示该结直肠病理图像301的特征表示子集401，该特征表示子集401中包括至少两个子图像特征，一个子图像特征用于描述结直肠病理图像301中一个子图像的信息。随后，业务服务器400可以使用图像识别模型402检测结直肠病理图像301，该图像识别模型402可以包括第一注意力子网络4021、第二注意力子网络4022以及分类子网络4023，其中，第一注意力子网络4021用于将子图像看作独立的实例，根据每个子图像特征来挖掘每个子图像的独立表示信息，得到用于表示该独立表示信息的第一特征向量；第二注意力子网络4022用于挖掘所有子图像之间的全局表示信息，得到用于表示该全局表示信息的第二特征向量；分类子网络4023用于根据第一特征向量和第二特征向量对待检测图像进行图像分类，确定待检测图像的分类结果。

如图1b所示，业务服务器400将特征表示子集401输入图像识别模型402后，第一注意力子网络4021会生成至少两个子图像特征各自对应的注意力权重，然后，根据注意力权重对至少两个子图像特征进行加权聚合处理，得到第一特征向量403。同时，第二注意力子网络4022会对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇各自包括的采样子图像特征，然后，根据至少两个分类簇和块稀疏矩阵确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量404。在确定了第一特征向量403和第二特征向量404后，分类子网络4023可以对第一特征向量403和第二特征向量404进行特征融合处理，得到融合特征向量，然后对融合特征向量进行分类处理，得到结直肠病理图像301的分类结果405，其中，分类结果405可以包括结直肠病理图像301的正常概率和异常概率，正常概率是指结直肠病理图像301为正常图像的概率，即对象B未患病的概率，异常概率是指结直肠图像301为异常图像的概率，即对象B可能患有结直肠癌的概率。业务服务器400会将分类结果405返回至终端设备200，对象A可以根据分类结果405来诊断对象B的患病情况。

可选的，若终端设备200的本地存储有图像识别模型402，则终端设备200可以在本地对待检测图像做图像检测任务，得到该待检测图像的分类结果。由于训练图像识别模型402涉及大量的离线计算，因此终端设备200本地的图像识别模型可以是由业务服务器400训练完成后发送至终端设备的。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或服务器，本申请实施例中的业务服务器100可以为计算机设备，终端设备集群中的终端设备也可以为计算机设备，此处不限定。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，但并不局限于此。本申请实施例可应用于各种场景，包括但不限于云技术、云安全、区块链、人工智能、智慧交通、辅助驾驶等。

可以理解的是，当本申请实施例运用到具体产品或技术中时，涉及到的待检测图像等相关的数据，需要获得用户许可或者同意后再获取，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，在本申请实施例中待检测图像是以结直肠病理图像为例进行描述，但是实际应用场景中，待检测图像还可以为其他癌种的病理图像，或者其他包括至少两个子图像的多实例图像，本申请在此不做限制。

进一步地，请参见图2，图2是本申请实施例提供的一种图像检测方法的流程示意图。其中，该图像检测方法可以由计算机设备执行，其中，计算机设备可以为上述图1a所示的业务服务器100，也可以为上述图1a所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本图像检测方法由计算机设备执行为例进行说明。其中，该图像检测方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取待检测图像，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征表示子集；所述待检测图像包括至少两个子图像；所述特征表示子集包括至少两个子图像特征，所述至少两个子图像特征与所述至少两个子图像一一对应。

具体的，待检测图像是图像弱标注、多个实例对应一个标签的多实例图像。一个多实例图像，也称作多实例包(bag)，包括有若干实例(instance)，一个实例可以视为一个子图像，但是只有bag含有标签，实例不含有标签。如果多实例包中至少含有一个正实例(instance)，则该包被标记为正类多实例包(正包)；如果多实例包的所有实例都是负实例，则该包被标记为负类多实例包(负包)。待检测图像可以是在癌症诊断、生存期预测、基因突变预测等病理学诊断中应用的数字化病理图像，通过对数字化病理图像进行图像检测，得到数字化病理图像的分类结果，该分类结果可以辅助医生确定对应的医学诊断结果，例如，数字化病理图像为上述图1b中的结直肠病理图像301，通过对结直肠病理图像301进行图像检测，得到分类结果405，该分类结果405可以辅助对象A确定对象B是否患有结直肠癌。

具体的，待检测图像是人类所使用的媒体数据，缺乏计算机设备可理解的信息，因此需要将待检测图像从一个无结构的原始图像转化为结构化的、计算机可以识别处理的信息，即对待检测图像进行科学的抽象，建立它的数学模型，用以描述和代替待检测图像，使计算机设备能够通过对该数学模型的计算和操作来实现对待检测图像的识别。数学模型可以是向量空间模型，此时，待检测图像中包括的子图像对应的子图像特征可以是该向量空间模型中的向量，计算机设备可以通过由子图像特征构成的特征表示子集描述和运用待检测图像。

具体的，如果把所有的子图像特征都作为特征项，将导致计算量太大，因此需要在不损伤待检测图像核心信息的情况下尽量减少要处理的子图像，以此来简化计算，提高待检测图像处理的速度和效率。因此，对待检测图像进行特征提取处理，得到待检测图像的特征表示子集的一个可行具体过程为：识别待检测图像中的背景区域和前景区域，然后根据背景区域和前景区域对待检测图像进行图像分割，得到待检测前景图像，随后可以根据缩放倍率对待检测前景图像进行缩放处理，得到待裁剪前景图像；再根据子图像预设长度和子图像预设宽度，对待裁剪前景图像进行裁剪处理，得到至少两个子图像，最后对至少两个子图像分别进行图像特征提取处理，得到至少两个子图像各自对应的子图像特征，根据至少两个子图像各自对应的子图像特征确定待检测图像的特征表示子集。其中，子图像预设长度小于待裁剪前景图像的长度；子图像预设宽度小于待裁剪前景图像的宽度。

为便于理解上述特征提取处理的可行具体过程，请一并参见图3，图3是本申请实施例提供的一种图像特征提取处理的场景示意图。如图3所示，计算机设备获取到待检测图像3000后，可以先对待检测图像3000进行前后景识别，确定待检测图像3000包含的前景区域3001和后景区域3002，然后进行前后景区域的图像分割，得到待检测前景图像3003。然后，可以根据子图像预设长度和子图像预设宽度，例如，512*512，对待检测前景图像3003进行裁剪处理，得到至少两个子图像，即子图像3004、子图像3005、…、子图像3006。然后，可以将至少两个子图像输入特征提取器3007，通过特征提取器3007提取每个子图像对应的子图像特征，从而得到特征表示子集3008。其中，特征提取器3007可以采用特征提取器RestNet50(Residual net 50，一种残差网络)来实现，也可以使用其他的预训练网络来实现，本申请在此不作限制。可选的，可以对待检测前景图像3003进行设定倍率的缩放，比如，将待检测前景图像3003进行十倍的放大，得到待裁剪前景图像，对该待裁剪前景图像进行裁剪处理，可以比对待检测前景图像3003进行裁剪处理得到更多的子图像，因此能得到更多的子图像特征，可以更精细地表示待检测图像。

步骤S102，生成所述至少两个子图像特征各自对应的注意力权重，根据所述注意力权重，对所述至少两个子图像特征进行加权聚合处理，得到第一特征向量。

具体的，注意力权重又可以称为注意力分数，用于衡量子图像特征的重要性，注意力权重越大，代表对应的子图像特征越重要，在最终输出的第一特征向量中，其对应的子图像特征的占比就越大。每个子图像特征对应的注意力权重可以通过一个以其自身为输入的网络学习得到。

具体的，在得到注意力权重后，就可以对子图像特征进行加权聚合处理，即根据注意力权重对子图像特征加权求和，得到第一特征向量。

步骤S103，对所述至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，所述分类簇包括采样子图像特征，根据所述至少两个分类簇和块稀疏矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力，根据至少两个所述块稀疏自注意力确定第二特征向量；所述采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的。

具体的，为了更好地挖掘各子图像特征之间的相关性，又避免过高的计算复杂度，可以先对至少两个子图像特征进行聚类，即根据子图像特征的相似性将至少两个子图像特征划分为至少两个分类簇，一个分类簇中的子图像特征对应的子图像属于相同类别的图像。然后从每个分类簇中采样出部分子图像特征，作为采样子图像特征。

具体的，采样子图像特征的自注意力是基于全局自注意力权重矩阵确定的，其中，全局自注意力权重矩阵用于表征采样子图像特征之间的相关度。因为之前已经对采样子图像特征进行了分类，因此计算机设备在确定某个采样子图像特征的自注意力时，只关注和该采样子图像特征属于相同分类簇的采样子图像特征即可。计算机设备根据采样子图像特征确定全局自注意力权重矩阵后，可以获取至少两个分类簇各自匹配的块稀疏矩阵，根据该块稀疏矩阵对全局自注意力权重矩阵进行过滤，得到块稀疏全局自注意力权重矩阵，该块稀疏全局自注意力权重矩阵用于表征相同分类簇的采样子图像特征之间的相关度。随后，根据块稀疏全局自注意力权重矩阵就可以确定每个采样子图像特征的块稀疏自注意力，计算机设备再对所有采样子图像特征的块稀疏自注意力进行均值池化处理，就可以得到第二特征向量。

步骤S104，根据所述第一特征向量和所述第二特征向量，确定所述待检测图像的分类结果。

具体的，在得到第一特征向量和第二特征向量后，就可以采用MLP(Multilayer Perceptron，多层感知机)分类器对第一特征向量和第二特征向量进行预测，输出分类结果。

采用本申请实施例提供的方法，对包括至少两个子图像的待检测图像进行特征提取处理，得到该待检测图像的特征表示子集，该特征表示子集包括至少两个子图像各自对应的子图像特征，然后通过两种方式来挖掘子图像的信息，一是独立挖掘各个子图像的信息，即生成至少两个子图像特征各自对应的注意力权重，再根据注意力权重对至少两个子图像特征进行加权聚合处理，得到第一特征向量；二是挖掘同类别的子图像之间的相关信息，即对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，每个分类簇包括采样子图像特征，根据至少两个分类簇和块稀疏矩阵确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；最后根据第一特征向量和第二特征向量，确定待检测图像的分类结果。通过两种信息挖掘方式得到的第一特征向量和第二特征向量之间可以相互补充且相互约束，因此可以提高图像的检测准确率，另外通过块稀疏矩阵可以保证在计算采样子图像特征对应的块稀疏自注意力时，只关注和该采样子图像特征属于同一分类簇的采样子图像特征之间的相关性，降低计算复杂度，提高了检测速度。

进一步地，请参见图4，图4是本申请实施例提供的一种图像检测方法的流程示意图。其中，该图像检测方法可以由计算机设备执行，其中，计算机设备可以为上述图1a所示的业务服务器100，也可以为上述图1a所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本图像检测方法由计算机设备执行为例进行说明。其中，该图像检测方法至少可以包括以下步骤S201-步骤S210：

步骤S201，获取待检测图像，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征表示子集；所述待检测图像包括至少两个子图像；所述特征表示子集包括至少两个子图像特征，所述至少两个子图像特征与所述至少两个子图像一一对应。

具体的，步骤S201的实现可以参见上述图2所对应实施例中对步骤S101的具体描述，这里不再进行赘述。

具体的，假设待检测图像为X，经过上述组织背景分割和图片剪裁后，得到至少两个子图像，至少两个子图像组成的图像集合可以表示为{x ₁，x ₂，…，x _n}，其中每个子图像x _i称为一个待检测图像的实例。可以通过下述公式(1)来表示上述对至少两个子图像进行特征提取处理的过程：

H＝{h ₁，h ₂，…，h _n}＝Ff{x ₁，x ₂，…，x _n} 公式(1)

其中，H为特征表示子集，h _i∈R ^1xd，默认d＝1024，i为小于或等于n的正整数。Ff表示特征提取处理，通常基于选用的特征提取器决定。

步骤S202，将所述至少两个子图像特征输入图像识别模型中的第一注意力子网络；所述第一注意力子网络包括权重学习网络层和加权聚合网络层。

步骤S203，通过所述权重学习网络层，对所述至少两个子图像特征分别进行权重拟合处理，得到所述至少两个子图像特征各自对应的注意力权重。

具体的，权重学习网络层可以采用参数化的神经网络，来学习子图像特征对应的注意力权重，其中，上述公式(1)得到的特征表示子集H中的子图像特征h _k对应的注意力权重a _k可以表示为公式(2)：

其中，W和V为参数矩阵，tanh为非线性函数。由公式(2)可知，注意力权重a _k仅与子图像特征h _k有关，与其他子图像特征无关，换言之，权重学习网络层对特征表示子集H进行了独立分布的假设。

步骤S204，通过所述加权聚合网络层，根据所述注意力权重对每个子图像特征进行加权处理，得到所述每个子图像特征对应的加权子图像特征，对所述至少两个子图像特征各自对应的所述加权子图像特征进行聚合处理，得到第一特征向量。

具体的，在加权聚合网络层中，可以采样一次项非线性的注意力加权的方式对子图像特征进行有效的聚合，即可以通过公式(3)来计算：

其中，X ₁是第一特征向量，n是特征表示子集H中包含的子图像特征的数量，h _k是特征表示子集H中第k个子图像特征，a _k是特征表示子集H中第k个子图像特征对应的注意力权重。

步骤S205，将所述至少两个子图像特征输入图像识别模型中的第二注意力子网络；所述第二注意力子网络包括聚类采样网络层、全局自注意力网络层、自注意力网络层以及均值池化网络层。

具体的，将至少两个子图像特征输入第一注意力子网络和将至少两个子图像特征输入第二注意力网络可以是同时进行的，且第一注意力子网络和第二注意力子网络互不影响。

步骤S206，通过所述聚类采样网络层，对所述至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，所述分类簇包括采样子图像特征；所述至少两个分类簇各自包括的采样子图像特征的数量之和为N，N为小于所述至少两个子图像特征的数量的正整数。

具体的，计算机设备在聚类采样网络层中，可以先对至少两个子图像特征进行聚类处理，得到至少两个分类簇，然后获取至少两个分类簇中的第k个分类簇，其中，k为正整数，第k个分类簇包括至少一个聚类子图像特征；然后计算机设备可以获取至少一个聚类子图像特征各自与第k个分类簇的簇中心之间的向量距离，作为参考距离；根据参考距离，在至少一个聚类子图像特征中按序获取h个聚类子图像特征，将h个聚类子图像特征作为第k个分类簇包括的采样子图像特征，其中，h为正整数，且h小于或等于至少一个聚类子图像特征的数量。

可以理解，假设通过对至少两个子图像特征进行聚类处理得到的分类簇的数量为p，每个分类簇拥有一个簇中心，在对每个分类簇进行采样时，可以采集距离该分类簇的簇中心最近的h个子图像特征，最终可以共得到N个采样子图像特征，N＝p×h。为了降低计算的复杂度，一般默认采样总数N＝128。经过聚类处理和采样处理后，得到的N个采样子图像特征具有多样性，且可近似作为原始的至少两个子图像特征的有效代表。

具体的，上述聚类处理可以采用无监督的k-means(一种无监督聚类方法)聚类方法，或者其他聚类方式，这里不作限定。聚类后得到的至少两个分类簇中，每个分类簇中包括的子图像特征对应的子图像所属的图像类别相同。为便于理解，请一并参见图5，图5是本申请实施例提供的一种结直肠病理图像的聚类结果示意图。如图5所示，同一组的子图像对应的子图像特征属于同一分类簇，从图5中可以发现不同的病理图像大致都可以分成组织学结构特征相似的类别。例如，组1中的子图像包含有明显的癌变组织；组2中的子图像均为染色异常或者成像质量较差的子图像；组3中的子图像包含的基本是腺体组织；组4中的子图像均聚集较多的免疫细胞等等。

步骤S207，通过所述全局自注意力网络层，基于块稀疏矩阵确定N个采样子图像特征的块稀疏全局自注意力权重矩阵。

具体的，第二注意力子网络包括查询权重矩阵和键权重矩阵。计算机设备通过全局自注意力网络层，基于块稀疏矩阵确定N个采样子图像特征的块稀疏全局自注意力权重矩阵的过程，可以为：通过全局自注意力网络层，根据至少两个分类簇各自包括的采样子图像特征构建采样子图像特征矩阵；将采样子图像特征矩阵与查询权重矩阵相乘，得到查询矩阵，将采样子图像特征矩阵与键权重矩阵相乘，得到键矩阵；根据查询矩阵、键矩阵对应的转置矩阵以及块稀疏矩阵，确定块稀疏全局相关度矩阵；对块稀疏全局相关度矩阵进行归一化处理，得到块稀疏全局自注意力权重矩阵。

具体的，上述采样子图像特征矩阵可以表示为公式(4)：

其中，

为采样子图像特征矩阵，

为采样子图像特征矩阵

中的第i个采样子图像特征，i为小于或等于N的正整数，N为上述所说的128。

具体的，查询矩阵的计算可以通过公式(5)来表示：

其中，W _q为查询权重矩阵，是由第二注意力子网络随机初始化得到的矩阵，

为上述采样子图像特征矩阵，Q即为查询矩阵，q _i为与采样子图像特征矩阵

中第i个采样子图像特征相关联的查询向量。

同理，键矩阵的计算可以通过公式(6)来表示：

其中，W _k为键权重矩阵，也是由第二注意力子网络随机初始化得到的矩阵，

为上述采样子图像特征矩阵，K即为键矩阵，k _i为与采样子图像特征矩阵

中第i个采样子图像特征相关联的键向量。

因此，块稀疏全局自注意力权重矩阵的计算可以通过公式(7)来表示：

其中，Q为上述查询矩阵，K ^T为上述键矩阵的转置矩阵，B为与至少两个分类簇相关的块稀疏矩阵，d _k为上述N，softmax的作用是归一化，A即为块稀疏全局自注意力权重矩阵。

为便于理解，请一并参见图6，图6是本申请实施例提供的一种对全局自注意力进行块稀疏约束的原理示意图。如图6所示，全局自注意力权重矩阵601是未被约束时的全局自注意力矩阵，此时，不同类别之间的采样子图像特征之间的信息也会被表示，计算机设备可以获取块稀疏矩阵602对其进行约束，就得到约束后的块稀疏全局自注意力权重矩阵603，由图6可知，块稀疏全局自注意力权重矩阵603中只会表示属于相同类别的采样子图像特征之间的信息。块稀疏约束本质上是利用类别的相关性，对全局自注意力进行了筛选，只关注和保留了同类别的注意力，去除了不同类别的注意力。相对于全局自注意力权重矩阵601，块稀疏全局自注意力权重矩阵603利用了实例的类别信息学习注意力，并做了适当的简化计算。

步骤S208，通过所述自注意力网络层，根据所述至少两个分类簇和所述块稀疏全局自注意力权重矩阵，确定每个采样子图像特征对应的块稀疏自注意力。

具体的，第二注意力子网络还包括值权重矩阵；上述N个采样子图像特征包括采样子图像特征N _a，a为小于或等于N的正整数。计算机设备通过自注意力网络层，将采样子图像特征矩阵和值权重矩阵相乘，得到值矩阵；将采样子图像特征N _a所属的分类簇中的采样子图像特征，作为目标采样子图像特征；从块稀疏全局自注意力权重矩阵中，获取采样子图像特征N _a和目标采样子图像特征之间的块稀疏全局自注意力权重，作为目标块稀疏全局自注意力权重；从值矩阵中，获取与目标采样子图像特征对应的值向量，作为目标值向量；根据目标值向量和目标块稀疏全局自注意力权重，确定采样子图像特征N _a对应的块稀疏自注意力。其中，采样子图像特征N _a即上述采样子图像特征矩阵

中的第a个采样子图像特征。

具体的，值矩阵的计算可以通过公式(8)来表示：

其中，W _v为值权重矩阵，是由第二注意力子网络随机初始化得到的矩阵，

为上述采样子图像特征矩阵，V即为值矩阵，v _i为与采样子图像特征矩阵

中第i个采样子图像特征相关联的值向量。

块稀疏自注意力的计算可以通过公式(9)来表示：

其中，z _a是指采样子图像特征N _a对应的块稀疏自注意力，

是采样子图像特征矩阵

中的第a个采样子图像特征，也就是采样子图像特征N _a，

是采样子图像特征矩阵

中的第b个采样子图像特征，a和b皆为小于或等于N的正整数。

是指

所属的分类簇的簇中心，

表示

属于该簇中心对应的分类簇。

是一个约束条件，即对b从1到N进行遍历，只有当

和

属于同一分类簇时，才对A _abv _b进行累加。v _b是值矩阵中与

相关联的值向量。A _ab是块稀疏全局自注意力权重矩阵中第a行第b列的块稀疏全局自注意力权重，即

和

之间的块稀疏全局自注意力权重。

步骤S209，通过所述均值池化网络层，对至少两个所述块稀疏自注意力进行均值池化处理，得到第二特征向量。

具体的，均值池化处理是指将至少两个块稀疏自注意力相加，然后求平均，得到的向量即为第二特征向量X ₂。

步骤S210，将所述第一特征向量和所述第二特征向量输入图像识别模型的分类子网络；所述分类子网络包括特征融合网络层和分类网络层；通过所述特征融合网络层，对所述第一特征向量和所述第二特征向量进行特征融合处理，得到融合特征向量；通过所述分类网络层，对所述融合特征向量进行分类处理，得到所述待检测图像的分类结果。

具体的，第一注意力子网络会输出第一特征向量X ₁，第二注意力子网络会输出第二特征向量X ₂，两个并行的特征向量会在特征融合网络层进行特征融合，分类网络层可以采用MLP分类器，因此最终的输出可以表示为下述公式(10)：

y＝MLP(concate(X ₁，X ₂)) 公式(10)

其中，Concate表示特征融合操作，常用的特征融合方式是特征拼接，加权求和。最终的输出为y，可以是对于待检测图像的正常预测概率，当正常预测概率低于某个阈值时，就可以确定待检测图像为异常图像。

为便于理解上述步骤S202-步骤S210中的图像识别模型的结构，请一并参见图7，图7是本申请实施例提供的一种图像识别模型的结构示意图。如图7所示，该图像识别模型7包括第一注意力子网络71、第二注意力子网络72以及分类子网络73。计算机设备在得到待检测图像对应的特征表示子集700后，会将该特征表示子集700中的子图像特征顺序输入图像识别模型7。其中，特征表示子集700包括至少两个子图像特征。在图像识别模型7中，计算机设备会将特征表示子集700分别输入进第一注意力子网络71和第二注意力子网络72。在第一注意力子网络71中，针对特征表示子集700中的每个子图像特征，均会通过一个参数化的神经网络来学习其对应的权重，例如，子图像特征711可以输入进参数化的神经网络712，神经网络712会输出子图像特征711的权重，具体实现方式可以参见上述步骤S203。然后在第一注意力子网络71中，计算机设备可以采用一次项非线性的注意力加权的方式，对特征表示子集700中的所有的子图像特征进行有效的聚合，最终得到第一特征向量713，其中，聚合的过程可以参见上述步骤S204。在第二注意力子网络72中，计算机设备会先对特征表示子集700进行无监督聚类，得到至少两个分类簇，例如分类簇721，分类簇721中的子图像特征对应的子图像属于相同类别的图像。然后，计算机设备会从每个分类簇中获取部分子图像特征，作为采样子图像特征。其中，聚类与采样的处理可以参见上述步骤S206。然后，在第二注意力子网络72中，计算机设备可以将采样子图像特征构成的采用子图像特征矩阵722经过矩阵变换得到键矩阵723、查询矩阵724以及值矩阵725，其中，矩阵变换可以参见上述公式(5)、公式(6)以及公式(8)，具体可以通过卷积核为1×1的卷积网络实现。然后在第二注意力子网络72中，可以根据键矩阵723的转置矩阵、查询矩阵724以及块稀疏矩阵确定块稀疏全局自注意力矩阵726，确定过程可以参见上述步骤S207。进一步根据块稀疏全局注意力矩阵726和值矩阵725确定第二特征向量727，确定过程可以参见上述步骤S208和步骤S209。最后，计算机设备会将第一特征向量713和第二特征向量727输入分类子网络73。在分类子网络73中，对第一特征向量713和第二特征向量727进行特征融合后，会将特征融合后的向量输入进分类器731，然后输出分类结果732，该分类结果732可以包括图像正常概率和图像异常概率。

采用本申请实施例提供的方法，图像识别模型中的第一注意力子网络和第二注意力子网络通过两种不同的方式挖掘待检测图像的信息，得到第一特征向量和第二特征向量，两个特征向量融合后可以相互补充、相互约束，对融合后的特征向量进行预测，得到的分类结果的准确率高。

进一步地，请参见图8，图8是本申请实施例提供的一种初始图像识别模型训练方法的流程示意图。其中，该初始图像识别模型训练方法可以由计算机设备执行，其中，计算机设备可以为上述图1a所示的业务服务器100，也可以为上述图1a所示的终端设备集群中的任一终端设备，例如终端设备10c。以下将以本初始图像识别模型训练方法由计算机设备执行为例进行说明。其中，该初始图像识别模型训练方法至少可以包括以下步骤S301-步骤S305：

步骤S301，获取样本图像，对所述样本图像进行特征提取处理，得到所述样本图像的样本特征表示子集；所述样本图像包括至少两个样本子图像；所述样本特征表示子集包括至少两个样本子图像特征，所述至少两个样本子图像特征与所述至少两个样本子图像一一对应。

具体的，步骤S301的实现过程可以参见上述图2所对应实施例中对步骤S101的描述，这里不再进行赘述。

步骤S302，将所述至少两个样本子图像输入初始图像识别模型，通过所述初始图像识别模型，生成所述至少两个样本子图像特征各自对应的样本注意力权重，根据所述至少两个样本子图像特征各自对应的样本注意力权重，对所述至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量。

具体的，初始图像识别模型可以包括第一初始注意力子网络，计算机设备可以通过该第一初始注意力子网络，生成至少两个样本子图像特征各自对应的样本注意力权重，根据至少两个样本子图像特征各自对应的样本注意力权重，对至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量，具体实现过程可以参见上述图4所对应实施例中步骤S202-步骤S204的描述，这里不再进行赘述。

步骤S303，通过所述初始图像识别模型，对所述至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，所述样本分类簇包括样本采样子图像特征，根据所述至少两个样本分类簇和块稀疏矩阵确定每个所述样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个样本块稀疏自注意力确定第二样本特征向量；所述样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的。

具体的，初始图像识别模型还可以包括第二初始注意力子网络，然后通过该第二初始注意力子网络，对至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇各自包括的样本采样子图像特征，根据至少两个样本分类簇和块稀疏矩阵确定每个样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个样本块稀疏自注意力确定第二样本特征向量，具体实现过程可以参见上述图4所对应实施例中步骤S205-步骤S209的描述，这里不再进行赘述。

步骤S304，通过所述初始图像识别模型，根据所述第一样本特征向量和所述第二样本特征向量，确定所述样本图像的样本分类结果。

具体的，初始图像识别模型还可以包括初始分类子网络，然后通过该初始分类子网络，根据第一样本特征向量和第二样本特征向量确定样本图像的样本分类结果，具体实现可以参见上述图4所对应实施例中步骤S210的描述，这里不再进行赘述。

步骤S305，根据所述至少两个样本分类簇、所述至少两个样本子图像特征各自对应的注意力权重、所述样本分类结果以及所述样本图像对应的分类标签，对所述初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。

具体的，因为最终得到的图像识别模型中第一注意力子网络和第二注意力子网络的输入都是相同的子图像特征，因此第一注意力子网络对至少两个子图像特征的注意力分布和第二注意力子网络对至少两个子图像特征的注意力分布应该是一致的，因此，计算机设备在对初始图像识别模型进行训练的过程中，可以先根据至少两个样本分类簇以及至少两个样本子图像特征各自对应的样本注意力权重，确定散度损失值；然后根据样本分类结果以及样本图像对应的分类标签，确定分类损失值；最后对散度损失值和分类损失值进行加权求和，得到模型总损失值；根据模型总损失值对初始图像识别模型进行模型参数调整，得到图像识别模型。其中，散度损失值用于保证最终训练得到的图像识别模型的两个网络分支对同样的子图像特征输入的注意力分布一致。分类损失值用于保证最终训练得到的图像识别模型输出的分类结果能更接近真实结果。

具体的，上述根据至少两个样本分类簇以及至少两个样本子图像特征各自对应的样本注意力权重，确定散度损失值的实现过程，可以为：获取至少两个样本分类簇中的第i个样本分类簇；i为正整数，且i小于或等于至少两个样本分类簇的数量；将第i个样本分类簇包括的样本子图像特征，作为目标样本子图像特征；根据目标样本子图像特征对应的样本注意力权重和目标样本子图像特征的数量，确定第i个样本分类簇对应的类别散度损失值；将每个样本分类簇对应的类别散度损失值进行累加，得到散度损失值。

因为计算机设备在对样本图像进行图像检测时，在第二初始注意力子网络中对样本图像包括的样本子图像特征进行了聚类，得到了至少两个样本分类簇，同一样本分类簇中的样本子图像特征在第二初始注意力子网络中的关注度是相同的，因此在第一初始注意力子网络中，同一样本分类簇中的样本子图像特征的关注度也应该是相同的。例如，样本图像包括6个样本子图像特征，即B1、B2、B3、B4、B5和B6，在第一初始注意力子网络中生成的样本注意力权重依次为0.10、0.22、0.11、0.31、0.22、0.12，在第二初始注意力子网络中生成的样本分类簇为：样本分类簇1{B1，B3，B6}，样本分类簇2{B2，B4，B5}，可见，样本分类簇1中的B1、B3、B4对应的样本注意力权重接近一致，合理；但是样本分类簇2中的B4对应的样本注意力权重明显高于B2和B5，这是不合理的，因此需要通过散度损失值来进行调整。也就是说，同一样本分类簇中的样本子图像特征在第一注意力子网络中生成的注意力权重应当服从均匀分布，因此每个样本分类簇可以确定出一个类别散度损失值。最后将每个样本分类簇对应的类别散度损失值进行累加，就得到散度损失值。

具体的，根据目标样本子图像特征对应的样本注意力权重和目标样本子图像特征的数量，确定第i个样本分类簇对应的类别散度损失值的实现过程，可以为：获取由目标样本子图像特征对应的样本注意力权重构成的拟合注意力分布；对拟合注意力权重分布进行归一化处理，得到归一化拟合注意力分布；将目标样本子图像特征的数量对应的均匀注意力分布，作为注意力分布标签；根据归一化拟合注意力分布和注意力分布标签，确定第i个样本分类簇对应的类别散度损失值。

假设目标样本子图像特征对应的样本注意力权重为0.10、0.12、0.11，则构成的拟合注意力分布即为[0.10，0.12，0.11]，为便于后续类别散度损失值计算时要求输入的是概率，因此需要对该拟合注意力分布进行归一化处理，即加起来和为1，得到归一化拟合注意力分布为[0.303，0.363，0.333]。目标样本子图像特征的数量为3，则对应的均匀注意力分布作为注意力分布标签，为[1/3，1/3，1/3]。

根据归一化拟合注意力分布和注意力分布标签，确定第i个样本分类簇对应的类别散度损失值的过程，可以通过下述公式(11)来表示：

其中，G为目标样本子图像特征的数量，p(x _i)为注意力分布标签中的第i个值，d(x _i)为归一化拟合注意力分布中的第i个值；D _KL(P∥D)为类别散度损失值。

因此，上述散度损失值的计算可以通过下述公式(12)来实现：

其中，c为至少两个样本分类簇中的样本分类簇的数量，D _KL(U∥D _i)指至少两个样本分类簇中的第i个样本分类簇的类别散度损失值；KL为散度损失值。

具体的，总损失值的确定就可以通过下述公式(13)来实现：

Loss＝CE(y,y′)+α*KL 公式(13)

其中，y表示样本图像对应的分类标签；y′表示上述初始分类子网络输出的样本分类结果，KL为上述散度损失值，α表示权重，默认为0.01。

具体的，初始图像识别模型训练时，可以训练100epoch(时期)，优化器默认采用Adam(一种优化算话)，初始化学习率为1e-4，采用余弦退火策略调整学习率，最小学习率为1e-6。

采用本申请实施例提供的方法，在对初始图像识别模型进行训练时，对第一初始注意力子网络和第二初始注意力子网络的注意力分布进行了额外约束，即在损失函数中增加K-L散度损失函数，保证对同样的多实例输入两个子网络的注意力分布一致，最终训练得到的图像识别模型的图像检测准确率高。

请参见图9，图9是本申请实施例提供的一种图像检测装置的结构示意图。该图像检测装置可以是运行于计算机设备的一个计算机程序(包括程序代码)，例如该图像检测装置为一个应用软件；该装置可以用于执行本申请实施例提供的图像检测方法中的相应步骤。如图9所示，该图像检测装置1可以包括：特征提取模块11、第一向量生成模块12、第二向量生成模块13以及分类模块14。

特征提取模块11，用于获取待检测图像，对待检测图像进行特征提取处理，得到待检测图像的特征表示子集；待检测图像包括至少两个子图像；特征表示子集包括至少两个子图像特征，至少两个子图像特征与至少两个子图像一一对应；

第一向量生成模块12，用于生成至少两个子图像特征各自对应的注意力权重，根据注意力权重对至少两个子图像特征进行加权聚合处理，得到第一特征向量；

第二向量生成模块13，用于对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，分类簇包括采样子图像特征，根据至少两个分类簇和块稀疏矩阵，确定每个采样子图像特征对应的块稀疏自注意力，根据至少两个块稀疏自注意力确定第二特征向量；采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的；

分类模块14，用于根据第一特征向量和第二特征向量，确定待检测图像的分类结果。

其中，特征提取模块11、第一向量生成模块12、第二向量生成模块13以及分类模块14的具体实现方式，可以参见上述图2所对应实施例的相关描述，这里将不再进行赘述。

其中，特征提取模块11，包括：预处理单元111以及特征提取单元112。

预处理单元111，用于识别待检测图像中的背景区域和前景区域；

预处理单元111，还用于根据背景区域和前景区域，对待检测图像进行图像分割，得到待检测前景图像；

预处理单元111，还用于根据缩放倍率对待检测前景图像进行缩放处理，得到待裁剪前景图像；

预处理单元111，还用于根据子图像预设长度和子图像预设宽度，对待裁剪前景图像进行裁剪处理，得到至少两个子图像；子图像预设长度小于待裁剪前景图像的长度；子图像预设宽度小于待裁剪前景图像的宽度；

特征提取单元112，用于对至少两个子图像分别进行图像特征提取处理，得到至少两个子图像各自对应的子图像特征，根据至少两个子图像各自对应的子图像特征，确定待检测图像的特征表示子集。

其中，预处理单元111以及特征提取单元112的具体实现方式，可以参见上述图2所对应实施例的相关描述，这里将不再进行赘述。

其中，第一向量生成模块12，包括：第一输入单元121、权重拟合单元122以及聚合单元123。

第一输入单元121，用于将至少两个子图像特征输入图像识别模型中的第一注意力子网络；第一注意力子网络包括权重学习网络层和加权聚合网络层；

权重拟合单元122，用于通过权重学习网络层，对至少两个子图像特征分别进行权重拟合处理，得到至少两个子图像特征各自对应的注意力权重；

聚合单元123，用于通过加权聚合网络层，根据注意力权重对每个子图像特征进行加权处理，得到每个子图像特征对应的加权子图像特征，对至少两个子图像特征各自对应的加权子图像特征进行聚合处理，得到第一特征向量。

其中，第一输入单元121、权重拟合单元122以及聚合单元123的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

其中，第二向量生成模块13，包括：第二输入单元131、聚类采样单元132、全局自注意力确定单元133、自注意力确定单元134以及均值池化单元135。

第二输入单元131，用于将至少两个子图像特征输入图像识别模型中的第二注意力子网络；第二注意力子网络包括聚类采样网络层、全局自注意力网络层、自注意力网络层以及均值池化网络层；

聚类采样单元132，用于通过聚类采样网络层，对至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，分类簇包括采样子图像特征；至少两个分类簇各自包括的采样子图像特征的数量之和为N，N为小于至少两个子图像特征的数量的正整数；

全局自注意力确定单元133，用于通过全局自注意力网络层，基于块稀疏矩阵确定N个采样子图像特征的块稀疏全局自注意力权重矩阵；

自注意力确定单元134，用于通过自注意力网络层，根据至少两个分类簇和块稀疏全局自注意力权重矩阵，确定每个采样子图像特征对应的块稀疏自注意力；

均值池化单元135，用于通过均值池化网络层，对至少两个块稀疏自注意力进行均值池化处理，得到第二特征向量。

其中，第二输入单元131、聚类采样单元132、全局自注意力确定单元133、自注意力确定单元134以及均值池化单元135的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

其中，聚类采样单元132，包括：聚类子单元1321以及采样子单元1322。

聚类子单元1321，用于通过聚类采样网络层，对至少两个子图像特征进行聚类处理，得到至少两个分类簇；

采样子单元1322，用于获取至少两个分类簇中的第k个分类簇；k为正整数；第k个分类簇包括至少一个聚类子图像特征；

采样子单元1322，还用于获取至少一个聚类子图像特征各自与第k个分类簇的簇中心之间的向量距离，作为参考距离；

采样子单元1322，还用于根据参考距离，在至少一个聚类子图像特征中按序获取h个聚类子图像特征，将h个聚类子图像特征作为第k个分类簇包括的采样子图像特征；h为正整数，且h小于或等于至少一个聚类子图像特征的数量。

其中，聚类子单元1321以及采样子单元1322的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

其中，第二注意力子网络包括查询权重矩阵和键权重矩阵；

全局自注意力确定单元133，包括：第一初始化子单元1331、矩阵确定子单元1332以及归一化子单元1333。

第一初始化子单元1331，用于通过全局自注意力网络层，根据至少两个分类簇各自包括的采样子图像特征，构建采样子图像特征矩阵；

第一初始化子单元1331，还用于将采样子图像特征矩阵与查询权重矩阵相乘，得到查询矩阵，将采样子图像特征矩阵与键权重矩阵相乘，得到键矩阵；

矩阵确定子单元1332，用于根据查询矩阵、键矩阵对应的转置矩阵以及块稀疏矩阵，确定块稀疏全局相关度矩阵；

归一化子单元1333，用于对块稀疏全局相关度矩阵进行归一化处理，得到块稀疏全局自注意力权重矩阵。

其中，第一初始化子单元1331、矩阵确定子单元1332以及归一化子单元1333的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

其中，第二注意力子网络还包括值权重矩阵；N个采样子图像特征包括采样子图像特征N _j，j为小于或等于N的正整数；

自注意力确定单元134，包括：目标获取子单元1341以及确定子单元1342。

目标获取子单元1341，用于通过自注意力网络层，将采样子图像特征矩阵和值权重矩阵相乘，得到值矩阵；

目标获取子单元1341，还用于将采样子图像特征N _j所属的分类簇中的采样子图像特征，作为目标采样子图像特征；

目标获取子单元1341，还用于从块稀疏全局自注意力权重矩阵中，获取采样子图像特征N _j和目标采样子图像特征之间的块稀疏全局自注意力权重，作为目标块稀疏全局自注意力权重；

目标获取子单元1341，还用于从值矩阵中，获取与目标采样子图像特征对应的值向量，作为目标值向量；

确定子单元1342，用于根据目标值向量和目标块稀疏全局自注意力权重，确定采样子图像特征N _j对应的块稀疏自注意力。

其中，目标获取子单元1341以及确定子单元1342的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

其中，分类模块14，包括：第三输入单元141、特征融合单元142以及分类单元143。

第三输入单元141，用于将第一特征向量和第二特征向量输入图像识别模型的分类子网络；分类子网络包括特征融合网络层和分类网络层；

特征融合单元142，用于通过特征融合网络层，对第一特征向量和第二特征向量进行特征融合处理，得到融合特征向量；

分类单元143，用于通过分类网络层，对融合特征向量进行分类处理，得到待检测图像的分类结果。

其中，第三输入单元141、特征融合单元142以及分类单元143的具体实现方式，可以参见上述图4所对应实施例的相关描述，这里将不再进行赘述。

请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，上述图10所对应实施例中的图像检测装置1可以应用于计算机设备1000，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图10所示的计算机设备1000中，网络接口1004可提供网络通讯网元；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现本申请实施例提供的图像检测方法。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2、图4任一个所对应实施例中对该图像检测方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的图像检测装置1所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图2、图4任一个所对应实施例中对上述图像检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

进一步地，请参见图11，图11是本申请实施例提供的另一种图像检测装置的结构示意图。该图像检测装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该图像检测装置2为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示，该图像检测装置2可以包括：样本特征提取模块21、第一样本向量生成模块22、第二样本向量生成模块23、样本分类模块24以及训练模块25。

样本特征提取模块21，用于获取样本图像，对样本图像进行特征提取处理，得到样本图像的样本特征表示子集；样本图像包括至少两个样本子图像；样本特征表示子集包括至少两个样本子图像特征，至少两个样本子图像特征与至少两个样本子图像一一对应；

第一样本向量生成模块22，用于将至少两个样本子图像输入初始图像识别模型，通过初始图像识别模型，生成至少两个样本子图像特征各自对应的样本注意力权重，根据至少两个样本子图像特征各自对应的样本注意力权重，对至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量；

第二样本向量生成模块23，用于通过初始图像识别模型，对至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，样本分类簇包括样本采样子图像特征，根据至少两个样本分类簇和块稀疏矩阵，确定每个样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个样本块稀疏自注意力确定第二样本特征向量；样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的；

样本分类模块24，用于通过初始图像识别模型，根据第一样本特征向量和第二样本特征向量，确定样本图像的样本分类结果；

训练模块25，用于根据至少两个样本分类簇、至少两个样本子图像特征各自对应的注意力权重、样本分类结果以及样本图像对应的分类标签，对初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。

其中，样本特征提取模块21、第一样本向量生成模块22、第二样本向量生成模块23、样本分类模块24以及训练模块25的具体实现方式，可以参见上述图8所对应实施例的相关描述，这里将不再进行赘述。

其中，训练模块25，包括：散度损失值确定单元251、分类损失值确定单元252、加权求和单元253以及模型调整单元254。

散度损失值确定单元251，用于根据至少两个样本分类簇以及至少两个样本子图像特征各自对应的样本注意力权重，确定散度损失值；

分类损失值确定单元252，用于根据样本分类结果以及样本图像对应的分类标签，确定分类损失值；

加权求和单元253，用于对散度损失值和分类损失值进行加权求和，得到模型总损失值；

模型调整单元254，用于根据模型总损失值，对初始图像识别模型进行模型参数调整，得到图像识别模型。

其中，散度损失值确定单元251、分类损失值确定单元252、加权求和单元253以及模型调整单元254的具体实现方式，可以参见上述图8所对应实施例的相关描述，这里将不再进行赘述。

其中，散度损失值确定单元251，包括：获取子单元2511、类别损失值确定子单元2512以及总损失值确定子单元2513。

获取子单元2511，用于获取至少两个样本分类簇中的第i个样本分类簇；i为正整数，且i小于或等于至少两个样本分类簇的数量；

获取子单元2511，还用于将第i个样本分类簇包括的样本子图像特征，作为目标样本子图像特征；

类别损失值确定子单元2512，用于根据目标样本子图像特征对应的样本注意力权重和目标样本子图像特征的数量，确定第i个样本分类簇对应的类别散度损失值；

总损失值确定子单元2513，将每个样本分类簇对应的类别散度损失值进行累加，得到散度损失值。

其中，类别损失值确定子单元2512具体用于获取由目标样本子图像特征对应的样本注意力权重构成的拟合注意力分布；对拟合注意力权重分布进行归一化处理，得到归一化拟合注意力分布；将目标样本子图像特征的数量对应的均匀注意力分布，作为注意力分布标签；根据归一化拟合注意力分布和注意力分布标签，确定第i个样本分类簇对应的类别散度损失值。

其中，获取子单元2511、类别损失值确定子单元2512以及总损失值确定子单元2513的具体实现方式，可以参见上述图8所对应实施例的相关描述，这里将不再进行赘述。

进一步地，请参见图12，图12是本申请实施例提供的另一种计算机设备的结构示意图。如图12所示，上述图11所对应实施例中的图像检测装置2可以应用于计算机设备2000，该计算机设备2000可以包括：处理器2001，网络接口2004和存储器2005，此外，上述计算机设备2000还包括：用户接口2003，和至少一个通信总线2002。其中，通信总线2002用于实现这些组件之间的连接通信。其中，用户接口2003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口2003还可以包括标准的有线接口、无线接口。网络接口2004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器2005可选的还可以是至少一个位于远离前述处理器2001的存储装置。如图12所示，作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图12所示的计算机设备2000中，网络接口2004可提供网络通讯功能；而用户接口2003主要用于为用户提供输入的接口；而处理器2001可以用于调用存储器2005中存储的设备控制应用程序，以实现本申请实施例提供初始图像识别模型训练方法。

应当理解，本申请实施例中所描述的计算机设备2000可执行前文各个实施例中对该访问控制方法的描述，也可执行前文图11所对应实施例中对该图像检测装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的图像检测装置2所执行的计算机程序，当上述处理器加载并执行上述计算机程序时，能够执行前文任一实施例对上述访问控制方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的图像检测装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

此外，这里需要指出的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文任一个所对应实施例提供的方法。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照网元一般性地描述了各示例的组成及步骤。这些网元究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的网元，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种图像检测方法，由计算机设备执行，包括：

获取待检测图像，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征表示子集；所述待检测图像包括至少两个子图像；所述特征表示子集包括至少两个子图像特征，所述至少两个子图像特征与所述至少两个子图像一一对应；

生成所述至少两个子图像特征各自对应的注意力权重，根据所述注意力权重，对所述至少两个子图像特征进行加权聚合处理，得到第一特征向量；

对所述至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，所述分类簇包括采样子图像特征，根据所述至少两个分类簇和块稀疏矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力，根据至少两个所述块稀疏自注意力确定第二特征向量；所述采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的；

根据所述第一特征向量和所述第二特征向量，确定所述待检测图像的分类结果。
根据权利要求1所述的方法，所述对所述待检测图像进行特征提取处理，得到所述待检测图像的特征表示子集，包括：

识别所述待检测图像中的背景区域和前景区域；

根据所述背景区域和所述前景区域，对所述待检测图像进行图像分割，得到待检测前景图像；

根据缩放倍率对所述待检测前景图像进行缩放处理，得到待裁剪前景图像；

根据子图像预设长度和子图像预设宽度，对所述待裁剪前景图像进行裁剪处理，得到所述至少两个子图像；所述子图像预设长度小于所述待裁剪前景图像的长度；所述子图像预设宽度小于所述待裁剪前景图像的宽度；

对所述至少两个子图像分别进行图像特征提取处理，得到所述至少两个子图像各自对应的子图像特征，根据所述至少两个子图像各自对应的子图像特征，确定所述待检测图像的特征表示子集。
根据权利要求1所述的方法，所述生成所述至少两个子图像特征各自对应的注意力权重，根据所述注意力权重，对所述至少两个子图像特征进行加权聚合处理，得到第一特征向量，包括：

将所述至少两个子图像特征输入图像识别模型中的第一注意力子网络；所述第一注意力子网络包括权重学习网络层和加权聚合网络层；

通过所述权重学习网络层，对所述至少两个子图像特征分别进行权重拟合处理，得到所述至少两个子图像特征各自对应的注意力权重；

通过所述加权聚合网络层，根据所述注意力权重对每个所述子图像特征进行加权处理，得到每个所述子图像特征对应的加权子图像特征，对所述至少两个子图像特征各自对应的所述加权子图像特征进行聚合处理，得到所述第一特征向量。
根据权利要求1所述的方法，所述对所述至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，所述分类簇包括采样子图像特征，根据所述至少两个分类簇和块稀疏矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力，根据至少两个所述块稀疏自注意力确定第二特征向量，包括：

将所述至少两个子图像特征输入图像识别模型中的第二注意力子网络；所述第二注意力子网络包括聚类采样网络层、全局自注意力网络层、自注意力网络层以及均值池化网络层；

通过所述聚类采样网络层，对所述至少两个子图像特征进行聚类采样处理，得到所述至少两个分类簇；所述分类簇包括所述采样子图像特征；所述至少两个分类簇各自包括的采样子图像特征的数量之和为N，N为小于所述至少两个子图像特征的数量的正整数；

通过所述全局自注意力网络层，基于块稀疏矩阵确定N个采样子图像特征的块稀疏全局自注意力权重矩阵；

通过所述自注意力网络层，根据所述至少两个分类簇和所述块稀疏全局自注意力权重矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力；

通过所述均值池化网络层，对至少两个所述块稀疏自注意力进行均值池化处理，得到第二特征向量。
根据权利要求4所述的方法，所述通过所述聚类采样网络层，对所述至少两个子图像特征进行聚类采样处理，得到所述至少两个分类簇，包括：

通过所述聚类采样网络层，对所述至少两个子图像特征进行聚类处理，得到所述至少两个分类簇；

获取所述至少两个分类簇中的第k个分类簇；k为正整数；所述第k个分类簇包括至少一个聚类子图像特征；

获取所述至少一个聚类子图像特征各自与所述第k个分类簇的簇中心之间的向量距离，作为参考距离；

根据所述参考距离，在所述至少一个聚类子图像特征中按序获取h个聚类子图像特征，将所述h个聚类子图像特征作为所述第k个分类簇包括的采样子图像特征；h为正整数，且h小于或等于所述至少一个聚类子图像特征的数量。
根据权利要求4所述的方法，所述第二注意力子网络包括查询权重矩阵和键权重矩阵；所述通过所述全局自注意力网络层，基于块稀疏矩阵确定N个采样子图像特征的块稀疏全局自注意力权重矩阵，包括：

通过所述全局自注意力网络层，根据所述至少两个分类簇各自包括的采样子图像特征，构建采样子图像特征矩阵；

将所述采样子图像特征矩阵与所述查询权重矩阵相乘，得到查询矩阵，将所述采样子图像特征矩阵与所述键权重矩阵相乘，得到键矩阵；

根据所述查询矩阵、所述键矩阵对应的转置矩阵以及所述块稀疏矩阵，确定块稀疏全局相关度矩阵；

对所述块稀疏全局相关度矩阵进行归一化处理，得到所述块稀疏全局自注意力权重矩阵。
根据权利要求6所述的方法，所述第二注意力子网络还包括值权重矩阵；所述N个采样子图像特征包括采样子图像特征N _j，j为小于或等于N的正整数；所述通过所述自注意力网络层，根据所述至少两个分类簇和所述块稀疏全局自注意力权重矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力，包括：

通过所述自注意力网络层，将所述采样子图像特征矩阵和所述值权重矩阵相乘，得到值矩阵；

将所述采样子图像特征N _j所属的分类簇中的采样子图像特征，作为目标采样子图像特征；

从所述块稀疏全局自注意力权重矩阵中，获取所述采样子图像特征N _j和所述目标采样子图像特征之间的块稀疏全局自注意力权重，作为目标块稀疏全局自注意力权重；

从所述值矩阵中，获取与所述目标采样子图像特征对应的值向量，作为目标值向量；

根据所述目标值向量和所述目标块稀疏全局自注意力权重，确定所述采样子图像特征N _j对应的块稀疏自注意力。
根据权利要求1所述的方法，所述根据所述第一特征向量和所述第二特征向量，确定所述待检测图像的分类结果，包括：

将所述第一特征向量和所述第二特征向量输入图像识别模型的分类子网络；所述分类子网络包括特征融合网络层和分类网络层；

通过所述特征融合网络层，对所述第一特征向量和所述第二特征向量进行特征融合处理，得到融合特征向量；

通过所述分类网络层，对所述融合特征向量进行分类处理，得到所述待检测图像的分类结果。
一种图像检测方法，由计算机设备执行，包括：

获取样本图像，对所述样本图像进行特征提取处理，得到所述样本图像的样本特征表示子集；所述样本图像包括至少两个样本子图像；所述样本特征表示子集包括至少两个样本子图像特征，所述至少两个样本子图像特征与所述至少两个样本子图像一一对应；

将所述至少两个样本子图像输入初始图像识别模型，通过所述初始图像识别模型，生成所述至少两个样本子图像特征各自对应的样本注意力权重，根据所述至少两个样本子图像特征各自对应的样本注意力权重，对所述至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量；

通过所述初始图像识别模型，对所述至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，所述样本分类簇包括样本采样子图像特征，根据所述至少两个样本分类簇和块稀疏矩阵确定每个所述样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个所述样本块稀疏自注意力确定第二样本特征向量；所述样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的；

通过所述初始图像识别模型，根据所述第一样本特征向量和所述第二样本特征向量，确定所述样本图像的样本分类结果；

根据所述至少两个样本分类簇、所述至少两个样本子图像特征各自对应的注意力权重、所述样本分类结果以及所述样本图像对应的分类标签，对所述初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。
根据权利要求9所述的方法，所述根据所述至少两个样本分类簇、所述至少两个样本子图像特征各自对应的注意力权重、所述样本分类结果以及所述样本图像对应的分类标签，对所述初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型，包括：

根据所述至少两个样本分类簇以及所述至少两个样本子图像特征各自对应的样本注意力权重，确定散度损失值；

根据所述样本分类结果以及所述样本图像对应的分类标签，确定分类损失值；

对所述散度损失值和所述分类损失值进行加权求和，得到模型总损失值；

根据所述模型总损失值，对所述初始图像识别模型进行模型参数调整，得到所述图像识别模型。
根据权利要求10所述的方法，所述根据所述至少两个样本分类簇以及所述至少两个样本子图像特征各自对应的样本注意力权重，确定散度损失值，包括：

获取所述至少两个样本分类簇中的第i个样本分类簇；i为正整数，且i小于或等于所述至少两个样本分类簇的数量；

将所述第i个样本分类簇包括的样本子图像特征，作为目标样本子图像特征；

根据所述目标样本子图像特征对应的样本注意力权重和所述目标样本子图像特征的数量，确定第i个样本分类簇对应的类别散度损失值；

将每个样本分类簇对应的类别散度损失值进行累加，得到所述散度损失值。
根据权利要求11所述的方法，所述根据所述目标样本子图像特征对应的样本注意力权重和所述目标样本子图像特征的数量，确定第i个样本分类簇对应的类别散度损失值，包括：

获取由所述目标样本子图像特征对应的样本注意力权重构成的拟合注意力分布；

对所述拟合注意力权重分布进行归一化处理，得到归一化拟合注意力分布；

将所述目标样本子图像特征的数量对应的均匀注意力分布，作为注意力分布标签；

根据所述归一化拟合注意力分布和所述注意力分布标签，确定所述第i个样本分类簇对应的类别散度损失值。
一种图像检测装置，包括：

特征提取模块，用于获取待检测图像，对所述待检测图像进行特征提取处理，得到所述待检测图像的特征表示子集；所述待检测图像包括至少两个子图像；所述特征表示子集包括至少两个子图像特征，所述至少两个子图像特征与所述至少两个子图像一一对应；

第一向量生成模块，用于生成所述至少两个子图像特征各自对应的注意力权重，根据所述注意力权重，对所述至少两个子图像特征进行加权聚合处理，得到第一特征向量；

第二向量生成模块，用于对所述至少两个子图像特征进行聚类采样处理，得到至少两个分类簇，所述分类簇包括采样子图像特征，根据所述至少两个分类簇和块稀疏矩阵，确定每个所述采样子图像特征对应的块稀疏自注意力，根据至少两个所述块稀疏自注意力确定第二特征向量；所述采样子图像特征对应的块稀疏自注意力是基于其所属的分类簇中的采样子图像特征确定的；

分类模块，用于根据所述第一特征向量和所述第二特征向量，确定所述待检测图像的分类结果。
一种图像检测装置，包括：

样本特征提取模块，用于获取样本图像，对所述样本图像进行特征提取处理，得到所述样本图像的样本特征表示子集；所述样本图像包括至少两个样本子图像；所述样本特征表示子集包括至少两个样本子图像特征，所述至少两个样本子图像特征与所述至少两个样本子图像一一对应；

第一样本向量生成模块，用于将所述至少两个样本子图像输入初始图像识别模型，通过所述初始图像识别模型，生成所述至少两个样本子图像特征各自对应的样本注意力权重，根据所述至少两个样本子图像特征各自对应的样本注意力权重，对所述至少两个样本子图像特征进行加权聚合处理，得到第一样本特征向量；

第二样本向量生成模块，用于通过所述初始图像识别模型，对所述至少两个样本子图像特征进行聚类采样处理，得到至少两个样本分类簇，所述样本分类簇包括样本采样子图像特征，根据所述至少两个样本分类簇和块稀疏矩阵确定每个所述样本采样子图像特征对应的样本块稀疏自注意力，根据至少两个所述样本块稀疏自注意力确定第二样本特征向量；所述样本采样子图像特征对应的样本块稀疏自注意力是基于其所属的样本分类簇中的样本采样子图像特征确定的；

样本分类模块，用于通过所述初始图像识别模型，根据所述第一样本特征向量和所述第二样本特征向量，确定所述样本图像的样本分类结果；

训练模块，用于根据所述至少两个样本分类簇、所述至少两个样本子图像特征各自对应的注意力权重、所述样本分类结果以及所述样本图像对应的分类标签，对所述初始图像识别模型进行模型参数调整，得到用于识别待检测图像的分类结果的图像识别模型。
一种计算机设备，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-12任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-12任一项所述的方法。
一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时，可以执行权利要求1-12任一项所述的方法。