WO2021208726A1

WO2021208726A1 - 基于注意力机制的目标检测方法、装置及计算机设备

Info

Publication number: WO2021208726A1
Application number: PCT/CN2021/083935
Authority: WO
Inventors: 张国辉; 杨国青; 宋晨
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-11-23
Filing date: 2021-03-30
Publication date: 2021-10-21
Also published as: CN112396115B; CN112396115A

Abstract

一种基于注意力机制的目标检测方法、装置及计算机设备，该方法包括：接收用户输入的待检测图像；将待检测图像输入至卷积神经网络模型中，提取到待检测图像的多层特征图；根据注意力机制对多层特征图进行加权，得到加权后的特征图；根据多层特征图生成待检测图像的特征金字塔；将加权后的特征图分别与特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从融合后的特征金字塔中获取与目标图像相匹配的特征图；根据目标检测模型对与目标图像相匹配的特征图进行目标检测，得到目标图像。该方法基于人工智能中的神经网络技术，通过引入注意力机制对卷积输出层的特征进行融合，大幅度提高了在进行不同目标检测任务时的精度。

Description

基于注意力机制的目标检测方法、装置及计算机设备

本申请要求于2020年11月23日提交中国专利局、申请号为202011322670.7，发明名称为“基于注意力机制的目标检测方法、装置及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及目标检测技术领域，尤其涉及一种基于注意力机制的目标检测方法、装置及计算机设备。

背景技术

在现有的目标检测技术中，无论是在两阶段的Faster RCNN的多层特征融合上，还是在单阶段的YOLO的多层特征融合上，均采用的是特征金字塔将高层特征上采样后和临近的底层特征拼接以进行特征融合。当需要执行小目标的检测任务时，需采用特征金字塔中大尺寸的特征图来进行目标检测；当需要执行大目标的检测任务时，需采用特征金字塔中小尺寸的特征图来进行目标检测。虽然采用特征金字塔进行目标检测具有较好的检测精度，但是发明人意识到现有的目标检测技术仍然无法满足理想检测的精确度。因此，如何在特征金字塔的基础上提高对进行不同目标检测任务时的检测的精确度为本申请所需解决的问题。

发明内容

本申请实施例提供了一种基于注意力机制的目标检测方法、装置及计算机设备，旨在解决现有技术中基于特征金字塔进行不同目标检测任务时的检测精度无法满足检测需求的问题。

第一方面，本申请实施例提供了一种基于注意力机制的目标检测方法，其包括：

接收用户输入的待检测图像；

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

根据所述多层特征图生成所述待检测图像的特征金字塔；

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

第二方面，本申请实施例提供了一种基于注意力机制的目标检测装置，其包括：

接收单元，用于接收用户输入的待检测图像；

第一生成单元，用于将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

第二生成单元，用于根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

第三生成单元，用于根据所述多层特征图生成所述待检测图像的特征金字塔；

融合单元，用于将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

获取单元，用于从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

目标检测单元，用于根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

第三方面，本申请实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时执行以下步骤：

接收用户输入的待检测图像；

根据所述多层特征图生成所述待检测图像的特征金字塔；

第四方面，本申请实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下步骤：

接收用户输入的待检测图像；

根据所述多层特征图生成所述待检测图像的特征金字塔；

本申请实施例提供了一种基于注意力机制的目标检测方法、装置及计算机设备，通过上述方法可以在进行目标检测任务时，自适应的调节不同的特征层权重，同时最后的融合特征更适用于目标检测任务，在额外时间开销较小的情况下可大幅度的提高检测精度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于注意力机制的目标检测方法的流程示意图；

图2为本申请实施例提供的基于注意力机制的目标检测方法的子流程示意图；

图3为本申请实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图4为本申请实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图5为本申请实施例提供的基于注意力机制的目标检测方法的另一子流程示意图；

图6为本申请实施例提供的基于注意力机制的目标检测装置的示意性框图；

图7为本申请实施例提供的基于注意力机制的目标检测装置的子单元示意性框图；

图8为本申请实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图9为本申请实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图10为本申请实施例提供的基于注意力机制的目标检测装置的另一子单元示意性框图；

图11为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的基于注意力机制的目标检测方法的流程示意图。所述基于注意力机制的目标检测方法在服务器中进行搭建并运行，在服务器接收到例如手提电脑、平板电脑等智能终端设备发送的待检测图像后，将所述待检测图像进行特征提取，得到所述待检测图像的多层特征图，然后根据预设的注意力机制对所述多层特征图进行加权，得到加权后的特征图，所述加权后的特征图与所述多层特征图中的每层特征图的相对应，然后通过对所述多层特征图中的每层特征图再次进行卷积，得到所述待检测图像的特征金字塔，最后将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，所述融合后的特征金字塔更适配目标图像的检测，在额外时间开销较小的情况下可大幅度的提高检测精度。

下面对所述基于注意力机制的目标检测方法进行详细说明。如图1所示，该方法包括以下步骤S110～S170。

S110、接收用户输入的待检测图像。

接收用户输入的待检测图像。具体的，所述待检测图像中包含有目标图像的特征信息，用户通过终端如手提电脑、平板电脑、智能手机等终端设备向服务器发送所述待检测图像，服务器在接收到所述待检测图像后，便可执行所述基于注意力机制的目标检测方法，得到所述待检测图像的融合后的特征金字塔，以适应于不同的目标检测任务。

S120、将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。具体的，所述卷积神经网络模型为预先训练好且用于对输入的所述待检测图像进行特征提取，得到所述待检测图像的多层特征图的模型，即所述待检测图像输入到所述卷积神经网络模型中后，所述待检测图像依次经过若干卷积层、池化层、激活函数层，所述多层特征图中的每层特征图自底向上的通道数逐渐变多，尺寸逐渐变小，每层提取的特征被送入下一层作为输入，即所述多层特征图由所述待检测图像输入至所述卷积神经网络模型中后经过的不同卷积阶段的特征图组成，所述多层特征图自底向上的特征图的语义信息的丰富度逐渐增强，分辨率逐渐降低。所述多层特征图中最底层的特征图中的语义信息最少，分辨率最高，不适用于对小的目标进行检测；所述多层特征图中最顶层的特征图中的语义最丰富，分辨率最低，不适用于对大的目标进行检测。其中，卷积神经网络可以为VGG(Visual Geometry Group，超分辨率测试序列)卷积神经网络、深度ResNet(Residual Networks，残差网络)等深度卷积神经网络。例如，当所述卷积神经网络的卷积过程包含conv1、conv2、conv3、conv4四个阶段时，提取conv1、conv2、conv3、conv4四个阶段最后一层的特征图，便可得到所述待检测图像的多层特征图。

S130、根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。具体的，注意力机制本质上与人类的选择性视觉注意力机制类似，核心思想是从众多信息中选择出对当前任务目标更关键的信息。所述注意力机制用于获取所述多层特征图中的每层特征图的权重，在获取到所述多层特征图中的每层特征图的权重后，将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加便可完成对所述多层特征图进行加权，进而得到所述加权后的特征图。

在另一实施例中，如图2所示，步骤S130包括：子步骤S131和子步骤S132。

S131、根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。

根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。本申请实施例中所述注意力机制为空间注意力机制，所述待检测图像输入到所述卷积神经网络模型中，得到所述多层特征图后，所述多层特征图中的每层特征图均具有相应的权值。由于所述多层特征图中的每层特征图的输出均为实数，而所述多层特征图中的每层特征图的权重之和为1。因此，在根据所述注意力机制获取到所述多层特征图中的每层特征图的权值后，对所述每层特征图的权值进行归一化处理，便可得到所述多层特征图中的每层特征图的权重，其中，归一化处理即为将所述每层特征图的权值规整到(0，1)之间。在本申请实施例中，所述注意力机制为空间注意力机制，采用Sigmoid函数对所述每层特征图的权值进行归一化处理便可得到所述多层特征图中的每层特征图的权重。

S132、根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。

根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。具体的，通过所述注意力机制获取到所述多层特征图中的每层特征图的权重后，将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到一个尺寸以及语义信息适中的特征图，即所述加权后的特征图。所述加权后的特征图的特征值的计算公式表示为：F＝f ₁×w ₁+f ₂×w ₂+…f _i×w _i)，其中，f _i为所述多层特征图中的某一特征图的特征值，w _i为所述多层特征图中的某一特征图的权重。

S140、根据所述多层特征图生成所述待检测图像的特征金字塔。

根据所述多层特征图生成所述待检测图像的特征金字塔。具体的，所述特征金字塔为通过所述多层特征图自顶向下进行构建。所述特征金字塔可用于对不同任务的目标检测。当需要检测所述待检测图像中的小目标时，只需采用所述特征金字塔中大尺寸的特征图进行目标识别便可获得丰富的语义信息；当需要检测所述待检测图像中的大目标时，只需采用所述特征金字塔中小尺寸的特征图进行识别便可获得丰富的语义信息。

在另一实施例中，如图3所示，步骤S140包括子步骤S141和S142。

S141、根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。具体的，所述多层特征图中的每层特征图通过使用所述卷积核进行卷积后，所述多层特征图中的每层特征图中的每层特征图的通道数相等，以便于后续通过所述多层特征图构建特征金字塔。所述卷积核的大小可根据实际情况进行设定，在此不做限制。例如，若所述多层特征图中的每层特征图自顶向下依次为C1、C2、C3、C4、C5，将C1、C2、C3、C4、C5通过1*1大小的卷积核进行卷积以使得C1、C2、C3、C4、C5在进行卷积后的通道数相等。

S142、根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。

根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。具体的，所述卷积后的多层特征图中的每层特征图的通道数相等，所述卷积后的多层特征图中的特征图的层数与所述特征金字塔的层数相等以及每层的尺寸大小均相等。

在另一实施例中，如图4所示，步骤S142包括子步骤S1421和S1422。

S1421、根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。

根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。具体的，所述卷积后的多层特征图中的顶层的特征图在所述卷积后的多层特征图中尺寸最小，语义最丰富，因此可直接将所述卷积后的多层特征图中的顶层的特征图作为所述特征金字塔的顶层的特征图。

S1422、根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。

根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。通过所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图的具体过程为：对所述特征金字塔的顶层进行采样并与卷积后的所述多层特征图中与最顶层相邻的特征图相加，得到所述特征金字塔中与顶层相邻的特征图，其中，在进行相加的过程中，需将卷积后的所述多层特征图中与最顶层相邻的特征图缩小至原来的两倍后才可进行相加，依次自顶向下进行便可构建出所述特征金字塔。例如：将卷积后的C1作为所述特征金字塔的顶层的特征图P1，对P1进行采样，同时对卷积后的C2缩放至原来的两倍，然后将对P1采样后特征图与卷积后的C2缩放至原来的两倍的特征图进行相加便可得到所述特征金字塔中与P1相邻的P2，依次类推，便可得到所述特征金字塔中的特征图自顶向下依次为：P1、P2、P3、P4、P5。

S150、将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。具体的，所述待检测图像在所述卷积神经网络模型中进行卷积操作时，所述卷积神经网络模型卷积操作的对象是一组多维矩阵，同样的，所述待检测图像输入至所述卷积神经网络模型中，得到的所述多层特征图中的每层特征图均为一组多维矩阵，根据所述多层特征图构建的所述特征金字塔中的每层特征图，以及将所述多层特征图中的每层特征图的特征值均乘以其相对应的权重后进行相加，得到的所述加权后的特征图也均为一组多维矩阵，故将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合的过程中，均将其所对应的矩阵进行相加，即将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，，得到一组新的多维矩阵便为所述融合后的特征金字塔。所述融合后的特征金字塔中的每层特征图比与所述特征金字塔中相对应的特征图含有更丰富的语义信息，在进行不同任务的目标检测时，可大幅度的提高了目标检测的精确度。

S160、从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。具体的，根据所述待检测图像中的目标图像的目标尺寸从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。通常用户在发送所述待检测图像的同时，也发送了对所述待检测图像进行目标检测的检测请求的指令信息，根据所述指令信息便可获取所述待检测图像中的目标图像的目标尺寸，所述目标尺寸可从所述融合后的特征金字塔中选取符合进行目标检测的特征图，然后将该特征图输入至预先训练好的目标检测模型中便可得到所述目标图像。

S170、根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。具体的，所述目标检测模型为用于从所述与所述待检测图像中的目标图像相匹配的特征图中提取多个矩形边界框的模型，该多个矩形边界框即为所述多个候选框，将与所述待检测图像中的目标图像相匹配的特征图输入至所述目标检测模型中后，所述目标检测模型将会输出所述多个候选框，其中，所述多个候选框中包括目标检测框，所述多个候选框为与所述待检测图像中的目标图像相关的候选框，所述多个候选框中均包括有部分或者全部目标图像的特征信息，进而得到所述待检测图像中的目标图像。

在另一实施例中，如图5所示，步骤S170包括子步骤S171和S172。

S171、将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。

将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。具体的，所述区域生成网络模型为预先训练好且用于对与所述待检测图像中的目标图像相匹配的特征图进行提取，得到含有目标检测框的多个候选框的模型，将与所述待检测图像中的目标图像相匹配的特征图输入至所述区域生成网络模型中后，先以预设尺寸的滑动窗口的锚点为中心通过尺寸变换以生成含有目标检测框的多个候选框，在本申请实施例中，滑动窗口的尺寸为3×3。

S172、根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。

根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。具体的，所述非极大值抑制算法简称为NMS算法，常用于计算机视觉中的边缘检测、人脸检测、目标检测等。在本实施例中，所述非极大值抑制算法用于对所述待检测图像进行目标检测。由于目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时需要通过非极大值抑制算法从所述多个候选框中找到目标检测框。所述区域生成网络模型输出所述多个候选框时，同时输出所述多个候选框中每个候选框的置信度，所述置信度为目标图像在所述多个候选框中的每个候选框中的概率，所述非极大值抑制算法根据所述多个候选框中每个候选框的置信度进行筛选，得到所述目标检测框。所述非极大值抑制算法的具体流程为：首先根据所述多个候选框中每个候选框的置信度从高往低的顺序进行排序并剔除置信度小于预设的第一阈值的候选框，计算未被剔除的候选框中每个候选框的面积，然后分别计算未被剔除的候选框中置信度最高的候选框分别与剩余未被剔除的候选框的IoU，判断计算出来的IoU是否超过预设的第二阈值，如超过预设的第二阈值，则剔除与未被剔除的候选框中置信度最高的候选框进行IoU计算的剩余未被剔除的候选框，最终得到所述目标检测框，通过所述目标检测框便可得到所述目标图像。其中，IoU即交并比是目标检测中使用的一个概念，表示的是候选框与原标记框的交叠率或者说重叠度，即候选框与原标记框的交集与并集的比值。在本实施例中，预设的第一阈值设定为0.3，预设的第二阈值设定为0.5。

在本申请实施例所提供的基于注意力机制的目标检测方法中，通过接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。通过上述方法可以在进行目标检测任务时，自适应的调节不同的特征层权重，使得最后的融合特征更适配检测任务，在额外时间开销较小的情况下可大幅度的提高检测精度。

本申请实施例还提供了一种基于注意力机制的目标检测装置100，该装置用于执行前述基于注意力机制的目标检测方法的任一实施例。具体地，请参阅图6，图6是本申请实施例提供的基于注意力机制的目标检测装置100的示意性框图。

如图6所示，所述基于注意力机制的目标检测装置100，该装置包括接收单元110、第一生成单元120、第二生成单元130、第三生成单元140、融合单元150、获取单元160和目标检测单元170。

接收单元110，用于接收用户输入的待检测图像。

第一生成单元120，用于将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图。

第二生成单元130，用于根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图。

在其他发明实施例中，如图7所示，所述第二生成单元130包括权重获取单元131和第四生成单元132。

权重获取单元131，用于根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重。

第四生成单元132，用于根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。

第三生成单元140，用于根据所述多层特征图生成所述待检测图像的特征金字塔。

在其他发明实施例中，如图8所示，所述第三生成单元140包括：卷积单元141和第五生成单元142。

卷积单元141，用于根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图。

第五生成单元142，用于根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。

在其他发明实施例中，如图9所示，所述第五生成单元142包括：第一构建单元1421和第二构建单元1422。

第一构建单元1421，用于根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图。

第二构建单元1422，用于根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。

融合单元150，用于将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔。

获取单元160，用于从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

目标检测单元170，用于根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

在其他发明实施例中，如图10所示，所述目标检测单元170包括：第六生成单元171和筛选单元172。

第六生成单元171，用于将所述与所述待检测图像中的目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框。

筛选单元172，用于根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。

本申请实施例所提供的基于注意力机制的目标检测装置100用于执行上述用于接收用户输入的待检测图像；将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；根据所述多层特征图生成所述待检测图像的特征金字塔；将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。

请参阅图11，图11是本申请实施例提供的计算机设备的示意性框图。

参阅图11，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于注意力机制的目标检测方法。该处理器502用于提供计算和控制能力，支撑整个设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于注意力机制的目标检测方法。该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述基于注意力机制的目标检测方法的任一实施例。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质可以为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供了一种计算机可读存储介质。该计算机可读存储介质可以是非易失性，也可以是易失性。该存储介质存储有计算机程序，该计算机程序当被处理器执行时实现上述基于注意力机制的目标检测方法的任一实施例。

该计算机可读存储介质可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置、设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种基于注意力机制的目标检测方法，包括以下步骤：

接收用户输入的待检测图像；

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

根据所述多层特征图生成所述待检测图像的特征金字塔；

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。
根据权利要求1所述的基于注意力机制的目标检测方法，其中，所述根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图，包括：

根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重；

根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。
根据权利要求1所述的基于注意力机制的目标检测方法，其中，所述根据所述多层特征图生成所述待检测图像的特征金字塔，包括：

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图；

根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。
根据权利要求3所述的基于注意力机制的目标检测方法，其中，所述根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔，包括：

根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图；

根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。
根据权利要求1所述的基于注意力机制的目标检测方法，其中，所述将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，包括：

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，得到所述融合后的特征金字塔。
根据权利要求1所述的基于注意力机制的目标检测方法，其中，所述从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图，包括：

根据所述待检测图像中的目标图像的目标尺寸从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。
根据权利要求1所述的基于注意力机制的目标检测方法，其中，所述根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像，包括：

将与所述目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框；

根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。
一种基于注意力机制的目标检测装置，包括：

接收单元，用于接收用户输入的待检测图像；

第一生成单元，用于将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

第二生成单元，用于根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

第三生成单元，用于根据所述多层特征图生成所述待检测图像的特征金字塔；

融合单元，用于将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

获取单元，用于从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

目标检测单元，用于根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时执行以下步骤：

接收用户输入的待检测图像；

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

根据所述多层特征图生成所述待检测图像的特征金字塔；

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。
根据权利要求9所述的计算机设备，其中，所述根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图，包括：

根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重；

根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。
根据权利要求9所述的计算机设备，其中，所述根据所述多层特征图生成所述待检测图像的特征金字塔，包括：

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图；

根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。
根据权利要求11所述的计算机设备，其中，所述根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔，包括：

根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图；

根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。
根据权利要求9所述的计算机设备，其中，所述将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，包括：

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，得到所述融合后的特征金字塔。
根据权利要求9所述的计算机设备，其中，所述从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图，包括：

根据所述待检测图像中的目标图像的目标尺寸从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图。
根据权利要求9所述的计算机设备，其中，所述根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像，包括：

将与所述目标图像相匹配的特征图输入至预置的区域生成网络模型中，得到多个候选框；

根据预设的非极大值抑制算法从所述多个候选框筛选出所述目标检测框，得到所述目标图像。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行以下步骤：

接收用户输入的待检测图像；

将所述待检测图像输入至预置的卷积神经网络模型中，提取到所述待检测图像的多层特征图；

根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图；

根据所述多层特征图生成所述待检测图像的特征金字塔；

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔；

从所述融合后的特征金字塔中获取与所述待检测图像中的目标图像相匹配的特征图；

根据预置的目标检测模型对与所述目标图像相匹配的特征图进行目标检测，得到所述待检测图像中的目标图像。
根据权利要求16所述的计算机可读存储介质，其中，所述根据预置的注意力机制对所述多层特征图进行加权，得到加权后的特征图，包括：

根据所述注意力机制从所述卷积神经网络模型中获取所述多层特征图中的每层特征图的权重；

根据所述多层特征图中的每层特征图的权重对所述多层特征图进行加权，得到所述加权后的特征图。
根据权利要求16所述的计算机可读存储介质，其中，所述根据所述多层特征图生成所述待检测图像的特征金字塔，包括：

根据预置的卷积核对所述多层特征图中的每层特征图进行卷积，得到卷积后的多层特征图；

根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔。
根据权利要求18所述的计算机可读存储介质，其中，所述根据所述卷积后的多层特征图生成所述待检测图像的特征金字塔，包括：

根据所述卷积后的多层特征图中的顶层的特征图构建所述特征金字塔的顶层的特征图；

根据所述特征金字塔的顶层的特征图构建所述特征金字塔的顶层下方的特征图。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行融合，得到融合后的特征金字塔，包括：

将所述加权后的特征图分别与所述特征金字塔中的每层特征图进行首尾拼接，得到所述融合后的特征金字塔。