WO2022105655A1

WO2022105655A1 - 图像处理方法、图像处理装置、电子设备和计算机可读存储介质

Info

Publication number: WO2022105655A1
Application number: PCT/CN2021/129833
Authority: WO
Inventors: 刘少丽; 张殿凯; 王勃飞
Original assignee: 中兴通讯股份有限公司
Priority date: 2020-11-23
Filing date: 2021-11-10
Publication date: 2022-05-27
Also published as: CN114529963A; US20240013573A1

Abstract

本申请提出一种图像处理方法、一种图像处理装置、一种电子设备和一种计算机可读存储介质，所述图像处理方法包括：对待检测图像进行预处理获得输入特征图；对输入特征图进行多通道的处理，获得通道注意力特征图；对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及依据空间注意力权重和通道注意力特征图，确定输出特征图。

Description

图像处理方法、图像处理装置、电子设备和计算机可读存储介质

相关申请的交叉引用

本申请要求于2020年11月23日提交的中国专利申请NO.202011320552.2的优先权，该中国专利申请的内容通过引用的方式整体合并于此。

技术领域

本申请涉及图像处理技术领域，具体涉及图像处理方法、图像处理装置、电子设备和计算机可读存储介质。

背景技术

人类在通过眼睛观看一幅图像时，可以快速获得需要重点关注的目标区域，进而获取更多所需要关注目标的细节信息，即视觉注意力机制。该视觉注意力机制可以极大地提高人类对获取到的信息的处理效率和准确性。

近年来，技术人员通过模仿人类的视觉注意力机制，提出了可应用于深度学习的注意力模块，该注意力模块在使用的过程中，对输入图像中的不同大小、不同距离的物体的兼容性不好，导致获得的输出特征图不准确。

公开内容

本申请实施例提供一种图像处理方法，包括：对待检测图像进行预处理获得输入特征图；对输入特征图进行多通道的处理，获得通道注意力特征图；对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及依据空间注意力权重和通道注意力特征图，确定输出特征图。

本申请实施例提供一种图像处理装置，包括：预处理模块，配置为对待检测图像进行预处理获得输入特征图；通道注意力处理模块，配置为对输入特征图进行多通道的处理，获得通道注意力特征图；空间权重确定模块，配置为对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及空间注意力处理模块，配置为依据空间注意力权重和通道注意力特征图，确定输出特征图。

本申请实施例提供一种电子设备，包括：一个或多个处理器；以及存储器，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本申请实施例中的图像处理方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中的图像处理方法。

关于本申请的以上实施例和其他方面以及其实现方式，在附图说明、具体实施方式和权利要求中提供更多说明。

附图说明

图1示出本申请实施例中的图像处理方法的一种流程示意图。

图2示出本申请实施例的图像处理方法的另一种流程示意图。

图3示出本申请实施例提供的图像处理装置的一种结构示意图。

图4示出本申请实施例提供的图像处理装置的另一种结构示意图。

图5示出本申请实施例中的通过通道注意力模块对输入特征图进行处理的流程示意图。

图6示出本申请实施例中的通过空间注意力模块对通道注意力特征图进行处理的流程示意图。

图7示出本申请实施例中的基于通道注意力模块和空间注意力模块对人脸图像的图像处理方法的流程示意图。

图8示出能够实现根据本申请实施例的图像处理方法和图像处理装置的计算设备的示例性硬件架构的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的各实施例及实施例中的各特征可以相互任意组合。

近年来，技术人员通过模仿人类的视觉注意力机制，提出了可应用于深度学习的注意力模块。注意力模块可以从输入图像中选择对当前任务更有益的信息，并抑制干扰区域的信息对当前任务的影响。注意力模块包括：通道域注意力模块、空间域注意力模块和混合域注意力模块。混合域注意力模块可同时获得输入图像在空间域和通道域的注意力权重。目前，应用较广泛的卷积块注意力模块(Convolutional Block Attention Module，CBAM)是混合域注意力模块中的一种，CBAM采用单一的卷积核提取特征图的通道特征图集合，对于不同大小、不同远近的物体的兼容性不好，得到的权重图不准确；并且，CBAM的空间注意力模块部分需要先分别采用全局最大池化和全局平均池化对输入的特征图进行处理，在获得两个处理后的特征图时，将两个处理后的特征图进行结合，然后再做卷积操作，导致运算量较大，不易实现。

图1示出本申请实施例中的图像处理方法的一种流程示意图。该图像处理方法可应用于图像处理装置，该图像处理装置可应用于人脸识别网络中。如图1所示，本申请实施例中的图像处理方法可以包括以下步骤S110至S140。

步骤S110，对待检测图像进行预处理获得输入特征图。

待检测图像包括人脸图像和/或物体图像，对待检测图像进行特征抽取、图像分割、匹配和识别等操作，以消除待检测图像中的非必要信息，恢复有用的真实信息，增强信息的可检测性，并最大限度地简化数据，使获得的输入特征图的可靠性得到提升。

例如，当待检测图像是人脸图像时，可对待检测图像中的多幅人脸图像进行检测并进行对齐处理，让同类型的图像之间的距离更近，让不同类型的图像之间的距离更远，以方便对人脸图像的识别，尽快地区分出相同的人脸图像。

步骤S120，对输入特征图进行多通道的处理，获得通道注意力特征图。

通道可以理解为选择区域的映射。每个通道中的像素颜色是由一组原色的亮度值组成的，例如，对于RGB图像，R通道中的像素颜色是红色(Red)，G通道中的像素颜色是绿色(Green)，B通道中的像素颜色是蓝色(Blue)。对于CMYK图像，C通道中的像素颜色是青色(Cyan)，M通道中的像素颜色是洋红色(Magenta)，Y通道中的像素颜色是黄色(Yellow)，K通道中的像素颜色是黑色(取blacK中的最后一个字母)。以上对于通道的类型仅是举例说明，可根据具体实现进行具体设定，其他未说明的通道的类型也在本申请的保护范围内，在此不再赘述。通道注意力特征图是将输入特征图输入至多通道进行处理后，可获知在多种通道中重要程度最大的那个通道对应的特征图。

例如，可将输入特征图输入至R通道、G通道和B通道中的任意一种或几种，通过多种不同的通道对输入特征图进行处理，每条通道对输入特征图的处理维度都不同，使获得的通道注意力特征图能够体现更多、更全面的特征，保证对输入特征图进行特征提取的准确性。

步骤S130，对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重。

空间域信息可以包括光谱域信息、空间域的邻域信息和边缘信息中的任意一种或几种。例如，在光谱域信息的基础上采用相关的支持向量机对高光谱图像进行分类；结合空间域的邻域信息，对分类结果进行优化处理；利用边缘信息对通道注意力特征图中的目标进行分类等操作。空间域信息还可以是通道注意力特征图的高度信息和/或通道注意力特征图的宽度信息等，使通道注意力特征图中的不同空间维度上的信息能够快速被提取出来，体现空间注意力权重。以上对于空间域信息仅是举例说明，可根据具体实现进行具体设定，其他未说明的空间域信息也在本申请的保护范围内，在此不再赘述。

空间注意力权重是通道注意力特征图中的各个待检测目标(例如，人脸、树木、动物等图像)在二维空间上所占的比重，该比重能够体现各个待检测目标在通道注意力特征图的二维空间上的重要程度，进而确定用户的主要注意力都集中在哪种目标上，提升最重要的那个目标的检测权重，以使待检测目标更突出，方便后续处理，快速获得输出特征图。

在一些具体实现中，所述对通道注意力特征图中的空间域信息进行处理、获得空间注意力权重包括：以通道为单位，对通道注意力特征图中的空间域信息进行最大池化处理，获得池化后的特征图，池化后的特征图包括二维特征向量；对各条通道对应的池化后的特征图进行卷积处理，确定空间注意力权重。

所述对各条通道对应的池化后的特征图进行卷积处理可以采用1*1的卷积核对各条通道对应的池化后的特征图进行卷积运算，以获得空间注意力权重。

例如，二维特征向量可以是H*W的特征向量，H代表池化后的特征图的高度，W代表池化后的特征图的宽度。通过该二维特征向量，能够体现不同通道内的池化后的特征图的空间注意力的重要程度，对比不同通道中的空间注意力，确定最重要的那个通道中的空间注意力，以确定空间注意力权重。二维特征向量使输入特征图的空间特征能够体现出来，保证输入特征图的通道特征和空间特征的全面性和完整性，以方便后续对输入特征图的处理。

步骤S140，依据空间注意力权重和通道注意力特征图，确定输出特征图。

输出特征图用于表征注意力最突出的特征，即通道注意力和空间注意力都能够体现的特征。例如，可将空间注意力权重和通道注意力特征图进行点积运算，获得输出特征图，以降低运算量，能够快速提取通道注意力特征图中的空间特征，使输出特征图能够更全面的体现空间特征和通道特征，保证特征的全面性和准确性。

在一些具体实现中，所述依据空间注意力权重和通道注意力特征图确定输出特征图包括：将空间注意力权重和通道注意力特征图进行点积运算，获得输出特征图。

通过将通道注意力特征图与空间注意力权重进行点积，可以在通道注意力特征图的基础上，考虑通道注意力特征图的空间域信息，结合通道特征和空间特征，使输出特征图的特征能够更全面、更准确。

在本实施例中，通过对输入特征图进行多通道的处理，获得通道注意力特征图，并对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重，在通道和空间两个维度上增强输入特征图所要表达的特征，突出输入特征图中最具辨别力的视觉特征；依据空间注意力权重和通道注意力特征图，确定输出特征图，使处理后的输出特征图能够更准确，提升图像分类的精度，保证在目标检测时的准确性，方便在机器视觉领域中的应用。

在一些具体实现中，步骤S120中的所述对输入特征图进行多通道的处理、获得通道注意力特征图包括：对输入特征图进行全局平均池化处理，获得待检测特征图；依据N个通道卷积核和待检测特征图，确定通道注意力特征图，N个通道卷积核的尺度不同，N为大于或等于1的整数。

例如，使用以下三种不同大小的通道卷积核：1*1、3*3和5*5，分别与待检测特征图进行卷积，获得三种不同通道注意力特征图。因不同大小的通道卷积核对应的感受野不同，对于不同尺度(例如，不同远近或不同大小)的目标会有不同的特征提取效果，扩展了待检测特征图的特征范围，使待检测特征图的特征尽快地、更全面的体现出来，方便对待检测特征图中的图像进行处理，加快获得不同角度上的通道注意力特征图，使获得的通道注意力特征图的特征能够更全面更准确的体现用户的注意力。

在一些具体实现中，所述依据N个通道卷积核和待检测特征图确定通道注意力特征图包括：采用N个通道卷积核分别与待检测特征图进行运算，获得N个通道特征图；对N个通道特征图做图像均衡处理，确定均衡后的通道特征图，均衡后的通道特征图包括一维特征向量；依据均衡后的通道特征图和输入特征图，确定通道注意力特征图。

例如，一维特征向量可以是1*1*C的特征向量，C代表特征通道的数量，以体现均衡后的通道特征图的通道特性。然后，依据均衡后的通道特征图和输入特征图(例如，将均衡后的通道特征图和输入特征图进行特征融合等处理)，获得通道注意力特征图，使待检测特征图的通道特性能够更突出，提升通道注意力。

在一些具体实现中，所述依据均衡后的通道特征图和输入特征图确定通道注意力特征图包括：将均衡后的通道特征图和待检测特征图进行点积运算，获得通道注意力特征图。

通过将均衡后的通道特征图和待检测特征图进行点积运算，使运算量大幅降低，加快获得通道注意力特征图，方便对输入特征图的后续处理。

图2示出本申请实施例的图像处理方法的另一种流程示意图。该图像处理方法可应用于图像处理装置，该图像处理装置可应用于人脸识别网络中。如图2所示，本申请实施例中的图像处理方法可以包括以下步骤S210至S240。

步骤S210，对输入的人脸图像的集合中的各个待检测图像进行检测并进行对齐处理，获得人脸特征图集合。

人脸图像的集合包括第一待检测图像和第二待检测图像，人脸特征图集合包括第一人脸特征图和第二人脸特征图。

例如，第一人脸特征图和第二人脸特征图都可作为输入特征图，将这两幅人脸特征图进行检测并进行对齐处理，是将两幅人脸特征图中人脸中的双眼、鼻尖和嘴角中的五个点分别校准到相同的位置，以排除头部角度和人脸大小对人脸识别的影响，可更清晰的对这两幅人脸特征图进行特征的筛选，以快速区分出这两幅人脸特征图的不同。

步骤S220，对输入特征图进行多通道的处理，获得通道注意力特征图。

输入特征图可以是人脸特征图集合中的第一人脸特征图，也可以是人脸特征图集合中的第二人脸特征图，在一些具体实现中，所述人脸特征图集合还可以包括N个人脸特征图，N为大于或等于2的整数。

使用多通道对输入特征图进行处理，可获得多维度的图像特征，有利于对输入特征图的特征进行提取。因每条通道对输入特征图的处理维度都不同，使获得的通道注意力特征图能够体现更多、更全面的特征，保证对输入特征图进行特征提取的准确性。

步骤S230，对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重。

步骤S240，依据空间注意力权重和通道注意力特征图，确定输出特征图。

需要说明的是，本实施例中的步骤S230和步骤S240，分别与上一实施例中的步骤S130和步骤S140相同，在此不再赘述。

在本实施例中，通过对输入的人脸图像的集合中的各个待检测图像进行检测并进行对齐处理，即将各个人脸特征图中人脸中的双眼、鼻尖、嘴角中的五个点分别校准到相同的位置(例如，将人脸特征图中人脸中的左右眼两个点、鼻尖一个点和左右嘴角两个点分别校准到相同的位置)，以排除头部角度和人脸大小对图像识别的影响，有利于进行人脸特征的提取；然后对获得的人脸特征图集合中的各个输入特征图进行多通道的处理，获得通道注意力特征图，以提取各个输入特征图的通道特征；然后，再对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重，以体现各个输入特征图的空间特征，通过通道特征和空间特征，来突出输入特征图中最具辨别力的视觉特征；依据空间注意力权重和通道注意力特征图，确定输出特征图，使处理后的输出特征图能够更准确，提升图像分类的精度，保证在目标检测时的准确性。

在一些具体实现中，所述依据空间注意力权重和通道注意力特征图确定输出特征图之后，所述图像处理方法还包括：计算第一人脸特征图对应的第一输出特征图与第二人脸特征图对应的第二输出特征图之间的匹配相似度；依据匹配相似度和预设相似度阈值，确定第一待检测图像和第二待检测图像是否相同。

例如，设定预设相似度阈值为0.5，在第一输出特征图与第二输出特征图的匹配相似度小于0.5的情况下，判定第一待检测图像和第二待检测图像不相同；在第一输出特征图与第二输出特征图的匹配相似度大于或等于0.5的情况下，判定第一待检测图像和第二待检测图像相同。通过上述判断方法可快速区分第一待检测图像和第二待检测图像，加快对图像进行处理的速度，提升用户体验度。

在一些具体实现中，所述计算第一人脸特征图对应的第一输出特征图与第二人脸特征图对应的第二输出特征图之间的匹配相似度包括：依据第一输出特征图中的n个特征向量和第二输出特征图中的n个特征向量，计算第一输出特征图与第二输出特征图之间的余弦相似度，n为大于或等于1的整数。

例如，余弦相似度可以采用如下公式计算获得：

S表示余弦相似度，i表示输出特征图中的特征向量的序号，i＝{1,2,…,n}，x _i表示第一输出特征图中的第i个特征向量，y _i表示第二输出特征图中的第i个特征向量，n表示特征的维度，n为大于或等于1的整数。

通过余弦相似度来对第一输出特征图和第二输出特征图进行判断，以确定第一输出特征图和第二输出特征图是否相同，进而确定第一人脸特征图与第二人脸特征图是否相同，从而确定第一待检测图像和第二待检测图像是否相同，加快了对人脸的区分速度，使不同的人脸特征能够快速的被识别出来，加快对人脸图像的区分，方便在机器视觉领域中的应用。

下面结合附图图3和图4，详细介绍根据本申请实施例的图像处理装置。图3示出本申请实施例提供的图像处理装置的结构示意图。如图3所示，所述图像处理装置可以包括预处理模块301、通道注意力处理模块302、空间权重确定模块303、以及空间注意力处理模块304。

预处理模块301配置为对待检测图像进行预处理获得输入特征图；通道注意力处理模块302配置为对输入特征图进行多通道的处理，获得通道注意力特征图；空间权重确定模块303配置为对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及空间注意力处理模块304配置为依据空间注意力权重和通道注意力特征图，确定输出特征图。

在本实施例中，通过通道注意力处理模块302对输入特征图进行多通道的处理，获得通道注意力特征图，并使用空间权重确定模块303对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重，在通道和空间两个维度上增强输入特征图所要表达的特征，突出输入特征图中最具辨别力的视觉特征；使用空间注意力处理模块304依据空间注意力权重和通道注意力特征图，确定输出特征图，使处理后的输出特征图能够更准确，提升图像分类的精度，保证在目标检测时的准确性，方便在机器视觉领域中的应用。

图4示出本申请实施例提供的图像处理装置的另一种结构示意图。如图4所示，该图像处理装置可实现为多核注意力(Multiple Kernel Attention，MKA)模块，可以包括：通道注意力模块410和空间注意力模块420。图4中的输入特征图401和输出特征图402均是多维特征图，例如，输入特征图401是维度为H*W*C的三维特征图，输出特征图402也是维度为H*W*C的三维特征图。

例如，将输入特征图401输入到通道注意力模块410中进行处理，通过多条通道(例如，R通道、G通道、B通道等)对输入特征图401分别进行处理，筛选获得通道注意力权重，该通道注意力权重是所有通道中最重要的通道的权重，抑制不重要的通道，将通道注意力权重与输入特征图401进行点积运算，获得通道注意力特征图；然后，将该通道注意力特征图输入至空间注意力模块420进行处理，例如，对通道注意力特征图中的空间域信息做对应的空间变换，得到空间注意力权重，再将该空间注意力权重和通道注意力特征图进行点积，获得输出特征图402。

通过通道注意力模块410和空间注意力模块420依次对输入特征图401进行处理，在通道和空间两个维度上增强输入特征图401所要表达的特征，突出输入特征图401中最具辨别力的视觉特征，使处理后的输出特征图402能够更准确，提升图像分类的精度。

图5示出本申请实施例中的通过通道注意力模块对输入特征图进行处理的流程示意图。如图5所示，通过如下步骤对输入特征图401进行处理，获得通道注意力特征图540。

首先，通道注意力模块410对输入特征图401进行全局平均池化操作，获得待检测特征图510，该待检测特征图510的尺寸为1*1*C，C代表特征通道的数量。通过对输入特征图401进行全局平均池化操作，可以降低计算量。

然后，采用第一卷积处理模块511、第二卷积处理模块512、……、第K卷积处理模块51K等模块分别对待检测特征图510进行处理，各个卷积处理模块中的卷积核的大小不同，K为大于或等于1的整数。例如，选择以下三种不同大小的卷积核：1*1、3*3和5*5，分别对待检测特征图510进行处理(例如，将各个卷积核与待检测特征图510进行卷积运算)，可以得到三幅通道特征图。因不同大小的卷积核对应的感受野不同，对于不同尺度(例如，不同远近或不同大小)的目标会有不同的特征提取效果，因此，采用多种卷积核对待检测特征图510进行处理，可保证提取到的特征更加全面、更加准确，在实际应用中，可以灵活调整各个卷积处理模块的卷积核的数量和大小。

再将获得的K幅通道特征图输入至平均处理模块520进行处理，生成均衡后的通道特征图530，即最终的通道特征图530，该均衡后的通道特征图530包括一维特征向量(例如，均衡后的通道特征图530的尺寸是1*1*C)，通过该均衡后的通道特征图530可表征各个通道的信息的重要程度。最后，将输入特征图401与均衡后的通道特征图530进行点积运算，生成通道注意力特征图540。

在本实施例中，通过全局平均池化操作，将输入特征图401转化为待检测特征图510；采用K种不同大小的卷积核对该待检测特征图510进行处理，扩大待检测特征图510的感受野，使提取到的特征更加全面、更加准确；然后，再对获取到的K幅通道特征图进行均衡操作，表征各个通道的信息的重要程度；最后，依据输入特征图401与均衡后的通道特征图530，确定通道注意力特征图540，突出输入特征图401中最具辨别力的视觉特征，使获得的通道注意力特征图540能够更突出输入特征图401的特征，保证用户能够快速捕捉到输入特征图401的视觉特征。

图6示出本申请实施例中的通过空间注意力模块对通道注意力特征图进行处理的流程示意图。如图6所示，通过最大池化处理模块610和卷积处理模块620对通道注意力特征图540进行处理，获得输出特征图402。

首先，将通道注意力特征图540输入至最大池化处理模块610中，对通道注意力特征图540以通道为单位进行最大池化操作，获得池化后的特征图；池化后的特征图的大小为H*W*1，H代表池化后的特征图的高度，W代表池化后的特征图的宽度。通过对通道注意力特征图540进行最大池化操作，可降低后续计算量。

然后，最大池化处理模块610将池化后的特征图输出至卷积处理模块620，通过卷积处理模块620的处理，可获得空间注意力权重，例如，可以对池化后的特征图进行1*1的卷积处理，使池化后的特征图的维度保持H*W*1不变，以体现输入特征图401的空间特征，即空间注意力权重。再将该空间注意力权重与通道注意力特征图540进行点积运算，生成输出特征图402。

在本实施例中，通过最大池化处理模块610对通道注意力特征图540以通道为单位进行最大池化操作，并将池化后的特征图输出至卷积处理模块620中进行处理，获得能够体现输入特征图401的空间特征的空间注意力权重，再将该空间注意力权重与通道注意力特征图540进行点积运算，生成输出特征图402，突出输入特征图401中最具辨别力的视觉特征，使处理后的输出特征图402能够更准确，提升图像分类的精度，保证在目标检测时的准确性。

图7示出本申请实施例中的基于通道注意力模块和空间注意力模块对人脸图像的图像处理方法的流程示意图。该图像处理方法可应用于图像处理装置，该图像处理装置可应用于人脸识别网络中。如图7所示，本申请实施例中的对人脸图像的图像处理方法可以包括以下步骤S710至S770。

步骤S710，对输入的人脸图像的集合中的各个待检测图像进行检测并进行对齐处理，获得人脸特征图的训练集合和测试集合。

例如，采用基于深度学习的人脸检测方法，对输入的人脸图像的集合中的各个待检测图像进行检测(例如，采用人脸检测(Retinaface)对各个待检测图像中的人脸图像进行检测，或采用多任务卷积神经网络(Multi-Task Convolutional Neural Networks，MTCNN)对各个待检测图像中的人脸图像进行检测)，获得训练集合和测试集合，训练集合包括人脸训练特征图，测试集合包括人脸测试特征图。

然后，对训练集合中的各个人脸训练特征图进行对齐处理，例如，采用固定的公式对人脸图像进行映射处理，使人脸图像中的双眼、鼻尖和左右嘴角中的五个点分别校准到相同的位置，排除头部角度和人脸大小对人脸识别的影响，可更清晰的对人脸训练特征图进行特征的筛选，以快速区分出不同的人脸特征图。

步骤S720，对训练集合中的人脸训练特征图进行训练，获得人脸识别网络。

基于深度学习(Deep Learning，DL)的方法，对训练集合中的人脸训练特征图进行训练，获得人脸识别网络。DL是学习样本数据的内在规律，其最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

所述人脸识别网络包括特征提取处理模块和分类器。特征提取处理模块包括注意力模块，该注意力模块可包括通道注意力处理模块和空间注意力处理模块，以提取输入的人脸特征图中对人脸识别有益的信息，以提高人脸识别的精度。分类器是基于人脸识别模型的分类器(例如，该分类器是基于人脸识别的损失函数确定的分类器)，该分类器可提高人脸识别网络的分类能力，让同类型的图像之间的距离更近，让不同类型的图像之间的距离更远，以方便对图像进行区分。

步骤S730，将测试集合中的第一人脸测试特征图和第二人脸测试特征图输入到人脸识别网络中进行测试。

人脸识别网络可以包括图4所示的MKA模块。例如，将MKA模块加入至人脸识别网络的反残差模块中，以提升人脸识别网络对人脸特征的表达能力。将测试集合中的第一人脸测试特征图和第二人脸测试特征图输入到人脸识别网络中进行测试，可获得第一人脸测试特征图中最想表达的特征、以及第二人脸测试特征图中最想表达的特征，使第一人脸测试特征图和第二人脸测试特征图之间的区别特征更突出，方便后续进行图像比较，快速识别图像。

步骤S740，计算第一人脸测试特征图和第二人脸测试特征图之间的余弦相似度。

例如，采用如下公式计算余弦相似度：

S表示余弦相似度，i表示输出特征图中的特征向量的序号，i＝{1,2,…,n}，x _i表示第一人脸测试特征图中的第i个特征向量，y _i表示第二人脸测试特征图中的第i个特征向量，n表示特征的维度，n为大于或等于1的整数，例如，n＝512。

采用余弦相似度来表征第一人脸测试特征图和第二人脸测试特征图之间的区别特征，可使特征区别点参数化，有利于判断区别特征之间的相似程度，尽快确定两幅图像是否相同。

步骤S750，判断余弦相似度是否大于或等于预设相似度阈值。

例如，设定预设相似度阈值为0.5，在确定余弦相似度大于或等于0.5的情况下，执行步骤S760；在确定余弦相似度小于0.5的情况下，执行步骤S770。

步骤S760，确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像相同。

步骤S770，确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像不同。

在本实施例中，通过将对输入的人脸图像的集合中的各个待检测图像进行检测并进行对齐处理，获得人脸特征图的训练集合和测试集合；然后，对训练集合中的人脸训练特征图进行训练，获得人脸识别网络，该人脸识别网络中包括MKA模块，可在通道和空间两个维度上增强人脸特征图所要表达的特征，突出人脸特征图中最具辨别力的视觉特征；将第一人脸测试特征图和第二人脸测试特征图输入至该人脸识别网络中进行测试，获得第一人脸测试特征图中最想表达的特征、以及第二人脸测试特征图中最想表达的特征；计算第一人脸测试特征图和第二人脸测试特征图之间的余弦相似度，通过判断余弦相似度是否大于或等于预设相似度阈值，来确定第一人脸测试特征图对应的第一人脸图像与第二人脸测试特征图对应的第二人脸图像是否相同，使人脸识别网络的输出特征图能够更准确，提升图像分类的精度，保证对人脸的识别准确性。

需要明确的是，本申请并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程可以参考前述方法实施例中的对应过程，在此不再赘述。

如图8所示，计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、输出设备806和总线807。输入接口802、中央处理器803、存储器804、以及输出接口805通过总线807相互连接，输入设备801和输出设备806分别通过输入接口802和输出接口805与总线807连接，进而与计算设备800的其他组件连接。

具体地，输入设备801接收来自外部的输入信息，并通过输入接口802将输入信息传送到中央处理器803；中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器804中，然后通过输出接口805将输出信息传送到输出设备806；输出设备806将输出信息输出到计算设备800的外部，供用户使用。

在一些实施方式中，图8所示的计算设备可以被实现为一种电子设备，该电子设备至少包括：存储器，配置为存储计算机程序；以及处理器，配置为运行存储器中存储的计算机程序，以执行上述实施例描述的图像处理方法。

在一些实施方式中，图8所示的计算设备可以被实现为一种图像处理系统，该图像处理系统至少包括：存储器，配置为存储计算机程序；以及处理器，配置为运行存储器中存储的计算机程序，以执行上述实施例描述的图像处理方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例描述的图像处理方法。

根据本申请实施例的图像处理方法、图像处理装置、电子设备和计算机可读存储介质，通过对输入特征图进行多通道的处理，获得通道注意力特征图，并对通道注意力特征图中的空间域信息进行处理，获得空间注意力权重，在通道和空间两个维度上增强输入特征图所要表达的特征，突出输入特征图中最具辨别力的视觉特征；依据空间注意力权重和通道注意力特征图，确定输出特征图，使输出特征图能够更准确，提升图像分类的精度，保证在目标检测时的准确性，方便在机器视觉领域中的应用。

以上所述仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中、或者通过硬件、或者通过软件和硬件的组合实现。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者是以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，不偏离本申请的范围。因此，本申请的恰当范围将根据权利要求确定。

Claims

一种图像处理方法，包括：

对待检测图像进行预处理获得输入特征图；

对所述输入特征图进行多通道的处理，获得通道注意力特征图；

对所述通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及

依据所述空间注意力权重和所述通道注意力特征图，确定输出特征图。
根据权利要求1所述的方法，其中，所述对所述输入特征图进行多通道的处理、获得通道注意力特征图包括：

对所述输入特征图进行全局平均池化处理，获得待检测特征图；以及

依据N个通道卷积核和所述待检测特征图，确定所述通道注意力特征图，其中，所述N个通道卷积核的尺度不同，N为大于或等于1的整数。
根据权利要求2所述的方法，其中，所述依据N个通道卷积核和所述待检测特征图确定所述通道注意力特征图包括：

采用所述N个通道卷积核分别与所述待检测特征图进行运算，获得N个通道特征图；

对所述N个通道特征图做图像均衡处理，确定均衡后的通道特征图，所述均衡后的通道特征图包括一维特征向量；以及

依据所述均衡后的通道特征图和所述输入特征图，确定所述通道注意力特征图。
根据权利要求3所述的方法，其中，所述依据所述均衡后的通道特征图和所述输入特征图确定所述通道注意力特征图包括：

将所述均衡后的通道特征图和所述待检测特征图进行点积运算，获得所述通道注意力特征图。
根据权利要求1所述的方法，其中，所述对所述通道注意力特征图中的空间域信息进行处理、获得空间注意力权重包括：

以通道为单位，对所述通道注意力特征图中的空间域信息进行最大池化处理，获得池化后的特征图，所述池化后的特征图包括二维特征向量；以及

对各条通道对应的所述池化后的特征图进行卷积处理，确定所述空间注意力权重。
根据权利要求1所述的方法，其中，所述依据所述空间注意力权重和所述通道注意力特征图确定输出特征图包括：

将所述空间注意力权重和所述通道注意力特征图进行点积运算，获得所述输出特征图。
根据权利要求1至6中任一项所述的方法，其中，所述待检测图像包括人脸图像，所述对待检测图像进行预处理获得输入特征图包括：

对输入的人脸图像的集合中的各个待检测图像进行检测并进行对齐处理，获得人脸特征图集合，其中，所述人脸图像的集合包括第一待检测图像和第二待检测图像，所述人脸特征图集合包括第一人脸特征图和第二人脸特征图。
根据权利要求7所述的方法，其中，所述依据所述空间注意力权重和所述通道注意力特征图确定输出特征图之后，所述方法还包括：

计算所述第一人脸特征图对应的第一输出特征图与所述第二人脸特征图对应的第二输出特征图之间的匹配相似度；以及

依据所述匹配相似度和预设相似度阈值，确定所述第一待检测图像和所述第二待检测图像是否相同。
根据权利要求8所述的方法，其中，所述计算所述第一人脸特征图对应的第一输出特征图与所述第二人脸特征图对应的第二输出特征图之间的匹配相似度包括：

依据所述第一输出特征图中的n个特征向量和所述第二输出特征图中的n个特征向量，计算所述第一输出特征图与所述第二输出特征图之间的余弦相似度，其中，n为大于或等于1的整数。
一种图像处理装置，包括：

预处理模块，配置为对待检测图像进行预处理获得输入特征图；

通道注意力处理模块，配置为对所述输入特征图进行多通道的处理，获得通道注意力特征图；

空间权重确定模块，配置为对所述通道注意力特征图中的空间域信息进行处理，获得空间注意力权重；以及

空间注意力处理模块，配置为依据所述空间注意力权重和所述通道注意力特征图，确定输出特征图。
一种电子设备，包括：

一个或多个处理器；以及

存储器，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的图像处理方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的图像处理方法。