WO2024045320A1

WO2024045320A1 - 人脸识别方法及装置

Info

Publication number: WO2024045320A1
Application number: PCT/CN2022/129343
Authority: WO
Inventors: 王夏洪
Original assignee: 北京龙智数科科技服务有限公司
Priority date: 2022-08-31
Filing date: 2022-11-02
Publication date: 2024-03-07
Also published as: CN115588218A

Abstract

本公开提供了一种人脸识别方法及装置。该方法包括：获取待识别人脸图像的第一特征图；对第一特征图进行逐深度卷积处理，得到第二特征图；对第二特征图进行注意力流转处理，得到第三特征图；对第三特征图依次进行增加通道的卷积处理、注意力流转处理、减少通道的卷积处理和注意力流转处理，得到第一特征图对应的目标特征图。

Description

人脸识别方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种人脸识别方法及装置。

背景技术

人脸技术在实际应用过程中经常需要部署到云端及边缘端，受限于嵌入式终端等边缘端的算力与存储资源，边缘端人脸识别模型需要满足高精度要求的同时，满足模型尺寸小、计算复杂度低、推理速度快等要求。

相关技术中，可以实现人脸识别任务的常见的轻量化网络有SqueezeNet、MobileNet、ShuffleNet等，由于人脸结构的特殊性，这些模型在人脸识别任务上精度欠佳。专门针对人脸识别任务设计的移动端轻量网络MobileFaceNet基于MobileNet采用了更小的扩张率，将全局平均池化层用全局逐深度卷积层替代。但MobileFaceNet的主要构建模块还是采用常见的残差瓶颈模块，每个模块的计算也是相同的，从而同样具有精度欠佳的问题。

发明内容

有鉴于此，本公开实施例提供了一种人脸识别方法、装置、电子设备及计算机可读存储介质，以解决现有技术中人脸识别模型精度欠佳的问题。

本公开实施例的第一方面，提供了一种人脸识别方法，方法包括：获取待识别人脸图像的第一特征图；对第一特征图进行逐深度卷积处理，得到第二特征图；对第二特征图进行注意力流转处理，得到第三特征图；对第三特征图依次进行增加通道的卷积处理、注意力流转处理、减少通道的卷积处理和注意力流转处理，得到第一特征图对应的目标特征图。

本公开实施例的第二方面，提供了一种人脸识别装置，装置包括：获取模块，用于获取待识别人脸图像的第一特征图；卷积模块，用于对第一特征图进行逐深度卷积处理，得到第二特征图；注意力流转模块，用于对第二特征图进行注意力流转处理，得到第三特征图；混合处理模块，用于对第三特征图依次进行增加通道的卷积处理、注意力流转处理、减少通道的卷积处理和注意力流转处理，得到第一特征图对应的目标特征图。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过卷积处理和注意力流转处理的组合进行人脸识别的特征图处理，促进注意力在多个方向维度上的流转，使得最终得到的特征图对各个方向维度均具有较高的判别力，从而提高人脸识别模型的识别精度。

具体地，本公开实施例中提出一种轻量级的注意力流转模块，该注意力流转模块的张量维度非常低，低维张量的卷积计算量非常小，可以实现较快的整体运行速度。如果整个网络都在低维空间中进行特征提取，极有可能造成信息的不完整和特征的不鲁棒，本公开实施例中在中间的卷积处理过程中进行了设定扩张系数的通道数膨胀，从而可以提高整个模块的特征提取能力，达到计算量和特征表达能力的一个微妙平衡。

在本公开实施例中，整个注意力流转模块通过不同类型的卷积、通道数的扩张与压缩、注意力流转技术等操作之间的组合使得人脸识别任务所关注的注意力流在空间、通道间流转变换，特征融合更加高效，特征图最终有效聚焦在人脸识别感兴趣的区域上，此外，该注意力流转模块还具有参数量少、计算量小、速度快的优势。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种人脸识别方法的流程示意图；

图3是本公开实施例提供的注意力流转处理的流程示意图；

图4是本公开实施例提供的再一种人脸识别方法的流程示意图；

图5是本公开实施例提供的一种人脸识别装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的人脸识别方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、 102和103、服务器104以及网络105。

终端设备101、102和103可以是硬件，也可以是软件。当终端设备101、102和103为硬件时，其可以是具有显示屏且支持与服务器104通信的各种电子设备，包括但不限于智能手机、机器人、膝上型便携计算机和台式计算机等(比如102可以为机器人)；当终端设备101、102和103为软件时，其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备101、102和103上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器104可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器104可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器104可以是硬件，也可以是软件。当服务器104为硬件时，其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时，其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块，也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near Field Communication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

目标用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接，以接收或发送信息等。需要说明的是，终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

在相关技术中，嵌入式终端等边缘端的算力与存储资源有限，只能支持较小的模型尺寸，而通用的轻量化的人脸大模型对人脸的识别精度不高。

为解决该技术问题，本公开实施例提供一种人脸识别方案，该人脸识别方案通过设计简洁有效的轻量化提取人脸特征的通用模型，专门针对边缘端和嵌入式设备设计一种实时响应的人脸识别模型，以提高人脸识别的精度。

具体地，本公开实施例的技术方案提出一种通用的注意力流转技术，能够分别有效抓取空间和通道上的注意力，并通过逐通道可学习的非线性映射方式提高特征判别力，整个技术能够提取有效的特征组合方式，促进注意力在多个方向维度上的流转。

图2是本公开实施例提供的一种人脸识别方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图2所示，该人脸识别方法包括：

步骤S201，获取待识别人脸图像的第一特征图。

具体地，第一特征图为4维张量，该张量的维度为(N，C，H，W)，其中，N代表批处理图像数、C代表通道数、H代表高度、W代表宽度。第一特征图是对待识别人脸图像进行特征提取得到的。

步骤S202，对第一特征图进行逐深度卷积处理，得到第二特征图。

具体地，逐深度卷积(Depthwise Convolution，简称DWConv)在每个独立的通道内进行卷积操作，常规卷积中每个卷积核对每个通道各进行一次计算，而逐深度卷积中每个卷积核只对一个通道进行计算。

步骤S203，对第二特征图进行注意力流转处理，得到第三特征图。

具体地，注意力流转处理可以使得注意力在空间和通道之间流转，从而进行更有效的特征融合。

步骤S204，对第三特征图依次进行增加通道的卷积处理、注意力流转处理、减少通道的卷积处理和注意力流转处理，得到第一特征图对应的目标特征图。

具体地，增加通道的卷积处理和减少通道的卷积处理是相对应的两个常规卷积计算过程，先进行增加通道的卷积处理使得通道的数量增加，再进行减少通道的卷积处理使得通道的数量恢复到之前的数量。

根据本公开实施例的技术方案，通过注意力流转处理，可以提取有效的特征组合方式，促进注意力在多个方向维度上的流转。通过注意力流转处理技术与不同类型的卷积的设计和组合，可以同时满足人脸识别任务要求和嵌入式设备的轻量级要求，与现有技术相比，可以使用更少的参数量实现更高的识别精度。

如图3所示，步骤S203和步骤S204中的注意力流转处理包括以下步骤：

步骤S301，对输入特征图的第一维度和第二维度进行拉平处理，得到第一中间特征图。

具体地，第一维度可以为高度，第二维度可以为宽度。假设输入特征图为f ₁，将f ₁的高度和宽度两个维度拉平(flatten)，即可以将维度(N，C，H，W)变换为(N，C，R)，其中，R＝H*W。

步骤S302，根据第一中间特征图和第一可学习参数矩阵获取第二中间特征图。

在本公开实施例的技术方案中，可以获取第一中间特征图与其逻辑回归函数softmax的函数值的第一乘积，再根据第一乘积的均值获取第二中间特征图。具体地，可以将第一中间特征图右乘第一可学习参数矩阵，得到一个张量，进一步计算该张量的softmax函数值与该张量的哈达玛积，得到一个矩阵，并对该矩阵在某一维度上取平均，得到第二中间特征图。第一可学习参数矩阵可以学习空间维度上的注意力流转信息。

步骤S303，根据第二中间特征图和输入特征图的乘积获取空间注意力特征图。

具体地，空间注意力特征图即为融合了空间注意力的特征图。

步骤S304，根据第二可学习参数矩阵、第三可学习参数矩阵和空间注意力特征图获取通道注意力特征图，其中，第二可学习参数矩阵的第一个维度等于第三可学习参数矩阵的第二个维度，第三可学习参数矩阵的第一个维度等于第二可学习参数矩阵的第二个维度。

具体地，可以将空间注意力特征图右乘第二可学习参数矩阵，得到第二乘积；对第二乘积进行稀疏化处理，并右乘第三可学习参数矩阵，得到通道注意力特征图。第二可学习参数矩阵和第三可学习参数矩阵可以学习通道维度上的注意力流转信息，通过抓取不同通道间的特征关系学习到各通道的权重，可以使得特征对各个通道信息更有判别力。

步骤S305，根据空间注意力特征图和通道注意力特征图获取注意力流转特征图。

具体地，根据空间注意力特征图和通道注意力特征图获取注意力流转特征图时，可以对空间注意力特征图进行非线性映射处理，得到第三中间特征图；根据第三中间特征图和通道注意力特征图的乘积得到第四中间特征图；对第四中间特征图进行非线性映射处理，得到注意力流转特征图。根据空间注意力特征图和通道注意力特征图得到的注意力流转特征图，可以学习空间维度上和通道维度上的注意力流转信息，从而可以增强空间维度上和通道维度上的注意力流转的准确性。

以下为对步骤S301至步骤S305的详述：

在步骤S301中，假设输入特征图为f ₁，维度分别是(N，C，H，W)，将f ₁的H和W两个维度拉平(flatten)，维度变换为(N，C，R)，可以得到第二中间特征图，其中R＝H*W。

为学习到特征H*W这个维度上的注意力，使得注意力在空间维度流转，在本公开实施例中，引入第一可学习参数矩阵Q ₁，维度为(R，r)(r<R)。

在步骤S302中，将维度变换后得到的第一中间特征图右乘Q ₁，得到维度为(N，C，r)的张量f’ ₁，在f’ ₁的r这一维度进行softmax操作可以得到维度同样为(N，C，r)的张量A _s，将f’ ₁和A _s在r这一维度上的对应元素相乘，即获取f’ ₁和A _s的哈达玛积(Hadamard product)，可以得到大小为(N，C，r)的矩阵M ₁，M ₁代表多种特征组合的一种融合，r越大，复杂度越高。将M ₁按照r这一维度取平均(avg)，将维度压缩为1，可以得到第二中间特征图

其维度为(N，C)，具体计算过程如以下公式(1)所示：

在本公开实施例中，引入第一可学习参数矩阵Q ₁是为了计算获得r种空间线性变换结果，可以将空间中有代表性的特征组合方式都提取出来。在提取到的人脸特征图中，虽然每个空间像素点具有相同的感受野，但这些感受野映射到原图的区域不同，对最终识别任务的贡献也不同，所以对于不同像素点应给予不同的权重。使用第一可学习参数矩阵Q ₁可以学习到特征的H*W这个维度上的注意力，使得注意力在空间维度流转，得到多种特征组合的一种融合结果。

在步骤S303中，将步骤S301中输出的第二中间特征图

与f ₁相乘得到空间注意力特征图

其维度为(N，C，H，W)，具体计算过程如以下公式(2)所示：

其中，

即为融合了空间注意力的特征图。

在步骤S304中，将维度为(N，C，H，W)的空间注意力特征图引入第二可学习参数矩阵Q ₂和第三可学习参数矩阵Q ₃进行处理，得到通道注意力特征图

具体地，第二可学习参数矩阵Q ₂的维度为(C，C//p)，第三可学习参数矩阵Q ₃的维度为(C//p，C)，其中C为自然数。可见第二可学习参数矩阵的第一个维度等于第三可学习参数矩阵的第二个维度，第三可学习参数矩阵的第一个维度等于第二可学习参数矩阵的第二个维度。将

右乘Q ₂，可以得到维度(N，C//p)，经过relu稀疏化，再右乘Q ₃，可以得到通道注意力特征图

其维度为(N，C)。

具体计算过程如以下公式(3)所示：

在步骤S305中，对步骤S304中输出的通引入第二可学习参数矩阵Q ₂和第三可学习参数矩阵Q ₃可以学习通道维度上的注意力流转信息，这部分的设计更关注通道间的特征关系，通过抓取不同通道间的特征关系学习到各通道的权重，使得特征对各个通道信息更有判别力。p代表缩放系数，设计参数p可以降低计算量，控制模型大小。

道注意力特征图

进行非线性映射，可以得到第三中间特征f ^s，具体计算过程如以下公式(4)和(5)所示：

其中，

i代表第i个通道，即对特征图f’ ₁进行逐通道非线性映射，并且各通道的非线性映射函数可以不同，各通道的映射参数∈ _i和k _i需要通过学习得到。

采用非线性映射方式进行数据处理的过程中，对于负值输入，相比于relu直接值为0或小于0的输入映射为0进行输出的操作，可以认为卷积核的正负响应都应被接受，即可以认为人脸需要学习负值输入。应用这种非线性映射方式可以学习到数据中更加复杂的关系。其次，逐深度学习映射值，即进行通道独立的权重学习是有益的，其可以看作是一种不同通道间的注意力学习方式，增强了通道间的注意力流转准确性。此外，对于该逐通道映射方式，在深度加深的过程中非线性映射会逐渐变得更加“非线性”，即模型倾向于在浅层网络中保留信息，在深层网络中加强判别力，也即通常认为的低层特征图高分辨率、语义信息弱、但空间信息丰富，高层特征图具有低分辨率、但语义信息较强。

进一步地，将f ^s与

相乘得到第四中间特征图f ^c，维度为(N，C，H，W)，具体计算过程如以下公式(6)所示：

为了进一步增强特征的表达能力，对第四中间特征图f ^c进行非线性映射，得到注意力流转特征图f ^C，具体计算过程如以下公式(7)和(8)所示：

其中，

f ^c代表注意力在空间方向和通道方向上都进行了充分流转的特征图，直到感兴趣的注意力流横跨整个特征空间。

由上述内容可知，f ^c的维度为(N，C，H，W)，与输入特征图f ₁保持维度一致，所以该注意力流转技术可以作为一种即插即用的模块插入到神经网络的任何模块和任何位置中，使用方式较为灵活。该注意力流转技术主要通过注意力在空间和通道之间的流转进行更有效的特征融合，并且通过正负响应分别逐通道学习的非线性映射方式增强特征表达能力，从而可以提取到更具判别性的人脸特征。如果我们把该注意力流转技术定义为SC函数，输入为f ₁，输出为f ^C，则可以得到如下注意力流转公式(9)：

f ^C＝SC(f ₁) (9)

在本公开实施例中，可以根据该注意力流转技术形成一个注意力流转模块作为神经网络的基础组成模块。该模块可以通过针对人脸结构特殊性进行精细化卷积模块设计，从而实现采用最少的计算量提取强判别性人脸特征的功能，将特征图的注意力有效聚焦在了对识别任务有利的区域。

在步骤S201至步骤S204中应用该注意力流转模块时，可以对步骤S201至步骤S204的实现过程详述如下：

在步骤S202中，可以对第一特征图进行逐深度卷积处理，并对逐深度卷积结果进行批归一化处理，得到第二特征图。具体地，可以进行卷积核为n×n(n>1)、输入通道数是C、输出通道数是C、填充(padding)为1、步长(stride)为s的逐深度卷积计算(DWConv)，然后进行批量化归一(BatchNorm，简称BN)，计算得到结果f’ ₁，以n＝3为例，具体计算过程如以下公式(10)所示：

f’ ₁＝BN(DWConv(f ₁,3×3)) (10)

其中，步长依据网络设计而变化，是个可配置超参数。在本公开实施例中，基于设计小尺寸模块的思想，采用逐深度卷积而不是普通卷积来降低参数量，可以计算得到逐深度卷积的参数量是普通的常规卷积的1/C。需要特别说明的是，这里的3×3卷积可以替换为5×5或者7×7等更大的卷积核，但以3×3卷积性价比最高。

在步骤S203中，将步骤S202的输出f’ ₁进行上述注意力流转计算，得到

具体计算过程如以下公式(11)所示：

在步骤S204中，增加通道的卷积处理包括：对输入的特征图进行通道增加N倍的卷积处理，并对卷积结果进行批归一化处理，其中，N为自然数；减少通道的卷积处理包括：对输入的特征图进行通道减少为1/N的卷积处理，并对卷积结果进行批归一化处理。具体地，在步骤S204中，可以依次执行以下步骤：

将步骤S202的输出

进行卷积核是1×1、输入通道数是C、输出通道数是C*expension(扩张系数)、步长为1的卷积计算(Conv)，然后进行批量化归一，计算得到结果f ₂，具体计算过程如以下公式(12)所示：

将f ₂进行上述注意力流转计算，得到

具体计算过程如以下公式(13)所示：

将

进行卷积核是1×1、输入通道数是C*expension、输出通道数是C、步长为1的卷积计算，然后进行批量化归一，计算得到结果f ₃，具体计算过程如以下公式(14)所示：

将f ₃进行上述注意力流转计算，得到

具体计算过程如以下公式(15)所示：

本公开实施例中提出一种轻量级的注意力流转模块，该模块针对人脸识别技术进行精细化设计，其中的卷积设计、线性及非线性映射等技术都遵循两个原则，第一是减少网络参数，节省计算量，提升运算速度；第二是在空间维度和通道维度上进行更有效的特征融合，增强特征表达能力，提取到更具判别性的人脸特征。

本公开实施例中的注意力流转模块的基础通道数可以设计为64，其张量维度非常低，低维张量的卷积计算量也非常小，可以实现较快的整体运行速度。如果整个网络都在低维空间中进行特征提取，极有可能造成信息的不完整和特征的不鲁棒，本公开实施例中在中间的卷积处理过程中进行了设定扩张系数的通道数膨胀，从而可以提高整个模块的特征提取能力，达到计算量和特征表达能力的一个微妙平衡。

如图4所示，本公开实施例提供的一种人脸识别方法包括以下步骤：

步骤S401，将待识别人脸图像输入卷积核为3×3，通道数为64，步长为1的卷积层和归一化层。在一种具体实施例中，该待识别人脸图像的分辨率为(1，3，112，112)。步骤S401输出的特征图分辨率为(1，64，112，112)。

步骤S402，将上一个步骤得到的特征图输入1个基础通道数为64，扩张系数为1，可配置步长为2的注意力流转模块。步骤S402输出的特征图分辨率为(1，64，56，56)。

步骤S403，将上一个步骤得到的特征图输入1个基础通道数为64，扩张系数为1，可配置步长为1的注意力流转模块。步骤S403输出的特征图分辨率为(1，64，56，56)。

步骤S404，将上一个步骤得到的特征图输入1个基础通道数为64，扩张系数为2，可配置步长为2的注意力流转模块。步骤S404输出的特征图分辨率为(1，64，28，28)。

步骤S405，将上一个步骤得到的特征图输入4个基础通道数为64，扩张系数为2，可配置步长为1的注意力流转模块。步骤S405输出的特征图分辨率为(1，64，28，28)。

步骤S406，将上一个步骤得到的特征图输入1个基础通道数为128，扩张系数为2，可配置步长为2的注意力流转模块。步骤S406输出的特征图分辨率为(1，128，14，14)。

步骤S407，将上一个步骤得到的特征图输入6个基础通道数为128，扩张系数为2，可配置步长为1的注意力流转模块。步骤S407输出的特征图分辨率为(1，128，14，14)。

步骤S408，将上一个步骤得到的特征图输入1个基础通道数为128，扩张系数为2，可配置步长为2的注意力流转模块。步骤S408输出的特征图分辨率为(1，128，7，7)。

步骤S409，将上一个步骤得到的特征图输入2个基础通道数为128，扩张系数为2，可配置步长为1的注意力流转模块。步骤S409输出的特征图分辨率为(1，128，7，7)。

步骤S410，将上一个步骤得到的特征图输入卷积核为1×1，通道数为512的卷积层和归一化层。步骤S410输出的特征图分辨率为(1，512，7，7)。

步骤S411，将上一个步骤得到的特征图输入卷积核为7×7，通道数为512的卷积层和归一化层。步骤S411输出的特征图分辨率为(1，512，1，1)。

步骤S412，将上一个步骤得到的特征图进行拉平处理后，进行(512，512)的全连接矩阵计算，得到512维向量作为目标特征图。

在如图4所示的人脸识别方法中，步骤S402和步骤S403可以看作是一个阶段，步骤S404和步骤S405可以看作是一个阶段，步骤S406和步骤S407可以看作是一个阶段，步骤S408和步骤S409可以看作是一个阶段，各个阶段包含的注意力流转模块的个数分别为(2，5，7，3)，但是该注意力流转模块的组合方式仅为示例性描述，其它注意力流转模块的组合方式也可以实现本公开实施例的技术方案的技术效果。

本公开实施例的技术方案提出一种通用的注意力流转技术，能够分别有效抓取空间和通道上的注意力，并通过逐通道可学习的非线性映射方式提高特征判别力，整个技术能够提取有效的特征组合方式，促进注意力在多个方向维度上的流转。

根据本公开实施例的人脸识别方法，通过卷积处理和注意力流转处理的组合进行人脸识别的特征图处理，促进注意力在多个方向维度上的流转，使得最终得到的特征图对各个方向维度均具有较高的判别力，从而提高人脸识别模型的识别精度。

下述为本公开装置实施例，可以用于执行本公开方法实施例。下文描述的人脸识别装置与上文描述的人脸识别方法可相互对应参照。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种人脸识别装置的示意图。如图5所示，该人脸识别装置包括：

获取模块501，可以用于获取待识别人脸图像的第一特征图。

卷积模块502，可以用于对第一特征图进行逐深度卷积处理，得到第二特征图。

具体地，逐深度卷积在每个独立的通道内进行卷积操作，常规卷积中每个卷积核对每个通道各进行一次计算，而逐深度卷积中每个卷积核只对一个通道进行计算。

注意力流转模块503，可以用于对第二特征图进行注意力流转处理，得到第三特征图。

混合处理模块504，可以用于对第三特征图依次进行增加通道的卷积处理、注意力流转处理、减少通道的卷积处理和注意力流转处理，得到第一特征图对应的目标特征图。

在本公开实施例中，注意力流转模块503还可以用于，对输入特征图的第一维度和第二维度进行拉平处理，得到第一中间特征图；根据第一中间特征图和第一可学习参数矩阵获取第二中间特征图；根据第二中间特征图和输入特征图的乘积获取空间注意力特征图；根据第二可学习参数矩阵、第三可学习参数矩阵和空间注意力特征图获取通道注意力特征图，其中，第二可学习参数矩阵的第一个维度等于第三可学习参数矩阵的第二个维度，第三可学习参数矩阵的第一个维度等于第二可学习参数矩阵的第二个维度；根据空间注意力特征图和通道注意力特征图获取注意力流转特征图。

在本公开实施例的技术方案中，可以获取第一中间特征图与其逻辑回归函数softmax的函数值的第一乘积，再根据第一乘积的均值获取第二中间特征图。具体地，可以将第一中间特征图右乘第一可学习参数矩阵，得到一个张量，进一步计算该张量的softmax函数值与该张量的哈达玛积，得到一个矩阵，并对该矩阵在某一维度上取平均，得到第二中间特征图。

具体地，空间注意力特征图即为融合了空间注意力的特征图。第一可学习参数矩阵可以学习空间维度上的注意力流转信息。第二可学习参数矩阵和第三可学习参数矩阵可以学习通道维度上的注意力流转信息，通过抓取不同通道间的特征关系学习到各通道的权重，可以使得特征对各个通道信息更有判别力。根据空间注意力特征图和通道注意力特征图得到的注意力流转特征图，可以学习空间维度上和通道维度上的注意力流转信息，从而可以增强空间维度上和通道维度上的注意力流转的准确性。

在本公开实施例中，注意力流转模块503还可以用于，对空间注意力特征图进行非线性映射处理，得到第三中间特征图；根据第三中间特征图和通道注意力特征图的乘积得到第四中间特征图；对第四中间特征图进行非线性映射处理，得到注意力流转特征图。

在本公开实施例中，应用这种非线性映射方式可以学习到数据中更加复杂的关系。逐深度学习映射值，即进行通道独立的权重学习是有益的，其可以看作是一种不同通道间的注意力学习方式，增强了通道间的注意力流转准确性。此外，对于该逐通道映射方式，在深度加深的过程中非线性映射会逐渐变得更加“非线性”，即模型倾向于在浅层网络中保留信息，在深层网络中加强判别力，也即通常认为的低层特征图高分辨率、语义信息弱、但空间信息丰富，高层特征图具有低分辨率、但语义信息较强。

在本公开实施例中，注意力流转模块503还可以用于，获取第一中间特征图与其逻辑回归函数值的第一乘积；根据第一乘积的均值获取第二中间特征图。

在本公开实施例中，注意力流转模块503还可以用于，将空间注意力特征图右乘第二可学习参数矩阵，得到第二乘积；对第二乘积进行稀疏化处理，并右乘第三可学习参数矩阵，得到通道注意力特征图。

在本公开实施例中，引入第一可学习参数矩阵Q ₁是为了计算获得r种空间线性变换结果，可以将空间中有代表性的特征组合方式都提取出来。在提取到的人脸特征图中，虽然每个空间像素点具有相同的感受野，但这些感受野映射到原图的区域不同，对最终识别任务的贡献也不同，所以对于不同像素点应给予不同的权重。使用第一可学习参数矩阵Q ₁可以学习到特征的H*W这个维度上的注意力，使得注意力在空间维度流转，得到多种特征组合的一种融合结果。引入第二可学习参数矩阵Q ₂和第三可学习参数矩阵Q ₃可以学习通道维度上的注意力流转信息，这部分的设计更关注通道间的特征关系，通过抓取不同通道间的特征关系学习到各通道的权重，使得特征对各个通道信息更有判别力。

在本公开实施例中，混合处理模块504还可以用于，增加通道的卷积处理包括：对输入的特征图进行通道增加N倍的卷积处理，并对卷积结果进行批归一化处理，其中，N为自然数；减少通道的卷积处理包括：对输入的特征图进行通道减少为1/N的卷积处理，并对卷积结果进行批归一化处理。

在本公开实施例中，卷积模块502还可以用于，对第一特征图进行逐深度卷积处理，并对逐深度卷积结果进行批归一化处理，得到第二特征图。

由于本公开的示例实施例的人脸识别装置的各个功能模块与上述人脸识别方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的人脸识别方法的实施例。

根据本公开实施例的人脸识别装置，通过卷积处理和注意力流转处理的组合进行人脸识别的特征图处理，促进注意力在多个方向维度上的流转，使得最终得到的特征图对各个方向维度均具有较高的判别力，从而提高人脸识别模型的识别精度。

图6是本公开实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

一种人脸识别方法，其特征在于，所述方法包括：

获取待识别人脸图像的第一特征图；

对所述第一特征图进行逐深度卷积处理，得到第二特征图；

对所述第二特征图进行注意力流转处理，得到第三特征图；

对第三特征图依次进行增加通道的卷积处理、所述注意力流转处理、减少通道的卷积处理和所述注意力流转处理，得到第一特征图对应的目标特征图。
根据权利要求1所述的方法，其特征在于，所述注意力流转处理包括：

对输入特征图的第一维度和第二维度进行拉平处理，得到第一中间特征图；

根据所述第一中间特征图和第一可学习参数矩阵获取第二中间特征图；

根据所述第二中间特征图和所述输入特征图的乘积获取空间注意力特征图；

根据第二可学习参数矩阵、第三可学习参数矩阵和所述空间注意力特征图获取通道注意力特征图，其中，所述第二可学习参数矩阵的第一个维度等于所述第三可学习参数矩阵的第二个维度，所述第三可学习参数矩阵的第一个维度等于所述第二可学习参数矩阵的第二个维度；

根据所述空间注意力特征图和所述通道注意力特征图获取注意力流转特征图。
根据权利要求2所述的方法，其特征在于，根据所述空间注意力特征图和所述通道注意力特征图获取注意力流转特征图，包括：

对所述空间注意力特征图进行非线性映射处理，得到第三中间特征图；

根据所述第三中间特征图和所述通道注意力特征图的乘积得到第四中间特征图；

对所述第四中间特征图进行所述非线性映射处理，得到所述注意力流转特征图。
根据权利要求2所述的方法，其特征在于，根据所述第一中间特征图和第一可学习参数矩阵获取第二中间特征图，包括：

获取所述第一中间特征图与其逻辑回归函数值的第一乘积；

根据所述第一乘积的均值获取所述第二中间特征图。
根据权利要求2所述的方法，其特征在于，根据第二可学习参数矩阵、第三可学习参数矩阵和所述空间注意力特征图获取通道注意力特征图，包括：

将所述空间注意力特征图右乘所述第二可学习参数矩阵，得到第二乘积；

对所述第二乘积进行稀疏化处理，并右乘所述第三可学习参数矩阵，得到所述通道注意力特征图。
根据权利要求1所述的方法，其特征在于，

所述增加通道的卷积处理包括：对输入的特征图进行通道增加N倍的卷积处理，并对卷积结果进行批归一化处理，其中，N为自然数；

所述减少通道的卷积处理包括：对输入的特征图进行通道减少为1/N的卷积处理，并对卷积结果进行批归一化处理。
根据权利要求6所述的方法，其特征在于，根据对所述第一特征图进行逐深度卷积处理，得到第二特征图，包括：

对所述第一特征图进行逐深度卷积处理，并对逐深度卷积结果进行批归一化处理，得到所述第二特征图。
一种人脸识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别人脸图像的第一特征图；

卷积模块，用于对所述第一特征图进行逐深度卷积处理，得到第二特征图；

注意力流转模块，用于对所述第二特征图进行注意力流转处理，得到第三特征图；

混合处理模块，用于对第三特征图依次进行增加通道的卷积处理、所述注意力流转处理、减少通道的卷积处理和所述注意力流转处理，得到第一特征图对应的目标特征图。
一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1所述方法的步骤。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述方法的步骤。