WO2021169641A1

WO2021169641A1 - 人脸识别方法和系统

Info

Publication number: WO2021169641A1
Application number: PCT/CN2021/071260
Authority: WO
Inventors: 朱锦祥; 单以磊; 臧磊
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-02-28
Filing date: 2021-01-12
Publication date: 2021-09-02
Also published as: CN111353430A

Abstract

一种人脸识别方法、人脸识别系统、计算机设备及计算机可读存储介质，该方法包括：获取包括人脸信息的待识别图像（S100）；通过人脸特征提取模型提取所述待识别图像中的人脸特征，其中，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构（S102）；根据所述人脸特征，对所述待识别图像执行人脸识别操作（S104）。本方法实现了存储和运算优化，具有硬件资源耗费较少且具有高识别精确度的技术效果。

Description

人脸识别方法和系统

本申请要求于2020年2月28日提交中国专利局、申请号为202010128434.5，发明名称为“人脸识别方法和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种人脸识别方法、系统、计算机设备及计算机可读存储介质。

背景技术

人脸识别技术是鉴别用户身份的一个重要方法，发明人发现，其一般做法为：通过在客户端获取人脸图像或者视频流，基于人脸图像或视频流检测是否存在人脸以及提取每个人脸的位置、大小和各个主要面部器官的位置信息，以及这些信息提取每个人脸中所蕴涵的身份特征，并将其与人脸数据库中的人脸进行对比，从而识别来确定是否是目标对象。随着人工智能技术的不断发展，人们开始借助深度神经网络技术来提取人脸特征。相比于传统的人脸识别技术，基于深度神经网络的人脸识别技术不仅具备更高的识别准确率，还具备自动提取人脸特征的能力。

本发明人目前所了解的是，用于提取人脸特征的神经网络架构较多，如基于VGG的神经网络架构、基于残差结构的ResNet架构、MobileNet架构等等。但是，发明人意识到，VGG或ResNet等架构需要耗费很大的硬件资源，无法被应用到手机等硬件资源有效的计算机设备中，而MobileNet架构虽然不需要很大的硬件资源，但是人脸特征提取能力又较差，导致人脸识别精确度不高。

因此，本申请人认为有必要提供一种硬件资源耗费较少且具有高识别精确度的人脸识别技术。

发明内容

本申请实施例的目的是提供一种人脸识别方法、系统、计算机设备及计算机可读存储介质，可以用于解决硬件资源耗费和识别精确度无法兼顾的的技术问题。

本申请实施例的一个方面提供了一种人脸识别方法，所述方法包括：

获取包括人脸信息的待识别图像；

通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

根据所述人脸特征，对所述待识别图像执行人脸识别操作。

本申请实施例的另一个方面还提供了一种人脸识别系统，所述系统包括：

图像获取模块，用于获取包括人脸信息的待识别图像；

特征提取模块，用于通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

图像识别模块，用于根据所述人脸特征，对所述待识别图像执行人脸识别操作。

本申请实施例的再一个方面提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述计算机程序时用于实现上述人脸识别方法，该人脸识别方法包括以下步骤：

获取包括人脸信息的待识别图像；

根据所述人脸特征，对所述待识别图像执行人脸识别操作。

本申请实施例的又一个方面提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时用于实现上述人脸识别方法，该人脸识别方法包括以下步骤：

获取包括人脸信息的待识别图像；

根据所述人脸特征，对所述待识别图像执行人脸识别操作。

本申请实施例的人脸特征提取模型，经测试，该模型具备参数量较少但精度基本不受损的特性，大大降低模型的显存占用和浮点运算量，实现存储和运算优化，具有硬件资源耗费较少且具有高识别精确度的技术效果。

附图说明

图1示意性示出了根据本申请实施例一的人脸识别方法的流程图；

图2示意性示出了目标区块序列的示例性结构；

图3示意性示出了目标区块的示例性结构；

图4示意性示出了根据本申请实施例二的人脸识别系统的框图；以及

图5示意性示出了根据本申请实施例三的适于实现人脸识别方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请的技术方案可应用于人工智能、智慧城市、区块链和/或大数据技术领域，以实现人脸识别。可选的，本申请涉及的数据如待识别图像和/或人脸特征等信息可存储于数据库中，或者可以存储于区块链中，比如通过区块链分布式存储，本申请不做限定。

实施例一

图1示意性示出了根据本申请实施例一的人脸识别方法的流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。

如图1所示，该人脸识别方法可以包括步骤S100～步骤S104，其中：

步骤S100，获取包括人脸信息的待识别图像。

计算机设备2可以是智能手机、平板电脑、膝上笔记本电脑等。以智能手机为例：

智能手机可以监测用户的图像采集指令，如通过触摸显示屏输入的图像采集指令，监测到该图像采集指令之后，根据预设使用场景调用摄像头，如前置摄像头或后置摄像头。例如，在人脸解锁场景中，如果智能手机处于锁屏状态并监测到用户通过物理按钮或触摸屏触发解锁操作时，响应该解锁操作生成图像采集指令以调用前置摄像头进行图像采集操作。当然，也可以通过其他方式触发智能手机的解锁操作。例如，通过各类传感器(例如，重力传感器、陀螺仪等)检测到智能手机的运动轨迹是否落入预定运动轨迹集合中，如果落入到预定运动轨迹集合中则触发解锁操作。不难理解，摄像头可以采集多种连续图片，从这些连续图片中挑选出包含人脸信息的部分图片，基于挑选出的部分图片进行人脸识别操作。本实施例还可以用在其他应用场景中，如人脸支付场景以及其他各类身份验证场景等。

步骤S102，通过人脸特征提取模型提取所述待识别图像中的人脸特征。

所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括目标区块包括深度可分离卷积结构(depthwise separable convolution)和注意力结构。

下面对深度可分离卷积结构和注意力结构进行示例性介绍：

所述深度可分离卷积结构包括depthwise convolution(深度卷积)和pointwise convolution(逐点卷积)。

所述depthwise convolution，可以设置多个卷积核，所述多个卷积核的数量和通道数量相同，且卷积核和通道之间具有一一对应关系。例如，待识别图像为三通道的彩色图片(shape为H*W*3)，depthwise convolution可以由3个卷积核构成，一个卷积核用于对R通道的图像进行卷积操作并生成对应的Feature map、一个卷积核用于对G通道的图像进行卷积操作并生成对应的Feature map、一个卷积核用于对B通道的图像进行卷积操作并生成对应的Feature map。需要说明的是，如果被设置输入和输出大小关系一致(即padding为same)，则上述各个Feature map的尺寸亦为H*W。

所述pointwise convolution：可以设置多个尺寸为1*1*M卷积核，所述多个卷积核的数据可以为C，其中M即上一层网络(depthwise convolution)的通道数量。例如，由于depthwise convolution的通道数为3，输出3个Feature map，所以，pointwise convolution可以由C个1*1*M的卷积核构成。每个1*1*M的卷积核用于对应上一层网络输出(即，3个Feature map)执行卷积操作以生成一个新的Feature map。不难理解，C个1*1*M的卷积核意味着要输出C个新的Feature map。

所述注意力结构可以采用多种模型结构实现，如编码器-解码器框架。

在示例性的实施例中，所述注意力结构可以是压缩奖惩(Squeeze-Excitation)结构，其中：

所述压缩奖惩结构中的压缩(Squeeze)结构，用于对所述深度可分离卷积结构输出的特征图(下称，Feature map)进行处理以得到所述Feature map的全局感受野信息。具体的：基于空间维度来进行特征压缩，将每个二维的特征通道变成一个实数，这个实数某种程度上具有全局的感受野，并且输出的维度和输入的特征通道的通道数量相匹配。

所述压缩奖惩结构中的奖励(Excitation)结构，用于根据所述压缩结构提供的全局感受野信息对所述Feature map中各个通道进行权值评比以生成各个通道的权重，并根据所述各个通道的权重对所述Feature map中的各个特征进行标定操作。具体的：生成各个通道的权重之后，根据S型函数将上述各个通道的权重加权到对应的原特征通道上，从而完成在特征通道维度上对原始特征进行标定的操作。

为了易于理解，假设U(U∈R ^H*W*C)，即深度可分离卷积结构输出的C个H*W的Feature map。下面以U为输入进行介绍Squeeze-Excitation结构的实现过程：

第一步骤：通过公式

将H*W*C的输入转换成1*1*C的输出，以得到各个Feature map的全局感受野信息。其中，u _c表示第c个Feature map，i表示Feature map中第i列，j表示Feature map中第j行。

第二步骤：通过公式s＝F _ex(z,W)＝σ(g(z,W))＝σ(W ₂σ(W ₁*z))来获取C个Feature map 各自的权重。其中，W ₁的维度是C/r*C，W ₂的维度是C*C/r，W ₁和W ₂均用于全连接运算中，r是一个用于减少通道数量的缩放参数。

第三步骤：通过公式

将各个权重加权到对应的Feature map上，u _c表示第c个Feature map，s _c表示一个第c个Feature map的权重。

在示例性的实施例中，所述目标区块序列包括依顺序串行堆叠的多个目标区块，所述多个目标区块的数量根据计算资源和人脸识别操作的精确度确定。具体的：可以根据计算机设备的硬件资源和识别精度，配置不同的人脸特征提取模型，所述人脸特征提取模型可以包括一个目标区块，也可以包括有序堆叠的多个目标区块。在示例性的实施例中，当所述目标区块序列包括有序堆叠的多个目标区块时，则设置为：每个目标区块的输出通道数据是单调递增的，每个目标区块的输出通道数量始终大于其前面的目标区块的输出通道数量，以增加提取精度。

进一步的，如图2所示，所述目标区块序列包括依顺序串行堆叠的第一目标区块、第二目标区块、第三目标区块、第四目标区块、第五目标区块和第六目标区块，其中，所述第一目标区块的输出通道为16个、所述第二目标区块的输出通道为24个、所述第三目标区块的输出通道为64个、所述第四目标区块的输出通道为96个、所述第五目标区块的输出通道为160个、所述第六目标区块的输出通道为320个。通过上述配置，可以将模型参数数量控制在6兆以下，且保障识别准确率达到93％以上。

在示例性的实施例中，为优化目标区块以减少神经网络参数的数量，同时保证图片特征提取能力，以下提供所述目标区块的一示例性结构。如图3所示，每个目标区块包括依顺序耦合的第一卷积层(Conv_1)、第一批标准化操作层(BN)、第一激活函数层(Swish)、深度可分离卷积结构(DWConv)、第二批标准化操作层(BN)、第二激活函数层(Swish)、第三批标准化操作层(BN)、压缩奖惩结构(SE Module)、第二卷积层(Conv_2)和第四批标准化操作层(BN)。经过测试，上述结构的目标区块，可以极大的降低模型的显存占用和浮点运算量，实现模型的存储和运算优化。作为保障运算优化的优选设置，其中：所述第一卷积层中的卷积核数量为偶数；第一卷积层中的卷积核数量，为所在目标区块的上一个目标区块的输出通道数量的N倍，N为大于1的自然数。所述第二卷积层中的卷积核数量为偶数；第二卷积层中的卷积核数量，大于或等于同一个目标区块的第一卷积层中的卷积核数量的2倍并且小于或等于第一卷积层中的卷积核数量的4倍；第二卷积层中的卷积核数量，大于所在目标区块的上一个目标区块的第二卷积层中的卷积核数量。

以下将对目标区块中的各个操作单元进行具体介绍：

Conv_1，可以是二维卷积，在目标区块中作为目标区块的第一个操作单元，其卷积核大小(kernel size)为1*1，步幅(stride)为1*1，卷积核数量具有以下特点：1.当目标区块为整个深度神经网络的第一个目标区块时，过滤器数为2的倍数，建议最小值不小于16；2.当目标区块为整个深度神经网络的第二个或第二个以上目标区块时，卷积核数量等于上一个目标区块的输出道通数量的6倍。

BN，是Batch Normalization的缩写，即批标准化操作。

BN的作用：让每一层的输入的分布变得相似，防止神经元的输出变化到饱和区域，以避免梯度消失问题。通过BN寻找一个以0为中心的，单位方差的分布作为每一层的激活函数的输入。训练过程中，可以用激活的输入x减去这个batch中的均值μ来得到以0为中心的分布

然后，通过x除以batch的方差，并通过σ+ε来防止除0操作，确保了所有的激活函数的输入分布具有单位方差

最后，将x通过一个线性变换，通过缩放和偏移，得到了BN的输出，确保这个归一化的作用会保持住。实际参数：防止除0操作的eps参数设为0.001，而动量因子momentum参数为0.01。

Swish，为激活函数，其公式为：f(x)＝x*sigmoid(βx)，其中，β为x的缩放参数，在本实施例中，β可以设置为1，Sigmoid是非线性的激活函数，其数学公式为

经过测试，在保持所有的模型参数不变的情况下，使用Swish可以提升准确率。

DWConv，为depthwise separable convolution的缩写。在本实施例中，depthwise convolution中的卷积核大小为3*3，步幅为1*1，卷积核的数量等于Conv_1中的卷积核的数量，无偏置项。

SE Module，为Squeeze-Excitation结构，其包含了两个卷积层，分别是reduce_conv和expand_conv，这两个卷积层的卷积核大小和步幅大小都是1*1，卷积核的数量设置存在区别，其中，reduce_conv的卷积核的数量为Conv_1的卷积核的数量的24分之1，expand_conv的卷积核的数量等于Conv_1的卷积核的数量。

Conv_2，为目标区块的最后一层卷积操作，其卷积核的数量决定了目标区块的输出通道的维度，Conv_2的卷积核大小(kernel size)为1*1，步幅(stride)为1*1，卷积核的数量可通过网格搜索算法来确定。不同目标区块结构的Conv_2的卷积核具有如下特点：

1，后面的目标区块的卷积核的数量大于上一层的卷积块的Conv_2的卷积核的数量；

2，Conv_2的卷积核的数量大于或等于Conv_1的卷积核的数量的2倍；

3，Conv_2的卷积核的数量小于Conv_1的卷积核的数量的4倍；

4，Conv_2的卷积核的数量为偶数。

步骤S104，根据所述人脸特征，对所述待识别图像执行人脸识别操作。

具体的，将人脸提取模型输出的人脸特征与参考人脸特征进行比较，所述参考人脸特征为预存的目标对象的人脸特征；根据比较结果来确定是否为目标对象。在一些方案中，根据用户可以接受的识别错误率来确定一个阈值(例如，可以根据不用的场景，设置不同的阈值)，将人脸提取模型输出的人脸特征与参考人脸特征进行比较以确定二者之间的匹配度，该匹配度可以通过余弦相似度表示；如果所述相似度大于或等于所述阈值，则确定是目标对象，如果所述相似度小于所述阈值，则确定不是所述目标对象。

不难理解，本实施例基于深度可分离卷积和轻量级注意力结构，联合使用普通卷积和BN操作运算，最终设计出包含目标区块的人脸特征提取模型，该模型具备参数量较少但精度基本不受损的特性，大大降低模型的显存占用和浮点运算量，实现存储和运算优化。经测试表明，人脸特征提取模型的参数量可以由54兆下降为5.21兆，而精度并没有下降。因此，本实施例的参数量维持在MobileNet架构的级别，但人脸特征提取能力不亚于ResNet架构，如适当提高参数量，则人脸识别的准确度要比resnet50、resnet150更高，从而有效解决了硬件资源消耗和人脸特征提取能力之间不可兼得的技术问题，可以在硬件资源耗费较少的情况下实现较高的人脸识别精度。

实施例二

图4示出了根据本申请实施例二的人脸识别系统的框图，该人脸识别系统可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例各程序模块的功能。

如图4所示，所述人脸识别系统400可以包括以下组成部分：

图像获取模块402，用于获取包括人脸信息的待识别图像。

特征提取模块404，用于通过所述人脸特征提取模型提取所述待识别图像中的人脸特征。

其中，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构。

图像识别模块406，用于根据所述人脸特征，对所述待识别图像执行人脸识别操作。

在示例性的实施例中，所述注意力结构包括压缩奖惩结构，其中：所述压缩奖惩结构中的压缩结构，用于对所述深度可分离卷积结构输出的特征图进行处理以得到所述特征图的全局感受野信息；所述压缩奖惩结构中的奖励结构，用于根据所述压缩结构提供的全局感受野信息对所述特征图中各个通道进行权值评比以生成各个通道的权重，并根据所述各个通道的权重对所述特征图中的各个特征进行标定操作。

下面对深度可分离卷积结构和压缩奖惩结构进行示例性介绍：

所述压缩奖惩(Squeeze-Excitation)结构，其中：

第一步骤：通过公式

第二步骤：通过公式s＝F _ex(z,W)＝σ(g(z,W))＝σ(W ₂σ(W ₁*z))来获取C个Feature map各自的权重。其中，W ₁的维度是C/r*C，W ₂的维度是C*C/r，W ₁和W ₂均用于全连接运算中，r是一个用于减少通道数量的缩放参数。

第三步骤：通过公式

在示例性的实施例中，每个目标区块包括依顺序耦合的第一卷积层(Conv_1)、第一批标准化操作层(BN)、第一激活函数层(Swish)、深度可分离卷积结构(DWConv)、第二批标准化操作层(BN)、第二激活函数层(Swish)、第三批标准化操作层(BN)、压缩奖惩结构(SE Module)、第二卷积层(Conv_2)和第四批标准化操作层(BN)。

在示例性的实施例中，所述第一卷积层中的卷积核数量为偶数；第一卷积层中的卷积核数量，为所在目标区块的上一个目标区块的输出通道数量的N倍，N为大于1的自然数。

在示例性的实施例中，所述第二卷积层中的卷积核数量为偶数；第二卷积层中的卷积核数量，大于或等于同一个目标区块的第一卷积层中的卷积核数量的2倍并且小于或等于第一卷积层中的卷积核数量的4倍；第二卷积层中的卷积核数量，大于所在目标区块的上一个目标区块的第二卷积层中的卷积核数量。

以下将对目标区块中的各个操作单元进行具体介绍：

BN，是Batch Normalization的缩写，即批标准化操作。

3，Conv_2的卷积核的数量小于Conv_1的卷积核的数量的4倍；

4，Conv_2的卷积核的数量为偶数。

在示例性的实施例中，所述目标区块序列包括依顺序串行堆叠的第一目标区块、第二目标区块、第三目标区块、第四目标区块、第五目标区块和第六目标区块，其中，所述第一目标区块的输出通道为16个、所述第二目标区块的输出通道为24个、所述第三目标区块的输出通道为64个、所述第四目标区块的输出通道为96个、所述第五目标区块的输出通道为160个、所述第六目标区块的输出通道为320个。

实施例三

图5示意性示出了根据本申请实施例三的适于实现人脸识别方法的计算机设备的硬件架构示意图。本实施例中，计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、监控设备、视频会议系统、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图5所示，计算机设备2至少包括但不限于：存储器和处理器。可选的，该计算机设备2还可包括网络接口。例如，该计算机设备2包括存储器510、处理器520、网络接口530，如可通过系统总线相互通信连接存储器510、处理器520、网络接口530。其中：

存储器510至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器510可以是计算机设备2的内部存储模块，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器510也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器510还可以既包括计算机设备2的内部存储模块也包括其外部存储设备。本实施例中，存储器510通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如人脸识别方法的程序代码等。此外，存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器520在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器520通常用于控制计算机设备2的总体操作，例如执行与计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，处理器520用于运行存储器510中存储的程序代码或者处理数据。

网络接口530可包括无线网络接口或有线网络接口，该网络接口530通常用于在计算机设备2与其他计算机设备之间建立通信连接。例如，网络接口530用于通过网络将计算机设备2与外部终端相连，在计算机设备2与外部终端之间的建立数据传输通道和通信连接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图5仅示出了具有部件510-530的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器510中的人脸识别方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器520)所执行，用于实现上述实施例中人脸识别方法的部分或全部步骤，以完成本申请。

实施例四

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的人脸识别方法的步骤。

可选的，本申请涉及的存储介质如计算机可读存储介质可以是非易失性的，也可以是易失性的。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的人脸识别方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种人脸识别方法，其中，所述方法包括：

获取包括人脸信息的待识别图像；

通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

根据所述人脸特征，对所述待识别图像执行人脸识别操作。
根据权利要求1所述的人脸识别方法，其中，所述注意力结构包括压缩奖惩结构，其中：

所述压缩奖惩结构中的压缩结构，用于对所述深度可分离卷积结构输出的特征图进行处理以得到所述特征图的全局感受野信息；所述压缩奖惩结构中的奖励结构，用于根据所述压缩结构提供的全局感受野信息对所述特征图中各个通道进行权值评比以生成各个通道的权重，并根据所述各个通道的权重对所述特征图中的各个特征进行标定操作。
根据权利要求1所述的人脸识别方法，其中，所述目标区块序列包括依顺序串行堆叠的多个目标区块，所述多个目标区块的数量根据计算资源和人脸识别操作的精确度确定。
根据权利要求3所述的人脸识别方法，其中，每个目标区块包括依顺序耦合的第一卷积层、第一批标准化操作层、第一激活函数层、深度可分离卷积结构、第二批标准化操作层、第二激活函数层、第三批标准化操作层、压缩奖惩结构、第二卷积层和第四批标准化操作层。
根据权利要求4所述的人脸识别方法，其中，所述第一卷积层中的卷积核数量为偶数；且，所述第一卷积层中的卷积核数量，为所在目标区块的上一个目标区块的输出通道数量的N倍，N为大于1的自然数。
根据权利要求4所述的人脸识别方法，其中，所述第二卷积层中的卷积核数量为偶数；所述第二卷积层中的卷积核数量，大于或等于同一个目标区块的第一卷积层中的卷积核数量的2倍并且小于或等于第一卷积层中的卷积核数量的4倍；所述第二卷积层中的卷积核数量，大于所在目标区块的上一个目标区块的第二卷积层中的卷积核数量。
根据权利要求5所述的人脸识别方法，其中，所述目标区块序列包括依顺序串行堆叠的第一目标区块、第二目标区块、第三目标区块、第四目标区块、第五目标区块和第六目标区块，其中，所述第一目标区块的输出通道为16个、所述第二目标区块的输出通道为24个、所述第三目标区块的输出通道为64个、所述第四目标区块的输出通道为96个、所述第五目标区块的输出通道为160个、所述第六目标区块的输出通道为320个。
一种人脸识别系统，其中，所述系统包括：

图像获取模块，用于获取包括人脸信息的待识别图像；

特征提取模块，用于通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

图像识别模块，用于根据所述人脸特征，对所述待识别图像执行人脸识别操作。
一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时用于实现以下步骤：

获取包括人脸信息的待识别图像；

通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

根据所述人脸特征，对所述待识别图像执行人脸识别操作。
根据权利要求9所述的计算机设备，其中，所述注意力结构包括压缩奖惩结构，其中：

所述压缩奖惩结构中的压缩结构，用于对所述深度可分离卷积结构输出的特征图进行处理以得到所述特征图的全局感受野信息；所述压缩奖惩结构中的奖励结构，用于根据所述压缩结构提供的全局感受野信息对所述特征图中各个通道进行权值评比以生成各个通道的权重，并根据所述各个通道的权重对所述特征图中的各个特征进行标定操作。
根据权利要求9所述的计算机设备，其中，所述目标区块序列包括依顺序串行堆叠的多个目标区块，所述多个目标区块的数量根据计算资源和人脸识别操作的精确度确定。
根据权利要求11所述的计算机设备，其中，每个目标区块包括依顺序耦合的第一卷积层、第一批标准化操作层、第一激活函数层、深度可分离卷积结构、第二批标准化操作层、第二激活函数层、第三批标准化操作层、压缩奖惩结构、第二卷积层和第四批标准化操作层。
根据权利要求12所述的计算机设备，其中，所述第一卷积层中的卷积核数量为偶数；且，所述第一卷积层中的卷积核数量，为所在目标区块的上一个目标区块的输出通道数量的N倍，N为大于1的自然数；和/或，

所述第二卷积层中的卷积核数量为偶数；所述第二卷积层中的卷积核数量，大于或等于同一个目标区块的第一卷积层中的卷积核数量的2倍并且小于或等于第一卷积层中的卷积核数量的4倍；所述第二卷积层中的卷积核数量，大于所在目标区块的上一个目标区块的第二卷积层中的卷积核数量。
根据权利要求13所述的计算机设备，其中，所述目标区块序列包括依顺序串行堆叠的第一目标区块、第二目标区块、第三目标区块、第四目标区块、第五目标区块和第六目标区块，其中，所述第一目标区块的输出通道为16个、所述第二目标区块的输出通道为24个、所述第三目标区块的输出通道为64个、所述第四目标区块的输出通道为96个、所述第五目标区块的输出通道为160个、所述第六目标区块的输出通道为320个。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时用于实现以下步骤：

获取包括人脸信息的待识别图像；

通过人脸特征提取模型提取所述待识别图像中的人脸特征，所述人脸特征提取模型包括目标区块序列，所述目标区块序列包括一个或多个目标区块，每个目标区块包括深度可分离卷积结构和注意力结构；及

根据所述人脸特征，对所述待识别图像执行人脸识别操作。
根据权利要求15所述的计算机可读存储介质，其中，所述注意力结构包括压缩奖惩结构，其中：

所述压缩奖惩结构中的压缩结构，用于对所述深度可分离卷积结构输出的特征图进行处理以得到所述特征图的全局感受野信息；所述压缩奖惩结构中的奖励结构，用于根据所述压缩结构提供的全局感受野信息对所述特征图中各个通道进行权值评比以生成各个通道的权重，并根据所述各个通道的权重对所述特征图中的各个特征进行标定操作。
根据权利要求15所述的计算机可读存储介质，其中，所述目标区块序列包括依顺序串行堆叠的多个目标区块，所述多个目标区块的数量根据计算资源和人脸识别操作的精确度确定。
根据权利要求17所述的计算机可读存储介质，其中，每个目标区块包括依顺序耦合的第一卷积层、第一批标准化操作层、第一激活函数层、深度可分离卷积结构、第二批标准化操作层、第二激活函数层、第三批标准化操作层、压缩奖惩结构、第二卷积层和第四批标准化操作层。
根据权利要求18所述的计算机可读存储介质，其中，所述第一卷积层中的卷积核数量为偶数；且，所述第一卷积层中的卷积核数量，为所在目标区块的上一个目标区块的输出通道数量的N倍，N为大于1的自然数；和/或，

所述第二卷积层中的卷积核数量为偶数；所述第二卷积层中的卷积核数量，大于或等于同一个目标区块的第一卷积层中的卷积核数量的2倍并且小于或等于第一卷积层中的卷积核数量的4倍；所述第二卷积层中的卷积核数量，大于所在目标区块的上一个目标区块的第二卷积层中的卷积核数量。
根据权利要求19所述的计算机可读存储介质，其中，所述目标区块序列包括依顺序串行堆叠的第一目标区块、第二目标区块、第三目标区块、第四目标区块、第五目标区块和第六目标区块，其中，所述第一目标区块的输出通道为16个、所述第二目标区块的输出通道为24个、所述第三目标区块的输出通道为64个、所述第四目标区块的输出通道为96个、所述第五目标区块的输出通道为160个、所述第六目标区块的输出通道为320个。