WO2020244174A1

WO2020244174A1 - 人脸识别方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2020244174A1
Application number: PCT/CN2019/121347
Authority: WO
Inventors: 柳军领
Original assignee: 深圳云天励飞技术有限公司
Priority date: 2019-06-05
Filing date: 2019-11-27
Publication date: 2020-12-10
Also published as: CN110363081A; CN110363081B

Abstract

一种人脸识别方法、装置、设备及计算机可读存储介质，其中方法包括：提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸，通过上述方法，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

Description

人脸识别方法、装置、设备及计算机可读存储介质

本申请要求于2019年6月5日提交中国专利局，申请号为201910489828.0、发明名称为“人脸识别方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人脸识别方法、装置、设备及计算机可读存储介质。

背景技术

人脸识别，是指基于人的脸部特征信息进行身份识别的一种生物识别技术，被广泛应用于多种领域，如小区门禁、公司考勤、司法刑侦等。结合实际应用可以知道，人脸是具有相当复杂细节变化的自然结构目标，所以，对于这类目标的检测与识别是一个富有挑战性的课题。具体来说，识别难度体现在：(1)由于外貌、表情、姿态、皮肤颜色等不同，人脸本身具有模式的可变性；(2)由于刘海、眼镜、胡须等附属物存在的不确定性而使人脸有不同的特征；(3)图像的大小、光源方向和光照强弱等都会影响人脸的最终表达。因此，正面/垂直/光线较好的人脸，可以比较容易的识别出来；而正侧面/歪斜/光线不好的人脸，一般无法识别。

目前，人脸识别的实现过程可以包括：首先，从视频流中截取包含人脸的图像，得到人脸图像；其次，提取人脸图像中的人脸特征；然后，对提取的人脸特征进行分类，完成人脸识别。

现有技术中，在人脸图像中提取人脸特征时，因特征提取率不高(例如，特征提取率不高可以表现为：提取的人脸特征单一、不准确、计算过程复杂等)容易带来人脸识别精度低的问题。

发明内容

本发明实施例提供一种人脸识别方法、装置、设备及计算机可读存储介质，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

为实现上述目的，第一方面，本发明实施例提供了一种人脸识别方法，该方法包括：

提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；

在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸。

在其中一种可能的实现方式中，所述在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，包括：

将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

将所述人脸时序特征组中的时序特征经过融合处理得到融合时序特征；

当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组。

在其中一种可能的实现方式中，所述第一人脸空间特征组的维数为M，所述第一人脸空间特征组的维数为根据FaceNet模型确定的，所述第一人脸空间特征组处于第一空间；所述人脸时序特征组的维数为S，所述人脸时序特征组的维数为根据所述预设的循环神经网络模型中的隐含层神经元数量确定的；所述人脸时序特征组处于第二空间；所述当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组，包括：

在预设的循环神经网络模型中添加全连接层，以使所述融合时序特征映射到所述第一空间，并得到与所述第一人脸空间特征组维数相同的人脸时序特征。

在其中一种可能的实现方式中，所述预设的循环神经网络模型为双层的长短期记忆网络模型，且每层的网络结构均相同。

在其中一种可能的实现方式中，所述在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，还包括：

在所述人脸时序特征组中确定第一人脸时序特征；其中，所述第一人脸时序特征为所述人脸时序特征组中的任意一个人脸时序特征；

当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述第一人脸时序特征进行空间映射，以得到第二人脸时序特征；

在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸，包括：

确定所述第二人脸时序特征与所述人脸数据库中存储的人脸图像的匹配度；

若所述匹配度小于预设阈值，则继续计算剩余的所述第二人脸时序特征与所述人脸图像的匹配度，直至所述匹配度大于预设阈值时，确定所述第二人脸时序特征对应的所述目标人脸。

在其中一种可能的实现方式中，所述提取视频流中同一目标人脸的N帧人脸图像，包括：

通过训练好的多任务级联卷积神经网络模型提取所述视频流中同一个目标人脸的N帧人脸图像。

在其中一种可能的实现方式中，所述对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，包括：

将所述N帧人脸图像输入FaceNet模型中，以提取所述N帧人脸图像中的空间特征。

实施本申请实施例，通过在第一人脸空间特征组中提取时序信息，可以得到人脸时序特征组，由于人脸时序特征组可以反映多帧人脸图像中包含的互补信息，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

第二方面，本发明实施例提供了一种人脸识别装置，该人脸识别装置包括：

图像提取单元，用于提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

第一特征提取单元，用于对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

第二特征提取单元，用于在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；

识别单元，用于在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸。

在其中一种可能的实现方式中，所述第二特征提取单元包括第一时序特征提取单元、融合单元以及第一空间映射单元；其中，

所述第一时序特征提取单元，用于将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

所述融合单元，用于将所述人脸时序特征组中的时序特征经过融合处理得到融合时序特征；

所述第一空间映射单元，用于当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组。

在其中一种可能的实现方式中，所述第一人脸空间特征组的维数为M，所述第一人脸空间特征组的维数为根据FaceNet模型确定的，所述第一人脸空间特征组处于第一空间；所述人脸时序特征组的维数为S，所述人脸时序特征组的维数为根据所述预设的循环神经网络模型中的隐含层神经元数量确定的；所述人脸时序特征组处于第二空间；所述空间映射单元，具体用于：

在其中一种可能的实现方式中，所述第二特征提取单元还包括第二时序特征提取单元、确定单元以及第二空间映射单元；其中，

所述第二时序特征提取单元，用于将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

所述确定单元，用于在所述人脸时序特征组中确定第一人脸时序特征；其中，所述第一人脸时序特征为所述人脸时序特征组中的任意一个人脸时序特征；

所述第二空间映射单元，用于当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述第一人脸时序特征进行空间映射，以得到第二人脸时序特征；

所述识别单元包括：匹配度确定单元、处理单元；

其中，所述匹配度确定单元，用于在所述匹配度小于预设阈值时，继续计算剩余的所述第二人脸时序特征与所述人脸图像的匹配度，直至所述匹配度大于预设阈值时，确定所述第二人脸时序特征对应的所述目标人脸。

在其中一种可能的实现方式中，所述图像提取单元，具体用于：

在其中一种可能的实现方式中，所述第一特征提取单元，具体用于：

第三方面，本发明实施例提供了一种人脸识别设备，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储支持人脸识别设备执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

第五方面，本发明实施例提供了一种计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

实施本申请实施例，通过在第一人脸空间特征组中提取时序信息，可以得到人脸时序特征组，并通过对人脸时序特征组中包含的人脸特征进行特征融合，得到融合时序特征，当第一人脸空间特征组的维数与人脸时序组的维数不相等时，通过空间映射可以得到人脸时序特征，由于人脸时序特征可以反映多帧人脸图像的多重属性，且人脸特征更为丰富，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种LSTM神经网络模型的内部处理逻辑的结构示意图；

图2是本申请实施例提供的一种级联形式的LSTM神经网络模型的结构示意图；

图3是本申请实施例提供的一种人脸识别系统的架构示意图；

图4是本申请实施例提供的一种人脸识别方法的流程示意图；

图5是本申请实施例提供的一种双层LSTM模型的结构示意图；

图6A本申请实施例提供的一种针对人脸时序特征进行空间映射的方法流程示意图；

图6B本申请实施例提供的另一种针对人脸时序特征进行空间映射的方法流程示意图；

图7是本申请实施例提供的一种人脸识别装置的示意性框图；

图8是本申请另一实施例提供的一种人脸识别设备示意性框图。

具体实施方式

现对本申请中的部分用语进行解释说明，以便本领域技术人员理解。

(1)长短时记忆神经网络(Long-Short Term Memory，LSTM)

在本申请实施例中，LSTM模型是将输入门、输出门、遗忘门以及细胞(cell)结构，用于控制对历史信息的学习和遗忘，使模型适合处理长序列问题。请参见图1，是本申请实施例提供的一种LSTM的结构示意图。如图1所示，设时刻t，LSTM模型的记忆单元表示为C _t，遗忘门的输出表示为f _t，输入门的输出表示为i _t，输出门的输出表示为O ^(t)，三个门的元素值都在区间[0,1]。

具体来说，遗忘门是控制是否遗忘的，即以一定的概率控制是否遗忘上一层的隐藏细胞状态。在时刻t，对于遗忘门来说，其输入为上一序列的隐藏状态h(t-1)和本序列数据x(t)，在激活函数的作用下，得到遗忘门的输出。具体地，这里的激活函数可以为sigmoid。

在实际应用中，遗忘门的处理逻辑可以表示为如下数学表达式(1)：

f _t＝σ(W _fh ^(t-1)+U _fx ^(t)+b _f)

其中，W _f、U _f、b _f为线性关系的系数和偏置，σ表示激活函数sigmoid。

具体来说，输入门负责处理当前序列位置的输入，决定放什么新信息到“细胞状态”中，从图1中可以看出，输入门由两部分组成，第一部分在激活函数sigmoid的作用下，输出为i _t，第二部分在激活函数tanh的作用下，输出为a _t，这两部分结果进行相乘再去更新细胞状态。总的来说，输入门的作用是为了状态更新做准备。

在实际应用中，输入门的处理逻辑可以表示为如下数学表达式(2)：

i _t＝σ(W _ih ^(t-1)+U _ix ^(t)+b _i)

a _t＝tanh(W _ah ^(t-1)+U _ax ^(t)+b _a)

其中，W _i、U _i、b _i，W _a、U _a、b _a为线性关系的系数和偏置，σ表示激活函数sigmoid。

在经过遗忘门和输入门后，可以确定传递信息的删除和增加，也即可以进行“细胞状态”的更新，由图1可以知道，细胞状态C ^(t)由两部分组成，第一部分是C ^(t-1)和遗忘门输出f _t的乘积，第二部分是输入门i _t和a _t的乘积，也即可以表示为如下数学表达式(3)：

C ^(t)＝C ^(t-1)*f ^(t)+i ^(t)*a ^(t)

其中，*表示哈达玛积Hadamard积。

具体来说，这里，Hadamard积按位做乘法运算。

从图1中可以看出，隐藏状态h ^(t)的更新由两部分组成，第一部分是O ^(t)，它由上一序列的隐藏状态h ^(t-1)和本序列数据x ^(t)，以及激活函数sigmoid得到，第二部分由隐藏状态C ^(t)和激活函数tanh组成，其处理逻辑可以表示为如下数学表达式(4)：

O ^(t)＝σ(W _Oh ^(t-1)+U _Ox ^(t)+b _O)

h ^(t)＝O ^(t)*tanh(C ^(t))

在本申请实施例中，预设的循环神经网络模型可以包括但不限于LSTM神经网络模型，还可以包括卷积神经网络(Convolutional Neural Network，CNN)。具体地，LSTM神经网络模型为例，该模型的具体架构可以如图2所示，在该LSTM神经网络模型中，级联了多个细胞，例如，如图2所示的t个细胞，该模型可以提取多帧人脸图像中包含的时序信息。

(2)多任务级联卷积神经网络模型

在本申请实施例中，构建多任务级联卷积神经网络模型的实现过程可以包括：

A1、确定训练集样本数据；

A2、设计多任务级联卷积神经网络模型的具体结构，例如，多任务级联卷积神经网络模型中包含三个子网络，其中，级联的第一个子网络为小型卷积神经网络，级联的第二个子网络为中型卷积神经网络，级联的第三个子网络大型卷积神经网络。

A3、在多任务级联卷积神经网络模型内，对于每一个级联的子网络，采用多任务学习，例如，同时学习“人脸分类”、“边框回归”、“人脸关键点检测”、“人脸属性分析”四个任务；

A4、将训练集样本数据中的所有图像放进多任务级联卷积神经网络模型进行训练，得到训练好的多任务级联卷积神经网络模型。

那么，在得到训练好的多任务级联卷积神经网络模型之后，将视频流中截取的多张图像(也即测试集样本数据)输入训练好的多任务级联卷积神经网络模型中，以确定是否存在人脸以及确定人脸候选框。

为了便于更好的理解本申请实施例提供的一种人脸识别方法，下面结合图3所示的本申请实施例提供的一种人脸识别系统30来具体说明在实际应用中是如何实现人脸识别的，如图3所示，该人脸识别系统30集成了多任务级联卷积神经网络模型300、FaceNet模型301、预设的循环神经网络模型302、全连接层303以及人脸匹配模型304。

其中，多任务级联卷积神经网络模型300，用于提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

FaceNet模型301，用于对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

预设的循环神经网络模型302，用于在所述第一人脸空间特征组中提取时序信息，得到人脸时序特征组；

所述全连接层303，用于当所述第一人脸空间特征组的维数M不等于所述人脸时序特征组的维数S(例如M小于S)时，对第一人脸时序特征进行空间映射，以得到第二人脸时序特征；其中，所述第一人脸时序特征为人脸时序特征组中的任意一个人脸时序特征；

人脸匹配模型304，用于确定所述第二人脸时序特征与所述人脸数据库中存储的人脸图像的匹配度；若所述匹配度小于预设阈值，则继续计算剩余的所述第二人脸时序特征与所述人脸图像的匹配度，直至所述匹配度大于预设阈值时，确定所述第二人脸时序特征对应的所述目标人脸。

在其中一种可能的实现方式中，所述预设的循环神经网络模型302，还用于对人脸时序特征组中包含的人脸特征进行特征融合处理，得到融合时序特征。在这种情况下，全连接层303具体用于：

在这种情况下，人脸识别模型304具体用于：

基于图3所示的人脸识别系统的架构示意图，下面将结合图4所示的本申请实施例提供的一种人脸识别方法的流程示意图具体说明如何实现人脸识别，可以包括但不限于如下步骤：

步骤S401、提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数。

在本申请实施例中，设备可以在原始视频中按照时间顺序提取视频中包含人脸的视频帧，从而可以得到包含人脸图像的视频流。例如，视频流中包含人物A、人物B、人物C以及人物D各自对应的人脸图像。之后，设备可以在视频流中按照时间顺序截取同一目标人脸(例如，人物A)的N帧人脸图像。具体地，N帧人脸图像是通过对视频流中的各帧图像进行人脸检测和人脸跟踪处理所确定的包含同一目标人脸的图像帧。可以理解的是，在视频流中截取得到的N帧人脸图像在时间维度上具有关联性，也即：N帧人脸图像具有时序性。

在本申请实施例中，可以采用训练好的多任务级联卷积神经网络模型对视频流中的同一目标人脸的人脸图像进行人脸检测，在检测到同一目标人脸的人脸图像时，确定该人脸图像的人脸候选框，然后根据人脸候选框对人脸图像进行裁剪，以去除复杂环境背景对识别效果的影响。

步骤S402、对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征。

在本申请实施例中，可以采用FaceNet模型提取N帧人脸图像中各自包含的人脸空间特征，继而可以生成N帧人脸图像各自对应的N个特征向量。具体地，这N个特征向量组成了第一人脸空间特征组。需要说明的是，通过FaceNet模型提取得到的第一人脸空间特征组为维数(Q)为128的高阶特征。由于采用FaceNet模型可以获取到人脸图像的多维度矩阵，这多维矩阵可以反映人脸的更多细节特点，从而可以满足人脸识别精度的需求。

步骤S403、在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组。

在本申请实施例中，人脸时序特征组中包含的人脸时序特征的数量为N(也即，人脸时序特征的数量与人脸图像的帧数相等)。

在本申请实施例中，设备可以将第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组；其中，人脸时序特征组包括第一人脸空间特征组的每个人脸特征对应的时序特征。

可选的，预设的循环神经网络模型可以为LSTM模型。

进一步可选的，LSTM模型的层数大于等于2，并且每层的网络结构均相同。参见图5，是本申请实施例提供的一种双层LSTM模型的结构示意图。在实际应用中，将第一人脸空间特征组中的人脸特征输入双层LSTM模型以提取第一人脸空间特征组中的时序信息时，第1层LSTM的输出作为第2层LSTM的输入。如图5所示，第1层LSTM模型中级联了t个细胞，这t个细胞分别为细胞1，细胞2，……、细胞t；第2层LSTM模型中级联了t个细胞，这t个细胞分别为细胞1，细胞2，……、细胞t。以第1层LSTM模型中的细胞1为例，其输入为x10，其输出x20作为第2层LSTM模型中的细胞1的输入。

这里，在LSTM模型的层数为大于等于2的情况下，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

如前所述，N帧人脸图像具有时序性。当采用LSTM模型提取第一人脸空间特征组中的时序信息时，将LSTM模型的时间步长设置为N(这里，时间步长等于人脸图像的帧数)，即采用N帧人脸图像各自对应的人脸特征作为LSTM模型的输入进行时序信息的提取，进一步地，将LSTM模型中的隐含层神经元的数量设置为S(S为大于1的正整数)，例如，S＝256，S＝512等等，本申请实施例不作具体限定。那么，在经过LSTM模型计算输出之后，可以得到一组带有时序信息的人脸时序特征组，其中，人脸时序特征组的长度为N，人脸时序特征组中的每个人脸特征的维数为S，即人脸时序特征组中的每个人脸特征的维数与LSTM模型中隐含层神经元的数量S相等。

需要说明的是，当在实际应用中采用LSTM模型提取第一人脸空间特征中的时序特征时，在N＝10，S＝512的情况下，通过这一实现方式，可以提高人脸特征提取过程中的准确度，以达到提高人脸识别精度的目的。

如前所述，通过FaceNet模型提取得到的第一人脸空间特征组为维数(Q)为128的高阶特征(其中，第一人脸空间特征处于第一空间)，而人脸时序特征组中的每个人脸特征的维数由LSTM模型中隐含层神经元的数量S决定，且人脸时序特征组处于第二空间，那么，这也就意味着第一人脸空间特征组的每个人脸特征的维数与人脸时序特征组中的每个人脸特征的维数之间容易出现维数相等、维数不相等的两种情形，以下对这两种情形进行具体阐述：

在第一种情形下，第一人脸空间特征组中的每个人脸特征的维数为128，LSTM模型中隐含层神经元的数量S＝128(也即人脸时序特征组中的每个人脸特征的维数为128)时，此时，无需在LSTM模型后添加一个全连接层，这也意味着无需将处于第二空间的人脸时序特征组映射到第一空间。此时，在人脸数据库中匹配人脸时序特征组对应的目标人脸，其具体实现请参考后续步骤S404。

在第二种情形下，第一人脸空间特征组中的每个人脸特征的维数M为128，LSTM模型中隐含层神经元的数量S不等于128(也即人脸时序特征组中的每个人脸特征的维数不等于128)，例如，当M小于S时，此时，在LSTM模型后添加一个全连接层，并将其隐含层神经元的数量设置为128，以实现将处于第二空间的人脸时序特征组映射到处于第一空间，得到映射后的人脸时序特征组。在第二种情形下，可以包括以下两种不同的实现方式：

在一种可能的方式中，可以将融合时序特征进行空间映射，以得到映射后的人脸时序特征组，这里，融合时序特征为对人脸时序特征组中时序特征进行融合处理得到的；在另一种可能的方式中，可以将第一人脸时序特征进行空间映射，以得到映射后的第二人脸时序特征，这里，第一人脸时序特征为人脸时序特征组中的任意一个人脸时序特征。接下来对这两种实现方式进行具体阐述。

第一种实现方式：将融合时序特征进行空间映射，以得到映射后的人脸时序特征组。

具体实现中，可以通过执行如下步骤(参见图6A)得到映射后的人脸时序特征组：

步骤B1、将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

步骤B2、将所述人脸时序特征组中的时序特征经过融合处理得到融合时序特征；

在本申请实施例中，对人脸时序特征组中的时序特征进行融合处理的技术手段可以包括但不限于：对时序特征取平均、归一化等操作。

如前所述，人脸时序特征组中包含的时序特征的数量为N，当对人脸时序特征组中的时序特征进行融合处理所得到的融合时序特征的数量为1个。可以理解的是，融合时序特征可以更好的反映多帧人脸图像的多重属性，且人脸特征更为丰富。

步骤B3、当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组。

在本申请实施例中，第一人脸空间特征组的维数M与人脸时序特征组的维数S不相等可以包括：例如，M小于S。

具体实现中，所述当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组，包括：

例如，预设的循环神经网络模型为LSTM模型，设置LSTM模型的时间步长N＝10，LSTM模型中包含的隐含层神经元的数量为512，通过FaceNet模型提取得到的第一人脸空间特征组为维数(Q)为128的高阶特征，当在LSTM模型后添加一个全连接层时，将当前网络结构中隐含层神经元的数量设置为128，在这种情况下，可以实现将512维的融合时序特征映射到第一空间，并得到128维的人脸时序特征。此时，在人脸数据库中匹配人脸时序特征对应的目标人脸，其具体实现请参考后续步骤S404。可以理解的是，在这一实现方式中，由于经过空间映射后的人脸时序特征可以更好的反映多帧人脸图像的多重属性，且人脸特征更为丰富，可以提高人脸特征提取过程中的准确性，以提高人脸识别的精度。

第二种实现方式：将第一人脸时序特征进行空间映射，以得到映射后的第二人脸时序特征。

具体实现中，可以通过执行如下步骤(参见图6B)得到映射后的第二人脸时序特征：

C1、将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征。

C2、在所述人脸时序特征组中确定第一人脸时序特征；其中，所述第一人脸时序特征为所述人脸时序特征组中的任意一个人脸时序特征。

C3、当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述第一人脸时序特征进行空间映射，以得到第二人脸时序特征。

例如，预设的循环神经网络模型为LSTM模型，设置LSTM模型的时间步长N＝10，LSTM模型中包含的隐含层神经元的数量为512，通过FaceNet模型提取得到的第一人脸空间特征组为维数(Q)为128的高阶特征，当在LSTM模型后添加一个全连接层时，将当前网络结构中隐含层神经元的数量设置为128，在这种情况下，可以实现将512维的第一人脸时序特征(这里，第一人脸时序特征为人脸时序特征组中的任意一个人脸时序特征)映射到第一空间，并得到128维的第二人脸时序特征。此时，在人脸数据库中匹配第二人脸时序特征对应的目标人脸，其具体实现请参考后续步骤S404。

步骤S404、在人脸数据库中匹配与所述人脸时序特征对应的所述目标人脸。

在本申请实施例中，人脸数据库中存储有多个人物的人脸图像，例如，数据库中存储有目标人脸A、目标人脸B、目标人脸C以及目标人脸D各自对应的人脸图像。

可选的，人脸数据库中存储的每个人物的人脸图像为正脸图像。

在实际应用中，可以提取数据库中每个人物的人脸图像的特征，得到注册特征向量。这里，注册特征向量为目标人脸在数据库中的人脸图像的一种具体表现形式。可以理解的是，不同人物的人脸图像，提取得到的注册特征向量不同。例如，人脸图像与注册特征向量之间的对应关系可以如表1所示：

表1

人物	注册特征向量
目标人脸A	注册特征向量A
目标人脸B	注册特征向量B

在本申请实施例中，可以通过计算人脸时序特征组中的特征向量与目标人脸在数据库中的注册特征向量之间的匹配度来实现目标人脸的识别。具体地，计算人脸时序特征组中的特征向量与注册特征向量之间的欧式距离，当二者之间的欧式距离小于设定好的阈值(例如，该阈值为0.2)，则识别为同一个人；若否，则识别为不同的人。需要说明的是，在本申请实施例中，人脸时序特征组中的特征向量与注册特征向量之间的欧式距离越小表示匹配度越高。

如前所述，在上述第一种实现方式中，可以通过计算融合时序特征与注册特征向量之间的匹配度来实现目标人脸的识别。

在上述第二种实现方式中，可以通过计算第二人脸时序特征与注册特征向量之间的匹配度来实现目标人脸的识别。在这一实现方式中，考虑到当第二人脸时序特征与数据库中存储的人脸图像之间的匹配度小于预设阈值时，此时，继续计算剩余的第二人脸时序特征与人脸图像的匹配度，直至匹配度大于预设阈值，从而完成目标人脸的识别。

例如，人脸时序特征组中包括10个人脸时序特征，分别为：人脸时序特征1、人脸时序特征2、......、人脸时序特征10，其中，设备确定经过空间映射后的人脸时序特征1与注册特征向量(例如，目标人脸C)之间的匹配度为0.6，该匹配度小于预设阈值0.8，此时，设备继续计算经过空间映射后的人脸时序特征2与注册向量(例如，目标人脸D)之间的匹配度为0.9，该匹配度大于预设阈值0.8，此时，可以识别出目标人脸D。此时，无需计算剩余的其他人脸时序特征与人脸图像的匹配度。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本披露并不受所描述的动作顺序的限制，因为依据本披露，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本披露所必须的。

进一步需要说明的是，虽然图4、图6A、图6B的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图4、图6A、图6B中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于本申请以上描述的方法，本申请实施例还提供了一种人脸识别装置70，如图7所示，所述人脸识别装置70可以包括：

图像提取单元701，用于提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

第一特征提取单元702，用于对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

第二特征提取单元703，用于在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；

识别单元704，用于在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸。

在其中一个可能的实现方式中，所述第二特征提取单元703包括第一时序特征提取单元、融合单元以及第一空间映射单元；其中，

在其中一个可能的实现方式中，所述第一人脸空间特征组的维数为M，所述第一人脸空间特征组的维数为根据FaceNet模型确定的，所述第一人脸空间特征组处于第一空间；所述人脸时序特征组的维数为S，所述人脸时序特征组的维数为根据所述预设的循环神经网络模型中的隐含层神经元数量确定的；所述人脸时序特征组处于第二空间；所述空间映射单元，具体用于：

所述第二特征提取单元703还包括第二时序特征提取单元、确定单元以及第二空间映射单元；其中，

所述识别单元704包括：匹配度确定单元、处理单元；

在其中一种可能的实现方式中，所述图像提取单元701，具体用于：

在其中一种可能的实现方式中，所述第一特征提取单元702，具体用于：

应该理解，上述的装置实施例仅是示意性的，本披露的装置还可通过其它的方式实现。例如，上述实施例中所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，多个单元、模块或组件可以结合，或者可以集成到另一个系统，或一些特征可以忽略或不执行。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种人脸识别设备，下面结合附图来进行详细说明：

如图8示出的本发明实施例提供的人脸识别设备的结构示意图，设备80 可以包括处理器801、存储器804和通信模块805，处理器801、存储器804和通信模块805可以通过总线806相互连接。存储器804可以是高速随机存储记忆体(Random Access Memory，RAM)存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器804可选的还可以是至少一个位于远离前述处理器801的存储系统。存储器804用于存储应用程序代码，可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序，通信模块805用于与外部设备进行信息交互；处理器801被配置用于调用该程序代码，执行以下步骤：

其中，处理器801在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，包括：

其中，所述第一人脸空间特征组的维数为M，所述第一人脸空间特征组的维数为根据FaceNet模型确定的，所述第一人脸空间特征组处于第一空间；所述人脸时序特征组的维数为S，所述人脸时序特征组的维数为根据所述预设的循环神经网络模型中的隐含层神经元数量确定的；所述人脸时序特征组处于第二空间；处理器801在所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组，可以包括：

其中，所述预设的循环神经网络模型为双层的长短期记忆网络模型，且每层的网络结构均相同。

其中，处理器801在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，还可以包括：

处理器801在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸，可以包括：

其中，处理器801提取视频流中同一目标人脸的N帧人脸图像，可以包括：

其中，处理器801对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，可以包括：

在具体实现中，人脸识别设备80可以为终端或者服务器，具体地，其表现形式可以包括移动手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动互联网设备(Mobile Internet Device，MID)等各种用户可以使用的设备，本发明实施例不作具体限定。

应理解，本申请实施例提供的方法可以适用的应用场景只是作为一种示例，实际应用中并不限于此。

还应理解，本申请中涉及的第一、第二、第三以及各种数字编号仅仅为描述方便进行的区分，并不用来限制本申请的范围。

应理解，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，在本申请的各个实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块和单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是物理上分开的，也可以不是物理上分开的，作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

此外，在本申请各个实施例中所涉及的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，本申请对此不作限定。

在本实施例中，本申请实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述图4、图6A、图6B所示的人脸识别方法。上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中，基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机产品存储在计算机可读存储介质中。

上述计算机可读存储介质可以是前述实施例所述的人脸识别设备的内部存储单元，例如硬盘或内存。上述计算机可读存储介质也可以是上述人脸识别设备的外部存储设备，例如配备的插接式硬盘，智能存储卡(Smart Media Card, SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述计算机可读存储介质还可以既包括上述人脸识别设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述人脸识别设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

由上可见，本申请实施例提供一种人脸识别方法，通过在第一人脸空间特征组中提取时序信息，可以得到人脸时序特征组，由于人脸时序特征组可以反映多帧人脸图像中包含的互补信息，可以提高提取人脸特征的准确性，以提高人脸识别的精度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可通过计算机程序来指令相关的硬件来完成，该计算机的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

一种人脸识别方法，其特征在于，包括：

提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；

在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸。
根据权利要求1所述的方法，其特征在于，所述在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，包括：

将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

将所述人脸时序特征组中的时序特征经过融合处理得到融合时序特征；

当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组。
根据权利要求2所述的方法，其特征在于，所述第一人脸空间特征组的维数为M，所述第一人脸空间特征组的维数为根据FaceNet模型确定的，所述第一人脸空间特征组处于第一空间；所述人脸时序特征组的维数为S，所述人脸时序特征组的维数为根据所述预设的循环神经网络模型中的隐含层神经元数量确定的；所述人脸时序特征组处于第二空间；所述当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述融合时序特征进行空间映射，以得到映射后的人脸时序特征组，包括：

在预设的循环神经网络模型中添加全连接层，以使所述融合时序特征映射到所述第一空间，并得到与所述第一人脸空间特征组维数相同的人脸时序特征。
根据权利要求2所述的方法，其特征在于，所述预设的循环神经网络模型为双层的长短期记忆网络模型，且每层的网络结构均相同。
根据权利要求2所述的方法，其特征在于，所述在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组，还包括：

将所述第一人脸空间特征组输入到预设的循环神经网络模型中，以输出人脸时序特征组，其中，所述人脸时序特征组包括第一人脸空间特征组中每个人脸特征对应的的时序特征；

在所述人脸时序特征组中确定第一人脸时序特征；其中，所述第一人脸时序特征为所述人脸时序特征组中的任意一个人脸时序特征；

当所述第一人脸空间特征组的维数与所述人脸时序特征组的维数不相等时，对所述第一人脸时序特征进行空间映射，以得到第二人脸时序特征；

在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸，包括：

确定所述第二人脸时序特征与所述人脸数据库中存储的人脸图像的匹配度；

若所述匹配度小于预设阈值，则继续计算剩余的所述第二人脸时序特征与所述人脸图像的匹配度，直至所述匹配度大于预设阈值时，确定所述第二人脸时序特征对应的所述目标人脸。
根据权利要求1所述的方法，其特征在于，所述提取视频流中同一目标人脸的N帧人脸图像，包括：

通过训练好的多任务级联卷积神经网络模型提取所述视频流中同一个目标人脸的N帧人脸图像。
根据权利要求3所述的方法，其特征在于，所述对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，包括：

将所述N帧人脸图像输入所述FaceNet模型中，以提取所述N帧人脸图像中的空间特征。
一种人脸识别装置，其特征在于，包括：

图像提取单元，用于提取视频流中同一目标人脸的N帧人脸图像，其中，所述N帧人脸图像具有时序性；N为大于1的正整数；

第一特征提取单元，用于对所述N帧人脸图像进行空间特征提取，得到第一人脸空间特征组，其中，所述第一人脸空间特征组包括每帧人脸图像对应的人脸特征；

第二特征提取单元，用于在所述第一人脸空间特征组中提取时序特征，得到人脸时序特征组；

识别单元，用于在人脸数据库中匹配与所述人脸时序特征组对应的所述目标人脸。
一种人脸识别设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。