WO2019105337A1

WO2019105337A1 - 基于视频的人脸识别方法、装置、设备、介质及程序

Info

Publication number: WO2019105337A1
Application number: PCT/CN2018/117662
Authority: WO
Inventors: 刘文韬; 钱晨
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2017-11-30
Filing date: 2018-11-27
Publication date: 2019-06-06
Also published as: CN108229322A; US20190318153A1; US11068697B2; CN108229322B

Abstract

一种基于视频的人脸识别方法、装置、设备、介质及程序，其中人脸识别方法包括：针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列，其中，所述人脸序列为所述多个视频帧中属于同一个人的人脸图像集合；针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。

Description

基于视频的人脸识别方法、装置、设备、介质及程序

本申请要求在2017年11月30日提交中国专利局、申请号为CN 201711243717.9、发明名称为“基于视频的人脸识别方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术，尤其是涉及一种基于视频的人脸识别方法、基于视频的人脸识别装置、电子设备、计算机可读存储介质及计算机程序。

背景技术

识别视频中的人可以为多种应用提供信息支持；例如，通过对视频中的人进行识别，可以获得视频的主题人物；再例如，通过对视频中的人进行识别，可以对视频进行分类管理。

如何快速准确的识别出视频中的人，是一个值得关注的技术问题。

发明内容

本申请实施方式提供一种基于视频的人脸识别技术方案。

根据本申请实施方式其中一个方面，提供了一种基于视频的人脸识别方法，该方法主要包括：针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列，其中，所述人脸序列为所述多个视频帧中属于同一个人的人脸图像集合；针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。

在本申请一实施方式中，所述视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像包括：同一个人的人脸图像出现在前后相邻的视频帧中，且同一个人的人脸图像在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求。

在本申请又一实施方式中，所述视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像包括：获取所述视频的连续N个视频帧中属于同一个人的人脸图像，所述N为大于二的整数；确定所述属于同一个人的人脸图像中，在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的人脸图像对；若所述符合预定位移要求的人脸图像对，在所述属于同一个人的人脸图像的交并比满足预设比值，则所述属于同一个人的人脸图像形成一组所述人脸序列。

在本申请再一实施方式中，所述同一个人的人脸图像包括：人脸特征的相似度符合预定相似度要求的人脸图像。

在本申请再一实施方式中，所述针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列包括：针对视频中第一次出现人脸的视频帧中的至少一个人脸图像中的一个或多个人脸图像分别创建一组人脸序列；针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列；将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中。

在本申请再一实施方式中，所述将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中包括：分别获取前后相邻的前一视频帧中的至少一个人脸图像的人脸特征、前一视频帧中的至少一个人脸图像在前一视频帧中的位置、后一视频帧中的至少一个人脸图像的人脸特征、后一视频帧中的至少一个人脸图像在后一视频帧中的位置；根据前一视频帧中的至少一个人脸图像在前一视频帧中的位置和后一视频帧中的至少一个人脸图像在后一视频帧中的位置确定位移符合预定位移要求的人脸图像对；针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度满足预定相似度要求的情况下，确定所述人脸图像对中的后一视频帧中的人脸图像属于前一视频帧中的人脸图像所属的人脸序列。

在本申请再一实施方式中，所述针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列包括：针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度不满足预定相似度要求的情况下，为该人脸图像对中的后一视频帧中的人脸图像创建人脸序列。

在本申请再一实施方式中，所述方法还包括：获取人脸特征，且所述获取人脸特征包括：基于人脸检测器对视频帧进行人脸检测，获得视频帧的至少一个人脸图像的外接框信息；将视频帧以及该视频帧的至少一个人脸图像的外接框信息提供给用于提取人脸特征的神经网络，经由所述神经网络获得视频帧的至少一个人脸图像的人脸特征。

在本申请再一实施方式中，所述方法在形成一组人脸序列之后，且在针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别之前，还包括：根据至少部分人脸序列的人脸特征，对至少部分人脸序列进行聚类处理，以合并对应同一人的不同人脸序列；其中，在所述聚类处理后，不同人脸序列对应不同人。

在本申请再一实施方式中，所述人脸序列的人脸特征包括：人脸序列中的至少部分人脸图像的人脸特征的加权平均值。

在本申请再一实施方式中，所述人脸序列中的至少部分人脸图像的人脸特征的权值是根据至少部分人脸图像的人脸图像质量确定的。

在本申请再一实施方式中，所述人脸图像质量包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的至少一个。

在本申请再一实施方式中，所述人脸库包括：多个人的人脸特征，且针对任一人而言，该人的人脸特征包括：该人的综合人脸特征，以及该人在不同图片中的人脸特征。

在本申请再一实施方式中，所述综合人脸特征包括：人在不同图片中的人脸特征的加权平均值。

在本申请再一实施方式中，所述针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别包括：针对一组人脸序列中的至少一个人脸特征，计算该人脸特征与人脸库中至少一个人的综合人脸特征的相似度，并确定最高相似度所对应的人脸库中的人；针对所述人脸序列中的至少部分人脸特征确定的最高相似度所对应的人脸库中的人，进行投票，并将投票最多的人作为所述人脸序列所属的人；针对所述人脸序列，至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度。

在本申请再一实施方式中，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度包括：针对该人脸序列中的任一人脸特征，计算该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度；根据计算出的该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度，确定该人脸序列属于该人的置信度；其中，人脸特征集合包括：人脸库中该人在不同图片中的人脸特征。

在本申请再一实施方式中，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度包括：根据人脸序列中的人脸关键点与人脸特征集合中的人脸关键点确定人脸特征集合中与人脸序列中的人脸姿态最相似的人脸特征。

在本申请再一实施方式中，所述方法还包括：经由神经网络获得视频帧的至少一个人脸图像的人脸关键点。

在本申请再一实施方式中，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度还包括：利用该人脸序列的人脸特征与该人脸序列所属的人的综合人脸特征的相似度，修正该人脸序列属于该人的置信度。

根据本申请实施方式的其中另一个方面，提供了一种基于视频的人脸识别装置，该装置包括：形成人脸序列模块，用于针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列，其中，所述人脸序列为所述多个视频帧中属于同一个人的人脸图像集合；人脸识别模块，用于针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。

在本申请一实施方式中，所述装置还包括：获取人脸特征模块，用于基于人脸检测器对视频帧进行人脸检测，获得视频帧的至少一个人脸图像的外接框信息；将视频帧以及该视频帧的至少一个人脸图像的外接框信息提供给用于提取人脸特征的神经网络，经由所述神经网络获得视频帧的至少一个人脸图像的人脸特征。

在本申请又一实施方式中，所述装置还包括：人脸序列聚类模块，用于根据至少部分人脸序列的人脸特征，对至少部分人脸序列进行聚类处理，以合并对应同一个人的不同人脸序列；其中，在所述聚类处理后，不同人脸序列对应不同人，所述聚类处理后的人脸序列提供给所述人脸识别模块。

根据本申请实施方式的又一个方面，提供了一种电子设备，包括：上述任一实施方式所述的装置。

根据本申请实施方式的再一个方面，提供了一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一实施方式操作所述的方法。

根据本申请实施方式的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施方式操作所述的方法。

根据本申请实施方式的再一个方面，提供了一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现上述任一实施方式所述的方法。

基于本申请提供的基于视频的人脸识别方法、装置、电子设备、计算机可读存储介质及计算机程序，本申请通过利用同一个人的人脸在视频中具有时序连续性以及空间位置连续性这一特性，形成人脸序列，可以快速准确的使视频中连续出现的同一个人的人脸设置于同一组人脸序列中；从而通过利用人脸库针对基于上述方式获得的人脸序列进行人脸识别，可以快速准确的识别出视频中的人是否为人脸库中的人。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的方法一个实施例的流程图；

图2为本申请的方法另一个实施例的流程图；

图3为本申请人脸序列聚类处理的一个实施例的示意图；

图4为本申请形成人脸序列的一个实施例的流程图；

图5为本申请的装置一个实施例的结构示意图；

图6为实现本申请实施例的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和操作的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或者使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法及设备应当被视为说明书的一部分。

应注意到：相似的标号以及字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统以及服务器等电子设备中，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统以及包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

下面结合图1至图6对本申请提供的基于视频的人脸识别的技术方案进行说明。

图1为本申请的方法一个实施例的流程图。如图1所示，该实施例的方法包括：操作S100以及操作S110。

S100、针对视频中的出现在连续的多个视频帧中，且在多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列。也就是说，本申请可以根据视频中的人脸图像在时序和空间位置上的连续性，形成至少一组人脸序列。人脸序列为多个视频帧中属于同一个人的人脸图像集合。

在一个可选示例中，本申请的视频可以为基于RGB形式的视频，也可以为基于其他形式的视频。另外，该视频可以是基于真实的人的视频，对应的人脸图像中的人脸可以是真实的人脸，该视频也可以是基于绘制的人的视频，对应的人脸图像中的人脸也可以是绘制的人脸，例如，该视频可以为动画片。本申请不限制视频的表现形式。

在一个可选示例中，本申请可以获取视频的连续N(N为大于2的整数)个视频帧中属于同一个人的人脸图像，并确定属于同一个人的人脸图像中，在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的人脸图像对；如果符合预定位移要求的人脸图像对，在属于同一个人的人脸图像的交并比满足预设比值，则属于同一个人的人脸图像形成一组人脸序列。

在一个可选示例中，本申请中的预定位移要求与预设比值的关系可以是关联的，当预定位移要求比较严格时(例如，要求位移间距相对较小)，预设比值的取值范围可以相对较小；当预定位移要求比较宽松时(例如，要求位移间距相对较大)，预设比值的取值范围可以相对较大。

在一个可选示例中，针对人脸图像在时序和空间位置上的连续性这一方面而言，本申请中的人脸图像在时序上的连续性通常包括：同一个人的人脸图像出现在前后连续播放的至少两个视频帧中。本申请中的人脸图像在空间位置上的连续性通常包括：同一个人的人脸图像出现在前后连续播放的两个视频帧中的基本相同的位置处。也就是说，在同一个人的人脸图像出现在前后相邻的两视频帧中，且同一个人的人脸图像在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的情况下，可以认为人脸图像在时序和空间位置上存在连续性。上述同一个人的人脸图像可以是指人脸特征的相似度符合预定相似度要求的人脸图像。上述预定位移要求可以根据实际需求设置，例如，将前一视频帧中的位置范围扩大预定倍数(如1.1-1.5倍等)，如果后一视频帧中的位置位于扩大预定倍数之后的位置范围，则认为符合预定位移要求。在一个可选示例中，本申请根据视频中的人脸图像在时序和空间位置上的连续性，通常会形成一组或者多组人脸序列，每一组人脸序列中的所有人脸图像属于同一人。每一组人脸序列通常包括一个或者多个人脸图像。在本申请对所有人脸序列进行聚类处理的情况下，在聚类处理后，不同人脸序列对应不同人。在本申请不对所有人脸序列进行聚类处理的情况下，可能会存在不同人脸序列对应同一个人的现象。包含有人脸序列聚类处理的基于视频的人脸识别的方法的流程如下述针对图2的描述。本申请通过对人脸序列进行聚类处理，可以快速准确的使视频中的一个人的所有人脸图像位于一组人脸序列中。

在一个可选示例中，本申请所形成的任一组人脸序列通常包括至少一个人脸图像的人脸特征，也可以在包括至少一个人脸图像的人脸特征的基础上，还包括至少一个人脸图像的人脸关键点。当然，本申请所形成的任一组人脸序列所包含的信息也可以为其他形式的能够唯一描述出一个人的人脸图像所具有的特点的信息。

在一个可选示例中，本申请可以采用现有的人脸特征提取技术以及现有的人脸关键点检测技术来获得视频帧中至少一个人脸图像的人脸特征以及至少一个人脸图像的人脸关键点，例如，本申请可以通过人脸检测器以及用于提取人脸特征的神经网络获得视频帧中至少一个人脸图像的人脸特征以及人脸关键点；一个可选的例子，本申请可以将视频中的至少一个视频帧提供给人脸检测器，由人脸检测器对输入的视频帧进行人脸检测，如果人脸检测器在视频帧中检测到人脸图像，则人脸检测器会输出其检测到的至少一个人脸图像的外接框信息(例如，外接框的长宽以及中心位置信息等)，本申请可以根据外接框信息对相应的视频帧进行切割，从而获得相应的视频帧中至少一个人脸图像块，至少一个人脸图像块可以在调整大小后输入给用于提取人脸特征的神经网络，从而经由该神经网络可以获得相应视频帧中至少一个人脸图像的人脸特征；进一步的，本申请还可以通过该神经网络获得视频帧中至少一个人脸图像的人脸关键点，如针对一个视频帧中的一个人脸图像而言，可以获得21或68或106或186或240或220或274个人脸关键点。本申请可以利用现有的神经网络获得人脸特征以及人脸关键点，该神经网络的网络结构可根据实际需求灵活设计，本申请不限制该神经网络的网络结构。例如，该神经网络可包括但不限于卷积层、非线性Relu层、池化层、全连接层等，网络层数越多，网络越深；再例如，该神经网络的网络结构可采用但不限于ALexNet、深度残差网络(Deep Residual Network，ResNet)或VGGnet(Visual Geometry Group Network)等网络的结构。本申请不限制获得视频帧中至少一个人脸图像的人脸特征以及人脸关键点的实现方式。在一个可选示例中，本申请形成人脸序列的过程通常包括：创建人脸序列以及确定视频帧中的人脸图像所属的人脸序列。

其中创建人脸序列的一个可选例子为：在检测到视频中第一次出现人脸的视频帧时，为该视频帧中的至少一个人脸图像中的一个或多个人脸图像分别创建一组人脸序列。例如，在检测到视频中的第1-4视频帧中均未出现人脸图像，而检测到第5视频帧开始出现3个人脸图像，即第一人脸图像、第二人脸图像以及第三人脸图像，则本申请针对这3个人脸图像分别创建一组人脸序列，即第一人脸序列、第二人脸序列以及第三人脸序列。第一人脸序列可以包含第一人脸图像的人脸特征和人脸关键点，第二人脸序列可以包含第二人脸图像的人脸特征和人脸关键点，第三人脸序列可以包含第三人脸图像的人脸特征和人脸关键点。

其中创建人脸序列的另一个可选例子为：在检测到未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像时，为检测到的这样的一个或多个人脸图像分别创建一组人脸序列。续前例，在检测到第6视频帧中出现了5个人脸图像，即第一人脸图像、第二人脸图像、第三人脸图像、第四人脸图像以及第五人脸图像，则本申请针对第四人脸图像和第五人脸图像分别创建一组人脸序列，即第四人脸序列和第五人脸序列，第四人脸序列可以包含第四人脸图像的人脸特征和人脸关键点，第五人脸序列可以包含第五人脸图像的人脸特征和人脸关键点。再续前例，在检测到第6视频帧中出现了3个人脸图像，即第一人脸图像、第二人脸图像以及第四人脸图像，则本申请针对第四人脸图像创建一组人脸序列，即第四人脸序列，第四人脸序列可以包含第四人脸图像的人脸特征和人脸关键点。

其中确定视频帧中的人脸图像所属的人脸序列的一个可选例子为：将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中。续前例，在检测到第6视频帧中出现了5个人脸图像，即第一人脸图像、第二人脸图像、第三人脸图像、第四人脸图像以及第五人脸图像，则本申请可以将出现在第6视频帧中的与第5视频帧中的出现位置连续的第一人脸图像划归在第一人脸序列中，将出现在第6视频帧中的与第5视频帧中的出现位置连续的第二人脸图像划归在第二人脸序列中，将出现在第6视频帧中的与第5视频帧中的出现位置连续的第三人脸图像划归在第三人脸序列中，例如，本申请可以将出现在第6视频帧中的与第5视频帧中的出现位置连续的第一人脸图像的人脸特征和人脸关键点添加在第一人脸序列中，将出现在第6视频帧中的与第5视频帧中的出现位置连续的第二人脸图像的人脸特征和人脸关键点添加在第二人脸序列中，将出现在第6视频帧中的与第5视频帧中的出现位置连续的第三人脸图像的人脸特征和人脸关键点添加在第三人脸序列中。再续前例，在检测到第6视频帧中出现了3个人脸图像，即第一人脸图像、第二人脸图像及第四人脸图像，则本申请可以将出现在第6视频帧中的与第5视频帧中的出现位置连续的第一人脸图像划归在第一人脸序列中，将第6视频帧中的与第5视频帧中的出现位置连续的第二人脸图像划归在第二人脸序列中，例如，本申请可以将第6视频帧中的第一人脸图像的人脸特征和人脸关键点添加在第一人脸序列中，将第6视频帧中的第二人脸图像的人脸特征和人脸关键点添加在第二人脸序列中。

在一个可选示例中，本申请在确定视频帧中的人脸图像所属的人脸序列的过程中，需要将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中，该划归在同一个人的人脸序列的实现方式的一个可选例子为：针对视频中的任一前后相邻的两视频帧而言，首先，分别获取前一视频帧中的至少一个人脸图像的人脸特征、前一视频帧中的至少一个人脸图像在前一视频帧中的位置、后一视频帧中的至少一个人脸图像的人脸特征、后一视频帧中的至少一个人脸图像在后一视频帧中的位置；然后，根据前一视频帧中的至少一个人脸图像在前一视频帧中的位置和后一视频帧中的至少一个人脸图像在后一视频帧中的位置确定位移符合预定位移要求的人脸图像对；如果不存在位移符合预定位移要求的人脸图像对，则可以确定出需要对人脸图像对中的后一视频帧中的人脸图像创建新的人脸序列；如果存在位移符合预定位移要求的人脸图像对，则针对每一个人脸图像对，判断该人脸图像对的人脸特征对的相似度是否满足预定相似度要求，如果满足预定相似度要求，则可以确定出该人脸图像对中的后一视频帧中的人脸图像属于前一视频帧中的人脸图像所属的人脸序列；如果不满足预定相似度要求，则可以确定出需要对该人脸图像对中的后一视频帧中的人脸图像创建新的人脸序列。

本申请形成人脸序列的方式可以使视频的至少一个视频帧中的至少一个人脸图像快速准确划分在相应的人脸序列中，有利于提高人脸识别的效率以及准确性。本申请形成人脸序列的一个可选的实现过程，可以参见下述针对图4的描述。

在一个可选示例中，该操作S100可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的形成人脸序列模块500执行。

S110、针对一组人脸序列，至少根据该人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。

在一个可选示例中，本申请可以根据人脸序列的人脸特征以及该人脸序列中的至少部分人脸图像的人脸特征，利用预先设置的人脸库，进行人脸识别。也就是说，本申请中的人脸序列具有人脸特征，人脸序列的人脸特征通常是针对该人脸序列中的至少部分人脸图像的人脸特征进行综合考量而得到的人脸特征，例如，人脸序列中的至少部分人脸图像的人脸特征分别对应有权值(即至少部分人脸图像分别对应有权值)，通过利用至少部分权值对人脸序列中的至少部分人脸图像的人脸特征进行加权计算，从而可以获得基于至少部分人脸图像的人脸特征的加权平均值，本申请可以将该加权平均值作为人脸序列的人脸特征。本申请中的人脸序列的人脸特征也可以称为人脸序列的综合人脸特征。

可选的，本申请可以根据人脸序列中的至少部分人脸图像的人脸图像质量来确定该人脸序列中的至少部分人脸图像的人脸特征各自对应的权值。本申请中的人脸图像质量可以包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的一个或者多个；其中人脸朝向可以基于人脸关键点获得，例如，本申请可以利用现有的计算方法对人脸关键点进行计算，从而获得人脸朝向。

通常情况下，人脸图像质量越高，人脸图像对应的权值会越大；而人脸图像质量越低，人脸图像对应的权值会越小；例如，人脸图像的清晰度越高，人脸图像的光线强度越适中，人脸朝向的角度越小(即越接近正脸)，则人脸图像对应的权值越大，人脸图像的清晰度越低，人脸图像的光线强度太高或者太低，人脸朝向的角度越大(即偏离正脸的角度越大)，则人脸图像对应的权值越小。在人脸图像质量包括：人脸图像的光线强度、人脸图像的清晰度及人脸朝向的情况下，三者所占的权值比例可以根据实际情况确定。本申请不限制人脸图像质量与权值之间的关联关系。另外，本申请可以利用现有技术来评估人脸序列中的至少部分人脸图像的人脸图像质量。本申请不限制评估人脸图像质量的实现方式。再有，本申请也可以通过加权平均之外的其他方式获得人脸序列的人脸特征，例如，通过对人脸序列中的至少部分人脸图像的人脸特征进行平均计算，可以获得基于至少部分人脸的人脸平均特征，本申请可以将该人脸平均特征作为人脸序列的人脸特征。本申请不限制根据人脸序列中的至少部分人脸特征确定人脸序列的人脸特征的实现方式。

本申请通过根据人脸图像质量设置权值，并利用权值形成人脸序列的人脸特征，可以避免人脸序列中的质量较差的人脸特征对人脸识别所带来的不良影响，例如，完全忽略质量较差的人脸特征在确定视频的主题人物时，可能会影响主题人物确定的准确性；再例如，将质量较差的人脸特征与质量较好的人脸特征同等对待，可能会影响人脸序列的人脸特征的描述准确性。

在一个可选示例中，无论本操作中的人脸序列是否为聚类处理后的人脸序列，针对所有人脸序列中的任一组人脸序列而言，本申请均可以根据该人脸序列的人脸特征和该人脸序列中的至少部分人脸图像的人脸特征，利用预先设置的人脸库，进行人脸识别，例如，识别出人脸所属的人以及属于该人的置信度等；一个可选的例子，针对所有人脸序列中的任一组人脸序列，本申请可以根据该人脸序列的人脸特征以及该人脸序列中的至少部分人脸图像的人脸特征，确定该人脸序列对应的人是预先设置的人脸库中的人的置信度，从而根据该置信度可以确定出该人脸序列对应的人是否为人脸库中的人。本申请可以针对每一组人脸序列均判断出该人脸序列对应的人是否为人脸库中的人；本申请也可以仅针对部分人脸序列判断出人脸序列对应的人是否为人脸库中的人；本申请还可以仅针对包含人脸图像数量最多的人脸序列判断出该人脸序列对应的人是否为人脸库中的人。

一个可选例子如下：

首先，本申请预先设置有人脸库，该人脸库中包含有：多个人的人脸特征，针对人脸库中的任一人而言，人脸库中的该人的人脸特征通常包括两部分内容，其中一部分为该人的综合人脸特征，其中另一部分为该人在不同图片(如照片或者视频帧等)中的人脸特征。综合人脸特征通常是针对该人在不同图片中的人脸特征进行综合考量而得到的人脸特征，例如，该人在不同图片中的各人脸的人脸特征分别对应有权值，通过利用各权值对该人在不同图片中的各人脸的人脸特征进行加权计算，从而可以获得基于该人在不同图片中的各人脸的人脸特征的加权平均值，本申请可以将该加权平均值作为人脸库中该人的综合人脸特征。可选的，本申请可以根据人脸在不同图片中的人脸图像质量来确定人脸在不同图片中的人脸特征各自对应的权值。上述人脸图像质量可以包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的一个或者多个。通常情况下，人脸图像质量越高，人脸图像对应的权值就越大；而人脸图像质量越低，人脸图像对应的权值就越小。本申请不限制人脸图像质量与权值之间的关联关系。另外，本申请可以利用现有技术来评估人脸库中的人脸在不同图片中的人脸图像质量。本申请不限制评估人脸图像质量的实现方式。再有，本申请也可以通过加权平均之外的其他方式获得人脸库中各人的综合人脸特征，例如，通过针对人脸库中的一个人的人脸在不同图片中的人脸特征进行平均计算，可以获得基于该人的人脸平均特征，本申请可以将该人脸平均特征作为人脸库中该人的综合人脸特征。本申请不限制确定人脸库中任一人的综合人脸特征的实现方式。还有，本申请的人脸库还包括：人脸在不同图片中的人脸关键点。可选的，确定综合人脸特征的方法可以与确定人脸序列的人脸特征的方法相同。

其次，针对一组人脸序列而言(例如，针对任一组人脸序列或者针对包含人脸图像数量最多的人脸序列而言)，计算该人脸序列中的至少一个人脸特征(例如所有人脸特征)分别与人脸库中至少一个人的综合人脸特征的相似度，并针对人脸序列中的至少一个人脸特征(例如每一个人脸特征)选取出最高相似度，从而利用最高相似度对应的人脸库中的人进行投票，本申请可以根据投票结果确定出该人脸序列所属的人。一个可选例子，针对所有人脸序列中的任一组人脸序列而言，计算该人脸序列中的第一个人脸特征分别与人脸库中第一人的综合人脸特征的相似度、第二人的综合人脸特征的相似度……最后一人(例如第N人)的综合人脸特征的相似度，从而获得N个相似度，从这N个相似度中挑选出最高相似度；计算该人脸序列中的第二个人脸特征分别与人脸库中第一人的综合人脸特征的相似度、第二人的综合人脸特征的相似度……最后一人的综合人脸特征的相似度，从而再次获得N个相似度，从这N个相似度中挑选出最高相似度；以此类推，计算该人脸序列中的第M个(例如最后一个)人脸特征分别与人脸库中第一人的综合人脸特征的相似度、第二人的综合人脸特征的相似度……最后一人的综合人脸特征的相似度，从而获得N个相似度，从这N个相似度中挑选出最高相似度；由此本申请可以获得M个最高相似度；本申请利用M个最高相似度对应的人脸库中的人进行投票，例如，M-1(M>2)个最高相似度均对应人脸库中的第一人，而只有一个最高相似度对应人脸库中的第二人，则本申请可以根据本次投票结果确定出该人脸序列属于人脸库中的第一人。本申请不限制计算人脸序列中的人脸特征与综合人脸特征之间的相似度的实现方式。

再次，本申请可以根据该人脸序列中的至少一个人脸特征和该人脸序列属于人脸库中的人的人脸在不同图片中的人脸特征确定出该人脸序列属于人脸库中的该人的置信度；一个可选例子，为了便于描述，本申请可以将人脸序列属于人脸库中的人的人脸在不同图片中的人脸特征看作一个人脸特征集合，针对该人脸序列中的每一个人脸图像的人脸特征而言，本申请分别从人脸特征集合中查找与该人脸特征的人脸姿态最相似的人脸特征，人脸序列中的一个人脸特征和人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征形成一个人脸特征对，计算人脸特征对中的两个人脸特征之间的相似度(例如，置信度)，从而本申请可以针对人脸序列中的一个或多个人脸特征分别获得一个相似度，从而本申请可以根据针对该人脸序列所计算出的所有相似度确定出该人脸序列属于人脸库中的该人的置信度。另外，本申请可以利用该人脸序列的人脸特征对该置信度进行校正；一个可选例子，，本申请可以计算该人脸序列的人脸特征与该人脸序列属于人脸库中的人的综合人脸特征的相似度，在判断出该相似度小于上述置信度时，可以将该相似度作为该人脸序列属于人脸库中的该人的置信度，而在判断出该相似度不小于上述置信度时，不利用该相似度对该人脸序列属于人脸库中的该人的置信度进行更新。

本申请通过利用人脸序列中的至少一个人脸特征和人脸特征集合中与其人脸姿态最相似的人脸特征来确定置信度，可以避免人脸的姿态差异对置信度计算准确性的影响；本申请通过计算人脸序列的人脸特征和该人脸序列属于人脸库中的人的综合人脸特征的相似度，并利用该相似度对确定出的置信度进行校正，可以避免人脸序列中的各人脸由于人脸朝向过于单一(如均为左侧朝向的人脸等)而导致在判断人脸序列属于人脸库中的人时发生错误的现象；从而有利于提高人脸识别的准确性。

在一个可选示例中，本申请可以利用人脸关键点确定出人脸的姿态，从而可以确定出人脸特征集合中与人脸序列中的一人脸姿态最相似的人脸特征，例如，人脸序列中包括每一个人脸的人脸特征和人脸关键点(下述称为第一人脸关键点)，人脸库中包括人在不同图片中的人脸特征和人脸关键点(下述称为第二人脸关键点)，本申请可以将人脸序列中的一个人脸的第一人脸关键点映射到标准空白图像中，并将人脸库中的人在不同图片中的第二人脸关键点也分别映射到标准空白图像中，从而通过比较第一人脸关键点中的至少一个关键点与至少一个第二人脸关键点中的至少一个关键点之间的位置关系，就可以根据比较结果从人脸特征集合中选择出姿态最相似的人脸特征。本申请中的人脸姿态通常可以表现出人脸朝向以及面部表情等，人脸姿态通常可以由人脸关键点决定，本申请可以将人脸姿态看做是人脸关键点的物理意义。

本申请可以根据最终确定的置信度判断视频中的任一人脸是否属于人脸库中的相应的人。本申请的判断结果可以应用于多种应用中，例如，确定视频主题人物、确定视频中的所有人物或者确定与某一人物相关的视频等，从而本申请可以实现对视频的自动管理。

在一个可选示例中，该操作S110可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的人脸识别模块510执行。

图2为本申请的方法另一个实施例的流程图。如图2所示，该实施例的方法主要包括：操作S200、操作S210、操作S220、操作S230、操作S240、操作S250以及操作S260。

S200、针对视频中的出现在连续的多个视频帧中，且在多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列。也就是说，本申请可以根据视频中的人脸在时序和空间位置上的连续性，形成至少一组人脸序列。

在一个可选示例中，每一组人脸序列均具有一个人脸特征，该人脸特征即为人脸序列的人脸特征；同时，每一组人脸序列中通常包括一个或者多个人脸图像的人脸特征。每一组人脸序列中的所有人脸特征属于同一个人。

在一个可选示例中，该操作S200可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的形成人脸序列模块500执行。

S210、对至少部分人脸序列进行聚类处理，以合并至少部分人脸序列中对应同一个人的不同人脸序列。

如图3所示，每一个圆圈表示一组人脸序列，视频中的第一主角和第二主角的人脸可能会由于其在时序或者空间位置上的间断，而形成11组人脸序列，如图3左侧的11个圆圈。这11组人脸序列在进行聚类处理过程中，会被分成两类，即图3右侧上部的6组人脸序列形成的一类以及图3右侧下部的5组人脸序列形成的另一类，本申请可以将图3右侧上部的6组人脸序列合并为一组人脸序列，并将图3右侧下部的5组人脸序列合并为另一组人脸序列。

在一个可选示例中，本申请可以根据至少部分人脸序列的人脸特征进行聚类处理。本申请不限制聚类处理的实现方式。在聚类处理后，合并后的人脸序列仍具有人脸特征，该人脸特征可以是由相互合并的至少部分人脸序列中的所有人脸特征基于权值计算获得的，也可以是由相互合并的至少部分人脸序列的人脸特征进行计算获得的。合并后的人脸序列包括相互合并的至少部分人脸序列中的所有人脸特征。

在一个可选示例中，该操作S210可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的人脸序列聚类模块530执行。

S220、针对聚类处理后的至少一组人脸序列中的一组人脸序列，计算该人脸序列中的至少一个人脸特征与预先设置的人脸库中的至少一个人脸特征的相似度。

在一个可选示例中，本申请可以从聚类处理后的所有人脸序列中选取出包含人脸数量最多的人脸序列，并计算选取出的人脸序列中的至少部分人脸特征分别与预先设置的人脸库中的至少部分人的人脸特征的相似度。

S230、针对一组人脸序列中的至少一个人脸特征，从计算出的该人脸特征的至少一个相似度中选取最高相似度，并针对至少部分最高相似度对应的人脸库中的人进行投票，根据投票结果确定该人脸序列所属的人脸库中的人。人脸序列所属的人脸库中的人在人脸库中的所有图片形成一人脸特征集合。

S240、从该人脸序列中获取一待处理人脸的人脸关键点，根据该待处理人脸的人脸关键点和人脸特征集合中至少一个图片中的人脸关键点，确定人脸特征集合中与该待处理人脸姿态最相似的人脸特征，并根据待处理人脸的人脸特征和姿态最相似的人脸特征计算两者之间的相似度。

S250、判断人脸序列中是否还存在待处理人脸，如果还存在待处理人脸，则执行操作S240，否则，执行操作S260。

S260、根据上述计算出的相似度确定该人脸序列属于人脸库中的人的置信度，例如，计算所有相似度的平均值，并将平均值作为该置信度。另外，本申请还可以计算该人脸序列的人脸特征与该人脸序列属于人脸库中的人的综合人脸特征之间的相似度，并判断该相似度与上述置信度之间的大小，如果该相似度小于上述置信度，则可以将该相似度作为该人脸序列属于人脸库中的人的置信度；否则，不针对上述确定出的置信度进行修正。

在一个可选示例中，该操作S220、S230、S240、S250和S260可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的人脸识别模块520执行。

图4为本申请形成人脸序列的一个实施例的流程图。如图4所示，该实施例的方法包括如下操作：

S400、本申请形成人脸序列的流程开始，执行初始化操作，对前一帧人脸位置以及人脸特征进行初始化，例如，将前一帧人脸位置和人脸特征分别初始化为空。

S410、判断视频中当前是否存在未被读取的视频帧，如果当前存在未被读取的视频帧，则执行操作S420；如果当前不存在未被读取的视频帧，则执行操作S480。

S420、按照视频的播放时间顺序，从视频中顺序读取一视频帧，并利用人脸检测器对该视频帧进行人脸检测。

S430、判断是否检测到人脸图像，如果检测到人脸图像，则执行操作S440，如果没有检测到人脸图像，则返回操作S410。

S440、利用神经网络获取检测到的视频帧中的至少一个人脸图像的人脸特征以及人脸关键点，并将检测到的至少一个人脸图像的人脸位置与前一帧人脸位置进行比较，对于本次检测到的位移符合预定位移要求的至少一个人脸图像，执行操作S450相应的处理，对于本次检测到的位移不符合预定位移要求的至少一个人脸图像，执行操作S441相应的处理。

S441、针对位移不符合预定位移要求的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列，并将位移不符合预定位移要求的至少一个人脸图像的人脸特征和人脸关键点分别添加在新创建的相应人脸序列中。执行操作S460。

S450、根据位移符合预定要求的至少一个人脸特征以及前一帧中相应的人脸特征计算人脸特征的相似度，对于相似度满足预定相似度要求的人脸图像，执行操作S460相应的处理；对于相似度不满足预定相似度要求的人脸图像，执行操作S451相应的处理。

S451、针对相似度不满足预定相似度要求的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列，并将相似度不满足预定相似度要求的至少一个人脸的人脸特征和人脸关键点分别添加在新创建的相应人脸序列中。执行操作S470。

S460、针对相似度满足预定相似度要求的至少一个人脸图像，将至少一个人脸图像的人脸特征以及人脸关键点分别添加到前一帧相应人脸所在的人脸序列中。执行操作S470。

S470、根据本次检测到的至少一个人脸图像的人脸位置以及至少一个人脸图像的人脸特征更新前一帧人脸位置以及人脸特征。返回操作S410。

S480、本申请形成人脸序列的流程结束。

本申请实施例提供的任一种基于视频的人脸识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本申请实施例提供的任一种基于视频的人脸识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本申请实施例提及的任一种基于视频的人脸识别方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分操作可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的操作；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等至少一个种可以存储程序代码的介质。

图5为本申请的装置一个实施例的结构示意图。如图5所示，该实施例的装置主要包括：形成人脸序列模块500以及人脸识别模块510。可选的，该装置还可以包括：获取人脸特征模块520以及人脸序列聚类模块530中的至少一个。

形成人脸序列模块500主要用于针对视频中的出现在连续的多个视频帧中，且在多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列；其中，人脸序列为多个视频帧中属于同一个人的人脸图像集合。

可选的，形成人脸序列模块500可以获取视频的连续N(N为大于2的整数)个视频帧中属于同一个人的人脸图像，形成人脸序列模块500确定属于同一个人的人脸图像中，在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的人脸图像对；若符合预定位移要求的人脸图像对，在属于同一个人的人脸图像的交并比满足预设比值，则形成人脸序列模块500将属于同一个人的人脸图像形成一组人脸序列。

可选的，如果同一个人的人脸图像出现在前后相邻的视频帧中，且同一个人的人脸图像在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求，则形成人脸序列模块500可以将这样的人脸图像设置于同一组人脸序列中。

上述同一个人的人脸图像包括：人脸特征的相似度符合预定相似度要求的人脸图像。

在一个可选示例中，形成人脸序列模块500可以针对视频中第一次出现人脸的视频帧中的至少一个人脸图像中的一个或多个人脸图像分别创建一组人脸序列。形成人脸序列模块500可以针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列。形成人脸序列模块500还可以将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中。

在一个可选示例中，形成人脸序列模块500分别获取前后相邻的前一视频帧中的至少一个人脸图像的人脸特征、前一视频帧中的至少一个人脸图像在前一视频帧中的位置、后一视频帧中的至少一个人脸图像的人脸特征、后一视频帧中的至少一个人脸图像在后一视频帧中的位置；形成人脸序列模块500根据前一视频帧中的至少一个人脸图像在前一视频帧中的位置和后一视频帧中的至少一个人脸图像在后一视频帧中的位置确定位移符合预定位移要求的人脸图像对；形成人脸序列模块500针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度满足预定相似度要求的情况下，确定人脸图像对中的后一视频帧中的人脸图像属于前一视频帧中的人脸图像所属的人脸序列。

在一个可选示例中，形成人脸序列模块500针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度不满足预定相似度要求的情况下，为该人脸图像对中的后一视频帧中的人脸图像创建人脸序列。

形成人脸序列模块500所使用的人脸特征是由获取人脸特征模块520提供的。获取人脸特征模块520主要用于基于人脸检测器对视频帧进行人脸检测，获得视频帧的至少一个人脸图像的外接框信息，并将视频帧以及该视频帧的至少一个人脸图像的外接框信息提供给用于提取人脸特征的神经网络，经由神经网络获得视频帧的至少一个人脸图像的人脸特征。获取人脸特征模块520还可以经由该神经网络获得视频帧的至少一个人脸图像的人脸关键点。

人脸识别模块510主要用于针对一组人脸序列，至少根据该人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。

在一个可选示例中，本申请中的人脸库包括：多个人的人脸特征，且针对任一人而言，该人的人脸特征包括：该人的综合人脸特征，以及该人在不同图片中的人脸特征。上述综合人脸特征包括：人在不同图片中的人脸特征的加权平均值。

在一个可选示例中，首先，人脸识别模块510可以针对一组人脸序列中的至少一个人脸特征，计算该人脸特征与人脸库中至少一个人的综合人脸特征的相似度，并确定最高相似度所对应的人脸库中的人；其次，人脸识别模块510可以针对该人脸序列中的至少部分人脸特征确定的最高相似度所对应的人脸库中的人，进行投票，并将投票最多的人作为该人脸序列所属的人；之后，人脸识别模块510可以针对该人脸序列，至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度；例如，人脸识别模块510可以针对该人脸序列中的至少一个人脸特征，计算该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度，并根据计算出的该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度，确定该人脸序列属于该人的置信度；其中的人脸特征集合可以包括：人脸库中该人在不同图片中的人脸特征。

另外，人脸识别模块510可以根据人脸序列中的人脸关键点与人脸特征集合中的人脸关键点确定人脸特征集合中与人脸序列中的人脸姿态最相似的人脸特征。还有，人脸识别模块510可以利用该人脸序列的人脸特征与该人脸序列所属的人的综合人脸特征的相似度，修正该人脸序列属于该人的置信度。

人脸序列聚类模块530主要用于根据至少部分人脸序列的人脸特征，对至少部分人脸序列进行聚类处理，以合并对应同一个人的不同人脸序列；其中，在聚类处理后，不同人脸序列对应不同人，聚类处理后的人脸序列提供给人脸识别模块510。本申请中的人脸序列的人脸特征可以为人脸序列中的至少部分人脸图像的人脸特征的加权平均值。其中，人脸序列中的至少部分人脸图像的人脸特征的权值是根据至少部分人脸图像的人脸图像质量确定的。这里的人脸图像质量包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的至少一个。

示例性设备

图6示出了适于实现本申请的示例性设备600，设备600可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图6中，设备600包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)601，和/或，一个或者多个基于视频的人脸识别器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请中的相应操作。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。

此外，在RAM 603中，还可以存储有装置操作所需的各种程序以及数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使中央处理单元601执行上述基于视频的人脸识别方法所包括的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装在存储部分608中。

需要特别说明的是，如图6所示的架构仅为一种可选实现方式，在实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU和CPU可分离设置，再如理，可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的操作的程序代码，程序代码可包括对应执行本申请提供的操作对应的指令，例如，用于针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列的指令，其中，所述人脸序列为所述多个视频帧中属于同一人的人脸图像集合；以及，用于针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别的指令。

在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载及安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请中记载的上述指令。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的操作的上述顺序仅是为了进行说明，本申请的方法的操作不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施方式是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

一种基于视频的人脸识别方法，其特征在于，所述方法包括：

针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列，其中，所述人脸序列为所述多个视频帧中属于同一个人的人脸图像集合；

针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。
根据权利要求1所述的方法，其特征在于，所述视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像包括：

同一个人的人脸图像出现在前后相邻的视频帧中，且同一个人的人脸图像在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求。
根据权利要求1至2中任一项所述的方法，其特征在于，所述视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像包括：

获取所述视频的连续N个视频帧中属于同一个人的人脸图像，所述N为大于二的整数；

确定所述属于同一个人的人脸图像中，在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的人脸图像对；

若所述符合预定位移要求的人脸图像对，在所述属于同一个人的人脸图像的交并比满足预设比值，则所述属于同一个人的人脸图像形成一组所述人脸序列。
根据权利要求1至3中任一项所述的方法，其特征在于，所述同一个人的人脸图像包括：人脸特征的相似度符合预定相似度要求的人脸图像。
根据权利要求1至4中任一项所述的方法，其特征在于，所述针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列包括：

针对视频中第一次出现人脸的视频帧中的至少一个人脸图像中的一个或多个人脸图像分别创建一组人脸序列；

针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列；

将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中。
根据权利要求5所述的方法，其特征在于，所述将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中包括：

分别获取前后相邻的前一视频帧中的至少一个人脸图像的人脸特征、前一视频帧中的至少一个人脸图像在前一视频帧中的位置、后一视频帧中的至少一个人脸图像的人脸特征、后一视频帧中的至少一个人脸图像在后一视频帧中的位置；

根据前一视频帧中的至少一个人脸图像在前一视频帧中的位置和后一视频帧中的至少一个人脸图像在后一视频帧中的位置确定位移符合预定位移要求的人脸图像对；

针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度满足预定相似度要求的情况下，确定所述人脸图像对中的后一视频帧中的人脸图像属于前一视频帧中的人脸图像所属的人脸序列。
根据权利要求5或6所述的方法，其特征在于，所述针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列包括：

针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度不满足预定相似度要求的情况下，为该人脸图像对中的后一视频帧中的人脸图像创建人脸序列。
根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：获取人脸特征，且所述获取人脸特征包括：

基于人脸检测器对视频帧进行人脸检测，获得视频帧的至少一个人脸图像的外接框信息；

将视频帧以及该视频帧的至少一个人脸图像的外接框信息提供给用于提取人脸特征的神经网络，经由所述神经网络获得视频帧的至少一个人脸图像的人脸特征。
根据权利要求1至8中任一项所述的方法，其特征在于，所述方法在形成一组人脸序列之后，且在针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别之前，还包括：

根据至少部分人脸序列的人脸特征，对至少部分人脸序列进行聚类处理，以合并对应同一个人的不同人脸序列；

其中，在所述聚类处理后，不同人脸序列对应不同人。
根据权利要求9所述的方法，其特征在于，所述人脸序列的人脸特征包括：

人脸序列中的至少部分人脸图像的人脸特征的加权平均值。
根据权利要求10所述的方法，其特征在于，所述人脸序列中的至少部分人脸图像的人脸特征的权值是根据至少部分人脸图像的人脸图像质量确定的。
根据权利要求11所述的方法，其特征在于，所述人脸图像质量包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的至少一个。
根据权利要求1至12中任一项所述的方法，其特征在于，所述人脸库包括：多个人的人脸特征，且针对任一人而言，该人的人脸特征包括：该人的综合人脸特征，以及该人在不同图片中的人脸特征。
根据权利要求13所述的方法，其特征在于，所述综合人脸特征包括：人在不同图片中的人脸特征的加权平均值。
根据权利要求13至14中任一项所述的方法，其特征在于，所述针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别包括：

针对一组人脸序列中的至少一个人脸特征，计算该人脸特征与人脸库中至少一个人的综合人脸特征的相似度，并确定最高相似度所对应的人脸库中的人；

针对所述人脸序列中的至少部分人脸特征确定的最高相似度所对应的人脸库中的人，进行投票，并将投票最多的人作为所述人脸序列所属的人；

针对所述人脸序列，至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度。
根据权利要求15所述的方法，其特征在于，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度包括：

针对该人脸序列中的至少一个人脸特征，计算该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度；

根据计算出的该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度，确定该人脸序列属于该人的置信度；

其中，人脸特征集合包括：人脸库中该人在不同图片中的人脸特征。
根据权利要求15或16所述的方法，其特征在于，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度包括：

根据人脸序列中的人脸关键点与人脸特征集合中的人脸关键点确定人脸特征集合中与人脸序列中的人脸姿态最相似的人脸特征。
根据权利要求1-17中任一项所述的方法，其特征在于，所述方法还包括：

经由神经网络获得视频帧的至少一个人脸图像的人脸关键点。
根据权利要求16至18中任一项所述的方法，其特征在于，所述至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度还包括：

利用该人脸序列的人脸特征与该人脸序列所属的人的综合人脸特征的相似度，修正该人脸序列属于该人的置信度。
一种基于视频的人脸识别装置，其特征在于，包括：

形成人脸序列模块，用于针对视频中的出现在连续的多个视频帧中，且在所述多个视频帧中的位置符合预定位移要求的人脸图像，形成一组人脸序列，其中，所述人脸序列为所述多个视频帧中属于同一个人的人脸图像集合；

人脸识别模块，用于针对一组人脸序列，至少根据所述人脸序列中的人脸特征，利用预先设置的人脸库，进行人脸识别。
根据权利要求20所述的装置，其特征在于，所述形成人脸序列模块，用于根据同一个人的人脸图像出现在前后相邻的视频帧中，且同一个人的人脸图像在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求，形成一组人脸序列。
根据权利要求20至21中任一项所述的装置，其特征在于，所述形成人脸序列模块，用于：

获取所述视频的连续N个视频帧中属于同一个人的人脸图像，所述N为大于二的整数；

确定所述属于同一个人的人脸图像中，在前一视频帧中的位置与其在后一视频帧中的位置的位移符合预定位移要求的人脸图像对；

若所述符合预定位移要求的人脸图像对，在所述属于同一个人的人脸图像的交并比满足预设比值，则所述属于同一个人的人脸图像形成一组所述人脸序列。
根据权利要求20至22中任一项所述的装置，其特征在于，所述同一个人的人脸图像包括：人脸特征的相似度符合预定相似度要求的人脸图像。
根据权利要求20至23中任一项所述的装置，其特征在于，所述形成人脸序列模块，用于：

针对视频中第一次出现人脸的视频帧中的至少一个人脸图像中的一个或多个人脸图像分别创建一组人脸序列；

针对未出现在前一视频帧中，而出现在后一视频帧中的至少一个人脸图像中的一个或多个人脸图像，分别创建一组人脸序列；

将出现在前一视频帧和后一视频帧中的空间位置连续的同一个人的人脸图像，划归在同一个人的人脸序列中。
根据权利要求24所述的装置，其特征在于，所述形成人脸序列模块，用于：

分别获取前后相邻的前一视频帧中的至少一个人脸图像的人脸特征、前一视频帧中的至少一个人脸图像在前一视频帧中的位置、后一视频帧中的至少一个人脸图像的人脸特征、后一视频帧中的至少一个人脸图像在后一视频帧中的位置；

根据前一视频帧中的至少一个人脸图像在前一视频帧中的位置和后一视频帧中的至少一个人脸图像在后一视频帧中的位置确定位移符合预定位移要求的人脸图像对；

针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度满足预定相似度要求的情况下，确定所述人脸图像对中的后一视频帧中的人脸图像属于前一视频帧中的人脸图像所属的人脸序列。
根据权利要求24或25所述的装置，其特征在于，所述形成人脸序列模块，用于针对位移符合预定位移要求的人脸图像对，在确定该人脸图像对的人脸特征对的相似度不满足预定相似度要求的情况下，为该人脸图像对中的后一视频帧中的人脸图像创建人脸序列。
根据权利要求20至26中任一项所述的装置，其特征在于，所述装置还包括：获取人脸特征模块，用于：

基于人脸检测器对视频帧进行人脸检测，获得视频帧的至少一个人脸图像的外接框信息；

将视频帧以及该视频帧的至少一个人脸图像的外接框信息提供给用于提取人脸特征的神经网络，经由所述神经网络获得视频帧的至少一个人脸图像的人脸特征。
根据权利要求20至27中任一项所述的装置，其特征在于，所述装置还包括：

人脸序列聚类模块，用于根据至少部分人脸序列的人脸特征，对至少部分人脸序列进行聚类处理，以合并对应同一个人的不同人脸序列；

其中，在所述聚类处理后，不同人脸序列对应不同人，所述聚类处理后的人脸序列提供给所述人脸识别模块。
根据权利要求28所述的装置，其特征在于，所述人脸序列的人脸特征包括：

人脸序列中的至少部分人脸图像的人脸特征的加权平均值。
根据权利要求29所述的装置，其特征在于，所述人脸序列中的至少部分人脸图像的人脸特征的权值是根据至少部分人脸图像的人脸图像质量确定的。
根据权利要求30所述的装置，其特征在于，所述人脸图像质量包括：人脸图像的光线强度、人脸图像的清晰度以及人脸朝向中的至少一个。
根据权利要求20至31中任一项所述的装置，其特征在于，所述人脸库包括：多个人的人脸特征，且针对任一人而言，该人的人脸特征包括：该人的综合人脸特征，以及该人在不同图片中的人脸特征。
根据权利要求32所述的装置，其特征在于，所述综合人脸特征包括：人在不同图片中的人脸特征的加权平均值。
根据权利要求32至33中任一项所述的装置，其特征在于，所述人脸识别模块，用于：

针对一组人脸序列中的至少一个人脸特征，计算该人脸特征与人脸库中至少一个人的综合人脸特征的相似度，并确定最高相似度所对应的人脸库中的人；

针对所述人脸序列中的至少部分人脸特征确定的最高相似度所对应的人脸库中的人，进行投票，并将投票最多的人作为所述人脸序列所属的人；

针对所述人脸序列，至少根据该人脸序列中的至少一个人脸特征和该人脸序列所属的人在人脸库中的不同图片中的人脸特征的相似度，确定该人脸序列属于该人的置信度。
根据权利要求34所述的装置，其特征在于，所述人脸识别模块，用于：

针对该人脸序列中的任一人脸特征，计算该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度；

根据计算出的该人脸特征与人脸特征集合中与该人脸特征的人脸姿态最相似的人脸特征的相似度，确定该人脸序列属于该人的置信度；

其中，人脸特征集合包括：人脸库中该人在不同图片中的人脸特征。
根据权利要求34或35所述的装置，其特征在于，所述人脸识别模块，用于根据人脸序列中的人脸关键点与人脸特征集合中的人脸关键点确定人脸特征集合中与人脸序列中的人脸姿态最相似的人脸特征。
根据权利要求20至36中任一项所述的装置，其特征在于，经由神经网络获得视频帧的至少一个人脸图像的人脸关键点。
根据权利要求35至37中任一项所述的装置，其特征在于，所述人脸识别模块，还用于利用该人脸序列的人脸特征与该人脸序列所属的人的综合人脸特征的相似度，修正该人脸序列属于该人的置信度。
一种电子设备，其特征在于，包括：权利要求20-38中任一项所述的装置。
一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-19中任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-19中任一项所述的方法。
一种计算机程序，包括计算机指令，其特征在于，当所述计算机指令在设备的处理器中运行时，实现上述权利要求1-19中任一项所述的方法。