WO2021147434A1

WO2021147434A1 - 基于人工智能的人脸识别方法、装置、设备及介质

Info

Publication number: WO2021147434A1
Application number: PCT/CN2020/124944
Authority: WO
Inventors: 高源�; 李志锋; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-01-22
Filing date: 2020-10-29
Publication date: 2021-07-29
Also published as: US20220309836A1; CN111242090B; CN111242090A

Abstract

一种基于人工智能的人脸识别方法、装置、设备及介质，涉及计算机视觉领域。所述方法包括：获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数（301）；调用第一活体检测部对所述n组视频帧中的所述彩色视频帧进行识别，所述第一活体检测部是交互式活体检测部（302）；调用第二活体检测部对所述n组视频帧中的所述深度视频帧进行识别，所述第二活体检测部是三维结构光式活体检测部（303）；响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸（304）。

Description

基于人工智能的人脸识别方法、装置、设备及介质

本申请要求于2020年01月22日提交的申请号为202010075684.7、发明名称为“基于人工智能的人脸识别方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种基于人工智能的人脸识别方法、装置、设备及介质。

背景技术

人脸活体检测技术是指通过特定的检测方式，使用人脸关键点定位和人脸追踪等技术，验证用户的操作是否为真实的活体本人的操作。

相关技术中，采用三维(3Dimensions，3D)结构光进行人脸活体验证，利用结构光摄像头向目标发出间隔一致的条纹状光线，若目标是真实的活体人脸，由于人脸的三维结构，会使反射回来的条纹状光线必然发生间隔不一致的情况；反之，其反射回来的结构光间隔一致。

上述人脸活体检测的方式不能有效防御攻击类型为合成攻击和翻拍攻击的线上人脸验证攻击，易于威胁用户的信息安全。

发明内容

本申请实施例提供了一种基于人工智能的人脸识别方法、装置设备及介质，可防御攻击类型为合成攻击、翻拍攻击和面具攻击的线上人脸验证攻击，保护了用户的信息安全，所述技术方案如下：

根据本申请的一个方面，提供了一种基于人工智能的人脸识别方法，应用于计算机设备中，所述方法包括：

获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数；

调用第一活体检测部对所述n组视频帧中的所述彩色视频帧进行识别，所述第一活体检测部是交互式活体检测部；

调用第二活体检测部对所述n组视频帧中的所述深度视频帧进行识别，所述第二活体检测部是三维结构光式活体检测部；

响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸。

根据本申请的另一方面，提供了一种基于人工智能的人脸识别装置，所述装置包括：

获取模块，用于获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数；

第一活体检测部，用于对所述n组视频帧中的所述彩色视频帧进行识别，所述第一活体检测部是交互式活体检测部；

第二活体检测部，用于对所述n组视频帧中的所述深度视频帧进行识别，所述第二活体检测部是三维结构光式活体检测部；

处理模块，用于响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上方面所述的基于人工智能的人脸识别方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如上方面所述的基于人工智能的人脸识别方法。

根据本申请的另一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如上方面所述的基于人工智能的人脸识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过将第一活体检测部和第二活体检测部进行结合，当两种活体检测部对视频帧中的目标人脸的检测结果均为活体类型时，该视频帧中含有活体目标人脸。第一活体检测部可抵御翻拍攻击和面具攻击，第二活体检测部可抵御合成攻击和翻拍攻击，能够更全面地保障用户的信息安全。

附图说明

图1是本申请一个示例性实施例提供的对不同类型的攻击的活体人脸检测的示意图；

图2是本申请一个示例性实施例提供的计算机系统的结构示意图；

图3是本申请一个示例性实施例提供的基于人工智能的人脸识别方法的流程图；

图4是本申请另一个示例性实施例提供的基于人工智能的人脸识别方法的流程图；

图5是本申请一个示例性实施例提供的人脸特征点的示意图；

图6是本申请一个示例性实施例提供的结合人脸预处理过程的基于人工智能的人脸识别方法的流程图；

图7是本申请一个示例性实施例提供的通过MTCNN算法进行人脸检测的流程图；

图8是本申请一个示例性实施例提供的VGG-16深度学习网络的结构框图；

图9是本申请一个示例性实施例提供的结合活体人脸检测系统的基于人工智能的人脸识别方法的流程图；

图10是本申请一个示例性实施例提供的基于人工智能的人脸识别装置的结构框图；

图11是本申请一个示例性实施例提供的服务器的结构框图；

图12是本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

首先，对本申请实施例中涉及的名词进行介绍：

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、身份验证、活体人脸识别等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

计算机视觉技术(Computer Vision，CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及活体人脸检测技术领域，通过第一活体检测部和第二活体检测部均识别为活体人脸时，确定所检测的视频帧中的目标人脸是活体人脸。当第一活体检测部和第二活体检测部中至少有一个检测部的识别结果是非活体人脸时，确定所检测的视频帧中的目标人脸不是活体人脸。

相关技术中，通过动态交互验证和3D结构光人脸活体验证两种方式区分目标人脸是否为活体人脸。

动态交互验证指的是：用户需要根据系统指示做出相应动作，譬如眨眼、张嘴、读文字或数字、转头等。3D结构光人脸活体验证指的是：利用结构光摄像头向目标发出间隔一致的条纹状光线，根据反射回来的条纹状光线是否间隔一致，判断目标是否为真实的活体人脸。

而针对上述两种验证方式存在的主要攻击方式如下：

1、合成攻击，即通过基于深度学习的人脸合成技术来合成他人人脸作为攻击样本，攻击者可以控制所合成的他人人脸做出一系列指定动作。

2、翻拍攻击，即通过翻拍身份证、照片、打印纸、其他播放设备所播放的视频等。

3、面具攻击，即通过佩戴按他人容貌所制作的面具来进行攻击。

因为合成攻击与翻拍攻击没有提供有效的3D深度信息，通过3D结构光人脸活体验证的方式能够有效防御合成攻击和翻拍攻击，但3D结构光人脸活体验证的方式不能防御面具攻击。

因为翻拍攻击和面具攻击中攻击者很难做出要求的动作或动作序列，通过交互式活体检测方式能够有效防御翻拍攻击和面具攻击，但交互式活体检测方式不能有效防御合成攻击。同时，通过交互式活体检测方式需要训练相关模型识别出用户做出的动作，需要对动作数据进行标注，在标注数据的过程中，不但要被采集者根据提示做出相应动作，同时还需要记录每个动作所需的时间，增加了数据采集的难度。

基于上述情况，本申请实施例提供了一种基于人工智能的人脸识别方法，将上述两种活体检测方式结合在一起。通过第一活体检测部和第二活体检测部来识别镜头前的人脸是否为其他媒介(如图片、视频、照片、打印纸、身份证等)所对应的画面来判断其是否为活体，提高了活体验证的准确率，从而保证了用户的信息安全。

图1示出了本申请一个示例性实施例提供的对不同类型的攻击的活体人脸检测的示意图。以终端是智能手机为例，在智能手机中运行有支持识别活体人脸的程序，该程序中包括第一活体检测部和第二活体检测部，目标对象通过智能手机拍摄含有目标对象的面部的视频帧，智能手机识别目标人脸是否为活体目标人脸。

如图1的(a)所示，第一目标对象是活体，第一目标人脸是活体人脸，第一活体检测部通过彩色视频帧可识别第一目标对象完成的动作，第二活体检测部通过深度视频帧可识别第一目标人脸的深度信息，则智能手机可识别出该目标人脸是活体人脸。

如图1的(b)所示，第二目标对象的面部是结合如图1的(a)所示的第一目标对象的五官合成的第二目标人脸，可受控制地做出一系列动作，第一活体检测部通过彩色视频帧识别第二目标人脸是活体人脸，第二活体检测部通过深度视频帧识别出第二目标人脸不具有深度信息，也即不是活体人脸，则智能手机识别出该第二目标人脸不是活体人脸。

如图1的(c)所示，第三目标对象的面部是第一目标对象在照片中的人脸，第一活体检测部通过彩色视频帧识别出第三目标人脸无法做出动作，第二活体检测部通过深度视频帧识别出第三目标人脸不具有深度信息，则智能手机识别出第三目标人脸不是活体人脸。

如图1的(d)所示，第四目标对象佩戴有按照第一目标对象的面容制作成的面具，第一活体检测部通过彩色视频帧是识别出第四目标人脸无法做出动作，第二活体检测部通过深度视频帧识别出第四目标人脸具有深度信息，则智能手机识别出第四目标人脸不是活体人脸。

运行有上述支持识别活体人脸程序的智能手机可防御合成攻击、翻拍攻击和面具攻击，能够更全面地应对各种类型的样本攻击，保障了用户的信息安全。

本申请实施例提供了一种基于人工智能的人脸识别方法，该方法可应用于服务器中，用户将视频帧上传至服务器中，服务器进行活体人脸验证并进行后续操作，该方法还可应用于终端中，通过终端上运行有支持活体人脸检测的程序，对用户拍摄的视频帧进行活体人脸验证，用户可将验证结果上传至服务器以进行后续操作。

图2示出了本申请一个示例性实施例提供的计算机系统结构图。该计算机系统100包括终端120和服务器140。

终端120安装和运行有支持人脸活体检测的应用程序，该应用程序也可以为小程序、网页、信息交互平台(如公众号)中的任意一种。终端120上设置有三维摄像头(包括彩色摄像头和深度摄像头)，用于采集用户160的面部图像(包括照片和视频帧中的至少一种)。可选地，终端120以一定的频率对用户160的面部进行照片连拍，或拍摄视频，用户160的面部图像可以是附加有眨眼、转头、微笑、张嘴等动作的图像，或者是无附加动作的图像。终端120可以泛指多个终端中的一个，本实施例仅以终端120来举例说明。终端设备类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。以下实施例以终端包括智能手机来举例说明。

终端120通过无线网络或有线网络与服务器140相连。服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的，服务器140包括处理器144和存储器142，存储器142又包括获取模块1421、处理模块1422和接收模块1423。服务器140用于为支持人脸活体检测的程序提供后台服务。示意性的，后台服务器可以是面部图像的存储服务，或为活体人脸检测提供计算服务，或为活体人脸检测提供验证服务。可选地，服务器140承担主要计算工作，终端120承担次要计算工作；或者，服务器140承担次要计算工作，终端120承担主要计算工作；或者，服务器140和终端120两者之间采用分布式计算架构进行协同计算。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

图3示出了本申请一个示例性实施例提供的基于人工智能的人脸识别方法，该方法应用于如图2所示的计算机系统中的终端120中或其他计算机系统中，该方法包括如下步骤：

步骤301，获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数。

使用具有图像采集功能的终端采集目标人脸的视频帧。示意性的，该终端包括：智能手机、平板电脑、笔记本电脑、连接有摄像头的台式计算机、照相机、摄像机中的至少一种。使用终端对目标对象的脸部进行连续拍摄。示意性的，该连续拍摄是拍摄视频。

每个拍摄时刻会同时拍摄彩色视频帧和深度视频帧。同一个拍摄时刻拍摄的彩色视频帧和深度视频帧，构成一组视频帧。

彩色视频帧是红绿蓝(Red Green Blue，RGB)格式的彩色视频帧。深度(Depth，D)视频帧中的每个像素点存储有深度摄像头到场景中各个真实点的距离(深度)值。示例性的，真实点是目标人脸上的点。

示意性的，彩色视频帧和深度视频帧存储为两帧关联的视频帧，比如采用拍摄时刻进行关联。或者，彩色视频帧和深度视频帧存储为同一视频帧，比如，该帧视频同时包含R、G、B、D四个通道。本申请实施例对彩色视频帧和深度视频帧的具体存储方式不加以限定。

步骤302，调用第一活体检测部对n组视频帧中的彩色视频帧进行识别，第一活体检测部是交互式活体检测部。

可选地，第一活体检测部包括神经网络模型和程序单元，程序单元可以是计算单元或人工智能分类器。

可选地，神经网络模型包括堆叠沙漏网络。第一活体检测部中的神经网络模型可识别出彩色视频帧中的目标人脸上的五官特征点，得到目标人脸上的五官特征点的位置坐标。五官特征点是指一个五官所在的位置对应的特征点，如鼻子特征点，五官包括眉毛、眼睛、鼻子、嘴巴、耳朵中的至少一种。本申请实施例中，五官特征点包括目标人脸的左眼睛、右眼睛、鼻子、左嘴角和右嘴角。进一步，通过计算单元计算五官特征点的距离变化，或者，通过人工智能分类器确定五官特征点的距离变化，从而确定目标人脸是否完成了目标动作。

步骤303，调用第二活体检测部对n组视频帧中的深度视频帧进行识别，第二活体检测部是三维结构光式活体检测部。

可选地，第二活体检测部包括VGG-16深度学习网络。第二活体检测部可识别出深度视频帧中的是否含有活体目标人脸，示意性的，输出目标人脸属于活体人脸的概率。如，第二活体检测部输出的概率是96％，则第二活体检测部识别的深度视频帧中含有活体目标人脸。

步骤304，响应于第一活体检测部和第二活体检测部的检测结果均为活体类型，确定目标人脸为活体目标人脸。

当第一活体检测部对彩色频帧中的目标人脸进行识别后，得到的检测结果为非活体类型，则目标人脸为非活体目标人脸；当第二活体检测部对深度频帧中的目标人脸进行识别后，得到的检测结果为非活体类型，则目标人脸为非活体目标人脸；当第一活体检测部和第二活体检测部对视频帧中的目标人脸进行识别后，得到的检测结果均为非活体类型，则目标人脸为非活体目标人脸。

在一个示例中，第一活体检测部对彩色视频帧中的目标人脸进行识别，得到目标人脸的嘴巴特征点，通过计算嘴巴特征点的位置变化，得出目标人脸完成了张嘴动作，第二活体检测部对深度视频帧中的目标人脸进行识别，得到目标人脸属于活体目标人脸的概率是98％。因此，上述彩色视频帧和深度视频帧所组成的视频帧中的目标人脸是活体目标人脸。

可以理解的是，上述实施例中的第一活体检测部和第二活体检测部可以是任意神经网络构建的模型。

综上所述，本实施例提供的方法，通过将第一活体检测部和第二活体检测部进行结合，第一活体检测部可抵御翻拍攻击和面具攻击，第二活体检测部可抵御合成攻击和翻拍攻击，能够更全面地保障用户的信息安全。

下面对第一活体检测部中的神经网络模型的训练方式进行说明，神经网络模型是通过如下方式训练得到的：

S1、获取训练样本集合，训练样本集合包括多组样本人脸图像和样本五官特征点。

样本人脸图像包括照片或n组视频帧中包含的人脸图像，样本五官特征点包括样本人脸的左眼睛、右眼睛、鼻子、左嘴角和右嘴角。样本五官特征点可通过人工方式进行标注，或将样本人脸图像输入至具有特征点标注能力的模型中，识别出五官特征点，或利用现有技术中标注好的五官特征点的公开数据集合。

S2、调用第一活体检测部对样本人脸图像进行识别，得到样本人脸的预测五官特征点。

S3、将样本人脸的样本五官特征点和预测五官特征点进行比较，计算误差损失。

在一个示例中，鼻子特征点的预测位置坐标是(x1，y1)，样本人脸的鼻子特征点的实际位置坐标是(x0，y0)，将两者进行比较，计算误差损失。

可选地，可利用误差损失函数对样本五官特征点和预测五官特征点进行误差计算。误差函数可以是平滑的一范数损失函数，或欧式损失函数，或归一化损失指数函数或其它误差损失函数。

S4、通过误差反向传播算法根据误差损失对第一活体检测部进行训练，得到训练后的第一活体检测部。

样本人脸的样本五官特征点和预测五官特征点的误差损失不断减小，第一活体检测部输出的预测五官特征点与标注好的样本五官特征点趋于一致，第一活体检测部训练完成。

下面对第二活体检测部的训练方式进行说明，第二活体检测部是通过如下方式训练得到的：

S11、获取训练样本集合，训练样本集合包括多组样本人脸的深度图像和样本人脸的活体结果。

可选地，样本人脸的深度图像是由深度摄像头采集得到的。本申请对如何获得样本人脸的深度图像的方式不加以限定。

样本人脸的活体结果包括样本人脸是活体人脸，或非活体人脸。样本人脸的活体结果可通过人工方式进行标注，或通过其它模型识别。

S22、调用第二活体检测部对样本人脸图像进行识别，得到样本人脸属于活体人脸的概率。

S33、将样本人脸的活体结果和样本人脸属于活体人脸的概率进行比较，计算误差损失。

在一个示例中，样本人脸的活体结果是活体样本人脸(也即样本人脸属于活体人脸的概率是100％)，第二活体检测部的预测结果是样本人脸属于活体人脸的概率是95％。将两者进行比较，计算误差损失。

可选地，可利用误差损失函数对样本人脸的活体结果和样本人脸属于活体人脸的概率进行误差计算。误差函数可以是平滑的一范数损失函数，或欧式损失函数，或归一化损失指数函数或其它误差损失函数。

S44、通过误差反向传播算法根据误差损失对第二活体检测部进行训练，得到训练后的第二活体检测部。

可选地，第二活体检测部也可与第一活体检测部的训练方式不同。

图4示出了本申请另一个示例性实施例提供的基于人工智能的人脸识别方法，该方法应用于如图2所示的计算机系统中的终端120中或其他计算机系统中，该方法包括如下步骤：

步骤401，获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数。

步骤401与图3所示的步骤301一致，此处不再赘述。

步骤402，调用第一活体检测部中的神经网络模型获取彩色视频帧上的五官特征点的位置。

可选地，第一活体检测部包括神经网络模型和程序单元，程序单元可以为计算单元，或者用于分类的程序单元，该用于分类的程序单元可以为人工智能分类器。

可选地，神经网络模型包括堆叠沙漏神经网络，每个堆叠沙漏神经网络包含一个多尺度自底向上的特征提取编码器和一个多尺度自顶向下的解码器，该编码器和解码器在尺度放缩上是对称的。对称的多尺度编码器和解码器的组合能够提取多尺度特征，并最终输出106个热度图(Heatmaps)，每个热度图对应一个特征点，最终特征点的位置即为每个热度图极大值点对应的坐标。堆叠沙漏神经网络通过堆叠多个沙漏网络来对提取到的特征点进一步精细化(Refine)操作，精细化操作是指对特征点进行精确计算后得到精确的特征点位置的操作。

步骤403，调用第一活体检测部根据彩色视频帧上的五官特征点的距离，确定目标人脸是否完成目标动作。

该步骤包括如下子步骤：

步骤4031，调用第一活体检测部计算属于同一个五官部位的五官特征点的最大横向距离和最大纵向距离的比值，五官部位包括眼睛和嘴巴中的至少一种。

示意性的，五官包括眼睛。眼睛特征点包括左眼特征点、右眼特征点、上眼皮特征点和下眼皮特征点，如图5的(a)所示的眼睛，以白色圆点表示五官特征点，则五官特征点的最大横向距离是左眼角特征点与右眼角特征点的距离，最大纵向距离是上眼皮特征点与下眼皮特征点的距离，上眼皮特征点是上眼皮的中点位置处的特征点，下眼皮特征点是上眼皮的中点位置处的特征点。

示意性的，五官包括嘴巴，嘴巴特征点包括左嘴角特征点、右嘴角特征点、上嘴唇特征点和下嘴唇特征点，如图5的(a)所示嘴巴，以白色圆点表示五官特征点，则五官特征点的最大横向距离是左嘴角特征点与右嘴角特征点的距离，最大纵向距离是上嘴唇特征点和下嘴唇特征点的距离，上嘴唇特征点是上嘴唇的中点位置处的特征点，也即两个唇峰的交点处特征点，下嘴唇特征点是下嘴唇的中点位置处的特征点。

步骤4032，响应于比值达到预设条件，确定目标人脸完成目标动作。

可选地，预设条件包括距离比值达到距离阈值。可选地，目标动作包括眨眼动作和张嘴动作中的至少一种，分别对确定眨眼动作和张嘴动作进行说明。

一、响应于五官部位为眼睛且比值达到第一距离阈值，确定目标人脸完成眨眼动作。

下面对目标人脸完成眨眼动作进行说明，如图5(b)所示。

S11、获取第一距离和第二距离，第一距离是左眼角特征点和右眼角特征点之间的距离，第二距离是上眼皮特征点和下眼皮特征点之间的距离。

S12、计算第一距离与第二距离的距离比值。

可选地，距离比值包括第一距离501比第二距离502，或第二距离502比第一距离501。以计算第一距离501比第二距离502为例，同一眼睛上包括第一距离501和第二距离502，本实施例仅为清楚标示，将第一距离501和第二距离502分开在两只眼睛上标注。

S13、计算目标人脸上的两只眼睛的距离比值的平均值。

在一个示例中，目标人脸的左眼睛的距离比值是a1，右眼睛的距离比值是a2，计算a1和a2的平均值。

S14、响应于平均值大于第一距离阈值，确定目标人脸完成眨眼动作。

可选地，第一距离阈值可以是默认设置，或根据不同的目标人脸动态调整的距离阈值，如成人的脸的第一距离阈值大于儿童的脸的第一距离阈值。

S15、响应于平均值小于第一距离阈值，确定目标人脸未完成眨眼动作。

需要说明的是，若距离比值是以第一距离比第二距离时，需要距离比值的平均值大于第一距离阈值；若距离比值是以第二距离比第一距离时，需要距离比值的平均值小于第一距离阈值。

S16、获取含有目标动作的视频帧的第一帧数。

S17、响应于视频帧的第一帧数小于第一预设阈值，将n组视频帧筛除。

若含有眨眼或张嘴等动作的视频帧数目小于第一预设阈值，则提前将该视频帧拒绝。第一活体检测部输出的是含有目标动作的视频帧。

S18、响应于视频帧的第一帧数大于第一预设阈值，确定n组视频帧是正样本视频帧。

正样本视频帧是指该视频帧是含有活体人脸的视频帧，与攻击样本视频帧相对。第一活体检测部识别出含有活体人脸的视频帧，可将该视频帧作为后续训练第一活体检测部中的神经网络模型的样本视频帧。

需要说明的是，上述步骤S14还可替换实施为如下步骤14：

步骤14，响应于五官部位为眼睛且比值被第一分类器识别为第一类型，确定目标人脸完成眨眼动作。

可选地，第一活体检测部还包括第一分类器和第二分类器中的至少一种。

可选地，还可通过第一分类器识别上述比值，第一分类器是具有对五官特征点的距离比值识别能力的机器学习模型，如支撑向量机。示意性的，第一类型为眨眼动作对应的类型。第一分类器将输入的距离比值分为眨眼动作对应的类型(也即第一类型)和未进行眨眼动作对应的类型。

二、响应于五官部位为嘴巴且比值达到第二距离阈值，确定目标人脸完成张嘴动作。

下面对目标人脸完成张嘴动作进行说明，如图5的(c)所示。

S21、获取第三距离和第四距离，第三距离是左嘴角特征点和右嘴角特征点之间的距离，第四距离是上嘴唇的中间特征点和下嘴唇的中间特征点之间的距离(特征点以白色圆圈示出)。

S22、计算第三距离与第四距离的距离比值。

可选地，该距离比值包括第三距离503比第四距离504，或第四距离504比第三距离503。本实施例以第三距离503比第四距离504为例。

S23、响应于距离比值小于第二距离阈值，确定目标人脸完成张嘴动作。

可选地，第二距离阈值可以是默认设置，或根据不同的目标人脸动态调整的距离阈值，如男人的脸的第二距离阈值大于女人的脸的第二距离阈值。

需要说明的是，若距离比值是以第三距离比第四距离时，需要距离比值的平均值小于第二距离阈值；若距离比值是以第四距离比第三距离时，需要距离比值的平均值大于第二距离阈值。

S24、响应于距离比值大于第二距离阈值，确定目标人脸未完成张嘴动作。

S25、获取符合活体人脸对应的深度信息的视频帧的第二帧数。

S26、响应于视频帧的第二帧数小于第二预设阈值，将n组视频帧筛除。

若输入的视频帧中符合活体人脸对应的深度信息的视频帧数少于第二预设阈值，则提前将该视频帧拒绝。

S27、响应于视频帧的第二帧数大于第二预设阈值，确定n组视频帧是正样本视频帧。

正样本视频帧是指该视频帧是含有活体人脸的视频帧，与攻击样本视频帧相对。第二活体检测部识别出含有活体人脸的视频帧，可将该视频帧作为后续训练第二活体检测部的样本视频帧。

需要说明的是，上述步骤S23还可以替换实施为步骤23如下：

步骤23，响应于五官部位为嘴巴且比值被第二分类器识别为第二类型，确定目标人脸完成张嘴动作。

可选地，还可通过第二分类器识别上述比值，第二分类器是具有对五官特征点的距离比值识别能力的机器学习模型，如支撑向量机。示意性的，第二类型为张嘴动作对应的类型。第二分类器将输入的距离比值分为张嘴动作对应的类型(也即第二类型)和未进行张嘴动作对应的类型。

步骤404，调用第二活体检测部对n组视频帧中的深度视频帧进行识别，第二活体检测部是三维结构光式活体检测部。

步骤405，响应于第一活体检测部和第二活体检测部的检测结果均为活体类型，确定目标人脸为活体目标人脸。

当至少存在一个活体检测部的检测结果不是活体类型，则输出的检测结果是该目标人脸为非活体目标人脸。

该步骤包括如下子步骤：

步骤4051，获取第一帧数和第二帧数，第一帧数是第一活体检测部识别出的含有目标动作的彩色视频帧的帧数，第二帧数是第二活体检测部识别出的符合活体人脸对应的深度信息的深度视频帧的帧数；

步骤4052，响应于第一帧数大于第一预设阈值且第二帧数大于第二预设阈值，确定目标人脸为活体目标人脸。

当第一活体检测部与第二活体检测部对视频帧中的人脸进行检测的结果均为活体人脸，且含有活体人脸的帧数大于第一预设阈值，且符合活体人脸对应的深度信息的帧数大于第二预设阈值时，确定目标人脸为活体目标人脸。

可以理解的是，上述实施例中的活体检测部可以是任意神经网络。

综上所述，本实施例提供的方法，通过将第一活体检测部和第二活体检测部进行结合，以计算五官特征点的距离比值来确定目标人脸是否完成了目标动作，无需对动作进行标注，也无需记录每个动作所需的时间，降低了数据采集的难度，使得第一活体检测部易于训练。第一活体检测部可抵御翻拍攻击和面具攻击，第二活体检测部可抵御合成攻击和翻拍攻击，能够更全面地保障用户的信息安全。

在第一活体检测部和第二活体检测部对视频帧进行识别之前，需要先确定视频帧中是否含有人脸。

图6是本申请一个示例性实施例提供的结合预处理基于人工智能的人脸识别方法的流程图，该方法应用于如图2所示的计算机系统中的终端120中或其他计算机系统中，该方法包括如下步骤：

步骤601，调用人脸预处理部对n组视频帧中的彩色视频帧进行识别，人脸预处理部是具有人脸识别能力的机器学习部。

可选地，人脸预处理部可以是多任务卷积神经网络(Multi-Task Convolutional Neural Network，MTCNN)。MTCNN网络由三个子网络级联而成，包括建议网络(Proposal Network，P-Net)，提纯网络(Refine Network，R-Net)和输出网络(Output Network，O-Net)。图7示出了本申请一个示例性实施例提供的MTCNN网络检测五官特征点的方法流程图，该方法包括：

步骤1，获取图像彩色视频帧。

步骤2，建议网络将图像彩色视频帧作为输入，生成一系列可能包含人脸的候选区域。

步骤3，提纯网络对建议网络生成的大量候选区域进行提纯，筛除其中不包含人脸的部分。

步骤4，输出网络输出人脸区域并且定位五官特征点。

示意性的，五官特征点包括左右眼、鼻尖、左右嘴角。

步骤5，得到人脸检测框及五官特征点。

步骤602，获取识别结果为具有人脸区域的m组视频帧，m≤n，且m为正整数。

输出网络输出含有人脸区域的m组视频帧，该m组视频帧可能与输入的n组视频帧一样多，或者少于输入的n组视频帧。并定位人脸上的五官特征点，输出五官特征点的位置坐标。

步骤603，响应于m小于第三预设阈值，将n组视频帧筛除。

如果输入的视频帧中包含人脸区域的视频帧数目m未超过第三预设阈值，则提前将该n组视频帧拒绝。

步骤604，将m组视频帧中的彩色视频帧发送至第一活体检测部，以及将m组视频帧中的深度视频帧发送至第二活体检测部。

将进过预处理后的视频帧分别发送至第一活体检测部和第二活体检测部，第一活体检测部识别彩色视频帧，第二活体检测部识别深度视频帧。

可选地，通过训练一个二分类深度学习模型来判断输入的深度视频帧是否为真实活体人脸。示意性的，二分类深度学习模型是VGG-16深度学习网络，VGG-16深度学习网络的结构如图8所示。

3×3标识卷积核大小，卷积后的数字代表输出通道的个数，全连接层中的数字为输出通道的个数。

深度视频帧首先缩放至224×224(像素)的大小，然后将缩放后的视频帧作为VGG-16深度学习网络的输入，经过一系列卷积(Convolution)、线性整流激活(ReLU Activation)、全连接(Fully-Connected)以及归一化指数(softmax)等网络层的操作，深度学习网络输出该输入视频帧是活体真人还是攻击样本的概率。

可以理解的是，上述实施例中的深度神经网络可以是任意神经网络。

综上所述，本实施例提供的方法，在第一活体检测部和第二活体检测部对视频帧进行检测之前，通过人脸预处理部对视频帧进行识别，将视频帧中不含有人脸的部分视频帧筛除，提高了两种活体检测部检测活体人脸的准确率，也提高了活体人脸的检测效率。

下面对活体人脸检测系统识别视频帧中的活体人脸的整个过程进行说明。以第一活体检测部为交互式活体检测模型，以第二活体检测部为三维结构光式检测模型，以人脸预处理部为人脸检测预处理模型为例进行说明。

图9示出了本申请一个示例性实施例提供的基于人工智能的人脸识别方法，该方法应用于如图2所示的计算机系统中的终端120中或其他计算机系统中，该方法包括如下步骤：

步骤801，将彩色视频帧输入至人脸检测预处理模型中。

步骤802，调用人脸检测预处理模型对人脸进行检测。

步骤803，判断包含人脸的视频帧的帧数是否大于n1。

通过人脸检测预处理模型10来确定输入的视频帧中是否含有人脸，若包含人脸的视频帧的帧数大于n1(第三预设阈值)，则进入步骤806和步骤810；反之，则进入步骤804。

步骤804，输入视频帧为攻击样本，拒绝输入该视频帧。

步骤805，将深度视频帧输入至三维结构光式检测模型中。

三维光结构光式检测模型11对视频帧中的深度视频帧进行检测。

步骤806，根据彩色视频帧检测结果保留人脸深度视频帧，并裁剪出人脸区域。

三维结构光式检测模型11可确定深度视频帧中的人脸区域。

步骤807，通过轻量化分类器判断是否为纸片攻击。

纸片攻击是指平面形状的媒介上的人脸所形成的攻击，如照片、屏幕画面、身份证、报纸上的人脸所形成的样本攻击。也即通过轻量化分类器可判断目标人脸是否是具有三维结构的人脸。

步骤808，判断非纸片攻击的视频帧数是否大于n2。

若非纸片攻击的视频帧数大于n2(第二预设阈值)，进入步骤810；反之，进入步骤809。

步骤809，输入的视频帧为攻击样本，拒绝输入该视频帧。

步骤810，调用交互式活体检测模型对五官特征点进行检测。

步骤811，计算眼睛或嘴巴特征点的长宽比，判断是否进行眨眼或张嘴动作。

眼睛或嘴巴特征点的长宽比，也即距离比值。可选地，目标人脸还可进行转头或点头等动作。

步骤812，判断含有眨眼或张嘴动作的视频帧的帧数是否大于n3。

通过交互式活体检测模型12来确定目标人脸的五官特征点，通过五官特征点的移动变化，确定目标人脸是否完成了目标动作。以目标动作包括眨眼或张嘴动作为例，若含有眨眼或张嘴动作的视频帧数大于n3(第一预设阈值)，则进入步骤814；反之，则进入步骤813。

步骤813，输入的视频帧为攻击样本，拒绝输入该视频帧。

步骤814，输入的视频帧为正样本视频帧，通过输入的视频帧。

该正样本视频帧中包含活体人脸，该正样本视频帧可作为训练第一活体检测部中的神经网络模型的训练样本。

综上所述，本实施例提供的方法，通过将第一活体检测部和第二活体检测部进行结合，以计算五官特征点的距离比值来确定目标人脸是否完成了目标动作，以目标人脸的深度信息来确定目标人脸是否为纸片攻击，当两种活体检测模型对视频帧中的目标人脸的检测结果均为活体类型时，该视频帧中含有活体目标人脸，第一活体检测部可抵御翻拍攻击和面具攻击，第二活体检测部可抵御合成攻击和翻拍攻击，能够更全面地保障用户的信息安全。

图10示出了本申请一个示例性实施例提供的基于人工智能的人脸识别装置的框图。该测装置包括：

获取模块1010，用于获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数；

第一活体检测部1020，用于对n组视频帧中的彩色视频帧进行识别，第一活体检测部是交互式活体检测部；

第二活体检测部1030，用于对n组视频帧中的深度视频帧进行识别，第二活体检测部是三维结构光式活体检测部；

处理模块1040，用于响应于第一活体检测部和第二活体检测部的检测结果均为活体类型，确定目标人脸为活体目标人脸。

在一个可选的实施例中，所述第一活体检测部1020，用于调用神经网络模型获取彩色视频帧上的五官特征点的位置；

第一活体检测部1020，用于根据彩色视频帧上的五官特征点的距离，确定目标人脸是否完成目标动作。

在一个可选的实施例中，该装置包括计算模块1050；

所述计算模块1050，用于调用第一活体检测部计算属于同一个五官部位的五官特征点的最大横向距离和最大纵向距离的比值，五官部位包括眼睛和嘴巴中的至少一种；

所述处理模块1040，用于响应于比值达到预设条件，确定目标人脸完成目标动作。

在一个可选的实施例中，所述处理模块1040，用于响应于五官部位为眼睛且比值达到第一距离阈值，确定目标人脸完成眨眼动作；响应于五官部位为嘴巴且比值达到第二距离阈值，确定目标人脸完成张嘴动作。

在一个可选的实施例中，所述五官特征点包括眼睛特征点，眼睛特征点包括左眼角特征点、右眼角特征点、上眼皮特征点和下眼皮特征点；

所述获取模块1010，用于获取第一距离和第二距离，第一距离是左眼角特征点和右眼角特征点之间的距离，第二距离是上眼皮特征点和下眼皮特征点之间的距离；

所述计算模块1050，用于计算第一距离与第二距离的距离比值；

所述计算模块1050，用于计算目标人脸上的两只眼睛的距离比值的平均值；响应于平均值大于第一距离阈值，确定目标人脸完成眨眼动作。

在一个可选的实施例中，所述第一活体检测部1020还包括：第一分类器和第二分类器中的至少一种，所述处理模块1040，用于响应于五官部位为眼睛且比值被第一分类器识别为第一类型，确定目标人脸完成眨眼动作；所述处理模块1040，用于响应于五官部位为嘴巴且比值被第二分类器识别为第二类型，确定目标人脸完成张嘴动作。

在一个可选的实施例中，该装置包括训练模块1060，所述神经网络模型是通过如下方式训练得到：

所述获取模块1010，用于获取训练样本集合，训练样本集合包括多组样本人脸图像和样本五官特征点；

所述第一活体检测部1020，用于对样本人脸图像进行识别，得到样本人脸的预测五官特征点；

所述计算模块1050，用于将样本人脸的样本五官特征点和预测五官特征点进行比较，计算误差损失；

训练模块1060，用于通过误差反向传播算法根据误差损失对第一活体检测部进行训练，得到训练后的第一活体检测部。

在一个可选的实施例中，该装置包括人脸预处理部1070；

所述人脸预处理部1070，用于对n组视频帧中的彩色视频帧进行识别，所述人脸预处理部1070是具有人脸识别能力的机器学习模型；

所述获取模块1010，用于获取识别结果为具有人脸区域的m组视频帧，m≤n，且m为正整数；

所述处理模块1040，用于将m组视频帧中的彩色视频帧发送至第一活体检测部，以及将m组视频帧中的深度视频帧发送至第二活体检测部。

在一个可选的实施例中，所述获取模块1010，用于获取第一帧数和第二帧数，第一帧数是第一活体检测部1020识别出的含有目标动作的彩色视频帧的帧数，第二帧数是第二活体检测部1030识别出的符合活体人脸对应的深度信息的深度视频帧的帧数；

所述处理模块1040，用于响应于第一帧数大于第一预设阈值且第二帧数大于第二预设阈值，确定目标人脸为活体目标人脸。

在一个可选的实施例中，所述处理模块1040，用于响应于视频帧的第一帧数小于第一预设阈值，确定目标人脸为非活体目标人脸，将n组视频帧筛除；或，响应于视频帧的第二帧数小于第二预设阈值，确定目标人脸为非活体目标人脸，将n组视频帧筛除。

在一个可选的实施例中，所述处理模块1040，用于响应于m小于第三预设阈值，将n组视频帧筛除。

图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是后台服务器集群140中的服务器。具体来讲：

服务器1100包括中央处理单元(CPU，Central Processing Unit)1101、包括随机存取存储器(RAM，Random Access Memory)1102和只读存储器(ROM，Read Only Memory)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于人工智能的人脸识别方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的基于人工智能的人脸识别方法。

请参考图12，其示出了本申请一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备1200还可能被称为用户设备、便携式终端等其他名称。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)， GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中提供的基于人工智能的人脸识别方法。

在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。具体地，外围设备包括：射频电路1204、触摸显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1205还具有采集在触摸显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。触摸显示屏1205用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1205可以为一个，设置在计算机设备1200的前面板；在另一些实施例中，触摸显示屏1205可以为至少两个，分别设置在计算机设备1200的不同表面或呈折叠设计；在另一些实施例中，触摸显示屏1205可以是柔性显示屏，设置在计算机设备1200的弯曲表面上或折叠面上。甚至，触摸显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207用于提供用户和计算机设备1200之间的音频接口。音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位计算机设备1200的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1209用于为计算机设备1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211以检测以计算机设备1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211集的重力加速度信号，控制触摸显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测计算机设备1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211同采集用户对计算机设备1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在计算机设备1200的侧边框和/或触摸显示屏1205的下层。当压力传感器1213设置在计算机设备1200的侧边框时，可以检测用户对计算机设备1200的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1213设置在触摸显示屏1205的下层时，可以根据用户对触摸显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，以根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置在计算机设备1200的正面、背面或侧面。当计算机设备1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制触摸显示屏1205的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1205的显示亮度；当环境光强度较低时，调低触摸显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接近传感器1216，也称距离传感器，通常设置在计算机设备1200的正面。接近传感器1216用于采集用户与计算机设备1200的正面之间的距离。在一个实施例中，当接近传感器1216检测到用户与计算机设备1200的正面之间的距离逐渐变小时，由处理器1201控制触摸显示屏1205从亮屏状态切换为息屏状态；当接近传感器1216检测到用户与计算机设备1200的正面之间的距离逐渐变大时，由处理器1201控制触摸显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的基于人工智能的人脸识别方法。

Claims

一种基于人工智能的人脸识别方法，其特征在于，应用于计算机设备中，所述方法包括：

获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数；

调用第一活体检测部对所述n组视频帧中的所述彩色视频帧进行识别，所述第一活体检测部是交互式活体检测部；

调用第二活体检测部对所述n组视频帧中的所述深度视频帧进行识别，所述第二活体检测部是三维结构光式活体检测部；

响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸。
根据权利要求1所述的方法，其特征在于，所述调用第一活体检测部对所述n组视频帧中的所述彩色视频帧进行识别，包括：

调用所述第一活体检测部中的神经网络模型获取所述彩色视频帧上的五官特征点的位置；

调用所述第一活体检测部根据所述彩色视频帧上的五官特征点的距离，确定所述目标人脸是否完成目标动作。
根据权利要求2所述的方法，其特征在于，所述调用所述第一活体检测部根据所述彩色视频帧上的五官特征点的距离，确定所述目标人脸是否完成目标动作，包括：

调用所述第一活体检测部计算属于同一个五官部位的所述五官特征点的最大横向距离和最大纵向距离的比值，所述五官部位包括眼睛和嘴巴中的至少一种；

响应于所述比值达到预设条件，确定所述目标人脸完成所述目标动作。
根据权利要求3所述的方法，其特征在于，所述响应于所述比值达到预设条件，确定所述目标人脸完成所述目标动作，包括：

响应于所述五官部位为所述眼睛且所述比值达到第一距离阈值，确定所述目标人脸完成眨眼动作；

响应于所述五官部位为所述嘴巴且所述比值达到第二距离阈值，确定所述目标人脸完成张嘴动作。
根据权利要求4所述的方法，其特征在于，所述五官特征点包括眼睛特征点，所述眼睛特征点包括左眼角特征点、右眼角特征点、上眼皮特征点和下眼皮特征点；

所述响应于所述五官部位为所述眼睛且所述比值达到第一距离阈值，确定所述目标人脸完成眨眼动作，包括：

获取第一距离和第二距离，所述第一距离是所述左眼角特征点和所述右眼角特征点之间的距离，所述第二距离是所述上眼皮特征点和所述下眼皮特征点之间的距离；

计算所述第一距离与所述第二距离的距离比值；

计算所述目标人脸上的两只眼睛的所述距离比值的平均值；

响应于所述平均值大于所述第一距离阈值，确定所述目标人脸完成所述眨眼动作。
根据权利要求3所述的方法，其特征在，所述第一活体检测部还包括：第一分类器和第二分类器中的至少一种，所述响应于所述比值达到预设条件，确定所述目标人脸完成所述目标动作，包括：

响应于所述五官部位为所述眼睛且所述比值被所述第一分类器识别为第一类型，确定所述目标人脸完成眨眼动作；

响应于所述五官部位为所述嘴巴且所述比值被所述第二分类器识别为第二类型，确定所述目标人脸完成张嘴动作。
根据权利要求2至6任一所述的方法，其特征在于，所述神经网络模型通过如下方式训练得到：

获取训练样本集合，所述训练样本集合包括多组样本人脸图像和样本五官特征点；

调用所述第一活体检测部对所述样本人脸图像进行识别，得到样本人脸的预测五官特征点；

将所述样本人脸的样本五官特征点和所述预测五官特征点进行比较，计算误差损失；

通过误差反向传播算法根据所述误差损失对所述第一活体检测部进行训练，得到训练后的第一活体检测部。
根据权利要求1至6任一所述的方法，其特征在于，所述方法还包括：

调用人脸预处理部对所述n组视频帧中的所述彩色视频帧进行识别，所述人脸预处理部是具有人脸识别能力的机器学习部；

获取识别结果为具有人脸区域的m组视频帧，m≤n，且m为正整数；

将所述m组视频帧中的所述彩色视频帧发送至所述第一活体检测部，以及将所述m组视频帧中的所述深度视频帧发送至所述第二活体检测部。
根据权利要求1至6任一所述的方法，其特征在于，所述响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸，包括：

获取第一帧数和第二帧数，所述第一帧数是所述第一活体检测部识别出的含有目标动作的彩色视频帧的帧数，所述第二帧数是所述第二活体检测部识别出的符合所述活体人脸对应的深度信息的深度视频帧的帧数；

响应于所述第一帧数大于第一预设阈值且所述第二帧数大于第二预设阈值，确定所述目标人脸为活体目标人脸。
根据权利要求9所述的方法，其特征在于，所述方法还包括：

响应于所述视频帧的第一帧数小于第一预设阈值，确定所述目标人脸为非活体目标人脸，将所述n组视频帧筛除；

或，

响应于所述视频帧的第二帧数小于第二预设阈值，确定所述目标人脸为非活体目标人脸，将所述n组视频帧筛除。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

响应于所述m小于第三预设阈值，将所述n组视频帧筛除。
一种基于人工智能的人脸识别装置，其特征在于，所述装置包括：

获取模块，用于获取输入的n组视频帧，存在至少一组视频帧包括目标人脸的彩色视频帧和深度视频帧，n为正整数；

第一活体检测部，用于对所述n组视频帧中的所述彩色视频帧进行识别，所述第一活体检测部是交互式活体检测部；

第二活体检测部，用于对所述n组视频帧中的所述深度视频帧进行识别，所述第二活体检测部是三维结构光式活体检测部；

处理模块，用于响应于所述第一活体检测部和所述第二活体检测部的检测结果均为活体类型，确定所述目标人脸为活体目标人脸。
一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的基于人工智能的人脸识别方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现如权利要求1至11任一所述的基于人工智能的人脸识别方法。