WO2022246612A1

WO2022246612A1 - 活体检测方法、活体检测模型的训练方法及其装置和系统

Info

Publication number: WO2022246612A1
Application number: PCT/CN2021/095597
Authority: WO
Inventors: 赵亚西; 徐文康; 黄为; 王振阳; 科特瓦勒·科坦; 马塞尔·塞巴斯蒂安
Original assignee: 华为技术有限公司
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2022-12-01
Also published as: CN116057587A

Abstract

本申请提供一种活体检测方法、活体检测模型的训练方法及其装置，涉及人工智能领域。该活体检测方法包括：获取人脸图像，以及将该人脸图像输入到目标活体检测模型，得到活体检测结果，活体检测结果用于指示人脸图像中的人是否为活体，目标活体检测模型包括第一卷积神经网络，第一卷积神经网络包括第二卷积神经网络和全连接层，第二卷积神经网络用于根据人脸图像得到人脸的类别特征向量，全连接层用于根据类别特征向量进行活体判别，得到活体检测结果。该方案中，目标活体检测模型兼具有较高的提取人脸特征的能力和活体判别能力，从而能够有效提高活体检测结果的准确性。

Description

活体检测方法、活体检测模型的训练方法及其装置和系统

技术领域

本申请实施例涉及人工智能领域，并且更具体地，涉及一种活体检测方法、活体检测模型的训练方法及其装置和系统。

背景技术

随着人脸识别(face recognition，FR)技术的飞速发展，人脸识别系统已经在识别精度方面超越了人类水平，目前众多认证系统都是基于人脸识别的认证。但是人脸识别系统也容易受到一些非法用户的攻击，比如打印的照片、视频重播、或是使用面具来攻破人脸识别系统，为了应对上述问题，出现了活体检测技术。

现有的活体检测方法适用于开放场景，但这些方法很容易被非真实人脸的数据(例如一段预先录好的视频、二维面具、三维面具等)攻破。

因此，如何提高活体检测的准确性是亟待解决的技术问题。

发明内容

本申请实施例提供一种活体检测方法、活体检测模型的训练方法及其装置和系统，能够提高活体检测的准确性。

第一方面，提供一种活体检测方法，该方法包括：获取人脸图像，以及将该人脸图像输入到目标活体检测模型，得到活体检测结果，活体检测结果用于指示人脸图像中的人是否为活体，目标活体检测模型包括第一卷积神经网络，第一卷积神经网络包括第二卷积神经网络和全连接层，第二卷积神经网络用于根据人脸图像得到人脸的类别特征向量，全连接层用于根据类别特征向量进行活体判别，得到活体检测结果。

在本申请的技术方案中，用来进行活体检测的目标活体检测模型包括能够得到类别特征向量的神经网络和能够进行活体判别的全连接层，因此兼具有较高的提取人脸特征的能力和活体判别能力，从而能够有效提高活体检测结果的准确性。应理解的是，人脸特征提取的精度会直接影响到后续活体判别的准确性，本申请的技术方案则充分兼顾两种能力，使得活体检测的准确性有效提高。

人脸图像可以包括真实人脸图像和非真实人脸图像，可以是真实人脸和非真实人脸的图像、录像帧，也可以是真实人脸图像和非真实人脸图像的特征提取之后的特征向量。

非真实人脸分为二维(2 dimension，2D)类和三维(3 dimension，3D)类，2D类主要包括人脸的打印照片、平板等屏幕类的照片和视频回放，3D类主要包括3D面具和3D头模。

上述第一卷积神经网络(即下文的活体检测神经网络)包括第二卷积神经网络(即下文的基础神经网络)和全连接层两部分，第一卷积神经网络可以理解为是在第二卷积神经网络的基础上改造得到的。

第一卷积神经网络和第二卷积神经网络的训练数据集可以不相同，训练过程可以分阶段完成。结合第一方面，在第一方面的某些实现方式中，目标活体检测模型是利用第一训练数据更新第一卷积神经网络的参数得到的，第二卷积神经网络是利用第二训练数据预训练好的，第一训练数据包括真实人脸的数据和非真实人脸的数据，第二训练数据包括真实人脸的数据。

这样的实现方式可以进一步提高模型准确性，从而提高活体检测的准确性，同时还可以简化目标活体检测模型的训练过程和降低目标检测模型的训练成本。首先，第二卷积神经网络可以是利用公开的各类数据量丰富的真实人脸的数据集(即第二训练数据可以是公开的真实人脸的数据集中的数据)，这就使得第二卷积神经网络能够得到更加充分的训练，具有更加好的提取人脸特征的能力。当然也可以在其中掺入一些非真实人脸的数据，不影响整体效果。甚至还可以直接从已经公开的用于人脸识别的卷积神经网络中选取一个作为第二卷积神经网络。这就可以有效降低训练成本，也就是在对第一卷积神经网络进行训练(更新第一卷积神经网络的参数)的时候，对于训练数据和训练设备的要求都相对较低，因为不需要再对第二卷积神经网络的进行大量充足的训练。其次，第一训练数据(即用于提高活体判别能力的训练数据)不需要数量过多，即对于非真实人脸的数据需求量较小，且不需要非常多的训练次数就可以达到较好的效果，因为对第一卷积神经网络的训练阶段相当于对于参数进行微调的过程，使之具有活体判别能力。

结合第一方面，在第一方面的某些实现方式中，目标活体检测模型是利用第一训练数据更新第二卷积神经网络的浅层网络的参数和第二卷积神经网络的全连接层的参数和第一卷积神经网络的全连接层的参数得到的。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

结合第一方面，在第一方面的某些实现方式中，第一卷积神经网络的中间层(也是第二卷积神经网络的中间层)的参数保持不变。相当于在更新第一卷积神经网络的参数的过程中，冻结了中间层的参数，或者理解为不更新中间层的参数。这是利用了中间层具有域独立性的特点。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

结合第一方面，在第一方面的某些实现方式中，第二卷积神经网络为用于人脸识别的轻量级神经网络。这样可以进一步减少运算和存储压力。也就是采用结构简单、参数较少、需要存储空间较小的神经网络模型，这样利于部署在运算和存储能力有限的应用场景，例如车载场景。

结合第一方面，在第一方面的某些实现方式中，上述人脸图像包括多个光照场景下的图像。例如可以为以下光照场景：室外晴天、室外多云或阴天、室内光线昏暗、室内光线明亮。由于人脸在不同光照环境下的呈现也是不同的，而本申请的目标活体检测模型对于不同光照场景下的人脸图像都能够有良好的表现。这可以通过丰富目标检测模型的训练数据来得到，也就是，目标检测模型是经过这类不同光照场景下的训练数据的训练的，从而具备对不同光照场景下的人脸图像的检测能力。

结合第一方面，在第一方面的某些实现方式中，上述人脸图像是利用设置在车辆内的一个或多个摄像头拍摄得到的。对于一些简单的应用场景，获取的人脸图像足够清晰，受背景影响较小。但对于车辆这一特殊场景，不可避免会受到车内装饰、玻璃反光、密闭等的影响，而本申请的目标活体检测模型对于车内场景的人脸图像依然能够有良好的表现。这可以通过丰富目标检测模型的训练数据来得到，也就是，目标检测模型是经过这类车内场景下的训练数据的训练的，从而具备对车内场景下的人脸图像的检测能力。

结合第一方面，在第一方面的某些实现方式中，当摄像头的数量为多个时，多个摄像头设置在车辆的不同位置，用于得到不同角度和/或不同距离的人脸图像。本申请的目标活体检测模型对于不同角度和/或不同距离的人脸图像都能够有良好的表现。

这样的好处是，被检测的人不需要为了配合某个位置的摄像头而动作，依然可以完成活体检测的人脸图像采集。例如，如果只有控制面板处有摄像头，则驾驶位需要右转低头才能让该摄像头采集到人脸图像，交互过程不够友好，还可能对被检测人造成干扰。

此外，还可以通过在车内布局多个摄像头，实现整车所有人员都能够完成活体检测。

结合第一方面，在第一方面的某些实现方式中，上述摄像头为近红外摄像头。在本申请实施例中，人脸图像可以利用相机、摄像头等采集得到。常见的摄像头都可以用于获取人脸图像，例如RGB摄像头和近红外摄像头。其中，RGB摄像头受光线影响较大，且利用RGB获取的人脸图像需要先进行灰度处理，转换成灰度图，再对灰度图执行后续的活体检测。而近红外摄像头受光线影响较小，适用范围更广，且屏幕类的图像(包括屏幕上显示照片或播放的视频)无法在近红外摄像头上成像，因为屏幕类的图像无法在近红外摄像头的波长波段内成像，所以采用近红外摄像头，相当于可以过滤掉屏幕类的非真实人脸的图像。也就是说，近红外摄像头具有受光线干扰小、屏蔽屏幕类的非真实人脸的优点。所以如果采用了近红外摄像头，则自动过滤了屏幕类的攻击。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：发送人脸图像，人脸图像用于对目标活体检测模型进行训练。也就是说，把上述人脸图像用于目标检测模型的训练，即更新目标活体检测模型的参数。这样可以实现在线更新的目的，使得目标活体检测模型的准确性得到进一步提高。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：当活体检测结果指示人脸图像中的人为活体时，执行目标任务的决策，目标任务包括以下至少一项：解锁、账号登录、权限许可或确认支付。例如对于解锁任务来说，当活体检测结果为活体时，进一步判断该人是否具备解锁权限，如果具备解锁权限，就执行解锁，如果不具备则不解锁。

也就是说，在执行目标任务之前先进行是否为活体的判别，如果已经判定是非活体了就没有必要执行后面的任务决策了，提高了决策的安全性。当然也可以先执行决策任务的判定，再执行活体检测，也就是，先判断人脸图像中的人是否具备任务权限，当具备权限的情况下再进一步判断这个人脸图像是否是活体。

第二方面，提供一种活体检测模型的训练方法，该训练方法包括：获取第一训练数据，第一训练数据包括真实人脸的数据和非真实人脸的数据；根据第一训练数据，更新第一卷积神经网络的参数，得到目标活体检测模型，第一卷积神经网络包括第二卷积神经网络和全连接层，第二卷积神经网络用于根据训练数据得到人脸的类别特征向量，全连接层用于根据类别特征向量进行活体判别。

本申请的技术方案的训练方法具有训练相对简单，训练数据需求量相对较小，训练得到的模型准确性相对更高的优点。

首先，活体检测数据中真实人脸的数据相对较容易得到，且种类多样、数量充足，而例如2D/3D面具数据这类的非真实人脸的数据是较难获得的，且种类有限、数量很少，导致训练数据分布失衡(这不利于二分类的分类器的训练)和数量不足，也同样会导致现有的活体检测无法达到理想的准确性。其次，如上文所述现有技术的活体检测只注重活体判别的能力却忽视了人脸识别的能力(即人脸特征的提取能力)，而事实上人脸特征提取的精度会直接影响到后续活体判别的准确性，所以现有技术无法达到较高的活体检测的准确性，而本申请实施例的方案则充分兼顾两种能力，使得活体检测的准确性有效提高。

此外，由于在训练阶段，训练模型的设备(简称训练设备)需要存储大量的训练数据、模型参数，以及进行训练过程运算；而在执行阶段，部署模型的设备(即利用模型来执行活体检测任务的设备，可以称之为推理设备)需要存储该模型、处理数据及其中间数据，以及进行推理过程的运算，所以，两种设备都需要足够的运算能力和存储能力。而现有技术中的活体检测模型的规模较大、训练复杂、运算量大，对于训练设备的存储和运算能力以及推理设备的存储和执行能力都有较高的要求，导致并不适用于运算能力和/或存储能力较弱的场景，例如车载场景中，车载设备是很难承担复杂运算和大模型存储的，所以导致现有技术的活体检测模型并不适用与车载场景。

结合第二方面，在第二方面的某些实现方式中，第二卷积神经网络是利用第二训练数据预训练好的，第二训练数据包括真实人脸的数据。能够进一步提高模型准确性，从而提高活体检测的准确性，同时还可以简化目标活体检测模型的训练过程和降低目标检测模型的训练成本。

结合第二方面，在第二方面的某些实现方式中，在更新第一卷积神经网络的参数时，更新第一卷积神经网络的浅层网络的参数和第一卷积神经网络的全连接层的参数。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

结合第二方面，在第二方面的某些实现方式中，第一卷积神经网络的中间层(也是第二卷积神经网络的中间层)的参数保持不变。相当于在更新第一卷积神经网络的参数的过程中，冻结了中间层的参数，或者理解为不更新中间层的参数。这是利用了中间层具有域独立性的特点。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

结合第二方面，在第二方面的某些实现方式中，第二卷积神经网络为用于人脸识别的轻量级神经网络。这样可以进一步减少运算和存储压力。也就是采用结构简单、参数较少、需要存储空间较小的神经网络模型，这样利于部署在运算和存储能力有限的应用场景，例如车载场景。

结合第二方面，在第二方面的某些实现方式中，第一训练数据包括多个光照场景下的数据。例如可以为以下光照场景：室外晴天、室外多云或阴天、室内光线昏暗、室内光线明亮。这样可以提高训练数据的丰富性，从而提高训练效果，使得训练出能够适用于更多复杂光照场景的活体检测模型。

结合第二方面，在第二方面的某些实现方式中，第一训练数据是利用设置在车辆内的一个或多个摄像头拍摄得到的。这样训练出来的活体检测模型在车内场景中可以具有良好的表现。

结合第二方面，在第二方面的某些实现方式中，当上述摄像头的数量为多个时，多个摄像头设置在车辆的不同位置，用于得到不同角度和/或不同距离的第一训练数据。这样可以提高训练数据的丰富性，从而提高训练效果，使得训练出能够适用于更多复杂光照场景的活体检测模型。

结合第二方面，在第二方面的某些实现方式中，上述摄像头为近红外摄像头。这样可以适用于不需要屏幕类作为训练数据的场景，也就是省去了屏幕类的非真实人脸的数据的采集和训练。也就是说，如果是使用近红外摄像头的应用场景，目标检测模型不需要具备对屏幕类的非真实人脸的数据的检测能力，此时只需要利用其他训练数据训练得到目标检测模型即可，可以省去屏幕类数据的采集、处理和训练，从而有效降低训练成本。

第三方面，提供一种活体检测装置，该装置包括用于执行上述第一方面的任意一种实现方式的方法的单元。

第四方面，提供一种活体检测模型的训练装置，该训练装置包括用于执行上述第二方面的任意一种实现方式的训练方法的单元。

第五方面，提供一种活体检测装置，该装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面中的任意一种实现方式中的方法。该装置可以设置在车载终端、智慧屏、门禁系统等各类需要进行活体检测的设备或系统中。该装置还可以为芯片。

第六方面，提供一种活体检测模型的训练装置，该训练装置包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第二方面中的任意一种实现方式中的训练方法。该训练装置可以为主机、电脑、服务器、云端设备等能够进行模型训练的设备。该训练装置还可以为芯片。

第七方面，提供一种计算机可读介质，该计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行第一方面或第二方面中的任意一种实现方式中的方法。

第八方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面或第二方面中的任意一种实现方式中的方法。

第九方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行上述第一方面或第二方面中的任意一种实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面中的任意一种实现方式中的方法。

附图说明

图1是本申请实施例一种人工智能主体框架示意图。

图2是活体检测方案的应用场景的示意图。

图3是本申请实施例的一种系统架构示意图。

图4是卷积神经网络的结构示意图。

图5是卷积神经网络的结构示意图。

图6是本申请实施例的一种芯片的硬件结构示意图。

图7是本申请实施例的基础神经网络的一个示意性结构图。

图8是本申请实施例的活体检测神经网络的示意性结构图。

图9是本申请实施例的活体检测方法的示意性流程图。

图10是本申请实施例的一种车内摄像头的布局示意图。

图11是本申请实施例的另一种车内摄像头的布局示意图。

图12是本申请实施例的活体检测模型的训练方法的示意性流程图。

图13是本申请实施例的活体检测装置的示意性框图。

图14是本申请实施例提供的活体检测装置的硬件结构示意图。

图15是本申请实施例的活体检测网络的训练装置的示意性框图。

图16是本申请实施例提供的活体检测网络的训练装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

本申请实施例涉及神经网络，为了更好地理解本申请实施例的方法，下面先对神经网络的相关术语和概念进行介绍。

(1)神经网络(neural network，NN)

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出例如可以如公式(1)所示：

其中，s＝1、2、……n，n为大于1的自然数，代表神经网络的层数，W _s为x _s的权重，又可以称为神经网络的参数或系数，x _s为神经网络的输入，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，该激活函数用于对神经网络中的特征进行非线性变换，从而将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络(deep neural network，DNN)

深度神经网络，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的每个神经元与第i+1层的神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重，也可以称为系数或参数；该权重可以是权重矩阵的形式，α()是激活函数。每一层仅仅是对输入向量

经过简单的操作得到输出向量

由于DNN层数多，权重W和偏移向量

的数量也比较多。权重在DNN中每一层(为了方便描述，称为系数)的含义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

输入层是没有权重W的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，权重越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重的过程，其最终目的是得到训练好的深度神经网络的所有层的权重(例如，包括多层的系数W形成的权重矩阵)。

(3)卷积神经网络(convolutional neuron network，CNN)

卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)分类器

在本申请实施例中，在预训练好的基础神经网络(即第二卷积神经网络)的基础上，在其最后一层全连接层(fully connected layer)，通常为输出层，之后增加一层全连接层，构成二分类的分类器，用于区分图像中的人脸是真人还是非真人，即判别该图像是否为活体图像。该分类器，用于对图像中的物体进行分类。分类器可以包括全连接层和softmax函数(可以称为归一化指数函数)，能够根据输入而输出不同类别的概率。

(5)损失函数(loss function)

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置权重)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播(back propagation，BP)

神经网络可以采用误差反向传播算法在训练过程中修正初始的神经网络模型中权重的数值，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中权重，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的权重，例如权重矩阵。

在传统方案中，活体检测模型往往是利用活体检测数据(包括真实人脸的数据和非真实人脸的数据)来训练得到，但传统方案只把重点放在了区分是否为活体上，而忽视了对于人脸识别能力的提升，所以该活体检测模型提取人脸特征的能力是较差的，在这种较差的人脸特征提取能力基础上进行活体判别很难达到较高的准确性。

针对上述问题，本申请实施例提出一种活体检测方案，在该方案中，用来进行活体检测的目标活体检测模型包括能够得到类别特征向量的神经网络和能够进行活体判别的全连接层，因此兼具有较高的提取人脸特征的能力和活体判别能力，从而能够有效提高活体检测结果的准确性。

本申请实施例的方案能够应用于屏幕解锁、设备解锁、账号登录、权限许可(例如访问许可)、安全支付等各类活体检测的使用场景。

图1是本申请实施例一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“信息技术(information technology，IT)价值链”(垂直轴)两个维度对上述人工智能主题框架进行详细的阐述。

“智能信息链”反映从数据的获取到处理的一系列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。

基础设施可以通过传感器与外部沟通，基础设施的计算能力可以由智能芯片提供。

这里的智能芯片可以是中央处理器(central processing unit，CPU)、神经网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、专门应用的集成电路(application specific integrated circuit，ASIC)或现场可编程门阵列(field programmable gate array，FPGA)等硬件加速芯片。

基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。

例如，对于基础设施来说，可以通过传感器和外部沟通获取数据，然后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据：

基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本等信息的至少一种。该数据在不同应用领域不同，且可以有不同的表现形式。例如，涉及到物联网领域时，该数据的内容与具体的物联网连接终端有关，例如可以包括力、位移、液位、温度、或湿度等感知数据。

在本申请实施例中该数据例如为活体数据，活体数据包括真实人脸的数据和非真实人脸的数据，这些数据可以是图像、或图形的形式，也可以是特征向量或矩阵的形式。

(3)数据处理：

上述数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等处理方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力：

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用：

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，或智能终端等。

本申请实施例可以应用在人工智能中的很多领域，例如，智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，或平安城市等领域，具体而言，应用在这些人工智能领域中的需要活体检测的分支部分。例如在智能安防领域，只有活体检测确认是真实的人了才进一步允许有访问权限的人进行访问，这样就能避免有人利用指纹手套、假面具等各类工具攻入安防系统。又例如，在自动驾驶领域，只有活体检测确认是真实的人才进一步允许有使用权限的人登录和启用车载设备，这样就能避免有人利用各类非真实人脸的手段窃取或使用车辆。

下面对解锁和权限许可这两种应用场景进行简单的介绍。

应用场景一、解锁

在解锁场景中，可以将输入的人脸图像分为两个类别(活体、非活体)中的一种，即判别该人脸图像中的人是否是真实的人(即类别为活体)，当类别为活体时允许解锁，否则不允许解锁，如图2所示。也就是说，当把一些人脸图像输入到活体检测模型的时候就可以将输入图像分类到上述两个类中的一个类别(即得到检测结果为活体或非活体)，然后解锁决策模块判定是否允许解锁。上述解锁可以是屏幕解锁、门禁解锁、设备解锁、或车辆解锁等等。如图2中的人脸图像示出了A、B、C、D四个，其中A和B为真实人脸的图像；C是2D打印照片的图像，是非真实人脸的图像；D是3D头模的图像，也是非真实人脸的图像。当将这四个图像分别输入到活体检测模型，就可以得到相应的检测结果，其中，A、B检测结果为活体，C、D检测结果为非活体，这些检测结果输入到解锁决策模块。对于A、B，解锁决策模块进一步判定是否具备解锁权限，如果具备解锁权限就进行解锁，如果不具备解锁权限就不解锁。而对于C、D则解锁决策模块直接判定不具备解锁权限，不解锁。也就是说，图2是利用活体检测环节来提高了解锁任务的安全性，有效防止有人通过具有解锁权限的人的非真实人脸的数据来盗用解锁权限。

应用场景二、权限许可

在权限场景中，可以判定是否开通权限，可以直接将图2中的解锁决策模块替换为权限决策模块，也就是说，在判断得到人脸图像中的人是否为活体(即人脸图像中的人是否为真实的人)之后，就可以利用权限决策模块决定是否给予权限许可。是利用活体检测环节来提高了权限许可任务的安全性，有效防止有人通过具有权限许可的人的非真实人脸的数据来骗取许可。例如，针对于车内支付场景，当用户发起了支付请求，车机可以通过摄像头采集用户的人脸区域图像，进行活体检测和人脸检测，以确定当前用户是否具有支付权限。

图3是本申请实施例的一种系统架构示意图，可以用于训练神经网络模型，例如人脸识别模型、活体检测模型。如图3所示，数据采集设备160用于采集训练数据。针对本申请实施例的方法来说，训练数据可以包括训练图像以及训练图像对应的分类结果，其中，训练图像的结果可以是人工预先标注的结果。对于第一卷积神经网络的训练来说，该训练图像包括真实人脸的图像和非真实人脸的图像。对于第二卷积神经网络的训练来说，训练图像则包括真实人脸的图像。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。“A/B”描述关联对象的关联关系，表示可以存在三种关系，例如，A/B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述。一种情况下，训练设备120对输入的原始图像进行处理，将输出的图像与原始图像进行对比，直到训练设备120输出的图像与原始图像的差值小于一定的阈值，从而完成目标模型/规则101的训练。这种情况下，可以训练得到本申请实施例的人脸识别模型，也就是得到训练好的基础神经网络(即第二卷积神经网络)，以便于后续继续利用基础神经网络进一步训练得到活体检测模型。另一种情况下，训练设备120对输入的人脸图像的类别特征向量进行处理，将输出的类别与标签类别进行对比，直到训练设备120输出的类别的准确率大于或等于一定的阈值，从而完成目标模型/规则101的训练。这种情况下，可以训练得到本申请实施例的活体检测模型，也就是在上述基础神经网络的基础上进一步训练得到活体检测模型。

上述目标模型/规则101能够用于实现本申请实施例的方法。本申请实施例中的目标模型/规则101具体可以为神经网络。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图3所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图3中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的人脸图像。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如人脸图像)进行预处理，在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图3中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据可以预先获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、或动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图3仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图3中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图3所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101可以是利用本申请实施例的方法得到的神经网络，具体的，本申请实施例的神经网络可以是能够用于活体检测的CNN，或深度卷积神经网络(deep convolutional neural networks，DCNN)等等。

由于CNN是一种非常常见的神经网络，且是本申请实施例重点关注的神经网络，下面结合图4重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

在一种实现中，本申请实施例的活体检测方法中的基础神经网络具体采用的神经网络的结构可以如图4所示。

图4是卷积神经网络的结构示意图。在图4中，卷积神经网络(CNN)200可以包括输入层210，层220(层220可以包括卷积层和池化层，或者，层220可以包括卷积层而不包括池化层)，以及全连接层230。其中，输入层210可以获取待处理人脸图像，并将获取到的待处理人脸图像交由层220以及后面的全连接层230进行处理，可以得到图像的处理结果。下面对图4中的CNN 200中内部的层结构进行详细的介绍。

层220：

卷积层：

以图4为例，如图4所示层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。这里对卷积层和池化层的数量和位置仅为举例，可以有更多或更少的卷积层和池化层，且也可以不包括池化层。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个尺寸”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同，再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后可以周期性的引入池化层，在如图4中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的目的是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

全连接层(fully connected)230：

在经过层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200进一步利用全连接层230来生成一个或者一组所需要的类的数量的输出。因此，在全连接层230中可以包括多层隐含层(如图4所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在全连接层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图4由210至240方向的传播为前向传播)完成，反向传播(如图4由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

本申请实施例的活体检测方法中的基础神经网络具体采用的神经网络的结构可以如图5所示。在图5中，卷积神经网络(CNN)300可以包括输入层310，层320(层320可以包括卷积层和池化层，其中池化层为可选的)，以及全连接层330。与图4相比，图5中的层320中的多个卷积层或池化层并行，将分别提取的特征均输入给全连接层330进行处理。

需要说明的是，图4和图5所示的卷积神经网络仅作为一种本申请实施例的活体检测方法的基础神经网络的两种可能的卷积神经网络的示例，在具体的应用中，本申请实施例的活体检测方法的基础神经网络所采用的卷积神经网络还可以以其他网络模型的形式存在。

需要说明的是，在本申请实施例中，活体检测模型可以是CNN(经过训练之后的第一卷积神经网络)，该CNN只是在能够用于人脸识别的基础神经网络(基础神经网络也是CNN结构)的基础上，增加一层或多层用于二分类的全连接层，所以，可以看作是在图4或图5所示结构的基础上，在输出层之后增加一层或多层二分类全连接层。所以图4和图5的输出层输出的待处理人脸图像的处理结果可以称之为类别特征向量，即能够用于分类的人脸的特征向量。

还应理解，经过上述在基础神经网络的基础上得到的用于活体检测的活体检测神经网络(即第一卷积神经网络)依然是CNN结构，所以，本申请实施例的活体检测模型(用于活体检测的CNN)同样可以用图4和图5所示架构表示，只是此时，待处理人脸图像的处理结果是是否为活体的分类结果。

图6是本申请实施例的一种芯片的硬件结构示意图。该芯片包括神经网络处理器(图示NPU600)。该芯片可以被设置在如图3所示的执行设备110中，用以完成计算模块111 的计算工作。该芯片也可以被设置在如图3所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图4、图5所示的卷积神经网络中各层的算法均可在如图6所示的芯片中得以实现。

NPU600作为协处理器挂载到主中央处理器(central processing unit，CPU)(host CPU)上，由主CPU分配任务。NPU的核心部分为运算电路60，控制器604控制运算电路603提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路603内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路603是二维脉动阵列。运算电路603还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路603是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器602中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器601中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)608中。

向量计算单元607可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元607可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元能607将经处理的输出的向量存储到统一缓存器606。例如，向量计算单元607可以将非线性函数应用到运算电路603的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元607生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路603的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器606用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器605(direct memory access controller，DMAC)将外部存储器中的输入数据搬运到输入存储器601和/或统一存储器606、将外部存储器中的权重数据存入权重存储器602，以及将统一存储器606中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)610，用于通过总线实现主CPU、DMAC和取指存储器609之间进行交互。

与控制器604连接的取指存储器(instruction fetch buffer)609，用于存储控制器604使用的指令；

控制器604，用于调用指存储器609中缓存的指令，实现控制该运算加速器的工作过程。

入口：可以根据实际说明这里的数据是说明数据，比如拍摄到人脸图像等。

可选地，统一存储器606，输入存储器601，权重存储器602以及取指存储器609均为片上(on-chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图4和图5所示的卷积神经网络中各层的运算可以由运算电路603或向量计算单元607执行。

上文中介绍的图3中的执行设备110能够执行本申请实施例的活体检测方法或活体检测模型的训练方法的各个步骤，图4和图5所示的CNN模型和图6所示的芯片也可以用于执行本申请实施例的活体检测方法的各个步骤。

在本申请实施例中，活体检测模型可以是在一个基础神经网络的基础上进一步得到，下面结合图7和图8分别介绍一下两个神经网络。

图7是本申请实施例的基础神经网络的一个示意性结构图。

可选地，基础神经网络(即第二卷积神经网络)可以是已有的用于人脸识别的神经网络，也可以利用训练库来训练得到一个能够用于人脸识别的基础神经网络。由于该基础神经网络是用于人脸识别而不是活体检测，所以可以采用大量的真实人脸的数据来进行训练，可选地，也可以利用非真实人脸的数据来训练。

在一些实现方式中，为了进一步减少运算和存储压力，基础神经网络可以为轻量级神经网络，也就是结构简单、参数较少、需要存储空间较小的神经网络。例如，基础神经网络可以为现有的轻量级卷积神经网络(LightCNN)的人脸识别(face recognition)模型(也可以称之为人脸识别神经网络)，例如可以采用9层版本的LightCNN FR模型(以下称之为LightCNN-9)。该LightCNN-9是准确率很高的公开的FR CNN之一，LightCNN-9与其他FR CNN相比，使用更小的参数集就可以具有非常优秀的性能。对于目前的活体检测来说，这样的小网络规模特别适用于车辆等各类运算和存储能力有限的场景。

应理解，上述LightCNN-9只是一个用于人脸识别的轻量级卷积神经网络的一个示例，还可以采用其他LightCNN，例如LightCNN-4、LightCNN-29等。如上文所述，只要是用于人脸识别的神经网络都可以用于本申请的方案，例如还可以采用DeepFace、Webface、FaceNet、或可视几何组(visual geometry group，VGG)网络等各类神经网络，为了简洁不再一一列举。

图7示出了的LightCNN-9卷积层(conv1)、最大特征映射(max-feature-map，MFM)层(MFM1)、池化层(pool1-pool4)、卷积层的组合层(group2-group5)和全连接层(MFM_fc1)。如图7所示，将128x128的输入图像输入到LightCNN-9中，输出层(此处为全连接层MFM_fc1作为输出层)就可以输出256维的特征向量(也可以是128维等其它维数的特征向量)。这些256维的特征向量是一些鉴别性的特征的向量，可以区分开不同人脸的一些特征，例如鼻子的形状位置、眼睛的形状位置等等的特征，称之为类别特征向量。该LightCNN-9可以利用已有的数据量庞大的数据集来训练得到，训练时还可以将数据集中的图片进行随机翻转、随机裁剪等增强后，转换为灰度图再来进行训练，训练时可以采用arcface、cosineface、或sphereface等人脸识别领域常用的损失函数来进行训练，本申请对此不做限定。

需要说明的是，上述输入图像的尺寸和输出的特征向量的维度是由LightCNN-9决定的，如果采用其他的轻量级神经网络，则也可能是其他的输入图像尺寸和输出维度，不存在限定。

在基础神经网络的基础上可以得到图8所示的活体检测神经网络。图8是本申请实施例的活体检测神经网络的示意性结构图。在本申请实施例中活体检测神经网络也称之为活体检测模型，对其进行训练(即更新其参数)之后就可以得到目标活体检测模型。但应理解，图8中的基础神经网络可以是用于人脸识别的任意神经网络，并不是指局限于图7所示的神经网络，只是为了便于理解方案，采用了与图7所示的相同结构，而在实际中，不存在对于基础神经网络的结构限定，只要是用于人脸识别的CNN均可。

此外，神经网络的参数又可以称为系数或权重，其可以为矩阵的形式。

活体检测神经网络(即第一卷积神经网络)是用于进行活体检测的，经过训练后的活体检测神经网络可以作为目标活体检测模型，用于活体检测。如图8所示，该活体检测神经网络可以划分为三个部分：浅层部分、中间层部分和全连接层部分，其中浅层可以为神经网络较浅的层，但具体前几层作为浅层部分并不存在限定。而中间层则可以理解为除浅层以外的所有非全连接层的层。图8中的全连接层部分包括基础神经网络的全连接层和增加的全连接层，为了便于区分，在图8中分别以FC1和FC2表示基础神经网络的全连接层和新的、不是基础神经网络的组成部分的全连接层。新的全连接层可以是一层也可以是多层。

图8可以理解为是在基础神经网络的最后一层(即作为输出层的全连接层)之后，增加了一层或多层用于二分类的全连接层。该增加的全连接层，用于进行活体判别，也就是判断是否为活体(即判断是真实的人还是非真实的人)。图8所示的活体检测神经网络的输出为检测结果，该检测结果可以理解为对于是否为活体的判定结果，或者可以理解为将输入图像分到两个类别中的一个：“活体”、“非活体”。

研究表明，CNN浅层学习到的信息特定于任务和数据集，因此，可以将CNN中这种浅层的、用于特定领域的特征命名为领域特定单元(domain specific units，DSU)，DSU及可以对应于图8所示的浅层部分。CNN中比浅层更高的层(对应于图8中的中间层部分)，即中间层的特征则可以在不同的成像域之间共享，学习到的特征是域独立的，在不同任务和数据集中具有较为鲁棒的表现，也就是说，中间层可以在不同的数据集之间参数共享。全连接层则高度特定于任务和数据集。图8在基础神经网络上增加了一个基于回归的分类器(即FC2)，该分类器特定于二分类任务，即活体检测任务。

假设图8的基础神经网络是图7所示LightCNN-9，则浅层部分可以包括LightCNN-9的包括group2及其之前的层，中间层部分可以包括pool2至pool4层，全连接层可以包括MFM_fc1(MFM_fc1即为投入8所示FC1)和FC2层。FC2层将MFM_fc1输出的256维特征向量作为输入，输出是否为活体的二分类结果。可以这样理解，新增的FC2，通过学习具有丰富的人脸的鉴别性特征的256维类别特征向量，来区分图像中的人是否为活体。

在对一活体检测神经网络进行训练时，可以利用二分类交叉熵(binary cross entropy，BCE)损失函数来进行训练，BCE损失函数可以用式子L _BCE＝-(ylog(p)+(1-y)log(p))表示，其中，L _BCE表示该损失函数的值，y表示是否为活体，取值为1或0，p表示真实人脸的预测概率。

在训练过程中，可以采用随机梯度下降(stochastic gradient descent，SGD)的方法，可以设定学习率learning rate＝1e-2，权值衰减weight decay＝1e-4，动量momentum＝0.90。

如上文分析所述，中间层具有域独立性，即可以在不同数据集共享，所以可以基于此来进一步降低训练的运算量。可以冻结中间层的参数(权重)，冻结也可以理解为保持、不更新、不训练，在训练的时候，只更新浅层网络和全连接层的参数，而中间层的参数保持不变。则在不降低训练效果的前提下，大大减少训练过程的运算量。相当于在对图8所示活体检测神经网络进行训练时，可以更新浅层部分和全连接层部分的参数，而中间层的参数则保持不变。

应理解，所谓的保持不变，是说基础神经网络是已经训练好的，所以沿用了基础神经网络的中间层的参数，并不是说中间层的参数从来没被训练过。换而言之，中间层的参数是在基础神经网络的训练阶段(为了便于理解，可以称之为第一个训练阶段)得到的，而在活体检测神经网络的训练阶段(为了便于理解，可以称之为第二个训练阶段)，中间层的参数保持不变(即冻结)，就是说，第二个训练阶段只更新活体检测神经网络的浅层和全连接层的参数。

还应理解，基础神经网络同样可以划分为浅层部分、中间层部分、全连接层部分，浅层为基础神经网络的前几层，但具体前几层不存在限定，中间层则是处浅层之外的所有非全连接层。基础神经网络的中间层和活体检测神经网络的中间层是同一部分，基础神经网络的浅层和活体检测神经网络的浅层也是同一部分，基础神经网络的全连接层和活体检测神经网络的全连接层则不同，因为活体检测神经网络的全连接层包括增加的用于二分类的全连接层(如图8的FC2)，不包括基础神经网络的全连接层(如图8的FC1)。

图9是本申请实施例的活体检测方法的示意性流程图，下面对图9的各个步骤进行介绍。该活体检测方法可以利用部署了活体检测模型的装置或系统执行，例如可以是移动终端、车载终端、电脑、智慧屏、或智能控制系统等等。

901、获取人脸图像。

非真实人脸分为2D类和3D类之一或全部，2D类主要包括人脸的打印照片、平板等屏幕类的照片和视频回放等，3D类主要包括3D面具和3D头模等。

人脸图像可以是利用活体检测装置的获取单元获取，该获取单元可以是图像采集设备、通信接口、接口电路等。当该获取单元为图像采集设备时，相当于活体检测装置中集成了图像采集设备，例如，具有摄像头的智能手机就可以看作是一个活体检测装置，则获取单元可以是智能手机的摄像头，当该智能手机执行本申请实施例的活体检测方法时，摄像头获取上述人脸图像，并将上述人脸图像传输给手机处理器，手机处理器再执行后续的步骤。当该获取单元为通信接口或接口电路等具有收发功能的设备时，相当于是通过获取单元从外部的图像采集设备处获取人脸图像。具体采用的连接方式和通信方式可以是电路连接、有线通信、无线通信等任意方式，不存在限定。例如对于车载场景，车辆的控制系统就可以用于执行本申请实施例的活体检测方法，则当执行活体检测方法时，就可以是图像采集设备采集人脸图像，并将采集到的人脸图像发送/传输给控制系统，控制系统中的获取单元执行步骤901，获取人脸图像。

图像采集设备可以包括相机、摄像头等。

常见的摄像头都可以用于获取人脸图像，例如RGB摄像头和近红外(near infra-red，NIR)摄像头。RGB摄像头受光线影响较大，且利用RGB获取的人脸图像需要先进行灰度处理，转换成灰度图，再对灰度图执行后续的活体检测。而近红外摄像头受光线影响较小，适用范围更广，且屏幕类的图像(包括屏幕上显示照片或播放的视频)无法在近红外摄像头上成像，因为屏幕类的图像无法在近红外摄像头的波长波段内成像，所以采用近红外摄像头，相当于可以过滤掉屏幕类的非真实人脸的图像。也就是说，近红外摄像头具有受光线干扰小、屏蔽屏幕类的非真实人脸的优点。

由于人脸在不同光照环境下的呈现也是不同的，而本申请的目标活体检测模型对于不同光照场景下的人脸图像都能够有良好的表现，也就是说，人脸图像可以包括多个光照场景下的图像。例如可以为以下光照场景：室外晴天、室外多云或阴天、室内光线昏暗、室内光线明亮。

对于一些简单的应用场景，获取的人脸图像足够清晰，受背景影响较小。但对于车辆这一特殊场景，不可避免会受到车内装饰、玻璃反光、密闭等的影响，而本申请的目标活体检测模型对于车内场景的人脸图像依然能够有良好的表现。

对于车辆场景，可以在车辆内设置的一个或多个摄像头来拍摄得到上述人脸图像。

此外，人脸图像也会随着摄像头的位置和角度不同而不同，而本申请的目标活体检测模型对于不同角度和/或不同距离的人脸图像都能够有良好的表现，也就是说，人脸图像可以包括不同角度和/或不同距离的图像。例如，可以在车辆前车窗的两侧分别布置一个摄像头，在仪表位置布局一个摄像头，这些摄像头都可以拍摄到驾驶位的人脸图像。图10是本申请实施例的一种车内摄像头的布局示意图。图10主要介绍的是对驾驶位的拍摄，如图10所示，可以在左前方A、右前方B、方向盘处C、控制面板处D等中的任意多个位置设置朝向驾驶位的摄像头，这样就可以拍摄到驾驶位的不同距离、不同角度的图像。可以看出，图10中的A处摄像头的形状和其他三处摄像头不同，这是为了示出可以同时采用不同种类的摄像头进行布局。但应理解，图10只是一个示例，在实际中可以有很多种布局方式。这样的好处是，驾驶位的人不需要为了配合某个位置的摄像头而动作，即使在专注于驾驶的过程中依然可以完成活体检测的人脸图像采集。例如，如果只有控制面板D处有摄像头，则驾驶位需要右转低头才能让该摄像头采集到人脸图像，交互过程不够友好，还可能对驾驶员造成干扰。但应理解，图10的目的是为了解释对于同一位置可以用多个摄像头来获取人脸图像，但该位置并不只局限于驾驶位，还可以是副驾驶位、后乘坐位等。

可选地，还可以通过在车内布局多个摄像头，实现整车所有人员都能够完成活体检测。图11是本申请实施例的另一种车内摄像头的布局示意图。如图11所示，可以分别在驾驶位前的A处、副驾驶位前的B处、驾驶位座椅后的C处、副驾驶位座椅后的D处设置摄像头，其中A处摄像头用于拍摄驾驶位的人脸图像，B处摄像头用于拍摄副驾驶位的人脸图像，C处摄像头用于拍左后位的人脸图像，D处摄像头用于拍摄右后位的人脸图像。这样就可以实现整车任意位置的人员的活体检测。

图11中的(a)是车辆座舱的俯视图，图11中的(b)是车内的后视图，在图11中的(a)和(b)中分别标注了在不同视图中摄像头的布局情况。

本申请中的摄像头可以是独立的摄像头，也可以是具有拍摄功能的设备的摄像头，例如图11中的(b)中，C和D就是设置在前排座椅上的显示设备的摄像头。

应理解，图11同样只是一个摄像头布局方式的示例，实际中还可以按照需求社指出很多种布局方式，不再一一列举。

为了便于理解，结合一个图11的摄像头的布局方式的实际应用场景介绍。假设在车辆上副驾驶位的人员正在通过车载智能系统购物，在需要支付的时候，副驾驶位发现没有支付权限，而左后位的人员是有支付权限的，此时启动C处摄像头拍摄左后位的人脸图像，就可以完成活体检测，进而在通过活体检测的前提下支付成功。假设在这个场景下，副驾驶位的人员戴上左后位的人员的3D面具，则是B处摄像头采集副驾驶位的人脸图像，但在活体检测的时候，副驾驶位的人脸图像被判定为非活体，就无法支付成功。

902、将人脸图像输入到目标活体检测模型，得到活体检测结果，活体检测结果用于指示人脸图像中的人是否为活体。

该目标活体检测模型包括第一卷积神经网络，第一卷积神经网络包括第二卷积神经网络和全连接层，第二卷积神经网络用于根据人脸图像得到人脸的类别特征向量，全连接层用于根据类别特征向量进行活体判别，得到活体检测结果。

上述第一卷积神经网络(即上文的活体检测神经网络)包括第二卷积神经网络(即上文的基础神经网络)和全连接层两部分，第一卷积神经网络(即上文的活体检测神经网络)可以理解为是在第二卷积神经网络(即上文的基础神经网络)的基础上改造得到的。第一卷积神经网络和第二卷积神经网络的解释可以参照上文活体检测神经网络和基础神经网络的介绍，上述类别特征向量可以参照上文鉴别性特征的向量的解释，为了简洁，不再重复。

第一卷积神经网络和第二卷积神经网络的训练数据集可以不相同，训练过程可以分阶段完成。

在一些实现方式中，上述目标活体检测模型是利用第一训练数据更新第一卷积神经网络的参数得到的，第二卷积神经网络是利用第二训练数据预训练好的，第一训练数据包括真实人脸的数据和非真实人脸的数据，第二训练数据包括真实人脸的数据。这样的实现方式可以进一步提高模型准确性，从而提高活体检测的准确性，同时还可以简化目标活体检测模型的训练过程和降低目标检测模型的训练成本。首先，第二卷积神经网络可以是利用公开的各类数据量丰富的真实人脸的数据集(即第二训练数据可以是公开的真实人脸的数据集中的数据)，这就使得第二卷积神经网络能够得到更加充分的训练，具有更加好的提取人脸特征的能力。当然也可以在其中掺入一些非真实人脸的数据，不影响整体效果。甚至还可以直接从已经公开的用于人脸识别的CNN中选取一个作为第二卷积神经网络，例如上文的LightCNN-9。这就可以有效降低训练成本，也就是在对第一卷积神经网络进行训练(更新第一卷积神经网络的参数)的时候，对于训练数据和训练设备的要求都相对较低，因为不需要再对第二卷积神经网络的进行大量充足的训练。其次，第一训练数据(即用于提高活体判别能力的训练数据)不需要数量过多，即对于非真实人脸的数据需求量较小，且不需要非常多的训练次数就可以达到较好的效果，因为对第一卷积神经网络的训练阶段相当于对于参数进行微调的过程，使之具有活体判别能力。

在一些实现方式中，可以只更新第一卷积神经网络的浅层网络的参数和第一卷积神经网络的全连接层的参数。也就是说，目标活体检测模型可以是利用第一训练数据更新第二卷积神经网络的浅层网络的参数和第二卷积神经网络的全连接层的参数和第一卷积神经网络的全连接层的参数得到的。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

在一些实现方式中，第一卷积神经网络的中间层(也是第二卷积神经网络的中间层)的参数可以保持不变。相当于在更新第一卷积神经网络的参数的过程中，冻结了中间层的参数，或者理解为不更新中间层的参数。这是利用了中间层具有域独立性的特点，具体内容可以参照上文相关内容。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本。

在一些实现方式中，为了进一步减少运算和存储压力，第二卷积神经网络可以为用于人脸识别的轻量级神经网络。也就是采用结构简单、参数较少、需要存储空间较小的神经网络模型，这样利于部署在运算和存储能力有限的应用场景，例如车载场景。

可选地，还可以把上述人脸图像用于目标检测模型的训练。可以发送上述人脸图像，发送的人脸图像用于对目标活体检测模型进行训练，即更新目标活体检测模型的参数。这样可以实现在线更新的目的，使得目标活体检测模型的准确性得到进一步提高。

需要说明的是，上述发送可以是发送给本地设备，也可以是发送给云端设备，也就是发送给可以更新目标检测模型参数的设备即可，不存在限定。

可选地，对于不同应用场景，还可以根据活体检测结果生成不同的执行动作。即上述活体检测方法还可以包括：当活体检测结果指示人脸图像中的人为活体时，执行目标任务的决策，目标任务包括以下至少一项：解锁、账号登录、权限许可或确认支付。即决策是否解锁，是否登录，是否给予权限许可，是否确认支付。例如对于解锁任务来说，当活体检测结果为活体时，进一步判断该人是否具备解锁权限，如果具备解锁权限，就执行解锁，如果不具备则不解锁。

图12是本申请实施例的活体检测模型的训练方法的示意性流程图，下面对图12的各个步骤进行介绍。

1201、获取第一训练数据。

在本申请实施例中，训练数据可以称之为活体检测数据，包括真实人脸的数据和非真实人脸的数据，可以是真实人脸和非真实人脸的图像、录像帧，也可以是真实人脸和非真实人脸的特征提取之后的特征向量。对于真实人脸和非真实人脸的接收可以参照上文相关内容，不再重复介绍。

训练数据可以利用相机、摄像头等采集得到，也可以是从存储设备上读取。

第一训练数据是指用于更新第一卷积神经网络的参数的训练数据，第一训练数据第一训练数据包括真实人脸的数据和非真实人脸的数据，也就是说，使得第一卷积神经网络具备活体判别能力的训练数据需要包括真实人脸的数据和非真实人脸的数据。

由于人脸在不同光照环境下的呈现也是不同的，所以，为了提高训练数据的丰富性，从而提高训练效果，该第一训练数据可以包括多个光照场景下的数据。例如可以为以下光照场景：室外晴天、室外多云或阴天、室内光线昏暗、室内光线明亮。也就是使得训练出能够适用于更多复杂光照场景的活体检测模型。

对于一些简单的应用场景，不需要考虑背景影响，所以获取的活体数据可以共享，也就是说，数据集不会过于考虑获取场景的不同。但对于车辆这一特殊场景，不可避免会受到车内装饰、玻璃反光、密闭等的影响，所以对于车内场景，则直接将其他场景下的活体数据用来训练很容易导致训练效果欠佳。为了适应车内场景，可以利用设置在车辆内的一个或多个摄像头拍摄得到第一训练数据，这样训练出来的活体检测模型在车内场景中可以具有良好的表现。。

对于车辆场景，真实人脸的数据的获取方法就是直接拍摄得到，所以不再介绍，主要介绍车内非真实人脸的数据如何获取。

如上文所述，由于屏幕类活体数据无法在近红外摄像头上成像，所以采用近红外摄像头可以不获取屏幕类的活体数据。打印照片、3D面具和3D头模则可以是人员坐在车内佩戴上述工具，然后用摄像头获取图像。

由于人脸在从不同角度、距离拍摄时的呈现也是不同的，所以，为了提高训练数据的丰富性，从而提高训练效果，该待训练的活体数据可以包括多个角度下的活体数据。例如对于车内场景：当上述摄像头的数量为多个时，多个摄像头设置在车辆的不同位置，用于得到不同角度和/或不同距离的第一训练数据。例如，可以在车辆前车窗的两侧分别布置一个摄像头，在仪表位置布局一个摄像头，这些摄像头都可以拍摄到驾驶位的数据。对于车内如何布局摄像头以获得不同角度和/或不同距离的训练数据，可以参照上文获取人脸图像的方法，在此不再重复介绍。

可选地，上述摄像头可以为近红外摄像头，这样可以适用于不需要屏幕类作为训练数据的场景，也就是省去了屏幕类的非真实人脸的数据的采集和训练。也就是说，如果是使用近红外摄像头的应用场景，目标检测模型不需要具备对屏幕类的非真实人脸的数据的检测能力，此时只需要利用其他训练数据训练得到目标检测模型即可，可以省去屏幕类数据的采集、处理和训练，从而有效降低训练成本。

可以建立活体检测数据的数据集，从而可以从中选取一些活体检测数据作为上述训练数据或者用于测试活体检测模型的效果等。例如可以建立车内活体检测数据集。该数据集中可以包括真实人脸的图像和非真实人脸的图像，真实人脸的图像可以包括不同配饰(有无帽子眼镜、眼镜的种类)、不同角度(仰头、低头、平视)、不同光照的真实人脸的图像。非真实人脸的图像可以包括2D打印照片、3D头模3D面具等非真实人脸的图像。为了方便，还可以对数据集中的图像进行编号，例如可以按照行、列编号。

1202、根据上述第一训练数据，更新第一卷积神经网络的参数，得到目标活体检测模型。

目标活体检测模型就是更新后的第一卷积神经网络。

第一卷积神经网络包括第二卷积神经网络和全连接层，第二卷积神经网络用于根据训练数据得到人脸的类别特征向量，全连接层用于根据类别特征向量进行活体判别。

可选地，该第一卷积神经网络可以是上文所述任意一种活体检测神经网络，例如可以是如图8所示的活体检测神经网络。第二卷积神经网络可以是用于人脸识别的实景网络，即上文的基础神经网络。

在一些实现方式中，第二卷积神经网络是利用第二训练数据预训练好的，第二训练数据包括真实人脸的数据。也就是说，第一卷积神经网络和第二卷积神经网络可以分别用不同的训练数据集(第一训练数据和第二训练数据)进行训练。这样的实现方式可以进一步提高模型准确性，从而提高活体检测的准确性，同时还可以简化目标活体检测模型的训练过程和降低目标检测模型的训练成本。首先，第二卷积神经网络可以是利用公开的各类数据量丰富的真实人脸的数据集(即第二训练数据可以是公开的真实人脸的数据集中的数据)，这就使得第二卷积神经网络能够得到更加充分的训练，具有更加好的提取人脸特征的能力。当然也可以在其中掺入一些非真实人脸的数据，不影响整体效果。甚至还可以直接从已经公开的用于人脸识别的CNN中选取一个作为第二卷积神经网络，例如上文的LightCNN-9。这就可以有效降低训练成本，也就是在对第一卷积神经网络进行训练(更新第一卷积神经网络的参数)的时候，对于训练数据和训练设备的要求都相对较低，因为不需要再对第二卷积神经网络的进行大量充足的训练。其次，第一训练数据(即用于提高活体判别能力的训练数据)不需要数量过多，即对于非真实人脸的数据需求量较小，且不需要非常多的训练次数就可以达到较好的效果，因为对第一卷积神经网络的训练阶段相当于对于参数进行微调的过程，使之具有活体判别能力。

在一些情况下，可以理解为，第一卷积神经网络是在第二卷积神经网络的输出层之后增加一层或多层全连接层得到的，增加的全连接层用于进行活体判别，第二卷积神经网络是预训练好的，第二卷积神经网络用于得到人脸的类别特征向量。

在一些实现方式中，在更新第一卷积神经网络的参数时，可以是更新第一卷积神经网络的浅层网络的参数和第一卷积神经网络的全连接层的参数。这样可以在不降低训练效果的前提下，大大减少训练过程的运算量，进一步简化第一卷积神经网络的训练和降低训练成本

图12所示训练方法与现有技术中的训练方法具有训练相对简单，训练数据需求量相对较小，训练得到的模型准确性相对更高的优点。

图13是本申请实施例的活体检测装置的示意性框图。图13所示的活体检测装置2000包括获取单元2001和处理单元2002。

获取单元2001和处理单元2002可以用于执行本申请实施例的活体检测方法，具体地，获取单元2001可以执行上述步骤901，处理单元2002可以执行上述步骤902。

处理单元2002能够实现图8所示的活体检测神经网络的功能。

应理解，上述装置2000中的处理单元2002可以相当于下文中的装置3000中的处理器3002。

图14是本申请实施例提供的活体检测装置的硬件结构示意图。图14所示的活体检测装置3000(该装置3000具体可以是一种计算机设备)包括存储器3001、处理器3002、通信接口3003以及总线3004。其中，存储器3001、处理器3002、通信接口3003通过总线3004实现彼此之间的通信连接。

存储器3001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器3001可以存储程序，当存储器3001中存储的程序被处理器3002执行时，处理器3002和通信接口3003用于执行本申请实施例的活体检测方法的各个步骤。

处理器3002可以采用通用的CPU，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的活体检测装置中的单元所需执行的功能，或者执行本申请方法实施例的活体检测方法。

处理器3002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的活体检测方法的各个步骤可以通过处理器3002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器3002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器3001，处理器3002读取存储器3001中的信息，结合其硬件完成本申请实施例的活体检测装置中包括的单元所需执行的功能，或者执行本申请方法实施例的活体检测方法。

通信接口3003使用例如但不限于收发器一类的收发装置，来实现装置3000与其他设备或通信网络之间的通信。例如，可以通过通信接口3003获取上述人脸图像。

总线3004可包括在装置3000各个部件(例如，存储器3001、处理器3002、通信接口3003)之间传送信息的通路。

图15是本申请实施例的活体检测网络的训练装置的示意性框图。图15所示的活体检测网络的训练装置4000包括获取单元4001和训练单元4002。

获取单元4001和训练单元4002可以用于执行本申请实施例的活体检测模型的训练方法，具体地，获取单元4001可以执行上述步骤1201，训练单元4002可以执行上述步骤1202。

应理解，上述装置4000中的训练单元4002可以相当于下文中的装置5000中的处理器5002。

图16是本申请实施例提供的活体检测网络的训练装置的硬件结构示意图。图16所示的活体检测网络的训练装置5000(该装置5000具体可以是一种计算机设备)包括存储器5001、处理器5002、通信接口5003以及总线5004。其中，存储器5001、处理器5002、通信接口5003通过总线5004实现彼此之间的通信连接。

存储器5001可以是ROM，静态存储设备，动态存储设备或者RAM。存储器5001可以存储程序，当存储器5001中存储的程序被处理器5002执行时，处理器5002和通信接口5003用于执行本申请实施例的活体检测网络的训练方法的各个步骤。

处理器5002可以采用CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的活体检测网络的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的活体检测网络的训练方法。

处理器5002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的活体检测网络的训练方法的各个步骤可以通过处理器5002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器5002，还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器5001，处理器5002读取存储器5001中的信息，结合其硬件完成本申请实施例的活体检测网络的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的活体检测网络的训练方法。

通信接口5003使用例如但不限于收发器一类的收发装置，来实现装置5000与其他设备或通信网络之间的通信。例如，可以通过通信接口5003获取上述第一训练数据。

总线5004可包括在装置5000各个部件(例如，存储器5001、处理器5002、通信接口5003)之间传送信息的通路。

应注意，尽管图14所示的装置3000、图16所示的装置5000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置3000、装置5000还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置3000、装置5000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置3000、装置5000也可仅仅包括实现本申请实施例所必须的器件，而不必包括图14、图16中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同装置来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)，UFD也可以简称为U盘或者优盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种活体检测方法，其特征在于，包括：

获取人脸图像；

将所述人脸图像输入到目标活体检测模型，得到活体检测结果，所述活体检测结果用于指示所述人脸图像中的人是否为活体，所述目标活体检测模型包括第一卷积神经网络，所述第一卷积神经网络包括第二卷积神经网络和全连接层，所述第二卷积神经网络用于根据所述人脸图像得到人脸的类别特征向量，所述全连接层用于根据所述类别特征向量进行活体判别，得到所述活体检测结果。
如权利要求1所述的方法，其特征在于，所述目标活体检测模型是利用第一训练数据更新所述第一卷积神经网络的参数得到的，所述第二卷积神经网络是利用第二训练数据预训练好的，所述第一训练数据包括真实人脸的数据和非真实人脸的数据，所述第二训练数据包括真实人脸的数据。
如权利要求2所述的方法，其特征在于，所述目标活体检测模型是利用所述第一训练数据更新所述第二卷积神经网络的浅层网络的参数和所述第二卷积神经网络的全连接层的参数和所述第一卷积神经网络的所述全连接层的参数得到的。
如权利要求1至3中任一项所述的方法，其特征在于，所述第二卷积神经网络的中间层的参数保持不变。
如权利要求1至4中任一项所述的方法，其特征在于，所述第二卷积神经网络为用于人脸识别的轻量级神经网络。
如权利要求1至5中任一项所述的方法，其特征在于，所述人脸图像包括多个光照场景下的图像。
如权利要求1至6中任一项所述的方法，其特征在于，所述人脸图像是利用设置在车辆内的一个或多个摄像头拍摄得到的。
如权利要求1至7中任一项所述的方法，其特征在于，当所述摄像头的数量为多个时，多个所述摄像头设置在所述车辆的不同位置，用于得到不同角度和/或不同距离的所述人脸图像。
如权利要求7或8所述的方法，其特征在于，所述摄像头为近红外摄像头。
如权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

发送所述人脸图像，所述人脸图像用于对所述目标活体检测模型进行训练。
如权利要求1至10中任一项所述的方法，其特征在于，所述方法还包括：

当所述活体检测结果指示所述人脸图像中的人为活体时，执行目标任务的决策，所述目标任务包括以下至少一项：解锁、账号登录、权限许可或确认支付。
一种活体检测模型的训练方法，其特征在于，包括：

获取第一训练数据，所述第一训练数据包括真实人脸的数据和非真实人脸的数据；

根据所述第一训练数据，更新第一卷积神经网络的参数，得到目标活体检测模型，所述第一卷积神经网络包括第二卷积神经网络和全连接层，所述第二卷积神经网络用于根据所述训练数据得到人脸的类别特征向量，所述全连接层用于根据所述类别特征向量进行活体判别。
如权利要求12所述的训练方法，其特征在于，所述第二卷积神经网络是利用第二训练数据预训练好的，所述第二训练数据包括真实人脸的数据。
如权利要求12或13所述的训练方法，其特征在于，所述更新第一卷积神经网络的参数，包括：

更新所述第二卷积神经网络的浅层网络的参数和所述第二卷积神经网络的全连接层的参数和所述第一卷积神经网络的所述全连接层的参数。
如权利要求12至14中任一项所述的训练方法，其特征在于，所述第二卷积神经网络的中间层的参数保持不变。
如权利要求12至15中任一项所述的训练方法，其特征在于，所述第二卷积神经网络为用于人脸识别的轻量级神经网络。
如权利要求12至16中任一项所述的训练方法，其特征在于，所述第一训练数据包括多个光照场景下的数据。
如权利要求12至17中任一项所述的训练方法，其特征在于，所述第一训练数据是利用设置在车辆内的一个或多个摄像头拍摄得到的。
如权利要求18所述的训练方法，其特征在于，当所述摄像头的数量为多个时，多个所述摄像头设置在所述车辆的不同位置，用于得到不同角度和/或不同距离的所述第一训练数据。
如权利要求18或19所述的训练方法，其特征在于，所述摄像头为近红外摄像头。
一种活体检测装置，其特征在于，包括：

获取单元，用于获取人脸图像；

处理单元，用于将所述人脸图像输入到目标活体检测模型，得到活体检测结果，所述活体检测结果用于指示所述人脸图像中的人是否为活体，所述目标活体检测模型包括第一卷积神经网络，所述第一卷积神经网络包括第二卷积神经网络和全连接层，所述第二卷积神经网络用于根据所述人脸图像得到人脸的类别特征向量，所述全连接层用于根据所述类别特征向量进行活体判别，得到所述活体检测结果。
如权利要求21所述的装置，其特征在于，所述目标活体检测模型是利用第一训练数据更新所述第一卷积神经网络的参数得到的，所述第二卷积神经网络是利用第二训练数据预训练好的，所述第一训练数据包括真实人脸的数据和非真实人脸的数据，所述第二训练数据包括真实人脸的数据。
如权利要求22所述的装置，其特征在于，所述目标活体检测模型是利用所述第一训练数据更新所述第二卷积神经网络的浅层网络的参数和所述第二卷积神经网络的全连接层的参数和所述第一卷积神经网络的所述全连接层的参数得到的。
如权利要求21至23中任一项所述的装置，其特征在于，所述第二卷积神经网络的中间层的参数保持不变。
如权利要求21至24中任一项所述的装置，其特征在于，所述第二卷积神经网络为用于人脸识别的轻量级神经网络。
如权利要求21至25中任一项所述的装置，其特征在于，所述人脸图像包括多个光照场景下的图像。
如权利要求21至26中任一项所述的装置，其特征在于，所述人脸图像是利用设置在车辆内的一个或多个摄像头拍摄得到的。
如权利要求21至27中任一项所述的装置，其特征在于，当所述摄像头的数量为多个时，多个所述摄像头设置在所述车辆的不同位置，用于得到不同角度和/或不同距离的所述人脸图像。
如权利要求27或28所述的装置，其特征在于，所述摄像头为近红外摄像头。
如权利要求21至29中任一项所述的装置，其特征在于，所述装置还包括：

发送单元，用于发送所述人脸图像，所述人脸图像用于对所述目标活体检测模型进行训练。
如权利要求21至30中任一项所述的装置，其特征在于，所述处理单元还用于：

当所述活体检测结果指示所述人脸图像中的人为活体时，执行目标任务的决策，所述目标任务包括以下至少一项：解锁、账号登录、权限许可或确认支付。
一种活体检测模型的训练装置，其特征在于，包括：

获取单元，用于获取第一训练数据，所述第一训练数据包括真实人脸的数据和非真实人脸的数据；

训练单元，用于根据所述第一训练数据，更新第一卷积神经网络的参数，得到目标活体检测模型，所述第一卷积神经网络包括第二卷积神经网络和全连接层，所述第二卷积神经网络用于根据所述训练数据得到人脸的类别特征向量，所述全连接层用于根据所述类别特征向量进行活体判别。
如权利要求32所述的训练装置，其特征在于，所述第二卷积神经网络是利用第二训练数据预训练好的，所述第二训练数据包括真实人脸的数据。
如权利要求32或33所述的训练装置，其特征在于，所述训练单元具体用于：

更新所述第二卷积神经网络的浅层网络的参数和所述第二卷积神经网络的全连接层的参数和所述第一卷积神经网络的全连接层的参数。
如权利要求32至34中任一项所述的训练装置，其特征在于，所述第二卷积神经网络的中间层的参数保持不变。
如权利要求32至35中任一项所述的训练装置，其特征在于，所述第二卷积神经网络为用于人脸识别的轻量级神经网络。
如权利要求32至36中任一项所述的训练装置，其特征在于，所述第一训练数据包括多个光照场景下的数据。
如权利要求32至37中任一项所述的训练装置，其特征在于，所述第一训练数据是利用设置在车辆内的一个或多个摄像头拍摄得到的。
如权利要求38所述的训练装置，其特征在于，当所述摄像头的数量为多个时，多个所述摄像头设置在所述车辆的不同位置，用于得到不同角度和/或不同距离的所述第一训练数据。
如权利要求38或39所述的训练装置，其特征在于，所述摄像头为近红外摄像头。
一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如权利要求1至11中任一项或者权利要求12至20中任一项所述方法的指令。
一种活体检测装置，其特征在于，所述装置包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至11中任一项所述的方法。
一种活体检测模型的训练装置，其特征在于，所述训练装置包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求12至20中任一项所述的训练方法。
一种计算机程序产品，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至11中任一项或者权利要求12至20中任一项所述的方法。
一种活体检测模型，其特征在于，所述活体检测模型包括第一卷积神经网络，所述第一卷积神经网络包括第二卷积神经网络和全连接层，所述第二卷积神经网络用于根据待处理人脸图像得到人脸的类别特征向量，所述全连接层用于根据所述类别特征向量进行活体判别，得到活体检测结果，所述活体检测结果用于指示所述待处理人脸图像中的人是否为活体。
如权利要求45所述的活体检测模型，其特征在于，所述活体检测模型是利用如权利要求12至20中任一项所述的训练方法得到的。