WO2019128646A1

WO2019128646A1 - 人脸检测方法、卷积神经网络参数的训练方法、装置及介质

Info

Publication number: WO2019128646A1
Application number: PCT/CN2018/119188
Authority: WO
Inventors: 严蕤; 牟永强
Original assignee: 深圳励飞科技有限公司
Priority date: 2017-12-28
Filing date: 2018-12-04
Publication date: 2019-07-04
Also published as: CN108038474A; CN108038474B

Abstract

本发明公开了一种人脸检测方法，该人脸检测方法包括：获取待检测图像；将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；输出所述待检测图像是否包含人脸的检测结果；若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。本发明还公开了一种人脸检测装置、卷积神经网络参数的训练方法、计算机装置和计算机可读存储介质。本发明可以在人脸检测时，同步估计人脸姿态，进而提高人脸识别的效率。

Description

人脸检测方法、卷积神经网络参数的训练方法、装置及介质

本申请要求于2017年12月28日提交中国专利局，申请号为201711462096.3、发明名称为“人脸检测方法、卷积神经网络参数的训练方法、装置及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及图像识别技术领域，具体涉及一种人脸检测方法、卷积神经网络参数的训练方法、装置及介质。

背景技术

随着信息技术的发展，人脸识别技术的应用逐渐广泛，在教育、交通、金融等各领域，通过人脸识别技术，能够帮助人们解决很多现实问题。人脸识别技术的基础是人脸检测技术，人脸检测的准确率以及人脸姿态的变化都会对人脸识别的准确率等方面产生重大的影响。

现有的人脸识别技术中，一般先通过人脸检测算法检测图片中的人脸，然后判断所截取的人脸图片的姿态，然后筛选姿态合适的图片用于人脸识别。但这需要重复计算图片的向量特征，耗时较多，进而降低人脸识别的效率。

发明内容

鉴于此，有必要提供一种人脸检测方法及装置、卷积神经网络参数的训练方法、计算机装置和计算机可读存储介质，能够在人脸检测时，同步估计人脸姿态，进而提高人脸识别的效率。

本发明一方面提供了一种人脸检测方法，所述人脸检测方法包括：

所述方法包括：

获取待检测图像；

将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。

可选地，所述人脸检测方法还包括：

通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征，得到特征图，所述特征图由若干特征单元组成；

根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框。

可选地，所述根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框，包括：

初始化特征单元的待确定锚框的长和宽；

计算所述待确定锚框与所述训练样本图像的位置数据所确定的标准框的交集与并集的比值，根据所述比值确定聚类算法中的距离参数；

迭代所述待确定锚框的长和宽，获取所述聚类算法对应的迭代结束条件到达时所述待确定锚框的长和宽，得到所述特征单元的锚框。

可选地，所述人脸检测方法还包括：

根据预设损失函数和训练算法训练预设卷积神经网络模型，获得所述预设卷积神经网络模型的网络参数的值，得到所述训练得到的卷积神经网络，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。

可选地，所述人脸检测方法还包括：

根据所述训练得到的卷积神经网络获取所述待检测图像中人脸的位置数据；

若所述人脸的位置数据包含至少两组位置数据，通过非极大值抑制算法获取所述待检测图像中人脸的准确位置；

输出所述待检测图像中人脸在所述准确位置时的人脸姿态信息。

本发明另一方面还提供了一种卷积神经网络参数的训练方法，所述卷积神经网络参数的训练方法包括：

获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。

本发明另一方面还提供了一种人脸检测装置，所述人脸检测装置包括：

图像获取模块，用于获取待检测图像；

处理模块，用于将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

输出模块，用于若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。

可选地，所述人脸检测装置还包括：

特征提取模块，用于通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征，得到特征图，所述特征图由若干特征单元组成；

计算模块，用于根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框。

可选地，所述计算模块具体用于：

初始化特征单元的待确定锚框的长和宽；

可选地，所述人脸检测装置还包括：

参数获取模块，用于根据预设损失函数和训练算法训练预设卷积神经网络模型，获得所述预设卷积神经网络模型的网络参数的值，得到所述训练得到的卷积神经网络，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。

可选地，所述人脸检测装置还包括：

位置获取模块，用于根据所述训练得到的卷积神经网络获取所述待检测图像中人脸的位置数据；

去重复模块，用于若所述人脸的位置数据包含至少两组位置数据，通过非极大值抑制算法获取所述待检测图像中人脸的准确位置；

姿态获取模块，用于输出所述待检测图像中人脸在所述准确位置时的人脸姿态信息。

本发明另一方面还提供了一种卷积神经网络参数的训练装置，所述卷积神经网络参数的训练装置包括：

样本获取模块，用于获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

训练模块，用于根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。

本发明再一方面还提供一种计算机装置，所述计算机装置包括：存储器，用于存储至少一个指令；及处理器，用于执行所述存储器中存储的指令以实现上述人脸检测方法和/或卷积神经网络参数的训练方法的步骤。

本发明再一方面还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被计算机装置中的处理器执行以实现上述人脸检测方法和/或卷积神经网络参数的训练方法的步骤。

本发明又一方面还提供一种集成电路，所述集成电路安装于计算机装置中，使所述计算机装置发挥上述的人脸检测方法和/或卷积神经网络参数的训练方法能实现的功能。

本发明获取待检测图像；将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。由于训练得到的卷积网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据，因此训练得到的卷积网络可以识别待检测图像中是否包含人脸，以及待检测图像中人脸的姿态数据，通过卷积神经网络模型，不仅可以对人脸进行检测还能同步估计人脸姿态，无需通过多个模型重复提取图像特征，在人脸识别过程中，避免了繁琐的运算过程，提高了人脸识别的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人脸检测方法的流程图；

图2是本发明实施例中对图像进行非极大值抑制算法处理之前与之后的示意图；

图3本发明实施例提供的一种卷积神经网络参数的训练方法的流程图

图4是本发明实施例提供的人脸检测装置的功能模块图；

图5是本发明实施例提供的卷积神经网络参数的训练装置的功能模块图；

图6是本发明实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

图1为本发明实施例提供的人脸检测方法的示意流程图。如图1所示，人脸检测方法可包括以下步骤：

S10，获取待检测图像。

本发明所述的人脸检测方法可应用于计算机装置中，所述计算机装置可以为网络摄像机、笔记本等计算机装置。

上述待检测图像可以是计算机装置采集到的图像，或者是接收到的来自于其他计算机装置发送的图像。

同时，上述待检测图像可以为人脸图像，也可以为非人脸图像。

S11，将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据。

其中，卷积神经网络(Convolutional Neural Network,CNN)是深度学习技术中具代表的网络结构之一，通常由输入层、卷积层、池化层和全连接层组成。例如，卷积神经网络模型有VGG-16，GoogleNet、ResNet50等。

本发明实施例中所述的训练得到的卷积神经网络可以为任意卷积神经网络模型经过训练得到的。

训练的过程是利用训练数据(用于得到模型的输入值和输出值)和训练算法，来得到卷积神经网络模型的网络参数，此时得到的卷积神经网络可称为训练得到的卷积神经网络，训练得到的卷积神经网络可根据输入值来预测输出值，即根据输入的图像，输出对应的结果。

在本实施例中，训练卷积神经网络模型的训练样本集包括训练样本图像，训练样本图像可以包括人脸图像与非人脸图像，且人脸图像的样本越多，则训练得到的卷积神经网络输出结果的准确率越高。

训练卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据，即在训练卷积神经网络模型时，可获取训练样本图像的人脸的位置数据和姿态数据，在训练过程中获取训练样本图像的人脸的位置数据和姿态数据须先对样本图像进行特征提取获取人脸，再进行人脸的位置数据和姿态数据的获取。其中，人脸的位置数据可以是人脸的脸框中心的横坐标与纵坐标，以及人脸的长度与宽度，人脸的姿态数据可以是人脸的俯仰角pitch、偏航角yaw和翻滚角roll，pitch代表人脸上下翻转的角度，yaw代表人脸左右翻转的角度，roll代表人脸平面内旋转的角度。

在从训练样本图像中获取所需的数据，可以称为对训练样本图像进行标注。在进行标注时，可以对数据进行归一化操作。例如，将人脸的脸框中心的横坐标与人脸的长度分别除以训练样本图像的长，将人脸的脸框中心的纵坐标与人脸的宽度分别除以训练样本图像的宽，将人脸的pitch、yaw和roll分别除以π。

卷积神经网络模型的输入值可以为训练样本图像，对卷积神经网络模型进行训练的目的是学习是根据输入的训练样本图像获取训练样本图像中人脸的位置数据及姿态数据，则该模型训练后，可以用于获取任意一张图像的人脸的位置数据及姿态数据。

若训练样本图像中不存在人脸，则人脸的位置数据和姿态数据可以为空。

在本发明中，还可以包括对训练得到的卷积神经网络进行训练的方法，在训练卷积神经网络时可以通过以下方法对训练样本图像进行处理：

(1)通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征，得到特征图，所述特征图由若干特征单元组成；

(2)根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框。

上述用于训练的卷积神经网络是指在具体实施时所使用的卷积神经网络模型，不同的卷积神经网络模型有不同的卷积层，每个卷积层有其对应的卷积核(矩阵)。例如，用于训练的卷积神经网络模型是VGG-16，在VGG-16中有16层网络层，其中，卷积层有13层。

通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征得到的特征图，是提取训练样本图像特征的过程，得到的特征图用于表示该训练样本图像。

通过卷积层提取训练样本图像的特征，具体是通过卷积层进行卷积操作来提取训练样本图像的特征。卷积操作是将卷积核与训练样本图像的对应位置相乘再求和的过程，卷积操作之后得到另一矩阵，若卷积神经网络模型有多个卷积层，则可以进行多次卷积操作。

上述所述特征图由若干特征单元组成是指，特征图可以将特征图按照预设比例划分为几部分，每部分可称为特征单元，则特征图由这几个特征单元组成。例如，将特征图像按照3*3划分为9部分，则特征图由9个特征单元组成。

上述聚类算法可以为K-means算法、FCM聚类算法、SOM聚类算法等，具体是具体通过聚类算法获取锚框的长和宽，且一个特征单元可以对应多个锚框。

在现有技术中，锚框的获取通常由人工标注，而本实施例中通过聚类算法获取锚框的长度，能根据每个特征单元的尺度，确定每个特征单元的锚框，从而准确反应待检测人脸的长宽比例，减少了人工先验的干扰，同时也使检测更加精确。

可选的，还可以将判断锚框是否存在人脸，将存在人脸的锚框输出至用于训练的卷积神经网络模型的卷积层的下一层，例如VGG-16的全连接层。此时可以通过线性分类器(如线性SVM分类器)来判断锚框中是否存在人脸。

然后在用于训练的卷积神经网络下一层可以再判断当前锚框中是否都包含人脸，若存在，则提取锚框中的图像特征。

由于通过卷积层提取的特征向量是粗略的提取，提取到的特征简单，第二次再次提取到的特征表达的内容更为精确和丰富，使得二次提取特征后得到的表示训练样本图像更为准确，有利于提高训练结果的准确度。

可选地，在本发明另一实施例中，所述根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框可包括：

(1)初始化特征单元的待确定锚框的长和宽；

(2)计算所述待确定锚框与所述训练样本图像的位置数据所确定的标准框的交集与并集的比值，根据所述比值确定聚类算法中的距离参数；

(3)迭代所述待确定锚框的长和宽，获取所述聚类算法对应的迭代结束条件达到时所述待确定锚框的长和宽，得到所述特征单元的锚框。

其中，锚框也可称为Anchor box，由于待确定锚框的长和宽为未知的，因此可以对待确定锚框的长和宽分别初始化一个值(可随机初始化赋值)。

然后，再计算待确定锚框与训练样本图像的标准框(即根据训练样本图像的位置数据所确定的区域)的交集与并集的比值，根据所述比值确定聚类算法中的距离参数。具体的，在本实施例中，聚类算法中的距离可以表示为以下：

d(tbox,abox)＝1-IOU(tbox,abox)

其中，tbox表示训练样本图像中的标准框(即根据训练样本图像的位置数据所确定的区域)，abox表示待确定锚框的长和宽，IOU(tbox,abox)表示tbox与abox的交集与并集的比值，定义为：

然后迭代待确定锚框的长和宽，则根据不同的长和宽可以确定不同的待确定锚框，持续迭代，直至聚类算法对应的迭代结束条件达到，获取此时待确定锚框的长和宽的值。例如，持续迭代，直至锚框的长度均不再发生变化。当锚框的长度均不在发生变化时，可能获取到多个长和宽的值，根据多个长和宽的值，可以确定多个锚框。

可以理解的，对若干特征单元中的每一个特征单元都可以通过以上所述方法获取锚框。

在现有的聚类算法中，若要对若干对象进行聚类，通常定义一个距离，两个对象的距离越近，相似性越大，则归为一类。而在本实施例中，待确定锚框与训练样本图像的标准框的比值可以确定待确定锚框与训练样本图像的标准框的重叠的面积，相比通过点对点的距离来进行聚类，本实施例中的聚类方法可以更准确的反应要解决的问题(将锚框中可能存在人脸的区域标记出来)，运算效率更高，而且得到的结果更准确。

可选地，在本发明另一实施例中，还可以通过以下方法训练卷积神经网络：

上述预设卷积神经模型即为用于训练的卷积神经网络模型，例如VGG-16。

在对卷积神经模型进行训练时，训练的目的是为了得到卷积神经模型的网络参数，使该卷积神经网络得到的输出值能尽可能的接近实际值，从而能准确的对输入的数据进行预测。因此在训练时，通过损失函数来计算训练过程中卷积神经网络的输出值是否接近实际值，若损失函数的值越小，表明卷积神经网络的输出值越接近实际值。

具体的，本实施例中预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸标注区域的偏置量的损失。在实现时，判断训练样本图像中人脸存在与否的损失，由于将训练样本图像由若干特征单元组成，且获取了每一特征单元的锚框。因此，可以通过获取每个锚框中人脸存在与否的损失来获取训练样本图像中人脸存在与否的损失，锚框中人脸存在与否的损失可以表示为：

其中，N表示样本的数量，根据每次选择的样本的数量而异；x表示锚框与标准框匹配是否匹配，具体的，x _i,j＝{0,1}表示第i个通过聚类算法获取到的锚框与第j个样本图像的标准框是否匹配，当第i个锚框与第j个标准框的IOU值大于0.5时，x _i,j＝1，否则x _i,j＝0；c表示置信度，具体的，

表示第i个锚框中包含人脸的置信度，

表示第j个锚框中不包含人脸的置信度；i∈Pos表示第i个锚框中包含人脸，i∈Neg表示第i个锚框中不包含人脸。

同样的，可以通过锚框与训练样本图像中人脸的标准框的偏置量的损失来来获取训练样本中人脸的位置数据所确定的区域的偏置量的损失，锚框与训练样本图像中人脸的标准框的偏置量的损失为：

其中，x，N表示的内容同前面所述，l表示锚框的位置信息，cx、cy、w、h表示锚框的中心点横纵坐标、长度与宽度，g表示标准框的位置信息，smooth _L1表示L1范数映射，并且有：

可以通过获取每个锚框中人脸姿态与标准框中的姿态的损失来获取训练样本中人脸姿态的损失，锚框中人脸姿态与标准框中的姿态的损失可以表示为：

其中，φ＝(φ ¹,φ ²,φ ³)表示锚框中人脸的pitch，yaw，roll三种角度信息，θ＝(θ ¹,θ ²,θ ³)表示标准中人脸的pitch，yaw，roll三种角度信息。

则，预设损失函数可以为以下：

同时，在对进行训练时，训练算法可以为梯度下降算法、牛顿算法、共轭梯度算法等。具体的训练算法可以从现有技术中获取，这里不再赘述。

本发明在计算神经网络的网络损失中增加了对人脸姿态信息的计算，能够在检测人脸的同时，直接输出人脸的姿态。并且由于损失函数可以用于对神经外模型进行评价，人脸姿态越准确，损失会越小。因此，在计算神经网络的网络损失中增加对人脸姿态的计算使得人脸检测与姿态估计取得相互促进的效果，进一步提高人脸检测与姿态估计的准确率。

S12，输出所述待检测图像是否包含人脸的检测结果。

根据步骤S11，可以获取待检测图像是否包含人脸。当待检测图像不包含人脸时，可以输出不包含人脸的信息，例如，输出no表示待检测图像中不包含人脸。当待检测图像包含人脸时，可以输出包含人脸的信息，例如，输出yes表示待检测图像中包含人脸。

由于本发明训练得到的卷积神经网络通过训练卷积神经网络模型学习识别人脸的位置及姿态数据，而是否存在人脸是学习人脸的位置以及姿态的基础，则在训练过程中通过提取图像的特征并学习就可以学习到识别图像是否寻在人脸，故训练得到的卷积神经网络可以输出待检测图像是否包含人脸的检测结果。

S13，若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。

当待检测图像包含人脸时，由于训练得到的卷积神经网络在训练时，也训练了获取图像的中人脸的姿态数据。因此，可以输出待检测图像中人脸的姿态数据，可通过人脸的俯仰角pitch、偏航角yaw和翻滚角roll来表示人脸的姿态。

在具体实现时，步骤S12与步骤S13可以是同步输出。即若待检测图像中包含人脸，输出待检测图像包含人脸的检测结果以及人脸的姿态，若待检测图像中不包含人脸，可直接输出不包含人脸的检测结果，且不输出姿态信息，或者输出姿态信息为空值。

同时，在具体实现时，还可以是仅输出人脸的姿态信息而不输出是否包含人脸的检测结果。由于若得到了人脸的姿态信息且姿态信息不为空值，则表明待检测图像中是存在人脸的，因此仅通过姿态信息的输出就可以直观的了解到是否包含人脸，以及人脸的姿态是怎样的。

可选地，在本发明另一实施例中，所述人脸检测方法还可包括：

其中，非极大值抑制算法(Non-maximum suppression,NMS)是搜索图像局部极大值，抑制非极大值元素。具体的非极大值抑制算法处理过程这里不再赘述，可以从现有技术中获取。

如图2所示，图2为对图像进行非极大值抑制算法处理之前与之后的示意图。图2左边的图显示的是检测到人脸，并根据人脸位置标识了人脸存在的区域(人脸框中为人脸存在的区域)的示意图。图2右边的图为经过非极大值抑制算法处理后，获取的图像的准确位置，此时去除了图像中多余的人脸框，可以准确的得到人脸的位置。

当待检测图像包含人脸时，由于训练得到的卷积神经网络在训练时，也训练了获取图像的中人脸的位置数据。因此，可以输出待检测图像中人脸的位置数据。在进行人脸检测时，可能得到多组人脸的位置数据，此时，通过非极大值抑制算法获取待检测图像中人脸的准确位置。当检测到人脸在某一位置时，可以检测到人脸在该位置的一组姿态数据(人脸的俯仰角pitch、偏航角yaw和翻滚角roll)，因此在确定人脸的准确位置之后，可以获取在该准确位置时人脸的姿态信息。

通过非极大值抑制算法获取待检测图像中人脸的准确位置及姿态，可以提供待检测图像中更准确的人脸信息，以便后续进一步的进行图像处理(如图像识别)提高处理的准确率。

本发明提供的人脸检测方法通过获取待检测图像；将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；输出所述待检测图像是否包含人脸的检测结果；若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。由于训练得到的卷积网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据，因此训练得到的卷积网络可以识别待检测图像中是否包含人脸，以及待检测图像中人脸的姿态数据，通过卷积神经网络模型，不仅可以对人脸进行检测还能同步估计人脸姿态，无需通过多个模型重复提取图像特征，在人脸识别过程中，避免了繁琐的运算过程，提高了人脸识别的效率。

图3为本发明实施例提供的卷积神经网络参数的训练方法的示意流程图。如图3所示，卷积神经网络参数的训练方法可包括以下步骤：

S20，获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据。

本发明所述的训练方法可用于训练任意卷积神经网络。

训练样本集用于对卷积神经网络模型进行训练，具体的训练样本集的类型和对训练样本集的处理可以参见上述实施例中相关描述，此处不再赘述。

S21，根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸标注区域的偏置量的损失。

在进行训练时，可以通过预设卷积神经网络模型的卷积层提取训练样本图像的特征，得到表示训练样本图像的特征图。然后将特征图按照预设比例划分为若干特征单元，再根据聚类算法获取每个特征单元中的多个锚框。在得到多个锚框之后将存在人脸的锚框输入至预设卷积神经网络模型的下一层网络中，再次判断锚框中是否存在人脸，并对存在人脸的锚框进行特征提取。

然后，将此时提取到的特征及特征反应的信息(位置及姿态)与训练样本图像的包括的人脸的位置数据及姿态数据进行比较，并根据预设的损失函数来训练，获得预设卷积神经网络模型的网络参数。

具体的，可以参见前述实施例中有关模型训练的内容，此处不再赘述。

本发明提供的卷积神经网络参数的训练方法可以通过训练使训练得到的卷积神经网络，进行人脸检测，以及能够获取图像中人脸的位置及姿态信息。并且，在训练时，通过在网络损失中增加对人脸姿态的计算，使得人脸检测与姿态估计取得相互促进的效果，进一步提高人脸检测与姿态估计的准确率。

图3为本发明实施例提供的人脸检测装置的结构图，如图3所示，人脸检测装置可以包括：图像获取模块310、处理模块320和输出模块330。

图像获取模块310，用于获取待检测图像。

处理模块320，用于将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据。

训练卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据，即在训练卷积神经网络模型时，可获取训练样本图像的人脸的位置数据和姿态数据。在训练过程中获取训练样本图像的人脸的位置数据和姿态数据须先对样本图像进行特征提取获取人脸，再进行人脸的位置数据和姿态数据的获取。其中，人脸的位置数据可以是人脸的脸框中心的横坐标与纵坐标，以及人脸的长度与宽度，人脸的姿态数据可以是人脸的俯仰角pitch、偏航角yaw和翻滚角roll，pitch代表人脸上下翻转的角度，yaw代表人脸左右翻转的角度，roll代表人脸平面内旋转的角度。

在从训练样本图像中获取所需的数据，可以称为对训练样本图像进行标注。在进行标注时，可以对数据进行归一化操作，例如，将人脸的脸框中心的横坐标与人脸的长度分别除以训练样本图像的长，将人脸的脸框中心的纵坐标与人脸的宽度分别除以训练样本图像的宽。将人脸的pitch、yaw和roll分别除以π。

卷积神经网络模型的输入值可以为训练样本图像，对卷积神经网络模型进行训练的目是学习根据输入的训练样本图像获取训练样本图像中人脸的位置数据及姿态数据，则该模型训练后，可以用于获取任意一张图像的人脸的位置数据及姿态数据。

在本发明中，还可包括对训练得到的卷积神经网络进行训练的模块，在训练卷积神经网络时可通过特征提取模块及计算模块对训练样本图像进行处理：

特征提取模块，用于通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征，得到特征图，所述特征图由若干特征单元组成。

可选地，在本发明另一实施例中，所述计算模块可具体用于：

(1)初始化特征单元的待确定锚框的长和宽；

d(tbox,abox)＝1-IOU(tbox,abox)

可以理解的，对若干特征单元中的每一个特征单元都可以通过计算模块获取锚框。

可选地，在本发明另一实施例中，还可以通过参数获取模块得到所述训练得到的卷积神经网络：

表示第i个锚框中包含人脸的置信度，

则，预设损失函数可以为以下：

输出模块330，用于输出所述待检测图像是否包含人脸的检测结果。

根据处理模块320，可以获取待检测图像是否包含人脸。当待检测图像不包含人脸时，可以输出不包含人脸的信息，例如，输出no表示待检测图像中不包含人脸。当待检测图像包含人脸时，可以输出包含人脸的信息，例如，输出yes表示待检测图像中包含人脸。

输出模块330，还用于若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。

在具体实现时，输出模块330可以是同步输出是否包含人脸的检测结果以及人脸的姿态信息。即若待检测图像中包含人脸，输出待检测图像包含人脸的检测结果以及人脸的姿态，若待检测图像中不包含人脸，可直接输出不包含人脸的检测结果，且不输出姿态信息，或者输出姿态信息为空值。

可选地，在本发明另一实施例中，所述人脸检测装置还可包括：

位置获取模块，用于根据所述训练得到的卷积神经网络获取所述待检测图像中人脸的位置数据。

去重复模块，用于若所述人脸的位置数据包含至少两组位置数据，通过非极大值抑制算法获取所述待检测图像中人脸的准确位置。

本发明提供的人脸检测装置通过图像获取模块获取待检测图像；处理模块将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；输出模块输出所述待检测图像是否包含人脸的检测结果；若所述待检测图像包含人脸，以及输出所述待检测图像中人脸的姿态信息。由于训练得到的卷积网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据，因此训练得到的卷积网络可以识别待检测图像中是否包含人脸，以及待检测图像中人脸的姿态数据，通过卷积神经网络模型，不仅可以对人脸进行检测还能同步估计人脸姿态，无需通过多个模型重复提取图像特征，在人脸识别过程中，避免了繁琐的运算过程，提高了人脸识别的效率。

图5为本发明实施例提供的卷积神经网络参数的训练装置的结构图，卷积神经网络参数的训练装置可以包括：样本获取模块410和训练模块420。

样本获取模块410，用于获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据。

本发明所述的训练装置可用于训练任意卷积神经网络。

训练模块420，用于根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。

本发明提供的卷积神经网络参数的训练装置可以通过训练使训练得到的卷积神经网络，进行人脸检测，以及能够获取图像中人脸的位置及姿态信息。并且，在训练时，通过在网络损失中增加对人脸姿态的计算，使得人脸检测与姿态估计取得相互促进的效果，进一步提高人脸检测与姿态估计的准确率。

请参照图6，图6是本发明实施例提供的计算机装置1的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40，例如人脸检测的程序。所述处理器30执行所述计算机程序40时实现上述人脸检测方法实施例中的步骤，或上述卷积神经网络参数的训练方法实施例中的步骤，例如图1所示的步骤S10～S13，或图2所示的步骤S20～S21。或者，所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能，例如模块310～330，或模块410～420。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如，所述计算机程序40可以被分割成图4中的图像获取模块310、处理模块320和输出模块330，或者被分割成图5中的样本获取模块410和训练模块420，各模块具体功能参见前述实施例。

所述计算机装置1可以是嵌入式网络摄像机等嵌入式监控设备。本领域技术人员可以理解，所述示意图6仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、图像数据等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上说明的本发明的特征性的手段可以通过集成电路来实现，并控制实现上述任意实施例中所述人脸检测方法的功能和/或所述卷积神经网络参数的训练方法的功能。

在任意实施例中所述人脸检测方法以及卷积神经网络参数的训练方法所能实现的功能都能通过本发明的集成电路安装于所述计算机装置中，使所述计算机装置发挥任意实施例中所述计算机装置方法所能实现的功能，在此不再详述。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和装置，也可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

一种人脸检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。
如权利要求1所述的方法，其特征在于，所述方法还包括：

通过用于训练的卷积神经网络模型的卷积层提取训练样本图像的特征，得到特征图，所述特征图由若干特征单元组成；

根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框。
如权利要求2所述的方法，其特征在于，所述根据所述训练样本图像中人脸的位置数据和聚类算法获取所述若干特征单元中每一特征单元的锚框，包括：

初始化特征单元的待确定锚框的长和宽；

计算所述待确定锚框与所述训练样本图像的位置数据所确定的标准框的交集与并集的比值，根据所述比值确定聚类算法中的距离参数；

迭代所述待确定锚框的长和宽，获取所述聚类算法对应的迭代结束条件到达时所述待确定锚框的长和宽，得到所述特征单元的锚框。
如权利要求1所述的方法，其特征在于，所述方法还包括：

根据预设损失函数和训练算法训练预设卷积神经网络模型，获得所述预设卷积神经网络模型的网络参数的值，得到所述训练得到的卷积神经网络，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。
如权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

根据所述训练得到的卷积神经网络获取所述待检测图像中人脸的位置数据；

若所述人脸的位置数据包含至少两组位置数据，通过非极大值抑制算法获取所述待检测图像中人脸的准确位置；

输出所述待检测图像中人脸在所述准确位置时的人脸姿态信息。
一种卷积神经网络参数的训练方法，其特征在于，所述方法包括：

获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。
一种人脸检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

处理模块，用于将所述待检测图像输入至训练得到的卷积神经网络，识别所述待检测图像中是否包含人脸并对人脸姿态进行估计，其中训练所述卷积神经网络的训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

输出模块，用于若所述待检测图像包含人脸，输出所述待检测图像中人脸的姿态信息。
一种卷积神经网络参数的训练装置，其特征在于，所述方法还包括：

样本获取模块，用于获取训练样本集，所述训练样本集中的训练样本图像包括人脸的位置数据及姿态数据；

训练模块，用于根据所述训练样本集训练、训练算法和预设损失函数训练预设卷积神经网络模型，得到所述预设卷神经网络模型的网络参数的值，所述预设损失函数用于计算训练样本图像中人脸存在与否的损失、训练样本图像中人脸姿态的损失以及训练样本图像中人脸的位置数据所确定的区域的偏置量的损失。
一种计算机装置，其特征在于，所述计算机装置包括：

存储器，用于存储至少一个指令；及

处理器，用于执行所述存储器中存储的指令以实现如权利要求1-5和/或权利要求6中任意一项所述的人脸检测方法。
一种计算机可读存储介质，其上存储有计算机指令，其特征在于：所述计算机指令被处理器执行时实现如权利要求1-5和/或权利要求6中任意一项所述的人脸检测方法。