WO2019223254A1

WO2019223254A1 - 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法

Info

Publication number: WO2019223254A1
Application number: PCT/CN2018/114743
Authority: WO
Inventors: 姚寒星; 盛文娟
Original assignee: 北京亮亮视野科技有限公司
Priority date: 2018-05-21
Filing date: 2018-11-09
Publication date: 2019-11-28
Also published as: CN108647668A

Abstract

一种多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法，其特征在于，包括：A、基于分离式反走样卷积和通道池化技术，构建轻量化的特征金字塔网络模块，并将所述特征金字塔网络模块接入到轻量级人脸检测卷积神经网络模型中，形成多尺度轻量级人脸检测模型；B、获取指定数量的标记有人脸位置和尺寸的人脸数字图像作为训练数据集，并利用所述训练数据集对所述多尺度轻量级人脸检测模型进行迭代训练，以获取训练后的多尺度轻量级人脸检测模型。能够实现在提升对人脸检测的准确度的同时，还可以有效减少检测模型的规模，以适应资源有限的嵌入式平台的人脸检测任务。

Description

多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法

技术领域

本发明涉及计算机视觉、模式识别、目标检测、卷积神经网络等技术领域，特别涉及一种多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法。

背景技术

人脸检测技术是在任意场景的数字图像中精准定位和提取人脸的计算机视觉技术。该技术是人脸识别系统的首要步骤，人脸识别系统是在图像中精准提取人脸的基础上识别人脸信息的。人脸识别系统在人脸验证、接入控制、安全监控、人机交互等领域有广泛的应用。随着卷积神经网络(Convolutional Neural Network，简称CNN)研究的日益深入和其在计算机视觉领域的突破性进展，当前的人脸检测算法大多是基于CNN模型设计的。CNN主要由特征提取层和特征检测层组成，特征提取层主要由可学习权重和偏置常数的神经元组成。在人脸检测的应用场景下，CNN模型通过对人脸训练集数据的迭代训练，学习权重和偏置，使模型具有人脸特征提取和检测的功能。模型训练好后，输入一副数字图像，就可以检测人脸位置及尺寸，检测准确度由模型对人脸特征提取和检测能力决定。

一方面，CNN模型在特征提取过程中，逐层抽象图像特征，这就是说随着网络层次的加深，网络中传递的特征映射(Feature Map)语义信息不断加强。浅层网络存储低语义信息的特征映射，深层网络存储高语义信息的特征映射。对于一幅固定尺寸的数字图像而言，可能同时包含不同尺寸的人脸，例如小尺寸人脸和大尺寸人脸，人脸检测模型中如果不考虑多尺度问题，会在某些尺寸的人脸检测时发生漏检，例如在小尺寸人脸检测时发生漏检。另一方面，模型的特征提取层越多，对人脸特征的提取能力越强，检测准确度也会越高。但是，更多的特征提取层也意味着模型具有更多的可学习权重和偏置常数，参数存储量和计算复杂度随之上升。当前，移动端和嵌入式视觉应用越来越广泛，更多的人脸检测任务会在计算资源有限的平台实时进行。因此，目前亟需一种多尺度轻量级人脸检测模型，以实现既提升检测结果的准确度，又有效减少检测模型的规模，以适应资源有限的嵌入式平台的人脸检测任务。

发明内容

有鉴于此，本申请提供一种多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法，以实现既提升检测结果的准确度，又有效减少检测模型的规模，以适应资源有限的嵌入式平台的人脸检测任务。具体的：

本申请提供一种多尺度轻量级人脸检测模型的构建方法，包括：

A、基于分离式反走样卷积和通道池化技术，构建轻量化的特征金字塔网络模块，并将所述特征金字塔网络模块接入到轻量级人脸检测卷积神经网络模型中，形成多尺度轻量级人脸检测模型；

B、获取指定数量的标记有人脸位置和尺寸的人脸数字图像作为训练数据集，并利用所述训练数据集对所述多尺度轻量级人脸检测模型进行迭代训练，以获取训练后的多尺度轻量级人脸检测模型。

由上，本申请基于分离式反走样卷积和通道池化技术，构建轻量化的特征金字塔网络模块，并将所述特征金字塔网络模块接入到轻量级人脸检测卷积神经网络模型中，并进行训练，有利于获取既能够实现提升对人脸检测的准确度，又有效减少检测模型的规模的多尺度轻量级人脸检测模型。

优选地，所述步骤B之后还包括：

C、获取指定数量的标记有人脸位置和尺寸的人脸数字图像作为测试数据集，并利用所述测试数据集对所述训练后的多尺度轻量级人脸检测模型进行测试；

若测试结果不符合指定标准则返回执行步骤B中的所述迭代训练；

若测试结果符合指定标准，则保存所述训练后的多尺度轻量级人脸检测模型。

由上，有利于获取最优的多尺度轻量级人脸检测模型。

优选地，所述步骤A包括：

A1、选取轻量级人脸检测卷积神经网络模型中具有不同级别语义信息的特征映射层作为所述特征金字塔网络的基础层，并将所述基础层由深至浅排列；

A2、由深至浅，依次将相邻的两个基础层特征进行融合，以形成包含有融合多层语义信息的特征映射的特征金字塔网络模块。

由上，通过上述构建的特征金字塔网络模块，接入到轻量级人脸检测卷积神经网络模型中后，有利于使得最终构建的人脸检测模型能够进行多尺度特征的检测，从而提高人脸检测的准确度，减少漏检率。

优选地，所述步骤A1包括：

在所述轻量级人脸检测卷积神经网络模型中由深至浅选择尺寸依次增加一倍、通道数依次减小一半的不同级别语义信息的特征映射层作为特征金字塔网络的基础层，并将所述基础层由深至浅排列。

由上，通过上述处理有利于后续的上采样和通道融合操作。

优选地，步骤A2所述将相邻的两个基础层特征进行融合包括：

A21、将相邻的两个基础层中较深层特征映射按通道切片，平均分为两部分，每部分通道数分别减小至较浅层特征映射通道数；

A22、将切片后的两部分进行通道池化，使较深层特征映射与较浅层特征映射的通道数相等；

A23、对通道池化后的较深层特征映射上采样，将宽和高分别扩大两倍至较浅层特征映射尺寸；

A24、对上采样后的较深层特征映射进行分离式反走样卷积，以消除上采样造成的锯齿状边界；

A25、将进行反走样卷积处理后的深层特征映射与浅层特征映射进行逐像素、逐通道求和，以进行特征融合。

由上，通过上述的特征融合，得到多尺度特征信息，有利于将其用于后续的检测中，从而提高人脸检测的准确度，减少漏检率。其中，A21中将较深层特征映射按通道切片，平均分为两部分，有利于减少操作的内存访问时间。

优选地，所述步骤A22包括：

将切片后的两部分较深层特征映射在每一像素的对应通道上取最大值以重新生成一新的较深层特征映射，以使得较深层特征映射与较浅层特征映射的通道数相等。

由上，使得在增强特征映射的光照不变性的同时，以一种快速计算的方式使较深层特征映射达到与较浅层特征映射通道数一致的目的。

优选地，所述步骤A23包括：

所述对通道池化后的较深层特征映射上采样时，使用临近插值的方法，将较深层特征映射值在周围复制三份，以使得其宽和高分别扩大两倍至较浅层特征映射尺寸。

由上，使用临近插值的方法，将特征映射值在周围复制三份，有利于节省上采样的计算量。

优选地，所述步骤A24包括：

将较深层特征映射进行卷积核尺寸为3的逐通道卷积操作，以消除上采样造成的锯齿状边界。

由上，将较深层特征映射进行卷积核尺寸为3的逐通道卷积操作(Depth-wise Convolution)，可以在抑制上采样操作造成的边界锯齿的同时，减少卷积操作所需的计算力。

本申请还提供一种基于上述方法构建的多尺度轻量级人脸检测模型的人脸检测方法，包括：

获取包含有人脸的数字图像；

将所述数字图像输入到所述多尺度轻量级人脸检测模型中进行人脸检测，以获取人脸位置及人脸尺寸。

由上，有利于实现在人脸检测时既提升对人脸检测的准确度，又有效减少检测模型的规模。

综上所述，本申请在特征金字塔网络中提出分离式反走样卷积和通道池化技术，并将改进的特征金字塔网络接入到轻量级人脸检测网络框架中，以实现多尺度轻量级人脸检测，即，在提升对人脸检测的准确度的同时，还可以有效减少检测时模型规模。本发明方法可移植到小型计算平台执行高效人脸检测任务。同时，本发明提出的创新方法也可应用到其他目标检测任务。

附图说明

图1为本申请实施例提供的多尺度轻量级人脸检测模型的构建方法的流程示意图；

图2为本申请实施例提供的特征金字塔网络结构示意图；其中，1为高级语义高层特征映射，2为中级语义的中层特征映射，3为低级语义的低层特征映射，4为相邻两层特征映射的融合操作，5为融合多层语义信息的特征映射；

图3是本申请实施例中的特征金字塔网络模块的特征融合过程的流程示意图；其中，1为较高层特征映射，尺寸为待融合的较低层特征映射的一半，通道数为其两倍，2为切片操作，3为逐像素取最大值操作，4为上采样操作，5为较低层特征映射，6为逐像素求和操作，7为融合多级语义信息的特征映射，数据大小与较低层特征映射一致。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解为此处所描述的具体实施例仅仅用以解释本发明，并不用于限制本发明的保护范围。

本发明为了在资源有限的计算平台上实现准确快速的人脸检测应用，提出基于分离式反走样卷积和通道池化技术改进特征金字塔网络，并将改进的特征金字塔网络接入到轻量级人脸检测模型框架中，以实现多尺度轻量级人脸检测。特征金字塔网络可以增加算法对不同尺寸人脸的检测能力，提升算法准确度，本发明在此基础上减少数据存储量和计算复杂度，并将其接入到轻量级人脸检测模型中，可以在提升算法准确度的同时减小模型规模，使之可以在计算资源有限的计算平台上完成高准确度的实时目标检测任务。

实施例一

如图1所示，本发明提供了一种多尺度轻量级人脸检测模型的构建方法，该模型可应用于移动或嵌入式平台，完成目标检测任务，所述构建方法包括：

S1，基于分离式反走样卷积和通道池化，构建轻量化的特征金字塔网络模块，并将该模块接入到轻量级人脸检测卷积神经网络(CNN)模型中，形成多尺度轻量级人脸检测模型。其中，所述轻量级人脸检测卷积神经网络模型可以是：结合轻量级主干网络的用于目标检测任务的卷积神经网络模型(CNN)框架。如结合移动网络(MobileNets)的单箱探测器(Single Shot MultiBox Detector，简称SSD)模型框架等。

其中，如图2所示，所述步骤S1中的构建轻量化的特征金字塔网络模块包括：

S11、选取轻量级人脸检测卷积神经网络模型中具有不同级别语义信息的特征映射层作为所述特征金字塔网络的基础层，并将所述基础层由深至浅排列；

其中，所述步骤S11、包括：

S12、由深至浅，依次将相邻的两个基础层特征进行融合，以形成包含有融合多层语义信息的特征映射的特征金字塔网络模块。

其中，如图3所示，所述将相邻的两个基础层特征进行融合包括：

S121、将相邻的两个基础层中较深层特征映射按通道切片，平均分为两部分，每部分通道数分别减小至较浅层特征映射通道数；

S122、将切片后的两部分进行通道池化，使较深层特征映射与较浅层特征映射的通道数相等；具体的：

将切片后的两部分较深层特征映射在每一像素的对应通道上取最大值，以使得较深层特征映射与较浅层特征映射的通道数相等。

S123、对通道池化后的较深层特征映射上采样，将宽和高分别扩大两倍至较浅层特征映射尺寸；具体的：

所述对通道池化后的较深层特征映射上采样时，使用临近插值的方法，将特征映射值在周围复制三份，以使得宽和高分别扩大两倍至较浅层特征映射尺寸。

S124、对上采样后的较深层特征映射进行分离式反走样卷积，以消除上采样造成的锯齿状边界；具体的：将较深层特征映射进行卷积核尺寸为3的逐通道卷积操作，以消除上采样造成的锯齿状边界。

S125、将进行反走样卷积处理后的深层特征映射与浅层特征映射进行逐像素、逐通道求和，以进行所述深层和浅层特征融合。

S2，获取指定数量的包含人脸的数字图像(例如可以从公开的人脸检测训练数据集Wider Face中根据需要获取一定数量的人脸数字图像)，并标记其中的人脸位置和尺寸，构成带标签的人脸数字图像集，将其作为训练数据集。并利用该训练数据集对S1中形成的多尺度轻量级人脸检测模型进行训练，得到训练好的可用于人脸检测的多尺度轻量级人脸检测模型。

S3，获取指定数量的包含人脸的数字图像(例如可以从公开人脸检测测试数据集Face Detection Data Set and Benchmark，简称 FDDB)中根据需要获取一定数量的人脸数字图像，并标记其中的人脸位置和尺寸，构成带标签的人脸数字图像集，将其作为测试数据集，利用所述测试数据集对所述训练后的多尺度轻量级人脸检测模型进行测试，以获取符合指定标准的多尺度轻量级人脸检测模型。

S4，判断测试结果是否符合指定标准；

其中，若测试结果不符合指定标准则，返回执行所述指定步骤S2中的迭代训练；

若测试结果符合指定标准，则执行S5，保存所述训练后的多尺度轻量级人脸检测模型以用于人脸检测。

其中的制定标准包括：检测的准确度高于一指定的值，以及检测时计算的复杂度低于一指定的值。

另外，本申请还提供一种基于上述的多尺度轻量级人脸检测模型的人脸检测方法，包括：

获取包含有人脸的数字图像；

实施例二

为了详细说明本发明的具体实施方式及验证本发明的有效性，现结合具体的例子说明如下：

M1、基于分离式反走样卷积和通道池化，设计轻量化的特征金字塔网络模块，并将该模块接入到轻量级人脸检测卷积神经网络(CNN)模型中，形成多尺度轻量级人脸检测模型。(该步骤与实施例一中的S1相同，在此不再赘述)

M2、从公开的人脸检测训练数据集Wider Face数据集中获取32203副图像，并对其中的人脸位置和尺寸进行了标记，共标记了393703张人脸。将其作为训练集，对M1中的多尺度轻量级人脸检测模型进行训练，以获取训练后的多尺度轻量级人脸检测模型。

M3、从公开人脸检测测试数据集(Face Detection Data Set and Benchmark，简称FDDB)中获取2845幅图像，并对其中的人脸位置和尺寸进行了标记，共标记了5171张人脸。将其作为测试数据集，利用所述测试数据集对所述训练后的多尺度轻量级人脸检测模型进行测试。

其中，下表1为本申请的检测模型与另外6个现有的人脸检测模型在100个误检时的检测率比较结果：

表1

其中，选取的6个对比模型中有3个模型的测试准确度高于本发明方法，但是该检测模型都不属于轻量级网络，在资源有限平台上的应用受限，另外3个测试结果准确度都低于本发明方法。因此，本申请的模型既能够保证检测结果的准确度，又能够适应嵌入式平台，且在能够应用于资源有限的嵌入式平台的人脸检测任务的各个模型中，是检测结果准确度最高的。

另外，关于本申请的能够有效减少检测模型的规模(包括减少计算的复杂度和参数的规模)的具体的体现如下：

关于在本申请的实施例一的S124或实施例二M1中的可分离反走样卷积部分。此时使用卷积是为了消除上采样造成的边界锯齿现象，即执行反走样操作，假设输入特征映射的高为H，宽为W，通道数为C，卷积核尺寸为3，卷积偏移量为1，填充数为1，偏置数为1，使用逐通道卷积所需计算力为：

(3×3+1)×C×H×W

而如果使用普通卷积所需的计算力为：

(3×3×C+1)×C×H×W

则此处使用可分离式卷积可以将计算力大致减小至普通卷积的1/C，同时，所需的卷积核存储空间也大致降低为原来的1/C。

关于在本申请的实施例一的S122或实施例二M1中的通道池化部分。此时需要减小较深层特征映射的通道数，使之与较浅层特征映射的一致，假设较深层特征映射的高为H，宽为W，通道数为C，则使用通道池化所需的计算力为：

如果不使用通道池化，常规做法是使用卷积核尺寸为1的卷积操作，所需计算力为：

另外还需存储

的卷积核。

则此处通道池化将计算力大致减小至原来的1/C，卷积核存储空间减小为0。

综上所述，本申请可以实现在提升对人脸检测的准确度的同时还可以有效减少检测模型的规模(包括减少计算的复杂度和参数的规模)，从而节省计算资源以适应资源有限的嵌入式平台的人脸检测任务。本发明检测模型和检测方法可移植到小型计算平台执行高效人脸检测任务。同时，本发明提出的创新方法也可应用到其他目标检测任务。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种多尺度轻量级人脸检测模型的构建方法，其特征在于，包括：

A、基于分离式反走样卷积和通道池化技术，构建轻量化的特征金字塔网络模块，并将所述特征金字塔网络模块接入到轻量级人脸检测卷积神经网络模型中，形成多尺度轻量级人脸检测模型；

B、获取指定数量的标记有人脸位置和尺寸的人脸数字图像作为训练数据集，并利用所述训练数据集对所述多尺度轻量级人脸检测模型进行迭代训练，以获取训练后的多尺度轻量级人脸检测模型。
根据权利要求1所述的方法，其特征在于，所述步骤B之后还包括：

C、获取指定数量的标记有人脸位置和尺寸的人脸数字图像作为测试数据集，并利用所述测试数据集对所述训练后的多尺度轻量级人脸检测模型进行测试；

若测试结果不符合指定标准则返回执行步骤B中所述迭代训练；

若测试结果符合指定标准，则保存所述训练后的多尺度轻量级人脸检测模型以用于人脸检测。
根据权利要求1所述的方法，其特征在于，步骤A所述基于分离式反走样卷积和通道池化技术，构建轻量化的特征金字塔网络模块，包括：

A1、选取轻量级人脸检测卷积神经网络模型中具有不同级别语义信息的特征映射层作为所述特征金字塔网络的基础层，并将所述基础层由深至浅排列；

A2、由深至浅，依次将相邻的两个基础层特征进行融合，以形成包含有融合多层语义信息的特征映射的特征金字塔网络模块。
根据权利要求3所述的方法，其特征在于，所述步骤A1包括：

在所述轻量级人脸检测卷积神经网络模型中由深至浅选择尺寸依次增加一倍、通道数依次减小一半的不同级别语义信息的特征映射层作为特征金字塔网络的基础层，并将所述基础层由深至浅排列。
根据权利要求3所述的方法，其特征在于，步骤A2所述将相邻的两个基础层特征进行融合包括：

A21、将相邻的两个基础层中较深层特征映射按通道切片，平均分为两部分，每部分通道数分别减小至较浅层特征映射通道数；

A22、将切片后的两部分进行通道池化，使较深层特征映射与较浅层特征映射的通道数相等；

A23、对通道池化后的较深层特征映射上采样，将宽和高分别扩大两倍至较浅层特征映射尺寸；

A24、对上采样后的较深层特征映射进行分离式反走样卷积，以消除上采样造成的锯齿状边界；

A25、将进行反走样卷积处理后的深层特征映射与浅层特征映射进行逐像素、逐通道求和，以进行特征融合。
根据权利要求5所述的方法，其特征在于，所述步骤A22包括：

将切片后的两部分较深层特征映射在每一像素的对应通道上取最大值，以使得较深层特征映射与较浅层特征映射的通道数相等。
根据权利要求5所述的方法，其特征在于，所述步骤A23包括：

所述对通道池化后的较深层特征映射上采样时，使用临近插值的方法，将较深层特征映射值在周围复制三份，使得其宽和高分别扩大两倍至较浅层特征映射尺寸。
根据权利要求5所述的方法，其特征在于，所述步骤A24包括：

将较深层特征映射进行卷积核尺寸为3的逐通道卷积操作，以消除上采样造成的锯齿状边界。
一种人脸检测方法，基于权利要求1-8任一项所述方法构建的多尺度轻量级人脸检测模型，其特征在于，包括：

获取包含有人脸的数字图像；

将所述数字图像输入到所述多尺度轻量级人脸检测模型中进行人脸检测，以获取人脸位置及人脸尺寸。