WO2017107957A1

WO2017107957A1 - 人脸图像的检索方法及装置

Info

Publication number: WO2017107957A1
Application number: PCT/CN2016/111533
Authority: WO
Inventors: 陆平; 霍静; 贾霞; 刘金羊; 刘明; 张媛媛
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-12-22
Filing date: 2016-12-22
Publication date: 2017-06-29
Also published as: CN106909870A; WO2017107957A9

Abstract

一种人脸图像的检索方法及装置，该方法包括：通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像，其中，所述特征向量包括属性特征和相似性特征。

Description

人脸图像的检索方法及装置

技术领域

本公开涉及人脸图像识别领域，例如，涉及一种人脸图像的检索方法及装置。

背景技术

随着社会的不断发展以及多方面对于快速有效的自动身份验证的迫切要求，生物特征识别技术在近几十年中得到了飞速的发展。其中人脸识别技术的研究吸引了大批研究者。人脸识别技术应用非常广泛，如协助公安部门刑侦破案，机器自动进行身份验证，视频监控跟踪识别，人脸面部表情分析等等。当前很多国家展开了有关人脸识别的研究，人脸识别的方法包括模板匹配、示例学习、神经网络、基于隐马尔可夫模型的方法以及基于支持向量机的方法。

在计算机人脸识别中，可以将那些通过大量图像数据简单处理后获得的特征定义为低层次特征，而将线、面、模式等描述特征定义为高层次特征。图像主成分分析(Principal Component Analysis，PCA)特征、小波变换特征及一些统计特征均属低层次特征的范畴，而人脸部件形状分析的结果则为高层次特征。采用男性，女性，微笑，黑发，带眼镜等属性进行人脸识别能获得不错的结果。此外，利用和一个人脸的相似性数据也可以进行人脸识别。户外脸部检测图库(Labeled Faces in the Wild，LFW)和哥伦比亚大学公众人物脸部图库(Public Figures Face Database，Pubfig)是两个独立的公共数据集，图库中的图片都是在非受控环境下获取的。这两个数据集中的姿势、表情、光照等不同会对人脸识别造成很大影响。相关技术中传统的方法只使用低层次特征进行人脸识别，导致人脸检索效果不佳。

针对相关技术中的上述，目前尚未存在有效的解决方案。

发明内容

本公开提供了一种人脸图像的检索方法及装置，避免了相关技术中使用低层次特征进行人脸识别，导致人脸检索效果不佳的现象。

本公开提供了一种人脸图像的检索方法，包括：通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像，其中，所述特征向量包括属性特征和相似性特征。

可选地，通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度之前，所述方法还包括：

对所述图库中的人脸图像的底层特征进行训练，得到所述人脸图像的属性特征；

对参考人脸图像的底层特征进行训练，得到相似性特征；以及

将所述属性特征与所述相似性特征作为所述图库中每幅人脸图像的特征向量。

可选地，所述对所述图库中的人脸图像的底层特征进行训练，得到所述人脸图像的属性特征包括：

对所述图库中每幅人脸图像中的关键点进行检测，其中，所述关键点包括：双眼的四个眼角、鼻尖以及嘴巴两端；

依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的底层特征；以及

利用属性分类器对不同区域的多个所述人脸底层特征进行分类学习得到不同类型的所述属性特征。

可选地，对图库中的参考人脸图像的底层特征进行训练，得到相似性特征包括：

对所述第一预定数量的参考人脸图像的关键点进行检测，其中，所述关键点包括：双眼四个眼角、鼻尖以及嘴巴两端；

依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征，得到与人脸不同区域对应的数据集；以及

利用相似性分类器对所述数据集进行分类学习得到所述相似性特征。

可选地，所述属性分类器和所述相似性分类器包括：支持向量机SVM分类器。

可选地，通过预设规则计算待检索图像的特征向量与所述图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像包括：

获取所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量；

对所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量进行距离计算，所述距离计算的方法包括：余弦距离方法或欧式距离方法；以及

对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为所述待检索图像的匹配图像。

本公开还提供一种人脸图像的检索装置，包括：

检索模块，设置为通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像，其中，所述特征向量包括属性特征和相似性特征。

可选地，所述检索装置还包括：

第一语义特征提取模块，设置为对图库中的人脸图像的底层特征进行训练得到所述人脸图像的属性特征；

第二语义特征提取模块，设置为对参考人脸图像的底层特征进行训练得到相似性特征；以及

处理模块，设置为将所述属性特征与相似性特征作为所述图库中每幅人脸图像的特征向量。

可选地，所述第一语义特征提取模块包括：

第一检测单元，设置为对所述图库中的人脸图像中的关键点进行检测，其中，所述关键点包括：双眼的四个眼角、鼻尖以及嘴巴两端；

第一处理单元，设置为依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征；以及

第二语义特征提取单元，设置为利用属性分类器对不同区域的多个所述人脸底层特征进行分类学习得到不同类型的所述第一数量的属性特征。

可选地，所述第二语义特征提取模块包括：

第二检测单元，设置为对所述参考人脸图像的第一预定数量的关键点进行检测，其中，所述关键点包括：双眼四个眼角、鼻尖以及嘴巴两端；

第二处理单元，设置为依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征，得到与人脸不同区域对应的数据集；以及

第二语义特征提取单元，设置为利用相似性分类器对所述数据集进行分类学习得到所述相似性特征。

可选地，所述检索模块包括：

获取单元，设置为获取所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量；

计算单元，设置为对所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量进行距离计算，所述距离计算的方法包括：余弦距离方法或欧式距离方法；以及

检索单元，设置为对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为所述待检索图像的匹配图像。

本公开还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述的方法。

本公开还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述方法。

在本公开中，通过待检索图像与图库中人脸图像的特征向量比较，检索出与待检索图像匹配的一个或多个图像，即是通过待检索图像与图库中的人脸图像的特征向量进行比较，该特征向量包括属性特征与相似性特征，而属性特征与相似性特征都属于高层次特征，因此匹配出来的结果与待检索图像的匹配度高，减少了相关技术中使用低层次特征进行人脸识别，导致人脸检索效果不佳的现象，提高了人脸检索的效率与匹配度。

附图说明

此处所说明的附图用来提供对本公开的可选理解，构成本申请的一部分，本公开的示意性实施例及说明用于解释本发明，并不构成对本公开的不当限定。在附图中：

图1是本发明实施例的人脸图像的检索方法的流程图；

图2是本发明实施例的人脸图像的检索装置的结构框图；

图3是本发明实施例的人脸图像的检索装置的可选结构框图一；

图4是本发明实施例的人脸图像的检索装置的可选结构框图二；

图5是本发明实施例的人脸图像的检索装置的可选结构框图三；

图6是本发明可选实施例的人脸关键点检测的示意图；

图7是本发明可选实施例的坐标系统示意图；

图8a-8b是本发明可选实施例的人脸图像旋转对齐之前和之后的对比示意图；

图9是本发明可选实施例的相似性图像区域分割的示意图；

图10是本发明可选实施例的属性或相似性特征分类器学习以及特征提取过程示意图；

图11是本发明可选实施例的图片入库以及检索流程示意图；以及

图12是本发明实施例的电子设备的硬件结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本实施例提供了一种人脸图像的检索方法，图1是本发明实施例的人脸图像的检索方法的流程图。

在步骤110中，对图库中的人脸图像的底层特征进行训练得到人脸图像的第一数量的属性特征。

在步骤120中，对图库中第一预定数量的参考人脸图像的底层特征进行训练得到第二数量的相似性特征。

在步骤130中，将第一数量的属性特征与第二数量的相似性特征作为图库中每幅人脸图像的特征向量。

在步骤140中，通过预设规则计算待检索图像的特征向量与所述图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像。

其中，所述图库为人脸检索系统中写入数据库中的人脸图像集合，参考人脸图像为图库中的人脸图像子集合。

通过步骤110至步骤140可知，在本实施例中采用的是对人脸图像的底层特征进行训练得到第一数量的属性特征，此外还对第一预定数量参考人脸图像的指定语义特征进行训练得到第二数量的指定语义特征相对于图库中的人脸图像的属性特征的相似性特征。通过得到的第一数量的属性特征与第二数量的相似性特征得到每幅人脸图像的特征向量，比较待检索图像与图库中图像的特征向量，检索出与待检索图像匹配的一个或多个图像。也就是说，在本实施例中，是通过待检索图像与图库中的人脸图像的特征向量进行比较，该特征向量包括属性特征与相似性特征，而属性特征与相似性特征都属于高层次特征，因此匹配出来的结果与待检索图像的匹配度高，从而解决了相关技术中使用低层次特征进行人脸识别，导致人脸检索效果不佳的问题，提高了人脸检索的效率与匹配度。

对于上述步骤110中涉及到的对图库中的人脸图像的底层特征进行训练得到第一数量的人脸图像的属性特征的方式，在本实施例的可选实施方式中，可以通过如下方式来实现。

在步骤1101中，对图库中每幅人脸图像中的关键点进行检测，其中，关键点包括：双眼的四个眼角、鼻尖以及嘴巴两端。

需要说明的是，上述中涉及到的关键点仅仅是本可选实施例的可选关键点，其他关键点：头发、下巴、耳朵等等都是可以的。也就是说，只要是人脸上的特征都是可以的。

在步骤1102中，依据关键点对人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征。

在步骤1103中，利用属性分类器对不同区域的多个人脸底层特征进行分类学习得到不同类型的第一数量的属性特征。

上述步骤1101至步骤1103，在本实施例的应用场景中，该第一数量可选取值为69，因为人脸属性特征可以包括：男性，女性，微笑，黑发，带眼镜等等，这些都描述了人脸的语义特征，而人脸属性分类器的目标是对人脸图像进行分类，判断该人脸图像是否具有特定的属性。即，在应用场景中，基于上述步骤可以训练微笑、黑发、戴眼镜等69个属性特征的分类器用于表示人脸特征。而属性特征提取就是通过训练得到的属性特征分类器提取人脸的属性特征，也就是通过69个训练好的属性分类器对图像计算得到69个属性值，拼接形成该图像属性特征。

基于上述描述，在本实施例的可选实施方式中，该步骤1101至步骤S1103中涉及到的方式可以是：

抽取属性的底层特征，可以对图库中的每张人脸图像进行人脸检测，关键点定位，获得人脸图像的关键点信息，将人脸图像旋转对齐，根据属性需求对人脸图像进行区域分割(例如眼镜属性对应的区域为眼睛区域，白头发属性对应的区域为头发区域)，不同的属性可能需要分割出不同数目的区域，对分割出的区域提取出该属性该区域有效的底层特征；

将抽取出的底层属性特征分为数量相等的两部分，一半用于训练，一半用于测试(当然这仅仅是举例说明，其他比例也是可以的，可以根据情况进行划分)，如果一个属性使用了多个分割区域可以进行特征拼接，如是否带耳环这个属性可以使用到左右两边耳朵区域，对该底层特征学习相应的支持向量机(Support Vector Machine，SVM)属性分类器，如笑脸属性分类器、黑头发属性分类器、眼镜属性分类器等共69个属性分类器；以及

对依据属性分类器的分类值验证属性分类效果。

步骤120中涉及到的对第一预定数量的参考人脸图像的底层特征进行训练得到第二数量的相似性特征，在本实施例的可选实施方式中，可以通过如下方式来实现。

在步骤1201中，对第一预定数量的参考人脸图像的关键点进行检测，其中，关键点包括：双眼四个眼角、鼻尖以及嘴巴两端。

与上述步骤1101中涉及到的关键点一样，上述中涉及到的关键点仅仅是本可选实施例的可选关键点，其他关键点：头发、下巴、耳朵等等都是可以的。

在步骤1202中，依据关键点对参考人脸图像进行区域划分，抽取得到与不同区域对应的人脸底层特征，得到与指定语义特征对应的数据集。

在步骤1203中，利用相似性分类器对数据集进行分类学习得到第二数量的相似性特征。

其中，在上述涉及到的第一预定数量可以取值为10，基于此，上述步骤1201至步骤1203，在应用场景中，相似性分类器的训练过程可以如下：

选取例如10个参考人，分别对每个参考人单独处理，将每个参考人所有的人脸图片作为正样本，并选择同等数量的其他人脸图片作为负样本，以参考人为单位构成一个数据集；

对每个数据集按照如下过程处理抽取特征，即，可以进行人脸检测以及关键点定位，并将人脸图片旋转对齐，在每张人脸图片上分别分割出眼睛、眉毛、鼻子和嘴巴四个子块，对四个子块分别抽取底层特征，将这个数据集转化成4个新的子数据集，即眼睛数据集、眉毛数据集、嘴巴数据集和鼻子数据集；以及

将每个参考人的每个子数据集进行划分，一半数据作为训练，另一半数据作测试，在训练集上学习SVM模型，在测试集上验证相似性分类器分类效果，将训练产生的模型文件以及特征归一化文件进行保存，用于后续的相似性特征提取。调用训练得到相似性分类器对四个子块分别计算相似性数值，得到40个相似性值。

本实施例中涉及到的属性分类器和相似性分类器可选为SVM属性分类器。

此外，在本实施例的可选实施方式中，步骤140中涉及到的通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据匹配度检索出与待检索图像匹配的一个或多个图像，可以通过如下方式来实现。

在步骤1401中，获取待检索图像的特征向量与图库中每幅人脸图像的特征向量。

在步骤1402中，对待检索图像的特征向量与图库中每幅人脸图像的特征向量进行距离计算，其中，该距离计算的方法，在本可选实施方式可以是余弦距离方法或欧式距离方法。

在步骤1403中，对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为待检索图像的匹配图像。

在应用场景中，上述步骤1401至步骤1403可以是：在得到人脸图像的属性值和相似性值构成的特征向量后，可以进行基于组合人脸属性特征和相似性特征的人脸检索，将获得的69个属性值和40个相似性值拼接作为每幅人脸图像的特征向量，使用大间隔最近邻居(Large Margin Nearest Neighbors，LMNN)算法优化特征向量每一维的权重。使用特征向量和权重便可计算两张人脸的相似度。本实施例采用两个向量夹角的余弦(Cosine)作为向量之间的相似性数值，cos θ取值范围在[-1，+1]，越接近于+1，代表两张人脸图片中的人脸越相似。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例的方法可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本发明的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read-Only Memory，ROM)或随机存取存储器(RandomAccess Memory，RAM)、磁碟、光盘)中，包括一个或多个指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明实施例所述的方法。

在本实施例中还提供了一种人脸图像的检索装置，该装置用于实现上述实施例及可选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件或硬件(或者，软件和硬件)的组合。

图2是本发明实施例的人脸图像的检索装置的结构框图，如图2所示，该装置包括：第一语义特征提取模块22，第二语义特征提取模块24，处理模块26以及检索模块28。其中，第一语义特征提取模块22，设置为对图库中的人脸图像的底层特征进行训练得到第一数量的人脸图像的属性特征。第二语义特征提取模块24，与第一语义特征提取模块22耦合连接，设置为对第一预定数量的参考人脸图像的底层特征进行训练得到第二数量的相似性特征。处理模块26，与第二语义特征提取模块24耦合连接，设置为将第一数量的属性特征与第二数量的相似性特征作为图库中每幅人脸图像的特征向量。检索模块28，与处理模块26耦合连接，设置为通过预设规则计算待检索图像的特征向量与所述图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像。

图3是本发明实施例的人脸图像的检索装置的可选结构框图一，如图3所示，第一语义特征提取模块22包括：第一检测单元32，第一处理单元34以及第二语义特征提取单元36。其中，第一检测单元32，设置为对图库中的人脸图像中的关键点进行检测，其中，关键点为双眼的四个眼角、鼻尖以及嘴巴两端。第一处理单元34，与第一检测单元32耦合连接，设置为依据关键点对人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征。第二语义特征提取单元36，与第一处理单元34耦合连接，设置为利用属性分类器对不同区域的多个人脸底层特征进行分类学习得到不同类型的属性特征。

图4是本发明实施例的人脸图像的检索装置的可选结构框图二，如图4所示，第二语义特征提取模块24包括：第二检测单元42，第二处理单元44以及第二语义特征提取单元46。其中，第二检测单元42，设置为对第一预定数量的参考人脸图像的关键点进行检测，其中，关键点包括：双眼四个眼角、鼻尖以及嘴巴两端。第二处理单元44，与第二检测单元42耦合连接，设置为依据关键点对人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征，得到与指定语义特征对应的数据集。第二语义特征提取单元46，与第二处理单元44耦合连接，设置为利用相似性分类器对数据集进行分类学习得到第二数量的相似性特征。

可选地，本实施例中涉及到的属性分类器和相似性分类器为支持向量机SVM分类器。

图5是本发明实施例的人脸图像的检索装置的可选结构框图三，如图5所示，检索模块28包括：获取单元52，计算单元54以及检索单元56。获取单元52，设置为获取待检索图像的特征向量与图库中每幅人脸图像的特征向量。计算单元54，与获取单元52耦合连接，设置为对待检索图像的特征向量与图库中每幅人脸图像的特征向量进行距离计算，所述距离计算的方法包括：余弦距离方法或欧式距离方法。检索单元56，与计算单元54耦合连接，设置为对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为待检索图像的匹配图像。

上述模块是可以通过软件或硬件来实现的。对于软件实现方式，上述模块可以以软件模块的形式位于一个或多个存储介质中。对于硬件实现方式，上述模块可以均位于同一处理器中；或者，上述模块可以分别位于多个处理器中。

下面结合本发明的可选实施例对本公开进行举例说明；

本可选实施例提供了一种人脸高层语义特征的提取方法，该方法通过属性分类器以及相似性分类器提取人脸的高层语义特征，通过组合人脸属性特征和相似性特征进行人脸相似性度量，实现相似人脸检索，其中，包含人脸属性分类器学习以及人脸属性特征获取方法，人脸相似性分类器学习以及相似性特征获取方法，基于人脸属性特征和相似性特征的人脸检索三个部分，下面对该三个部分进行详细说明。

1.人脸属性分类器学习以及人脸属性特征获取方法可以包括：人脸属性分类器学习方式、属性分类器的训练、人脸相似性分类器学习以及相似性分类器的训练。

在人脸属性分类器学习方式的过程中，人脸属性包括：男性，女性，微笑，黑发，带眼镜等，它描述了人脸的语义特征。人脸属性分类器的可以对人脸图像进行分类，判断该人脸图像是否具有特定属性。例如，在本公开中，共训练了微笑、黑发、戴眼镜等69个属性特征的分类器用于人脸特征的表示。属性特征提取就是通过训练得到的属性特征分类器提取人脸的属性特征，在本实施例中也就是通过69个训练好的属性分类器对人脸图像计算得到69个属性值，拼接形成该人脸图像属性特征。

属性分类器的训练过程可以包括：

获得该属性的标注图像，对每个属性选择一定规模的正例样本和负例样本人脸图片(样本人脸图片对该属性表现明显)，以此作为该属性的标注集；

对标注集中的每张人脸图像进行人脸检测，关键点定位，获得人脸图像的关键点信息，将人脸图片旋转对齐，可以根据属性需求对人脸图像进行区域分割(例如眼镜属性对应的区域为眼睛区域，白头发属性对应的区域为头发区域)，不同的属性可能需要分割出不同数目的区域，对分割出的区域提取出该属性该区域有效的底层特征(如采用局部二值模式(Local Binary Pattern，LBP)算法，Gabor算法等)。

将之前标注集中的正负例图像抽取出的底层属性特征分为数量相等的两部分，一半用于训练，一半用于测试，如果一个属性使用了多个分割区域可以先进行特征拼接，如是否带耳环这个属性可以使用到左右两边耳朵区域，对该底层特征学习相应的SVM属性分类器，如笑脸属性分类器、黑头发属性分类器、眼镜属性分类器等共69个属性分类器，此外生成训练集上的特征归一化文件，将训练产生的模型文件以及特征归一化文件进行保存；以及

对测试集进行同样的归一化处理以及特征拼接后，依据属性分类器的分类值验证属性分类效果。

人脸相似性分类器学习过程可以包括：

相似性分类器的训练目标是训练参考人的五官相似性分类器，根据五官相似分类器对新的人脸图像进行分类，可以判断该人脸的五官与参考人的五官是否相似。

相似性分类器的训练过程可以包括：

选取多个(例如10个)参考人，分别对每个参考人单独处理，将每个参考人所有的图片作为正样本，并选择同等数量的其他人脸图片作为负样本，以参考人为单位构成一个数据集；

进行人脸检测，关键点定位，并将人脸图片旋转对齐，在每张人脸图片上分别分割出眼睛、眉毛、鼻子和嘴巴四个子块，对四个子块分别抽取底层特征(如LBP，Gabor等)，将这个数据集转化成4个新的子数据集，即眼睛数据集、眉毛数据集、嘴巴数据集和鼻子数据集；以及

将每个参考人的多个子数据集进行划分，一半数据作为训练，另一半数据作测试，在训练集上学习SVM模型，在测试集上验证相似性分类器分类效果，将训练产生的模型文件以及特征归一化文件进行保存，用于后续的相似性特征提取。

在属性特征和相似性特征提取中，属性分类器和相似性分类器的特征提取过程是类似的，可以包括：

对于一幅输入图像，可以按照和属性分类器训练中一样的过程对人脸图像进行人脸检测，关键点定位，获得人脸图像的关键点信息，将图片旋转对齐，根据每个属性的需求对人脸图像进行区域分割，并调用训练得到的属性分类器进行分类，得到属性分类器数值，将所有的属性分类数值进行拼接，得到输入图像的人脸属性特征；

对于一幅输入图像提取相似性特征，其过程同提取属性特征类似，可以包括：对人脸图像进行人脸检测，关键点定位，并将人脸图片旋转对齐，在每张人脸图片上分别分割出眼睛、眉毛、鼻子和嘴巴四个子块，对四个子块分别抽取底层特征，调用训练得到相似性分类器对四个子块分别计算相似性数值，将所有的相似性数值进行拼接，得到输入图像的人脸相似性特征；以及

对输入图像的属性特征和相似性特征进行拼接，这样就得到了这张图像的69个属性值和40个相似性值构成的一个特征向量。

在基于属性特征和相似性特征组合的人脸检索中，在得到人脸图像的属性值和相似性值构成的特征向量后，可以进行基于组合人脸属性特征和相似性特征的人脸检索，如下：

将获得的69个属性值和40个相似性值拼接作为每幅人脸图像的特征向量，使用LMNN算法优化特征向量每一维的权重。使用特征向量和权重便可计算两张人脸的相似度。本公开中，可以采用两个向量夹角的余弦(Cosine)作为向量之间的相似性数值，cosθ取值范围在[-1，+1]，越接近于+1，代表两张人脸图片中的人脸越相似。

下面结合附图对本发明可选实施例进行详细的说明。

本可选实施例中的算法每个部件采用的技术方案可以包括：人脸关键点检测、图像预处理、图像区域分割、特征抽取、以及分类器训练。

(1)关键点检测；

图6是本发明可选实施例的人脸关键点检测的示意图，如图6所示，本可选实施例中采用flandmark(开源实现面部地标探测器)进行快速人脸关键点检测，检测点可以为眼角、鼻尖和嘴巴两端这7个关键点。

(2)图像预处理；

图像预处理是对原始人脸图像的旋转和对齐。根据得到的关键点的数据可以定位得到双眼瞳孔位置信息。由于旋转后的人脸的瞳孔应该在一条直线上，即瞳孔坐标的X值应该相等，进而可以计算旋转的角度。旋转后的图像保存为250像素*250像素大小，不足的部分用黑色填充。

本可选实施例中采用的坐标系统与通常的坐标系不同，水平方向从左向右为y轴，垂直方向从上向下为x轴。

假设一幅图像，左右眼睛的坐标分别为(plx，ply)和(prx，pry)，两眼之间连线的中点坐标为(mx，my)，两眼瞳孔之间的距离为d。此时图像放缩比例ratio＝d/dd(dd可以默认为75)。两眼连线与y轴之间的夹角为θ，两眼连线的斜率为k。图7是本发明可选实施例的坐标系统示意图，如图7所示，椭圆代表眼睛的位置。

要从原人脸图像中分割出符合人脸标准图像，可以对人脸图像进行以下处理：旋转θ度，使得两眼连线与y轴重合；进行图像缩放，使得两眼距离为dd；以及移动人脸图像，使得两眼中点移动到(mx，my)。

图8a-8b是本发明可选实施例的人脸图像旋转对齐之前和之后的对比示意图，其中，图8a是旋转之前，图8b是旋转之后；

(3)区域分割；

图像区域分割，以分割眼睛为例，找到左眼角的关键点坐标pLeftIndex和右眼角的关键点坐标pRightIndex，根据这两点的坐标可以计算出它们的中点

以这个中点为矩形的中心点，定义中心点到矩形左右边界的距离为centerToLeft，到矩形上下边界的距离为centerToUp，以及定义图像的宽为width，高为height，根据中心点位置以及centerToUp和centerToLeft可以得到分割区域左上角的坐标，根据左上角坐标以及宽和高的信息，就得到了包含分割的眼睛区域信息的人脸图像。

(4)特征提取；

特征抽取可以用Gabor小波变换提取图像块的特征。在特征提取方面，Gabor小波变换处理的数据量较少，能满足系统的实时性要求，小波变换对光照变化不敏感，且能容忍一定程度的图像旋转和变形，当采用基于夹角余弦距离进行识别时，特征模式与待测特征不需要严格的对应，故能提高系统的鲁棒性。因此，在人脸识别的过程中可以采用Gabor小波变换方法对图像进行特征提取。

(5)SVM分类器；

SVM分类器训练使用了LIBSVM。LIBSVM是一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，是一个实现了支持向量机SVM算法的库。使用LIBSVM中，可以训练一个数据集获得分类模型，以及使用模型预测测试数据集的类标。SVM分类器可以在特征空间中找到一个最大化间隔的分离超平面，将不同的类分开。

2.属性分类器相似性分类器具体实施方式；在属性分类器的实施方式中，属性分类器采用了LFW(Labeled Faces in the Wild)数据集，对表1中69个属性中的每个属性，可以从LFW数据集中挑选出符合这个属性和不符合这个属性的人脸图片各1000张(建议不少于这个数目)，对每张人脸图片都进行标记，如符合该属性标记为+1，如不符合则标记为-1。分割出属性对应的区域，见表2。因为一些属性可以使用相同的分割区域，所以69个属性可以缩减对应到19个区域。对所用人脸图片抽取Gabor小波变换特征。使用LIBSVM对每个属性进行训练。

表1

Male/男性	Eyes Open/睁眼
Asian/亚洲人	Big Nose/大鼻子
White/白人	Pointy Nose/尖鼻子
Black/黑人	Big Lips/大嘴唇
Child/儿童	Mouth Closed/张嘴
Youth/青年	Mouth Slightly Open/轻微张嘴
Middle Aged/中年	Mouth Wide Open/张大嘴
Senior/较年长者	Teeth Not Visible/牙齿不可见
Black Hair/黑发	No Beard/没胡须
Blond Hair/金发碧眼	Goatee/山羊胡子
Brown Hair/棕发	Round Jaw/圆下巴
Bald/秃顶	Double Chin/双下巴
No Eyewear/不戴眼镜	Wearing Hat/戴帽子
Eyeglasses/戴眼镜	Oval Face/椭圆形脸
Sunglasses/戴太阳镜	Square Face/方脸
Mustache/胡子	Round Face/圆脸
Smiling/笑	Frowning/皱眉
Narrow Eyes/窄眼	Chubby/丰满
Blurry/模糊	Gray Hair/灰发
Harsh Lighting/光照刺目	Bags Under Eyes/眼袋
Soft Lighting/光照柔和	Heavy Makeup/浓妆

Curly Hair/卷毛	Rosy Cheeks/玫瑰色面颊
Wavy Hair/波浪形头发	Shiny Skin/皮肤有光泽
Straight Hair/直发	Pale Skin/皮肤苍白
Receding Hairline/高发际线	Five O’Clock Shadow/满脸胡须
Bangs/刘海	Strong Nose-Mouth Lines/明显的鼻嘴间线
Sideburns/连鬓胡子	Wearing Lipstick/涂口红
Fully Visible Forehead/裸露额头	Flushed Face/面露激动
Partially Visible Forehead/半露额头	High Cheekbones/高颧骨
Obstructed Forehead/不露额头	Brown Eyes/灰色眼睛
Bushy Eyebrows/眉毛浓密	Wearing Earrings/戴耳环
Arched Eyebrows/弧形眉毛	Wearing Necktie/戴领带
Posed Photo/摆姿势	Wearing Necklace/戴项链
Attractive Man/吸引人的男性	Indian/印度人
Attractive Woman/吸引人的女性

表2

在相似性分类器的实施方式中，相似性分类器可以采用了PubFig(Public Figures Face Database)数据集，从PubFig图像库中选出10个具有代表性的人，每个人的人脸图片要不少于150张，分割出相似分类器所需的眼睛、眉毛、鼻子和嘴巴四个区域，图9是本发明可选实施例的相似性图像区域分割的示意图，如图9所示，这样总共可以得到40个区域，分别提取特征。以第一个参考人的眼睛区域为例，把他自己的眼睛区域作为正例，标记为+1。另外从图库中挑选出不是这个人的人脸图片(建议是多个不同人)，张数大致等于这个参考人所有人脸图片的张数，分割出眼睛区域，提取特征，作为负例，标记为-1。同样对分割的区域提取Gabor小波变换特征。使用LIBSVM训练得到40个相似性分类器。

3.计算输入图片的属性特征和相似性特征以及特征权重学习，可以包括：

对输入图片进行人脸关键点检测，图像预处理，图像区域分割，特征抽取操作，19个区域得到19个区域特征；

对69个属性和40个相似性分类器模型，通过LIBSVM的svmpredict()函数可以得到对应的值，这样就得到了这张图像的69个属性值和40个相似性值，对属性值和相似性值进行组合，得到这幅图片的特征向量

以及

在输入的已标记人员类标的图片集上(采用的LFW数据集)，对图片集上提取的属性特征和相似性特征，使用LMNN算法优化特征向量每一维的权重，得到

4.人脸检索实施过程；

对检索图库所有人脸图片进行处理得到每张人脸图片的109维特征向量；

对新输入的待检索图片也同样处理得到109维特征向量；以及

计算人脸图片相似性，这里采用夹角余弦，对于两个向量

和

其中，上述公式中，<x，y>表示求两个向量x和y之间的内积，||·||表示求向量的模，sim(v_i，v_j)取值范围在[-1，+1]，越接近于+1，代表两张人脸图片中的人脸越相似。对待检索图片的特征向量和检索库中所有人脸图片的特征向量求夹角余弦，取余弦值最大的前N(可以默认为1000)张图片。被选出的取值靠前的图片中的人被认为最可能和输入图片中的是同一人。

本可选实施例中的人脸属性分类器学习以及属性特征获取，人脸相似性分类器学习以及相似性特征获取的流程，图10是本发明可选实施例的属性或相似性特征分类器学习以及特征提取过程示意图，如图10所示，该提取过程包括：属性或相似性分类器训练过程和属性或相似性分类器提取过程。

其中，属性或相似性分类器训练过程的步骤包括：

带标记图库；

快速人脸关键点检测；

图像预处理；

图像区域分割；

特征抽取；以及

SVM分类训练和测试。

属性或相似性分类器提取过程的步骤可以包括：

测试或检索图片；

快速人脸关键点检测；

图像预处理；

图像区域分割；

特征抽取；以及

计算属性或相似性值。

需要说明的是，属性分类器和相似性分类器的区别在于SVM分类器训练和测试部分，属性分类器中符合该属性标记为+1，如不符合则标记为-1；相似性分类器中当前参考人标记为+1，其他人标记为-1。

图11是本发明可选实施例的图片入库以及检索流程示意图，如图11所示，该过程可以包括：图片存入数据库流程和检索流程；

其中，图片存入数据库流程可以包括：

检索图库；

计算属性和相似性特征值；

属性或相似性特征组合；以及

人像属性或相似性特征数据库；该步骤执行完之后执行属性或相似性特征组合。

检索流程可以包括：

待检索图片；

计算属性和相似性特征值；

属性或相似性特征组合；

特征比对；以及

检索结果或最相似图片。

需要说明的是，最终特征向量可以是包含69个属性值和40个相似性值的109维向量。

本发明的实施例还提供了一种非暂态计算机可读存储介质。可选地，在本实施例中，上述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令可以被设置为执行上述任一人脸图像的检索方法。

本公开还提供了一种电子设备的硬件结构示意图。参见图12，该电子设备包括：

至少一个处理器(Processor)120，图12中以一个处理器120为例；和存储器(Memory)121，还可以包括通信接口(Communications Interface)122和总线123。其中，处理器120、通信接口122、存储器121可以通过总线123完成相互间的通信。通信接口122可以用于信息传输。处理器120可以调用存储器121中的逻辑指令，以执行人脸图像的检索方法。

此外，上述的存储器121中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器121作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器120通过运行存储在存储器121中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现人脸图像的检索方法。

存储器121可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

本领域的技术人员应该明白，上述的本发明的模块或步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成多个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。

工业实用性

本公开提供的人脸图像的检索方法及装置，减少了相关技术中使用低层次特征进行人脸识别，导致人脸检索效果不佳的现象，提高了人脸检索的效率与匹配度。

Claims

一种人脸图像的检索方法，包括：

通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像，其中，所述特征向量包括属性特征和相似性特征。
根据权利要求1所述的方法，通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度之前，所述方法还包括：

对所述图库中的人脸图像的底层特征进行训练，得到所述人脸图像的属性特征；

对参考人脸图像的底层特征进行训练，得到相似性特征；以及

将所述属性特征与所述相似性特征作为所述图库中每幅人脸图像的特征向量。
根据权利要求2所述的方法，其中，所述对所述图库中的人脸图像的底层特征进行训练，得到所述人脸图像的属性特征包括：

对所述图库中每幅人脸图像中的关键点进行检测，其中，所述关键点包括：双眼的四个眼角、鼻尖以及嘴巴两端；

依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的底层特征；以及

利用属性分类器对不同区域的多个所述人脸底层特征进行分类学习得到不同类型的所述属性特征。
根据权利要求2所述的方法，其中，对图库中的参考人脸图像的底层特征进行训练，得到相似性特征包括：

对所述第一预定数量的参考人脸图像的关键点进行检测，其中，所述关键点包括：双眼四个眼角、鼻尖以及嘴巴两端；

依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征，得到与人脸不同区域对应的数据集；以及

利用相似性分类器对所述数据集进行分类学习得到所述相似性特征。
根据权利要求3或4所述的方法，其中，所述属性分类器和所述相似性分类器包括：支持向量机SVM分类器。
根据权利要求1所述的方法，其中，通过预设规则计算待检索图像的特征向量与所述图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像包括：

获取所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量；

对所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量进行距离计算，所述距离计算的方法包括：余弦距离方法或欧式距离方法；以及

对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为所述待检索图像的匹配图像。
一种人脸图像的检索装置，包括：

检索模块，设置为通过预设规则计算待检索图像的特征向量与图库中每幅人脸图像的特征向量的匹配度，依据所述匹配度检索出与所述待检索图像匹配的一个或多个图像，其中，所述特征向量包括属性特征和相似性特征。
根据权利要求6所述的装置，还包括：

第一语义特征提取模块，设置为对图库中的人脸图像的底层特征进行训练得到所述人脸图像的属性特征；

第二语义特征提取模块，设置为对参考人脸图像的底层特征进行训练得到相似性特征；以及

处理模块，设置为将所述属性特征与相似性特征作为所述图库中每幅人脸图像的特征向量。
根据权利要求7所述的装置，其中，所述第一语义特征提取模块包括：

第一检测单元，设置为对所述图库中的人脸图像中的关键点进行检测，其中，所述关键点包括：双眼的四个眼角、鼻尖以及嘴巴两端；

第一处理单元，设置为依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征；以及

第二语义特征提取单元，设置为利用属性分类器对不同区域的多个所述人脸底层特征进行分类学习得到不同类型的所述第一数量的属性特征。
根据权利要求6所述的装置，其中，所述第二语义特征提取模块包括：

第二检测单元，设置为对所述参考人脸图像的第一预定数量的关键点进行检测，其中，所述关键点包括：双眼四个眼角、鼻尖以及嘴巴两端；

第二处理单元，设置为依据所述关键点对所述人脸图像进行区域的划分，并抽取得到与不同区域对应的人脸底层特征，得到与人脸不同区域对应的数据集；以及

第二语义特征提取单元，设置为利用相似性分类器对所述数据集进行分类学习得到所述相似性特征。
根据权利要求9或10所述的装置，其中，所述属性分类器和所述相似性分类器包括：支持向量机SVM分类器。
根据权利要求8所述的装置，其中，所述检索模块包括：

获取单元，设置为获取所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量；

计算单元，设置为对所述待检索图像的特征向量与所述图库中每幅人脸图像的特征向量进行距离计算，所述距离计算的方法包括：余弦距离方法或欧式距离方法；以及

检索单元，设置为对多个计算结果按照从大到小的规则进行排序，并从排序后的计算结果中选择取值靠前的第二预定数量的计算结果对应的人脸图像作为所述待检索图像的匹配图像。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行权利要求1-6中任一项的方法。