WO2018072102A1

WO2018072102A1 - 一种人脸图像中眼镜去除方法及装置

Info

Publication number: WO2018072102A1
Application number: PCT/CN2016/102458
Authority: WO
Inventors: 谭文伟; 林倞; 张冬雨
Original assignee: 华为技术有限公司
Priority date: 2016-10-18
Filing date: 2016-10-18
Publication date: 2018-04-26
Also published as: CN109416727B; CN109416727A

Abstract

一种人脸图像中眼镜去除的方法及装置，用以解决现有技术中存在的戴眼镜的人脸图像在眼镜去除后，眼镜所在的点的像素值为0，人脸信息丢失的问题。所述人脸图像中眼镜去除方法包括：获取待检测图像（S101）；通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征（S102）；通过所述深度卷积神经网络模型的第二卷积层确定所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征（S103）；通过所述深度卷积神经网络模型的第一反卷积层修正经过过滤的人脸面部特征（S104）；通过所述深度卷积神经网络模型的第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像（S105）。

Description

一种人脸图像中眼镜去除方法及装置

技术领域

本发明涉及人脸识别技术领域，特别涉及一种人脸图像中眼镜去除方法及装置。

背景技术

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。但是人脸识别过程中受很多因素的干扰，主要包括光照，姿态和遮挡。眼镜是人脸图像中最为常见的遮挡物，对识别率有着很大的影响。为了降低眼镜对识别率的影响，目前针对带眼镜遮挡的人脸识别系统主要采用去除眼镜的方法。

现有技术中对人脸图像中的眼镜提取和摘除最常用的方法为基于主成分分析法(英文：Principle Component Analysis，简称：PCA)重构的眼镜摘除技术。，基于PCA重构的眼镜摘除技术是使用不戴眼镜的人脸图像来训练出变换矩阵U，变换矩阵U的行向量张成的特征空间是无噪声的空间。对于一张戴眼镜的测试人脸图像K，首先将人脸图像K变换到由变换矩阵U的行向量张成的特征空间上得到人脸图像K'，最后利用PCA重构技术把K'变换到不戴眼镜的图像所在空间从而得到人脸图像K″，人脸图像K″即为K经过眼镜摘除技术后的人脸图像。

眼镜被摘除的人脸图像K″相比于戴眼镜的测试人脸图像K，眼镜所在的点的像素值为0，造成信息丢失，因此为进一步的人脸识别过程带来很大的困难。

发明内容

本发明实施例提供一种人脸图像中眼镜去除的方法及装置，用以解决现有技术中存在的戴眼镜的人脸图像在眼镜去除后，眼镜所在的点的像素值为0，人脸信息丢失的问题。

第一方面，本发明实施例提供了一种人脸图像中眼镜去除的方法，该方法可以应用于电子设备，包括：

电子设备获取待检测图像后，即获取到佩戴眼镜的人脸图像后，通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征；然后通过所述深度卷积神经网络模型的第二卷积层确定所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；之后通过所述深度卷积神经网络模型的第一反卷积层修正经过过滤的人脸面部特征；最后通过所述深度卷积神经网络模型的第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。

本发明实施例基于深度卷积神经网络的方式，通过设计包含反卷积神经网络的结构，从大量的训练样本中学习出有效的特征表达，训练出能够有效去除人脸照片中眼镜部分的网络模型，实现配戴眼镜的人脸图像中的眼镜去除。相比于现有技术中基于主成分分析法(英文：Principle Component Analysis，简称：PCA)重构的眼镜摘除技术，深度卷积神经网络模型在移除眼镜的同时能够使人脸信息完整。

在一种可能的设计中，所述第一反卷积层的卷积核尺寸与所述第二卷积层的卷积核尺寸相等，所述第二反卷积层的卷积核尺寸与所述第一卷积层的卷积核尺寸相等。

优选的，卷积层与反卷积层所用的卷积核尺寸模型为r×r模型，为了减少深度神经卷积网络模型的计算量，所述r可以设置为大于等于3且小于30的奇数。

需要说明的是，所述第一卷积层的滤波通道数量为a，所述第二卷积层的滤波通道数量为b，所述第一反卷积层的滤波通道数量为c，所述第二反卷积层的滤波通道数量为d，所述a,b,c均为大于等于1且小于等于100的正整数，所述d取值为3。

在一种可能的设计中，所述深度卷积神经网络模型通过如下方式训练得到：

将M*N个合成人脸图像输入初始化的深度卷积神经网络模型进行迭代处理；所述初始化的深度卷积神经网络模型包括权重和偏置；所述M*N个合成人脸图像由M个未佩戴眼镜的人脸图像与N个眼镜图像合成得到的；其中，M，N均为大于1的正整数；

在第k次迭代后，获取所述合成人脸图像的未佩戴眼镜的人脸图像与第k次迭代后得到的图像之间的误差值；所述k为取遍不大于M*N-1的正整数；

基于所述误差值，调整第k+1次迭代过程所使用的权重和偏置。

在一种可能的设计中，所述M*N个合成人脸图像通过如下方式得到：

获取M个所述未佩戴眼镜的人脸图像，并获取N个所述眼镜图像；

针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，使第a个眼镜图像中左眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中左眼的中心坐标相同，所述第a个眼镜图像中右眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中右眼的中心坐标相同；所述a取遍小于或者等于N的所有正整数，所述b取遍小于或者等于M的所有正整数；

将所述第b个未佩戴眼镜的人脸图像中重合位置的像素替换为所述第a个眼镜图像中所述重合位置的像素得到一个合成人脸图像，所述重合位置为所述未佩戴眼镜的人脸图像与所述眼镜图像坐标相同的像素的位置。

具体的，将所述第a个眼镜图像采用矩阵M进行仿射变换得到变换图片，将所述变换图片与所述第b个未佩戴眼镜的人脸图像做对齐处理并将所述变换图片覆盖到所述第b个未佩戴眼镜的人脸图像上得到结果图片，所述对齐处理为将所述变换图片中左眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中左眼的中心坐标重合，所述变换图片中右眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中右眼的中心坐标重合。

若所述变换图片的所有像素点的透明度均为0，则所述结果图片为所述第b个未佩戴眼镜的人脸图像；若述变换图片包括透明度不为0的像素点，则所述结果图片为合成的戴眼镜的人脸图像。

本发明实施例基于合成训练样本的方式，将M个未佩戴眼镜的人脸图像与N个眼镜图像合成得到M*N个合成人脸图像。相比于现有技术中收集大量训练样本，合成训练样本的方式效率高，节省了大量的人力物力资源。

在一种可能的设计中，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，符合下述公式要求：

其中，

θ表示第一连线和第二连线的夹角，第一连线表示所述第a个眼镜图像的左眼镜框的中心坐标与右眼镜框的中心坐标的连线，第二连线表示所述第b个未佩戴眼镜的人脸图像的左眼的中心坐标与右眼的中心坐标的连线；

(x₁,y₁)表示所述左眼镜框的中心坐标、(x₂,y₂)表示所述右眼镜框的中心坐标、(x₃,y₃)表示所述左眼的中心坐标、(x₄,y₄)表示所述右眼的中心坐标；

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

s＝d₂/d₁，

当y₅>y₆时，θ＝α，否则θ＝-α。

在一种可能的设计中，在获取待检测图像之后，通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征之前，还包括：

对所述待检测图像执行归一化处理。

在一种可能的设计中，对所述待检测图像执行归一化处理，包括：

获取所述人脸图像的人脸特征点，所述人脸特征点包括两个眼中心点以及两个嘴角点；

基于所述人脸图像的人脸特征点对所述人脸图像进行处理，处理后得到的人脸图像满足

且所述处理后得到的人脸图像的中心点为p点；

其中，r表示所述两个眼中心点中其中一个眼中心点到两个嘴角点中的其中一个嘴角点的距离；w表示经过处理后得到的所述人脸图像的高度值，h表示经过处理后得到的所述人脸图像的宽度值；d小于1且大于0；p表示由所述两个眼中心点以及两个嘴角点所构成的四边形的中心点。

对待检测图像执行归一化处理使所有待检测图像处于同样的大小与角度，从而提高所述深度卷积神经网络模型的精度。

在一种可能的设计中，在第一卷积层提取所述待检测图像中的人脸面部特征之后，通过第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征之后，还包括：

通过所述深度卷积神经网络模型的参数化修正线性单元层对图像的每个像素点进行非线性操作；

所述非线性操作符合下述公式要求：

其中，x_i表示图像的第i个像素点的像素值，y_i表示非线性操作后输出的图像的第i个像素点的像素值，a_i表示y_i与x_i连接的参数。

通过上述设计，采用参数化修正线性单元使得训练速度加快以及精度提高。

第二方面，本发明实施例提供了一种人脸图像中眼镜去除的装置，包括：

获取模块，用于获取待检测图像，所述待检测图像为佩戴眼镜的人脸图像；

深度卷积神经网络模型，用于去除所述获取模块获取的所述待检测图像中的眼镜特征，所述深度卷积神经网络模型依次包括第一卷积层，第二卷积层，第一反卷积层，第二反卷积层；

所述第一卷积层，用于提取所述获取模块获取的所述待检测图像中的人脸面部特征；

所述第二卷积层，用于确定所述第一卷积层提取的所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；

所述第一反卷积层，用于修正所述第二卷积层确定的所述经过过滤的人脸面部特征；

所述第二反卷积层，用于生成所述第一反卷积层得到的所述修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。

在一种可能的设计中，所述人脸图像中眼镜去除装置还包括：

训练模块，用于通过如下方式训练得到所述深度卷积神经网络模型：

在一种可能的设计中，所述装置还包括：

构建单元，用于将M个未佩戴眼镜的人脸图像与N个眼镜图像合成用于训练所述深度卷积神经网络模型的M*N个合成人脸图像。

在一种可能的设计中，所述构建单元，具体用于：

在一种可能的设计中，所述构建单元，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理时，符合下述公式要求：

其中，

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

s＝d₂/d₁，

当y₅>y₆时，θ＝α，否则θ＝-α。

归一化模块，用于在所述获取模块获取所述待检测图像之后，在第一卷积层提取所述获取模块获取的所述待检测图像中的人脸面部特征之前，还包括：

归一化模块，用于对所述获取模块获取的所述待检测图像执行归一化处理。

在一种可能的设计中，所述归一化模块，具体用于：

且所述处理后得到的人脸图像的中心点为p 点；

在一种可能的设计中，在所述深度卷积神经网络模型依次包括的第一卷积层、第二卷积层、第一反卷积层以及第二反卷积层的任意两个层之间包括参数化修正线性单元层：

参数化修正线性单元层，用于对图像的每个像素点进行非线性操作；

所述非线性操作符合下述公式要求：

其中，x_i表示图像的第i个像素点的像素值，y_i表示非线性操作后输出的图像的第i个像素点的像素值，a_i表示y_i与x_i之间的转换参数。a_i为预设参数。

本发明实施例基于深度卷积神经网络的方式，通过设计包含反卷积神经网络的结构，从大量的训练样本中学习出有效的特征表达，训练出能够有效去除人脸照片中眼镜部分的网络模型，实现配戴眼镜的人脸图像中的眼镜去除。相比于现有技术中基于主成分分析法(英文：Principle Component Analysis，简称：PCA)重构的眼镜摘除技术，深度卷积神经网络模型在移除眼镜的同时能够使人脸信息完整。并采用合成训练样本的方式，将M个未佩戴眼镜的人脸图像与N个眼镜图像合成得到M*N个合成人脸图像。相比于现有技术中收集大量训练样本，合成训练样本的方式效率高，节省了大量的人力物力资源。

第三方面，本发明实施例还提供了一种深度卷积神经网络模型，该模型包括第一卷积层，第二卷积层，第一反卷积层，第二反卷积层；所述第一卷积层，用于提取所述获取模块获取的待检测图像中的人脸面部特征；所述第二卷积层，用于确定所述第一卷积层提取的所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；所述第一反卷积层，用于修正所述第二卷积层确定的所述经过过滤的人脸面部特征；所述第二反卷积层，用于生成所述第一反卷积层得到的所述修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。

第四方面，本发明实施例还提供了一种人脸图像中眼镜去除的装置，包括：

处理器、存储器以及采集器。

存储器用于存储处理器所需执行的程序代码。采集器用于获取人脸图像。处理器用于执行存储器所存储的程序代码，具体用于执行第一方面或第一方面的任一种设计所述的方法。

第五方面，本发明实施例还提供了一种计算机可读存储介质，用于存储为执行上述第一方面、第一方面的任意一种设计的功能所用的计算机软件指令，其包含用于执行上述第一方面、第一方面的任意一种设计的方法所设计的程序。

附图说明

图1为本发明实施例提供的一种人脸图像中眼镜去除的流程图；

图2为本发明实施提供的一种定位眼镜左右眼镜框中心坐标点的示意图；

图3为本发明实施提供的一种定位左右眼中心坐标点的示意图；

图4为本发明实施提供的一种人脸照片眼镜摘除的流程示意图；

图5为本发明实施提供的一种去除眼镜前后的对比图；

图6为本发明实施提供的一种人脸图像中眼镜去除装置；

图7为本发明实施提供的一种深度卷积神经网络模型的结构示意图；

图8为本发明实施提供的一种终端优选的实现方式的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例提供一种人脸图像中眼镜去除的方法，用以解决现有技术中存在的戴眼镜的人脸图像在眼镜去除后，眼镜所在的点的像素值为0，人脸信息丢失的问题。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

本发明实施例可以应用的场景包括但不限于：刷脸支付，安检时的身份认证，签到等。

本发明实施例可以应用于电子设备中，比如计算机，平板电脑、笔记本、智能手机、服务器等。

为了使得本申请的实施例更容易被理解，下面，首先对本申请的实施例中涉及的一些描述加以说明，这些说明不应视为对本发明所要求的保护范围的限定。

卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。在本发明实施例中，神经元可以认为是一个一个的像素。

多个，是指两个或两个以上。

在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

下面结合附图对本发明优选的实施方式进行详细说明。

参阅图1所示，为本发明实施例提供的人脸图像中眼镜去除的流程图，所述方法由电子设备执行，具体可以包括如下：

S101，获取待检测图像，所述待检测图像为佩戴眼镜的人脸图像。

需要说明的是，在步骤S101中，获取待检测图像的方式包括但不限于：

通过传感设备采集待检测图像。

所述传感设备包括但不限于：光线传感设备、摄像设备、采集设备等。

S102，通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征。

S103，通过所述深度卷积神经网络模型的第二卷积层确定所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征。

其中，所述第一卷积层的卷积核尺寸大于所述第二卷积层的卷积核尺寸。

S104，通过所述深度卷积神经网络模型的第一反卷积层修正经过过滤的人脸面部特征。

S105，通过所述深度卷积神经网络模型的第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。

可选的，所述第一反卷积层的卷积核尺寸与所述第二卷积层的卷积核尺寸相等，所述第二反卷积层的卷积核尺寸与所述第一卷积层的卷积核尺寸相等。

本发明实施例采用卷积层的卷积核尺寸与反卷积层的卷积核尺寸对称相等的设计方式，保证了针对待检测图像的特征提取与生成处理的有效性。

可选的，所述深度卷积神经网络模型在所述第一卷积层之前还包括输入层，所述输入层的滤波通道数为3。电子设备在获取到的待检测图像后，通过所述输入层将待检测的图像进行处理得到仅包括红色(英文：red，简称：R)元素的图像、绿色(英文：green，简称：G)元素的图像、蓝色(英文：blue，简称：B)元素的图像。再将得到R元素的图像、G元素的图像、B元素的图像输入到所述第一卷积层。所述深度卷积神经网络模型还可以针对明亮度色度YUV元素分别提取元素特征生成图像。

具体的，所述第一卷积层的滤波通道数量为a′a，所述第二卷积层的滤波通道数量为b′b，所述第一反卷积层的滤波通道数量为e′c，所述第二反卷积层的滤波通道数量为d′d，所述a′a，b′b，e′c均为大于等于1且小于等于100的正整数，所述d′取值为3。

具体的，卷积层的输入和输出均有多张特征图，所述卷积层包括所述第一卷积层和所述第二卷积层，所述特征图为经过滤波通道处理得到的图像，例如待检测图像通过所述输入层的3个滤波通道得到3种特征图。输出特征图上的一个点只跟输入图像中的一个相邻区域相关，例如，输出特征图上坐标位置为(6，6)的点，输入图像中与所述坐标位置为(6，6)的点相关的相邻区域为输入图像中以(6，6)为中心，大小为r×r的区域，输出的一张特征图上的所有神经元共享一组参数。

输入所述卷积层的像素点的像素值和输出所述卷积层的像素点的像素值的关系可以用下述公式表示，x_c(i,j)表示第c个输入特征图上坐标位置为(i,j)的像素点的像素值，y_c′(i,j)表示第c′个输出特征图上坐标位置为(i,j)的像素点的像素值，所述第c′个输出特征图为所述第c个输入特征图通过卷积层后对应输出的特征图。l和k分别表示卷积的步长和卷积核的边长，W_{cc′}(m,n)是连接输出的第c′个特征图上坐标位置为(i,j)的像素点与输入的第c个特征图上坐标位置为(li+m,lj+n)的像素点之间对应的权重值，(m，n)表示以(i,j)坐标点为中心的的所述相邻区域中像素位置的坐标：

具体的，反卷积层的输入和输出均有多张特征图，所述反卷积层包括所述第一反卷积层和所述第二反卷积层。

输入所述反卷积层的像素点的像素值和输出所述反卷积层的像素点的像素值的关系可以用下述公式表示，x_f(g,h)表示第f个输入特征图上坐标位置为(g,h)的像素点的像素值，y_f′(g,h)表示第f′个输出特征图上坐标位置为(g,h)的像素点的像素值，所述第f′个输出特征图为所述第f个输入特征图通过卷积层后对应输出的特征图。p和q分别表示卷积的步长和卷积核的边长，W_{ff′}(u,v)是连接输出的第f′个特征图上坐标位置为(g,h)的像素点与输入的第f个特征图上坐标位置为(pg+u,ph+v)的像素点的参数：

y_f′(pg+u,ph+v)＝∑_f∑_g∑_hW_{ff′}(u,v)·x_f(g,h) (1.2)

在一种可能的实现方式中，所述深度卷积神经网络模型通过如下方式训练得到：

需要说明的是，所述M*N个合成人脸图像在训练样本数据库中合成并存储。所述训练样本数据库可以是一个电子存储设备，也可以是处于云端服务器中的存储设备，这里不做限定。

可选的，所述合成人脸图像的未佩戴眼镜的人脸图像与第K次迭代后得到的图像之间的误差值可以通过损失函数获取，所述损失函数可以采用均方误差定义，所述损失函数符合下述公式要求，Q表示误差值，x_t表示图像的第t个像素点的像素值，y_t表示非线性操作后输出的图像的第t个像素点的像素值：

所述损失函数除了可以采用均方误差定义，还可以采用其他满足凸函数法则的误差函数定义。

可选的，所述深度卷积神经网络模型可以采用标准的随机梯度下降算法进行迭代训练。

在一种可能的实现方式中，所述M*N个合成人脸图像通过如下方式得到：

具体的，所述眼镜图片的色彩模式为透明度红绿蓝(英文：Alpha-Red-Green-Blue，简称：ARGB)色彩模式。

具体的，针对所述第a个眼镜图像定位得到左眼镜框的中心坐标点和右眼镜框的中心坐标点，如图2所示，为定位眼镜左右眼镜框中心坐标点的示意图，其中，L为左眼镜框的中心坐标点，R为右眼镜框的中心坐标点。

针对所述第b个未佩戴眼镜的人脸图像采用人脸关键点定位的方式定位得到左眼的中心坐标点和右眼的中心坐标点，如图3所示，为定位左右眼中心坐标点的示意图，L’为左眼的中心坐标点，R’为右眼的中心坐标点。

可选的，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，可以符合下述公式要求：

其中，

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

s′＝d₂/d₁，

当y₅>y₆时，θ＝α，否则θ＝-α。

具体的，将所述第a个眼镜图像采用矩阵W进行仿射变换得到变换图片，将所述变换图片与所述第b个未佩戴眼镜的人脸图像做对齐处理并将所述变换图片覆盖到所述第b个未佩戴眼镜的人脸图像上得到结果图片，所述对齐处理为将所述变换图片中左眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中左眼的中心坐标重合，所述变换图片中右眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中右眼的中心坐标重合。

若所述变换图片的所有像素点的透明度均为0，则所述结果图片为所述第b个未佩戴眼镜的人脸图像；若述变换图片包括透明度不为0的像素点，则所述结果图片为合成人脸图像，如以下公式，I₄表示所述结果图片，I₃表示所述合成人脸图像，I₂表示所述第b个未佩戴眼镜的人脸图像，(x,y)表示图像中坐标位置为(x,y)的像素点：

可选的，在步骤S101获取待检测图像之后，步骤S102通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征之前，还包括：

对所述待检测图像执行归一化处理。

在一种可能的实现方式中，对所述待检测图像执行归一化处理，可以通过如下方式实现：

且所述处理后得到的人脸图像的中心点为p′p点；

其中，r′r表示所述两个眼中心点中其中一个眼中心点到两个嘴角点中的其中一个嘴角点的距离；w表示经过处理后得到的所述人脸图像的高度值，h′h表示经过处理后得到的所述人脸图像的宽度值；d′d小于1且大于0；p′p表示由所述两个眼中心点以及两个嘴角点所构成的四边形的中心点。

需要说明的是，在采用合成人脸图像训练深度卷积神经网络模型的过程中，电子设备在将合成人脸图像输入初始深度卷积神经网络模型时，将所述合成人脸图像执行归一化处理。

可选的，在步骤S102第一卷积层提取所述待检测图像中的人脸面部特征之后，步骤S103通过第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征之前，还包括：

所述非线性操作符合下述公式要求：

其中，x_T表示图像的第T个像素点的像素值，y_T表示非线性操作后输出的图像的第T个像素点的像素值，a_T表示y_T与x_T连接的参数。

相比与现有技术中采用的修正线性单元层，本发明实施例采用参数化修正线性单元使得训练速度加快以及精度提高。

为了更好地理解本发明实施例，以第一卷积层的卷积核尺寸为5×5，第二卷积层的卷积核尺寸为3×3，第一反卷积层的卷积核尺寸为3×3，第二反卷积层的卷积核尺寸为5×5的深度卷积神经网络模型对80×80像素大小的人脸照片中眼镜进行摘除为例，针对人脸照片中眼镜摘除的过程，做出进一步详细描述：

具体参见如图4所示，为人脸照片眼镜摘除的流程示意图(所述深度神经网络结构由2个卷积层、3个参数化修正线性单元以及2个反卷积层组合而成。所述第一卷积层的滤波通道数量为16，所述第二卷积层的滤波通道数量为16，所述第一反卷积层的滤波通道数量为32，所述第二反卷积层的滤波通道数量为3)：

在将所述80×80像素大小的人脸照片输入所述第一卷积层之前，对所述80×80像素大小的人脸照片执行归一化处理。

S201，将归一化处理后的80×80像素大小的的人脸图像的三种图像输入到第一卷积层并经过参数化修正线性单元处理，得到76×76像素大小的16个特征图，所述三种图像为R元素图像、G元素图像和B元素图像。

其中，所述76×76像素大小的16个特征图为16种在所述待检测图像中提取的人脸面部特征图。

S202，将所述76×76像素大小的16个特征图输入到第二卷积层并经过参数化修正线性单元处理，得到74×74像素大小的16个特征图。

其中，所述74×74像素大小的16个特征图为16种过滤了眼睛区域特征的人脸面部特征图。

S203，将所述74×74像素大小的16个特征图输入到第一反卷积层并经过参数化修正线性单元处理，得到76×76像素大小的32个特征图。

其中，所述76×76像素大小的32个特征图为32种经过修正的过滤了眼睛区域特征的人脸面部特征图。

S204，将所述输入到第二反卷积层，得到80×80像素大小的3个特征图。

其中，所述80×80像素大小的3个特征图为所述76×76像素大小的32个特征图再次经过修正后得到的去除眼镜的人脸图像，所述3个特征图为R元素的去除眼镜的人脸图像、G元素的去除眼镜的人脸图像和B元素的去除眼镜的人脸图像。

本发明实施例中将未佩戴眼镜的人脸图像与眼镜图像合成后得到合成图像，再将所述合成图像输入深度卷积神经网络模型得到去除眼镜后的人脸图像，如图5所示，为去除眼镜前后的对比图，其中第一列图片为四个未佩戴眼镜的人脸图像，第二列为第一列中的四个未佩戴眼镜的人脸图像分别与眼睛图像合成的合成图像，第三列为第二列中的四个合成图像分别经过深度卷积神经网络模型处理得到的去除眼镜的人脸图像。

基于与图1对应的方法实施例的同一发明构思，本发明实施例提供一种人脸图像中眼镜去除装置10，该装置的结构如图6所示，包括获取模块11和深度卷积神经网络模型12，其中：

获取模块11，用于获取待检测图像，所述待检测图像为佩戴眼镜的人脸图像；

深度卷积神经网络模型12，用于去除所述获取模块获取的所述待检测图像中的眼镜。

具体的，所述深度卷积神经网络模型依次包括第一卷积层21，第二卷积层22，第一反卷积层23和第二反卷积层24，所述深度卷积神经网络模型12的结构如图7所述，其中：

所述第一卷积层21，用于提取所述获取模块获取的所述待检测图像中的人脸面部特征；

所述第二卷积层22，用于确定所述第一卷积层提取的所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；

所述第一反卷积层23，用于修正所述第二卷积层确定的所述经过过滤的人脸面部特征；

所述第二反卷积层24，用于生成所述第一反卷积层得到的所述修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。

在一种可能的实现方式中，所述装置还包括：

训练模块13，用于通过如下方式训练得到所述深度卷积神经网络模型：

可选的，所述装置还包括：

构建单元15，用于将M个未佩戴眼镜的人脸图像与N个眼镜图像合成用于训练所述深度卷积神经网络模型的M*N个合成人脸图像。

具体的，所述M个未佩戴眼镜的人脸图像可以存储在无眼镜人脸图像库。所述N个眼镜图像可以存储在眼镜图像库中。所述M*N个合成人脸图像可以存储在训练样本库中。

所述无眼镜人脸图像库、眼镜图像库和训练样本库可以为本地数据库，也可以为云端数据库等，本发明在这里不做具体限定。

具体的，所述构建单元，具体用于：

具体的，所述构建单元，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理时，符合下述公式要求：

其中，

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

s＝d₂/d₁，

当y₅>y₆时，θ＝α，否则θ＝-α。

可选的，所述装置还包括：

归一化模块14，用于在所述获取模块获取待检测图像之后，在第一卷积层提取所述获取模块获取的所述待检测图像中的人脸面部特征之前，对所述获取模块获取的所述待检测图像执行归一化处理。

具体的，所述归一化模块，具体用于：

且所述处理后得到的人脸图像的中心点为p点；

可选的，在所述深度卷积神经网络模型依次包括的第一卷积层、第二卷积层、第一反卷积层以及第二反卷积层的任意两个层之间包括参数化修正线性单元层16。

参数化修正线性单元层16，用于对图像的每个像素点进行非线性操作；

所述非线性操作符合下述公式要求：

其中，x_i表示图像的第i个像素点的像素值，y_i表示非线性操作后输出的图像的第i个像素点的像素值，a_i表示y_i与x_i之间的转换参数。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

其中，集成的模块既可以采用硬件的形式实现时，如图8所示，可以包括采集器801，处理器802以及存储器803。深度卷积神经网络模型12、训练数据库13、归一化模块14和参数化修正线性模块15对应的实体硬件可以是处理器802。处理器802，可以是一个中央处理单元(英文：central processing unit，简称CPU)，或者为数字处理单元等等。处理器802通过采集器801获取待检测图像。存储器803，用于存储处理器802执行的程序。

本申请实施例中不限定上述采集器801、处理器802以及存储器803之间的具体连接介质。本申请实施例在图8中以存储器803、处理器802以及采集器801之间通过总线804连接，总线在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803可以是易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器803也可以是非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)、或者存储器803是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器803可以是上述存储器的组合。

处理器802用于执行存储器803存储的程序代码，具体用于执行上述图2至图5对应的实施例所述的方法，具体可以参照图2至图5对应的实施例实施，在此不再赘述。

此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的功能模块可以相互组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

一种人脸图像中眼镜去除方法，其特征在于，包括：

获取待检测图像，所述待检测图像为佩戴眼镜的人脸图像；

通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征；

通过所述深度卷积神经网络模型的第二卷积层确定所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；

通过所述深度卷积神经网络模型的第一反卷积层修正经过过滤的人脸面部特征；

通过所述深度卷积神经网络模型的第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。
如权利要求1所述的方法，其特征在于，所述第一反卷积层的卷积核尺寸与所述第二卷积层的卷积核尺寸相等，所述第二反卷积层的卷积核尺寸与所述第一卷积层的卷积核尺寸相等。
如权利要求1所述的方法，其特征在于，所述深度卷积神经网络模型通过如下方式训练得到：

将M*N个合成人脸图像输入初始化的深度卷积神经网络模型进行迭代处理；所述初始化的深度卷积神经网络模型包括权重和偏置；所述M*N个合成人脸图像由M个未佩戴眼镜的人脸图像与N个眼镜图像合成得到的；其中，M，N均为大于1的正整数；

在第K次迭代后，获取所述合成人脸图像的未佩戴眼镜的人脸图像与第K次迭代后得到的图像之间的误差值；所述K为取遍不大于M*N-1的正整数；

基于所述误差值，调整第K+1次迭代过程所使用的权重和偏置。
如权利要求3所述的方法，其特征在于，所述M*N个合成人脸图像通过如下方式得到：

获取M个所述未佩戴眼镜的人脸图像，并获取N个所述眼镜图像；

针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，使第a个眼镜图像中左眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中左眼的中心坐标相同，所述第a个眼镜图像中右眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中右眼的中心坐标相同；所述a取遍小于或者等于N的所有正整数，所述b取遍小于或者等于M的所有正整数；

将所述第b个未佩戴眼镜的人脸图像中重合位置的像素替换为所述第a个眼镜图像中所述重合位置的像素得到一个合成人脸图像，所述重合位置为所述未佩戴眼镜的人脸图像与所述眼镜图像坐标相同的像素的位置。
如权利要求4所述的方法，其特征在于，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，符合下述公式要求：

其中，

θ表示第一连线和第二连线的夹角，第一连线表示所述第a个眼镜图像的左眼镜框的中心坐标与右眼镜框的中心坐标的连线，第二连线表示所述第b个未佩戴眼镜的人脸图像的左眼的中心坐标与右眼的中心坐标的连线；

(x₁,y₁)表示所述左眼镜框的中心坐标、(x₂,y₂)表示所述右眼镜框的中心坐标、(x₃,y₃)表示所述左眼的中心坐标、(x₄,y₄)表示所述右眼的中心坐标；

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

当y₅>y₆时，θ＝α，否则θ＝-α。
如权利要求1～5任一所述的方法，其特征在于，在获取待检测图像之后，通过深度卷积神经网络模型的第一卷积层提取所述待检测图像中的人脸面部特征之前，还包括：

对所述待检测图像执行归一化处理。
如权利要求6所述的方法，其特征在于，对所述待检测图像执行归一化处理，包括：

获取所述人脸图像的人脸特征点，所述人脸特征点包括两个眼中心点以及两个嘴角点；

基于所述人脸图像的人脸特征点对所述人脸图像进行处理，处理后得到的人脸图像满足
且所述处理后得到的人脸图像的中心点为p点；

其中，r表示所述两个眼中心点中其中一个眼中心点到两个嘴角点中的其中一个嘴角点的距离；w表示经过处理后得到的所述人脸图像的高度值，h表示经过处理后得到的所述人脸图像的宽度值；d小于1且大于0；p表示由所述两个眼中心点以及两个嘴角点所构成的四边形的中心点。
如权利要求1至7任一项所述的方法，其特征在于，在第一卷积层提取所述待检测图像中的人脸面部特征之后，通过第二反卷积层生成修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征之前，还包括：

通过所述深度卷积神经网络模型的参数化修正线性单元层对图像的每个像素点进行非线性操作；

所述非线性操作符合下述公式要求：

其中，x_i表示图像的第i个像素点的像素值，y_i表示非线性操作后输出的图像的第i个像素点的像素值，a_i表示y_i与x_i之间的转换参数。
一种人脸图像中眼镜去除的装置，其特征在于，包括：

获取模块，用于获取待检测图像，所述待检测图像为佩戴眼镜的人脸图像；

深度卷积神经网络模型，用于去除所述获取模块获取的所述待检测图像中的眼镜特征，所述深度卷积神经网络模型依次包括第一卷积层，第二卷积层，第一反卷积层，第二反卷积层；

所述第一卷积层，用于提取所述获取模块获取的所述待检测图像中的人脸面部特征；

所述第二卷积层，用于确定所述第一卷积层提取的所述人脸面部特征中的眼睛区域特征，并过滤所述眼睛区域特征中的眼镜区域特征；

所述第一反卷积层，用于修正所述第二卷积层确定的所述经过过滤的人脸面部特征；

所述第二反卷积层，用于生成所述第一反卷积层得到的所述修正后的所述人脸面部特征中的眼镜区域对应的人脸面部特征，得到去除眼镜的人脸图像。
如权利要求9所述的装置，其特征在于，所述第一反卷积层的卷积核尺寸与所述第二卷积层的卷积核尺寸相等，所述第二反卷积层的卷积核尺寸与所述第一卷积层的卷积核尺寸相等。
如权利要求9所述的装置，其特征在于，还包括：

训练模块，用于通过如下方式训练得到所述深度卷积神经网络模型：

将M*N个合成人脸图像输入初始化的深度卷积神经网络模型进行迭代处理；所述初始化的深度卷积神经网络模型包括权重和偏置；所述M*N个合成人脸图像由M个未佩戴眼镜的人脸图像与N个眼镜图像合成得到的；其中，M，N均为大于1的正整数；

在第K次迭代后，获取所述合成人脸图像的未佩戴眼镜的人脸图像与第K次迭代后得到的图像之间的误差值；所述K为取遍不大于M*N-1的正整数；

基于所述误差值，调整第K+1次迭代过程所使用的权重和偏置。
如权利要求9所述的装置，其特征在于，还包括：

构建单元，用于将M个未佩戴眼镜的人脸图像与N个眼镜图像合成用于训练所述深度卷积神经网络模型的M*N个合成人脸图像。
如权利要求11所述的装置，其特征在于，所述构建单元，具体用于：

获取M个所述未佩戴眼镜的人脸图像，并获取N个所述眼镜图像；

针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理，使第a个眼镜图像中左眼镜框的中心坐标与所述第b个未佩戴眼镜的人脸图像中左眼的中心坐标相同，所述第a个眼镜图像中右眼镜框的中心坐标与所述第b 个未佩戴眼镜的人脸图像中右眼的中心坐标相同；所述a取遍小于或者等于N的所有正整数，所述b取遍小于或者等于M的所有正整数；

将所述第b个未佩戴眼镜的人脸图像中重合位置的像素替换为所述第a个眼镜图像中所述重合位置的像素得到一个合成人脸图像，所述重合位置为所述未佩戴眼镜的人脸图像与所述眼镜图像坐标相同的像素的位置。
如权利要求13所述的装置，其特征在于，所述构建单元，针对第a个眼镜图像以及第b个未佩戴眼镜的人脸图像进行处理时，符合下述公式要求：

其中，

θ表示第一连线和第二连线的夹角，第一连线表示所述第a个眼镜图像的左眼镜框的中心坐标与右眼镜框的中心坐标的连线，第二连线表示所述第b个未佩戴眼镜的人脸图像的左眼的中心坐标与右眼的中心坐标的连线；

(x₁,y₁)表示所述左眼镜框的中心坐标、(x₂,y₂)表示所述右眼镜框的中心坐标、(x₃,y₃)表示所述左眼的中心坐标、(x₄,y₄)表示所述右眼的中心坐标；

(x₅,y₅)＝(x₂-x₁,y₂-y₁)、(x₆,y₆)＝(x₄-x₃,y₄-y₃)；

当y₅>y₆时，θ＝α，否则θ＝-α。
如权利要求9～14任一所述的装置，其特征在于，还包括：

归一化模块，用于在所述获取模块获取所述待检测图像之后，在第一卷积层提取所述获取模块获取的所述待检测图像中的人脸面部特征之前，对所述获取模块获取的所述待检测图像执行归一化处理。
如权利要求15所述的装置，其特征在于，所述归一化模块，具体用于：

获取所述人脸图像的人脸特征点，所述人脸特征点包括两个眼中心点以及两个嘴角点；

基于所述人脸图像的人脸特征点对所述人脸图像进行处理，处理后得到的人脸图像满足
且所述处理后得到的人脸图像的中心点为p点；

其中，r表示所述两个眼中心点中其中一个眼中心点到两个嘴角点中的其中一个嘴角点的距离；w表示经过处理后得到的所述人脸图像的高度值，h表示经过处理后得到的所述人脸图像的宽度值；d小于1且大于0；p表示由所述两个眼中心点以及两个嘴角点所构成的四边形的中心点。
如权利要求9至16任一项所述的装置，其特征在于，在所述深度卷积神经网络模型依次包括的第一卷积层、第二卷积层、第一反卷积层以及第二反卷积层的任意两个层之间还包括参数化修正线性单元层；

参数化修正线性单元层，用于对图像的每个像素点进行非线性操作；

所述非线性操作符合下述公式要求：

其中，x_i表示图像的第i个像素点的像素值，y_i表示非线性操作后输出的图像的第i个像素点的像素值，a_i表示y_i与x_i之间的转换参数。