WO2020062120A1

WO2020062120A1 - 一种从单幅图像生成人脸动画的方法

Info

Publication number: WO2020062120A1
Application number: PCT/CN2018/108523
Authority: WO
Inventors: 周昆; 耿佳豪
Original assignee: 浙江大学; 杭州相芯科技有限公司
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-04-02
Also published as: US11544887B2; EP3859681A1; US20210217219A1; EP3859681A4

Abstract

本发明公开了一种从单幅图像生成人脸动画的方法。该方法主要分为四个步骤：图像中人脸特征点生成、图像全局二维形变、人脸区域细节的优化、口腔区域纹理的生成。本发明可以根据人脸特征点变化实时地生成人脸动画，动画质量达到当前最先进的人脸图像动画技术的水平。本发明可以用在一系列应用中，如人脸图像编辑，基于单幅图像的肖像动画生成，以及视频中人脸表情的编辑。

Description

一种从单幅图像生成人脸动画的方法

技术领域

本发明涉及基于人脸动画领域，尤其涉及一种对人像图片的人脸区域进行编辑的方法。

背景技术

人脸编辑领域以Blanz及Vetter的工作作为起始(Volker Blanz and Thomas Vetter.1999.A morphable model for the synthesis of 3D faces.In Proceedings of the 26th annual conference on Computer graphics and interactive techniques.ACM Press/Addison-Wesley Publishing Co.,187–194.)，用单张图像通过拟合参数得到图像对应的三维可形变模型及纹理。该技术为后续人脸编辑工作生成更真实结果打下基础(Pia Breuer,Kwang-In Kim,Wolf Kienzle,Bernhard Scholkopf,and Volker Blanz.2008.Automatic 3D face reconstruction from single images or video.In Automatic Face&Gesture Recognition,2008.FG’08.8th IEEE International Conference on.IEEE,1–8.)(Marcel Piotraschke and Volker Blanz.2016.Automated 3d face reconstruction from multiple images using quality measures.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.3418–3427.)。这些技术通常会因为主成分表达能力有限使编辑后的人脸丢失细节。

有的工作基于一段目标人物视频或是一段驱动人物视频(Umar Mohammed,Simon JD Prince,and Jan Kautz.2009.Visiolization:generating novel facial images.ACM Transactions on Graphics(TOG)28,3(2009),57.)(Pablo Garrido,Levi Valgaerts,Ole Rehmsen,Thorsten Thormahlen,Patrick Perez,and Christian Theobalt.2014.Automatic face reenactment.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.4217–4224.)这类方式可以借助目标人物视频或驱动人物视频中人脸细节，在一定程度上缓解细节内容丢失问题，但是这类方式也存在一些缺陷。例如Face2face(Justus Thies,Michael Zollh¨ofer,Marc Stamminger,Christian Theobalt,and Matthias Nie.ner.2016.Face2face:Real-time face capture and reenactment of rgb videos.In Computer Vision and Pattern Recognition(CVPR),2016IEEE Conference on.IEEE,2387–2395.)需要目标人物视频包含充足的嘴型数据。像需要借助驱动视频来丰富生成人脸细节的工作(Hadar Averbuch-Elor,Daniel Cohen-Or,Johannes Kopf,and Michael F Cohen.2017.Bringing portraits to life.ACM Transactions on Graphics(TOG)36,6(2017),196.)，生成结果质量随着目标人物与驱动人物图像差别增大而下降。另外这些方式没有任何手段保证生成结果符合真实图像分布。

最近，生成对抗神经网络的发展，为该领域提供新思路，比如利用几何信息作为网络训练的引导，采用对抗训练的方式，使网络生成结果符合几何信息与真实人脸图像分布(Fengchun Qiao,Naiming Yao,Zirui Jiao,Zhihao Li,Hui Chen,and Hongan Wang.2018.Geometry-Contrastive Generative Adversarial Network for Facial Expression Synthesis.arXiv preprint arXiv:1802.01822(2018).)(Lingxiao Song,Zhihe Lu,Ran He,Zhenan Sun,and Tieniu Tan.2017.Geometry Guided Adversarial Facial Expression Synthesis.arXiv preprint arXiv:1712.03474(2017).)。但是这些方法一般只能处理剪裁后的人脸区域，非人脸区域无法进行处理，且生成结果质量随目标几何信息与原始图像几何信息差别增大而下降。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种从单幅图像生成人脸动画的方法。本发明通过图像全局形变技术实现刚体及非刚体变化带来的非线性几何变化并保证人脸区域与非人脸区域的连贯性，再利用生成对抗神经网络优化形变图像的人脸区域纹理，最后利用生成对抗神经网络填充口腔区域，如此得到保留目标人物特征，符合目标特征点位置，保证人脸区域与非人脸区域连贯性，且符合真实人脸图像分布的最终结果。该方法达到最先进的肖像动画生成技术的水平，且可实现实时处理，具有很高的实用价值。

本发明的目的是通过以下技术方案来实现的，一种从单幅图像生成人脸动画的方法，包括以下步骤：

(1)图像中人脸特征点生成：计算图像中人脸与背景区域的特征点；

(2)图像全局二维形变：基于步骤1得到的初始特征点，以及用户或程序指定的特征点变化，通过全局二维形变，生成符合特征点约束的形变图像；

(3)人脸区域细节的优化：通过生成对抗神经网络来优化形变图像中人脸区域的纹理，所述人脸区域不包含口腔区域；

(4)口腔区域纹理的生成：通过生成对抗神经网络来合成口腔区域纹理，并生成最后的人脸动画图像。

进一步地，所述步骤1包括如下子步骤：

(1.1)人脸区域特征点的生成：检测目标人物初始图像脸部二维特征点、人物身份系数、表情系数及刚体变换系数，通过传递驱动人物的表情系数及刚体变换系数，生成对应的三维混合形变模型，将其投影到二维平面，得到偏移后的人脸特征点。

(1.2)背景区域特征点的生成：检测并追踪驱动视频中的非人脸区域特征点，并通过下式将其转化到目标图像中：

其中，s表示驱动人物，t表示目标人物，

是目标人物偏移后的非人脸区域特征点，

是驱动人物当前第i帧对应的特征点，

是目标人物初始人脸特征点与驱动人物初始人脸特征点之间的刚体变换矩阵。通过上式，可以得到目标图像的非人脸区域特征点。

进一步地，所述步骤2具体为：根据偏移后的目标人物特征点与初始特征点，计算得到每个特征点的偏移值。以人脸区域特征点和背景区域特征点作为顶点，进行三角化，并对每个三角形中顶点偏移值插值得到偏移图。另外为了消除非人脸区域偏移值不连续问题，通过高斯核对偏移图中非人脸区域进行滤波，高斯核半径随着距离人脸区域距离增大而增大，其范围在[7,32]。最后通过上述偏移图,将原始图像中相应位置的像素转移到当前图像位置，如此得到形变图像。

进一步地，所述步骤3包括如下子步骤：

(3.1)生成并训练学习基于形变引导的生成对抗神经网络(简称为wg-GAN)的生成器和判别器；

(3.2)对形变图像及初始图像人脸区域进行剪裁对齐，根据两者的特征点偏移(经归一化)生成偏移图，以形变图像人脸区域及偏移图作为wg-GAN中优化器输入，得到经优化的不含口腔区域的人脸图像。

进一步地，所述步骤4包括如下子步骤：

(4.1)生成并训练学习适用于口腔内部纹理合成的生成对抗神经网络(简称为hrh-GAN)的生成器和判别器。

(4.2)根据特征点生成步骤3.2得到人脸图像对应的口腔区域掩码图，并将人脸图像与掩码图作为hrh-GAN中生成器输入，得到填充口腔纹理后的完整人脸图像。

本发明的有益效果是，本发明首次提出结合全局形变与生成对抗神经网络的从单幅图像生成人脸动画的方法，借助全局形变实现刚体与非刚体变化带来的几何特征变化且保证人脸与非人脸区域边界的连贯性，另外借助两个训练学习得到的生成对抗神经网络来优化人脸区域纹理并生成口腔区域纹理，使生成人脸符合真实人脸图像分布。本方法达到当前最先进的人脸图像动画生成技术的水平，且可实时处理。本发明可以用于人脸图像编辑，基于单幅图像的肖像动画生成，以及视频中人脸表情的编辑等应用。

附图说明

图1是应用本发明的方法对第一个目标人物肖像图片进行编辑的各阶段生成结果图。

图2是应用本发明的方法对第二个目标人物肖像图片进行编辑的各阶段生成结果图。

图3是应用本发明的方法对第三个目标人物肖像图片进行编辑的各阶段生成结果图。

图4是应用本发明的方法对第四个目标人物肖像图片进行编辑的各阶段生成结果图。

图5是应用本发明的方法对第五个目标人物肖像图片进行编辑的各阶段生成结果图。

具体实施方式

本发明的核心技术利用全局形变技术处理刚性及非刚性变化带来的几何特征变化，并利用wg-GAN优化人脸区域细节(不含口腔)，用hrh-GAN填补口腔区域细节。该方法主要分为如下四个主要步骤：人像特征点生成、根据特征点变化进行图像全局二维形变、人脸区域细节的优化(不含口腔区域)、口腔区域纹理的生成。

下面结合附图1-5详细说明本发明的各个步骤。图1-5是应用本发明的方法对五个目标人物肖像图片进行编辑的各阶段生成结果。输入图像经过第一个箭头后得到全局形变结果，再经过第二个箭头得到优化人脸细节(不含口腔)后的结果图，经过最后一个箭头得到填补口前区域后最终生成结果。

1.人像特征点生成：使用特征点检测算法，得到图像中人脸及背景区域特征点。

1.1人脸区域特征点的生成

本发明参考算法(Chen Cao,Qiming Hou,and Kun Zhou.2014a.Displaced dynamic expression regression for real-time facial tracking and animation.ACM Transactions on graphics(TOG)33,4(2014),43.)来检测目标人物初始图像脸部二维特征点、人物身份系数、表情系数及刚体变换系数。通过传递驱动人物的表情系数及刚体变换系数，我们可以生成对应的三维混合形变模型，将其投影到二维平面，我们就可以得到偏移后的人脸特征点。

1.2背景区域特征点的生成

本发明中非人脸区域特征点生成方法参考算法(Hadar Averbuch-Elor,Daniel Cohen-Or,Johannes Kopf,and Michael F Cohen.2017.Bringing portraits to life.ACM Transactions on Graphics(TOG)36,6(2017),196.)。因为驱动人物图像与目标人物图像在非背景区域并没有鲁邦的对应关系，因此该方法检测并追踪驱动视频中的非人脸区域特征点，并通过下式将其转化到目标图像中：

其中，s表示驱动人物，t表示目标人物，

是目标人物偏移后的非人脸区域特征点，

是驱动人物当前第i帧对应的特征点，

是目标人物初始人脸特征点与驱动人物初始人脸特征点之间的刚体变换矩阵。通过上式，我们可以得到目标图像的非人脸区域特征点。

2.图像全局二维形变：基于初始特征点，根据用户或程序指定的特征点变化，通过全局二维形变，生成符合特征点约束的形变图像。

2.1形变

根据偏移后的目标人物特征点与初始特征点，计算得到每个特征点的偏移值。以特征点(非人脸区域特征点与人脸区域特征点)作为顶点，进行三角化，并对每个三角形中顶点偏移值插值得到偏移图。另外为了消除非人脸区域偏移值不连续问题，通过高斯核对偏移图中非人脸区域进行滤波，高斯核半径随着距离人脸区域距离增大而增大，我们采用了5种半径的高斯核，其范围在[7,32]。最后通过上述偏移图,将原始图像中相应位置的像素转移到当前图像位置，如此得到形变图像，效果可以参考图1至图5中第一个箭头指向的结果。

3.人脸区域细节的优化(不含口腔区域)：通过wg-GAN优化形变图像中人脸区域的纹理(不包含口腔区域)。

3.1训练wg-GAN

训练数据。从公共数据集MMI(Maja Pantic,Michel Valstar,Ron Rademaker,and Ludo Maat.2005.Web-based database for facial expression analysis.In Multimedia and Expo,2005.ICME 2005.IEEE International Conference on.IEEE,5–pp.)，MUG(Niki Aifanti,Christos Papachristou,and Anastasios Delopoulos.2010.The MUG facial expression database.In Image analysis for multimedia interactive services(WIAMIS),2010 11th international workshop on.IEEE,1–4.)，CFD(Debbie S Ma,Joshua Correll,and Bernd Wittenbrink.2015.The Chicago face database:A free stimulus set of faces and norming data.Behavior research methods 47,4(2015),1122–1135.)作为数据来源。以视频为单位，对每段视频以10帧为间隔进行采样得到图像I _i，并检测其人脸特征点得到P _i。在{I _i|0<i<N}中选取中性表情图像I ^*，并得到其对应特征点P ^*，N为自然数。用P ^*及P _i计算得到特征点偏移D _i，并通过对P _i三角化及对D _i插值形变I ^*，得到I _i对应的形变图像W _i。另外在所有训练数据上统计人脸各部分特征点偏移的标准差，并用上述标准差对D _i按部位进行归一化处理，得到归一化的

并以此生成偏移图M _i,最终以(W _i,M _i,I _i)组成一组训练数据。另外我们利用翻转与裁剪操作进行数据增广。

网络结构。生成器(优化器)网络结构是一种编码解码结构。编码过程中为了避免网络压缩过多信息，我们仅将输入图像下采样到原本四分之一大小，即下采样两次，并让经过下采样的特征图通过4块残差模块(Kaiming He,Xiangyu Zhang,Shaoqing Ren,and Jian Sun.2016.Deep residual learning for image recognition.In Proceedings of the IEEE conference on computer vision and pattern recognition.770–778.),最后通过缩放卷积(Jon Gauthier.2014.Conditional generative adversarial nets for convolutional face generation.Class Project for Stanford CS231N:Convolutional Neural Networks for Visual Recognition,Winter semester 2014,5(2014),2.)输出原始尺寸大小图像。另外网络在对应的下采样与上采样中添加跳跃式传递(Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.2017.Image-to-image translation with conditional adversarial networks.Proceedings of the IEEE conference on computer vision and pattern recognition(2017).)来保证图像结构的正确性，即含有两次跳跃式传递，因此网络结构可以表示为(C64,K7,S1,LReLU,Skip1)->(C128,K5,S2,LReLU,Skip2)->(C256,K3,S2,LReLU)->4*(RB256,K3,S1,LReLU)->(RC128,K3,R2,LReLU,Skip1)->(RC64,K3,R2,LReLU,Skip2)->(C3,K3,S1,Sigmoid)，其中C、RB、RC分别表示卷积层、残差模块、缩放卷积层，其后的数字表示该层输出的深度大小；K表示该模块中的核，其后的数字表示核的大小；S后的数字表示卷积层或残差模块中步幅大小，若该层进行下采样，则S2,否则S1；R后的数字表示缩放卷积层缩放比例，即当需要上采样是R2；另外Skip表示跳跃式传递，其后的数字表示编号，编号相同表示属于同一条跳跃式传递；LReLU(Andrew L Maas,Awni Y Hannun,and Andrew Y Ng.2013.Rectifier nonlinearities improve neural network acoustic models.In Proc.icml,Vol.30.3.)及Sigmoid表示使用的激活函数。分辨器网络结构是一种编码结构，其通过卷积层将输入内容编码成特征向量，并利用全连接层输出用来衡量输入内容真实度的值，其结构可以表示为(C64,K7,S1,LReLU)->(C128,K5,S2,LReLU)->(C256,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(FC1)，其中FC表示全连接层，其后的数字表示输出为1，全连接层没有任何激活函数。

损失函数。用函数R(x _w,M)来表示优化器，其中x _w是输入的形变图像，M是偏移图。用D(x,M)来表示分辨器，其中x是优化器生成结果R(x _w,M)或真实图像x _g。训练网络的损失函数可以用下式定义：

min _R表示对R优化器中参数求导，使得目标式子值最小化；max _D表示对D分辨器中参数求导，使得目标式子值最大化；

表示对每个mini-batch求期望；L(R)为正则项，是R(x _w, M)与x _g之间的L1损失函数，用以约束优化器优化结果，其具体形式如下：

α是超参，用来控制L(R)的比重，在本发明中等于0.004。另外式子：

是对抗损失函数，我们采用WGAN(Martin Arjovsky,Soumith Chintala,and L′eon Bottou.2017.Wasserstein gan.arXiv preprint arXiv:1701.07875(2017).)中使用的损失函数。在训练过程中，为了提高对抗训练效果，在分辨器训练过程中，我们参考工作(Ashish Shrivastava,Tomas Pfister,Oncel Tuzel,Josh Susskind,Wenda Wang,and Russ Webb.2017.Learning from simulated and unsupervised images through adversarial training.In The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Vol.3.6.)，将当前迭代优化器生成结果结合优化器历史结果作为分辨器输入。

3.2优化人脸区域细节

根据人脸特征点，对形变图像及初始人脸图像进行裁剪，分别得到两者的人脸区域图像，并对两者的人脸区域图像进行对齐，得到I _i与I _*及其对应人脸特征点P _i与P _*。用P _i与P _*做差，得到由I _*到I _i的特征点偏移D _i。在实现本发明过程中我们发现不论是在训练过程中还是在实际运行中，如果直接用原始D _i生成偏移图，像眉毛特征点的偏移会被网络忽略，因为相比嘴部特征点，眉毛、鼻子、眼睛等部位的偏移范围要小很多，但是这些部位常常在微小的几何特征变化下就会产生明显的纹理变化，因此不论是在训练中还是实际运行中，我们都需要对D _i按部位进行归一化处理，归一化操作如下：在整个训练数据集上按部位计算偏移值的标准差，并利用上述标准差，对D _i相应部位进行归一化处理得到

并通过以特征点为顶点进行三角化操作及插值操作，将

生成偏移图M _i。将I _i与M _i进行拼接，得到网络输入。输入网络后便可得到经过优化后的人脸图像，效果可以参考图1至图5第二个箭头之后的结果。

4口腔区域纹理的生成：通过hrh-GAN生成口腔区域纹理。

4.1训练hrh-GAN

训练数据。数据来源于MMI、MUG、CFD及互联网数据。通过收集人脸图像，并检测其人脸特征点，通过口腔区域特征点，生成其对应口腔区域掩码图。人脸图像及对应的口腔区域掩码图组成hrh-GAN训练数据。另外，与训练wg-GAN类似，我们也同样使用翻转与裁剪操作进行数据增广。

训练方式。本发明中hrh-GAN网络结构及训练方式基于算法(Satoshi Iizuka,Edgar Simo-Serra,and Hiroshi Ishikawa.2017.Globally and locally consistent image completion.ACM Transactions on Graphics(TOG)36,4(2017),107.)。在该算法中，全卷积神经网络作为生成器，用于补全图像。另外由全局判别器及局部判别器的组合保证生成图像全局及局部的合理性。本发明采用相似的生成器来生成口腔区域，由全局判别器及局部判别器帮助生成器生成合理的口腔区域细节，我们采用的损失函数与Iizuka的相同。在实验过程中，我们发现在低分辨率上，利用上述方式训练可以得到令人满意的结果，但是在高分辨率数据集上，直接训练得到的牙齿区域细节不自然，因此我们采用逐渐增加分辨率的训练策略训练生成对抗网络(Tero Karras,Timo Aila,Samuli Laine,and Jaakko Lehtinen.2017.Progressive growing of gans for improved quality,stability,and variation.arXiv preprint arXiv:1710.10196(2017).)，我们全局分辨器与局部分辨器输入大小比例为8:3。在分辨率为128*128的初始训练阶段，我们使用与Iizuka在128分辨率下相似的网络结构，但是生成器第一层网络由(C64,K5,S1)改为(C64,K1,S1)->(C64,K3,S1),并将最后两层网络由(C32,K3,S1)->(C3,K3,S1)改为(C3,K1,S1)；全局分辨器第一层由(C64,K5,S2)改为(C32,K1,S1)->(C64,K5,S2)；局部分辨器第一层改法同上，并将最后一层卷积层删除。在第二阶段，我们将生成器第一阶段时第一层卷积层由(C64,K1,S1)改为三层卷积层(C16,K1,S1)->(C32,K5,S1)->(C64,K3,S2)；最后输出层(C3,K1,S1)改为(DC32,K4,S2)->(C16,K3,S1)->(C3,K1,S1)，其中DC表示反卷积，其后数字表示输出的深度大小；全局分辨器将第一层(C32,K1,S1)改为(C16,K1,S1)->(C32,K5,S2)；局部分辨器第一层改法与全局分辨器相同；另外网络中间层结构与第一阶段保持一致，且参数值由第一阶段继承而来。通过如此训练可以得到自然的高分辨率口腔区域纹理，结果可参考图1至图5第三个箭头之后的结果。

4.2生成口腔区域纹理

根据人脸特征点，计算3.2中得到的优化后的人脸图像对应的口腔区域掩码图，并将该人脸图像与口腔区域掩码图进行拼接，作为hrh-GAN生成器的输入，如此得到填补口腔区域后的人脸图像。最后将人脸图像通过平移与旋转，与形变图像中人脸位置对齐，并与形变图像中非人脸区域进行组合，得到最终目标人物肖像图。

实施实例

发明人在一台配备Intel Core i7-4790中央处理器，NVidia GTX1080Ti图形处理器(11GB)的机器上实现了本发明的实施实例。发明人采用所有在具体实施方式中列出的参数值，得到了附图5中所示的所有实验结果。本发明可以有效且自然地将互联网中的人物肖像根据驱动人物生成肖像动画。对于一张640*480图像，整个处理流程大概需要55毫秒：特征点检测与追踪大概需要12毫秒；全局图像形变大概需要12毫秒；人脸区域纹理的优化大概需要11毫秒；口腔区域细节填补大概需要9毫秒；剩下时间主要用于CPU及GPU之间数据的转移；另外wg-GAN与hrh-GAN分别需要训练12小时与20小时，且两者都仅需训练一次，便可用于任何目标人物图像。

Claims

一种从单幅图像生成人脸动画的方法，其特征在于，包括以下步骤：

(1)图像中人脸特征点生成：计算图像中人脸与背景区域的特征点。

(2)图像全局二维形变：基于步骤1得到的初始特征点，以及用户或程序指定的特征点变化，通过全局二维形变，生成符合特征点约束的形变图像。

(3)人脸区域细节的优化：通过生成对抗神经网络来优化形变图像中人脸区域的纹理，所述人脸区域不包含口腔区域。

(4)口腔区域纹理的生成：通过生成对抗神经网络来合成口腔区域纹理，并生成最后的人脸动画图像。
根据权利要求1所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤1包括如下子步骤：

(1.1)人脸区域特征点的生成：检测目标人物初始图像脸部二维特征点、人物身份系数、表情系数及刚体变换系数，通过传递驱动人物的表情系数及刚体变换系数，生成对应的三维混合形变模型，将其投影到二维平面，得到偏移后的人脸特征点。

(1.2)背景区域特征点的生成：检测并追踪驱动视频中的非人脸区域特征点，并通过下式将其转化到目标图像中：

其中，s表示驱动人物，t表示目标人物，
是目标人物偏移后的非人脸区域特征点，
是驱动人物当前第i帧对应的特征点，
是目标人物初始人脸特征点与驱动人物初始人脸特征点之间的刚体变换矩阵。通过上式，可以得到目标图像的非人脸区域特征点。
根据权利要求2所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤2具体为：根据偏移后的目标人物特征点与初始特征点，计算得到每个特征点的偏移值。以人脸区域特征点和背景区域特征点作为顶点，进行三角化，并对每个三角形中顶点偏移值插值得到偏移图。另外为了消除非人脸区域偏移值不连续问题，通过高斯核对偏移图中非人脸区域进行滤波，高斯核半径随着距离人脸区域距离增大而增大，其范围在[7,32]。最后通过上述偏移图,将原始图像中相应位置的像素转移到当前图像位置，如此得到形变图像。
根据权利要求3所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤3包括如下子步骤：

(3.1)训练基于形变引导的生成对抗神经网络(wg-GAN)，具体如下：

(3.1.1)训练数据：以视频为单位，对每段视频以10帧为间隔进行采样得到图像I _i，并检测其人脸特征点P _i。在{I _i|0<i<N}中选取中性表情图像I ^*，并得到其对应特征点P ^*。用P ^*及P _i计算得到特征点偏移D _i，并通过对P _i三角化及对D _i插值形变I ^*，得到I _i对应的形变图像W _i。另外在所有训练数据上统计人脸各部分特征点偏移的标准差，并用上述标准差对D _i按部位进行归一化处理，得到归一化的
并以此生成偏移图M _i,最终以(W _i,M _i,I _i)组成一组训练数据。并利用翻转与裁剪操作进行数据增广。

(3.1.2)网络结构：对抗神经网络的网络结构是一种编码解码结构。将输入图像下采样两次，并让经过下采样的特征图通过4块残差模块,最后通过缩放卷积输出原始尺寸大小图像。另外网络在对应的下采样与上采样中添加跳跃式传递来保证图像结构的正确性，即含有两次跳跃式传递，因此网络结构可以表示为(C64,K7,S1,LReLU,Skip1)->(C128,K5,S2,LReLU,Skip2)->(C256,K3,S2,LReLU)->4*(RB256,K3,S1,LReLU)->(RC128,K3,R2,LReLU,Skip1)->(RC64,K3,R2,LReLU,Skip2)->(C3,K3,S1,Sigmoid)，其中C、RB、RC分别表示卷积层、残差模块、缩放卷积层，其后的数字表示该层输出的深度大小；K表示该模块中的核，其后的数字表示核的大小；S后的数字表示卷积层或残差模块中步幅大小，若该层进行下采样，则S2,否则S1；R后的数字表示缩放卷积层缩放比例，即当需要上采样是R2；另外Skip表示跳跃式传递，其后的数字表示编号，编号相同表示属于同一条跳跃式传递；分辨器网络结构是一种编码结构，其通过卷积层将输入内容编码成特征向量，并利用全连接层输出用来衡量输入内容真实度的值，其结构可以表示为(C64,K7,S1,LReLU)->(C128,K5,S2,LReLU)->(C256,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(C512,K3,S2,LReLU)->(FC1)，其中FC表示全连接层，其后的数字表示输出为1，全连接层没有任何激活函数。

(3.1.3)损失函数：用函数R(x _w,M)来表示优化器，其中x _w是输入的形变图像，M是偏移图。用D(x,M)来表示分辨器，其中x是优化器生成结果R(x _w,M)或真实图像x _g。训练网络的损失函数可以用下式定义：

其中，min _R表示对R优化器中参数求导，使得目标式子值最小化；max _D表示对D分辨器中参数求导，使得目标式子值最大化；
表示对每个mini-batch求期望；L(R)为正则项，是R(x _w,M)与x _g之间的L1损失函数，用以约束优化器优化结果，其具体形式如下：

其中，α是超参，用来控制L(R)的比重，

另外，公式
是对抗损失函数，在训练过程中，为了提高对抗训练效果，在分辨器训练过程中，将当前迭代优化器生成结果结合优化器历史结果作为分辨器输入。

(3.2)优化人脸区域细节：根据人脸特征点，对形变图像及初始人脸图像进行裁剪，分别得到两者的人脸区域图像，并对两者的人脸区域图像进行对齐，得到I _i与I _*及其对应人脸特征点P _i与P _*。用P _i与P _*做差，得到由I _*到I _i的特征点偏移D _i。对特征点偏移D _i按部位进行归一化处理，归一化操作如下：在整个训练数据集上按部位计算偏移值的标准差，并利用上述标准差，对D _i相应部位进行归一化处理得到
并通过以特征点为顶点进行三角化操作及插值操作，将
生成偏移图M _i。将I _i与M _i进行拼接，得到网络输入。输入网络后便可得到经过优化后的人脸图像。
根据权利要求4所述的从单幅图像生成人脸动画的方法，其特征在于，所述步骤4包括如下子步骤：

(4.1)训练适用于口腔内部纹理合成的生成对抗神经网络(hrh-GAN)，具体如下：

(4.1.1)训练数据：通过收集人脸图像，并检测其人脸特征点，通过口腔区域特征点，生成其对应口腔区域掩码图。人脸图像及对应的口腔区域掩码图组成hrh-GAN训练数据。使用翻转与裁剪操作进行数据增广。

(4.1.2)训练方式：以全卷积神经网络作为生成器来生成口腔区域，由全局分辨器及局部分辨器帮助生成器生成合理的口腔区域细节，全局分辨器与局部分辨器输入大小比例为8:3。

(4.2)生成口腔区域纹理：根据人脸特征点，计算3.2中得到的优化后的人脸图像对应的口腔区域掩码图，并将该人脸图像与口腔区域掩码图进行拼接，作为hrh-GAN生成器的输入，如此得到填补口腔区域后的人脸图像。最后将人脸图像通过平移与旋转，与形变图像中人脸位置对齐，并与形变图像中非人脸区域进行组合，得到最终目标人物肖像图。