WO2020192568A1

WO2020192568A1 - 人脸图像生成方法、装置、设备及存储介质

Info

Publication number: WO2020192568A1
Application number: PCT/CN2020/080335
Authority: WO
Inventors: 者雪飞; 凌永根; 暴林超; 宋奕兵; 刘威
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-03-22
Filing date: 2020-03-20
Publication date: 2020-10-01
Also published as: EP3944200B1; CN109961507A; US11380050B2; EP3944200A4; EP3944200A1; CN109961507B; US20210241521A1

Abstract

本申请公开了一种人脸图像生成方法，包括：根据第一参考元素中的第一人脸图像确定与其对应的三维人脸可变模型作为第一模型；根据第二参考元素确定与其对应的三维人脸可变模型作为第二模型；根据第一模型和第二模型，确定第一人脸图像对应的初始光流图，根据初始光流图对第一人脸图像进行形变得到初始形变图；根据第一人脸图像及其对应的初始光流图和初始形变图，通过卷积神经网络获得光流增量图和可见概率图；根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图，生成目标人脸图像。该方法一方面实现了参数化控制，另一方面基于光流保留原始图像细节信息，从而使得生成的图像逼真自然。本申请还公开了对应的装置、设备及介质。

Description

人脸图像生成方法、装置、设备及存储介质

本申请要求于2019年03月22日提交的申请号为201910222403.3、发明名称为“一种人脸图像生成方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人脸图像生成方法、装置、设备及存储介质。

背景技术

如今，很多场景下会用到人脸图像生成技术，以一张或者多张人脸图像作为输入，生成与该输入的人脸图像姿态、面部表情相类似的其他人脸图像；例如，以一个人的一张微笑人脸图像作为基础，通过人脸图像生成技术生成该人或者其他人的微笑人脸图像。

现有的人脸图像生成技术直接依赖生成式对抗网络来合成人脸图像，该生成式对抗网络的参数空间比较大、模型复杂性比较高，其实际训练效果并不好，容易出现过拟合，导致合成的人脸图像还不够自然逼真，而且其仅以特定人脸图像为目标，无法实现个性化的人脸图像合成。

发明内容

本申请实施例提供了一种人脸图像生成方法，通过三维人脸可变模型生成初始光流图，再基于卷积神经网络对初始光流图进行光流补全，基于光流补全后的目标光流图最终合成目标人脸图像，如此，既能够保留第一参考元素中人脸图像的轮廓，又能够保留第二参考元素所表征的目标人脸图像的位姿和表情，使得生成的目标人脸图像更逼真自然，而且，基于三维人脸可变模型能实现个性化的人脸图像合成。对应地，本申请实施例还提供了一种人脸图像生成装置、设备、计算机可读存储介质以及计算机程序产品。

有鉴于此，本申请第一方面提供了一种人脸图像生成方法，所述方法包括：

根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

本申请第二方面提供一种人脸图像生成装置，所述装置包括：

第一模型生成模块，用于根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

确定模块，用于根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

获取模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

目标人脸图像生成模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

本申请第三方面提供一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的人脸图像生成方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的人脸图像生成方法。

本申请第五方面提供一种计算机程序产品，所述计算机程序产品包括指令，所述指令在计算机上运行时，使得所述计算机执行上述第一方面所述的人脸图像生成方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种人脸图像生成方法，根据第一参考元素中的第一人脸图像确定与第一人脸图像对应的三维人脸可变模型作为第一模型，根据用于表征目标人脸图像的姿态和/或表情的第二参考元素确定与其对应的三维人脸可变模型作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图；可知，该方法通过三维人脸可变模型确定出初始光流图，一方面能够保留第一参考元素中人脸图像的轮廓和第二参考元素所标识的目标人脸的姿态和表情中的至少一个，另一方面能够通过三维人脸可变模型实现参数化控制，方便用户根据实际需求实现个性化的图像合成，接着根据该初始光流图对第一人脸图像进行形变得到对应的初始形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，使得其保留原始图像更多的细节信息，因而较为逼真和自然。此外，由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

附图说明

图1为本申请实施例中人脸图像生成方法的场景架构图；

图2A为本申请实施例中人脸图像生成方法的流程图；

图2B为基于图2A进行图像合成的示例效果图；

图2C为基于图2A生成初始光流图的示例效果图；

图3为本申请实施例中基于神经网络模型确定与第一人脸图像对应的三维人脸可变模型的流程图；

图4为本申请实施例中卷积神经网络输入输出示意图；

图5A为本申请实施例中生成式对抗网络模型的结构示意图；

图5B为本申请实施例中生成式对抗网络模型训练方法的流程图；

图6为本申请实施例中生成目标人脸图像的效果示意图；

图7为本申请实施例中生成目标人脸图像的效果示意图；

图8A为本申请实施例中人脸图像生成方法的应用场景示意图；

图8B为本申请实施例中人脸图像生成方法的另一应用场景示意图；

图9为本申请实施例中人脸图像生成装置的一个结构示意图；

图10为本申请实施例中人脸图像生成装置的一个结构示意图；

图11为本申请实施例中人脸图像生成装置的一个结构示意图；

图12为本申请实施例中人脸图像生成装置的一个结构示意图；

图13为本申请实施例中人脸图像生成装置的一个结构示意图；

图14为本申请实施例中人脸图像生成装置的一个结构示意图；

图15为本申请实施例中人脸图像生成装置的一个结构示意图；

图16为本申请实施例中人脸图像生成装置的一个结构示意图；

图17为本申请实施例中服务器的一个结构示意图；

图18为本申请实施例中终端的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对相关技术中，基于生成式对抗网络生成人脸图像存在的训练不稳定和模式丢失的问题，以及模型复杂性变高、泛化性能较差导致基于生成对抗神经网络生成的人脸图像不够自然逼真的问题，本申请提供了一种基于光流图的人脸图像生成方法，该方法通过三维人脸可变模型(3D Morphable Models，3DMM)确定初始光流图，如此，该方法一方面能够保留第一参考元素中第一人脸图像的轮廓和第二参考元素所标识的目标人脸图像的姿态和表情，另一方面能够通过三维人脸可变模型实现参数化控制，方便用户根据实际需求实现个性化的图像合成，然后根据该初始光流图对人脸图像进行形变得到初始形变图，根据初始光流图和初始形变图，利用卷积神经网络获取对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，使得其保留原始图像更多的细节信息，因而较为逼真和自然。

由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

可以理解，本申请提供的人脸图像生成方法可以应用于具有图形处理能力的处理设备，该处理设备可以是任意包括中央处理器(Central Processing Unit，CPU)和/或图形处理器(Graphics Processing Unit，GPU)的终端或服务器，处理设备在执行本申请提供的人脸图像生成方法时，可以是独立执行，也可以通过集群协作的方式执行。需要说明的是，该方法可以采用应用程序或软件的形式存储于处理设备，处理设备通过执行该应用程序或软件实现本申请提供的人脸图像生成方法。

为了使得本申请的技术方案更加清楚、易于理解，下面将结合具体场景对本申请提供的人脸图像生成方法进行介绍。参见图1所示的人脸图像生成方法的场景架构图，该场景中包括服务器10和终端20，终端20向服务器10发送人脸图像生成请求，该人脸图像生成请求中携带有第一参考元素和第二参考元素，其中，第一参考元素包括第一人脸图像，第二参考元素用于表征目标人脸图像的姿态和/或表情，服务器10根据第一参考元素中的第一人脸图像确定与该第一人脸图像对应的3DMM作为第一模型，根据第二参考元素确定与该第二参考元素对应的3DMM作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图，根据该初始光流图对第一参考元素中的第一人脸图像进行形变得到第一人脸图像对应的初始形变图，服务器10再根据第一参考元素中的第一人脸图像及该第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，基于第一参考元素中的第一人脸图像及该第一人脸图像对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，然后服务器10向终端20返回目标人脸图像。

接下来，从服务器的角度对本申请实施例提供的人脸图像生成方法的各个步骤进行详细说明。

参见图2A所示的人脸图像生成方法的流程图，该方法包括：

S201：根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的3DMM作为第一模型。

S202：根据第二参考元素确定与所述第二参考元素对应的3DMM作为第二模型。

所述第一参考元素包括第一人脸图像，所述第二参考元素用于表征目标人脸图像的姿态和/或表情，本申请实施例提供的人脸图像生成方法即为在第一人脸图像的基础上生成指定姿态和/或指定表情的目标人脸图像。

在一种可能实现方式中，姿态是指身体呈现的样子，具体到本实施例，姿态可以理解为头部呈现的样子，姿态可以通过头部中轴线与水平方向或竖直方向的角度进行表征。作为本申请的一些具体示例，姿态可以包括与竖直方向呈30°夹角左偏，或者与竖直方向呈 60°夹角右偏。

表情是指表达在面部或姿态上的思想感情。针对面部表情，可以通过五官与正常情况下的差异进行表征，如通过嘴角上翘表征微笑、嘴角下垂表征沮丧等，当然，有些表情也可以通过姿态进行表征，例如不知所措的表情可以通过手挠头的姿态进行表征。

基于此，第二参考元素可以通过不同形式表征目标人脸图像的姿态和/或表情。在一些可能的实现方式中，第二参考元素可以包括表征姿态和/或表情的目标模型参数，也可以包括第二人脸图像，该第二人脸图像与第一人脸图像存在差异，在此种情形下，第二人脸图像中的姿态和/或表情即表征目标人脸图像的姿态和/或表情。

在本实施例中，响应于第二参考元素包括目标模型参数，根据所述目标模型参数确定与该目标模型参数对应的3DMM，作为第二模型；响应于所述第二参考元素包括第二人脸图像，根据所述第二人脸图像确定与该第二人脸图像对应的3DMM，作为第二模型。

本申请实施例提供了通过数学算法计算模型系数和通过网络直接确定模型系数两种实现方式确定与第一人脸图像对应的3DMM。下面对这两种实现方式进行详细说明。

一种实现方式为，服务器检测第一人脸图像中的人脸关键点坐标，根据平均脸构建初始3DMM，将初始3DMM的三维坐标投影至二维图像得到投影坐标，然后确定使得所述人脸关键点坐标与所述投影坐标距离最小化的第一模型参数，根据所述第一模型参数确定与所述第一人脸图像对应的3DMM。

具体地，平均脸是指从一定数量的普通人脸提取面部特征，根据测量数据求平均值，再利用计算机技术得到的一张合成脸。根据平均脸构建的初始3DMM可以通过人脸3D点的集合表征，该集合记作S＝{p＝(x，y，z)}，初始3DMM为3D人脸的线性模型，具体可以通过如下公式表征：

其中，

为平均脸，A _id和A _exp为形状基与表情基，a _id和a _exp分别为形状基与表情基各自对应的系数。初始3DMM可以按照如下弱投影模型投影至2D图像得到投影坐标：

V(p)＝f*Pr*R*S+t _2d (2)

其中，f为相机的焦距，Pr为正交投影矩阵，在一个示例中，

R为对应旋转角旋转矩阵，t _2d为像素平移参数。针对单张第一人脸图像，服务器检测该第一人脸图像中的人脸关键点坐标u(x，y)，则人脸关键点坐标与投影坐标距离E ₁可以通过下式表征：

E ₁＝Σ||u(x,y)-V(p)|| (3)

通过最小化E ₁，可以求解得到第一模型参数[a _id,a _exp,f,R,t _2d]，根据该第一模型参数对初始3DMM中的参数进行更新，可以确定与第一人脸图像对应的3DMM。

另一种实现方式为，服务器检测第一人脸图像中的人脸关键点坐标，然后根据所述第一人脸关键点坐标和所述第一人脸图像，通过神经网络模型获得第二模型参数，再根据所述第二模型参数确定与所述第一人脸图像对应的3DMM。

图3示出了基于神经网络模型确定与第一人脸图像对应的3DMM的流程图，如图3所示，该神经网络模型包括深度编码器和基于模型的解码器，输入第一人脸图像后，对该第一人脸图像进行人脸特征检测，得到人脸关键点坐标，神经网络模型的深度编码器(Deep Encoder)可以对第一人脸图像以及人脸关键点坐标编码，然后语义编码向量对编码文本进行语义编码，其中，编码器可以通过alexNet或VGG-Face实现，语义编码向量可以通过神经网络模型的模型参数[a _id,a _exp,f,R,t _2d]实现，接着，神经网络模型利用基于模型的解码器(Model-based Decoder)对语义编码后的文本解码以重建图像，接着服务器计算模型的损失函数，该损失函数至少包括人脸关键点坐标与投影坐标的距离，以及人脸关键点投影亮度差，其中，人脸关键点坐标与投影坐标的距离的计算可以参见式3，投影亮度差的计算可以参见如下公式：

E ₂＝Σ||Iu(x,y)-I(V(p))|| (4)

其中，E ₂表征投影亮度差，I表征亮度，Iu(x,y)即为检测第一人脸图像得到的人脸关键点u(x,y)的亮度，I(V(p))即为人脸关键点从3DMM投影至2D图像时的亮度。

需要说明的是，当第二参考元素包括第二人脸图像时，根据第二人脸图像确定与该第二人脸图像对应的3DMM的过程可以参照上述确定第一模型的两种实现方式中的任一种实现方式，本实施例不再赘述。

当第二参考元素包括表征姿态或表情的目标模型参数时，则服务器可以直接基于该目标模型参数确定与该目标模型参数对应的3DMM。具体地，当第二参考元素包括的目标模型参数中仅包括模型参数[a _id,a _exp,f,R,t _2d]中的部分参数时，则可以利用第二参考元素中的部分参数替换初始模型参数中的部分参数，将其余参数保持默认值不变，得到更新后的模型参数。根据更新后的参数可以确定与目标模型参数对应的3DMM。

还需要说明的是，第一参考元素可以包括一张第一人脸图像，也可以包括多张第一人脸图像。当所述第一参考元素包括属于同一人的多张不同的第一人脸图像时，服务器可以针对所述第一参考元素中的每张第一人脸图像，确定与该第一人脸图像对应的三维人脸可变模型，作为与该第一人脸图像对应的第一模型。

为了便于理解，下面结合图2B对方法实现效果进行示例性说明。如图2B所示，第一参考元素包括两张第一人脸图像211，第二参考元素包括一张第二人脸图像212，根据第一人脸图像211确定对应的第一模型，根据第二人脸图像212确定对应的第二模型。需要说明的是，由于第一人脸图像211中包括两张第一人脸图像，因此，第一模型中包括分别与两张第一人脸图像对应的两个第一模型。

S203：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图。

在本实施例中，服务器对比第一模型和第二模型，并基于投影几何关系计算初始光流图。在一些可能的实现方式中，服务器可以通过投影归一化坐标编码图像(Projected Normalized coordinate code，PNCC)计算初始光流图。具体地，服务器根据投影归一化坐标编码算法对第一模型投影得到输入PNCC图像，对第二模型投影得到目标PNCC图像，然后查找输入PNCC图像和目标PNCC图像中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成初始光流图。

请参见图2C，输入两张第一人脸图像(输入图像1和输入图像2)以及表征目标人脸图像姿态和表情的第二参考元素，得到分别与两张第一人脸图像对应的3DMM模型(3DMM模型1和3DMM模型2)和与第二参考元素对应的目标3DMM模型(即第二模型)后，可以通过分别对上述3DMM模型进行投影得到对应的PNCC图像，具体地，对3DMM模型1进行投影得到PNCC 1，对3DMM模型2进行投影得到PNCC2，对目标3DMM模型进行投影得到PNCC T。查找PNCC 1和PNCC T中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像1对应的初始光流图1；类似地，查找PNCC2和PNCC T中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成与输入图像2对应的初始光流图2。需要说明的时，初始光流图一般以彩色形式呈现，图2C中的初始光流图仅为将彩色转成灰度的效果。

进一步地，服务器可以根据初始光流图对第一人脸图像进行形变得到第一人脸图像对应的初始形变图。可以理解的是，初始光流图描述的是第一参考元素中的第一人脸图像与第二参考元素所表征的图像之间的像素对应关系，因此，根据初始光流图，找到初始光流图对应的在第一人脸图像上的像素位置，将初始光流图中的像素值复制到第一人脸图像上对应的像素位置处，得到第一人脸图像对应的初始形变图。

需要说明的是，当第一参考元素包括多张第一人脸图像时，先分别得到每张第一人脸图像对应的初始光流图，然后根据每张第一人脸图像对应的初始形变图对该张人脸图像进行形变，得到该张人脸图像对应的初始形变图。也就是说，当第一参考元素包括多张第一人脸图像时，分别得到每张第一人脸图像对应的初始形变图。

请参见图2B，根据第一模型和第二模型确定出初始光流图213后，根据初始光流图213对第一人脸图像211进行形变生成对应的初始形变图214。初始形变图214中包括分别与两张第一人脸图像对应的初始形变图。

S204：根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图。

由于初始光流图中仅包含人脸部分区域，服务器可以对初始光流图进行补全和矫正，以生成逼真自然的人脸图像。在实际应用时，服务器可以通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图。

其中，光流增量图是根据第一人脸图像各像素点的光流增量形成的，根据第一人脸图像各像素点的光流增量和第一人脸图像对应的初始光流图中各像素点的初始光流可以生成第一人脸图像各像素点的光流，从而实现光流补全和矫正。可见概率图表征了第一人脸图像中各像素点出现在目标人脸图像中的概率，基于该可见概率图可以确定在目标人脸图像中保留的第一人脸图像细节。

请参见图2B，将第一人脸图像211及其对应的初始光流图213和初始形变图214输入卷积神经网络，获得卷积神经网络输出的第一人脸图像211对应的光流增量图215和可见概率图216。光流增量图215中包括分别与两张第一人脸图像对应的光流增量图，可见概率图216中包括分别与两张第一脸图像对应的可见概率图。

在一种可能实现方式中，卷积神经网络可以采用编码器和解码器的网络结构。作为本申请的一个示例，该网络结构具体可以是U-NET结构。U-NET是一种基于编码器-解码器结构的卷积神经网络，常用于图像分割任务。编码器结构通过池化层降低空间维度并提取图像语义特征，解码器结构通过反卷积层修复物体的细节并恢复空间维度。编码器和解码器之间存在快捷连接，以帮助解码器更好地复原目标的细节信息。

具体到本实施例，U-NET以第一人脸图像及其对应的初始光流图和初始形变图为输入，以第一人脸图像对应的光流增量图和可见概率图为输出。图4示出了卷积神经网络输入输出示意图，在该示例中，该卷积神经网络采用U-NET网络结构，I ₀和I ₁分别表征两张第一人脸图像，

和

分别表征I ₀和I ₁各自对应的初始光流图，

和

分别表征I ₀和I ₁各自对应的初始形变图，ΔF _0→t和ΔF _1→t分别表征I ₀和I ₁各自对应的光流增量图，V _0→t和V _1→t分别表征I ₀和I ₁各自对应的可见概率图，该卷积神经网络以I ₀、I ₁、

和

为输入，以ΔF _0→t、ΔF _1→t、V _0→t和V _1→t为输出。

本申请实施例还提供了训练卷积神经网络的一种实现方式，具体地，服务器确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及该图像数据对应的标签数据，所述图像数据包括第一样本人脸图像及该第一样本人脸图像对应的初始光流图和初始形变图，第一样本人脸图像对应的初始形变图根据第一样本人脸图像对应的初始光流图对第一样本人脸图像进行形变得到；所述标签数据包括标定的光流增量图和可见概率图，然后服务器通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络。示例性地，服务器通过所述第一训练样本集中的训练样本训练U-NET网络，获得所述卷积神经网络。

S205：根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成目标人脸图像。

在具体实现时，服务器可以根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的目标光流图，然后根据所述第一人脸图像对应的目标光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图，再根据所述第一人脸图像对应的目标形变图和可见概率图，生成目标人脸图像。

在具体实现时，当第一参考元素包括一张第一人脸图像时，所述目标人脸图像可以通过所述第一人脸图像对应的目标形变图和可见概率图的乘积来确定；

当第一参考元素包括多张第一人脸图像时，所述目标人脸图像具体可以通过以下方式确定：

根据各所述第一人脸图像对应的可见概率图确定各所述第一人脸图像对应的目标形变图的权值，利用该权值对各所述第一人脸图像对应的目标形变图进行加权平均，得到目标人脸图像。

下面以第一参考元素包括两张不同的第一人脸图像为例进行示例说明。

仍以图2B作为示例进行说明，根据第一人脸图像211对应的光流增量图215对初始光流图213进行光流补全，得到与第一人脸图像211对应的目标光流图，根据该目标光流图对第一人脸图像211进行形变可以得到目标形变图217，然后，根据目标形变图217和可见概率图216可以生成目标人脸图像218。

以图4的卷积神经网络为例，服务器根据ΔF _0→t对I ₀对应的初始光流图

进行光流补全得到I ₀对应的目标光流图F _0→t，根据ΔF _1→t对I ₁对应的初始光流图

进行光流补全得到I ₁对应的目标光流图F _1→t，然后根据F _0→t对I ₀进行形变得到I ₀对应的目标形变图g(I ₀，F _0→t)，根据F _1→t对I ₁进行形变得到I ₁对应的目标形变图g(I ₁，F _1→t)，服务器可以将各张第一人脸图像对应的可见概率图与其对应的目标形变图对应位置的数值进行乘法运算，针对各张第一人脸图像运算结果进行求和，再将求和结果除以各第一人脸图像对应的可见概率图之和，从而生成目标人脸图像，具体参见如下公式：

其中，

表征目标人脸图像，V ₀、V ₁分别表征第一人脸图像I ₀、I ₁对应的可见概率图，g(I ₀，F _0→t)、g(I ₁，F _1→t)分别表征I ₀、I ₁对应的目标形变图，⊙表征对两张图像对应位置进行乘法运算。

可以理解的是，当第一参考元素包括n张第一人脸图像时，可以通过如下公式(6)生成目标人脸图像：

其中，n为大于1的正整数，I _n-1表征第一参考元素中的第n张第一人脸图像，V _n-1表征I _n-1对应的可见概率图，g(I _n-1，F _n-1→t)表征I _n-1对应的目标形变图，公式(6)中其他元素的含义参见公式(5)。

由上可知，本申请实施例提供了一种人脸图像生成方法，该方法是基于光流图实现生成目标人脸图像的，具体地，根据包括第一人脸图像的第一参考元素确定与其对应的三维人脸可变模型作为第一模型，根据用于表征目标人脸图像的姿态和/或表情的第二参考元素确定与其对应的三维人脸可变模型作为第二模型，然后根据第一模型和第二模型确定第一人脸图像对应的初始光流图，一方面利用三维人脸可变模型实现了参数化控制，另一方面通过该初始光流图保留了原始图像身份形状信息，接着根据该初始光流图对第一人脸图像进行形变得到对应的初始形变图，通过卷积神经网络获得第一人脸图像对应的光流增量图和可见概率图，再根据第一人脸图像及其对应的初始光流图、光流增量图和可见概率图生成目标人脸图像，其保留原始图像细节信息，因而较为逼真和自然。此外，由于不再依赖单一网络，而是通过不同的小型网络分别实现相应的功能，如此大大减小了参数空间，降低了模型复杂性，提高了泛化性能，在实际应用时，能够生成自然逼真的人脸图像。

在一些可能的实现方式中，服务器还可以通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗网络模型输出的优化后的目标人脸图像。该生成式对抗网络模型能够对形变过程中产生的人工纹理以及目标形变图中存在的不可见区域进行进一步改善，因而能够生成自然、逼真的人脸图像。

在一种可能实现方式中，生成式对抗网络模型结构包括生成器和判别器，参见图5A所示的生成式对抗网络模型的结构示意图，生成器用于生成改善后图像，其以S205生成的目标人脸图像为输入，以改善人工纹理和不可见区域后的图像为输出，如图5A所示，输入图像为基于S205生成的目标人脸图像，其在边界位置存在形变(伪影)，在经过生成对抗网络模型的生成器后，可以生成修复后的人脸图像，判别器用于判别生成器生成的图像是否真实，具体地，其以生成器生成的图像为输入，判别该图像是否为真实人脸图像，若是，则输出该图像作为优化后的目标人脸图像，若否，则重新生成改善后的图像，并执行相应的判别步骤，直至生成器生成的图像被判别器判别为真实人脸图像为止。

在实际应用时，本申请实施例还提供了训练生成式对抗网络模型的示例性实现方式。参见图5B所示的生成式对抗网络模型训练方法的流程图，该方法包括：

S501：确定第二训练样本集。

所述第二训练样本集中的每个训练样本包括所述第二样本人脸图像及该第二样人脸图像对应的标定人脸图像。其中，第二样本人脸图像是指根据初始样本人脸图像及其对应的初始光流图、光流增量图和可见概率图所生成的图像，标定人脸图像是指预先标定的真实人脸图像。

为了便于理解，下面结合具体示例对第二训练样本集中的训练样本进行说明。在一个示例中，初始样本人脸图像为头部左偏15°，面部表情为微笑的人脸图像，第二样本人脸图像是指基于图2A所示实施例提供的人脸图像生成方法所生成的人脸图像，在第二样本人脸图像中，人物头部右偏30°，面部表情为哀伤，而标定人脸图像则是人物头部右偏30°，面部表情为哀伤时拍摄所得图像。

S502：通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。

在具体实现时，服务器以像素误差和对抗损失函数作为损失函数，利用第二训练样本集中的训练样本训练生成式对抗网络，从而获得生成式对抗网络模型。

以上为本申请实施例提供的人脸图像生成方法的一些具体实现方式，为了便于理解，下面将从产品应用的角度对本申请实施例提供的人脸图像生成方法进行介绍。

可以理解，本申请实施例提供的人脸图像生成方法可以通过人工智能(Artificial Intelligence，AI)技术应用于许多领域，例如，可以运用于网络社交领域或视频剪辑领域，根据第一人脸图像合成多张目标人脸图像，基于多种不同目标人脸图像生成动态短视频或动态表情，并将其应用于虚拟主播、电影特效或者程序式合成等场景中。

下面对本申请实施例提供的人脸图像生成方法在产品侧应用进行详细说明。

在一些可能的实现方式中，所述第二参考元素包括多组有序的目标模型参数或者来源于指定视频的多张有序的第二人脸图像或者来源于指定动画的多张有序的第二人脸图像；响应于所述第二参考元素包括多组有序的目标模型参数，按照顺序针对每组目标模型参数，确定与该目标模型参数对应的三维人脸可变模型，作为与该目标模型参数对应的第二模型；响应于所述第二参考元素包括多张有序的第二人脸图像，按照顺序针对每张第二人脸图像，确定与该第二人脸图像对应的三维人脸可变模型，作为与该第二人脸图像对应的第二模型。

然后，服务器按照顺序针对每个所述第二模型，执行根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图的步骤，如此，可以得到多张初始光流图，进而可以生成多张有序的目标人脸图像，服务器可以根据每个第二模型的顺序和基于每个第二模型生成的目标人脸图像，生成有序图像集。有序图像集具体可以是视频或动态表情等，本实施例对其形式不作限定。

第二参考元素包括目标模型参数时，基于上述方法生成的目标人脸图像和第一人脸图像是属于同一人的人脸图像，服务器可以基于多张有序目标人脸图像，生成与该人物对应的视频或表情包。参见图6，其示出了生成目标人脸图像的效果示意图，在该示例中，服务器以第一列和第二列图像(如图6中61所示)作为输入，生成不同姿态下的目标人脸图像。以输入图像为第一列和第二列图像中的第一行图像(如图6中62所示)为例，基于图像62可以确定对应的第一模型，基于目标模型参数可以确定对应的第二模型，根据第一模型和第二模型可以确定与图像62对应的初始光流图，根据该初始光流图对图像62进行形变可以得到对应的初始形变图，然后根据初始光流图和初始形变图，通过卷积神经网络可以获得对应的光流增量图和可见概率图，根据图像62及其对应的初始光流图、光流增量图和可见概率图可以生成目标人脸图像(如图6中63所示)。由于这多张不同姿态下的目标人脸图像体现了人物头部从某一角度向另一角度变化的过程，因此，服务器可以基于多张目标人脸图像生成人物头部从某一角度向另一角度变化的视频或动态表情。

第二参考元素包括第二人脸图像时，第二人脸图像和第一人脸图像可以是属于同一人的人脸图像，也可以是属于不同人的人脸图像。当第二人脸图像和第一人脸图像是属于同一人的人脸图像时，生成目标人脸图像效果与图6类似，当第二人脸图像和第一人脸图像属于不同人的人脸图像时，服务器可以生成与第一人脸图像中姿态和/或表情存在差异的目标人脸图像，基于多张有序目标人脸图像，可以生成第一人脸图像中人物对应的视频或表情包。

具体地，第一人脸图像可以是公众人物的人脸图像，如明星的人脸图像；第二人脸图像可以是任意具有指定姿态和/或指定表情的人脸图像，例如可以是非公众人物呈现指定姿态和/或指定表情的人脸图像。如此，可以基于本申请实施例提供的人脸图像生成方法生成公众人物呈现指定姿态和/或指定表情的目标人脸图像，根据多张公众人物呈现指定姿态和/或指定表情的目标人脸图像可以生成关于该公众人物的视频或动态表情。

参见图7，其示出了生成目标人脸图像的效果示意图，在该示例中，服务器以前两列图像(如图7中71所示)作为输入图像，以第一行图像(如图7中72所示)作为驱动，生成目标人脸图像。具体地，以71中的第一行图像73包括的两个图像作为第一参考元素，以72中包含的多个图像作为第二参考元素，分别针对第一参考元素和上述第二参考元素生成与其对应的多张有序的目标人脸图像74，该目标人脸图像与第一参考元素中的第一人脸图像属于同一人且该目标人脸图像中人物的姿态和表情与第二参考元素中的第二人脸图像中人物的姿态和表情相同，如此，服务器可以基于多张目标人脸图像生成关于第一人脸图像中人物相关的视频或动态表情。

需要说明的是，服务器生成有序图像集后，还可以接收针对所述有序图像集的分享指令，根据所述分享指令，分享所述有序图像集，以便吸引用户，增加用户活跃度。

在直播应用场景或社交网络应用场景中，常常需要用户配置头像，基于此，本申请实施例提供的方法还可以用于根据用户实际需求实现头像个性化定制。具体地，服务器响应于用户请求，生成对应的目标人脸图像，然后向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。

需要说明的是，当本申请实施例提供的人脸图像生成方法由终端执行时，终端在生成目标人脸图像后，将该目标人脸图像设置为用户的社交网络头像，并在头像显示界面显示所述社交网络头像。

为了使得本申请的技术方案更加清楚，下面将结合视频剪辑的应用场景对本申请提供的人脸图像生成方法进行介绍。

参见图8A所示的人脸图像生成方法的应用场景示意图，该应用场景包括服务器10和终端20，用户通过终端20向服务器10发送视频生成请求，该视频生成请求携带有第一参考元素和第二参考元素，第一参考元素包括第一人脸图像，该第一人脸图像具体为某明星的人脸图像，第二参考元素包括多张第二人脸图像，该第二人脸图像可以是用户自身展示不同姿态和表情时拍摄得到的人脸图像。服务器10接收到视频生成请求后，利用本申请实施例提供的人脸图像生成方法生成多张有序的目标人脸图像，该目标人脸图像具体为该明星展示上述姿态和表情时的人脸图像，进一步地，服务器10利用上述多张目标人脸图像生成该明星展示上述姿态和表情的视频。

具体地，服务器10检测第一人脸图像中的人脸关键点坐标，然后根据所述人脸关键点坐标和第一人脸图像，通过神经网络模型获得模型参数，再根据所述模型参数确定所述第一人脸图像对应的3DMM，即第一模型。

然后，针对每一张第二人脸图像，服务器10采用与生成第一模型相同的方式，检测第二人脸图像中的人脸关键点坐标，根据所述人脸关键点坐标和第二人脸图像，通过神经网络模型获得模型参数，再根据所述模型参数确定所述第二人脸图像对应的3DMM，即第二模型。在该示例中，每一张第二人脸图像对应一个第二模型。

接着，服务器10根据投影归一化坐标编码算法对第一模型投影得到输入PNCC图像，对第二模型投影得到目标PNCC图像，然后查找输入PNCC图像和目标PNCC图像中像素差最小的像素点作为对应点，计算每组对应点的像素差，根据每组对应点的像素差生成初始光流图。如此，针对每一个第二模型，可以得到一个初始光流图。针对每一个初始光流图，服务器10可以利用初始光流图对第一人脸图像进行形变得到与该第一人脸图像对应的初始形变图，如此，服务器10可以进行形变得到多个初始形变图。

再次，服务器10通过卷积神经网络进行光流补全和矫正。具体地，服务器10采用U-NET结构训练卷积神经网络，该卷积神经网络以第一人脸图像及其对应的初始光流图和初始形变图为输入，以第一人脸图像对应的光流增量图和可见概率图为输出。如此，服务器10可以将初始光流图和光流增量图叠加得到目标光流图，根据第一人脸图像对应的目标光流图对第一人脸图像进行形变得到第一人脸图像对应的目标形变图，并根据所述第一人脸图像对应的目标形变图和可见概率图，生成目标人脸图像。由于第二参考元素包括多张第二人脸图像，对应地，服务器10可以生成与每张第二人脸图像一一对应的多张目标光流图，进而生成与每张第二人脸图像一一对应的多张目标人脸图像。

最后，服务器10将上述多张目标人脸图像输入至预先训练的生成式对抗网络模型，以消除人工纹理和不可见区域，实现对目标人脸图像的优化，服务器10获取优化后的目标人脸图像，根据优化后的目标人脸图像生成关于该明星展示上述姿态和表情的视频，并向终端20返回该视频。

下面将结合图8B对本申请提供的人脸图像生成方法应用进行另一示例说明。

本申请提供的人脸图像生成方法在实现时可以包括：光流激活、光流补全和形变改善这三个阶段，图8B中以基于用户的两张人脸图像合成该用户在目标姿态和表情下的目标人脸图像为例，对上述三个阶段的具体实现进行说明。

请参见图8B，在光流激活阶段，输入两张第一人脸图像(输入图像1和输入图像2)即第一参考元素，并输入表征目标人脸图像的姿态和表情的第二参考元素，得到与两张第一人脸图像对应的第一模型以及与第二参考元素对应的第二模型，对上述模型进行投影得到对应的PNCC图像，针对每一个第一模型对应的PNCC图像，查找其与目标PNCC图像像素差最小的点作为对应点，基于每组对应的点的像素差可以生成初始光流图，如此可以得到每张第一人脸图像各自对应的初始光流图(初始光流图1和初始光流图2)。

在光流补全阶段，通过卷积神经网络得到各输入图像对应的光流增量图和可见概率图，基于初始光流图和光流增量图可以得到各输入图像对应的光流图(光流图1和光流图2)，根据光流图对输入图像进行形变可以得到各输入图像对应的目标形变图。然后基于卷积神经网络输出的可见概率图，将目标形变图1和目标形变图2进行合并得到目标人脸图像。

在形变改善阶段，将目标人脸图像输入生成式对抗网络模型，可以对目标人脸图像中的人工纹理、伪影及不可见区域等进行优化，生成优化后的目标人脸图像，若该优化后的目标人脸图像被判别器判别为真，则输出该优化后的目标人脸图像。

基于本申请实施例提供的人脸图像生成方法的具体实现方式，本申请实施例还提供了对应的装置，下面将从功能模块化的角度对装置进行介绍。

参见图9所示的人脸图像生成装置的结构示意图，该装置900包括：

第一模型生成模块910，用于根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块920，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情，；

确定模块930，用于根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

获取模块940，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

目标人脸图像生成模块950，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。

可选地，参见图10，图10为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

优化模块960，用于通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗神经网络模型输出的优化后的目标人脸图像。

可选地，所述第二模型生成模块920具体用于：

响应于第二参考元素包括目标模型参数，根据所述目标模型参数确定与所述目标模型参数对应的三维人脸可变模型作为第二模型。

可选地，所述第二模型生成模块920具体用于：

响应于所述第二参考元素包括第二人脸图像，根据所述第二人脸图像确定与所述第二人脸图像对应的三维人脸可变模型作为第二模型；

其中，所述第二人脸图像与所述第一人脸图像存在差异。

可选地，参见图11，图11为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

三维人脸可变模型生成模块970，用于检测所述第一人脸图像中的人脸关键点坐标；根据平均脸构建初始三维人脸可变模型，将所述初始三维人脸可变模型的三维坐标投影至二维图像得到投影坐标；确定使得所述人脸关键点坐标与所述投影坐标距离最小化的第一模型参数，根据所述第一模型参数确定与所述第一人脸图像对应的三维人脸可变模型。

需要说明的是，该人脸图像生成装置也可以是在图10所示结构的基础上还包括三维人脸可变模型生成模块970，本实施例对此不作限定。

可选地，所述三维人脸可变模型生成模块970通过以下方式确定与所述第一人脸图像对应的三维人脸可变模型：

检测所述第一人脸图像中的人脸关键点坐标；

根据所述人脸关键点坐标和所述第一人脸图像，通过神经网络模型获得第二模型参数；

根据所述第二模型参数确定与所述第一人脸图像对应的三维人脸可变模型。

可选地，所述目标人脸图像生成模块950具体用于：

根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的目标光流图；

根据所述第一人脸图像对应的目标光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图；

根据所述第一人脸图像对应的目标形变图和可见概率图，生成所述目标人脸图像。

可选地，参见图12，图12为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述第二参考元素包括多组有序的目标模型参数或者多张有序的第二人脸图像；

所述第二模型生成模块920具体用于：

响应于所述第二参考元素包括多组有序的目标模型参数，按照顺序针对每组目标模型参数，确定与所述目标模型参数对应的三维人脸可变模型，作为与该目标模型参数对应的第二模型；

响应于所述第二参考元素包括多张有序的第二人脸图像，按照顺序针对每张第二人脸图像，确定与所述第二人脸图像对应的三维人脸可变模型，作为与该第二人脸图像对应的第二模型；

所述确定模块930具体用于：

按照顺序针对每个所述第二模型，执行所述步骤：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图。

可选地，所述装置900还包括：

图像集生成模块980，用于根据每个第二模型的顺序和基于每个第二模型生成的目标人脸图像，生成有序图像集。

可选地，参见图13，图13为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图12所示结构的基础上，所述装置900还包括：

图像集分享模块981，用于接收针对所述有序图像集的分享指令，根据所述分享指令，分享所述有序图像集。

可选地，参见图14，图14为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述装置900还包括：

发送模块990，用于向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。

可选地，所述第一参考元素包括属于同一人的多张不同的第一人脸图像；

所述第一模型生成模块910具体用于：

针对所述第一参考元素中的每张第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型，作为与所述第一人脸图像对应的第一模型。

可选地，参见图15，图15为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图9所示结构的基础上，所述卷积神经网络采用编码器和解码器的网络结构；

所述装置900还包括：

卷积神经网络训练模块991，用于确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及所述图像数据对应的标签数据，所述图像数据包括第一样本人脸图像及所述第一样本人脸图像对应的初始光流图和初始形变图，所述第一样本图像对应的初始形变图根据所述第一样本人脸图像对应的初始光流图对所述第一样本人脸图像进行形变得到；所述标签数据包括标定的光流增量图和可见概率图；通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络。

可选地，参见图16，图16为本申请实施例提供的人脸图像生成装置的一个结构示意图，在图10所示结构的基础上，所述装置900还包括：

生成式对抗网络模型训练模块961，用于确定第二训练样本集，所述第二训练样本集中的每个训练样本包括第二样本人脸图像及所述第二样本人脸图像对应的标定人脸图像；通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。

本申请实施例还提供了一种用于生成人脸图像的设备，该设备可以是服务器，也可以是终端，下面将从硬件实体化的角度对本申请实施例提供的设备进行详细说明。

图17是本申请实施例提供的一种服务器结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1722(例如，一个或一个以上处理器)和存储器1732，一个或一个以上存储应用程序1742或数据1744的存储介质1730(例如一个或一个以上海量存储设备)。其中，存储器1732和存储介质1730可以是短暂存储或持久存储。存储在存储介质1730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1722可以设置为与存储介质1730通信，在服务器1700上执行存储介质1730中的一系列指令操作。

服务器1700还可以包括一个或一个以上电源1726，一个或一个以上有线或无线网络接口1750，一个或一个以上输入输出接口1758，和/或，一个或一个以上操作系统1741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

其中，CPU 1722用于执行如下步骤：

根据第一参考元素中的第一人脸图像确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

可选的，CPU 1722还可以用于执行本申请实施例中人脸图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供了另一种用于生成人脸图像的设备，该设备为终端，如图18所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图18示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图18，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1810、存储器1820、输入单元1830、显示单元1840、传感器1850、音频电路1860、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块1870、处理器1880、以及电源1890等部件。本领域技术人员可以理解，图18中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1820可用于存储软件程序以及模块，处理器1880通过运行存储在存储器1820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1820内的软件程序和/或模块，以及调用存储在存储器1820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1880可包括一个或多个处理单元；优选的，处理器1880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1880中。

在本申请实施例中，该终端所包括的处理器1880还具有以下功能：

可选的，处理器1880还可以用于执行本申请实施例中人脸图像生成方法的任意一种实现方式的步骤。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种人脸图像生成方法中的任意一种实施方式。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括指令，该指令在计算机上运行时，使得计算机执行前述各个实施例所述的一种人脸图像生成方法中的任意一种实施方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种人脸图像生成方法，其特征在于，所述方法应用于处理设备，所述方法包括：

根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述方法还包括：

通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗网络模型输出的优化后的目标人脸图像。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型，包括：

响应于所述第二参考元素包括目标模型参数，根据所述目标模型参数确定与所述目标模型参数对应的三维人脸可变模型作为第二模型。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型，包括：

响应于所述第二参考元素包括第二人脸图像，根据所述第二人脸图像确定与所述第二人脸图像对应的三维人脸可变模型作为第二模型；

其中，所述第二人脸图像与所述第一人脸图像存在差异。
根据权利要求1至4中任一项所述的人脸图像生成方法，其特征在于，通过以下方式确定与所述第一人脸图像对应的三维人脸可变模型：

检测所述第一人脸图像中的人脸关键点坐标；

根据平均脸构建初始三维人脸可变模型，将所述初始三维人脸可变模型的三维坐标投影至二维图像得到投影坐标；

确定使得所述人脸关键点坐标与所述投影坐标距离最小化的第一模型参数，根据所述第一模型参数确定与所述第一人脸图像对应的三维人脸可变模型。
根据权利要求1至4中任一项所述的人脸图像生成方法，其特征在于，通过以下方式确定与所述第一人脸图像对应的三维人脸可变模型：

检测所述第一人脸图像中的人脸关键点坐标；

根据所述人脸关键点坐标和所述第一人脸图像，通过神经网络模型获得第二模型参数；

根据所述第二模型参数确定与所述第一人脸图像对应的三维人脸可变模型。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像，包括：

根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的目标光流图；

根据所述第一人脸图像对应的目标光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图；

根据所述第一人脸图像对应的目标形变图和可见概率图，生成所述目标人脸图像。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述第二参考元素包括多组有序的目标模型参数或者多张有序的第二人脸图像；

所述根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型，包括：

响应于所述第二参考元素包括多组有序的目标模型参数，按照顺序针对每组目标模型参数，确定与所述目标模型参数对应的三维人脸可变模型，作为与所述目标模型参数对应的第二模型；

响应于所述第二参考元素包括多张有序的第二人脸图像，按照顺序针对每张第二人脸图像，确定与所述第二人脸图像对应的三维人脸可变模型，作为与所述第二人脸图像对应的第二模型；

按照顺序针对每个第二模型，执行所述步骤：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图。
根据权利要求8所述的人脸图像生成方法，其特征在于，所述方法还包括：

根据每个第二模型的顺序和基于每个第二模型生成的目标人脸图像，生成有序图像集。
根据权利要求9所述的人脸图像生成方法，其特征在于，所述方法还包括：

接收针对所述有序图像集的分享指令；

根据所述分享指令，分享所述有序图像集。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述方法还包括：

向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述第一参考元素包括属于同一人的多张不同的第一人脸图像；

所述根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型，包括：

针对所述第一参考元素中的每张第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型，作为与所述第一人脸图像对应的第一模型。
根据权利要求1所述的人脸图像生成方法，其特征在于，所述卷积神经网络采用编码器和解码器的网络结构；

所述卷积神经网络通过以下方式训练生成：

确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及所述图像数据对应的标签数据，所述图像数据包括第一样本人脸图像及所述第一样本人脸图像对应的初始光流图和初始形变图，所述第一样本人脸图像对应的初始形变图根据所述第一样本人脸图像对应的初始光流图对所述第一样本人脸图像进行形变得到；所述标签数据包括标定的光流增量图和可见概率图；

通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络。
根据权利要求2所述的人脸图像生成方法，其特征在于，所述生成式对抗网络模型通过以下方式训练生成：

确定第二训练样本集，所述第二训练样本集中的每个训练样本包括第二样本人脸图像及所述第二样本人脸图像对应的标定人脸图像；

通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。
一种人脸图像生成装置，其特征在于，所述装置包括：

第一模型生成模块，用于根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

第二模型生成模块，用于根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

确定模块，用于根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

获取模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络获得所述第一人脸图像对应的光流增量图和可见概率图；

目标人脸图像生成模块，用于根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。
一种设备，其特征在于，所述设备包括处理器以及存储器：所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行下述人脸图像生成方法的步骤：

根据第一参考元素中的第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型；

根据第二参考元素确定与所述第二参考元素对应的三维人脸可变模型作为第二模型；所述第二参考元素用于表征目标人脸图像的姿态和/或表情；

根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图，根据所述初始光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的初始形变图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图和初始形变图，通过卷积神经网络模型获得所述第一人脸图像对应的光流增量图和可见概率图；

根据所述第一人脸图像及所述第一人脸图像对应的初始光流图、光流增量图和可见概率图，生成所述目标人脸图像。
根据权利要求16所述的设备，其特征在于，所述处理器还用于执行下述步骤：

通过生成式对抗网络模型对所述目标人脸图像进行优化，获得所述生成式对抗网络模型输出的优化后的目标人脸图像。
根据权利要求16所述的设备，其特征在于，所述处理器用于执行下述步骤：

响应于所述第二参考元素包括目标模型参数，根据所述目标模型参数确定与所述目标模型参数对应的三维人脸可变模型作为第二模型。
根据权利要求16所述的设备，其特征在于，所述处理器用于执行下述步骤：

响应于所述第二参考元素包括第二人脸图像，根据所述第二人脸图像确定与所述第二人脸图像对应的三维人脸可变模型作为第二模型；

其中，所述第二人脸图像与所述第一人脸图像存在差异。
根据权利要求16至19中任一项所述的设备，其特征在于，所述处理器用于执行下述步骤：

检测所述第一人脸图像中的人脸关键点坐标；

根据平均脸构建初始三维人脸可变模型，将所述初始三维人脸可变模型的三维坐标投影至二维图像得到投影坐标；

确定使得所述人脸关键点坐标与所述投影坐标距离最小化的第一模型参数，根据所述第一模型参数确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型。
根据权利要求16至19中任一项所述的设备，其特征在于，所述处理器用于执行下述步骤：

检测所述第一人脸图像中的人脸关键点坐标；

根据所述人脸关键点坐标和所述第一人脸图像，通过神经网络模型获得第二模型参数；

根据所述第二模型参数确定与所述第一人脸图像对应的三维人脸可变模型作为第一模型。
根据权利要求16所述的设备，其特征在于，所述处理器用于执行下述步骤：

根据所述第一人脸图像对应的光流增量图对所述第一人脸图像对应的初始光流图进行光流补全，得到所述第一人脸图像对应的目标光流图；

根据所述第一人脸图像对应的目标光流图对所述第一人脸图像进行形变得到所述第一人脸图像对应的目标形变图；

根据所述第一人脸图像对应的目标形变图和可见概率图，生成所述目标人脸图像。
根据权利要求16所述的设备，其特征在于，所述第二参考元素包括多组有序的目标模型参数或者多张有序的第二人脸图像；

所述处理器用于执行下述步骤：

响应于所述第二参考元素包括多组有序的目标模型参数，按照顺序针对每组目标模型参数，确定与所述目标模型参数对应的三维人脸可变模型，作为与所述目标模型参数对应的第二模型；

响应于所述第二参考元素包括多张有序的第二人脸图像，按照顺序针对每张第二人脸图像，确定与所述第二人脸图像对应的三维人脸可变模型，作为与所述第二人脸图像对应的第二模型；

按照顺序针对每个第二模型，执行下述步骤：根据所述第一模型和所述第二模型，确定所述第一人脸图像对应的初始光流图。
根据权利要求23所述的设备，其特征在于，所述处理器还用于执行下述步骤：

根据每个第二模型的顺序和基于每个第二模型生成的目标人脸图像，生成有序图像集。
根据权利要求24所述的设备，其特征在于，所述处理器还用于执行下述步骤：

接收针对所述有序图像集的分享指令；

根据所述分享指令，分享所述有序图像集。
根据权利要求16所述的设备，其特征在于，所述处理器还用于执行下述步骤：

向终端发送所述目标人脸图像，指示所述终端将所述目标人脸图像作为用户的社交网络头像进行显示。
根据权利要求16所述的设备，其特征在于，所述第一参考元素包括属于同一人的多张不同的第一人脸图像；

所述处理器用于执行下述步骤：

针对所述第一参考元素中的每张第一人脸图像，确定与所述第一人脸图像对应的三维人脸可变模型，作为与所述第一人脸图像对应的第一模型。
根据权利要求16所述的设备，其特征在于，所述卷积神经网络采用编码器和解码器的网络结构；所述处理器用于执行下述步骤：

确定第一训练样本集，所述第一训练样本集中的每个训练样本包括至少一组图像数据及所述图像数据对应的标签数据，所述图像数据包括第一样本人脸图像及所述第一样本人脸图像对应的初始光流图和初始形变图，所述第一样本人脸图像对应的初始形变图根据所述第一样本人脸图像对应的初始光流图对所述第一样本人脸图像进行形变得到；所述标签数据包括标定的光流增量图和可见概率图；

通过所述第一训练样本集中的训练样本进行网络训练，获得所述卷积神经网络。
根据权利要求17所述的设备，其特征在于，所述处理器用于执行下述步骤：

确定第二训练样本集，所述第二训练样本集中的每个训练样本包括第二样本人脸图像及所述第二样本人脸图像对应的标定人脸图像；

通过所述第二训练样本集中的训练样本训练生成式对抗网络，获得所述生成式对抗网络模型。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-14任一项所述的人脸图像生成方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，所述指令在计算机上运行时，使得所述计算机执行权利要求1-14任一项所述的人脸图像生成方法。