WO2020258668A1

WO2020258668A1 - 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备

Info

Publication number: WO2020258668A1
Application number: PCT/CN2019/118194
Authority: WO
Inventors: 王健宗; 赵峰
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-06-26
Filing date: 2019-11-13
Publication date: 2020-12-30
Also published as: CN110457994A; CN110457994B

Abstract

本申请公开了基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备，涉及图像生成技术领域，可以提升图像识别准确度。其中方法包括：利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。本申请适用于提升人脸图像生成的真实性，使得所生成的人脸图像具有较高的图像分辨率。

Description

基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备

本申请要求与2019年6月26日提交中国专利局、申请号为201910559077.5、申请名称为“基于对抗网络模型的人脸图像生成方法及装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及图像生成技术领域，尤其是涉及到基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质及计算机设备。

背景技术

伴随着生成式对抗网络(GAN：Generative adversarial nets)技术的发展，神经网络不仅能够完成复杂的识别任务，还能够生成逼真的样本数据，例如图像、文本句子等数据。

在人脸图像生成应用方面，国内外已经基于生成式对抗网络GAN做出了很多较好的成绩，但是在生成特定人脸领域，还没有重大的突破。在现有的人脸图像生成技术中，通常根据特定的属性条件进行人脸图像生成，具体为，预先设定一些属性标签，例如，“男性”、“女性”、“金色头发”、“是否微笑”、“是否张嘴”等，并将上述属性标签移植到另一人脸上，以实现新的人脸图像的生成，即根据挑选的属性标签生成对应的人脸图像。

现有技术存在的不足在于，利用属性标签，例如，5维属性二值标签向量00100，作为图像生成的条件限制具有一定的局限性，即图像的属性只能局限在所提供的标签范围内，属性多样性较差，且通过属性标签进行属性的限定，导致生成的人脸图像在细节处理上痕迹较重，真实度较低，实用性较差。

发明内容

有鉴于此，本申请提供了基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备，主要目的在于解决现有人脸图像生成技术受属性标签的局限性影响，导致生成的人脸图像在细节处理上痕迹较重，真实度较低，实用性较差的技术问题。

根据本申请的一个方面，提供了一种基于对抗网络模型的人脸图像生成方法，该方法包括：

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。

根据本申请的另一方面，提供了一种基于对抗网络模型的人脸图像生成装置，该装置包括：

编码模块，用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

解码模块，用于利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。

依据本申请又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机可读指令，所述程序被处理器执行时实现上述基于对抗网络模型的人脸图像生成方法。

依据本申请再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令，所述处理器执行所述程序时实现上述基于对抗网络模型的人脸图像生成方法。

借由上述技术方案，本申请提供的基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备，与现有基于属性标签实现人脸图像生成的技术方案相比，本申请利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息，以及利用训练好的生成网络模型的解码器，根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像，即该目标人脸图像包括期望人脸图像的容貌信息，以及待处理人脸图像的神态信息。可见，通过训练条件生成对抗网络模型(CGAN：Conditional Generative Adversarial Nets)，利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像，以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像，实现人脸图像的替换，同时，提升人脸图像生成的真实性，使得所生成的人脸图像具有较高的图像分辨率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于对抗网络模型的人脸图像生成方法的流程示意图；

图2示出了本申请实施例提供的另一种基于对抗网络模型的人脸图像生成方法的流程示意图；

图3示出了本申请实施例提供的一种基于对抗网络模型的人脸图像生成装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对现有基于属性标签进行人脸图像生成的过程中，现有的人脸图像生成技术受属性标签的局限性影响较大，存在生成的人脸图像在细节处理上痕迹较重，真实度较低，实用性较差的技术问题。本实施例提供了一种基于对抗网络模型的人脸图像生成方法，能够在人脸图像生成的过程中，有效避免在细节处理上痕迹较重，真实度较低，实用性较差的技术问题，从而有效提升人脸图像生成的真实度，提高在实际应用场景下的可实用性，提升用户体验。如图1所示，该方法包括：

101、利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息。

在本实施例中，条件生成对抗网络模型CGAN的生成网络模型包括一个编码器Encoder和一个解码器Decoder。其中，编码器Encoder包括8个CBR层，CBR层是卷积Convolution层、批正则化Batch Normalization层和矫正线性单元Leakey ReLU层的总称。编码器Encoder的输入为256×256×3的人脸图像数据，经过8个CBR层的运算后，输出1×1×512维的高维数据，该高维数据用于表征人脸图像数据中的高层特征数据，在构建编码器Encoder的过程中，设定每个CBR层中的Convolution层的滑动步长stride为2，填充模式padding为SAME，卷积核kernel为5*5，以及Leakey Relu层的参数均为0.2。

在实际的应用场景中，每个CBR层的计算公式为：

其中，W ^k、b _k为网络参数，分别用于表示编码器Encoder中的权重和偏置；x为输入的人脸图像数据；k为[1，8]中的自然数；i，j为人脸图像数据的特征向量脚标。

102、利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。

在本实施例中，在解码器Decoder的训练过程中，生成网络模型的输入数据作为编码器Encoder的输入数据，编码器Encoder的输出结果作为编码器Decoder的输入数据，解码器Decoder的输出结果作为生成网络模型最终的输出结果，解码器Decoder的网络结构与编码器Encoder的网络结构类似，区别在于，将卷积运算变为反卷积Transpose Convolution运算(即，对卷积运算进行转置运算)，激活函数Leakey ReLU变为激活函数ReLU，以及最终输出层的激活函数LeakeyReLU变为激活函数Tanh。具体为：

解码器Decoder包括8个RTB层，RTB层是矫正线性单元ReLU层、反卷积Transpose Convolution层和批正则化Batch Normalization层的总称，每一RTB层中的反卷积Transpose Convolution层输出的数据维度是本层输入的数据维度的2倍，经过8个RTB层的运算后，输出的目标人脸图像的数据维度为256*256，通道数为3，用于表示RGB三色图像。

其中，激活函数Leaky ReLU的计算公式为：

a取值在(0，1)之间。

激活函数ReLU的计算公式为：

激活函数Tanh的计算公式为：

进一步地，在解码器Decoder前三个RTB层的输出部分设置Dropout层，用于更有效地训练解码器Decoder，以及将解码器Decoder第i层的输入数据与编码器Encoder第N-i层的输出结果进行级联后，作为解码器Decoder第i+1层的输入数据，从而保证人脸图像数据的训练梯度能够更高效地流动，其中，N为编码器Encoder和解码器Decoder的结构层数，二者的结构层数相同。

对于本实施例可以按照上述方案，利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息，以及利用训练好的生成网络模型的解码器，根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像，即该目标人脸图像包括期望人脸图像的容貌信息，以及待处理人脸图像的神态信息。与现有基于属性标签实现人脸图像生成的技术方案相比，本实施例通过训练条件生成对抗网络模型CGAN，利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像，以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像，实现人脸图像的替换，同时，提升人脸图像生成的真实性，使得所生成的人脸图像具有较高的图像分辨率。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种基于对抗网络模型的人脸图像生成方法，如图2所示，该方法包括：

201、构建条件生成对抗网络模型的初始生成网络模型和初始判别网络模型。

在本实施例中，构建条件生成对抗网络模型CGAN的初始生成网络模型和初始判别网络模型，以便通过训练初始生成网络模型和初始判别网络模型，使得生成网络模型生成的实际人脸图像样本与初始人脸图像样本之间的差距尽可能小，从而欺骗判别网络模型，以及判别网络模型尽可能地精确判别输入的实际人脸图像样本是否无限接近预设的期望人脸图像样本。

在实际的应用场景中，通过对初始判别网络模型进行训练，使得训练得到的判别网络模型能够用于判别生成网络模型所生成的实际人脸图像样本是否为符合要求的期望人脸图像样本。若符合，则训练得到的判别网络模型输出高概率值，反之则输出低概率值，进一步地，若生成网络模型所生成的实际人脸图像样本不符合要求的期望人脸图像样本，则根据训练得到的判别网络模型输出的低概率值，对生成网络模型继续进行训练，从而逐渐学习生成预设的期望人脸图像样本。

202、对所述初始判别网络模型进行训练，得到训练好的判别网络模型。

为了说明步骤202的具体实施方式，作为一种优选实施例，步骤202具体可以包括：

步骤2021、利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本。

步骤2022、根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型。

进一步地，为了说明步骤2022的具体实施方式，作为一种优选实施例，步骤2022具体可以包括：根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练，得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型；以及，根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练，得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。

在本实施例中，初始生成网络模型的输入数据记为初始人脸图像样本x，初始人脸图像样本x经由初始生成网络模型的编码器和解码器，得到的实际输出结果记为实际人脸图像样本G(x)，期望输出结果记为期望人脸图像样本y，其中，y为条件生成对抗网络模型CGAN的约束条件，即，期望得到的人脸效果。

在对初始判别网络模型进行训练的过程中，设定初始判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型实际输出的实际人脸图像样本(伪造图像样本fake)，记为x+G(x)，训练初始判别网络模型输出结果为低概率值，即无限接近于0，得到第一判别网络模型，进一步设定第一判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型期望输出的期望人脸图像样本(真实图像样本real)，记为x+y，训练第一判别网络模型输出结果为高概率值，即无限接近于1，得到第二判别网络模型。

在实际的应用场景中，也可以设定初始判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型期望输出的期望人脸图像样本(真实图像样本real)，记为x+y，训练初始判别网络模型输出结果为高概率值，即无限接近于1，得到第一判别网络模型，进一步设定第一判别网络模型的输入数据为用于训练初始生成网络模型的初始人脸图像样本和初始生成网络模型实际输出的实际人脸图像样本(伪造图像样本fake)，记为x+G(x)，训练第一判别网络模型输出结果为低概率值，即无限接近于0，得到第二判别网络模型，此处不对第一判别网络模型、第二判别网络模型的训练顺序进行具体限定。

例如，设定初始判别网络模型的Convolution层的滑动步长stride为2，卷积核kernel为5*5，以及激活函数Leakey Relu的参数均为0.2，且在最后的输出Output层不设置激活函数Sigmoid。在训练过程中，初始判别网络模型输入的初始人脸图像样本x和实际人脸图像样本G(x)经由多次卷积Convolution，激活函数Leakey ReLU，批正则化Batch Normalization运算后，经由一个线性全连接层输出一维标量，将线性全连接层输出的一维标量直接作为最后的输出Output层的输入数据，并得到输出Output层输出的概率值，从而根据得到的概率值对初始判别网络模型进行训练得到第一判别网络模型，同理训练得到第二判别网络模型。

进一步地，设定条件生成对抗网络模型CGAN中判别网络模型的损失Loss函数，计算公式为：

Loss _D＝-(L _cGAN)

＝-E _x，y[1-log D(x，y)]-E _x，z[1-log D(G(x，z))]

其中，G(x，z)为生成网络模型实际输出的实际人脸图像样本，x为初始人脸图像样本的灰度值，y为生成网络模型期望输出的期望人脸图像样本的灰度值，z为约束条件(即，若实际人脸图像样本无限接近期望人脸图像样本，则z为1，若实际人脸图像样本无限不接近期望人脸图像样本，则z为0)。

203、对所述初始生成网络模型进行训练，得到训练好的生成网络模型。

在本实施例中，初始生成网络模型的输入数据为用于训练生成期望人脸图像样本的初始人脸图像样本x，以使生成的实际人脸图像样本用于欺骗判别网络模型，即，初始人脸图像样本x为初始生成网络模型和初始判别网络模型的输入数据。

为了说明步骤203的具体实施方式，作为一种优选实施例，步骤203具体可以包括：

步骤2031、利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征。

其中，高层特征包括容貌信息和神态信息，容貌信息包括五官信息等，例如，眼睛形状及大小、鼻子大小及高低、肤色肤质等能够在整体上描述人脸的特征表示，神态信息包括表情信息等，例如，大笑、愤怒等能够在整体上描述情绪的特征表示。

步骤2032、利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本。

进一步地，为了说明步骤2032的具体实施方式，作为一种优选实施例，步骤2032具体可以包括：获取编码器结构中每层输出的高层特征；以及，将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。

在实际的应用场景中，解码器Decoder第i层的输入数据与编码器Encoder第N-i层的输出结果进行级联作为解码器Decoder第i+1层的输入数据，从而实现级联编码。例如，N为8，解码器Decoder第一层的输入数据记为D1(即编码器Encoder第八层输出的高层特征E8)，将解码器Decoder第一层的输入数据D1与编码器Encoder第七层输出的高层特征E7基于维度进行级联解码，得到解码器Decoder第二层的输入数据记为D2，将解码器Decoder第二层的输入数据D2与编码器Encoder第六层输出的高层特征E6基于维度进行级联解码，得到解码器Decoder第三层的输入数据记为D3，以此类推，得到解码器Decoder第七层的输入数据记为D7，将解码器Decoder第七层的输入数据D7与编码器Encoder第一层输出的高层特征E1基于维度进行级联解码，得到解码器Decoder第八层的输入数据记为D8。

根据实际应用场景的需要，将解码器Decoder第八层的输入数据D8与编码器Encoder第一层输入的初始人脸图像样本x基于维度进行级联解码，得到解码器Decoder第八层的输出结果，或者直接将解码器 Decoder第八层的输入数据D8进行编码，得到解码器Decoder第八层的输出结果，解码器Decoder第八层的输出结果即实际人脸图像样本，此处不对最后一层的编码进行具体限定。

步骤2033、根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型。

为了说明步骤2033的具体实施方式，作为一种优选实施例，步骤2033具体可以包括：所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。

在本实施例中，设定条件生成对抗网络模型CGAN中生成网络模型的损失Loss函数，计算公式为：

Loss _G＝E _x，z[1-log D(G(x，z))]+loss _L1(G)

＝E _x，z[1-log D(G(x，z))]+E _x，y，z[||y-G(x，z)|| ₁]

在实际的应用场景中，构建包含初始人脸图像样本，和初始人脸图像样本与期望人脸图像样本对应关系的训练样本集，以及初始判别网络模型和初始生成网络模型，设置Tensorflow中tf.train.AdamOptimizer优化器的学习率为0.002，Beta1为0.5，通过启动TensorFlow中的一个会话Session，并在该Session中训练初始判别网络模型，再训练初始生成网络模型。其中，训练一次初始判别网络模型后训练k次初始生成网络模型，设置k为2，以避免判别网络模型的梯度为0，导致生成网络模型无法训练的情况。

步骤204、利用条件生成对抗网络模型中训练好的生成网络模型的编码器，根据期望人脸图像获取预设的容貌信息。

步骤205、利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息。

步骤206、获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息。

步骤207、将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述待处理人脸图像的目标人脸图像；其中，所述解码器第一层的输入数据为预设的容貌信息，所述编码器和解码器的结构层数均为N。

通过应用本实施例的技术方案，利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息，以及利用训练好的生成网络模型的解码器，根据该神态信息和预设的容貌信息生成对应该待处理人脸图像的目标人脸图像，即该目标人脸图像包括期望人脸图像的容貌信息，以及待处理人脸图像的神态信息。与现有基于属性标签实现人脸图像生成的技术方案相比，本实施例通过训练条件生成对抗网络模型CGAN，利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像，以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像，实现人脸图像的替换，同时，提升人脸图像生成的真实性，使得所生成的人脸图像具有较高的图像分辨率。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种基于对抗网络模型的人脸图像生成装置，如图3所示，该装置包括：编码模块35、解码模块36。

编码模块35，可以用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息。该编码模块35为本装置生成包含待处理人脸图像的神态信息和预设的容貌信息的目标人脸图像的主要功能模块，也是本装置的核心功能模块。

解码模块36，可以用于利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。该解码模块36为本装置生成包含待处理人脸图像的神态信息和预设的容貌信息的目标人脸图像的主要功能模块，也是本装置的核心功能模块。

在具体的应用场景中，还包括构建模块31、判别训练模块32、生成训练模块33、获取模块34。

构建模块31，可以用于构建条件生成对抗网络模型的初始生成网络模型和初始判别网络模型；

判别训练模块32，可以用于对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

在具体的应用场景中，判别训练模块32，具体包括：利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本；以及，根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型。

在具体的应用场景中，所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练，得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型；以及，根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练，得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。

生成训练模块33，可以用于对所述初始生成网络模型进行训练，得到训练好的生成网络模型。具体包括：利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征；以及，利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；以及，根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型。

在具体的应用场景中，所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。

在具体的应用场景中，所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本，具体包括：获取编码器结构中每层输出的高层特征；以及，将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。

获取模块34，可以用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器，根据期望人脸图像获取预设的容貌信息。

解码模块36，具体包括：获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息；以及，将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述待处理人脸图像的目标人脸图像；其中，所述解码器第一层的输入数据为预设的容貌信息，所述编码器和解码器的结构层数均为N。

需要说明的是，本申请实施例提供的一种基于对抗网络模型的人脸图像生成装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种非易失性可读存储介质，其上存储有计算机可读指令，该程序被处理器执行时实现上述如图1和图2所示的基于对抗网络模型的人脸图像生成方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性非易失性可读存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括非易失性可读存储介质和处理器；非易失性可读存储介质，用于存储计算机可读指令；处理器，用于执行计算机可读指令以实现上述如图1和图2所示的基于对抗网络模型的人脸图像生成方法。

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与现有基于属性标签实现人脸图像生成的技术方案相比，本实施例能够通过训练条件生成对抗网络模型CGAN，利用训练好的条件生成对抗网络模型CGAN中的生成网络模型得到目标人脸图像，以便根据待处理人脸图像以及目标人脸图像中的特征点信息将待处理人脸图像替换为目标人脸图像，实现人脸图像的替换，同时，提升人脸图像生成的真实性，使得所生成的人脸图像具有较高的图像分辨率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

一种基于对抗网络模型的人脸图像生成方法，其特征在于，包括：

构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型；

对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

其中，所述对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：

利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本；

根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
根据权利要求1所述的方法，其特征在于，所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：

根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练，得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型；

根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练，得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
根据权利要求1所述的方法，其特征在于，还包括：对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征；

利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型；

其中，所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；

根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；

若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。
根据权利要求3所述的方法，其特征在于，所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本，具体包括：

获取编码器结构中每层输出的高层特征；

将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。
根据权利要求1所述的方法，其特征在于，还包括：

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，根据期望人脸图像获取预设的容貌信息。
根据权利要求1或4所述的方法，其特征在于，所述利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像，具体包括：

获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息；

将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述待处理人脸图像的目标人脸图像；

其中，所述解码器第一层的输入数据为预设的容貌信息，所述编码器和解码器的结构层数均为N。
一种基于对抗网络模型的人脸图像生成装置，其特征在于，包括：

构建模块，用于构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型；

判别训练模块，用于对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

其中，所述判别训练模块，具体包括：

利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本；

根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

编码模块，用于利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

解码模块，用于利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
根据权利要求7所述的装置，其特征在于，所述根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：

根据所述初始人脸图像样本和实际人脸图像样本对所述初始判别网络模型进行训练，得到用于判别所述实际人脸图像样本为伪造人脸图像的第一判别网络模型；

根据所述初始人脸图像样本和预设的期望人脸图像样本对所述第一判别网络模型进行训练，得到用于判别所述预设的期望人脸图像样本为真实人脸图像的第二判别网络模型。
根据权利要求7所述的装置，其特征在于，还包括生成训练模块，用于对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征；

利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型；

其中，所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；

根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；

若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。
根据权利要求9所述的装置，其特征在于，所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本，具体包括：

获取编码器结构中每层输出的高层特征；

将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。
根据权利要求7所述的装置，其特征在于，还包括获取模块，具体包括：

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，根据期望人脸图像获取预设的容貌信息。
根据权利要求7或10所述的装置，其特征在于，所述解码模块，具体包括：

获取所述训练好的生成网络模型的编码器结构中每层输出的神态信息；

将按照倒序排列的神态信息分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述待处理人脸图像的目标人脸图像；

其中，所述解码器第一层的输入数据为预设的容貌信息，所述编码器和解码器的结构层数均为N。
一种非易失性可读存储介质，其上存储有计算机可读指令，其特征在于，所述程序被处理器执行时实现基于对抗网络模型的人脸图像生成方法，包括：

构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型；

对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

其中，所述对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：

利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本；

根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
根据权利要求13所述的非易失性可读存储介质，其特征在于，还包括：对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征；

利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型；

其中，所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；

根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；

若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。
根据权利要求14所述的非易失性可读存储介质，其特征在于，所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本，具体包括：

获取编码器结构中每层输出的高层特征；

将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。
一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述程序时实现基于对抗网络模型的人脸图像生成方法，包括：

构建所述条件生成对抗网络模型的初始生成网络模型和初始判别网络模型；

对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

其中，所述对所述初始判别网络模型进行训练，得到训练好的判别网络模型，具体包括：

利用条件生成对抗网络模型的初始生成网络模型，根据初始人脸图像样本获取实际人脸图像样本；

根据获取到的实际人脸图像样本和预设的期望人脸图像样本，对所述初始判别网络模型进行训练，得到训练好的判别网络模型；

利用条件生成对抗网络模型中训练好的生成网络模型的编码器，获取待处理人脸图像的神态信息；

利用训练好的生成网络模型的解码器，根据所述神态信息和预设的容貌信息生成对应所述待处理人脸图像的目标人脸图像。
根据权利要求18所述的计算机设备，其特征在于，还包括：对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

利用初始生成网络模型的编码器对初始人脸图像样本进行编码，得到所述初始人脸图像样本的高层特征；

利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型；

其中，所述根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到训练好的生成网络模型，具体包括：

根据得到的所述实际人脸图像样本和初始人脸图像样本，对所述初始生成网络模型进行训练，得到第一生成网络模型；

根据所述第一生成网络模型输出的第一实际人脸图像样本，利用所述训练好的判别网络模型得到判别概率；

若所述判别概率为预设判别概率，则所述第一生成网络模型为训练好的生成网络模型。
根据权利要求19所述的计算机设备，其特征在于，所述利用初始生成网络模型的解码器对所述初始人脸图像样本的高层特征进行解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本，具体包括：

获取编码器结构中每层输出的高层特征；

将按照倒序排列的高层特征分别与所述解码器结构中每层的输入数据进行级联解码，得到对应所述初始人脸图像样本的包含所述高层特征的实际人脸图像样本；

其中，所述解码器第一层的输入数据为编码器结构中第N层输出的高层特征，所述编码器和解码器的结构层数均为N。