WO2021258920A1

WO2021258920A1 - 生成对抗网络训练方法、图像换脸、视频换脸方法及装置

Info

Publication number: WO2021258920A1
Application number: PCT/CN2021/094257
Authority: WO
Inventors: 李玉乐; 陈德健; 项伟; 颜乐驹
Original assignee: 百果园技术(新加坡)有限公司; 李玉乐
Priority date: 2020-06-24
Filing date: 2021-05-18
Publication date: 2021-12-30
Also published as: CN111783603A

Abstract

本申请实施例公开了一种生成对抗网络训练方法、图像换脸、视频换脸方法及装置，包括：获取原图像和目标图像；初始化生成对抗网络的生成器和判别器；将原图像和目标图像输入生成器中训练获得换脸图像，其中，生成器从原图像提取第一人脸的属性特征图，从目标图像中提取第二人脸的身份特征，身份特征注入属性特征图中生成混合特征图，根据身份特征和属性特征图对混合特征图进行解码得到第二人脸替换第一人脸后的换脸图像；将原图像和换脸图像输入判别器训练得到判定值；根据判定值、换脸图像、原图像和目标图像对生成器和判别器进行调整。

Description

生成对抗网络训练方法、图像换脸、视频换脸方法及装置

本申请要求在2020年6月24日提交中国专利局、申请号为202010592443.X的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及图像处理技术领域，例如涉及一种生成对抗网络训练方法、图像换脸方法、视频换脸方法及装置。

背景技术

随着短视频、直播等视频应用的普及，换脸是计算机视觉领域的一项重要技术，换脸被广泛用于内容生产、电影制作、娱乐视频制作等。

换脸是指给定一张原图像和目标图像，将目标图像中的身份特征迁移到原图像中得到换脸图像，使得该换脸图像既保持目标图像的身份特征，同时又具有原图像的脸部姿态、脸部表情等属性特征，另外需求换脸图像真实自然，相关技术中包括以下三种换脸方式：

1)基于脸部关键点的脸部融合换脸，该方式先获取原图像和目标图像的脸部关键点，然后通过原图像关键点提取原图像的脸部区域，再根据目标图像的关键点将原图像的脸部区域融合到目标图像中，此方式容易造成换脸图像的脸部不真实自然。

2)基于3D脸部建模换脸，该方式分别对原图像和目标图像重建3D模型，然后从目标图像的3D模型中提取身份特征，并结合原图像的3D模型的属性特征来生成换脸图像，该方式生成的换脸图像同样不真实自然。

3)基于对抗生成网络换脸，该方式通过神经网络从原图像中提取属性特征，从目标图像中提取身份特征，然后将两个特征结合后，通过解码器来解码结合后的特征得到换脸图像，该方法生成的换脸图像真实自然，但是比较难同时保持原图像的属性特征和目标图像的身份特征。

综上所述，相关技术中的换脸技术难以获得真实自然的换脸图像，并且换脸图像中无法同时保持原图像的属性特征和目标图像的身份特征。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种生成对抗网络训练方法、图像换脸方法、视频换脸方法、装置、电子设备和存储介质，以改善相关技术中的换脸技术中无法获得真实自然的换脸图像，且换脸图像中无法同时保持原图像的属性特征和目标图像的身份特征的情况。

第一方面，本申请实施例提供了一种生成对抗网络训练方法，包括：

获取包含第一人脸的原图像和包含第二人脸的目标图像；

初始化生成对抗网络的生成器和判别器；

将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，所述生成器设置为从所述原图像提取第一人脸的属性特征图，从所述目标图像中提取第二人脸的身份特征，并将所述身份特征注入所述属性特征图中生成混合特征图，以及根据所述身份特征和所述属性特征图对所述混合特征图进行解码得到所述第二人脸替换所述第一人脸后的换脸图像；

将所述原图像和所述换脸图像输入所述判别器进行训练得到判定值；

根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。

第二方面，本申请实施例提供了一种图像换脸方法，包括：

获取包含第一人脸的原图像和包含第二人脸的目标图像；

将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

其中，所述生成器通过本申请任一实施例所述的生成对抗网络训练方法所训练。

第三方面，本申请实施例提供了一种视频换脸方法，包括：

获取待换脸视频数据；

从所述视频数据中提取包含第一人脸的视频图像作为原图像；

获取包含第二人脸的目标图像；

基于所述换脸图像生成换脸后的视频数据；

第四方面，本申请实施例提供了一种生成对抗网络训练装置，包括：

原图像和目标图像获取模块，设置为获取包含第一人脸的原图像和包含第二人脸的目标图像；

生成对抗网络初始化模块，设置为初始化生成对抗网络的生成器和判别器；

生成器训练模块，设置为将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，所述生成器设置为从所述原图像提取第一人脸的属性特征图，从所述目标图像中提取第二人脸的身份特征，并将所述身份特征注入所述属性特征图中生成混合特征图，以及根据所述身份特征和所述属性特征图对所述混合特征图进行解码得到所述第二人脸替换所述第一人脸后的换脸图像；

判别器训练模块，设置为采用所述原图像和所述换脸图像训练所述判别器得到判定值；

参数调整模块，设置为根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。

第五方面，本申请实施例提供了一种图像换脸装置，包括：

图像换脸模块，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

第六方面，本申请实施例提供了一种视频换脸装置，包括：

待换脸视频数据获取模块，设置为获取待换脸视频数据；

原图像提取模块，设置为从所述视频数据中提取包含第一人脸的视频图像作为原图像；

目标图像获取模块，设置为获取包含第二人脸的目标图像；

视频换脸模块，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

换脸视频数据生成模块，设置为基于所述换脸图像生成换脸后的视频数据；

第七方面，本申请实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本申请任一实施例所述的生成对抗网络训练方法，和/或，图像换脸方法，和/或，视频换脸方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请任一实施例所述的生成对抗网络训练方法，和/或，图像换脸方法，和/或，视频换脸方法。

附图说明

图1是本申请一实施例提供的一种生成对抗网络训练方法的步骤流程图；

图2A是本申请一实施例提供的一种生成对抗网络训练方法的步骤流程图；

图2B是本申请实施例的生成器的示意图；

图3是本申请一实施例提供的一种图像换脸方法的步骤流程图；

图4是本申请一实施例提供的一种视频换脸方法的步骤流程图；

图5是本申请一实施例提供的一种生成对抗网络训练装置的结构框图；

图6是本申请一实施例提供的一种图像换脸装置的结构框图；

图7是本申请一实施例提供的一种视频换脸装置的结构框图；

图8是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作详细说明。可以理解的是，此处所描述的示例实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

图1为本申请一实施例提供的一种生成对抗网络训练方法的步骤流程图，本申请实施例可适用于训练生成对抗网络，以通过训练好的生成对抗网络的生成器以对图像或者视频进行换脸的情况，该方法可以由本申请实施例的生成对抗网络训练装置来执行，该生成对抗网络训练装置可以由硬件或软件来实现，并集成在本申请实施例所提供的电子设备中，在一实施例中，如图1所示，本申请实施例的生成对抗网络训练方法可以包括如下步骤：

S101、获取包含第一人脸的原图像和包含第二人脸的目标图像。

本申请实施例中，原图像和目标图像为包括人脸的图像，其中，原图像是需要更换人脸的图像，目标图像是用来对原图像进行换脸的图像。在本申请的一个示例中，原图像可以是视频数据中提取的包含第一人脸的图像，目标图像可以是包含第二人脸的图像，第一人脸和第二人脸为不同人脸，在实际应用中，可以获取大量不同人脸的图像，从中随机抽取两张图像作为原图像和目标图像，由原图像和目标图像构成一个图像对作为训练样本。

S102、初始化生成对抗网络的生成器和判别器。

本申请实施例中，生成对抗网络(Generative Adversarial Networks，GANs)包括生成器(Generator)和判别器(Discriminator)，生成器设置为输入数据后生成新图像，判别器设置为判别新图像是否真实的概率。在本申请实施例中，生成器和判别器可以是神经网络，则可以初始化生成对抗网络的生成器和判别器的网络参数。

在本申请的示例实施例中，生成器可以包括编码网络、解码网络、身份提取网络和残差网络，其中，身份提取网络和残差网络可以是预先训练好的网络，初始化生成器可以是初始化生成器的编码网络和解码网络的网络参数。

S103、将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像。

在本申请实施例中，生成器可以包括编码网络、解码网络、身份提取网络和残差网络，在生成器中，可以通过编码网络从原图像提取第一人脸的属性特征图，通过身份提取网络从目标图像中提取第二人脸的身份特征，并采用残差网络将身份特征注入属性特征图中生成混合特征图，以及在解码网络中根据身份特征和属性特征图对混合特征图进行解码，得到第二人脸替换第一人脸后的换脸图像，其中，属性特征图可以是表达第一人脸的人脸姿态、人脸表情等属性的特征图，身份特征可以是能够识别第二人脸的身份的信息。

S104、将所述原图像和所述换脸图像输入所述判别器进行训练得到判定值。

在对抗生成网络的训练过程中，生成器的目的是尽量生成真实的图像去欺骗判别器，判别器的目的把生成器生成的图像和真实的图像区分，通过交替训练生成器和判别器，使得训练生成器和判别器构成动态的“博弈过程”，最终训练好的生成器生成的图像足以“以假乱真”，即无限接近真实的图像。本申请实施例中，将原图像和换脸图像输入判别器来训练判别器，每次输入后均获得换脸图像的判定值，其中，判定值可以是换脸图像属于真实图像的概率。

S105、根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。

在一实施例中，可以根据判定值、换脸图像、原图像和目标图像计算总损失，在总损失小于预设值时停止对生成器和判别器进行训练，否则，根据总损失调整判别器和生成器的网络参数，然后开始新一轮的训练迭代更新直到总损失小于预设值为止，停止训练后得到训练好的对抗生成网络，在将原图像和目标图像输入对抗生成网络的生成器后，生成器自动输出换脸图像。

在本申请的示例实施例中，可以根据判定值、原图像和换脸图像计算对抗损失和关键点损失，根据目标图像和换脸图像计算身份特征损失，将两张原图像输入生成器中获得原图像的自换脸图像后，根据原图像和自换脸图像计算重构损失，计算对抗损失、重构损失、关键点损失和身份特征损失的和值得到总损失，并根据总损失求梯度以对生成器的编码网络和解码网络的参数进行调整，以及根据对抗损失求梯度以对判别器的参数进行调整。

本申请实施例的生成对抗网络包括生成器和判别器，生成器从原图像提取第一人脸的属性特征图，从目标图像中提取第二人脸的身份特征，并将身份特征注入属性特征图中生成混合特征图，以及根据身份特征和属性特征图对混合特征图进行解码得到第二人脸替换第一人脸后的换脸图像，在将原图像和换脸图像输入判别器进行训练得到判定值；根据判定值、换脸图像、原图像和目标图像对生成器和判别器的参数进行调整直到获得训练好的生成对抗网络，实现了解码过程中结合原图像的属性特征和目标图像的身份特征对混合特征图进行解码，使得换脸图像更好的保持原图像的人脸姿态、人脸表情等属性特征，同时目标图像中的身份特征也更好的融合到换脸图像中，增强了目标图像的身份特征的迁移能力，采用训练好的生成对抗网络的生成器对图像或者视频换脸时，得到的换脸图像或者视频真实自然，并且能够保持原图像的属性特征和目标图像的身份特征。

图2A为本申请一实施例提供的一种生成对抗网络训练方法的步骤流程图，本申请实施例在前述实施例的基础上进行细化，如图2A所示，本申请实施例的生成对抗网络训练方法可以包括如下步骤：

S201、获取包含第一人脸的原图像和包含第二人脸的目标图像。

S202、初始化生成对抗网络的判别器的参数、生成器的编码网络和解码网络的参数，以及获取训练好的用于所述生成器中的残差网络和身份提取网络。

本申请实施例中，生成对抗网络包括判别器和生成器，生成器可以包括编码网络、解码网络、残差网络和身份提取网络，其中，残差网络和身份提取网络可以是预先训练好的多种神经网络。本申请实施例所指的初始化可以是初始化判别器、编码网络和解码网络的参数，在一实施例中，可以是构建判别器、编码网络和解码网络的网络结构，并设置网络结构的网络参数。在本申请实施例中，判别器、编码网络和解码网络可以是多种神经网络。

如图2B所示为生成器的示意图，在图2B中，生成器30包括编码网络301、解码网络302、身份提取网络303、残差模块304，其中编码网络301和解码网络302可以是对称的卷积神经网络和反卷积神经网络，残差模块304连接在编码网络301和解码网络302之间，原图像10和目标图像20输入生成器30后可以获得换脸图像40。

S203、采用所述编码网络对所述原图像进行编码处理得到所述第一人脸的属性特征图。

在本申请实施例中，可以先对原图像进行预处理，获得预处理后的原图像，再将预处理后的原图像输入编码网络中，获得每个下采样卷积层输出的下采样特征图。其中，预处理包括调整图像尺寸，编码网络的最后一层下采样卷积层输出的下采样特征图即为第一人脸的属性特征图。

示例性地，如图2B所示，编码网络301可以是一个包括多个下采样卷积层的网络，在将原图像10裁剪为指定大小尺寸的图像后，将裁剪后的原图像输入到下采样卷积层，每层下采样卷积层对裁剪后的原图像进行采样编码处理输出下采样特征图，并将该下采样特征图输入到下一下采样卷积层中，编码网络最后一层下采样卷积层输出的下采样特征图即为第一人脸的属性特征图F _H×W×D，H和W分别为属性特征图的高和宽，D为通道数，而对于每个下采样卷积层均输出一个下采样特征图

如图2B所示，编码网络301最终输出第一人脸的属性特征图50。

S204、将所述目标图像输入所述身份提取网络中提取所述第二人脸的身份特征。

在本申请实施例中，身份特征可以是指能够区分两个人脸属于不同人物的身份的信息，身份提取网络可以是预先训练好的网络，例如，可以是预先训练好的卷积神经网络CNN、循环神经网络RNN、深度神经网络DNN等。将目标图像输入该身份提取网络后可以提取第二人脸的身份特征F _ID，身份特征F _ID可以是一个一维向量，该一维向量包含了人脸的身份信息，如图2B所示，目标图像20输入身份提取网络303后得到身份特征60。

S205、采用所述残差网络将所述身份特征注入所述属性特征图中得到混合特征图。

在本申请的示例实施例中，可以先对身份特征进行转换，获得身份特征的身份特征均值和身份特征方差，将身份特征均值、身份特征方差以及属性特征图输入残差网络中，以通过残差网络将身份特征迁移到属性特征图上得到混合特征图。

如图2B所示，身份特征60可以经过一个全连接层305后输出身份特征均值μ和身份特征方差σ，身份特征均值μ、身份特征方差σ以及属性特征50一起输入到残差网络304中得到混合特征图70。

在本申请的示例实施例中，残差网络可以是自适应实例归一化的残差模块(AdaIN ResBlk)，残差网络可以将一个风格图片描述成特征图的均值、方差，通过改变内容图片特征图的均值、方差，从而实现风格注入，以x表示内容特征图，y表示风格图片，则残差网络的公式为：

上述公式中，μ_y1，σ_y1为需要注入的身份特征均值和身份特征方差，本申请实施例中，x为身份特征，y为属性特征图，AdaIN(x，y)为混合特征图。

本申请实施例通过残差网络可以将第二人脸的身份特征注入到第一人脸的属性特征图中，从而采用第二人脸的身份特征替换掉第一人脸的身份特征，能够保留原图像中第一人脸的姿态、表情等信息，实现原图像中第一人脸的属性特征和目标图像中第二人脸的身份特征的结合。

S206、基于所述属性特征图和所述身份特征，采用所述解码网络对所述混合特征图进行解码，获得采用所述第二人脸替换所述第一人脸后的换脸图像。

在本申请的示例实施例中，在得到混合特征图后，将混合特征图和身份特征拼接得到拼接特征，将拼接特征输入到解码网络中通过多层上采样卷积层进行采样处理得到换脸图像，其中，针对解码网络中的每个上采样卷积层，确定上采样卷积层在编码网络中对应的下采样卷积层，获取下采样卷积层输出的下采样特征图，以及获取上采样卷积层的前一上采样卷积层输出的上采样特征，拼接下采样特征图和上采样特征作为上采样卷积层的解码对象。

在一实施例中，如图2B所示，通过残差网络304输出混合特征图70后，将身份提取网络303提取的身份特征拼接到该混合特征图70得到拼接特征，从而提高第二人脸的身份特征的迁移能力，解码网络302对该拼接特征进行解码后能够更好地保持第二人脸的身份信息。

在一实施例中，如图2B所示，通过跨连，将解码网络的中间特征通过跨连的方式连接到解码网络的特征层上，在一实施例中，解码网络和编码网络为对称的上采样卷积神经网络和下采样卷积神经网络，在编码网络中，每个下采样卷积层均输出下采样特征

在解码网络中，每个上采样卷积层均输入上采样特征

对于解码网络中的某一个上采样卷积层i，可以确定该上采样卷积层i在编码网络中对应的下采样卷积层，并获得该下采样卷积层输出的下采样特征

将

和

进行相加后进行上采样输出上采样特征

作为下一上采样卷积层的输入。

本申请实施例在解码过程中，通过跨连操作将编码网络的下采样卷积层输出的中间特征输入到解码网络的上采样卷积层中，使得原图像中第一人脸的属性特征更好地融入到换脸图像中，换脸图像更真实自然。

S207、将所述原图像和所述换脸图像输入所述判别器进行训练得到判定值。

本申请实施例对生成器和判别器交替训练，先训练生成器得到换脸图像，然后采用换脸图像和原图像训练判别器，然后训练生成器，如此交替训练生成对抗网络，其中，训练一次生成器和一次判别器为一轮训练，每轮训练后生成器生成一个换脸图像，判别器对该换脸图像进行判别得到判定值，该判定值可以是换脸图像属于真实图像的概率。

S208、根据所述判定值、所述换脸图像、所述原图像和所述目标图像计算总损失。

在本申请实施例中，总损失可以是对抗损失、重构损失、关键点损失和身份特征损失的总和，可以先分别计算对抗损失、重构损失、关键点损失和身份特征损失，然后对对抗损失、重构损失、关键点损失和身份特征损失求和得到总损失，例如可以包括以下子步骤：

S2081、根据判定值、原图像和换脸图像计算对抗损失和关键点损失。

在一实施例中，可以根据判定值和预设对抗损失函数计算对抗损失，获取原图像和换脸图像中人脸的关键点，计算原图像和换脸图像中人脸的关键点的距离得到关键点损失。

示例性地，对抗损失gan_loss为：

gan_loss＝∑-logD(G(X _i))

上述公式中，G(X _i)为生成器生成的换脸图像，D(G(X _i))为判别器判别换脸图像G(X _i)为真实图像的判定值。

示例性地，对于关键点损失，可以通过预先训练好的脸部姿态评估网络提取原图像的脸部关键点和换脸图像的脸部关键点，然后约束换脸图像的脸部关键点和原图像的脸部关键点相似，在一实施例中，可以获取换脸图像的脸部关键点坐标lmks_gen和原图像的脸部关键点坐标lmks_src，则关键点损失lmks_loss为：

lmks_loss＝||lmks_gen-lmks_target|| ₂

本申请实施例通过计算关键点损失来对换脸图像进行约束，使得换脸图像的脸部关键点和原图像的脸部关键点相似，从而使得换脸图像更好地保持原图像的人脸表情、人脸姿态等属性特征。

S2082、根据所述目标图像和所述换脸图像计算身份特征损失。

在本申请的示例实施例中，身份提取网络为预先训练好的网络，可以将目标图像和换脸图像分别输入身份提取网络中，以通过身份提取网络提取目标图像中人脸的身份特征和换脸图像中人脸的身份特征，并计算目标图像中人脸的身份特征和换脸图像中人脸的身份特征的距离得到身份特征损失，示例性地，可以记换脸图像的身份特征为FeatID _gen，记目标图像的身份特征为FeatID _target，则身份特征损失ID_loss为：

ID_loss＝||FeatID _gen-FeatID _target|| ₂

在本申请实施例中，通过计算目标图像和所述换脸图像的身份特征损失，可以约束换脸图像的身份特征与目标图像的身份特征更为相似，使得换脸图像更好地保持目标图像的身份特征。

S2083、将两张所述原图像输入所述生成器中获得所述原图像的自换脸图像，并根据所述原图像和所述自换脸图像计算重构损失。

在一实施例中，可以将原图像同时输入生成器的编码网络和身份提取网络中，通过生成器生成原图像的自换脸图像，即通过生成器生成采用一张原图像的人脸替换另一原图像的人脸的换脸图像，然后计算该重构原图像的重构损失，示例性地，记采用两张原图像为original_img，所生成的自换脸图像为src_img，则重构损失recon_loss为：

recon_loss＝||src _img-original _img|| ₂

上述公式为对原图像和自换脸图像中相同位置的像素点的像素值的差值，通过计算生成器的重构损失来约束调整生成器的参数，使得生成器生成的换脸图像更好地保持原图像的属性特征，换脸图像更为真实自然。

S2084、计算所述对抗损失、所述重构损失、所述关键点损失和所述身份特征损失的和值得到总损失。

在一实施例中，总损失为对抗损失、重构损失、关键点损失和身份特征损失的总和，即总损失total_loss为：

total_loss＝recon_loss+ID_loss+gan_loss+lmks_loss

当然，在实际应用中，还可以为对抗损失、重构损失、关键点损失和身份特征损失设置权重，计算权重和损失的乘积得到每个损失的权值，求权值和作为总损失，本领域技术人员还可以通过计算多个损失的加权平均值等来作为总损失，本申请实施例对计算总损失的方式不加以限制。

S209、根据所述总损失对所述生成器和所述判别器的参数进行调整。

在本申请实施例中，生成对抗网络包括生成器和判别器，可以通过交替训练生成器和判别器来训练生成对抗网络，最终通过计算总损失来对生成器和判别器的参数进行调整，在一实施例中，在一轮交替训练结束后计算得到总损失，判断总损失是否小于预设阈值，如果总损失小于预设阈值，说明生成器的精度足够高，生成器生成的换脸图像足以欺骗过判别器，可以停止对生成器和判别器进行训练，如果总损失大于预设阈值，说明生成器的精度不足，判别器仍然可以识别出生成器生成换脸图像的真假，则可以根据对抗损失调整判别器的参数，以及根据总损失调整生成器中编码器和解码器的参数，并返回S203以交替训练生成器和判别器，直到满足停止迭代训练条件。

在一实施例中，对判别器、编码器或者解码器的参数进行调整，可以是通过梯度下降算法对参数进行更新，其中，梯度下降算法可以是随机梯度下降法 SGD或者其他梯度下降法，本申请实施例对梯度算法和对参数调整更新的方法不加以限制。

本申请实施例训练生成器时，采用编码网络对原图像进行编码处理得到第一人脸的属性特征图，将目标图像输入身份提取网络中提取第二人脸的身份特征，采用残差网络将身份特征注入属性特征图中得到混合特征图，并基于属性特征图和身份特征，采用解码网络对混合特征图进行解码得到换脸图像，将原图像和换脸图像输入判别器进行训练得到判定值，根据判定值、换脸图像、原图像和目标图像计算总损失，根据总损失对生成器和判别器的参数进行调整，实现了解码过程中结合原图像的属性特征和目标图像的身份特征对混合特征图进行解码，使得换脸图像更好的保持原图像的人脸姿态、人脸表情等属性特征，同时目标图像中的身份特征也更好的融合到换脸图像中，增强了目标图像的身份特征的迁移能力，采用训练好的生成对抗网络的生成器对图像或者视频换脸时，得到的换脸图像或者视频真实自然，并且能够保持原图像的属性特征和目标图像的身份特征。

在一实施例中，总损失包括关键点损失，通过关键点损失约束换脸图像的脸部关键点和原图像的脸部关键点相似，使得换脸图像更好地保持原图像的人脸表情、人脸姿态等属性特征。

在一实施例中，总损失包括身份特征损失，通过身份特征损失约束换脸图像的身份特征与目标图像的身份特征更为相似，使得换脸图像更好地保持目标图像的身份特征。

图3为本申请一实施例提供的一种图像换脸方法的步骤流程图，本申请实施例可适用于更换图像中的人脸的情况，该方法可以由本申请实施例的图像换脸装置来执行，该图像换脸装置可以由硬件或软件来实现，并集成在本申请实施例所提供的电子设备中，在一实施例中，如图3所示，本申请实施例的图像换脸方法可以包括如下步骤：

S301、获取包含第一人脸的原图像和包含第二人脸的目标图像。

在本申请的一个示例中，用户采用目标图像中的第二人脸替换原图像中的第一人脸，使得换脸后的图像能够保持第二人脸的身份特征和第一人脸的姿态、表情等属性，在一个应用场景中，原图像为用户需要换脸的图像，目标图像可以是包含用户脸部的图像。

在本申请实施例中，可以提供一交互界面，该交互界面中提供用户确定原图像和目标图像的操作，用户可以在交互界面中指定原图像和目标图像，示例性地，交互界面可以提供图像上传操作，用户可以在交互界面中上传原图像和目标图像，例如交互界面先提示用户上传原图像，再提示用户上传目标图像，当然，还可以通过其他交互操作获取用户指定的原图像和目标图像，本申请实施例对此不加以限制。

S302、将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像。

本申请实施例中，生成器可以是将原图像中第一人脸替换为目标图像中的第二人脸的神经网络，该生成器可以通过训练生成对抗网络获得，其中，生成器可以通过前述实施例所提供的生成对抗网络训练方法所训练，训练详情可参考前述实施例，在此不再详述。

对于训练好的生成器，可以将原图像输入生成器的编码网络提取第一人脸的属性特征图，将目标图像输入生成器的身份提取网络提取第二人脸的身份特征，并通过生成器的残差网络将身份特征注入属性特征图中生成混合特征图，生成器的编码网络根据身份特征和属性特征图对混合特征图进行解码得到第二人脸替换第一人脸后的换脸图像。

本申请实施例获取包含第一人脸的原图像和包含第二人脸的目标图像后，将原图像和目标图像输入生成对抗网络的生成器中，得到采用第二人脸替换第一人脸后原图像的换脸图像，本申请实施例的生成器实现了解码过程中结合原图像的属性特征和目标图像的身份特征对混合特征图进行解码，使得换脸图像更好的保持原图像的人脸姿态、人脸表情等属性特征，同时目标图像中的身份特征也更好的融合到换脸图像中，增强了目标图像的身份特征的迁移能力，采用训练好的生成对抗网络的生成器对图像换脸时，得到的换脸图像真实自然，并且能够保持原图像的属性特征和目标图像的身份特征。

图4为本申请一实施例提供的一种视频换脸方法的步骤流程图，本申请实施例可适用于更换视频中的人脸的情况，该方法可以由本申请实施例的视频换脸装置来执行，该视频换脸装置可以由硬件或软件来实现，并集成在本申请实施例所提供的电子设备中，在一实施例中，如图4所示，本申请实施例的视频换脸方法可以包括如下步骤：

S401、获取待换脸视频数据。

在本申请实施例中，待换脸视频数据可以是包含人脸的短视频数据、直播视频数据、影片视频数据等，该待换脸视频数据可以包括一个或者一个以上的人脸，在实际应用中，用户可以在提供的换脸编辑交互界面中指定待换脸视频数据，例如，上传待换脸视频数据或者输入待换脸视频数据的地址，该地址可以是待换脸视频数据的本地存储地址，还可以是待换脸视频数据的网络地址。

S402、从所述视频数据中提取包含第一人脸的视频图像作为原图像。

在一实施例中，可以在视频数据解码的过程中，对视频数据中的人脸进行人脸检测，当检测到第一人脸时，提取该视频图像作为原图像，其中，第一人脸可以是用户指定的人脸，例如，在获取视频数据时，可以提示用户指定视频数据中的一个人脸作为第一人脸。

S403、获取包含第二人脸的目标图像。

本申请实施例中，目标图像为用于替换原图像中人脸的图像，该目标图像包含第二人脸，示例性地，目标图像可以是用户的自拍图像，当然还可以是用户指定的其他包含第二人脸的图像，在一实施例中，第一人脸和第二人脸为不同的人脸。

S404、将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像。

S405、基于所述换脸图像生成换脸后的视频数据。

在获得原图像的换脸图像后，可以按照预设的帧率、码率对每个原图像换脸后的换脸图像进行视频编码得到换脸后的视频数据，该换脸后的视频数据中的人脸保持了第二人脸的身份特征和第一人脸的姿态、表情等属性特征。

本申请实施例获取待换脸视频数据后，从视频数据中提取包含第一人脸的原图像，并获取包含第二人脸的目标图像，将原图像和目标图像输入生成对抗网络的生成器中，得到采用第二人脸替换第一人脸后原图像的换脸图像，基于该换脸图像生成换脸后的视频数据。本申请实施例的生成器实现了解码过程中结合原图像的属性特征和目标图像的身份特征对混合特征图进行解码，使得换脸图像更好的保持原图像的人脸姿态、人脸表情等属性特征，同时目标图像中的身份特征也更好的融合到换脸图像中，增强了目标图像的身份特征的迁移能力，采用训练好的生成对抗网络的生成器对视频数据换脸时，得到的换脸后的视频数据真实自然，并且能够保持视频数据中人脸的属性特征和目标图像中人脸的身份特征。

图5是本申请一实施例提供的一种生成对抗网络训练装置的结构框图，如图5所示，本申请实施例的生成对抗网络训练装置可以包括如下模块：

原图像和目标图像获取模块501，设置为获取包含第一人脸的原图像和包含第二人脸的目标图像；

生成对抗网络初始化模块502，设置为初始化生成对抗网络的生成器和判别器；

生成器训练模块503，设置为将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，所述生成器设置为从所述原图像提取第一人脸的属性特征图，从所述目标图像中提取第二人脸的身份特征，并将所述身份特征注入所述属性特征图中生成混合特征图，以及根据所述身份特征和所述属性特征图对所述混合特征图进行解码得到所述第二人脸替换所述第一人脸后的换脸图像；

判别器训练模块504，设置为采用所述原图像和所述换脸图像训练所述判别器得到判定值；

参数调整模块505，设置为根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。

本申请实施例所提供的生成对抗网络训练装置可执行本申请实施例所提供的生成对抗网络训练方法，具备执行方法相应的功能模块和有益效果。

图6是本申请一实施例提供的一种图像换脸装置的结构框图，如图6所示，本申请实施例的图像换脸装置可以包括如下模块：

原图像和目标图像获取模块601，设置为获取包含第一人脸的原图像和包含第二人脸的目标图像；

图像换脸模块602，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

其中，所述生成器通过本申请实施例所述的生成对抗网络训练方法所训练。

本申请实施例所提供的图像换脸装置可执行本申请实施例所提供的图像换脸方法，具备执行方法相应的功能模块和有益效果。

图7是本申请一实施例提供的一种视频换脸装置的结构框图，如图7所示，本申请实施例的视频换脸装置可以包括如下模块：

待换脸视频数据获取模块701，设置为获取待换脸视频数据；

原图像提取模块702，设置为从所述视频数据中提取包含第一人脸的视频图像作为原图像；

目标图像获取模块703，设置为获取包含第二人脸的目标图像；

视频换脸模块704，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

换脸视频数据生成模块705，设置为基于所述换脸图像生成换脸后的视频数据；

本申请实施例所提供的视频换脸装置可执行本申请实施例所提供的视频换脸方法，具备执行方法相应的功能模块和有益效果。

参照图8，示出了本申请一个示例中的一种电子设备的结构示意图。如图8所示，该电子设备可以包括：处理器801、存储装置802、具有触摸功能的显示屏803、输入装置804、输出装置805以及通信装置806。该设备中处理器801的数量可以是一个或者多个，图8中以一个处理器801为例。该设备的处理器801、存储装置802、显示屏803、输入装置804、输出装置805以及通信装置806可以通过总线或者其他方式连接，图8中以通过总线连接为例。所述设备设置为执行如本申请任一实施例提供的生成对抗网络训练方法，和/或，图像换脸方法，和/或，视频换脸方法。

本申请实施例还提供一种计算机可读存储介质，所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述方法实施例所述的生成对抗网络训练方法，和/或，图像换脸方法，和/或，视频换脸方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本申请的示例实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行多种明显的变换、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

一种生成对抗网络训练方法，包括：

获取包含第一人脸的原图像和包含第二人脸的目标图像；

初始化生成对抗网络的生成器和判别器；

将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，所述生成器设置为从所述原图像提取第一人脸的属性特征图，从所述目标图像中提取第二人脸的身份特征，并将所述身份特征注入所述属性特征图中生成混合特征图，以及根据所述身份特征和所述属性特征图对所述混合特征图进行解码得到所述第二人脸替换所述第一人脸后的换脸图像；

将所述原图像和所述换脸图像输入所述判别器进行训练得到判定值；

根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。
根据权利要求1所述的方法，其中，所述初始化生成对抗网络的生成器和判别器，包括：

初始化生成对抗网络的判别器的参数、生成器的编码网络和解码网络的参数，以及获取训练好的用于所述生成器中的残差网络和身份提取网络。
根据权利要求2所述的方法，其中，将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，包括：

采用所述编码网络对所述原图像进行编码处理得到所述第一人脸的属性特征图；

将所述目标图像输入所述身份提取网络中提取所述第二人脸的身份特征；

采用所述残差网络将所述身份特征注入所述属性特征图中得到混合特征图；

基于所述属性特征图和所述身份特征，采用所述解码网络对所述混合特征图进行解码，获得采用所述第二人脸替换所述第一人脸后的换脸图像。
根据权利要求3所述的方法，其中，所述编码网络包括多层下采样卷积层，所述采用所述编码网络对所述原图像进行编码处理得到所述第一人脸的属性特征图，包括：

对所述原图像进行预处理，获得预处理后的原图像；

将所述预处理后的原图像输入所述编码网络中，获得每个下采样卷积层输出的下采样特征图；

其中，所述预处理包括调整图像尺寸，所述编码网络的最后一层下采样卷积层输出的下采样特征图为所述第一人脸的属性特征图。
根据权利要求3所述的方法，其中，所述采用所述残差网络将所述身份特征注入所述属性特征图中得到混合特征图，包括：

对所述身份特征进行转换，获得所述身份特征的身份特征均值和身份特征方差；

将所述身份特征均值、所述身份特征方差以及所述属性特征图输入所述残差网络中，以通过所述残差网络将所述身份特征迁移到所述属性特征图上得到混合特征图。
根据权利要求3或4所述的方法，其中，所述编码网络包括多层下采样卷积层，所述解码网络包括多层上采样卷积层，所述基于所述属性特征图和所述身份特征，采用所述解码网络对所述混合特征图进行解码，获得采用所述第二人脸替换所述第一人脸后的换脸图像，包括：

将所述混合特征图和所述身份特征拼接得到拼接特征；

将所述拼接特征输入到所述解码网络中通过所述多层上采样卷积层进行采样处理得到换脸图像；

其中，针对所述解码网络中的每个上采样卷积层，确定所述上采样卷积层在所述编码网络中对应的下采样卷积层，获取所述下采样卷积层输出的下采样特征图，以及获取所述上采样卷积层的前一上采样卷积层输出的上采样特征，拼接所述下采样特征图和所述上采样特征作为所述上采样卷积层的解码对象。
根据权利要求2所述的方法，其中，所述根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整，包括：

根据所述判定值、所述换脸图像、所述原图像和所述目标图像计算总损失；

根据所述总损失对所述生成器和所述判别器的参数进行调整。
根据权利要求7所述的方法，其中，所述根据所述判定值、所述换脸图像、所述原图像和所述目标图像计算总损失，包括：

根据所述判定值、所述原图像和所述换脸图像计算对抗损失和关键点损失；

根据所述目标图像和所述换脸图像计算身份特征损失；

将两张所述原图像输入所述生成器中获得所述原图像的自换脸图像；

根据所述原图像和所述自换脸图像计算重构损失；

计算所述对抗损失、所述重构损失、所述关键点损失和所述身份特征损失的和值得到总损失。
根据权利要求8所述的方法，其中，所述根据所述判定值、所述原图像和所述换脸图像计算对抗损失和关键点损失，包括：

根据所述判定值和预设对抗损失函数计算对抗损失；

获取所述原图像和所述换脸图像中人脸的关键点；

计算所述原图像和所述换脸图像中人脸的关键点的距离得到关键点损失。
根据权利要求8所述的方法，其中，所述根据所述目标图像和所述换脸图像计算身份特征损失，包括：

将所述目标图像和所述换脸图像分别输入所述身份提取网络中，得到所述目标图像中人脸的身份特征和所述换脸图像中人脸的身份特征；

计算所述目标图像中人脸的身份特征和所述换脸图像中人脸的身份特征的距离得到身份特征损失。
根据权利要求7所述的方法，其中，所述根据所述总损失对所述生成器和所述判别器的参数进行调整，包括：

判断所述总损失是否小于预设阈值；

基于所述总损失小于所述预设阈值的判断结果，停止对所述生成器和所述判别器进行训练；

基于所述总损失大于或等于所述预设阈值的判断结果，根据所述对抗损失调整所述判别器的参数，以及根据所述总损失调整所述生成器中编码器和解码器的参数，返回采用所述编码网络对所述原图像进行编码处理得到所述第一人脸的属性特征图的步骤。
一种图像换脸方法，包括：

获取包含第一人脸的原图像和包含第二人脸的目标图像；

将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

其中，所述生成器通过权利要求1-11任一项所述的生成对抗网络训练方法所训练。
一种视频换脸方法，包括：

获取待换脸视频数据；

从所述视频数据中提取包含第一人脸的视频图像作为原图像；

获取包含第二人脸的目标图像；

将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

基于所述换脸图像生成换脸后的视频数据；

其中，所述生成器通过权利要求1-11任一项所述的生成对抗网络训练方法所训练。
一种生成对抗网络训练装置，包括：

原图像和目标图像获取模块，设置为获取包含第一人脸的原图像和包含第二人脸的目标图像；

生成对抗网络初始化模块，设置为初始化生成对抗网络的生成器和判别器；

生成器训练模块，设置为将所述原图像和所述目标图像输入所述生成器中进行训练获得换脸图像，所述生成器设置为从所述原图像提取第一人脸的属性特征图，从所述目标图像中提取第二人脸的身份特征，并将所述身份特征注入所述属性特征图中生成混合特征图，以及根据所述身份特征和所述属性特征图对所述混合特征图进行解码得到所述第二人脸替换所述第一人脸后的换脸图像；

判别器训练模块，设置为采用所述原图像和所述换脸图像训练所述判别器得到判定值；

参数调整模块，设置为根据所述判定值、所述换脸图像、所述原图像和所述目标图像对所述生成器和所述判别器的参数进行调整。
一种图像换脸装置，包括：

原图像和目标图像获取模块，设置为获取包含第一人脸的原图像和包含第二人脸的目标图像；

图像换脸模块，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

其中，所述生成器通过权利要求1-11任一项所述的生成对抗网络训练方法所训练。
一种视频换脸装置，包括：

待换脸视频数据获取模块，设置为获取待换脸视频数据；

原图像提取模块，设置为从所述视频数据中提取包含第一人脸的视频图像作为原图像；

目标图像获取模块，设置为获取包含第二人脸的目标图像；

视频换脸模块，设置为将所述原图像和所述目标图像输入生成对抗网络的生成器中，得到采用所述第二人脸替换所述第一人脸后所述原图像的换脸图像；

换脸视频数据生成模块，设置为基于所述换脸图像生成换脸后的视频数据；

其中，所述生成器通过权利要求1-11任一项所述的生成对抗网络训练方法所训练。
一种电子设备，包括：

一个或多个处理器；

存储装置，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现以下至少之一的方法：

如权利要求1-11中任一项所述的生成对抗网络训练方法，

如权利要求12所述的图像换脸方法，

如权利要求13所述的视频换脸方法。
一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现以下至少之一的方法：

如权利要求1-11中任一项所述的生成对抗网络训练方法，

权利要求12所述的图像换脸方法，

权利要求13所述的视频换脸方法。