WO2022135490A1

WO2022135490A1 - 一种人脸图像合成方法、系统、电子设备及存储介质

Info

Publication number: WO2022135490A1
Application number: PCT/CN2021/140563
Authority: WO
Inventors: 李安; 李玉乐; 项伟
Original assignee: 百果园技术(新加坡)有限公司; 李安
Priority date: 2020-12-25
Filing date: 2021-12-22
Publication date: 2022-06-30
Also published as: CN112651915A; CN112651915B

Abstract

一种人脸图像合成方法、系统、电子设备及存储介质。该方法通过将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，由生成器按照设定的权重提取肤色信息和人脸特征信息并转换为多个编码向量，由生成器的解码器基于多路仿射变换模块和风格迁移模块对编码向量进行人脸图像转换合成，并引入随机噪声生成对应第一原始人脸图像和第二原始人脸图像的人脸合成图像。该方法通过分别设定不同权重提取肤色信息和人脸特征信息，可以提升人脸图像合成的真实性，优化人脸图像合成效果，并提升图像合成质量。此外，通过引入随机噪声，该方法可以进一步提升人脸图像合成的真实性。

Description

一种人脸图像合成方法、系统、电子设备及存储介质

本申请要求在2020年12月25日提交中国专利局、申请号为202011566624.1的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种人脸图像合成方法、系统、电子设备及存储介质。

背景技术

目前，在短视频、电影图像制作领域，基于两张人脸图像进行人脸图像合成是一种比较趣味性的和挑战性的技术。例如，通过输入一张男性人脸图像和一张女性人脸图像，合成两者未来孩子的人脸图像。

但是，现有的人脸图像合成算法在进行人脸图像合成时，缺乏对图像人种、肤色等特征的考虑，其特征融合效果相对较差，缺乏真实性。并且，其对进行合成的图像质量要求相对较高，对于低质量图像的合成而言，其输出图像的效果相对较差。

发明内容

本申请实施例提供一种人脸图像合成方法、系统、电子设备及存储介质，能够提升人脸图像合成的真实性，并提升图像合成质量，优化人脸图像合成效果。

在第一方面，本申请实施例提供了一种人脸图像合成方法，包括：

将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重；

所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。

进一步的，所述生成模型的训练流程包括：

以两个训练样本图像作为模型输入，以所述训练样本图像的人脸合成图像作为模型输出训练所述生成器；

使用所述生成模型的判别器验证所述训练样本图像的人脸合成图像，并根据所述生成模型的损失函数调整所述生成器的人脸属性合成参数，直至所述损失函数收敛。

进一步的，所述损失函数对应所述第一编码器包括生成式对抗网络损失、人脸特征损失和编码向量距离损失；所述损失函数对应所述第二编码器包括生成式对抗网络损失、肤色损失和编码向量距离损失。

进一步的，所述生成式对抗网络损失包括生成器损失和判别器损失，所述生成式对抗网络损失计算公式为：

Loss_G＝E(D(G(x)-1) ²)

Loss_D＝E((D(x)-1) ²+D(G(x)) ²)

其中，D为判别器，G为生成器，x为模型输入的特征图，E表示求取均值，G(x)表示所述生成器生成的人脸合成图像，D(x)表示所述判别器对所述人脸合成图像的验证结果，LOSS_G表示对应的生成器损失，LOSS_D表示判别器损失。

进一步的，所述编码向量距离损失计算公式为：

wLoss＝E((w-w_mean) ²)

其中，w为所述第一编码器或者所述第二编码器输出的编码向量，w_mean为所述解码器中的编码向量均值。

进一步的，所述人脸特征损失基于人脸识别网络确定，所述人脸特征损失计算公式为：

idLoss＝E(cosin(Facenet(x),Facenet(G(x))))

其中，idLoss表示人脸特征损失，E表示求取均值，Facenet表示人脸识别网络，x为模型输入的特征图，G为生成器，G(x)表示所述生成器生成的人脸合成图像。

进一步的，所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像，包括：

将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子，将所述偏置因子和所述缩放因子输入对应的所述风格迁移模块；

所述风格迁移模块基于所述第一原始人脸图像或所述第二原始人脸图像的特征图、对应的所述偏置因子和所述缩放因子进行人脸风格转换计算，并引入随机噪声生成对应的人脸风格转换结果，并基于各个人脸风格转换结果得到人脸合成图像。

进一步的，将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子，包括：

将所述第一编码向量或所述第二编码向量转换为输出向量，并将所述输出向量转换为对应的偏置因子和缩放因子。

进一步的，所述风格迁移模块的计算公式为：

其中，AdaIN(x，y)为人脸风格转换结果，y_s为缩放因子，y_b为偏置因子，x为模型输入的特征图，σ表示求取标准差，u表示求取均值。

在第二方面，本申请实施例提供了一种人脸图像合成系统，包括：

输入模块，用于将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

转换模块，用于通过所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；通过所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重；

合成模块，用于通过所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。

在第三方面，本申请实施例提供了一种电子设备，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的人脸图像合成方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的人脸图像合成方法。

本申请实施例通过将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，由生成器的第一编码器和第二编码器按照设定的权重提取肤色信息和人脸特征信息并转换为多个编码向量，由生成器的解码器基于多路仿射变换模块和风格迁移模块对编码向量进行人脸图像转换合成，并引入随机噪声生成对应第一原始人脸图像和第二原始人脸图像的人脸合成图像。采用上述技术手段，通过分别设定不同权重提取提取肤色信息和人脸特征信息，可以提升人脸图像合成的真实性，优化人脸图像合成效果，并提升图像合成质量。此外，通过引入随机噪声，可以进一步提升人脸图像合成的真实性。

附图说明

图1是本申请实施例一提供的一种人脸图像合成方法的流程图；

图2是本申请实施例一中的生成器的网络架构示意图；

图3是本申请实施例一中生成模型的训练流程图；

图4是本申请实施例一中残差模块的架构示意图；

图5是本申请实施例一中解码器人脸图像转换合成流程图；

图6是本申请实施例一中解码器人脸图像转换架构示意图；

图7是本申请实施例一中仿射变换模块的编码向量转换流程图；

图8是本申请实施例二提供的一种人脸图像合成系统的结构示意图；

图9是本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的人脸图像合成方法，旨在通过生成模型将两张原始人脸图像进行人脸图像转换合成，得到对应的人脸合成图像。并在人脸图像转换合成过程中，通过将原始人脸图像转换为多个编码向量进行多路人脸图像转换，通过引入随机噪声，以此来增加人脸合成图像的真实性，提升图像质量，优化人脸图像编辑效果。并且，在将原始人脸头像转换为编码向量时，对应两张原始人脸头像提取人脸特征信息和肤色信息的侧重点不同，根据设定权重提取人脸特征信息和肤色信息，得到肤色信息较强的第一编码向量和人脸特征信息较强的第二编码向量，以此可以避免人脸合成图像出现肤色信息缺失的问题，优化人脸图像合成效果。对于传统的3D贴图技术进行人脸图像合成时，其需要预先处理设计好的3D纹理，并根据人脸关键点信息将人脸进行形变，再通过磨皮、贴图等方式处理后得到人脸合成图像，这种方法依赖人脸关键点，其多样性差，生成图像不自然，存在一定局限性。而采用传统生成式对抗网络模型进行人脸图像合成时，一般是通过输入一张或者两张人脸图像，提取图像中的人脸特征信息，从而生成人脸合成图像。这种方法对图像质量的要求高，对于低质量图像的生成效果相对较差，且没有较好地考虑人脸肤色的影响。基于此，提供本申请实施例的人脸图像合成方法，以解决现有人脸图像合成的肤色缺失及图像质量问题。

实施例一：

图1给出了本申请实施例一提供的一种人脸图像合成方法的流程图，本实施例中提供的人脸图像合成方法可以由人脸图像合成设备执行，该人脸图像合成设备可以通过软件和/或硬件的方式实现，该人脸图像合成设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，该人脸图像合成设备可以是电脑等计算机设备。

下述以人脸合成设备为执行人脸图像合成方法的主体为例，进行描述。参照图1，该人脸图像合成方法具体包括：

S110、将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

S120、所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重。

本申请实施例基于一个生成模型进行人脸图像合成，该生成模型为基于生成式对抗网络的生成模型，使用生成式对抗网络模型的架构，通过生成模型的生成器实现人脸图像的合成。

在此之前，需要预先训练该生成模型，以用于后续进行人脸图像合成。需要说明的是，本申请实施例基于生成式对抗网络的生成模型在训练时主要对其生成器进行训练，以使生成器能够进行人脸图像合成。而对于判别器而言，则需要对生成器完成转换合成的人脸合成图像进行验证，判断其是否准确。可以理解的是，基于生成式对抗网络的原理，生成器和判别器互相博弈学习，当判别器无法辨认生成器生成的人脸合成图像与真实样本合成图像的差异时，则生成器训练完成，可以用于进行人脸图像合成。

具体的，参照图2，提供本申请实施例生成器的网络架构示意图。如图2所示，生成器包括编码器和解码器两个部分。其中，编码器包括第一编码器和第二编码器，第一编码器和第二编码器的目的是提取人脸特征信息和肤色信息，将任意一张人脸图像编码为多个编码向量w，再将w注入到解码器中。解码器基于Stylegan模型(一种可以生成高分辨率图像的生成式对抗网络模型)的结构构建，基于解码器将编码向量进行风格转换得到人脸风格转换结果，并基于多路人脸风格转换结果生成人脸合成图像。在图像转换过程中，还进一步引入随机噪声信息(如人脸斑点特征等信息)，可以使生成的人脸合成图像逼真且高清，进而提升本申请实施例生成模型的泛化性能，优化人脸图像合成效果。

需要说明的是，本申请实施例的编码器包括第一编码器和第二编码器，两个编码器通过分别输入相同或者不同的第一原始人脸图像和第二原始人脸图像，对原始人脸图像进行编码得到第一编码向量和第二编码向量。其中，第一编码器和第二编码器按照各自设定的权重提取人脸特征信息和肤色信息，基于人脸特征信息和肤色信息转换为相应的编码向量。并且，第一编码器和第二编码侧重提取的的特征信息不同。第一编码器注重提取肤色信息，第二编码器注重提取人脸特征信息。第一编码器用于提取特征信息的第一设定权重中，其提取肤色信息的比重大于第二编码器用于提取特征信息的第二设定权重。对应的，第二设定权重提取人脸特征信息的比重要大于第一设定权重。通过设置编码器按照各自设定权重提取人脸特征信息和肤色信息，可以得到肤色信息较强的第一编码向量以及人脸特征较强的第二编码向量。以此可以避免人脸合成图像的肤色信息缺失，人脸合成图像的肤色与原始人脸图像的肤色存在不对应的情况。具体的，两个编码器均采用相同的网络结构，其中第一编码器提取肤色信息的比重较大，第二编码器提取人脸特征信息的比重较大。通过上述方法，能够很好的解缠出两张原始人脸图像的肤色和人脸特征的信息，使得两个编码器分别控制不同的信息，在实际人脸图像合成的过程中，可以很好地解决人脸合成图像肤色、人种与原始人脸图像的关联性问题。

进一步的，该编码器采用残差模块(Resblock)的结构，由5个残差模块和一个全连接层(FC)组成。编码器的输入为原始人脸图像，编码器的输出为14*512的编码向量w。不同于传统生成模型的编码器只输出1*512维的向量，本申请实施例编码器采用输出N个不同的1*512维向量，可以更好地控制属性纠缠的问题，通过输出N路编码向量w，将N路编码向量w采用AdaIN的注入方式注入解码器中，进行图像转换合成得到对应的人脸合成图像。解码器基于Stylegan模型(一种可以生成高分辨率图像的生成式对抗网络模型)的结构构建，Stylegan模型是一种基于样式的生成网络，其借鉴风格迁移的方法，以生成高清的人脸合成图像，并能够在一定程度上将人脸图像不同的属性解缠出来，从而有利于人脸图像合成。解码器的常量限定符“const 4×4×512”是可以学习的参数，其作用是学到一个均脸。“A”表示仿射变换模块，“AdaIN”表示风格迁移模块，仿射变换模块为可学习的仿射变换，其包括一个全连接层。对于输入的一路编码向量w(1*512)，仿射变换模块将其维度扩大为两倍，输出为(2*512)的向量。然后将输出的向量转化为偏置因子和缩放因子。风格迁移模块则通过偏置因子和缩放因子结合对应原始人脸图像的特征图进行风格转换，得到对应的人脸风格转换结果。由于编码向量为多路，通过多路仿射变换模块和风格迁移模块进行编码向量的仿射变换和风格转换，进而得到对应的人脸风格转换结果，以此可以将人脸图像的不同属性解缠出来，避免人脸属性纠缠的问题。进而通过综合各个人脸风格转换结果输出最终的人脸合成图像，完成两张原始人脸图像的合成。更进一步的，解码器在将编码向量转换为人脸合成图像时，还对应各路人脸风格转换结果添加相应的随机噪声(如人脸斑点特征等信息)，将随机噪声(B)注入解码器，以此可以使生成的人脸合成图像更具真实性。此外，本申请实施例的解码器还包括上采样(Upsample)模块。上采样(Upsample)模块提供相应的上采样操作，通过该操作可以将特征图上采样为相应的大小。需要说明的是，由于第一编码器和第二编码器分别输出多路第一编码向量和多路第二编码向量至解码器，则解码器在对各路编码向量(即第一编码向量和第二编码向量)进行仿射变换和风格转换时，使用对应的一路仿射变换模块和风格迁移模块对输入其中的第一编码向量或者第二编码向量进行人脸图像转换，并结合随机噪声得到对应的人脸风格转换结果。最终，通过综合各个人脸风格转换结果得到人脸合成图像。

在进行本申请实施例生成模型的训练时，参照图3，生成模型的训练流程包括：

S101、以两个训练样本图像作为模型输入，以所述训练样本图像的人脸合成图像作为模型输出训练所述生成器；

S102、使用所述生成模型的判别器验证所述训练样本图像的人脸合成图像，并根据所述生成模型的损失函数调整所述生成器的人脸属性合成参数，直至所述损失函数收敛。

基于生成式对抗网络模型的特性，在训练生成模型时，使用多样性强、不同肤色、不同人种、不同年龄的人脸图像作为训练样本图像，将两个训练样本图像输入第一编码器和第二编码器进行编码后将多路编码向量注入解码器，生成对应的人脸合成图像。基于该人脸合成图像由判别器进行验证，判断解码器生成的人脸合成图像与真实样本图像的差异，并不断基于损失函数调整生成器的人脸合成参数。当损失函数收敛，判别器无法辨别解码器生成的人脸合成图像与真实样本合成图像时，则该生成器训练完成。

具体的，所述损失函数对应所述第一编码器包括生成式对抗网络损失、人脸特征损失和编码向量距离损失；所述损失函数对应所述第二编码器包括生成式对抗网络损失、肤色损失和编码向量距离损失。第一编码器和第二编码器基于上述对应的损失函数进行训练，直至各个损失函数收敛时，网关第一编码器和第二编码器的训练。

进一步的，生成式对抗网络损失包括生成器损失和判别器损失，所述生成式对抗网络损失计算公式为：

Loss_G＝E(D(G(x)-1) ²)

Loss_D＝E((D(x)-1) ²+D(G(x)) ²)

其中，D为判别器，G为生成器，x为模型输入的特征图，E表示求取均值，G(x)表示所述生成器生成的人脸合成图像，D(x)表示所述判别器对所述人脸合成图像的验证结果，LOSS_G表示对应的生成器损失，LOSS_D表示判别器损失。生成式对抗网络损失采用最小二乘损失，主要用于约束合成的人脸合成图像是否为生成模型实际想要的人脸合成图像，以及人脸合成图像的真实性。

所述编码向量距离损失计算公式为：

wLoss＝E((w-w_mean) ²)

其中，w为所述第一编码器或者所述第二编码器输出的编码向量，w_mean为所述解码器中的编码向量均值。编码向量距离损失能够很好的保证生成模型的泛化性能，确保无论输入图像是否高清，是否低质都能够生成较高质量的人脸合成图像。

人脸特征损失基于人脸识别网络确定，所述人脸特征损失计算公式为：

idLoss＝E(cosin(Facenet(x),Facenet(G(x))))

其中，idLoss表示人脸特征损失，E表示求取均值，Facenet表示人脸识别网络，x为模型输入的特征图，G为生成器，G(x)表示所述生成器生成的人脸合成图像。idLoss使用余弦损失，idLoss是用来约束人脸合成图像和原始人脸图像的相似度，保证生成的人脸合成图像和输入的第二原始人脸图像存在一定的联系。

此外，肤色损失则采用LAB颜色空间计算肤色差异损失，并考虑直方图损失作为肤色损失。

基于第一编码器和第二编码器分别对应自身的损失函数进行训练，当损失函数收敛后，完成生成模型的训练，该生成模型的生成器即可用于人脸图像合成。

示例性，在基于两张原始人脸图像生成人脸合成图像时，将两张原始人脸图像分别输入第一编码器和第二编码器，第一编码器和第二编码器通过自身5个残差模块和一个全连接层(FC)将原始人脸图像转换为多路第一编码向量和第二编码向量。并且，在进行第一编码向量和第二编码向量的转换时，根据各自的设定权重进行人脸特征信息和肤色信息的提取，以确保两个编码器分别侧重人脸特征信息或肤色信息进行信息提取，进而使得最终的人脸合成图像与原始人脸头像在人脸特征和肤色上存在一定的联系。具体的，残差模块(Resblock)如图4所示，残差模块采用的结构通过跨连的方式连接各个卷积层和激活函数(leaky_relu)层，以此可以有效地防止训练过程中梯度消失的问题。

S130、所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。

基于第一编码器和第二编码器生成多路第一编码向量和第二编码向量之后，即可将第一编码向量和第二编码向量输入解码器，解码器通过仿射变换模块和风格迁移模块进行图像转换合成，得到对应的人脸合成图像。具体的，参照图5，解码器人脸图像转换合成流程包括：

S1301、将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子，将所述偏置因子和所述缩放因子输入对应的所述风格迁移模块；

S1302、所述风格迁移模块基于所述第一原始人脸图像或所述第二原始人脸图像的特征图、对应的所述偏置因子和所述缩放因子进行人脸风格转换计算，并引入随机噪声生成对应的人脸风格转换结果，并基于各个人脸风格转换结果得到人脸合成图像。

具体的，如图6所示，提供本申请实施例解码器人脸图像转换架构示意图。解码器通过仿射变换模块(A)和风格迁移模块(AdaIN)构成基于样式的生成网络，以此来基于编码向量进行转换得到人脸风格转换结果。其中，参照图7，在将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子时，将所述第一编码向量或所述第二编码向量转换为输出向量，并将所述输出向量转换为对应的偏置因子和缩放因子。将偏置因子和缩放因子注入风格迁移模块(AdaIN)，风格迁移模块(AdaIN)基于原始人脸图像的特征图、偏置因子和缩放因子进行人脸风格转换，并引入随机噪声，输出人脸风格转换结果。

所述风格迁移模块的计算公式为：

风格迁移模块(AdaIN)是风格迁移技术中常用的模块，其能够很好地改变图像风格，实现人脸图像的风格迁移。基于上述风格迁移模块的计算公式即可通过图像转换得到对应的人脸风格转换结果。并且，考虑到人脸合成图像的真实性需求，进一步通过引入随机噪声，以使生成的人脸合成图像自然且具备真实性。最终，通过综合各路人脸风格转换结果，生成人脸合成图像并输出，完成两张原始人脸图像的合成。

示例性的，基于上述生成模型，在进行人脸图像合成时，通过将对应父母的两张人脸图像分别输入第一编码器和第二编码器。第一编码器和第二编码器按照设定的权重提取父母人脸图像的肤色信息和人脸特征信息，转换成多个第一编码向量和第二编码向量。进而通过解码器人脸图像转换合成得到人脸合成图像，即对应孩子的人脸图像。

上述，通过将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，由生成器的第一编码器和第二编码器按照设定的权重提取肤色信息和人脸特征信息并转换为多个编码向量，由生成器的解码器基于多路仿射变换模块和风格迁移模块对编码向量进行人脸图像转换合成，并引入随机噪声生成对应第一原始人脸图像和第二原始人脸图像的人脸合成图像。采用上述技术手段，通过分别设定不同权重提取提取肤色信息和人脸特征信息，可以提升人脸图像合成的真实性，优化人脸图像合成效果，并提升图像合成质量。此外，通过引入随机噪声，可以进一步提升人脸图像合成的真实性。

实施例二：

在上述实施例的基础上，图8为本申请实施例二提供的一种人脸图像合成系统的结构示意图。参考图8，本实施例提供的人脸图像合成系统具体包括：输入模块21、转换模块22和合成模块23。

其中，输入模块21用于将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

转换模块22用于通过所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；通过所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重；

合成模块23用于通过所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。

本申请实施例二提供的人脸图像合成系统可以用于执行上述实施例一提供的人脸图像合成方法，具备相应的功能和有益效果。

实施例三：

本申请实施例三提供了一种电子设备，参照图9，该电子设备包括：处理器31、存储器32、通信模块33、输入装置34及输出装置35。存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的人脸图像合成方法对应的程序指令/模块(例如，人脸图像合成系统的输入模块、转换模块和合成模块)。通信模块33用于进行数据传输。处理器31通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的人脸图像合成方法。输入装置34可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。上述提供的电子设备可用于执行上述实施例一提供的人脸图像合成方法，具备相应的功能和有益效果。

实施例四：

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述一种人脸图像合成方法，存储介质可以是任何的各种类型的存储器设备或存储设备。当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的人脸图像合成方法，还可以执行本申请任意实施例所提供的人脸图像合成方法中的相关操作。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

一种人脸图像合成方法，其特征在于，包括：

将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重；

所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。
根据权利要求1所述的人脸图像合成方法，其特征在于，所述生成模型的训练流程包括：

以两个训练样本图像作为模型输入，以所述训练样本图像的人脸合成图像作为模型输出训练所述生成器；

使用所述生成模型的判别器验证所述训练样本图像的人脸合成图像，并根据所述生成模型的损失函数调整所述生成器的人脸属性合成参数，直至所述损失函数收敛。
根据权利要求2所述的人脸图像合成方法，其特征在于，所述损失函数对应所述第一编码器包括生成式对抗网络损失、人脸特征损失和编码向量距离损失；所述损失函数对应所述第二编码器包括生成式对抗网络损失、肤色损失和编码向量距离损失。
根据权利要求3所述的人脸图像合成方法，其特征在于，所述生成式对抗网络损失包括生成器损失和判别器损失。
根据权利要求3所述的人脸图像合成方法，其特征在于，所述人脸特征损失基于人脸识别网络确定。
根据权利要求1所述的人脸图像合成方法，其特征在于，所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像，包括：

将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子，将所述偏置因子和所述缩放因子输入对应的所述风格迁移模块；

所述风格迁移模块基于所述第一原始人脸图像或所述第二原始人脸图像的特征图、对应的所述偏置因子和所述缩放因子进行人脸风格转换计算，并引入随机噪声生成对应的人脸风格转换结果，并基于各个人脸风格转换结果得到人脸合成图像。
根据权利要求6所述的人脸图像合成方法，其特征在于，将所述第一编码向量或所述第二编码向量输入仿射变换模块生成对应的偏置因子和缩放因子，包括：

将所述第一编码向量或所述第二编码向量转换为输出向量，并将所述输出向量转换为对应的偏置因子和缩放因子。
一种人脸图像合成系统，其特征在于，包括：

输入模块，用于将第一原始人脸图像和第二原始人脸图像输入生成模型的生成器，所述生成器包括第一编码器、第二编码器和解码器；

转换模块，用于通过所述第一编码器基于第一设定权重提取所述第一原始人脸图像的肤色信息和人脸特征信息并转换为多个第一编码向量，将所述第一编码向量输入所述解码器；通过所述第二编码器基于第二设定权重提取所述第二原始人脸图像的肤色信息和人脸特征信息并转换为多个第二编码向量，将所述第二编码向量输入所述解码器；所述第一设定权重提取肤色信息的比重大于所述第二设定权重，所述第二设定权重提取人脸特征信息的比重大于所述第一设定权重；

合成模块，用于通过所述解码器基于多路仿射变换模块和风格迁移模块对所述第一编码向量和所述第二编码向量进行人脸图像转换合成，并引入随机噪声生成对应所述第一原始人脸图像和所述第二原始人脸图像的人脸合成图像。
一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的人脸图像合成方法。
一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的人脸图像合成方法。