WO2023040679A1

WO2023040679A1 - 人脸图片的融合方法、装置、设备及存储介质

Info

Publication number: WO2023040679A1
Application number: PCT/CN2022/116786
Authority: WO
Inventors: 陶洪; 李玉乐; 项伟
Original assignee: 百果园技术(新加坡)有限公司; 陶洪
Priority date: 2021-09-16
Filing date: 2022-09-02
Publication date: 2023-03-23
Also published as: CN113850168A

Abstract

一种人脸图片的融合方法、装置、设备及存储介质，属于机器学习领域。所述方法包括：获取源人脸图片和目标人脸图片(210)；获取源人脸图片的身份特征隐码，身份特征隐码用于表征源人脸图片中人物身份特征(220)；获取目标人脸图片的属性特征隐码，属性特征隐码用于表征目标人脸图片中人物属性特征(230)；基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片(240)。上述融合方法，在源人脸与目标人脸特征差异过大的情况下，也能生成真实的融合人脸图片。

Description

人脸图片的融合方法、装置、设备及存储介质

本申请要求于2021年09月16日提交的、申请号为202111089159.1、发明名称为“人脸图片的融合方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及机器学习技术领域，特别涉及一种人脸图片的融合方法、装置、设备及存储介质。

背景技术

人脸融合是指将两张人脸图片融合成一张人脸图片的过程，通过人脸融合过程获得的人脸同时具有两张图片中人脸的特征。现阶段，人脸融合技术在各类照片修图、视频剪辑等领域有广泛应用。

在相关技术中，采用三角剖分的方法对源人脸图片和目标人脸图片进行划分获得融合图片。首先，将源人脸图片与目标人脸图片中的人脸位置进行对齐；并分别在源人脸图片与目标人脸图片上提取能表示人物身份的特征点和定位点，通常选择人脸图片中五官轮廓上的点作为特征点，选择画面边缘和人脸轮廓线上的点作为定位点；将定位点分别与特征点连接，根据三角剖分算法获得若干个三角剖分区；对于源人脸图片上任意一个三角剖分区，在目标人脸图片上找到相应的三角剖分区，针对上述两个三角剖分区进行映射变换，得到融合三角剖分区，基于上述两个三角剖分区的像素值确定融合三角剖分区的像素值；基于所有融合三角剖分区生成融合人脸图片。

然而，在通过三角剖分方法进行人脸融合时，在源人脸与目标人脸特征差异较大的情况下，例如源人脸图片与目标人脸图片的人脸角度或人脸肤色或光照条件等方面差异较大时，基于三角剖分的人脸融合方法无法融合出自然和谐的人脸。

发明内容

本申请实施例提供了一种人脸图片的融合方法、装置、设备及存储介质。技术方案如下：

根据本申请实施例的一个方面，提供了一种人脸图片的融合方法，所述方法由计算机设备执行，所述方法包括：

获取源人脸图片和目标人脸图片；

获取所述源人脸图片的身份特征隐码，所述身份特征隐码用于表征所述源人脸图片中人物身份特征；

获取所述目标人脸图片的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片中人物属性特征；

基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片。

根据本申请实施例的一个方面，提供了一种人脸融合模型的训练方法，所述方法由计算机设备执行，所述人脸融合模型包括生成网络和判别网络，所述生成网络包括身份编码网络、属性编码网络和解码网络；所述方法包括：

获取人脸融合模型的训练样本，所述训练样本包括源人脸图片样本和目标人脸图片样本；

通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，所述身份特征隐码是用于表征所述源人脸图片样本中人物身份特征；

通过所述属性编码网络获取所述目标人脸图片样本的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片样本中人物属性特征；

通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本；

通过所述判别网络确定待判别样本是否由所述生成网络生成，所述待判别样本包括所述融合人脸图片样本；

基于所述判别网络的判别结果确定判别网络损失，以及基于所述判别网络损失对所述判别网络中的参数进行调整；

基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，以及基于所述生成网络损失对所述生成网络中的参数进行调整。

根据本申请实施例的一个方面，提供了一种人脸图片的融合装置，所述装置包括：

人脸图片获取模块，配置为获取源人脸图片和目标人脸图片；

身份特征获取模块，配置为获取所述源人脸图片的身份特征隐码，所述身份特征隐码用于表征所述源人脸图片中人物身份特征；

属性特征获取模块，配置为获取所述目标人脸图片的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片中人物属性特征；

融合图片生成模块，配置为基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片。

根据本申请实施例的一个方面，提供了一种人脸融合模型的训练装置，所述人脸融合模型包括生成网络和判别网络，所述生成网络包括身份编码网络、属性编码网络和解码网络；所述装置包括：

训练样本获取模块，配置为获取人脸融合模型的训练样本，所述训练样本包括源人脸图片样本和目标人脸图片样本；

身份特征获取模块，配置为通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，所述身份特征隐码是用于表征所述源人脸图片样本中人物身份特征；

属性特征获取模块，配置为通过所述属性编码网络获取所述目标人脸图片样本的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片样本中人物属性特征；

融合图片生成模块，配置为通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本；

人脸图片判别模块，配置为通过所述判别网络确定待判别样本是否由所述生成网络生成，所述待判别样本包括所述融合人脸图片样本；

第一参数调整模块，配置为基于所述判别网络的判别结果确定判别网络损失，以及基于所述判别网络损失对所述判别网络中的参数进行调整；

第二参数调整模块，配置为基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，以及基于所述生成网络损失对所述生成网络中的参数进行调整。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现上述人脸图片的融合方法，或实现上述人脸融合模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序用于被处理器执行，以实现上述人脸图片的融合方法，或实现上述人脸融合模型的训练方法。

根据本申请的一个方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行上述人脸图片的融合方法，或者上述人脸融合模型的训练方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过对源人脸图片的身份特征隐码进行提取，对目标人脸图片的属性特征隐码进行提取，根据身份特征隐码和属性特征隐码进行融合，获得融合人脸图片，提供了一种生成真实度高的融合人脸图片的方法，即使在源人脸图片与目标人脸图片之间人脸角度、肤色等特征差异过大的情况下，也能够生成清晰、逼真的融合人脸图片。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的人脸图片的融合方法的流程图；

图3本申请另一个实施例提供的人脸图片的融合方法的示意图；

图4是本申请一个实施例提供的人脸融合模型的训练方法的流程图；

图5是本申请一个实施例提供的人脸融合模型的训练方法的示意图；

图6是本申请一个实施例提供的人脸图片的融合装置的框图；

图7是本申请另一个实施例提供的人脸融合模型的训练装置的框图；

图8是本申请一个实施例提供的计算机设备的示意图。

具体实施方式

在介绍本申请技术方案之前，先对本申请涉及的一些背景技术知识进行介绍说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合，其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。

下面，对本申请中出现的一些名词进行介绍。

计算机视觉(Computer Vision，CV)是指计算机从一张图像或一系列图片中自动提取、分析和理解有用的信息。计算机视觉技术涵盖的领域包括场景重建、事件检测、视频跟踪、目标识别、三维姿态估计、运动估计和图像恢复等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术以及人脸融合等技术。

生成式对抗网络(Generative Adversarial Networks，GAN)由生成神经网络和判别神经网络组成，生成神经网络用于对输入数据进行处理，产生生成数据，判别神经网络用于判别真实数据和生成数据。在训练过程中，生成神经网络与判别神经网络相互对抗，生成神经网络根据生成网络损失函数，调节自身网络参数，使得产生的生成数据能够误导判别神经网络的判断结果。判别神经网络根据判别网络损失函数调节自身的网络参数，使得判别神经网络能够正确辨别出真实数据和生成数据。经过一定次数的训练后，生成神经网络产生的生成数据与真实数据接近。判别器无法辨别生成数据和真实数据。

下面对仿射变换进行介绍说明。

仿射变换(Affine Transformation，AF)是指在几何中，对一个向量空间进行一次线性变化并进行一次平移得到新的向量空间。

以二维向量空间为例，二维坐标(x,y)经过仿射变换得到二维坐标(u,v)的过程为：

U＝a ₁*x+b ₁*y+c ₁

V＝a ₂*x+b ₂*y+c ₂

通过仿射变换可以实现对二维图像的平移、缩放和旋转等操作。

仿射变化后能保持二维图像的平直行和平行性，平直性是指直线经过仿射变换后得到的依然是直线，圆弧经过仿射变换得到的依旧是圆弧；平行性是指直线间进行仿射变化后的相对位置关系不变，直线上的点经过仿射变换后的相对位置不发生变化。

下面对自适应归一化(Adaptive Instance Normalization，AdaIN)操作进行介绍说明。

AdaIN操作需要输入一个内容x和一个样式特征y，并根据以下格式将x的通道平均值和方差与y的平均值和方差匹配。

AdaIN(x,y)＝σ(y)(x-μ(x)/σ(x))+μ(y)

例如，存在一个特定风格纹路的样式特征，通过一个AdaIN操作层进行归一化处理后，具有这种纹路的样式特征在该层产生较高的平均激活值。通过AdaIN处理产生的输出在保持内容x空间结构的同时，对该样式特征具有很高的平均激活度。通过解码器能够将此样式特征转换到内容x的图像空间中，通过该纹路样式特征的方差可以将更细微的风格特征信息传递到AdaIN输出和最终输出的图像中。简而言之，AdaIN通过迁移特征统计量，即通道方向上的均值和方差，在特征空间中实现风格迁移。

请参考图1，其示出了本申请一个实施例提供的方案实施环境示意图。该方案实施环境可以实现称为一个人脸融合系统。该方案系统构架可以包括服务器10和至少一个终端设备20。

终端设备20可以是诸如手机、平板电脑、PC(Personal Computer，个人计算机)、智能电视、多媒体播放设备等电子设备。目标应用程序上携带了人脸融合模型，终端设备20上运行有目标应用程序，该目标应用程序可以是拍照应用程序、视频应用程序和社交应用程序等，目标应用程序的类型在此不进行限定。在一些实施例中，目标应用程序部署在终端设备20上，人脸图片的融合过程可以在终端设备上进行，终端设备获取源人脸图片和目标人脸图片，针对源人脸图片提取身份特征隐码，针对目标人脸图片提取属性特征隐码，并将身份特征隐码与属性特征隐码进行融合，生成融合人脸图片，完成人脸图片的融合过程。

服务器10是可以运行目标应用程序的后台服务器。服务器10可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。在另一些实施例中，人脸图片的融合过程也可以在服务器10上进行，终端设备20将获取到的源人脸图片和目标人脸图片上传给服务器10，服务器10针对源人脸图片提取身份特征隐码，针对目标人脸图片提取属性特征隐码，并将身份特征隐码与属性特征隐码进行融合，生成融合人脸图片，并将生成的融合图片发送给终端设备20，完成人脸图片的融合过程。

终端设备20和服务器10之间可以通过网络进行通信。

本申请实施例描述的系统架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案，并不构成对本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着方案实施环境的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图2，其示出了本申请一个实施例提供的人脸图片的融合方法的流程图，该方法各步骤的执行主体可以是图1所示方案实施环境中的终端设备20，也可以是服务器10。为了描述方便，下面以计算机设备作为执行主体，该方法可以包括如下几个步骤(210-240)中的至少一个步骤：

步骤210，获取源人脸图片和目标人脸图片。

源人脸图片是指需要按照某种样式进行改造的人脸图片，源人脸图片一般是用户提供的、真实的图片，例如用户通过手机、相机等工具拍摄的人物照片。目标人脸图片是指能为源人脸图片提供样式变化的人脸图片，目标人脸图片可以是由终端设备上的应用程序提供的人脸图片，也可以是用户上传的人脸图片。在本申请实施例中，对源人脸图片与目标人脸图片的获取方式不作限定。

步骤220，获取源人脸图片的身份特征隐码，身份特征隐码用于表征源人脸图片中人物身份特征。

身份特征隐码用于表征源人脸图片中人脸的五官的形状、五官之间的相对位置和脸型等特征，这些特征与人物身份有关。也即通常不同人脸具有不同的人脸的五官的形状、五官之间的相对位置和脸型特征。因此，从不同的源人脸图片中能获取到不同的身份特征隐码。在一些实施例中，身份特征隐码是通过身份编码网络对源人脸图片进行编码获取的。

步骤230，获取目标人脸图片的属性特征隐码，属性特征隐码用于表征目标人脸图片中人物属性特征。

目标人脸图片中的人物属性特征包括但不限于以下至少一种：目标人脸图片中人脸妆容、人脸肤色、人物发型、配饰和头部姿势等特征。目标人脸图片的头部姿势特征是指三维空间下目标人脸的偏转角度在二维图片中的映射，目标人脸是指目标人脸图片中的人脸，目标人脸的头部姿势包括俯仰角(pitch)、偏航角(yaw)和旋转角(roll)，例如，在正视镜头的情况下，目标人脸图片的头部姿势的俯仰角、偏航角和旋转角均为0°。在一些实施例中，属性特征隐码是通过属性编码网络对目标人脸图片进行编码获取的。

在一些实施例中，获取源人脸图片的身份特征隐码和获取目标人脸图片的属性特征隐码在两个不同的编码网络中进行，因此获取源人脸图片的身份特征隐码和获取目标人脸图片的属性特征隐码可以同时进行，也可以依次先后进行，本申请对此不作限定。

步骤240，基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片。

融合人脸图片是指兼具源人脸图片的身份特征和目标人脸图片的属性特征的图片，融合人脸图片中的人脸在视觉效果上更接近源人脸图片，在人物妆容姿态上更接近目标人脸图片。人脸融合模型中包括身份编码网络和属性编码网络。在一些实施例中，人脸融合模型基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片。

综上所述，本申请实施例提供的技术方案，通过获取源人脸图片和目标人脸图片；基于源人脸图片获取身份特征隐码并基于目标人脸图片获取属性特征隐码；对身份特征隐码和属性特征隐码进行融合，得到自然、逼真的融合人脸图片。

此外，相关技术中，通过将源人脸图片和目标人脸图片对应的三角剖分区进行融合获得融合人脸图片，在源人脸图片和目标人脸图片特征差异较大的情况下，融合人脸图片中的某些特征受到源人脸图片和目标人脸图片的共同影响，导致在融合人脸图片中相应的特征不符合实际，使得融合图片中的人脸真实性较差。本实施例通过源人脸图片获取身份特征隐码，通过目标人脸图片获得属性特征隐码，在融合过程中使用身份特征隐码控制融合人脸图片中生成人脸的身份特征，通过属性特征隐码控制融合人脸图片中生成人脸的属性特征，避免了源人脸图片中人脸的特征和目标人脸图片中人脸的特征存在较大差异时，生成的融合人脸图片不真实的情况。

下面，对通过人脸融合模型生成融合人脸图片的方法进行介绍说明。

请参考图3，其示出本申请另一个实施例提供的人脸图片的融合方法的示意图。

在一些实施例中，融合人脸图片由人脸融合模型生成，人脸融合模型包括身份编码网络、属性编码网络和解码网络；其中，身份编码网络用于获取源人脸图片的身份特征隐码；属性编码网络用于获取目标人脸图片的属性特征隐码；解码网络用于基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片。

在一些实施例中，身份编码网络和属性编码网络都具有N个串联的编码层，身份编码网络和属性编码网络对应编码层的结构和参数对应相同。通过身份编码网络获取的身份特征隐码的大小和通过属性编码网络获得的属性特征隐码的大小相同。在身份编码网络和属性编码网络中第n层的输入是第n-1层的输出，n为小于等于N的正整数。在一些实施例中，身份编码网络和属性编码网络的任意一个编码层结构都采用了ResNet Block(残差神经网络块)，在任意一个编码层中，对于上一编码层输入的中间隐码，首先通过1*1的卷积核进行卷积，并使用LReLu(Leaky Rectified Linear unit，弱线性整合单元)进行激活，其次，通过一个3*3的卷积核进行卷积，并使用LReLu进行激活，最后，增大像素值，通过另一个3*3的卷积核进行卷积，并使用LReLu进行激活，将得到的中间隐码传输给下一编码层。

属性编码网络对目标人脸图片进行编码，通过全连接层输出属性特征隐码。

通过采用具有N个编码层的身份编码网络对源人脸图片进行编码以及采用具有N个编码层的属性编码网络对目标人脸图片进行编码，实现了在编码过程中对身份特征和属性特征进行解耦，有效地避免了特征纠缠。

在一些实施例中，身份编码网络包括N个串联的编码层，N为大于1的整数；获取源人脸图片的身份特征隐码，包括：通过身份编码网络中的第1个至第n1个编码层，对源人脸图片进行编码处理，得到浅层隐码；其中，浅层隐码用于表征源人脸图片的面部外观特征；通过身份编码网络中的第n1个至第n2个编码层，对浅层隐码进行编码处理，得到中层隐码；其中，中层隐码用于表征源人脸图片的精细面部特征；通过身份编码网络中的第n2个至第N个编码层，对中层隐码进行编码处理，得到深层隐码；其中，深层隐码用于表征源人脸图片的人脸颜色特征和人脸微观特征；其中，身份特征隐码包括：浅层隐码、中层隐码和深层隐码，n1、n2为小于N的正整数。

身份编码网络对源人脸图片进行多层次获取，得到了具有不同感受野的身份特征隐码。其中，浅层隐码是在分辨率低并且经过较少编码层编码处理后获得的身份特征隐码，因此浅层隐码的感受野较小，浅层隐码中的像素值映射在源人脸图片上的像素区域较小，浅层隐码中的特征较粗糙，因此浅层隐码表征源人脸图片的面部外观特征，例如源人脸图片的脸部轮廓、发型和姿势等。随着编码层数增加、分辨率增大，中层隐码通过多次卷积使得感受野增大，中层隐码中的像素值映射在源人脸图片中的像素区域增大，中层隐码中表征的特征愈加细致，因此中层隐码表征源人脸图片的更精细的面部特征，例如，源人脸图片中眼睛的开合、五官的细节等。随着编码层数继续增加，分辨率进一步增加，深层隐码中的像素值映射在原人脸图片中的像素区域达到最大，深层隐码用于表征源人脸图片中更精细的身份特征，例如源人脸图片中人脸的肤色，瞳孔颜色等。

身份编码网络输出的浅层隐码大小为a1，中层隐码的大小为a2，深层隐码的大小为a3，在一些实施例中，a1＝a2＝a3。在一些实施例中，a1，a2，a3大小不相等，人脸融合模型根据身份编码网络的特性划分浅层隐码、中层隐码和深层隐码的大小，例如由身份编码网络的结构特性决定，浅层隐码中特征纠缠较小，则增大浅层隐码的大小，缩减中层隐码的大小和深层隐码的大小。

在一些实施例中，身份编码网络具有6个编码层，n1＝2，n2＝4，则浅层隐码由第2个编码层输出，中层隐码由第4个编码层输出，深层隐码由第6个编码层输出。身份特征隐码由浅层隐码、中层隐码和深层隐码组成，在一些实施例中，身份编码网络获取的浅层隐码大小为8*512，中层隐码大小为6*512，深层隐码的大小为2*512，身份特征隐码的大小为16(8+6+2)*512。

在一些实施例中，解码网络包括M个解码层，M为大于1的整数；基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片，包括：对身份特征隐码进行仿射变换，生成M组控制向量；通过M个解码层对属性特征隐码和M组控制向量进行解码处理，生成融合人脸图片；其中，第1个解码层的输入包括属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括融合人脸图片，i为小于M的正整数。

对身份特征隐码进行仿射变换后，身份特征隐码中特征之间的相对位置关系不发生改变，仿射变换能过滤掉特征出现的位置而保留特征之间的相对关系。控制向量用于控制融合人脸图片的样式。

在一些实施例中，对身份特征隐码进行仿射变换，生成M组控制向量，包括：将身份特征隐码划分为M组身份特征向量；对M组身份特征向量分别进行仿射变换，生成M组控制向量；其中，每组控制向量包括至少两个控制向量，不同的控制向量用于表征不同维度的身份特征。

在一些实施例中，通过将身份特征隐码中相邻两个特征或分为一组，得到M组控制向量，例如，身份特征隐码的大小为16*512，将相邻的两列身份特征(1*512)划分成一个控制向量组，不同维度的身份特征能够表示源人脸图片不同类别的身份特征，在一些实施例中不同维度的身份特征具有不同的感受野，因此不同维度的身份特征表征不同粒度的特征。在一些实施例中，不同维度的身份特征的感受野相同，此时，不同维度的身份特征表征源人脸图片不同类型的身份特征，例如某个控制向量组包括表征源人脸图片眼睛形状的特征和表征源人脸图片鼻子形状的特征。

在一些实施例中，通过M个解码层对属性特征隐码和M组控制向量进行解码处理，生成融合人脸图片包括，在M个解码层中的第i个解码层中，接收第i-1层的输出，和第i层对应的控制向量组，控制向量组中包括第一控制向量和第二控制向量，解码层先将第i-1层的输入向量与第一控制向量进行自适应归一化操作得到中间向量，通过大小为3*3的卷积核对中间向量进行卷积，将卷积后的向量与第二控制向量进行自适应归一化操作，将自适应归一化操作后得到的向量输入到第i+1层，完成一个解码层的解码操作。

在一些实施例中，解码网络包括8个解码层，解码网络将属性特征编码作为第1个解码层的输入，重复8次上述单个解码层进行的解码步骤，在第8个解码层中输出像素值为512*512融合人脸图片。

通过多个编码层进行编码可以避免特征隐码之间的相互纠缠，通过解码网络对属性特征隐码和控制向量组进行解码能够通过控制向量控制融合人脸图片的身份特征，生成真实自然的融合人脸图片。

下面，通过实施例对人脸融合模型的训练流程进行介绍说明，有关该人脸融合模型的使用过程中涉及的内容和训练过程中涉及的内容是相互对应的，两者互通，如在一侧未作详细说明的地方，可以参考另一侧的描述说明。

请参考图4，其示出了本申请一个实施例提供的人脸融合模型的训练方法的流程图，本方法各步骤的执行主体可以服务器10，也可以是一台计算机，为了描述方便，下面以计算机设备作为执行主体，该方法可以包括如下几个步骤(410-470)中的至少一个步骤：

步骤410，获取人脸融合模型的训练样本，训练样本包括源人脸图片样本和目标人脸图片样本。

人脸融合模型包括生成网络和判别网络，生成网络包括身份编码网络、属性编码网络和解码网络。

人脸融合模型是一个生成式对抗网络模型，在一些实施例中，人脸融合模型的输入包括源人脸图片样本和目标人脸图片样本。每一个训练样本包括两张图片样本，一张作为源人脸图片样本，另一张作为目标人脸图片样本。使用上述训练样本对人脸融合模型进行训练，可以训练得到能够生成真实融合人脸图片的人脸融合模型。一个训练样本组中的两个图片样本可以是不同的人物，也可以具有不同的属性特征。使用多个训练样本组对人脸融合模型进行训练，使得经过训练的人脸融合模型在输入的源人脸图片样本与目标人脸图片样本差异较大的情况下，依旧能生成真实自然的融合人脸图片。在一些实施例中，训练样本来自高清人脸数据集(Flickr Faces High Quality，FFHQ)，该数据集中包括不同性别，人脸角度，表情，妆容的人脸图片，将上述高清人脸数据集分成源人脸图片样本组和目标人脸图片样本组，每一个训练样本组在上述源人脸图片样本组和目标人脸图片样本组中分别选择一张图片样本作为该训练样本组的源人脸图片样本和目标人脸图片样本。

步骤420，通过身份编码网络获取源人脸图片样本的身份特征隐码，身份特征隐码是用于表征源人脸图片样本中人物身份特征。

在训练过程中，不同的源人脸图片样本之间人脸的角度、身份特征之间存在差异，通过训练，身份编码网络能将上述特征信息进行解耦，使得通过身份编码网络编码获得的源人脸图片样本身份特征的隐码的特征纠缠少。

步骤430，通过属性编码网络获取目标人脸图片样本的属性特征隐码，属性特征隐码用于表征目标人脸图片样本中人物属性特征。

在训练过程中，不同的目标人脸图片样本之间人脸的姿态，妆容，环境因素之间存在差异，通过训练，属性编码网络能将上述特征信息进行解耦，使得通过属性编码网络编码获得的目标人脸图片样本属性特征的隐码的特征纠缠少。

步骤440，通过解码网络基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片样本。

解码网络是经过预训练的网络，在人脸融合模型的训练过程中，解码网络不参与训练，解码网络仅仅用于将身份特征隐码和属性特征隐码进行解码，生成高清逼真的人脸融合图片样本。

在一些实施例中，解码网络采用StyleGAN网络结构中的解码网络对身份特征隐码和属性特征隐码进行解码。

步骤450，通过判别网络确定待判别样本是否由生成网络生成，待判别样本包括融合人脸图片样本。

判别网络采用逐层增长的方式判别待判别图像是否为真实图片。判别网络从像素值为4*4的RGB图像开始渐进式增长图片的像素值，将待判别图像像素扩大至8*8，6*16，32*32直至达到待判别图像大小为止。

在一些实施例中，判别网络对待判别图像进行判断后，输出待判别图像是真实图片或生成网络生成图片的预测值。

步骤460，基于判别网络的判别结果确定判别网络损失，以及基于判别网络损失对判别网络中的参数进行调整。

判别网络损失用于衡量判别网络性能。在一些实施例中，基于该判别网络损失，采用梯度下降算法对判别网络中的参数进行优化。

步骤470，基于融合人脸图片样本、源人脸图片样本、目标人脸图片样本和判别网络的判别结果确定生成网络损失，以及基于生成网络损失对生成网络中的参数进行调整。

由于生成网络中的解码网络不参与训练，因此生成网络损失用于衡量身份编码网络和属性编码网络的性能。在一些实施例中，基于该生成网络损失，采用梯度下降算法对身份编码网络中的参数和属性编码网络中的参数分别进行优化。

综上所述，通过生成网络获取训练样本组，并通过损失函数调节人脸融合模型的参数，通过生成网络与对抗网络进行对抗训练，使得训练后的人脸融合模型具有较好的鲁棒性，能够适应特征差异较大的源人脸图片样本和目标人脸图片样本，融合出真实自然的融合人脸图片样本。

请参考图5，其示出了本申请一个实施例提供的人脸融合模型的训练方法的示意图。

在一些实施例中，身份编码网络包括N个串联的编码层，N为大于1的整数；通过身份编码网络获取源人脸图片样本的身份特征隐码，包括：通过身份编码网络中的第1个至第n1个编码层，对源人脸图片样本进行编码处理，得到浅层隐码；其中，浅层隐码用于表征源人脸图片样本的面部外观特征；通过身份编码网络中的第n1个至第n2个编码层，对浅层隐码进行编码处理，得到中层隐码；其中，中层隐码用于表征源人脸图片样本的精细面部特征；通过身份编码网络中的第n2个至第N个编码层，对中层隐码进行编码处理，得到深层隐码；其中，深层隐码用于表征源人脸图片样本的人脸颜色特征和人脸微观特征；其中，身份特征隐码包括：浅层隐码、中层隐码和深层隐码，n1、n2为小于N的正整数。

关于身份编码网络的编码过程请参考上一个实施例，在此不进行赘述。

在一些实施例中，解码网络包括M个解码层，M为大于1的整数；通过解码网络基于身份特征隐码和属性特征隐码进行融合，生成融合人脸图片样本，包括：对身份特征隐码进行仿射变换，生成M组控制向量；通过M个解码层对属性特征隐码和M组控制向量进行解码处理，生成融合人脸图片样本；其中，第1个解码层的输入包括属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括融合人脸图片样本，i为小于M的正整数。

关于解码网络的解码过程请参考上一个实施例，在此不进行赘述。

在一些实施例中，基于判别结果确定判别网络损失，该判别损失是判别网络的对抗损失，该判别损失可以通过如下公式计算得到：

L _d＝log(exp(D(G(x _s)))+1)+log(exp(D(x))+1)

其中，x表示真实图片样本，G(x _s)表示生成网络生成的融合人脸图片样本，D(G(x _s))表示判别网络对融合人脸图片样本的判别结果，D(x)表示判别网络对真实人脸图片样本的判别结果，在一些实施中，判别网络的判别结果包括0和1，判别结果为0表示判别网络认为待判别图片是生成网络生成的(fake)，判别结果为1表示判别网络认为待判别图片是真实的(real)。

在一些实施例中，基于融合人脸图片样本、源人脸图片样本、目标人脸图片样本和判别网络的判别结果确定生成网络损失，包括：基于目标人脸图片样本和融合人脸图片样本确定感知相似度损失，感知相似度损失用于表征目标人脸图片样本和融合人脸图片样本之间的图片风格差异；基于源人脸图片样本和融合人脸图片样本确定多尺度身份特征损失，多尺度身份特征损失用于表征源人脸图片样本和融合人脸图片样本之间的身份特征差异；基于目标人脸图片样本和融合人脸图片样本确定人脸姿态损失，人脸姿态损失用于描述目标人脸图片样本与融合人脸图片样本之间的人脸姿态差异；基于判别结果确定生成网络对抗损失；根据感知相似度损失、多尺度身份特征损失、人脸姿态损失和网络对抗损失，确定生成网络损失。

在一些实施例中，基于目标人脸图片样本和融合人脸图片样本确定感知相似度损失，包括：通过视觉特征提取网络，分别提取目标人脸图片样本的视觉特征和融合人脸图片样本的视觉特征；计算目标人脸图片样本的视觉特征和融合人脸图片样本的视觉特征之间的相似度，得到感知相似度损失。

该感知相似度损失可以通过如下公式计算得到：

L _LPIPS＝||F(x _t)-F(y _s2t)|| ₂

其中，x _t表示目标人脸图片样本，y _s2t表示融合人脸图片样本，F(x _t)是目标人脸图片样本通过视觉特征提取网络提取得到的目标人脸图像样本的视觉特征，F(y _s2t)是融合人脸图片样本通过视觉特征提取网络提取得到的融合人脸图像样本的视觉特征。

在一些实施例中，基于源人脸图片样本和融合人脸图片样本确定多尺度身份特征损失，包括：通过身份特征提取网络，分别提取源人脸图片样本的身份特征隐码和融合人脸图片样本的身份特征隐码；计算源人脸图片样本的身份特征隐码和融合人脸图片样本的身份特征隐码之间的相似度，得到多尺度身份特征损失。

该多尺度身份特征损失可以通过如下公式计算得到：

L _ID＝Σ(1-cos(N _i(x _s),N _i(y _s2t)))

其中，x _s表示源人脸图片样本，y _s2t表示融合人脸图片样本，N(x _s)是目标人脸图片样本通过身份特征提取网络提取得到的源人脸图像样本的身份特征，N(y _s2t)是融合人脸图片样本通过身份特征提取网络提取得到的融合人脸图像样本的身份特征。在一些实施例中，使用VGG(Visual Geometry Group，超分辨率测试序列)face网络作为身份特征提取网络，分别提取目标人脸图片样本和融合人脸图片样本的身份特征。

在一些实施例中，基于目标人脸图片样本和融合人脸图片样本确定人脸姿态损失，包括：所述基于所述目标人脸图片样本和所述融合人脸图片样本确定人脸姿态损失，包括：

通过人脸姿态预测网络，分别提取目标人脸图片样本的人脸姿态欧拉角交和融合人脸图片样本的人脸姿态欧拉角；

计算通目标人脸图片样本的人脸姿态欧拉角和融合人脸图片样本的人脸姿态欧拉角之间的相似度，得到人脸姿态损失。

该人脸姿态损失可以通过如下公式计算得到：

L _POSE＝||E(x _t)–E(y _s2t)|| ₂

其中x _t表示目标人脸图片样本，y _s2t表示融合人脸图片样本，其E(x _t)是目标人脸图片样本通过人脸姿态预测网络提取得到的目标人脸图像样本的人脸姿态欧拉角，E(y _s2t)是融合人脸图片样本通过人脸姿态预测网络提取得到的融合人脸图像样本的人脸姿态欧拉角。

在一些实施例中，使用MTCNN(Multi-task Cascaded Convolutional Networks，多任务卷积神经网络)网络作为人脸姿态预测网络，分别提取目标人脸图片样本和融合人脸图片样本的人脸姿态欧拉角。

在一些实施例中，基于判别结果确定生成网络的对抗损失可以通过如下计算公式得到：

L _g＝-log(exp(D(G(x _s)))+1)

其中，G(x _s)表示生成网络生成的融合人脸图片样本，D(G(x _s))表示判别网络对融合人脸图片样本的判别结果。

在一些实施例中，人脸融合模型的训练过程如下：

1.初始化身份编码网络、属性编码网络和判别网络中的参数；

2.从训练样本集中抽取m组训练样本组，每一组训练样本中包含一个源人脸图片样本和一个目标人脸图片样本；

3.针对每一个训练样本组，分别通过身份编码网络获取源人脸图片样本的身份特征编码，通过属性编码网络获取目人脸图片的属性特征编码，通过解码网络对上述身份特征编码网络进行解码，生成融合人脸图片样本；

4.在生成m个融合人脸图片样本后，固定生成网络，在训练样本集中抽取m个真实图片样本；

5.通过判别网络分别对m个融合人脸图片样本和m个真实图片样本进行判别，并输出判别结果；

6.根据判别网络的判别结果采用逻辑回归损失函数确定判别网络的损失函数，并采用梯度下降的方式优化判别网络中的参数；

7.通过融合人脸图片样本、源人脸图片样本、目标人脸图片样本和判别网络的判别结果确定生成损失函数，根据生成损失函数采用梯度下降的方法对生成网络中的参数进行优化，完成一组训练；

8.在一组训练结束时，通过以下公式计算人脸融合模型的总损失：

L _total＝W _LPIPS*L _LPIPIS+W _ID*L _ID+W _POSE*L _POSE+W _gan*(L _g+L _d)

其中，W _LPIPS、W _ID、W _POSE和W _gan为对应损失在总损失中所占的权重，在一些实施例中，W _LPIPS、W _ID、W _POSE和W _gan的取值分别为1、5、5、5。

9.在人脸融合模型的总损失达到最小的情况下，停止训练。

在实际训练过程中，针对一个训练样本集进行16阶段(epoch)可以获得能生成逼真人脸融合图片的人脸融合模型模型。

通过引入感知相似度损失、多尺度身份特征损失、生成对抗损失、人脸姿态损失等多方面的损失，使得训练过程中，人脸融合模型能更好的调整参数。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图6，其示出了本申请一个实施例提供的人脸图片的融合装置的框图。该装置具有实现上述人脸图片的融合方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的电子设备，也可以设置在电子设备中。该装置600可以包括：人脸图片获取模块610、身份特征获取模块620、属性特征获取模块630、融合图片生成模块640。

人脸图片获取模块610，配置为获取源人脸图片和目标人脸图片。

身份特征获取模块620，配置为获取所述源人脸图片的身份特征隐码，所述身份特征隐码用于表征所述源人脸图片中人物身份特征。

属性特征获取模块630，配置为获取所述目标人脸图片的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片中人物属性特征。

融合图片生成模块640，配置为基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片。

在一些实施例中，所述融合人脸图片由人脸融合模型生成，所述人脸融合模型包括身份编码网络、属性编码网络和解码网络；其中，所述身份编码网络用于获取所述源人脸图片的身份特征隐码；所述属性编码网络用于获取所述目标人脸图片的属性特征隐码；所述解码网络用于基于所述身份特征隐码和所述属性特征隐码进行融合，生成所述融合人脸图片。

在一些实施例中，所述身份编码网络包括N个串联的编码层，N为大于1的整数；所述身份特征获取模块620，配置为：通过所述身份编码网络中的第1个至第n1个编码层，对所述源人脸图片进行编码处理，得到浅层隐码；其中，所述浅层隐码用于表征所述源人脸图片的面部外观特征；通过所述身份编码网络中的第n1个至第n2个编码层，对所述浅层隐码进行编码处理，得到中层隐码；其中，所述中层隐码用于表征所述源人脸图片的精细面部特征；通过所述身份编码网络中的第n2个至第N个编码层，对所述中层隐码进行编码处理，得到深层隐码；其中，所述深层隐码用于表征所述源人脸图片的人脸颜色特征和人脸微观特征；其中，所述身份特征隐码包括：所述浅层隐码、所述中层隐码和所述深层隐码，n1、n2为小于N的正整数。

在一些实施例中，所述融合图片生成模块640包括：控制向量生成单元，配置为对所述身份特征隐码进行仿射变换，生成M组控制向量；融合单元，配置为通过所述M个解码层对所述属性特征隐码和所述M组控制向量进行解码处理，生成所述融合人脸图片；其中，第1个解码层的输入包括所述属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括所述融合人脸图片，i为小于M的正整数。

在一些实施例中，所述融合单元，配置为将所述身份特征隐码划分为M组身份特征向量；对所述M组身份特征向量分别进行仿射变换，生成所述M组控制向量；其中，每组所述控制向量包括至少两个控制向量，不同的控制向量用于表征不同维度的身份特征。

请参考图7，其示出了本申请一个实施例提供的人脸融合模型的训练装置的框图。该装置具有实现上述人脸融合模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的分析设备，也可以设置在分析设备中。该装置700可以包括：训练样本获取模块710、身份特征获取模块720、属性特征获取模块730、融合图片生成模块740、人脸图片判别模块750、第一参数调整模块760和第二参数调整模块770。

训练样本获取模块710，配置为获取人脸融合模型的训练样本，所述训练样本包括源人脸图片样本和目标人脸图片样本。

身份特征获取模块720，配置为通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，所述身份特征隐码是用于表征所述源人脸图片样本中人物身份特征。

属性特征获取模块730，配置为通过所述属性编码网络获取所述目标人脸图片样本的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片样本中人物属性特征。

融合图片生成模块740，配置为通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本。

人脸图片判别模块750，配置为通过所述判别网络确定待判别样本是否由所述生成网络生成，所述待判别样本包括所述融合人脸图片样本。

第一参数调整模块760，配置为基于所述判别网络的判别结果确定判别网络损失，以及基于所述判别网络损失对所述判别网络中的参数进行调整。

第二参数调整模块770，配置为基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，以及基于所述生成网络损失对所述生成网络中的参数进行调整。

在一些实施例中，所述解码网络包括M个解码层，M为大于1的整数，所述身份特征获取模块720，配置为：通过所述身份编码网络中的第1个至第n1个编码层，对所述源人脸图片样本进行编码处理，得到浅层隐码；其中，所述浅层隐码用于表征所述源人脸图片样本的面部外观特征；通过所述身份编码网络中的第n1个至第n2个编码层，对所述浅层隐码进行编码处理，得到中层隐码；其中，所述中层隐码用于表征所述源人脸图片样本的精细面部特征；通过所述身份编码网络中的第n2个至第N个编码层，对所述中层隐码进行编码处理，得到深层隐码；其中，所述深层隐码用于表征所述源人脸图片样本的人脸颜色特征和人脸微观特征；其中，所述身份特征隐码包括：所述浅层隐码、所述中层隐码和所述深层隐码，n1、n2为小于N的正整数。

在一些实施例中，所述解码网络包括M个解码层，M为大于1的整数，所述样本融合图片生成模块740，配置为：对所述身份特征隐码进行仿射变换，生成M组控制向量；通过所述M个解码层对所述属性特征隐码和所述M组控制向量进行解码处理，生成所述融合人脸图片样本；其中，第1个解码层的输入包括所述属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括所述融合人脸图片样本，i为小于M的正整数。

在一些实施例中，所述第二参数调整模块770，包括：第一损失函数单元，配置为基于所述目标人脸图片样本和所述融合人脸图片样本确定感知相似度损失，所述感知相似度损失用于表征所述目标人脸图片样本和所述融合人脸图片样本之间的图片风格差异；第二损失函数单元，配置为基于所述源人脸图片样本和所述融合人脸图片样本确定所述多尺度身份特征损失，所述多尺度身份特征损失用于表征所述源人脸图片样本和所述融合人脸图片样本之间的身份特征差异；第三损失函数单元，配置为基于所述目标人脸图片样本和所述融合人脸图片样本确定人脸姿态损失，所述人脸姿态损失用于基于所述判别结果确定生成网络对抗损失；根据所述感知相似度损失、所述多尺度身份特征损失、所述人脸姿态损失和所述网络对抗损失，确定所述生成网络损失。

在一些实施例中，所述第一损失函数单元，配置为通过视觉特征提取网络，分别提取所述目标人脸图片样本的视觉特征和所述融合人脸图片样本的视觉特征；计算所述目标人脸图片样本的视觉特征和所述融合人脸图片样本的视觉特征之间的相似度，得到所述感知相似度损失。

在一些实施例中，所述第二损失函数单元，配置为通过所述身份特征提取网络，分别提取所述源人脸图片样本的身份特征隐码和所述融合人脸图片样本的身份特征隐码；计算所述源人脸图片样本的身份特征隐码和所述融合人脸图片样本的身份特征隐码之间的相似度，得到所述多尺度身份特征损失。

在一些实施例中，所述第三损失函数单元，配置为通过人脸姿态预测网络，分别提取所述目标人脸图片样本的人脸姿态欧拉角和所述融合人脸图片样本的人脸姿态欧拉角；计算通所述目标人脸图片样本的人脸姿态欧拉角和所述融合人脸图片样本的人脸姿态欧拉角之间的相似度，得到所述人脸姿态损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图8，其示出了本申请一个实施例提供的计算机设备800的结构框图。该计算机设备800可以用于实施上述融合人脸的生成方法；也可以用于实施上述人脸融合模型的训练方法。

通常，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序。所述计算机程序经配置以由一个或者一个以上处理器执行，以实现上述人脸图片的融合方法，或者实现上述人脸融合模型的训练方法。计算机设备可以称为图像处理设备，用于实现人脸图片融合方法。计算机设备也可以称为模型训练设备，用于实现人脸融合模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被计算机设备的处理器执行时实现上述人脸图片的融合方法，或者实现上述人脸融合模型的训练方法。

可选地，上述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等。

在示例性实施例中，还提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行如上述人脸图片的融合方法，或者上述人脸融合模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

Claims

一种人脸图片的融合方法，所述方法由计算机设备执行，所述方法包括：

获取源人脸图片和目标人脸图片；

获取所述源人脸图片的身份特征隐码，所述身份特征隐码用于表征所述源人脸图片中人物身份特征；

获取所述目标人脸图片的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片中人物属性特征；

基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片。
根据权利要求1所述的方法，其中，所述融合人脸图片由人脸融合模型生成，所述人脸融合模型包括身份编码网络、属性编码网络和解码网络；其中，

所述身份编码网络用于获取所述源人脸图片的身份特征隐码；

所述属性编码网络用于获取所述目标人脸图片的属性特征隐码；

所述解码网络用于基于所述身份特征隐码和所述属性特征隐码进行融合，生成所述融合人脸图片。
根据权利要求2所述的方法，其中，所述身份编码网络包括N个串联的编码层，N为大于1的整数；所述获取所述源人脸图片的身份特征隐码，包括：

通过所述身份编码网络中的第1个至第n1个编码层，对所述源人脸图片进行编码处理，得到浅层隐码；其中，所述浅层隐码用于表征所述源人脸图片的面部外观特征；

通过所述身份编码网络中的第n1个至第n2个编码层，对所述浅层隐码进行编码处理，得到中层隐码；其中，所述中层隐码用于表征所述源人脸图片的精细面部特征；

通过所述身份编码网络中的第n2个至第N个编码层，对所述中层隐码进行编码处理，得到深层隐码；其中，所述深层隐码用于表征所述源人脸图片的人脸颜色特征和人脸微观特征；

其中，所述身份特征隐码包括：所述浅层隐码、所述中层隐码和所述深层隐码，n1、n2为小于N的正整数。
根据权利要求2所述的方法，其中，所述解码网络包括M个解码层，M为大于1的整数；所述基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片，包括：

对所述身份特征隐码进行仿射变换，生成M组控制向量；

通过所述M个解码层对所述属性特征隐码和所述M组控制向量进行解码处理，生成所述融合人脸图片；

其中，第1个解码层的输入包括所述属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括所述融合人脸图片，i为小于M的正整数。
根据权利要求4所述的方法，其中，所述对所述身份特征隐码进行仿射变换，生成M组控制向量，包括：

将所述身份特征隐码划分为M组身份特征向量；

对所述M组身份特征向量分别进行仿射变换，生成所述M组控制向量；

其中，每组所述控制向量包括至少两个控制向量，不同的控制向量用于表征不同维度的身份特征。
一种人脸融合模型的训练方法，所述方法由计算机设备执行，所述人脸融合模型包括生成网络和判别网络，所述生成网络包括身份编码网络、属性编码网络和解码网络；所述方法包括：

获取人脸融合模型的训练样本，所述训练样本包括源人脸图片样本和目标人脸图片样本；

通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，所述身份特征隐码是用于表征所述源人脸图片样本中人物身份特征；

通过所述属性编码网络获取所述目标人脸图片样本的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片样本中人物属性特征；

通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本；

通过所述判别网络确定待判别样本是否由所述生成网络生成，所述待判别样本包括所述融合人脸图片样本；

基于所述判别网络的判别结果确定判别网络损失，以及基于所述判别网络损失对所述判别网络中的参数进行调整；

基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，以及基于所述生成网络损失对所述生成网络中的参数进行调整。
根据权利要求6所述的方法，其中，所述身份编码网络包括N个串联的编码层，N为大于1的整数；所述通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，包括：

通过所述身份编码网络中的第1个至第n1个编码层，对所述源人脸图片样本进行编码处理，得到浅层隐码；其中，所述浅层隐码用于表征所述源人脸图片样本的面部外观特征；

通过所述身份编码网络中的第n1个至第n2个编码层，对所述浅层隐码进行编码处理，得到中层隐码；其中，所述中层隐码用于表征所述源人脸图片样本的精细面部特征；

通过所述身份编码网络中的第n2个至第N个编码层，对所述中层隐码进行编码处理，得到深层隐码；其中，所述深层隐码用于表征所述源人脸图片样本的人脸颜色特征和人脸微观特征；

其中，所述身份特征隐码包括：所述浅层隐码、所述中层隐码和所述深层隐码，n1、n2为小于N的正整数。
根据权利要求6所述的方法，其中，所述解码网络包括M个解码层，M为大于1的整数；所述通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本，包括：

对所述身份特征隐码进行仿射变换，生成M组控制向量；

通过所述M个解码层对所述属性特征隐码和所述M组控制向量进行解码处理，生成所述融合人脸图片样本；

其中，第1个解码层的输入包括所述属性特征隐码和第1组控制向量，第i+1个解码层的输入包括第i个解码层的输出和第i+1组控制向量，第M个解码层的输出包括所述融合人脸图片样本，i为小于M的正整数。
根据权利要求6所述的方法，其中，所述基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，包括：

基于所述目标人脸图片样本和所述融合人脸图片样本确定感知相似度损失，所述感知相似度损失用于表征所述目标人脸图片样本和所述融合人脸图片样本之间的图片风格差异；

基于所述源人脸图片样本和所述融合人脸图片样本确定所述多尺度身份特征损失，所述多尺度身份特征损失用于表征所述源人脸图片样本和所述融合人脸图片样本之间的身份特征差异；

基于所述目标人脸图片样本和所述融合人脸图片样本确定人脸姿态损失，所述人脸姿态损失用于描述所述目标人脸图片样本与所述融合人脸图片样本之间的人脸姿态差异；

基于所述判别结果确定生成网络对抗损失；

根据所述感知相似度损失、所述多尺度身份特征损失、所述人脸姿态损失和所述网络对抗损失，确定所述生成网络损失。
根据权利要求9所述的方法，其中，所述基于所述目标人脸图片样本和所述融合人脸图片样本确定感知相似度损失，包括：

通过视觉特征提取网络，分别提取所述目标人脸图片样本的视觉特征和所述融合人脸图片样本的视觉特征；

计算所述目标人脸图片样本的视觉特征和所述融合人脸图片样本的视觉特征之间的相似度，得到所述感知相似度损失。
根据权利要求9所述的方法，其中，所述基于所述源人脸图片样本和所述融合人脸图片样本确定所述多尺度身份特征损失，包括：

通过所述身份特征提取网络，分别提取所述源人脸图片样本的身份特征隐码和所述融合人脸图片样本的身份特征隐码；

计算所述源人脸图片样本的身份特征隐码和所述融合人脸图片样本的身份特征隐码之间的相似度，得到所述多尺度身份特征损失。
根据权利要求9所述的方法，其中，所述基于所述目标人脸图片样本和所述融合人脸图片样本确定人脸姿态损失，包括：

通过人脸姿态预测网络，分别提取所述目标人脸图片样本的人脸姿态欧拉角和所述融合人脸图片样本的人脸姿态欧拉角；

计算所述目标人脸图片样本的人脸姿态欧拉角和所述融合人脸图片样本的人脸姿态欧拉角之间的相似度，得到所述人脸姿态损失。
一种人脸图片的融合装置，所述装置包括：

人脸图片获取模块，配置为获取源人脸图片和目标人脸图片；

身份特征获取模块，配置为获取所述源人脸图片的身份特征隐码，所述身份特征隐码用于表征所述源人脸图片中人物身份特征；

属性特征获取模块，配置为获取所述目标人脸图片的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片中人物属性特征；

融合图片生成模块，配置为基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片。
一种人脸融合模型的训练装置，所述人脸融合模型包括生成网络和判别网络，所述生成网络包括身份编码网络、属性编码网络和解码网络；所述装置包括：

训练样本获取模块，配置为获取人脸融合模型的训练样本，所述训练样本包括源人脸图片样本和目标人脸图片样本；

身份特征获取模块，配置为通过所述身份编码网络获取所述源人脸图片样本的身份特征隐码，所述身份特征隐码是用于表征所述源人脸图片样本中人物身份特征；

属性特征获取模块，配置为通过所述属性编码网络获取所述目标人脸图片样本的属性特征隐码，所述属性特征隐码用于表征所述目标人脸图片样本中人物属性特征；

融合图片生成模块，配置为通过所述解码网络基于所述身份特征隐码和所述属性特征隐码进行融合，生成融合人脸图片样本；

人脸图片判别模块，配置为通过所述判别网络确定待判别样本是否由所述生成网络生成，所述待判别样本包括所述融合人脸图片样本；

第一参数调整模块，配置为基于所述判别网络的判别结果确定判别网络损失，以及基于所述判别网络损失对所述判别网络中的参数进行调整；

第二参数调整模块，配置为基于所述融合人脸图片样本、所述源人脸图片样本、所述目标人脸图片样本和所述判别网络的判别结果确定生成网络损失，以及基于所述生成网络损失对所述生成网络中的参数进行调整。
一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要1至5任一项所述的方法，或实现如权利要求6至12任一项所述的方法。
一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至5任一项所述的方法，或实现如权利要求6至12任一项所述的方法。
一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行如权利要求1至5任一项所述的方法，或实现如权利要求6至12任一项所述的方法。