WO2019227479A1

WO2019227479A1 - 人脸旋转图像的生成方法及装置

Info

Publication number: WO2019227479A1
Application number: PCT/CN2018/089611
Authority: WO
Inventors: 饶强; 遇冰; 冯柏岚; 胡一博; 吴翔; 赫然; 孙哲南
Original assignee: 华为技术有限公司
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2019-12-05
Also published as: CN111819568A; US11232286B2; US20210012093A1

Abstract

本申请提供一种人脸旋转图像的生成方法及装置，涉及人工智能领域，具体涉及计算机视觉领域。本方法包括：根据获取的人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码以获得姿态编码图；从训练数据集中获取多张包含人脸的训练图片，且所述多张训练图片中包含的人脸呈现的旋转角度均为同一角度；采用前述类似方式根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码以获得姿态编码图；其中,所述目标人脸图像是根据所述多张训练图片得到的；根据所述人脸图像和前述两种姿态编码图生成待输入信号；将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。通过本方法，可以提高姿态编码的连续性和准确性，从而提高人脸旋转图像的生成效率。

Description

人脸旋转图像的生成方法及装置

技术领域

本发明实施例涉及计算机视觉领域，尤其涉及一种人脸旋转图像的生成方法及装置。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成象系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

人脸旋转(Face Rotation)是指对一张给定的2D人脸图像，利用计算机视觉的相关方法，如图像处理、机器学习、计算机图形学等获得该人脸旋转后的真实化的符合人脸在三维空间中几何映射原理的人脸图像。人脸旋转主要为解决人脸识别中，因人脸大角度旋转导致侧脸识别不准的问题；另外，通过人脸旋转还可以解决人脸识别模型训练中人脸数据不足的问题，即可用于人脸数据的扩充。

用于解决侧脸识别问题的方法很多，人脸旋转技术是其中一个。就人脸旋转技术来说，常用的方法有：3D/2D模型和生成稀疏子空间。其中，3D/2D模型是通过将2D人脸图像映射到3D人脸模型上，估计出人脸的3D模型参数，然后再通过视角变换得到旋转后人脸的投影图像，从而得到旋转后的2D人脸图像。通过3D人脸模型，理论上可以解决任意姿态的人脸图像旋转问题，但是目前来讲，3D人脸计算量较大，并且真实化的精度还不太高。生成稀疏子空间方法是通过稀疏和低秩学习的方法，将同一人脸的不同姿态看成线性子空间，然后通过低秩约束求解出具有最低秩的人脸正脸图像。这种方法主要是解决将人脸从侧脸转动到正脸的技术，是人脸旋转的一种特殊情况。

为了克服上述问题，现有技术利用生成式对抗网络和一个一维度one-hot姿态编码器指导人脸图像的姿态编码，并生成人脸图像的不同姿态特征。其中，所述生成式对抗网络是通过深度学习模型和生成对抗的方式训练人脸生成模型的方法。但是，现有技术中采用的one-hot姿态编码的方式对姿态的表达不够准确，且该方式不具有连续性；另外，现有方案中的生成式对抗网络中的对抗判别网络的结构使得对抗判别不够鲁棒，从而使得通过其生成的旋转图像的效果不佳。

发明内容

本申请实施例公开了一种人脸旋转图像的生成方法及装置，可以提高生成人脸旋转图像的效率，获得更好的图像质量。

第一方面，本申请实施例提供一种人脸旋转图像的生成方法，包括：

接收人脸图像；

根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图；

根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为所述人脸旋转角度；

根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；其中,所述目标人脸图像是根据所述多张第一训练图片得到的；

根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,其中所述人脸图像的尺寸、所述人脸图像的姿态编码图的尺寸和所述目标人脸图像的姿态编码图的尺寸相同；

将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。

本申请实施例提供的人脸旋转图像的生成方法，通过对人脸图像和目标人脸图像进行姿态编码，得到人脸旋转图像生成模型的输入信号，并进一步通过所述人脸旋转图像生成模型生成人脸旋转图像，由于所述姿态编码方式对人脸姿态的描述更加精确和鲁棒，因此生成的人脸旋转图像也更加准确。另外，由于该方法提供的目标人脸图像是根据所述多张第一训练图片得到的，所述多张第一训练图片中包含的人脸呈现的旋转角度相同，这里的旋转角度可以是用户预设的，如，用户输入人脸图像，并指示图像生成设备生成预设角度的人脸旋转图像，则上述多张第一训练图片中包含的人脸呈现的旋转角度均为该预设角度；通过这样的设置，本申请实施例提供的人脸旋转图像的生成方法对人脸旋转的角度没有限制，即，可以实现各种不同角度的人脸旋转。

值得说明的是，在第一方面提供的方法中，所述根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，这里的人脸和所述人脸图像中的人脸，不要求是同一张人脸，事实上，所述人脸图像在第一方面提供的方法中，可以是用户输入的实时的待旋转的人脸，而所述多张第一训练图片是数据库维护的训练数据集，因此所述多张第一训练图片中包含的人脸与所述人脸图像包含的人脸可以认为没有直接关系，当然人脸图像中包含的人脸也可以出现在数据库中被当做训练数据进行使用。

需要说明的是，在第一方面提供的方法中，所述根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号，具体可以是通过特征融合的方式融合所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图得到所述待输入信号。特征融合是将有区分意义并且具有互补作用的特征，通过某种方式有机地结合在一起作为统一的特征。特征融合是生物识别技术领域常用的一种技术手段，可以采用多种方式实现特征的融合。融合后的特征包含的信息更加准确、更加丰富。可以理解，所述待输入信号相比于所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图中的任一图像或姿态编码图包含的信息更加准确、也更加丰富。因此，利用所述待输入信号进行人脸旋转图像的生成，可以使生成的人脸旋转图像更准确，当该人脸旋转方法被应用到人脸识别的应用场景中时，更准确的人脸旋转图像可以用于提高人脸识别的准确度。

在一种可能的实现方式中，所述根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图包括:

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，N为大于1的整数；

构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应；

分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图。

在这种可能的实现方式中，先确定人脸图像的N个关键点，再以每个关键点为中心对该关键点对应的第一图像进行高斯模糊处理，这种通过关键点进行高斯模糊从而实现图像姿态编码的方式，对人脸姿态的描述更加精确和鲁棒，进而得到更高质量的人脸旋转图像。

在一种可能的实现方式中，所述构造与所述人脸图像尺寸相同的N张第一图像包括：

生成N个全0矩阵，每一个全0矩阵对应一个关键点；将该关键点在所述人脸图像中的位置映射到该全0矩阵中的相应位置，并将该全0矩阵中的相应位置的值由0改为1；由此生成N个独热码矩阵，所述N个独热码矩阵为所述N张第一图像。

需要说明的是，所述N张第一图像与所述关键点在人脸图像中的位置坐标有关。

在一种可能的实现方式中，所述分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，包括：

分别以每个独热码矩阵中值为1的点为中心，对所述独热码矩阵进行高斯模糊处理。

在一种可能的实现方式中，根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图包括:

利用关键点检测算法对所述目标人脸图像进行检测，得到所述目标人脸图像的M个关键点分别对应的位置坐标，M为大于1的整数；

构造与所述目标人脸图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应；

分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述目标人脸图像的姿态编码图。

需要说明的是，所述构造与所述目标人脸图像尺寸相同的M张第二图像，与上面所述的一种可能的实现方式中的所述构造与所述人脸图像尺寸相同的N张第一图像的方式相同，此处不再赘述。

在一种可能的实现方式中，所述目标人脸图像是根据所述多张第一训练图片得到的，包括：

所述目标人脸图像是根据所述多张第一训练图片的姿态编码图的平均值得到的。

需要说明的是，此处的多张第一训练图片的姿态编码图也可以是根据上述姿态编码的方式获取的，此处不再展开。

在一种可能的实现方式中，所述人脸旋转图像生成模型是根据训练生成式对抗网络得到的，所述生成式对抗网络包括至少一个人脸生成网络以及至少两个判别网络，所述至少两个判别网络形成耦合对抗，用于产生对抗损失，所述对抗损失用于更新所述至少一个人脸生成网络以及所述至少两个判别网络，所述更新后的至少一个人脸生成网络为所述人脸旋转图像生成模型。

通过使用至少两个形成耦合对抗关系的判别网络，使得不同的判别网络可以通过不同的条件对所述人脸生成网络生成的预测人脸旋转图像进行判别，且不同判别网络得到判别结果都会对所述生成式对抗网络产生影响，从而使得所述生成式对抗网络能够根据上述不同的条件对人脸图像的不同方面进行调整和把握，从而输出更加准确的人脸旋转图像。

第二方面，本申请实施例提供一种生成式对抗网络的训练方法，所述生成式对抗网络包括人脸生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第一判别网络和第二判别网络，所述方法包括：

接收人脸图像，以及人脸旋转图像；所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像；

根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图；

根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图；

将所述人脸图像、所述人脸图像的姿态编码图以及所述人脸旋转图像的姿态编码图输入所述人脸生成网络，以生成预测人脸旋转图像；

将所述人脸图像、所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络以得到第一损失；

将所述人脸旋转图像、所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络以得到第二损失；

根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，所述生成式对抗网络的总损失根据所述第一损失和第二损失加权求和得到；

直到所述生成式对抗网络的总损失收敛，输出训练后的人脸生成网络。

需要说明的，所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像，这里并不限定其必须是正脸(frontal face)旋转得到侧脸(profile face)，或侧脸旋转得到正脸，应该理解为，旋转前的人脸和旋转后的人脸之间具有一定大小的旋转角度，该旋转角度可以是预设的，此处不再赘述。

本申请实施例提供的生成式对抗网络的训练方法，通过对对人脸图像和人脸旋转图像进行姿态编码，得到人脸图像的姿态编码图和人脸旋转图像的姿态编码图，并通过所述生成式对抗网络中的人脸生成网络生成预测人脸旋转图像；进而通过至少第一判别网络和第二判别网络分别对预测人脸旋转图像进行判别得到第一损失和第二损失，将所述第一损失和第二损失进行加权求和得到生成式对抗网络的总损失，并由该总损失更新所述生成式对抗网络中的人脸生成网络以及第一判别网络和第二判别网络。由于上述的姿态编码方式对人脸姿态的描述更加精确和鲁棒，使得人脸生成网络或者判别网络通过上述的姿态编码图得到的预测人脸旋转图像也更加接近真实的人脸旋转图像。另外，在该训练方法中，由于对训练数据(人脸图像和人脸旋转图像)的旋转角度并没有限制，因此该训练得到的网络也可以适应于各种不同角度的人脸旋转，由此提升人脸旋转的可操作性以及用户体验。另外，通过使用第一判别网络和第二判别网络，且所述第一判别网络和第二判别网络耦合对抗，使得不同的判别网络可以通过不同的条件对所述人脸生成网络生成的预测人脸旋转图像进行判别，且不同判别网络得到判别结果都会对所述生成式对抗网络产生影响，从而使得所述生成式对抗网络能够根据上述不同的条件对人脸图像的不同方面进行调整和把握，从而输出更加准确的人脸旋转图像。

在一种可能的实现方式中，在所述根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络之前，所述方法还包括：

根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，所述真实图像损失包括像素损失、全变分损失及身份识别特征损失中的至少一个损失；对应的，所述生成式对抗网络的总损失根据所述真实图像损失中的至少一个损失、所述第一损失和第二损失加权求和得到。

本申请实施例可能的实现方式，不仅考虑第一损失和第二损失，还考虑到图像真实损失，如像素损失、全变分损失及身份识别特征损失。当所述图像真实损失包括所述像素损失时，所述生成式对抗网络的总损失根据所述第一损失、所述第二损失和所述像素损失的加权求和得到，通过像素损失的引入，在丰富所述生成式对抗网络的训练条件的基础上进一步考虑了训练的稳定性并可以加速收敛所述生成式对抗网络的训练；当所述图像真实损失包括所述全变分损失时，所述生成式对抗网络的总损失根据所述第一损失、所述第二损失和所述全变分损失加权求和得到，由于全变分损失具有防止生成图像局部梯度过大的作用，因此通过全变分损失的引入，在丰富所述生成式对抗网络的训练条件的基础上防止了生成的预测人脸图像出现局部梯度过大从而产生局部瑕疵；当所述图像真实损失包括所述身份识别特征损失时，所述生成式对抗网络的总损失根据所述第一损失、所述第二损失和所述身份识别特征损失的加权求和得到，所述身份识别特征用于保证生成的所述预测人脸旋转图像中包含的人脸与输入的训练数据(人脸图像和人脸旋转图像)中包含的人脸的身份信息保持不变。通过身份识别特征损失的引入，使得所述训练得到的生成式对抗网络可以生成具有更加准确的身份信息的旋转后图像；当所述图像真实损失包括上述三个损失中的两个或三个均包含时，对应的效果将被考虑到。

在一种可能的实现方式中，所述根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图，包括：

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应，分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图，N为大于1的正整数。

通过关键点进行高斯模糊从而实现图像姿态编码的方式，对人脸姿态的描述更加精确和鲁棒，通过更加精确和鲁棒的人脸姿态描述，可以使得所述人脸生成网络生成的预测人脸旋转图像更加接近真实的所述人脸旋转图像。

在一种可能的实现方式中，所述根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图，包括：

利用关键点检测算法对所述人脸旋转图像进行检测，得到所述人脸旋转图像的M个关键点分别对应的位置坐标，构造与所述人脸旋转图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应，分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述人脸旋转图像的姿态编码图，M为大于1的正整数。

需要说明的是，所述构造与所述人脸旋转图像尺寸相同的M张第二图像，与上面所述的一种可能的实现方式中的所述构造与所述人脸图像尺寸相同的N张第一图像的方式相同，此处不再赘述。

在一种可能的实现方式中，所述将所述人脸图像，所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络得到第一损失，包括：

以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失；其中，所述第一判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。

在一种可能的实现方式中，以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失，包括：

其中，L ⁱⁱ为所述第一损失，I ^a为所述人脸图像，I ^b为所述人脸旋转图像，

为所述预测人脸旋转图像，

表示在所述人脸旋转图像I ^b的分布H(I ^b)上求期望，即所述人脸旋转图像I ^b为真的概率；

表示所述第一判别网络的损失函数，

表示在所述预测人脸旋转图像

的分布

上的期望，即所述预测人脸旋转图像

为真的概率；

为以所述人脸图像为条件的所述第一判别网络，θ _ii为所述第一判别网络的参数，

为所述第一判别网络的输入。

在一种可能的实现方式中，所述将所述人脸旋转图像，所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络得到第二损失，包括：

以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失；其中，所述第二判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。

在上述的生成式对抗网络中，第一判别网络以所述人脸图像作为判别条件，第二判别网络以所述人脸旋转图像的姿态编码图作为判别条件，二者最后得到的判别结果：第一损失和第二损失，通过加权求和作为所述生成式对抗网络的总损失，该总损失用于更新所述生成式对抗网络(包括所述人脸生成网络、所述第一判别网络和所述第二判别网络)，由此训练得到的生成式对抗网络对于人脸的表观真实性以及人脸姿态两方面的信息都能有非常好的把握。综上所述：由于所述第一判别网络以所述人脸图像作为判别条件，因此可以理解人脸的表观真实性由所述第一判别网络把握，由于所述第二判别网络以所述人脸旋转图像的姿态编码图作为判别条件，因此可以理解人脸姿态由所述第二判别网络把握。

在一种可能的实现方式中，以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失，包括：

其中，L ^ip为所述第二损失，I ^b为所述人脸旋转图像，

为所述预测人脸旋转图像，P ^b为所述人脸旋转图像的姿态编码图，

表示所述第二判别网络的损失函数，

表示在所述预测人脸旋转图像

的分布

上的期望，即所述预测人脸旋转图像

为真的概率；

为以所述人脸旋转图像的姿态编码图为条件的所述第二判别网络，θ _ip为所述第二判别网络的参数，

为所述第二判别网络的输入。

在一种可能的实现方式中，当所述真实图像损失包括像素损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，L _pix是所述像素损失，S是尺度量，

为所述预测人脸旋转图像，I ^b为所述人脸旋转图像，

表示将所述预测人脸旋转图像和所述人脸旋转图像进行缩放到S尺度量时计算像素差值的1范数损失。

需要说明的是，这里的像素差值表示所述预测人脸旋转图像与所述人脸旋转图像对应位置的像素之间的差值。

在一种可能的实现方式中，当所述真实图像损失包括全变分损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，L _tv是所述全变分损失，即所述预测人脸旋转图像

在横向和纵向两个方向一阶梯度绝对值的和，其中，W表示所述预测人脸旋转图像的宽，H表示所述预测人脸旋转图像的高，C表示所述预测人脸旋转图像通道数。

在一种可能的实现方式中，当所述真实图像损失包括身份识别特征损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，身份识别特征用来保证所述预测人脸旋转图像和所述人脸图像之间的身份信息保持不变，L _ip表示所述身份识别特征损失，f为预先训练好的人脸识别模型，所述人脸识别模型f为深度神经网络，所述深度神经网络包括至少一个池化层和至少一个全连接层，其中，

表示所述人脸识别模型f的最后一个池化层的输出，

表示所述人脸识别模型f最后一个全连接层的输出。

在一种可能的实现方式中，所述根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，包括：

更新所述人脸生成网络，以使得所述人脸生成网络生成的误差最小；

更新所述第一判别网络和所述第二判别网络，以使得所述第一损失和所述第二损失的值最大；

交替迭代上述更新直到所述生成式对抗网络达到收敛。

第三方面，本申请实施例提供了一种人体旋转图像的生成方法，包括：

接收人体图像；

对所述人体图像进行姿态编码,得到所述人体图像的姿态编码图；

根据人体旋转角度从训练数据集中获取多张第二训练图片,所述多张第二训练图片均包含人体，且所述多张第二训练图片中包含的人体呈现的旋转角度均为所述人体旋转角度；

对目标人体图像进行姿态编码,得到所述目标人体图像的姿态编码图；其中,所述目标人体图像是根据所述多张第二训练图片得到的；

根据所述人体图像、所述人体图像的姿态编码图和所述目标人体图像的姿态编码图生成待输入信号,其中所述人体图像的尺寸、所述人体图像的姿态编码图的尺寸和所述目标人体图像的姿态编码图的尺寸相同；

将所述待输入信号输入人体旋转图像生成模型得到人体旋转图像。

需要说明的是，在第三方面提供的方法中，所述根据所述人体图像、所述人体图像的姿态编码图和所述目标人体图像的姿态编码图生成待输入信号，具体可以是通过特征融合的方式融合所述人体图像、所述人体图像的姿态编码图和所述目标人体图像的姿态编码图得到所述待输入信号。特征融合是将有区分意义并且具有互补作用的特征，通过某种方式有机地结合在一起作为统一的特征。特征融合是生物识别技术领域常用的一种技术手段，可以采用多种方式实现特征的融合。融合后的特征包含的信息更加准确、更加丰富。可以理解，所述待输入信号相比于所述人体图像、所述人体图像的姿态编码图和所述目标人体图像的姿态编码图中的任一图像或姿态编码图包含的信息更加准确、也更加丰富。因此，利用所述待输入信号进行人体旋转图像的生成，可以使生成的人体旋转图像更准确，当该人体旋转方法被应用到监控系统的人物定位或识别的应用场景中时，更准确的人体旋转图像可以用于提高定位和识别的准确度。

在一种可能的实现方式中，所述对所述人体图像进行姿态编码,得到所述人体图像的姿态编码图包括:

利用关键点检测算法对所述人体图像进行检测，得到所述人体图像的W个关键点分别对应的位置坐标，W为大于1的整数；

构造与所述人体图像尺寸相同的W张第三图像，所述W张第三图像与所述W个关键点一一对应；

分别以所述W个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第三图像进行高斯模糊处理，得到W张第三高斯模糊图，所述W张第三高斯模糊图为所述人体图像的姿态编码图。

在这种可能的实现方式中，先确定人体图像的W个关键点，当所述人体图像和第一方面的人脸图像中包含的人为同一个人时，这里的W个关键点可以包括上述第一方面的N个关键点，上述N个关键点仅为人脸上的关键点，如左眼球中心、右眼球中心、鼻尖、左嘴角和右嘴角，或者还可以包括脸部轮廓的点等；而所述的W个关键点还可以包括人体关键部位对应的点，如左胳膊肘节点、右胳膊肘节点、左膝盖中心点、右膝盖中心点等；

确定W个关键点之后，再以每个关键点为中心对该关键点对应的第三图像进行高斯模糊处理，这种通过关键点进行高斯模糊从而实现图像姿态编码的方式，对人体姿态的描述更加精确和鲁棒，进而得到更高质量的人体旋转图像。

在一种可能的实现方式中，所述构造与所述人体图像尺寸相同的W张第三图像包括：

生成W个全0矩阵，每一个全0矩阵对应一个关键点；将该关键点在所述人体图像中的位置映射到该全0矩阵中的相应位置，并将该全0矩阵中的相应位置的值由0改为1；由此生成W个独热码矩阵，所述W个独热码矩阵为所述W张第三图像。

需要说明的是，所述W张第三图像与所述关键点在人体图像中的位置坐标有关。

在一种可能的实现方式中，所述分别以所述W个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第三图像进行高斯模糊处理，包括：

关于所述目标人体图像的姿态编码方式，与上述人体图像的姿态编码方式相同，在关键点的数目上可以不同，但实现的过程是相同的，因此不再赘述。

第四方面，本申请实施例提供一种生成式对抗网络的训练方法，所述生成式对抗网络包括人体图像生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第三判别网络和第四判别网络，所述方法包括：

接收人体图像，以及人体旋转图像；所述人体图像和所述人体旋转图像为同一个人体旋转前和旋转后的图像；

对所述人体图像进行姿态编码，得到所述人体图像的姿态编码图；

对所述人体旋转图像进行姿态编码，得到所述人体旋转图像的姿态编码图；

将所述人体图像、所述人体图像的姿态编码图以及所述人体旋转图像的姿态编码图输入所述人体图像生成网络，以生成预测人体旋转图像；

将所述人体图像、所述人体旋转图像和所述预测人体旋转图像输入所述第三判别网络以得到第三损失；

将所述人体旋转图像、所述人体旋转图像的姿态编码图以及所述预测人体旋转图像输入所述第四判别网络以得到第四损失；

根据所述生成式对抗网络的总损失更新所述人体图像生成网络、所述第三判别网络以及所述第四判别网络，所述生成式对抗网络的总损失根据所述第三损失和第四损失加权求和得到；

直到所述生成式对抗网络的总损失收敛，输出训练后的人体图像生成网络。

本申请实施例提供的生成式对抗网络的训练方法，通过对对人体图像和人体旋转图像进行姿态编码，得到人体图像的姿态编码图和人体旋转图像的姿态编码图，并通过所述生成式对抗网络中的人体图像生成网络生成预测人体旋转图像；进而通过至少两个判别网络如第三判别网络和第四判别网络，分别对预测人体旋转图像进行判别得到第三损失和第四损失，将所述第三损失和第四损失进行加权求和得到生成式对抗网络的总损失，并由该总损失更新所述生成式对抗网络中的人体图像生成网络以及第三判别网络和第四判别网络。由于上述的姿态编码方式对人体姿态的描述更加精确和鲁棒，使得人体图像生成网络或者判别网络通过上述的姿态编码图得到的预测人体旋转图像也更加接近真实的人体旋转图像。另外，在该训练方法中，由于对训练数据(人体图像和人体旋转图像) 的旋转角度并没有限制，因此该训练得到的网络也可以适应于各种不同角度的人体旋转，由此提升人体旋转的可操作性以及用户体验。另外，通过使用第三判别网络和第四判别网络，且所述第三判别网络和第四判别网络耦合对抗，使得不同的判别网络可以通过不同的条件对所述人体图像生成网络生成的预测人体旋转图像进行判别，且不同判别网络得到判别结果都会对所述生成式对抗网络产生影响，从而使得所述生成式对抗网络能够根据上述不同的条件对人体图像的不同方面进行调整和把握，从而输出更加准确的人体旋转图像。

关于所述人体图像的姿态编码方式以及所述人体旋转图像姿态编码方式，与第三方面提供的姿态编码方式相同，虽然在具体的关键点取值上可以有所不同，但操作方式上是相同的，因此此处不再赘述。具体的得到第三损失和第四损失的方式可以参考第二方面得到第一损失和第二损失的方式，此处不再赘述。

第五方面，本申请实施例提供了一种人脸旋转图像的生成装置，所述装置包括用于执行所述第一方面或者第一方面的任一可能的实现方式中的方法的模块。

第六方面，本申请实施例提供一种生成式对抗网络的训练装置，所述装置包括用于执行所述第二方面或者第二方面的任一可能的实现方式中的方法的模块。

第七方面，本申请实施例提供一种人脸旋转图像的生成设备，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行第一方面及第一方面的任意一种可能的实现方式所提供的方法。

第八方面，本申请实施例提供一种训练生成式对抗网络的设备，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行第二方面及第二方面的任意一种可能的实现方式所提供的方法。

第九方面，本申请实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现第一方面及第一方面的任意一种可能的实现方式所提供的方法。

第十方面，本申请实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现第二方面及第二方面的任意一种可能的实现方式所提供的方法。

第十一方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面或第一方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。

第十二方面，提供一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第二方面或第二方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面或第二方面的任一可能的实现方式中的方法。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1是本申请实施例提供的系统架构的结构示意图；

图2是本申请实施例提供的卷积神经网络的逻辑示意图；

图3是本申请实施例提供的一种芯片硬件结构示意图；

图4是本申请实施例提供的一种生成式对抗网络的训练方法流程示意图；

图5是本申请实施例提供的一种人脸旋转图像的生成方法流程示意图；

图6是本申请实施例提供的一种生成式对抗网络的训练装置的示意性框图；

图7是本申请实施例提供的一种人脸旋转图像的生成装置的示意性框图；

图8是本申请实施例提供的一种生成式对抗网络的训练装置的硬件结构示意图；

图9是本申请实施例提供的一种人脸旋转图像的生成装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的生成式对抗网络的训练方法，涉及计算机视觉的处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请中的人脸图像和人脸旋转图像)进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的生成式对抗网络；并且，本申请实施例提供的人脸旋转图像的生成方法可以运用上述训练好的生成式对抗网络，将输入数据(如本申请中的人脸图像)输入到所述训练好的生成式对抗网络中，得到输出数据(如本申请中的人脸旋转图像)。需要说明的是，本申请实施例提供的生成式对抗网络的训练方法和人脸旋转图像的生成方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型训练阶段和模型应用阶段。本申请实施例提供的方法和装置可以应用到人脸识别中，比如，当人脸识别过程中只有侧脸时，可以运用本申请实施例提供的人脸旋转图像生成方法，将该侧脸先生成为正脸，再基于正脸进行人脸识别，由于正脸的人脸识别通常会比侧脸更为准确，因此，该方法可以帮助提升人脸识别的准确度。另外，本申请实施例提供的方法和装置还可以用于人脸恢复，例如在公安系统的安防监控中，本申请实施例提供的方法可以实现从任意角度的图像得到完整的人脸正脸图像，也可以根据人脸正脸图像或某一个侧脸图像得到其他各个角度的人脸图像，从而丰富人脸图像各个角度的信息，使得对监控对象的获取更加准确。本申请实施例提供的方法和装置还可以用于扩充训练数据库，如图1所示执行设备110的I/O接口112可以将经执行设备处理过的图像(如得到的人脸旋转图像)和用户输入的人脸图像一起作为训练数据对发送给数据库130，以使得数据库130维护的训练数据更加丰富，从而为训练设备120的训练工作提供更丰富的训练数据。

另外需要说明的是，在模型训练阶段，人脸图像和人脸旋转图像作为训练数据，提供给初始模型进行训练；在模型应用阶段，人脸图像作为实际应用中待处理(此处的处理为人脸旋转处理)的数据进行相关的数据处理后输入深度神经网络得到输出数据：人脸旋转图像。在文字描述上为了简洁直观起见，在训练阶段和应用阶段都用了人脸图像和人脸旋转图像的表述，但是不应该认为训练阶段的人脸图像和人脸旋转图像与应用阶段的人脸图像和人脸旋转图像必然是相同图像。如上所述，当人脸图像和人脸旋转图像的表述出现在训练阶段，应理解其为训练数据；当人脸图像和人脸旋转图像的表述出现在应用阶段，应理解其分别为实际应用中的输入和输出，后文不再就此赘述。当然，如背景技术中提到的通过人脸旋转可以扩充训练数据库，本申请实施例在应用阶段对输入数据(人脸图像)进行人脸旋转处理后得到输出数据(人脸旋转图像)，这里的输入数据和输出数据可以作为新的训练数据添加到训练数据库中以用于扩充训练数据库。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)人脸旋转

利用图像处理和机器学习、计算机图形学等相关方法，将人脸图像从一个姿态(pose)角度旋转到另一个姿态角度并得到相应的旋转后图像。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(Deep Neural Network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)卷积神经网络

卷积神经网络(CNN，Convolutional Neuron Network)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

(7)生成式对抗网络

生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型。该模型中至少包括两个模块：一个模块是生成模型(Generative Model)，另一个模块是判别模型(Discriminative Model)，通过这两个模块互相博弈学习，从而产生更好的输出。生成模型和判别模型都可以是神经网络，具体可以是深度神经网络，或者卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G(Generator)和D(Discriminator)，其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z))＝0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

(8)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

下面介绍本申请实施例提供的系统架构。

参见附图1，本发明实施例提供了一种系统架构100。如所述系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：人脸图像和人脸旋转图像，其中该人脸图像为人脸旋转前的图像，该人脸旋转图像为该人脸图像中的人脸进行旋转后得到的图像；并将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。下面将以实施例一更详细地描述训练设备120如何基于训练数据得到目标模型/规则101，该目标模型/规则101能够用于实现本申请实施例提供的人脸旋转图像的生成方法，即，将人脸图像通过相关预处理后输入该目标模型/规则101，即可得到人脸旋转图像。本申请实施例中的目标模型/规则101具体可以为人脸生成网络，在本申请提供的实施例中，该人脸生成网络是通过训练生成式对抗网络得到的。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：来自用户输入的人脸图像，来自数据库的多张第一训练图片，其中，所述多张第一训练图片均包含人脸(该人脸与人脸图像中包含的人脸不一定相同)，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为角度θ，该角度θ可以是预设的，如希望所述执行设备110输出的人脸旋转图像是在所述人脸图像的基础上旋转了θ度的图像。

预处理模块113用于根据I/O接口112接收到的输入数据(如所述人脸图像)进行预处理，在本申请实施例中，预处理模块113可以用于根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图。

预处理模块114用于根据I/O接口112接收到的输入数据，如(所述多张第一训练图片)进行预处理，在本申请实施例中，预处理模块114可以用于根据所述多张第一训练图片得到目标人脸图像，并由所述预处理模块113对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；所述预处理模块113还可以根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,并将所述待输入信号输入到所述计算模块111，由所述计算模块111根据所述目标模型/规则101以及所述待输入信号进行计算，最终得到人脸旋转图像。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果，如上述得到的人脸旋转图像返回给客户设备140，从而提供给用户。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是根据训练生成式对抗网络(GAN,Generative Adversarial Networks)得到的人脸旋转图像生成模型，具体的，本申请实施例提供的生成式对抗网络可以包括：至少一个人脸生成网络以及至少两个判别网络，所述至少两个判别网络形成耦合对抗，用于产生对抗损失，所述对抗损失用于更新所述至少一个人脸生成网络以及所述至少两个判别网络，所述更新后的至少一个人脸生成网络为所述人脸旋转图像生成模型。在本申请实施例提供的生成式对抗网络中，所述至少一个人脸生成网络以及所述至少两个判别网络具体都可以是卷积神经网络。

如前文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220 (其中池化层为可选的)，以及神经网络层230。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等……

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

下面介绍本申请实施例提供的一种芯片硬件结构。

图3为本发明实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。

神经网络处理器30可以是NPU，TPU，或者GPU等一切适合用于大规模异或运算处理的处理器。以NPU为例：NPU可以作为协处理器挂载到主CPU(Host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路303，通过控制器304控制运算电路303提取存储器(301和302)中的矩阵数据并进行乘加运算。

在一些实现中，运算电路303内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B的权重数据，并缓存在运算电路303中的每一个PE上。运算电路303从输入存储器301中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(DMAC，Direct Memory Access Controller)305，被搬运到权重存储器302中。输入数据也通过DMAC被搬运到统一存储器306中。

总线接口单元(BIU，Bus Interface Unit)310，用于DMAC和取指存储器(Instruction Fetch Buffer)309的交互；总线接口单元301还用于取指存储器309从外部存储器获取指令；总线接口单元301还用于存储单元访问控制器305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器306中，或将权重数据搬运到权重存储器302中，或将输入数据搬运到输入存储器301中。

向量计算单元307多个运算处理单元，在需要的情况下，对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。向量计算单元307主要用于神经网络中非卷积层，或全连接层(FC，fully connected layers)的计算，具体可以处理：Pooling(池化)，Normalization(归一化)等的计算。例如，向量计算单元307 可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。

在一些实现中，向量计算单元307将经处理的向量存储到统一存储器306。在一些实现中，经向量计算单元307处理过的向量能够用作运算电路303的激活输入，例如用于神经网络中后续层中的使用，如图2所示，若当前处理层是隐含层1(231)，则经向量计算单元307处理过的向量还可以被用到隐含层2(232)中的计算。

控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令；

统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为On-Chip存储器。外部存储器独立于该NPU硬件架构。

其中，图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。

实施例一：

图4为本发明实施例一提供的一种生成式对抗网络的训练方法400，所述生成式对抗网络包括人脸生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第一判别网络和第二判别网络，所述方法400包括：

S401，接收人脸图像，以及人脸旋转图像；所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像；

S402，根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图；

S403，根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图；

S404，将所述人脸图像、所述人脸图像的姿态编码图以及所述人脸旋转图像的姿态编码图输入所述人脸生成网络，以生成预测人脸旋转图像；

S405，将所述人脸图像、所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络以得到第一损失；

S406，将所述人脸旋转图像、所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络以得到第二损失；

S407，根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，所述生成式对抗网络的总损失根据所述第一损失和第二损失加权求和得到；

重复执行S404至S407，直到所述生成式对抗网络的总损失收敛，则执行

S408，输出训练后的人脸生成网络。

其中，通过S407当次更新的人脸生成网络、第一判别网络和第二判别网络用于执行下一次的S404至S406的动作，依次迭代，直到所述生成式对抗网络的总损失收敛，结束对所述生成式对抗网络的训练，输出训练后的人脸生成网络。

本申请实施例提供的生成式对抗网络的训练方法，通过对对人脸图像和人脸旋转图像进行姿态编码(Pose Encoding)，得到人脸图像的姿态编码图和人脸旋转图像的姿态编码图，并通过所述生成式对抗网络中的人脸生成网络生成预测人脸旋转图像；进而通过至少第一判别网络和第二判别网络分别对预测人脸旋转图像进行判别得到第一损失和第二损失，将所述第一损失和第二损失进行加权求和得到生成式对抗网络的总损失，并由该总损失更新所述生成式对抗网络中的人脸生成网络以及第一判别网络和第二判别网络。由于上述的姿态编码方式对人脸姿态的描述更加精确和鲁棒，使得人脸生成网络或者判别网络通过上述的姿态编码图得到的预测人脸旋转图像也更加接近真实的人脸旋转图像。另外，在该训练方法中，由于对训练数据(人脸图像和人脸旋转图像)的旋转角度并没有限制，因此该训练得到的网络也可以适应于各种不同角度的人脸旋转，由此提升人脸旋转的可操作性以及用户体验。并且，通过使用第一判别网络和第二判别网络，且所述第一判别网络和第二判别网络耦合对抗，使得不同的判别网络可以通过不同的条件对所述人脸生成网络生成的预测人脸旋转图像进行判别，且不同判别网络得到判别结果都会对所述生成式对抗网络产生影响，从而使得所述生成式对抗网络能够根据上述不同的条件对人脸图像的不同方面进行调整和把握，从而输出更加准确的人脸旋转图像。

需要说明的是，所述的多个耦合对抗的判别网络，其中，所述“耦合”体现在：该多个判别网络分别得到的损失共同影响总损失，如在本申请实施例提供的方法400中，所述第一损失和所述第二损失加权求和得到所述总损失，由此体现所述第一判别网络和所述第二判别网络之间的耦合关系，这里的“耦合”也可以称为“协同”，或者“联合”等，其本质的含义在于多个判别网络得到的损失以某种关系结合并共同影响所述总损失；其中，所述“对抗”体现在：所述多个判别网络与所述人脸生成网络之间是对抗的关系，这种对抗的关系在前文的概念介绍中的第(7)点有详细介绍，即生成与判别之间的“博弈”，此处不再赘述。

需要说明的，在实施例一中的所述人脸图像和所述人脸旋转图像本质上是训练数据，用于训练所述生成式对抗网络，作为一对训练数据对，它们分别是同一张人脸旋转前和旋转后的图像。这里需要注意的是，本申请实施例提供的方法和装置并不限定人脸旋转必须是正脸旋转得到侧脸，或侧脸旋转得到正脸，因此对训练数据对的要求也不会是必须一张为正脸另一张为侧脸，应该理解的是，此处表述的旋转前的人脸和旋转后的人脸之间具有一定大小的旋转角度，该旋转角度可以是预设的。

另外需要说明的是，关于旋转角度(本文也称人脸旋转角度)，应理解为：以正脸为0度，往右旋转人脸为正角度，往左旋转人脸为负角度。从俯视图来看，顺时针旋转为正角度，逆时针旋转为负角度。

所述方法400具体可以由如图1所示的训练设备120执行，所述方法400中的人脸图像和人脸旋转图像可以是如图1所示的数据库130中维护的训练数据，可选的，所述方法400的S402和S403可以在训练设备120中执行，也可以在训练设备120之前由其他功能模块预先执行，即先对从所述数据库130中接收或者获取到的训练数据进行预处理，如S402和S403所述的姿态编码过程，得到人脸图像的姿态编码图和人脸旋转图像的姿态编码图，作为所述训练设备120的输入，并由所述训练设备120执行S404至S408。

可选的，所述方法400可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

所述训练设备120具体可以用于训练本申请实施例提供的生成式对抗网络，如前所述，本申请实施例提供的生成式对抗网络包括人脸生成网络以及多个耦合对抗的判别网络，需要说明的是，在本申请实施例中虽然仅给出第一判别网络和第二判别网络两个判别网络的举例，但是本申请实施例并不限定判别网络的具体个数，如三个判别网络或者四个判别网络甚至更多，这些不同的判别网络可以基于不同的判别条件对所述人脸生成网络生成的预测图像进行判别，从而可以使得所述生成式对抗网络能够根据这些不同的条件对人脸图像的不同方面进行调整和把握，从而输出更加准确的人脸旋转图像。

在实施例一提供的方法400的基础上，一种可能的实现方式为，在S407之前，所述方法400还可以包括：

S406a，根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，所述真实图像损失包括像素损失、全变分损失(Total Variation Regularization)及身份识别特征损失中的至少一个损失；对应的，所述生成式对抗网络的总损失根据所述真实图像损失中的至少一个损失、所述第一损失和第二损失加权求和得到。

当所述真实图像损失包括像素损失时，所述总损失等于像素损失、第一损失和第二损失的加权求和得到的结果；当所述真实图像损失包括全变分损失时，所述总损失等于全变分损失、第一损失和第二损失的加权求和得到的结果；当所述真实图像损失包括身份识别特征损失时，所述总损失等于身份识别特征损失、第一损失和第二损失的加权求和得到的结果；当真实图像损失包括像素损失、全变分损失和身份识别特征损失三者时，所述总损失为这三个损失与第一损失、第二损失的加权求和得到的结果。当所述真实图像损失包括像素损失、全变分损失和身份识别特征损失三者中的任两者时，由该任两者与第一损失、第二损失进行加权求和得到所述总损失，此处不再赘述。

在这种实现方式中，不仅考虑第一损失和第二损失，还考虑到图像真实损失，如上所述的像素损失、全变分损失及身份识别特征损失。其中，通过像素损失的引入，在丰富所述生成式对抗网络的训练条件的基础上进一步考虑了训练的稳定性并可以加速收敛所述生成式对抗网络的训练；通过全变分损失的引入，在丰富所述生成式对抗网络的训练条件的基础上防止了生成的预测人脸图像出现局部梯度过大从而产生局部瑕疵；而由于所述身份识别特征用于保证生成的所述预测人脸旋转图像中包含的人脸与输入的训练数据(人脸图像和人脸旋转图像)中包含的人脸的身份信息保持不变。因此，通过身份识别特征损失的引入，使得所述训练得到的生成式对抗网络可以生成具有更加准确的身份信息的旋转后图像；当所述图像真实损失包括上述三个损失中的两个或三个均包含时，对应的效果将都被考虑到。

在实施例一提供的方法400以及其可能的实现方式的基础上，所述S402具体包括：

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应，分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊(gaussian blur)处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图，N为大于1的正整数。

其中，所述构造与所述人脸图像尺寸相同的N张第一图像包括：

生成N个全0矩阵，每一个全0矩阵对应一个关键点；将该关键点在所述人脸图像中的位置映射到该全0矩阵中的相应位置，并将该全0矩阵中的相应位置的值由0改为1；由此生成N个独热码(one-hot code)矩阵，所述N个独热码矩阵为所述N张第一图像。

在本申请文件中所述的独热码矩阵是指：只有一个向量值为1，其余向量值全为零的矩阵。下文对此不再赘述。

其中，所述分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，包括：

这种通过关键点进行高斯模糊从而实现图像姿态编码的方式，对人脸姿态的描述更加精确和鲁棒，通过更加精确和鲁棒的人脸姿态描述，可以使得所述人脸生成网络生成的预测人脸旋转图像更加接近真实的所述人脸旋转图像。

需要说明的是，所述N个全0矩阵的尺寸(即行数和列数)与所述人脸图像的尺寸相同，因为所述N个独热码矩阵为所述N张第一图像，每个独热码矩阵中为1的值是对应一个关键点在人脸图像中的位置的，举例来说，当N等于5的时候，假设这5个关键点为人脸的五个关键位置对应的点，如左眼球中心，右眼球中心，鼻尖，左嘴角，右嘴角。以鼻尖这个关键点为例，假设鼻尖在人脸图像的正中央位置，则鼻尖对应的独热码矩阵中正中央位置的值为1，其余位置的值仍为0，再以左嘴角为例，假设左嘴角在人脸图像的坐标位置(x,y)时，则左嘴角对应的独热码矩阵在其(x,y)的坐标位置处的值为1，其余位置的值仍为0。

另外，在本申请中出现图像尺寸，矩阵尺寸，姿态编码图尺寸等表述，其中尺寸均可以理解为行×列，例如，S401中所述的人脸图像和人脸旋转图像即具有相同的尺寸，意思是所述人脸图像和所述人脸旋转图像在进入神经网络之后均以相同尺寸的矩阵形式呈现，当然此处的矩阵还可以是张量，张量可以理解为具有纵深的矩阵，如常规的矩阵是X×Y，其中X为矩阵的行，Y为矩阵的列，张量则为X×Y×Z，其中Z则为矩阵的纵深。可以理解的是，在上述方法400中，所述人脸图像，人脸旋转图像，人脸图像的姿态编码图，人脸旋转图像的姿态编码图均可以具有相同尺寸，或者叫做同型矩阵。所述生成预测人脸旋转图像也可以与上述图像或姿态编码图具有相同的尺寸。由于在做人脸旋转的过程中，图像尺寸是不被改变的，因此可以理解为所述生成式对抗网络的输入和输出的图像数据均具有相同尺寸。

另外，还需要说明的是，所述利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，这里的N个关键点如上举例可以是5个，当然也可以是10个或者其他更多或更少的数目，本方案不对此进行限定，具体N等于多少可以取决于所述关键点检测算法，即可以预先根据需求设计好关键点的数目，此处不再赘述。

在实施例一提供的方法400以及其可能的实现方式的基础上，所述S403具体包括：

这里的所述构造与所述人脸旋转图像尺寸相同的M张第二图像，可以理解为与上面所述构造与所述人脸图像尺寸相同的N张第一图像的方式相同，因此此处不再赘述。

在实施例一提供的方法400以及其可能的实现方式的基础上，所述S405具体包括：

具体的，所述以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失，包括：

为所述预测人脸旋转图像，

表示所述第一判别网络的损失函数，

表示在所述预测人脸旋转图像

的分布

上的期望，即所述预测人脸旋转图像

为真的概率；

为所述第一判别网络的输入。

在实施例一提供的方法400以及其可能的实现方式的基础上，所述S406具体包括：以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失；其中，所述第二判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。

具体的，以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失，包括：

其中，L ^ip为所述第二损失，I ^b为所述人脸旋转图像，

表示所述第二判别网络的损失函数，

表示在所述预测人脸旋转图像

的分布

上的期望，即所述预测人脸旋转图像

为真的概率；

为所述第二判别网络的输入。

在实施例一提供的方法400以及其可能的实现方式的基础上，当所述真实图像损失包括像素损失，所述S406a具体可以包括执行如下计算：

其中，L _pix是所述像素损失，S是尺度量，

为所述预测人脸旋转图像，I ^b为所述人脸旋转图像，

在实施例一提供的方法400以及其可能的实现方式的基础上，当所述真实图像损失包括全变分损失，所述S406a具体可以包括执行如下计算：

其中，L _tv是所述全变分损失，即所述预测人脸旋转图像

在实施例一提供的方法400以及其可能的实现方式的基础上，当所述真实图像损失包括身份识别特征损失，所述S406a具体可以包括执行如下计算：

表示所述人脸识别模型f的最后一个池化层的输出，

表示所述人脸识别模型f最后一个全连接层的输出。

在实施例一提供的方法400以及其可能的实现方式的基础上，所述S407具体可以包括：

更新所述人脸生成网络，以使得所述人脸生成网络的误差最小；

交替迭代上述更新直到所述生成式对抗网络达到收敛。

具体的，上述更新过程可以理解为：

根据所述总损失更新所述人脸生成网络，以使其生成的预测人脸旋转图像尽可能的混淆所述第一判别网络和所述第二判别网络，换句话说，更新人脸生成网络的目的就是要使它尽可能的生成让判别网络难以识别真假的预测人脸旋转图像，这里的判别网络包括第一判别网络和第二判别网络，下同，不再赘述。

根据所述总损失更新所述第一判别网络和所述第二判别网络，以使得所述第一损失和所述第二损失的值最大，形象的说，更新第一判别网络和第二判别网络的目的是使其尽可能的对人脸生成网络生成的预测人脸旋转图像做出识别，即识别出其为真或为假。

如上所述，更新人脸生成网络为了混淆判别网络，更新判别网络为了使其不被混淆，二者相互对抗，形成博弈，最终达到动态平衡，即交替迭代上述更新直到所述生成式对抗网络达到收敛

。

需要说明的是，此处的更新所述人脸生成网络，以使得所述人脸生成网络的误差最小，是指所述人脸生成网络生成的预测人脸旋转图像被判别网络识别出来为真或者为假的可能性尽可能的小。

还需要说明的是，此处的更新所述第一判别网络和所述第二判别网络，以使得所述第一损失和所述第二损失的值最大，具体的实现方式如下所述：

以更新所述第一判别网络为例，可以理解的是，所述第一判别网络作为一个二分类判别器，可以有两个节点分别进行输出，其中一个节点用于输出判别为真的概率，如0.3，另一个节点则用于输出判别为假的概率，显然，若为真的概率是0.3，则为假的概率是1-0.3＝0.7。此时第一损失的取值为0.7，即第一损失取两个节点输出的值中较大的那一个。再举例说，若判别为真的概率是0.9，则判别为假的概率为0.1，此时第一损失的取值为0.9。因此，更新所述第一判别网络以使得所述第一损失的值最大，目的在于更新所述第一判别网络，使所述第一判别网络尽可能的识别出所述人脸生成网络生成的预测图像和真实图像之间的区别。上面说的预测图像即所述预测人脸旋转图像，这里说的真实图像即接收的所述人脸旋转图像。

可以看出，在所述的生成式对抗网络的训练中，所述人脸生成网络与判别网络(包括所述第一判别网络和所述第二判别网络)之间是一种对抗的关系，或称“博弈”的过程。人脸生成网络要努力生成难以被识别的预测图像，而判别网络要努力识别出预测图像与真实图像之间的区别，这种动态的“博弈”具体体现在参数的更新上，直到更新后的参数使得两者动态平衡，即达到了整体最优的状态，停止更新，或者说停止对所述生成式对抗网络的训练，输出训练后的人脸生成网络。

在上述的生成式对抗网络中，第一判别网络以所述人脸图像作为判别条件，第二判别网络以所述人脸旋转图像的姿态编码图作为判别条件，二者最后得到的判别结果：第一损失和第二损失，并通过对所述第一损失和所述第二损失加权求和，得到加权求和的结果作为所述生成式对抗网络的总损失，该总损失用于更新所述生成式对抗网络(包括所述人脸生成网络、所述第一判别网络和所述第二判别网络)，迭代上述步骤直至整个生成式对抗网络达到动态平衡或全局最优，则停止更新，输出训练后的人脸生成网络。由此训练得到的人脸生成网络对于人脸的表观真实性以及人脸姿态两方面的信息都能有非常好的把握。综上所述：由于所述第一判别网络以所述人脸图像作为判别条件，因此可以理解人脸的表观真实性由所述第一判别网络把握，由于所述第二判别网络以所述人脸旋转图像的姿态编码图作为判别条件，因此可以理解人脸姿态由所述第二判别网络把握。

实施例二：

图5为本发明实施例二提供的一种人脸旋转图像的生成方法500，包括：

S501，接收人脸图像；

S502，根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图；

S503，根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为所述人脸旋转角度；

S504，根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；其中,所述目标人脸图像是根据所述多张第一训练图片得到的；

S505，根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,其中所述人脸图像的尺寸、所述人脸图像的姿态编码图的尺寸和所述目标人脸图像的姿态编码图的尺寸相同；

S506，将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。

所述方法500具体可以由如图1所示的执行设备110执行，所述方法500中的人脸图像可以是如图1所示的客户设备140给出的输入数据，所述执行设备110中的预处理模块113可以用来执行所述方法500中S502和S504所述的姿态编码过程，所述执行设备110中的预处理模块114可以用来执行所述方法500中的S503。所述预处理模块113还可以用于执行所述S505，所述执行设备110中的计算模块111可以用于执行所述S506。

所述执行设备110具体可以用于训练本申请实施例提供的生成式对抗网络，

值得说明的是，在所述方法500中，所述根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，这里的人脸和所述人脸图像中的人脸，不要求是同一张人脸，事实上，所述人脸图像在所述方法500中，可以是用户输入的实时的待旋转的人脸，而所述多张第一训练图片是数据库维护的训练数据集，因此所述多张第一训练图片中包含的人脸与所述人脸图像包含的人脸可以认为没有直接关系，当然人脸图像中包含的人脸也可以出现在数据库中被当做训练数据进行使用。

可选的，所述方法500可以由CPU处理，也可以由CPU和GPU共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

需要说明的是，在所述方法500中，所述根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号，具体可以是通过特征融合的方式融合所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图得到所述待输入信号。特征融合是将有区分意义并且具有互补作用的特征，通过某种方式有机地结合在一起作为统一的特征。特征融合是生物识别技术领域常用的一种技术手段，可以采用多种方式实现特征的融合。融合后的特征包含的信息更加准确、更加丰富。可以理解，所述待输入信号相比于所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图中的任一图像或姿态编码图包含的信息更加准确、也更加丰富。因此，利用所述待输入信号进行人脸旋转图像的生成，可以使生成的人脸旋转图像更准确，当该人脸旋转方法被应用到人脸识别的应用场景中时，更准确的人脸旋转图像可以用于提高人脸识别的准确度。

在实施例二提供的方法500的基础上，一种可能的实现方式为，所述S502具体可以包括:

这种通过关键点进行高斯模糊从而实现图像姿态编码的方式，对人脸姿态的描述更加精确和鲁棒，通过更加精确和鲁棒的人脸姿态描述，可以使得所述人脸旋转图像生成模型生成的人脸旋转图像更加接近真实的人脸旋转图像。

在实施例二提供的方法500以及其可能的实现方式的基础上，所述S504具体包括：

所述构造与所述目标人脸图像尺寸相同的M张第二图像，与上面所述构造与所述人脸图像尺寸相同的N张第一图像的方式相同，因此此处不再赘述。

在实施例二提供的方法500以及其可能的实现方式的基础上，一种可能的实现方式为：所述目标人脸图像是根据所述多张第一训练图片得到的，包括：

需要说明的是：所述多张第一训练图片的姿态编码图可以使用与所述S502和S504的姿态编码方法相同的姿态编码方法获得，即针对每一张第一训练图片，先利用关键点检测算法对这张第一训练图片进行检测，得到其中的N个人脸关键点(facial landmark)分别对应的位置坐标，然后根据这N个关键点分别对应的位置坐标，生成N个与这N个关键点一一对应的独热码，再以每个独热码中值为1的点为中心进行高斯模糊得到N张高斯模糊图，这样对每一张第一训练图片都做完姿态编码之后，再进行求平均，具体的求平均的方式，可以是对所有高斯模糊图对应的位置像素值进行相加再求平均。

在实施例二提供的方法500以及其可能的实现方式的基础上，一种可能的实现方式为：所述人脸旋转图像生成模型是根据训练生成式对抗网络得到的，所述生成式对抗网络包括至少一个人脸生成网络以及至少两个判别网络，所述至少两个判别网络形成耦合对抗，用于产生对抗损失，所述对抗损失用于更新所述至少一个人脸生成网络以及所述至少两个判别网络，所述更新后的至少一个人脸生成网络为所述人脸旋转图像生成模型。

此处的人脸旋转图像生成模型可以是上述实施例一训练得到的人脸生成网络。

可以理解实施例一为该人脸生成网络的训练阶段(如图1所示的训练设备120执行的阶段)，具体训练是采用由实施例一以及实施例一基础上任意一种可能的实现方式中提供的生成式对抗网络进行的；而实施例二则可以理解为是该人脸生成网络的应用阶段(如图1所示的执行设备110执行的阶段)，具体可以体现为采用由实施例一训练得到的人脸生成网络，并根据用户输入的待旋转的人脸图像，在实施例二中也称人脸旋转图像，从而得到输出图像，即实施例二中的人脸旋转图像。当然由于在实施例二中，待输入信号在被输入所述人脸旋转图像生成模型之前，经过了相应的预处理，如实施例二的 S502和S504所述的姿态编码过程，得到相应的姿态编码图，并可以通过上面所述的特征融合的方式，对S502输出的人脸图像的姿态编码图和S504输出的目标人脸图像的姿态编码图以及S501接收的人脸图像进行特征融合，得到更为丰富的特征图即所述待输入信号，该待输入信号综合了S501，S502和S504的特征，使得所述人脸旋转图像生成模型基于该待输入信号得到的人脸旋转图像质量更好，即更接近真实的人脸旋转图像。

如前面所述，虽然在实施例一的网络训练阶段和实施例二的网络应用阶段，为了表达的简洁与直观，均使用了人脸图像和人脸旋转图像的表述，但是由于两个实施例分别属于不同的实施例用于表示不用的阶段，因此不应该将两个实施例中的人脸图像理解为相同图像，事实上，实施例一中的人脸图像为训练数据，可以表示真实图像，也可以是经插值操作得到的虚拟图像，而实施例二中的人脸图像通常是用户输入的真实人脸图像；同样的，在实施例一中的人脸旋转图像也是训练图像，其可以是真实的图像，也可以是经插值操作得到的虚拟图像；与实施例一中的人脸图像形成训练数据对，对所述生成式对抗网络进行训练；而实施例二中的人脸旋转图像为由所述人脸旋转图像生成模型生成的图像，该图像理论上应尽可能的与真实的人脸旋转图像相同，但是具体要根据人脸旋转图像生成方法的能力而定。

上文结合图1至图5对本申请实施例的人脸旋转图像生成方法及生成式对抗网络的训练方法进行了详细的描述。下文结合图6至图9对本申请实施例的人脸旋转图像生成装置以及生成式对抗网络的训练装置进行描述，应理解，图6至图9所示的动作识别装置具体可以是监控设备、终端设备、网络服务器以及网络云平台等具有图片处理功能的设备。图6至图9所示的装置可以执行本申请实施例的对应方法的各个步骤，为了简洁，下面适当省略重复的描述。

图6是本申请实施例提供的一种生成式对抗网络的训练装置600的示意性框图。所述生成式对抗网络包括人脸生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第一判别网络和第二判别网络，所述装置600包括：

接收单元601，用于接收人脸图像，以及人脸旋转图像；所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像；

姿态编码单元602，用于根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图；

所述姿态编码单元603，还用于根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图；

人脸生成单元604，用于将所述人脸图像、所述人脸图像的姿态编码图以及所述人脸旋转图像的姿态编码图输入所述人脸生成网络，以生成预测人脸旋转图像；

第一判别单元605，用于将所述人脸图像、所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络以得到第一损失；

第二判别单元606，用于将所述人脸旋转图像、所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络以得到第二损失；

反向传播单元607，用于根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，所述生成式对抗网络的总损失根据所述第一损失和第二损失加权求和得到；

输出单元608，直到所述生成式对抗网络的总损失收敛，用于输出训练后的人脸生成网络。

本申请实施例提供的生成式对抗网络的训练装置，通过对对人脸图像和人脸旋转图像进行姿态编码，得到人脸图像的姿态编码图和人脸旋转图像的姿态编码图，并通过所述生成式对抗网络中的人脸生成网络生成预测人脸旋转图像；进而通过至少第一判别网络和第二判别网络分别对预测人脸旋转图像进行判别得到第一损失和第二损失，将所述第一损失和第二损失进行加权求和得到生成式对抗网络的总损失，并由该总损失更新所述生成式对抗网络中的人脸生成网络以及第一判别网络和第二判别网络。由于上述的姿态编码方式对人脸姿态的描述更加精确和鲁棒，使得人脸生成网络或者判别网络通过上述的姿态编码图得到的预测人脸旋转图像也更加接近真实的人脸旋转图像。另外，在该训练装置中，由于对训练数据(人脸图像和人脸旋转图像)的旋转角度并没有限制，因此该训练得到的网络也可以适应于各种不同角度的人脸旋转，由此提升人脸旋转的可操作性以及用户体验。并且，通过使用第一判别网络和第二判别网络，且所述第一判别网络和第二判别网络耦合对抗，使得不同的判别网络可以通过不同的条件对所述人脸生成网络生成的预测人脸旋转图像进行判别，且不同判别网络得到判别结果都会对所述生成式对抗网络产生影响，从而使得所述生成式对抗网络能够根据上述不同的条件对人脸图像的不同方面进行调整和把握，从而输出更加准确的人脸旋转图像。

图7是本申请实施例提供的一种人脸旋转图像的生成装置700的示意性框图。所述装置700包括：

接收单元701，用于接收人脸图像；

姿态编码单元702，用于根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图；

获取单元703，用于根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为所述人脸旋转角度；

所述姿态编码单元702，还用于根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；其中,所述目标人脸图像是根据所述多张第一训练图片得到的；

信号生成单元704，用于根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,其中所述人脸图像的尺寸、所述人脸图像的姿态编码图的尺寸和所述目标人脸图像的姿态编码图的尺寸相同；

图像生成单元705，用于将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。

图8是本申请实施例提供的一种生成式对抗网络的训练装置的硬件结构示意图。图8所示的生成式对抗网络的训练装置800(该装置800具体可以是一种计算机设备)包括存储器801、处理器802、通信接口803以及总线804。其中，存储器801、处理器802、通信接口803通过总线804实现彼此之间的通信连接。

存储器801可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器801可以存储程序，当存储器801中存储的程序被处理器802执行时，处理器802和通信接口803用于执行本申请实施例的生成式对抗网络的训练方法的各个步骤。

处理器802可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的生成式对抗网络的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的生成式对抗网络的训练方法。

处理器802还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的生成式对抗网络的训练方法的各个步骤可以通过处理器802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器802还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器801，处理器802读取存储器801中的信息，结合其硬件完成本申请实施例的生成式对抗网络的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的生成式对抗网络的训练方法。

通信接口803使用例如但不限于收发器一类的收发装置，来实现装置800与其他设备或通信网络之间的通信。例如，可以通过通信接口803获取训练数据(如本申请实施例一所述的人脸图像和人脸旋转图像)。

总线804可包括在装置800各个部件(例如，存储器801、处理器802、通信接口803)之间传送信息的通路。

应理解，生成式对抗网络的训练装置600中的接收单元601相当于生成式对抗网络的训练装置800中的通信接口803，姿态编码单元602、人脸生成单元604、第一判别单元605、第二判别单元606以及反向传播单元607可以相当于处理器802。

图9是本申请实施例提供的人脸旋转图像的生成装置的硬件结构示意图。图9所示的人脸旋转图像的生成装置900(该装置900具体可以是一种计算机设备)包括存储器901、处理器902、通信接口903以及总线904。其中，存储器901、处理器902、通信接口903通过总线904实现彼此之间的通信连接。

存储器901可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器901可以存储程序，当存储器901中存储的程序被处理器902执行时，处理器902和通信接口903用于执行本申请实施例的人脸旋转图像的生成方法的各个步骤。

处理器902可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的人脸旋转图像的生成装置中的单元所需执行的功能，或者执行本申请方法实施例的人脸旋转图像的生成方法。

处理器902还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的人脸旋转图像的生成方法的各个步骤可以通过处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器902还可以是通用处理器、数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器902读取存储器901中的信息，结合其硬件完成本申请实施例的人脸旋转图像的生成装置中包括的单元所需执行的功能，或者执行本申请方法实施例的人脸旋转图像的生成方法。

通信接口903使用例如但不限于收发器一类的收发装置，来实现装置900与其他设备或通信网络之间的通信。例如，可以通过通信接口903获取训练数据(如本申请实施例二所述的人脸图像)。

总线904可包括在装置900各个部件(例如，存储器901、处理器902、通信接口903)之间传送信息的通路。

应理解，人脸旋转图像的生成装置700中的接收单元701，获取单元703相当于人脸旋转图像的生成装置900中的通信接口903；人脸旋转图像的生成装置700中的姿态编码单元702、信号生成单元704、图像生成单元705可以相当于处理器902。

应注意，尽管图8和图9所示的装置800和900仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置800和900还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置800和900还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置800和900也可仅仅包括实现本申请实施例所必须的器件，而不必包括图8或图9中所示的全部器件。

可以理解，所述装置800相当于图1中的所述训练设备120，所述装置900相当于图1中的所述执行设备110。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种人脸旋转图像的生成方法，其特征在于，包括：

接收人脸图像；

根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图；

根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为所述人脸旋转角度；

根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；其中,所述目标人脸图像是根据所述多张第一训练图片得到的；

根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,其中所述人脸图像的尺寸、所述人脸图像的姿态编码图的尺寸和所述目标人脸图像的姿态编码图的尺寸相同；

将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。
根据权利要求1所述的方法，其特征在于，所述根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图包括:

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，N为大于1的整数；

构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应；

分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图。
根据权利要求1或2所述的方法，其特征在于，根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图包括:

利用关键点检测算法对所述目标人脸图像进行检测，得到所述目标人脸图像的M个关键点分别对应的位置坐标，M为大于1的整数；

构造与所述目标人脸图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应；

分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述目标人脸图像的姿态编码图。
根据权利要求1至3任一项所述的方法，其特征在于，所述目标人脸图像是根据所述多张第一训练图片得到的，包括：

所述目标人脸图像是根据所述多张第一训练图片的姿态编码图的平均值得到的。
根据权利要求1至4任一项所述的方法，其特征在于，所述人脸旋转图像生成模型是根据训练生成式对抗网络得到的，所述生成式对抗网络包括至少一个人脸生成网络以及至少两个判别网络，所述至少两个判别网络形成耦合对抗，用于产生对抗损失，所述对抗损失用于更新所述至少一个人脸生成网络以及所述至少两个判别网络，所述更新后的至少一个人脸生成网络为所述人脸旋转图像生成模型。
一种生成式对抗网络的训练方法，其特征在于，所述生成式对抗网络包括人脸生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第一判别网络和第二判别网络，所述方法包括：

接收人脸图像，以及人脸旋转图像；所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像；

根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图；

根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图；

将所述人脸图像、所述人脸图像的姿态编码图以及所述人脸旋转图像的姿态编码图输入所述人脸生成网络，以生成预测人脸旋转图像；

将所述人脸图像、所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络以得到第一损失；

将所述人脸旋转图像、所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络以得到第二损失；

根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，所述生成式对抗网络的总损失根据所述第一损失和第二损失加权求和得到；

直到所述生成式对抗网络的总损失收敛，输出训练后的人脸生成网络。
根据权利要求6所述的方法，其特征在于，在所述根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络之前，所述方法还包括：

根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，所述真实图像损失包括像素损失、全变分损失及身份识别特征损失中的至少一个损失；对应的，所述生成式对抗网络的总损失根据所述真实图像损失中的至少一个损失、所述第一损失和第二损失加权求和得到。
根据权利要求6或7所述的方法，其特征在于，所述根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图，包括：

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应，分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图，N为大于1的正整数。
根据权利要求6至8任一项所述的方法，其特征在于，所述根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图，包括：

利用关键点检测算法对所述人脸旋转图像进行检测，得到所述人脸旋转图像的M个关键点分别对应的位置坐标，构造与所述人脸旋转图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应，分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述人脸旋转图像的姿态编码图，M为大于1的正整数。
根据权利要求6至9任一项所述的方法，其特征在于，所述将所述人脸图像，所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络得到第一损失，包括：

以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失；其中，所述第一判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。
根据权利要求10所述的方法，其特征在于：以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失，包括：

其中，L ⁱⁱ为所述第一损失，I ^a为所述人脸图像，I ^b为所述人脸旋转图像，
为所述预测人脸旋转图像，
表示在所述人脸旋转图像I ^b的分布H(I ^b)上求期望，即所述人脸旋转图像I ^b为真的概率；
表示所述第一判别网络的损失函数，
表示在所述预测人脸旋转图像
的分布
上的期望，即所述预测人脸旋转图像
为真的概率；
为以所述人脸图像为条件的所述第一判别网络，θ _ii为所述第一判别网络的参数，
为所述第一判别网络的输入。
根据权利要求6至11任一项所述的方法，其特征在于，所述将所述人脸旋转图像，所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络得到第二损失，包括：

以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失；其中，所述第二判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。
根据权利要求12所述的方法，其特征在于，以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失，包括：

其中，L ^ip为所述第二损失，I ^b为所述人脸旋转图像，
为所述预测人脸旋转图像，P ^b为所述人脸旋转图像的姿态编码图，
表示在所述人脸旋转图像I ^b的分布H(I ^b)上求期望，即所述人脸旋转图像I ^b为真的概率；
表示所述第二判别网络的损失函数，
表示在所述预测人脸旋转图像
的分布
上的期望，即所述预测人脸旋转图像
为真的概率；
为以所述人脸旋转图像的姿态编码图为条件的所述第二判别网络，θ _ip为所述第二判别网络的参数，
为所述第二判别网络的输入。
根据权利要求7至13任一项所述的方法，其特征在于，当所述真实图像损失包括像素损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，L _pix是所述像素损失，S是尺度量，
为所述预测人脸旋转图像，I ^b为所述人脸旋转图像，
表示将所述预测人脸旋转图像和所述人脸旋转图像进行缩放到S尺度量时计算像素差值的1范数损失。
根据权利要求7至14任一项所述的方法，其特征在于，当所述真实图像损失包括全变分损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，L _tv是所述全变分损失，即所述预测人脸旋转图像
在横向和纵向两个方向一阶梯度绝对值的和，其中，W表示所述预测人脸旋转图像的宽，H表示所述预测人脸旋转图像的高，C表示所述预测人脸旋转图像通道数。
根据权利要求7至15任一项所述的方法，其特征在于，当所述真实图像损失包括身份识别特征损失，所述根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，包括：

其中，身份识别特征用来保证所述预测人脸旋转图像和所述人脸图像之间的身份信息保持不变，L _ip表示所述身份识别特征损失，f为预先训练好的人脸识别模型，所述人脸识别模型f为深度神经网络，所述深度神经网络包括至少一个池化层和至少一个全连接层，其中，
表示所述人脸识别模型f的最后一个池化层的输出，
表示所述人脸识别模型f最后一个全连接层的输出。
一种人脸旋转图像的生成装置，其特征在于，包括：

接收单元，用于接收人脸图像；

姿态编码单元，用于根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码,得到所述人脸图像的姿态编码图；

获取单元，用于根据人脸旋转角度从训练数据集中获取多张第一训练图片,所述多张第一训练图片均包含人脸，且所述多张第一训练图片中包含的人脸呈现的旋转角度均为所述人脸旋转角度；

所述姿态编码单元，还用于根据目标人脸图像中的两个或两个以上关键点对所述目标人脸图像进行姿态编码,得到所述目标人脸图像的姿态编码图；其中,所述目标人脸图像是根据所述多张第一训练图片得到的；

信号生成单元，用于根据所述人脸图像、所述人脸图像的姿态编码图和所述目标人脸图像的姿态编码图生成待输入信号,其中所述人脸图像的尺寸、所述人脸图像的姿态编码图的尺寸和所述目标人脸图像的姿态编码图的尺寸相同；

图像生成单元，用于将所述待输入信号输入人脸旋转图像生成模型得到人脸旋转图像。
根据权利要求17所述的装置，其特征在于，所述姿态编码单元，具体用于：

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，N为大于1的整数；

构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应；

分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图。
根据权利要求17或18所述的装置，其特征在于，所述姿态编码单元，具体用于：

利用关键点检测算法对所述目标人脸图像进行检测，得到所述目标人脸图像的M个关键点分别对应的位置坐标，M为大于1的整数；

构造与所述目标人脸图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应；

分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述目标人脸图像的姿态编码图。
根据权利要求17至19任一项所述的装置，其特征在于，所述目标人脸图像是根据所述多张第一训练图片得到的，包括：

所述目标人脸图像是根据所述多张第一训练图片的姿态编码图的平均值得到的。
根据权利要求17至20任一项所述的装置，其特征在于，所述人脸旋转图像生成模型是根据训练生成式对抗网络得到的，所述生成式对抗网络包括至少一个人脸生成网络以及至少两个判别网络，所述至少两个判别网络形成耦合对抗，用于产生对抗损失，所述对抗损失用于更新所述至少一个人脸生成网络以及所述至少两个判别网络，所述更新后的至少一个人脸生成网络为所述人脸旋转图像生成模型。
一种生成式对抗网络的训练装置，其特征在于，所述生成式对抗网络包括人脸生成网络，以及多个耦合对抗的判别网络，所述耦合对抗的判别网络至少包括第一判别网络和第二判别网络，所述装置包括：

接收单元，用于接收人脸图像，以及人脸旋转图像；所述人脸图像和所述人脸旋转图像为同一张人脸旋转前和旋转后的图像；

姿态编码单元，用于根据所述人脸图像中的两个或两个以上关键点对所述人脸图像进行姿态编码，得到所述人脸图像的姿态编码图；

所述姿态编码单元，还用于根据所述人脸旋转图像中的两个或两个以上关键点对所述人脸旋转图像进行姿态编码，得到所述人脸旋转图像的姿态编码图；

人脸生成单元，用于将所述人脸图像、所述人脸图像的姿态编码图以及所述人脸旋转图像的姿态编码图输入所述人脸生成网络，以生成预测人脸旋转图像；

第一判别单元，用于将所述人脸图像、所述人脸旋转图像和所述预测人脸旋转图像输入所述第一判别网络以得到第一损失；

第二判别单元，用于将所述人脸旋转图像、所述人脸旋转图像的姿态编码图以及所述预测人脸旋转图像输入所述第二判别网络以得到第二损失；

反向传播单元，用于根据所述生成式对抗网络的总损失更新所述人脸生成网络、所述第一判别网络以及所述第二判别网络，所述生成式对抗网络的总损失根据所述第一损失和第二损失加权求和得到；

输出单元，直到所述生成式对抗网络的总损失收敛，用于输出训练后的人脸生成网络。
根据权利要求22所述的装置，其特征在于，所述装置还包括：真实图像损失计算单元，用于：

根据所述人脸旋转图像及所述预测人脸旋转图像得到真实图像损失，所述真实图像损失包括像素损失、全变分损失及身份识别特征损失中的至少一个损失；对应的，所述生成式对抗网络的总损失根据所述真实图像损失中的至少一个损失、所述第一损失和第二损失加权求和得到。
根据权利要求22或23所述的装置，其特征在于，所述姿态编码单元具体用于：

利用关键点检测算法对所述人脸图像进行检测，得到所述人脸图像的N个关键点分别对应的位置坐标，构造与所述人脸图像尺寸相同的N张第一图像，所述N张第一图像与所述N个关键点一一对应，分别以所述N个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第一图像进行高斯模糊处理，得到N张第一高斯模糊图，所述N张第一高斯模糊图为所述人脸图像的姿态编码图，N为大于1的正整数。
根据权利要求22至24任一项所述的装置，其特征在于，所述姿态编码单元具体用于：

利用关键点检测算法对所述人脸旋转图像进行检测，得到所述人脸旋转图像的M个关键点分别对应的位置坐标，构造与所述人脸旋转图像尺寸相同的M张第二图像，所述M张第二图像与所述M个关键点一一对应，分别以所述M个关键点中的每个关键点为中心，对与所述每个关键点一一对应的第二图像进行高斯模糊处理，得到M张第二高斯模糊图，所述M张第二高斯模糊图为所述人脸旋转图像的姿态编码图，M为大于1的正整数。
根据权利要求22至25任一项所述的装置，其特征在于，所述第一判别单元用于：

以所述人脸图像作为所述第一判别网络的判别条件，根据所述第一判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第一损失；其中，所述第一判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。
根据权利要求26所述的装置，其特征在于：所述第一判别单元具体用于执行如下计算：

其中，L ⁱⁱ为所述第一损失，I ^a为所述人脸图像，I ^b为所述人脸旋转图像，
为所述预测人脸旋转图像，
表示在所述人脸旋转图像I ^b的分布H(I ^b)上求期望，即所述人脸旋转图像I ^b为真的概率；
表示所述第一判别网络的损失函数，
表示在所述预测人脸旋转图像
的分布
上的期望，即所述预测人脸旋转图像
为真的概率；
为以所述人脸图像为条件的所述第一判别网络，θ _ii为所述第一判别网络的参数，
为所述第一判别网络的输入。
根据权利要求22至27任一项所述的装置，其特征在于，所述第二判别单元用于：

以所述人脸旋转图像的姿态编码图作为所述第二判别网络的判别条件，根据所述第二判别网络判断所述人脸旋转图像和所述预测人脸旋转图像的真假性，并根据判别结果生成所述第二损失；其中，所述第二判断网络包括二分类判别器，所述二分类判别器用于判断为真或判断为假。
根据权利要求28所述的装置，其特征在于，所述第二判别单元具体用于执行如下计算：

其中，L ^ip为所述第二损失，I ^b为所述人脸旋转图像，
为所述预测人脸旋转图像，P ^b为所述人脸旋转图像的姿态编码图，
表示在所述人脸旋转图像I ^b的分布H(I ^b)上求期望，即所述人脸旋转图像I ^b为真的概率；
表示所述第二判别网络的损失函数，
表示在所述预测人脸旋转图像
的分布
上的期望，即所述预测人脸旋转图像
为真的概率；
为以所述人脸旋转图像的姿态编码图为条件的所述第二判别网络，θ _ip为所述第二判别网络的参数，
为所述第二判别网络的输入。
根据权利要求23至29任一项所述的装置，其特征在于，当所述真实图像损失包括像素损失，所述真实图像损失计算单元用于执行如下计算：

其中，L _pix是所述像素损失，S是尺度量，
为所述预测人脸旋转图像，I ^b为所述人脸旋转图像，
表示将所述预测人脸旋转图像和所述人脸旋转图像进行缩放到S尺度量时计算像素差值的1范数损失。
根据权利要求23至30任一项所述的装置，其特征在于，当所述真实图像损失包括全变分损失，所述真实图像损失计算单元用于执行如下计算：

其中，L _tv是所述全变分损失，即所述预测人脸旋转图像
在横向和纵向两个方向一阶梯度绝对值的和，其中，W表示所述预测人脸旋转图像的宽，H表示所述预测人脸旋转图像的高，C表示所述预测人脸旋转图像通道数。
根据权利要求23至31任一项所述的装置，其特征在于，当所述真实图像损失包括身份识别特征损失，所述真实图像损失计算单元用于执行如下计算：

其中，身份识别特征用来保证所述预测人脸旋转图像和所述人脸图像之间的身份信息保持不变，L _ip表示所述身份识别特征损失，f为预先训练好的人脸识别模型，所述人脸识别模型f为深度神经网络，所述深度神经网络包括至少一个池化层和至少一个全连接层，其中，
表示所述人脸识别模型f的最后一个池化层的输出，
表示所述人脸识别模型f最后一个全连接层的输出。
一种人脸旋转图像的生成设备，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行权利要求1-5任一项所述的方法。
一种训练生成式对抗网络的设备，其特征在于，包括处理器和存储器，所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行权利要求6-16任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1-5任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求6-16任一项所述的方法。