WO2020207177A1

WO2020207177A1 - 图像增广与神经网络训练方法、装置、设备及存储介质

Info

Publication number: WO2020207177A1
Application number: PCT/CN2020/078650
Authority: WO
Inventors: 刘颖璐; 申豪; 石海林; 梅涛
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2019-04-09
Filing date: 2020-03-10
Publication date: 2020-10-15
Also published as: CN111797264A

Abstract

本申请实施例公开了图像增广与神经网络训练方法、装置、设备及存储介质，包括：获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；基于所述修复图像得到所述目标对象的增广图像集。

Description

图像增广与神经网络训练方法、装置、设备及存储介质

相关申请的交叉引用

本申请基于申请号为201910282291.0、申请日为2019年04月09日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以全文引入的方式引入本申请。

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像增广与神经网络训练方法、装置、设备及存储介质。

背景技术

深度学习的人脸与识别模型的训练需要大量精确标注的数据，但是人工标注的数据量非常有限，另外，对于大姿态的人脸图像来说进行人工标注的难度很高，由于自遮挡和大姿态的存在，在人工标注的过程中，对于不可见位置的标注，往往需要猜测关键点的位置，带有一定的主观性，例如确定一个人的左嘴角位置，不同的人标注的结果可能会有些许偏差，标注的准确性难以把握。现有的人脸关键点数据库中，精确的大姿态人脸关键点数据也比较少。

发明内容

有鉴于此，本申请实施例的主要目的在于提供一种图像增广的方法及装置、神经网络训练方法及装置、计算机设备及存储介质，能够自动快速获取携带有指定目标对象的关键点信息的增广图像。

为达到上述目的，本申请实施例的技术方案是这样实现的：

本申请实施例第一方面，提供了一种图像增广方法，包括：获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；基于所述修复图像得到所述目标对象的增广图像集。

本申请实施例的第二方面，提供一种神经网络训练方法，包括：采用本申请任意实施例所提供的图像增广方法获得目标对象的增广图像集；根据所述目标对象的二维图像和所述增广图像集形成训练样本集；将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。

本申请实施例的第三方面，提供了一种图像增广装置，所述装置包括：获取模块，配置为获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；投影模块，配置为获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；第一处理模块，配置为基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；第二处理模块，配置为基于所述修复图像得到所述目标对象的增广图像集。

本申请实施例的第四方面，提供了一种神经网络训练装置，所述装置包括：样本生成模块，配置为采用本申请任意实施例所提供的图像增广方法获得目标对象的增广图像集，根据所述目标对象的二维图像和所述增广图像集形成训练样本集；训练模块，配置为将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。

本申请实施例的第五方面，提供了一种计算机设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器配置为运行所述计算机程序时，实现本申请任一实施例所提供的图像增广方法、或实现本申请任一实施例所提供的神经网络训练方法。

本申请实施例的第六方面，提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所提供的图像增广方法、或实现本申请任一实施例所提供的神经网络训练方法。

本申请上述实施例中，通过获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，如此，通过所述目标对象的一张原始二维图像，可以获取大量缺损二维图像；基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像，从而可以准确且高效地得到包含有所述目标对象的关键点信息的增广图像集。如此，基于所述修复图像得到所述目标对象的增广图像集，有效的解决了神经网络中训练数据少、人工标注不准确的问题，可以扩充不同角度的目标对象数据，并且提升了大姿态下人工标注的准确率，从而进一步提升神经网络模型训练的效果。

附图说明

图1为目前已知的获得106点关键点坐标的流程示意图；

图2为目前已知的基于三维模型生成106点关键点坐标的流程示意图；

图3为本申请一实施例提供的图像增广方法的流程示意图；

图4为本申请一实施例提供的人脸106点关键点的示意图；

图5为本申请一实施例提供的三维标准模型的实例样图；

图6为本申请一实施例提供的神经网络训练方法的流程示意图

图7为本申请一实施例提供的图像增广装置的结构示意图；

图8为本申请一实施例提供的神经网络训练装置的结构示意图；

图9为本申请一实施例提供的计算机设备的结构示意图；

图10为本申请另一实施例提供的图像增广方法的流程示意图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

对本申请进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)目标对象，是指用于神经网络训练时待识别图像中包含的对象，本文中是指人脸。

2)缺损二维图像，指三维图像旋转后根据投影得到的二维图像，由于是根据三维图像通过旋转后投影得到，可能造成图像中纹理空洞的情况，将其称之为缺损二维图像。

3)三维标准模型，指由根据目标对象的多个特定位置的多个像素点建立的立体模型，以目标对象为人脸为例，是指通过表示所述人脸的特定位置的所有像素点构成的模型，例如，若一个三维标准模型具有3万个像素点，则该3万个像素点有序排列且每个像素点能够表示人脸上的某一特定位置，例如眼睛、嘴巴或鼻子等。

4)二维训练图像，用于图像训练的样本图像。

5)损失函数(loss function)，也叫代价函数(cost function)，是神经网络优化的目标函数；

6)神经网络(Neural Networks,NN)，是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。

请参阅图1，为目前已知的一种人脸关键点的生成方法，通过建立三维人脸模型，将三维人脸模型旋转一定角度以及进行68点关键点采样后的投影，得到不同角度下的包含68点关键点坐标的二维图像，然后再次利用插值的方法对关键点进行补充，得到106点的关键点，该方案在由三维人脸模型投影得到二维图像过程中会造成一定程度上的关键点精度的损失，其次利用插值方法进行关键点补充得到106点的关键会造成精度上的二次损失。

因此，基于上述方案，目前还提出了另外一种减少了一次维度转换造成的关键点精度损失的方案，参见图2，为另一已知的人脸关键点的生成方法，通过建立三维人脸模型，将三维人脸模型旋转一定角度以及进行106点关键点采样后的投影，得到不同角度下的包含106点关键点坐标的二维图像，然而该方法生成的图像中会存在缺损，同样会造成一定程度上的关键点精度的损失。基于上述已知的方案存在的问题，请参阅图3，本申请一实施例提供了一种图像增广方法，该方法包括如下步骤：

步骤101：获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；

三维图像由所述目标对象的二维图像重建获得，是指对于输入的包含目标对象的二维图像，通过调节三维标准模型的组合参数，具体地，可以包括形状表情模型和纹理模型，得到与输入的二维图像的相似度最高的所述目标对象的三维图像；这里，目标对象是指人脸，三维图像可以为人脸模型，对应目标对象为其它物体而言，三维图像相应也可以是其它物体模型。

携带有目标对象的设置关键点标注的三维图像，是指在三维图像中包括人脸关键点的对应顶点，这里，关键点可以是106点人脸关键点，请参阅图4，人脸的106点人脸关键点分别用于表示人脸上的某一特定位置，主要包括眉毛、眼睛、嘴巴或鼻子以及脸部轮廓等，相较于68点关键点，更完整的勾勒出眉毛的上下边缘、轮廓信息以及鼻翼处信息，因此能够更加完整的描述出人脸及其五官的轮廓。

步骤102：获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；

获取所述三维图像旋转设定角度后投影所对应的缺损二维图像是指基于获取的三维图像在三维空间进行旋转，例如，将所述三维图像放置于三维坐标原点上，从三维图像的正面进行投影，让三维图像在三维坐标上旋转，分别以三维坐标上坐标轴X、Y、Z为圆心旋转，从而获得不同设定角度后投影对应的缺损二维图像。

所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标是指建立不同角度下对应的二维缺损图像和对应的三维图像的对应关系，这里，例如三维图像上某个关键点A在初始位置时的坐标为A(x1，y1，z1)，通过旋转一角度α后获取关键点A的三维坐标为A＇(x2，y2，z2)，从而确定α角度对应的转换坐标。

步骤103：基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；

基于训练后的神经网络对所述缺损二维图像进行特征提取，是指对所述缺损二维图像特征提取，获取每一所述缺损二维图像对应的姿态的角度所对应的设置关键点的转换坐标。

所述缺损二维图像是指三维图像旋转后投影造成纹理空洞的二维图像；与所述缺损二维图像对应的修复图像，是指基于所述训练后的神经网络修复纹理空洞处的关键点坐标而获得的图像。

步骤104：基于所述修复图像得到所述目标对象的增广图像集。

基于所述修复图像得到所述目标对象的增广图像集，是指分别根据每一所述缺损二维图像修复得到的、与所述缺损二维图像对应的修复图像所组成的图像集，即增广图像集。

在一实施方式中，所述获取携带有目标对象的设置关键点标注的三维图像，包括：

获取所述目标对象的二维图像，基于所述二维图像以及三维标准模型包含的关键点映射关系，确定与所述二维图像对应的三维图像及设置关键点的三维坐标。

二维图像是指用于重建获取三维图像所拍摄或者绘制的包含目标对象的原始图片，目标对象这里一般是指人脸，也可以是其他物体。

三维标准模型指由多个表示人脸上的特定位置的像素点构成的模型，例如，参见图5，若一个三维标准模型具有3万个像素点，则该3万个像素点有序排列且每个像素点能够表示人脸上的某一特定位置，例如眼睛、嘴巴或鼻子等；其中，关键点可以是106点人脸关键点，所述三维标准模型可以是使用三维可变人脸模型(3DMM)构建三维人脸模型。

三维可变人脸模型(3DMM)建立在三维人脸数据库的基础上，以人脸形状和人脸纹理统计为约束，同时考虑到了人脸的姿态和光照因素的影响，可以生成高精度的三维人脸模型。3DMM模型数据库人脸数据对象的线性组合，在上面3D人脸表示基础上，假设我们建立3D变形的人脸模型由m个人脸模型组成，其中每一个人脸模型都包含相应的S _i和T _i两种向量，这样在表示新的3D人脸模型时，参见公式(1)、(2)

其中

表示平均脸部形状模型，S _i和e _i分别表示形状和表情的主成分分析(Principal Component Analysis，PCA)部分，α _i和β _i分别表示形状和表情的对应系数；纹理模型同理。这样，一张新的人脸模型就可以由已有的脸部模型线性组合。也就是说，可以通过改变系数，在已有人脸标准模型的基础上生成三维图像。

这里，三维标准模型预先设置有关键点对应的坐标以及对应的索引。基于所述二维图像以及三维标准模型包含的关键点映射关系，是指基于三维标准模型包含的关键点与二维图像中对应的像素点确定三维图像中每一关键点的对应在三维标准模型中的索引值，进一步地，确定输入的二维图像基于三维标准模型对应的三维图像中包含的关键点的对应的三维坐标。

在本申请上述实施方式中，基于二维图像及三维标准模型获取二维图像对应的三维图像集设置关键点的三维坐标，如此，保证了基于三维图像进行旋转投影得到的二维图像包含了所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标。

在一实施方式中，所述获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，包括：

基于所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，确定所述三维图像旋转设定角度后所述目标对象对应的姿态，基于所述姿态确定对应的投影矩阵；

基于所述投影矩阵确定与所述姿态对应的缺损二维图像。

基于所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，确定所述三维图像旋转设定角度后所述目标对象对应的姿态，是指基于三维图像旋转的角度确定对应的坐标偏移值，例如，三维图像上某个关键点A在初始位置时的坐标为A(x1，y1，z1)，通过旋转一角度α后获取关键点A的三维坐标为A＇(x2，y2，z2)，即确定该对应的转换坐标下对应的姿态为第一姿态。

投影矩阵是指将三维坐标下的坐标转化到二维坐标对应的矩阵。这里，可以通过确定第一姿态对应的投影矩阵确定对应的缺损二维图像以及对应的所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标。

在上述实施方式中，基于确定的所述三维图像旋转设定角度后所述目标对象对应的姿态得到不同的投影矩阵，进而得到与投影矩阵对应的缺损二维图像，如此实现了一张二维图像的增广处理，得到缺损二维图像集。

在一实施方式中，所述获取携带有目标对象的设置关键点标注的三维图像之前，还包括：

获取所述目标对象的原始二维图像作为待增广图像，对所述待增广图像进行处理，得到处理后的所述目标对象的二维图像；其中所述处理包括缩放处理和/或归一化处理。

这里，将获取到目标对象的原始二维图像的作为待增广图像，对该待增广图像进行缩放处理，例如，将该待增广图像缩放至固定大小(例如128*128)。对缩放至固定大小的待增广图像进行归一化处理，例如减均值或除方差，得到处理后的所述目标对象的二维图像。如此，减轻外部环境对图像造成的影响，比如光照、噪声、旋转等。

在一实施方式中，所述神经网络为生成对抗网络，所述生成对抗网络包括生成网络和对抗网络；所述基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像，包括：

将所述缺损二维图像输入训练后的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得生成后的二维修复图像；

将所述生成后的二维修复图像和所述二维图像输入对抗网络，确定所述生成后的二维修复图像和所述二维图像的判别结果，基于所述判别结果确定与所述缺损二维图像对应的修复图像。

生成对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生输出，这里，生成网络对应是指生成对抗网络中的生成模型，对抗网络对应是指生成对抗网络中的对抗模型。

将所述缺损二维图像输入训练后的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得生成后的二维修复图像是指通过生成网络基于所述设置关键点的转换坐标与姿态对应关系生成纹理修复后的图像，即生成后的二维修复图像。

将所述生成后的二维修复图像和所述二维图像输入对抗网络，确定所述生成后的二维修复图像和所述二维图像的判别结果是指基于所述生成后的二维修复图像和所述二维图像输入对抗网络，判断二维修复图像待填补区域对应的关键点是否和二维图像的关键点是否在设置的范围，即基本一致，若是，则确定生成后的二维修复图像为与所述缺损二维图像对应的修复图像。

在上述实施方式中，基于生成网络生成与所述缺损二维图像对应的生成后的二维修复图像，基于对抗网络进行判断，从而获取与所述缺损二维图像对应的修复图像，如此，实现了对三维图像旋转投影造成的纹理空洞的修复。

在一实施方式中，所述获取携带有目标对象的设置的关键点标注的三维图像之前，包括：

基于包含目标对象的二维图像重建获得三维训练图像，所述三维训练图像携带有目标对象的设置关键点标注标签；

获取基于所述三维训练图像旋转不同设定角度后分别投影所对应的多个二维训练图像的二维训练图像集。

这里，二维图像可以是二维人脸图像，基于二维图像获取对应的携带有目标对象的设置关键点标注标签的三维训练图像。

获取基于所述三维训练图像旋转不同设定角度后分别投影所对应的多个二维训练图像的二维训练图像集是指通过对所述三维训练图像按照不同设定个角度进行旋转并投影从而得到多个二维训练图像组成的二维训练图像集，例如，将所述三维训练图像放置于三维坐标原点上，从三维训练图像的正面进行投影，让三维训练图像在三维坐标上旋转，分别以三维坐标上坐标轴X、Y、Z为圆心旋转，从而获得不同设定角度后投影对应的二维训练图像组成的二维训练图像集。

在上述实施方式中，通过二维图像重建的三维训练图像，在基于所述三维训练图像旋转不同设定角度后分别投影得到多个二维训练图像的二维图像训练集，如此，大大的减少了人脸关键点定位任务对标注数据的大量依赖以及训练前的数据准备时间，通过一张二维图像即可自动获取二维图像训练集。

在一实施方式中，所述获取携带有目标对象的设置的关键点标注的三维图像之前，还包括：

将所述二维训练图像输入初始的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得对应的生成后的训练修复图像；

将所述二维训练图像和所述生成后的训练修复图像输入所述对抗网络，确定所述二维图像和所述生成后的训练修复图像的判别结果；

基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。

这里，损失函数(loss function)也叫代价函数(cost function)，是神经网络优化的目标函数，神经网络训练或者优化的过程就是最小化损失函数的过程，损失函数值越小，对应预测的结果和真实结果的值就越接近，在本申请中，损失函数可以包括对抗损失函数和重构损失函数。

确定所述二维训练图像和所述生成后的训练修复图像的判别结果，若不满足设置条件，则对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。

这里，对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件是指通过再采样得到的二维训练图像更新生成网络参数，重新获得生成后的训练修复图像，再将所述二维训练图像和所述生成后的训练修复图像输入对抗网络，直至所述设置的损失函数满足收敛条件，获得所述训练后的生成网络和所述训练后的对抗网络。具体地，利用神经网络后向传播算法，迭代更新生成网络和对抗网络各参数的取值，先更新对抗网络的参数，然后通过再采样得到的训练色块更新生成网络的参数，直至所述设置的损失函数满足收敛条件，获得训练后的生成对抗网络。如此，通过交替迭代训练获得训练后的生成网络和训练后的对抗网络，利用训练后的生成对抗网络来修补由于旋转而造成的纹理空洞，减少了人为误差和高人力成本。

在一实施方式中，所述基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件之前，还包括：

根据对抗损失函数和重构损失函数的组合，得到所述生成对抗网络对应的损失函数。

这里，损失函数包括两个部分，对抗损失函数和重构损失函数，分别参见公式(3)、(4)；

L _adv＝E _x[logD(x)]+E _x[log(1-(D(G(x))))] (3)

L _rec＝E _x[w⊙(x-G(x)) ₁] (4)

其中，L _adv为对抗损失函数，L _rec为重构损失函数，G为生成网络，D为判别网络，x为输入样本，即旋转后存在纹理空洞的图像，G(x)为基于输入图像x的生成图像，即纹理修补后的图像。对抗损失的目的是使得生成的图像更加的真实自然，重构损失函数中引入了权重系数w，其目的是使得修补后的图像除了填补区域外其他的区域尽可能和原图保持一致，从而保证关键点坐标的正确性。

在另一实施方式中，如图6所示，还提供了一种神经网络训练方法，包括：

步骤201：获得目标对象的增广图像集；根据所述目标对象的二维图像和所述增广图像集形成训练样本集；其中，获取目标对象的增广图像集可以是采用本申请任意实施例所提供的图像增广方法获得的目标对象的增广图像集。

步骤202：将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。

这里，基于目标对象的二维图像形成对应的增广图像集作为神经网络的训练样本，以确保能够更快速的获取更多有效的训练样本以实现对神经网络的训练，提升训练后的神经网络的分类准确性，这里，由于增广图像包括了对设置关键点的准确定位，可以将该增广图像集对神经网络进行训练得到训练后的所述神经网络模型，该神经网络模型可用于表情识别、动画合成、直播、美颜、特效相机等应用场景中。

在另一实施方式中，如图7所示，还提供了一种图像增广装置，所述装置包括：

获取模块31，配置为获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；

投影模块32，配置为获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；

第一处理模块33，配置为基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；

第二处理模块34，配置为基于所述修复图像得到所述目标对象的增广图像集。

在本申请上述实施方式中，通过获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；如此，能够自动化快速地通过一张二维图像获取大量缺损二维图像；基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；基于所述修复图像得到所述目标对象的增广图像集。如此，基于所述修复图像得到所述目标对象的增广图像集有效的解决了神经网络中训练数据少、人工标注不准确的问题，可以扩充不同角度的人脸数据，并且提升了大姿态下人工标注的准确率，从而进一步提升神经网络模型训练的效果。

可选地，所述获取模块31还配置为获取所述目标对象的二维图像，基于所述二维图像以及三维标准模型包含的关键点映射关系，确定与所述二维图像对应的三维图像及设置关键点的三维坐标。

可选地，所述投影模块32还配置为基于所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，确定所述三维图像旋转设定角度后所述目标对象对应的姿态，基于所述姿态确定对应的投影矩阵；基于所述投影矩阵确定与所述姿态对应的缺损二维图像。

可选地，所述获取模块31还配置为获取所述目标对象的原始二维图像作为待增广图像，对所述待增广图像进行处理，得到处理后的所述目标对象的二维图像；其中所述处理包括缩放处理和/或归一化处理。

可选地，所述第一处理模块33还配置为将所述缺损二维图像输入训练后的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得生成后的二维修复图像；将所述生成后的二维修复图像和所述二维图像输入对抗网络，确定所述生成后的二维修复图像和所述二维图像的判别结果，基于所述判别结果确定与所述缺损二维图像对应的修复图像。

可选地，所述获取模块31还配置为基于包含目标对象的二维图像重建获得三维训练图像，所述三维训练图像携带有目标对象的设置关键点标注标签；获取基于所述三维训练图像旋转不同设定角度后分别投影所对应的多个二维训练图像的二维训练图像集。

可选地，所述第一处理模块33还配置为将所述二维训练图像输入初始的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得对应的生成后的二维训练图像；将所述二维图像和所述生成后的二维训练图像输入所述对抗网络，确定所述二维图像和所述生成后的二维训练图像的判别结果；基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。

可选地，所述第一处理模块33还配置为根据对抗损失函数和重构损失函数的组合，得到所述生成对抗网络对应的损失函数。

在另一实施方式中，如图8所示，还提供了一种神经网络训练装置，所述装置包括：

样本生成模块41，配置为采用如本申请任一实施例所提供的的图像增广方法获得目标对象的增广图像集，根据所述目标对象的二维图像和所述增广图像集形成训练样本集；

训练模块42，配置为将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。

在另一实施方式中，如图9所示，还提供了一种计算机设备，包括：至少一个处理器210和配置为存储能够在处理器210上运行的计算机程序的存储器211；其中，图9中示意的处理器210并非配置为指代处理器的个数为一个，而是仅配置为指代处理器相对其他器件的位置关系，在实际应用中，处理器的个数可以为一个或多个；同样，图9中示意的存储器211也是同样的含义，即仅配置为指代存储器相对其他器件的位置关系，在实际应用中，存储器的个数可以为一个或多个。

其中，所述处理器210配置为运行所述计算机程序时，执行如下步骤：

获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；基于所述修复图像得到所述目标对象的增广图像集。

在一个可选的实施例中，所述处理器210还配置为运行所述计算机程序时，执行如下步骤：

基于所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，确定所述三维图像旋转设定角度后所述目标对象对应的姿态，基于所述姿态确定对应的投影矩阵；基于所述投影矩阵确定与所述姿态对应的缺损二维图像。

将所述缺损二维图像输入训练后的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得生成后的二维修复图像；将所述生成后的二维修复图像和所述二维图像输入对抗网络，确定所述生成后的二维修复图像和所述二维图像的判别结果，基于所述判别结果确定与所述缺损二维图像对应的修复图像。

基于包含目标对象的二维图像重建获得三维训练图像，所述三维训练图像携带有目标对象的设置关键点标注标签；获取基于所述三维训练图像旋转不同设定角度后分别投影所对应的多个二维训练图像的二维训练图像集。

将所述二维训练图像输入初始的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得对应的生成后的训练修复图像；将所述二维训练图像和所述生成后的训练修复图像输入所述对抗网络，确定所述二维训练图像和所述生成后的训练修复图像的判别结果；基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。

获得目标对象的增广图像集，根据所述目标对象的二维图像和所述增广图像集形成训练样本集；

将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。

该计算机设备还可以包括：至少一个网络接口212。发送端中的各个组件通过总线系统213耦合在一起。可理解，总线系统213配置为实现这些组件之间的连接通信。总线系统213除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为总线系统213。

其中，存储器211可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器211旨在包括但不限于这些和任意其它适合类型的存储器。

本申请实施例中的存储器211用于存储各种类型的数据以支持发送端的操作。这些数据的示例包括：用于在发送端上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，用于实现各种应用业务。这里，实现本申请实施例方法的程序可以包含在应用程序中。

本实施例还提供了一种计算机存储介质，例如包括存储有计算机程序的存储器211，上述计算机程序可由发送端中的处理器210执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如智能手机、平板电脑、笔记本电脑等。一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程被处理器运行时，执行如下步骤：

其中，所述处理器210用于运行所述计算机程序时，执行如下步骤：

在一个可选的实施例中，所述计算机程序被处理器运行时，还执行如下步骤：

将所述二维训练图像输入初始的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得对应的生成后的二维训练图像；将所述二维训练图像和所述生成后的训练修复图像输入所述对抗网络，确定所述二维训练图像和所述生成后的训练修复图像的判别结果；基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。

请参阅图6，以3DMM作为人脸重建方法、神经网络为条件对抗生成网络为例，以一个更详尽的例子对本申请实施例的图像增广方法作进一步详细的说明。该图像增广方法包括如下步骤：

S11：获取二维图像；

这里，获取二维图像是获取包含人脸图像的二维图像；

S12：生成三维图像；

这里，生成三维图像是指基于所述二维图像以及三维标准模型包含的关键点映射关系，确定与所述二维图像对应的三维图像及设置关键点的三维坐标。

S13：106点关键点采样；

这里106点关键点采样是基于三维图像获取设置关键点的三维坐标。

这里，获取三维图像的106点关键点后分别执行步骤S14和步骤S16；

S14：对三维图像进行投影；

这里，对三维图像进行投影是指基于三维图像获取对应的二维图像；

S15：获取二维图像106点关键点坐标；

这里，获取二维图像106点关键点坐标是指基于设置关键点的三维坐标和对应的投影矩阵确定对应的二维图像106点关键点坐标；这里的二维图像即原始图像对应的106点关键点坐标；

S16：对三维图像进行旋转；

这里，对三维图像进行旋转是指对三维图像按照设定角度进行旋转，得到对应的不同的姿态；

S17：对旋转设定角度后的三维图像进行投影；

这里，对旋转设定角度后的三维图像进行投影是指基于三维图像按设定角度旋转的不同的姿态投影得到对应的二维缺失图像；例如，将所述三维图像放置于三维坐标原点上，从三维图像的正面进行投影，让三维图像在三维坐标上旋转，分别以三维坐标上坐标轴X、Y、Z为圆心旋转，从而获得不同设定角度后投影对应的缺损二维图像。

这里，对旋转设定个角度后的三维图像进行投影后分别执行步骤S18和步骤S20；

S18：基于训练后的生成对抗网络修复图像；

这里，基于训练后的生成对抗网络修复图像是指基于训练后的生成对抗网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；

S19：获取旋转修复后的增广图像集；

这里，获取旋转修复后的增广图像集是指基于所述修复图像得到所述目标对象的增广图像集是指将每一所述缺损二维图像修复得到大量与所述缺损二维图像对应的修复图像所组成的图像集，即增广图像集。

S20：旋转增广图像的106点关键点坐标

这里，旋转增广图像的106点关键点坐标是指基于步骤S17获得的缺损二维图像分别获得对应的106点关键点坐标。

相对于现有技术，本申请上述实施例至少解决了一下问题：一方面可以减少人脸关键点定位中对标注数据的大量依赖以及训练前的数据准备时间，收集海量训练数据进行模型的训练；另一方面，有效的解决了大姿态下训练数据少，人工标注不准确的问题，可以扩充不同角度的人脸数据，并且提升了大姿态下人工标注的准确率，从而进一步提升模型训练的效果。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

工业实用性

在本申请实施例中，首先，获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；其次，获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；再次，基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；最后，基于所述修复图像得到所述目标对象的增广图像集。

Claims

一种图像增广方法，包括：

获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；

获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；

基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；

基于所述修复图像得到所述目标对象的增广图像集。
如权利要求1所述的图像增广方法，所述获取携带有目标对象的设置关键点标注的三维图像，包括：

获取所述目标对象的二维图像，基于所述二维图像以及三维标准模型包含的关键点映射关系，确定与所述二维图像对应的三维图像及设置关键点的三维坐标。
如权利要求1所述的图像增广方法，所述获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，包括：

基于所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标，确定所述三维图像旋转设定角度后所述目标对象对应的姿态，基于所述姿态确定对应的投影矩阵；

基于所述投影矩阵确定与所述姿态对应的缺损二维图像。
如权利要求1所述的图像增广方法，所述获取携带有目标对象的设置关键点标注的三维图像之前，还包括：

获取所述目标对象的原始二维图像作为待增广图像，对所述待增广图像进行处理，得到处理后的所述目标对象的二维图像；其中所述处理包括缩放处理和/或归一化处理。
如权利要求1所述的图像增广方法，所述神经网络为生成对抗网络，所述生成对抗网络包括生成网络和对抗网络；所述基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像，包括：

将所述缺损二维图像输入训练后的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得生成后的二维修复图像；

将所述生成后的二维修复图像和所述二维图像输入对抗网络，确定所述生成后的二维修复图像和所述二维图像的判别结果，基于所述判别结果确定与所述缺损二维图像对应的修复图像。
如权利要求5所述的图像增广方法，所述获取携带有目标对象的设置的关键点标注的三维图像之前，包括：

基于包含目标对象的二维图像重建获得三维训练图像，所述三维训练图像携带有目标对象的设置关键点标注标签；

获取基于所述三维训练图像旋转不同设定角度后分别投影所对应的多个二维训练图像的二维训练图像集。
如权利要求6所述的图像增广方法，所述获取携带有目标对象的设置的关键点标注的三维图像之前，还包括：

将所述二维训练图像输入初始的生成对抗网络，通过生成网络基于所述设置关键点的转换坐标与姿态对应关系获得对应的生成后的训练修复图像；

将所述二维训练图像和所述训练修复图像输入所述对抗网络，确定所述二维训练图像和所述训练修复图像的判别结果；

基于所述判别结果对所述生成对抗网络进行单独交替迭代，直至设置的损失函数满足收敛条件，获得训练后的所述生成对抗网络。
如权利要求7所述的图像增广方法，所述基于所述判别结果对所述生成对抗网络进行单独交替迭代直至设置的损失函数满足收敛条件之前，还包括：

根据对抗损失函数和重构损失函数的组合，得到所述生成对抗网络对应的损失函数。
一种神经网络训练方法，包括：

采用如权利要求1至8中任一项所述的图像增广方法获得目标对象的增广图像集，根据所述目标对象的二维图像和所述增广图像集形成训练样本集；

将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。
一种图像增广装置，所述装置包括：

获取模块，配置为获取携带有目标对象的设置关键点标注的三维图像，其中所述三维图像由所述目标对象的二维图像重建获得；

投影模块，配置为获取所述三维图像旋转设定角度后投影所对应的缺损二维图像，所述缺损二维图像包括所述目标对象的所述设置关键点的与所述设定角度对应的转换坐标；

第一处理模块，配置为基于训练后的神经网络对所述缺损二维图像进行特征提取，基于所述设置关键点的转换坐标与姿态对应关系对所述缺损二维图像进行修复，得到与所述缺损二维图像对应的修复图像；

第二处理模块，配置为基于所述修复图像得到所述目标对象的增广图像集。
一种神经网络训练装置，包括：

样本生成模块，配置为采用如权利要求1至8中任一项所述的图像增广方法获得目标对象的增广图像集，根据所述目标对象的二维图像和所述增广图像集形成训练样本集；

训练模块，配置为将所述训练样本集输入神经网络模型进行训练，直至所述神经网络模型收敛，得到训练后的所述神经网络模型。
一种计算机设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器配置为运行所述计算机程序时，实现权利要求1至8任一项所述的图像增广方法、或实现权利要求9所述的神经网络训练方法。
一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述图像增广方法、或实现权利要求9所述的神经网络训练方法。