WO2022002032A1

WO2022002032A1 - 图像驱动模型训练、图像生成

Info

Publication number: WO2022002032A1
Application number: PCT/CN2021/103042
Authority: WO
Inventors: 吴臻志; 祝夭龙
Original assignee: 北京灵汐科技有限公司
Priority date: 2020-06-29
Filing date: 2021-06-29
Publication date: 2022-01-06
Also published as: CN111797753A; CN111797753B

Abstract

一种图像驱动模型训练方法、图像生成方法以及相应的装置、设备及介质。该方法包括：获取第一图像帧以及第二图像帧（S110），从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵（S120）；根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据（S130）；根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型（S140）。

Description

图像驱动模型训练、图像生成

技术领域

本公开实施例涉及人工智能领域，尤其涉及一种图像驱动模型训练方法、图像生成方法和相应的装置、设备及介质。

背景技术

近年来，人们对于合成图像的真实度要求越来越高，这要求图像处理技术可以生成更为真实和自然的图像。相关技术中，可以采用单张目标人脸和一个驱动视频(Driving Video)，就可以让目标人脸模拟驱动视频中的人的表情或动作。在一个例子中，可以采用姿态估计的算法提取驱动视频的关键点信息，通过生成对抗网络模型(Generative Adversarial Network，GAN)实现模型训练，以使得训练得到的模型可以用于达到目标人脸模拟驱动视频中的人的表情和动作的效果。

然而，由于驱动视频中人物的表情和动作可能存在多种情况，相关技术中，在对模型训练过程中并未充分考虑人物的表情和动作的各种不同情况，所以生成图像的准确性有待提高。

发明内容

本公开实施例提供一种图像驱动模型训练方法、图像生成方法和相应的装置、设备及介质，可以提高生成图像中人物的人体遮挡关系准确性，提高生成图像的真实性。

第一方面，本公开实施例提供了一种图像驱动模型训练方法，包括：获取第一图像帧以及第二图像帧；从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵；根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据；根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

第二方面，本公开实施例提供了一种图像生成方法，包括：获取人物图像；获取指定视频中的目标视频帧；将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像。其中，所述图像驱动模型通过如本公开实施例中任一项所述的图像驱动模型训练方法训练生成。

第三方面，本公开实施例还提供了一种图像驱动模型训练装置，包括：图像获取模块，用于获取第一图像帧以及第二图像帧；特征提取模块，用于从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵；数据生成模块，用于根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据；模型训练模块，用于根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

第四方面，本公开实施例还提供了一种图像生成装置，包括：人物图像获取模块，用于获取人物图像；目标视频帧获取模块，用于获取指定视频中的目标视频帧；人物驱动图像生成模块，用于将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像。其中，所述图像驱动模型通过如本公开实施例中任一项所述的图像驱动模型训练方法训练生成。

第五方面，本公开实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本公开实施例中任一所述的图像驱动模型训练方法或图像生成方法。

第六方面，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例中任一所述的图像驱动模型训练方法或图像生成方法。

本公开实施例通过采用第一图像帧以及驱动信息关联的像素运动数据和像素遮挡数据作为训练样本，对图像驱动模型进行训练，可以使图像驱动模型自动学习到遮挡特征，从而可有效提高利用训练得到的该图像驱动模型输出的人物驱动图像中人物的人体遮挡关系的准确性，进而提高该人物驱动图像的真实性。

附图说明

图1是根据本公开实施例一的一种图像驱动模型训练方法的流程图；

图2A是根据本公开实施例二的一种图像驱动模型训练方法的流程图；

图2B是根据本公开实施例的一种局部仿射变换矩阵的示意图；

图3A是根据本公开实施例三的一种图像驱动模型训练方法的流程图；

图3B是根据本公开实施例的第一图像帧的示意图；

图3C是根据本公开实施例的第二图像帧的示意图；

图3D是根据本公开实施例的光流信息图的示意图；

图3E是根据本公开实施例的阴影图的示意图；

图3F是根据本公开实施例三的一种训练图像驱动模型的应用场景的示意图；

图4A是根据本公开实施例四的一种图像生成方法的流程图；

图4B是根据本公开实施例的一种人物驱动图像的示意图；

图5是根据本公开实施例五的一种图像驱动模型训练装置的结构示意图；

图6是根据本公开实施例六的一种图像生成装置的结构示意图；

图7是本公开实施例七中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。

实施例一

图1为根据本公开实施例一的一种图像驱动模型训练方法的流程图，本实施例可适用于训练生成图像驱动模型，该图像驱动模型用于使人物图像中的人物模拟指定视频中包括的面部表情和/或身体动作，也就是驱动人物执行与指定视频相匹配的动作和/或做出与指定视频相匹配的表情。该方法可以由本公开实施例提供的图像驱动模型的训练装置来执行。该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图1所示，本实施例的方法具体包括以下步骤。

S110，获取第一图像帧和第二图像帧。

在一些例子中，可以从驱动视频获取第一图像帧和第二图像帧。驱动视频包括时序上连续的多个视频帧，驱动视频中的视频帧为反映人物运动的图像。或者，可以获取两幅静态图像，每幅静态图像为反映人物运动的图像。或者，可以获取一幅静态图像作为第一图像帧，并从驱动视频获取第二图像帧。其中，第一图像帧中的人物与第二图像帧中的人物可以不同。为了更容易地训练图像驱动模型，第一图像帧中的人物与第二图像帧中的人物也可以相同。

在一些例子中，可以将第一图像帧作为初始人物图像，将第二图像帧作为初始人物图像需要模拟的目标人物图像。换言之，第一图像帧包括指定人物的人物图像，第二图像帧包括指定人体姿态的人物图像。例如，可以将第二图像帧中包括的人物的人体姿态作为初始人物图像中的人物将要模拟的目标人体姿态。其中，第二图像帧可以是驱动视频中的任意一个视频帧。

通常，为了让图像驱动模型可以学习到如何从人物图像生成能够模拟驱动视频中的人体姿态的人物驱动图像，需要使人物图像和生成的人物驱动图像不同，因此需要第一图像帧和第二图像帧不完全相同。例如，如果第一图像帧与第二图像帧来自同一视频，第一图像帧与第二图像帧对应的时间戳至少相隔设定时长，例如1分钟。又例如，第一图像帧与第二图像帧的相似度值小于设定阈值，也就是使第一图像帧与第二图像帧存在一定差异。

S120，从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵。

初始姿态特征用于表征第一图像帧中一个人物的特征，可以包括面部特征数据和/或身体特征数据。目标姿态特征用于表征第二图像帧中一个人物的特征，可以包括面部特征数据和/或身体特征数据。

仿射变换矩阵用于将一个像素矩阵进行空间变换，形成另一个像素矩阵。在本公开实施例中，仿射变换矩阵可以用于将包括人物像素的矩阵进行空间变换，形成另外一个人物像素的矩阵。其中，空间变换包括下述至少一项：线性变化、旋转变换和平移变换等。局部仿射变换矩阵可以针对人物局部区域的像素矩阵进行仿射变换。其中，人物局部区域表示某一人物的局部区域，例如左臂区域、右腿区域或头部区域等，甚至还可以是某一人物的多个人体局部区域的组合。

从初始姿态特征指向目标姿态特征的局部仿射变换矩阵，用于将第一图像帧中的人物像素矩阵(以下也可称为初始人物像素矩阵)通过仿射变换形成与第二图像帧匹配的目标人物像素矩阵。具体的，仿射变换矩阵可通过根据初始人物像素矩阵和匹配的目标人物像素矩阵确定，其中，人物像素可以是表示人体关键点的像素。

S130，根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据。

像素运动数据可以表示像素(例如人物关联的像素)移动到指定像素位置(例如指定人体姿态关联的像素位置)的运动。像素遮挡数据可以表示在像素移动到指定像素位置的过程中，移动到同一像素位置的多个像素之间的遮挡关系。

根据局部仿射变换矩阵和第一图像帧，可以确定第一图像帧中人物像素的运动方向(变换矢量)，作为驱动信息关联的像素运动数据；以及确定运动到同一像素位置的像素的前后遮挡顺序，作为驱动信息关联的像素遮挡数据。

S140，根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

在本公开实施例中，图像驱动模型用于驱动人物做出指定的人体姿态，可以理解为将人物关联的像素移动到指定像素位置处以形成该人物的指定人体姿态。在将人物像素移动到指定人体姿态匹配的像素位置的过程中，需要确定移动方向和移动距离。相应的，像素运动数据可以包括移动方向和/或移动距离等。而且，指定的人体姿态中可能存在肢体相互遮挡的情况，并使得多个初始人物像素移动到同一指定像素位置，从而针对该同一指定像素位置，需要获取所述多个初始人物像素之间的遮挡关系，并将未被遮挡的初始人物像素在最终形成的人物驱动图像中进行展示。相应的，像素遮挡数据可以包括关键点的遮挡关系。

图像驱动模型通过学习第一图像帧、像素运动数据和像素遮挡数据，可以按照第二图像帧中目标姿态特征将第一图像帧中的人物准确调整成第二图像帧指定的人体姿态，生成相应的人物驱动图像。

将生成的像素运动数据、像素遮挡数据和第一图像帧作为训练样本，对基于深度学习的图像驱动模型进行训练，以使图像驱动模型从目标姿态特征中学习到像素运动数据和像素遮挡数据，以及从根据像素运动数据、像素遮挡数据和第一图像帧生成模拟第二图像帧指定的人体姿态的人物驱动图像的过程中，自动学习如何从人物图像生成模拟驱动视频指定的人体姿态的人物驱动图像。所训练的图像驱动模型为端到端模型，可以避免对图像预处理的操作，大大简化了模型训练过程，同时降低因多环节的图像处理的误差引入，从而提高利用经训练的图像驱动模型所生成的人物驱动图像的准确率。

本公开实施例通过采用第一图像帧以及驱动信息关联的像素运动数据和像素遮挡数据作为训练样本，对图像驱动模型进行训练，可以使图像驱动模型自动学习到遮挡特征，从而有效保证利用训练得到的该图像驱动模型输出的人物驱动图像中人物的人体遮挡关系的准确性，进而提高该人物驱动图像的真实性。

实施例二

图2A为根据本公开实施例二的一种图像驱动模型训练方法的流程图，本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括：

S201，获取驱动视频。

本公开实施例中未详尽的描述可以参考前述实施例。

S202，获取所述驱动视频中的第一图像帧以及第二图像帧。其中，所述第一图像帧和所述第二图像帧为不同的视频帧，所述第一图像帧包括的人物图像可称为初始人物图像，所述第二图像帧包括的人物图像的人体姿态可称为指定人体姿态。

S203，将所述第一图像帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图。

关键点检测模型用于在人物图像中检测人体关键点，并生成热力图(Heat map)。Heat map可以用颜色变化来反映二维矩阵或表格中的数据信息，它可以直观地将数据值的某个属性(例如大小或密度等)以定义的颜色深浅表示出来。初始人物关键点可以是第一图像帧中人物的人体关键点。对应的热力图用于描述初始人物关键点位于第一图像帧中各位置的概率。

可选的，所述关键点检测模型包括U型网络(U-Net)。其中，U-Net可以包括编码器和解码器。编码器可以包括四个子模块，每个子模块包括两个卷积层。每个子模块分别与一个下采样层相连，下采样层可通过最大池化网络实现，也即，每个子模块的输出结果输入到下采样层进行下采样。数据依次经过下采样层，分辨率依次下降。解码器可以包括四个子模块，每个子模块分别与一个上采样层相连。数据依次经过上采样层，分辨率依次上升，直到与输入U-Net的图像的分辨率一致。从而在图像从输入U-Net到输出U-Net的整个过程中，图像的分辨率的大小变化形成U型效果。U-Net还使用了跳跃连接，将解码器中某个子模块输出的上采样结果与编码器中具有相同分辨率的子模块的输出进行连接，作为解码器中下一个子模块的输入。在关键点检测模型中，U-Net将浅层特征图与深层特征图结合，这样可以结合局部条件(Where)以及全局内容(What)的特征生成更精准的图像，从而可以根据更精准的图像进行关键点检测，提高关键点检测的准确率。

S204，根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，作为初始姿态特征。

具体的，根据初始人物关键点可以确定初始人物关键点在第一图像帧中每个位置的概率，并根据该概率和关键点的位置可以生成对应的热力图。由于每个关键点对应的热力图的形状不同，可以将各关键点对应的热力图统一变换成指定形状，并将对各关键点对应的热力图进行变换的仿射变换矩阵作为关键点的初始局部仿射变换矩阵。

可选的，所述根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵，包括：获取各所述初始人物关键点的坐标，以及匹配的置信度；根据各所述初始人物关键点的坐标以及匹配的置信度，生成分别与各所述初始人物关键点匹配的热力图区域；针对每个所述初始人物关键点匹配的热力图区域，将所述热力图区域转换为设定规则形状，并将转换为所述设定规则形状时对应的局部仿射变换矩阵，确定为所述初始人物关键点对应的局部仿射变换矩阵；根据各所述初始人物关键点对应的局部仿射变换矩阵，确定初始局部仿射变换矩阵。

在一些实施例中，可以通过U-Net或者例如CPM(Convolutional Pose Machines，卷积姿态机)算法的其他回归算法，计算初始人物关键点在第一图像帧中的预测坐标以及该初始人物关键点在第一图像帧中每个位置的概率，并且根据初始人物关键点在第一图像帧中的预测坐标以及该初始人物关键点在该预测坐标周围的位置的概率，确定该预测坐标的置信度。通常，将初始人物关键点在第一图像帧中概率最大的位置确定作为该初始人物关键点在第一图像帧中的预测坐标。

根据初始人物关键点在第一图像帧中的预测坐标以及该初始人物关键点在第一图像帧中每个位置的概率，生成以初始人物关键点为中心的热力图。热力图用于通过颜色表示中心点(即概率最大的预测坐标位置)对周围的影响力。通过U-Net可以获取每个关键点的坐标以及该坐标的置信度，具体是(x1，y1，m1，n1)。其中，(x1，y1)是坐标，m1为x1的置信度，n1为y1的置信度。置信度的取值范围可为[0,1]。

具体的，为了生成热力图，可预先生成一个设定的奇数矩阵(例如，3*3矩阵或5*5矩阵)。例如，以概率最大的预测坐标位置为矩阵中心，根据该预测坐标位置对应的置信度，在x轴方向和y轴方向分别采用双线性插值方法进行插值，并配置插入的坐标点的像素色彩值作为矩阵中元素，从而生成热力图对应的奇数矩阵。所插入的坐标点的像素色彩值与该坐标点和中心点之间的距离存在对应关系，例如，远离中心点的坐标点的像素色彩值的红色值越低，靠近中心点的坐标点的像素色彩值的红色值越高。

奇数矩阵通常无法直接用于人物像素矩阵的仿射变换，由此，可以通过对热力图对应的奇数矩阵进行仿射变换，生成设定规则形状的矩阵，作为初始人物关键点对应的局部仿射变换矩阵。设定规则形状可以根据需要进行设定，示例性的，设定规则形状可为2*3矩阵，此外还有其他情形，对此，本公开实施例不作具体限制。

在指定上述奇数矩阵和设定规则形状矩阵之后，可以通过指定上述奇数矩阵和设定规则形状矩阵之间的映射方式，确定由奇数矩阵指向设定规则形状矩阵的变换方法。例如，可采用一个仿射变换矩阵，与指定的奇数矩阵相乘，乘积为设定规则形状矩阵。相应的，将热力图对应的奇数矩阵与该仿射变换矩阵相乘，所得到的乘积结果即为初始人物关键点对应的设定规则形状的局部仿射变换矩阵。

初始局部仿射变换矩阵包括多个初始人物关键点各自对应的局部仿射变换矩阵。

通过基于各初始人物关键点在第一图像帧中的预测坐标和该预测坐标的置信度，生成各初始人物关键点对应的热力图，并根据各热力图确定各初始人物关键点对应的局部仿射变换矩阵、以及进一步确定初始局部仿射变换矩阵，可以相对准确地评估初始人物关键点的预测准确性，有效指示图像驱动模型相对准确地学习初始人物关键点的坐标，从而可以有效提高训练得到的该图像驱动模型的人物关键点的识别准确率，进而提高利用该图像驱动模型生成的人物驱动图像的准确率。

此外，还可以通过U-Net为每个初始人物关键点预测4个标量加权数值，并根据所述标量加权数值对每个初始人物关键点对应的热力图的区域置信度进行加权，最终获得每个初始人物关键点对应的例如2x3设定规则形状矩阵的局部仿射变换矩阵。

S205，将所述第二图像帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标姿态关键点和各所述目标姿态关键点对应的热力图。

目标姿态关键点可以是第二图像帧中人物的人体关键点。对应的热力图用于描述目标姿态关键点位于第二图像帧中各位置的概率。

S206，根据各所述目标姿态关键点和对应的热力图，生成目标局部仿射变换矩阵，作为目标姿态特征。

目标局部仿射变换矩阵的生成方法同上述初始局部仿射变换矩阵的生成方法，在此不再赘述。

S207，将所述初始局部仿射变换矩阵与所述目标局部仿射变换矩阵相乘，获取从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵。

局部仿射变换矩阵为初始局部仿射变换矩阵与目标局部仿射变换矩阵相乘的结果。实际上矩阵可以表征图像特征，初始局部仿射变换矩阵用于描述或表征第一图像帧的初始姿态特征，目标局部仿射变换矩阵用于描述或表征第二图像帧的目标姿态特征，两者相乘得到的局部仿射变换矩阵用于描述或表征从初始姿态特征到目标姿态特征的变化量。从而，根据局部仿射变换矩阵，可以将第一图像帧中的人物像素矩阵变换形成与第二图像帧中的人体姿态匹配的目标人物像素矩阵。

示例性的，局部仿射变换矩阵的示意图如图2B所示，一个矩形代表一个局部仿射变换矩阵。一个局部放射变换矩阵可以与人体中局部区域，例如，左臂区域、右臂区域、左腿区域或右腿区域相关联。

S208，根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据。

S209，根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

可选的，所述根据所述第一图像帧、像素运动数据和像素遮挡数据，训练基于深度学习模型的图像驱动模型，包括：根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在深度学习模型的初始损失函数的基础上添加同变性约束函数，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；如果确定所述损失函数满足稳定条件，则将当前训练得到的深度学习模型确定为所述图像驱动模型，否则返回步骤202再次执行对基于深度学习模型的图像驱动模型的训练。

损失函数配置信息用于在图像驱动模型的初始损失函数的基础上，添加同变性约束函数。其中，该同变性约束函数可以包括欧氏距离范数，又可称为正则化项或者L2范数，是指各元素的平方和再开方的结果。添加欧氏距离范数相当于对初始损失函数添加约束条件，实际是对于大数值的权重向量进行严厉惩罚，以倾向于更加分散的权重向量，从而实现使权重的分配更均匀，并避免权重集中在少数向量上，使得图像驱动模型更接近低维模型。维度越低，训练使用的数据量越小。因此，对初始损失函数添加欧氏距离范数作为约束条件，可以降低图像驱动模型训练使用的数据量，从而可以降低图像驱动模型训练的复杂度。

稳定条件用于判断损失函数是否趋于稳定、趋于收敛。例如，稳定条件用于判断相邻训练轮次中损失函数的变化率是否小于设定的变化率阈值。其中，该变化率阈值的大小可以根据实际情况限定。相邻训练轮次中损失函数的变化率可以是：计算当前训练得到的损失函数的值与前一次训练得到的损失函数的值之间的差值，并计算该差值与当前训练得到的损失函数的值的比值。如果该比值小于设定的变化率阈值，则确定即使再训练损失函数的变化率也很小，表明损失函数趋于稳定，或称损失函数收敛。此时，确定深度学习模型训练完成，将当前训练得到的深度学习模型作为图像驱动模型。

具体的，通过在图像驱动模型的初始损失函数基础上添加欧氏距离范数而更新后的损失函数LOSS_new可以如公式(1)所示：

LOSS_new＝LOSS+L _eqv (1)

其中，LOSS为图像驱动模型的初始损失函数，L _eqv为同变性约束函数。

同变性约束函数根据对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定，同变性约束函数L _eqv可以如公式(2)所示：

其中，K为初始人物关键点的数量，(x′ _k，y′ _k)为第k个初始人物关键点的坐标，(x _k，y _k)为第k个期望关键点的坐标，(x _k，y _k)实际表示初始人物关键点(x′ _k，y′ _k)经期望变换后形成的期望关键点。g(*)为用于对初始人物关键点进行坐标变换的函数，g(x′ _k，y′ _k)为初始人物关键点(x′ _k，y′ _k)通过g(*)进行坐标变换后的坐标。g(x′ _k，y′ _k)越接近(x _k，y _k)，表明初始人物关键点越接近期望关键点，也即g(*)越接近期望变换。‖·‖ _F为隐藏空间的参数项矩阵的F范数。其中，期望关键点可以配置为趋近于目标姿态关键点的关键点，也即，期望关键点可以是由初始人物关键点变换成为目标姿态关键点的过程中的中继。例如，期望关键点可以是初始人物关键点经过期望变换后得到的，期望变换可以是对局部仿射变换矩阵进行幅度限定后的变换。通过设置一个或多个期望关键点，可以使得将初始人物调整到目标姿态的动作更平滑。

具体的，g(*)可以理解为一个随机创建的薄板样条(Thin Plate Spline,TPS)，可以使用随机平移、旋转和缩放来确定TPS的全局仿射分量，并通过空间扰动一组控制点来确定局部TPS分量。

本公开的发明人发现，采用自监督的方式训练关键点检测模型，相对于监督方式来说，不可避免的会导致关键点的不稳定乃至不准确。有鉴于此，可通过在初始损失函数的基础上添加同变性约束函数来保证图像语义信息的一致性，例如，在经过动作变换后的图像中，人物的胳膊和腿不会发生错位等。

通过在图像驱动模型的初始损失函数的基础上添加同变性约束函数作为约束条件，可以使向量的权重的分配更均匀，避免权重集中在少数向量上，从而不仅可以降低图像驱动模型训练时使用的数据量和计算的复杂度，还使得图像驱动模型可以自动学习如何准确建立人物图像的关键点与期望生成的人物驱动图像的关键点之间的对应关系，从而可有效提高利用训练得到的图像驱动模型所生成的人物驱动图像中人体结构的准确率和真实性。

在本公开实施例中，通过直接获取第一图像帧和第二图像帧中的人体关键点和对应的热力图，并根据人体关键点和对应的热力图确定姿态特征生成局部仿射变换矩阵，可以获取使第一图像帧中人物模拟第二图像帧中指定的人体姿态所需的像素运动数据和像素遮挡数据，并可以将所述像素运动数据和像素遮挡数据结合第一图像帧生成训练样本，用于对基于深度学习模型的图像驱动模型进行训练。这样，可以有效减少人工标注样本的需求量，显著降低模型训练所需的人工成本。

实施例三

图3A为根据本公开实施例三的一种图像驱动模型训练方法的流程图，本实施例以上述实施例为基础进行具体化。本实施例的方法具体包括：

S301，获取驱动视频。

本公开实施例中未详尽的描述可以参考前述实施例。

S302，获取所述驱动视频中的第一图像帧以及第二图像帧。其中，所述第一图像帧和所述第二图像帧为不同的视频帧，所述第一图像帧包括的人物图像可称为初始人物图像，包括第一图像帧中的多个初始人物像素；所述第二图像帧的包括人物图像的人体姿态可称为指定的人体姿态或目标姿态，与期望的多个目标像素位置关联。

S303，从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵。

S304，将所述局部仿射变换矩阵和所述第一图像帧输入到预先训练得到的密集运动估计模型中，获取所述密集运动估计模型输出的像素运动数据和像素遮挡数据。其中，所述密集运动估计模型包括深度学习模型。所述像素运动数据包括所述第一图像帧中的各初始人物像素指向所述第二图像帧中匹配的目标像素位置的运动方向，所述像素遮挡数据包括所述第一图像帧中多个初始人物像素在通过仿射变换移动到所述第二图像帧中匹配的同一个目标像素位置时相互之间的遮挡顺序关系。

密集运动估计模型用于估计各初始人物像素的运动情况和不同的初始人物像素在运动之后的遮挡顺序。密集运动估计模型可为预先训练的深度学习模型。

初始人物像素为第一图像帧包括的人物的像素。初始人物像素可以包括表示人体关键点的像素。目标像素位置为模拟第二图像帧指定的人体姿态期望初始人物像素移动到的像素位置。目标像素位置不一定是第二图像帧包括的初始人物像素匹配的像素的位置。

像素运动数据用于确定从初始人物像素变换到目标像素位置的运动矢量。通常运动矢量可以是从初始人物像素点指向目标像素位置的方向和大小，具体可以采用光流信息图表示。其中，光流信息图包括多个区域像素集合，每个区域像素集合可以采用箭头方向表示运动方向，箭头大小可表示矢量大小。假设第一图像帧如图3B所示，第二图像帧如图3C所示，第一图像帧中的人物模拟第二图像帧中的人物的动作，相应获取的光流信息图效果可以如图3D所示，每个箭头代表一个像素区域的运动矢量。

像素遮挡数据用于确定不同目标人物像素之间的遮挡顺序关系。目标人物像素可以表示初始人物像素移动到匹配的目标像素位置后形成的像素。第一图像帧中各初始人物像素通过仿射变换到第二图像帧中匹配的目标像素位置形成相应的目标人物像素后，可能存在多个初始人物像素点分别匹配的多个目标人物像素位于同一个像素位置的情况。当多个目标人物像素位于同一个像素位置时，只展示顶层的目标人物像素，其他目标人物像素作为被遮挡的像素不进行显示。遮挡顺序关系用于描述多个像素的显示顺序，只有置于顶层，即未被遮挡的像素可以显示。其中，可以阴影图表示像素遮挡数据。例如，将图3B所示第一图像帧中的人物模拟图3C所示第二图像帧中的人物的动作，相应获取的阴影图可如图3E所示。图3E中，越暗的地方表示灰度值越低(也就是灰度值接近0),代表该区域被遮挡的程度越高；越亮的地方表示灰度值越高(也就是灰度值接近255)，代表该区域被遮挡的程度越低。

可选的，预先通过如下方式训练所述密集运动估计模型：将训练视频中的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行迭代训练，以得到所述密集运动估计模型。其中，所述空间转换视频帧通过将所述训练视频中的视频帧输入到空间转换模型生成，所述训练视频中的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。

训练视频中的视频帧可以是训练视频中的任意视频帧。空间转换视频帧可以是通过采用空间变换方法对训练视频中的视频帧进行空间变换，所生成的视频帧。训练视频中的视频帧的局部空间特征与空间转换视频帧中匹配的局部空间特征相同，表明训练视频中的视频帧和空间转换视频帧满足空间不变性，也表明空间变换方法满足空间不变性。示例性的，空间变换方法可以是牛津大学的Max Jaderberg，Karen Simonyan等人提出的空间转换模块(spatial transformer modules)实现。

其中，密集运动估计模型的训练目标如公式(3)所示：

其中，N为视频帧包括的像素的总数量，(i,j)为像素的坐标，I ₁(i,j)为训练视频中的视频帧的局部空间特征，I′ ₁(i,j)为空间转换视频帧中匹配的局部空间特征，ρ(*)用于表示训练视频中的视频帧的局部空间特征与空间转换视频帧中匹配的局部空间特征之间的光测误差，如光强差值和光的改变方向。密集运动估计模型的训练目标为最小化L _reconst。

通过训练密集运动估计模型，可以使密集运动估计模型学习到光流的运动特征，从而可以相对准确地自动提取出使第一图像帧中人物模拟第二图像帧中指定的人体姿态所需的像素运动数据和像素遮挡数据，从而有效提高利用所述像素运动数据和像素遮挡数据进行训练得到的图像驱动模型所生成的人物驱动图像中人物的人体遮挡关系的准确性，进而提高该人物驱动图像的真实性。

S305，根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

在一个具体的例子中，如图3F所示，图像驱动模型的训练过程可以是：采用关键点检测模型301从第一图像帧中提取多个初始人物关键点和各初始人物关键点对应的热力图，并根据多个初始人物关键点和各初始人物关键点对应的热力图生成初始局部仿射变换矩阵。可并行地，采用关键点检测模型301从第二图像帧中提取多个目标姿态关键点和各目标姿态关键点对应的热力图，并根据多个目标姿态关键点和各目标姿态关键点对应的热力图，生成目标局部仿射变换矩阵。将初始局部仿射变换矩阵与目标局部仿射变换矩阵相乘，得到局部仿射变换矩阵，输入到密集运动估计模型302中，可以获取像素运动数据和像素遮挡数据。将第一图像帧、像素运动数据和像素遮挡数据作为图像运动样本，对基于深度学习模型的图像驱动模型303进行训练，获取图像驱动模型303输出的人物驱动图像。训练完成的图像驱动模型303可用于生成人物驱动图像。

本公开实施例通过预先训练的密集运动估计模型，从局部仿射变换矩阵和第一图像帧中自动提取出像素运动数据和像素遮挡数据，可以提高所提取的人物像素运动特征的准确率，从而提高利用像素运动数据和像素遮挡数据进行训练得到的图像驱动模型所生成的人物驱动图像中的人物的人体遮挡关系的准确性，并提高该人物驱动图像的真实性。

实施例四

图4A为根据本公开实施例四的一种图像生成方法的流程图，本实施例可适用于使人物图像中的人物模拟指定视频包括的面部表情和/或身体动作。该方法可以由本公开实施例提供的图像生成装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。该装置包括经过训练的图像驱动模型，其训练方法可参考上述实施例中的方法。如图4A所示，本实施例的方法具体包括以下步骤。

S410，获取人物图像。

人物图像可包括人物的真实图像。例如，人物图像包括人脸和/或人物身体的真实图像。人物图像中可包括至少一个人物，可以根据实际情况指示一个人物选择要被驱动来模拟指定的表情和/或动作的目标人物。例如，可随机选择人物图像中的多个人物之一，或选择在人物图像中所占面积比例最大的人物，或选择人物图像中脸部未被遮挡的人物，作为目标人物。对如何选择人物图像中的目标人物，本公开不作限制。

S420，获取指定视频中的目标视频帧。

指定视频包括时序连续的多个视频帧，每个视频帧都可以看作是一个图像。目标视频帧可以是指定视频中的任意一个视频帧。可以按照视频播放的时序，依次选择指定视频中的视频帧作为目标视频帧，或者也可以从指定视频中随机选取一个视频帧作为目标视频帧，本公开对目标视频帧的选取不作限制。目标视频帧用于获取目标姿态信息。

目标视频帧包括目标姿态信息，该目标姿态信息用于指示人物图像中的目标人物做出指定的人体姿态(面部姿态和/或身体姿态)，即将目标视频帧中的人体姿态迁移到人物图像的目标人物中，以使人物图像中的目标人物模拟目标视频帧中的人体姿态，包括驱动目标人物执行目标视频帧指定的身体动作和/或做出面部表情等。目标姿态信息可以包括人物面部特征数据和/或人物身体特征数据。人物面部特征数据可以用于表征目标视频帧中的面部姿态，从而使得人物图像中的目标人物的人脸模拟目标视频帧中的面部姿态，驱动目标人物的面部姿态与目标视频帧中的该面部姿态匹配，例如，可以驱动目标人物的面部做出与目标视频中相同的表情。人物面部特征数据可以表征下述至少一项：人物脸部的方向、脸部轮廓和各器官的位置等。人物身体特征数据可以用于表征目标视频帧中人物的身体姿态，从而使得人物图像中的目标人物的身体模拟目标视频帧中人物的身体姿态，驱动目标人物的身体姿态与目标视频帧中的该身体姿态匹配，例如，驱动目标人物的身体做出与目标视频中相同的动作。人物身体特征数据可以包括下述至少一项：人物头部位置和方向、人物躯干位置和方向、以及人物四肢位置和方向等。

可选的，获取指定视频中的目标视频帧可以包括：获取指定视频；获取所述指定视频中的首个视频帧作为目标视频帧；在生成所述目标视频帧对应的人物驱动图像之后，选择时序上在该目标视频帧后的下一视频帧作为新的目标视频帧，并再次生成所述目标视频帧对应的人物驱动图像，直至获取所述指定视频中最后一个视频帧作为目标视频帧，并生成所述最后一个视频帧对应的人物驱动图像。以此类推，可以根据指定视频生成多个人物驱动图像，并按照时序进行排列，可以生成与指定视频中特定人物的表情和/或动作一致的人物驱动视频，最终实现驱动人物图像中的目标人物做出与指定视频相匹配的各个人体姿态，执行匹配的动作，和/或做出相匹配的面部表情等。此外，由于相邻视频帧的差异很小，还可以选择每间隔设定时长获取一个视频帧作为目标视频帧，例如，设定时长为0.5s。

S430，将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如本公开实施例中任一项所述的图像驱动模型的训练方法训练生成。

图像驱动模型用于生成人物图像中目标人物模拟目标视频帧中人体姿态的人物驱动图像，实际是驱动人物图像中目标人物做出与目标视频帧匹配的人体姿态。其中，人物驱动图像可以是包括人物图像中的目标人物，且人物驱动图像中所述目标人物的人体姿态与目标视频帧包括的目标姿态信息匹配。此外，人物驱动图像中除所述目标人物以外的图像区域均与人物图像中的相同。也就是说，人物驱动图像中的背景和人物图像的相同，人物驱动图像中作为前景的人物和人物图像中的目标人物相同，但是人物驱动图像中作为前景的人物的动作和目标视频中指定的人物的动作相同。

实际上，人物图像用于提供待驱动的目标人物。目标视频帧用于指定人体姿态。图像驱动模型用于将目标人物与指定的人体姿态进行合成，生成能够展现出该指定的人体姿态的人物图像，作为人物驱动图像。

图像驱动模型为预先训练的深度学习模型，示例性的，图像驱动模型可以为图3F所示的训练完成的图像驱动模型303。

在一些可选实施例中，在获取人物图像和指定视频中的目标视频帧后，可以先将它们输入如图3F所示的训练完成的关键点检测模型301，从而从所述人物图像帧中提取初始姿态特征，从所述目标视频帧中提取目标姿态特征，并生成从所述初始姿态特征指向目标姿态特征的局部仿射变换矩阵。然后，可以将所述局部仿射变换矩阵和所述人物图像输入如图3F所示的训练完成的密集运动估计模型302，从而根据所述局部仿射变换矩阵和所述人物图像，生成像素运动数据和像素遮挡数据。最后，可以将所述人物图像、所述像素运动数据和所述像素遮挡数据输入到如图3F所示的预先训练得到的图像驱动模型303中，获取所述图像驱动模型输出的人物驱动图像。其中，所述图像驱动模型通过如本公开实施例中任一项所述的图像驱动模型训练方法训练生成。

图像驱动模型通过如本公开实施例中任一项所述的图像驱动模型训练方法训练生成。具体的，将人物图像按照目标视频帧进行驱动，实际是将人物图像中的初始人物像素调整成与目标视频帧中指定的人体姿态匹配的目标像素。其中，目标像素不是目标视频帧中的真实像素，而是根据目标视频帧中指定的人体姿态确定的初始人物像素期望变换后的像素。初始人物像素包括表示人体关键点的像素。根据初始人物像素和匹配的目标像素可以确定对初始人物像素的调整数据，具体可以包括初始人物像素的运动情况和多个初始人物像素匹配的目标像素之间的遮挡情况。换言之，可以根据人物图像和目标视频帧确定相应的像素运动数据和像素遮挡数据，并基于所述像素运动数据和像素遮挡数据采用如本公开实施例中任一项所述的图像驱动模型训练方法来训练得到图像驱动模型。

在一个例子中，如图4B所示，初始人物图像包括左边第一列的两张图像；依次将上面第一行的三张图像作为指定视频中的目标视频帧，所形成的人物驱动图像可分别如图4B的第二行的第二列到第四列，和第三行的第二列到第四列所示。

本公开实施例通过采用第一图像帧以及驱动信息关联的人物像素运动数据和人物像素遮挡数据作为训练样本，对图像驱动模型进行训练，可以使图像驱动模型自动学习到遮挡特征，从而可以提高利用训练得到的该图像驱动模型生成的人物驱动图像中人物的人体遮挡关系准确性，进而提高该人物驱动图像的真实性。

实施例五

图5为根据本公开实施例五的一种图像驱动模型训练装置的示意图。实施例五是实现本公开上述实施例提供的图像驱动模型训练方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中等。如图5所示，该图像驱动模型训练装置包括：

图像获取模块510，用于获取第一图像帧以及第二图像帧，所述第一图像帧和所述第二图像帧可为同一视频中不同的视频帧，所述第一图像帧包括的人物图像可称为初始人物图像，所述第二图像帧包括的人物图像的人体姿态可称为指定的人体姿态；

特征提取模块520，用于从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵；

数据生成模块530，用于根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据；

模型训练模块540，用于根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。

本公开实施例通过采用第一图像帧以及驱动信息关联的像素运动数据和像素遮挡数据作为训练样本，对图像驱动模型进行训练，可以使图像驱动模型自动学习到遮挡特征，从而有效保证利用训练得到的该图像驱动模型输出的人物驱动图像中人物的人体遮挡关系准确性，并有效提高该人物驱动图像的真实性。

进一步的，所述特征提取模块520包括局部仿射变换矩阵计算单元，用于：将所述第一图像帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图；根据各所述初始人物关键点和对应的热力图，生成初始局部仿射变换矩阵作为初始姿态特征；将所述第二图像帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标姿态关键点和各所述目标姿态关键点对应的热力图；根据各所述目标姿态关键点和对应的热力图，生成目标局部仿射变换矩阵作为目标姿态特征；将所述初始局部仿射变换矩阵与所述目标局部仿射变换矩阵相乘，获取从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵。

进一步的，所述局部仿射变换矩阵计算单元可用于：获取各所述初始人物关键点或各所述目标姿态关键点的坐标，以及匹配的置信度；根据各所述初始人物关键点或各所述目标姿态关键点的坐标以及匹配的置信度，生成分别与各所述初始人物关键点或各所述目标姿态关键点匹配的热力图区域；针对每个所述初始人物关键点或各所述目标姿态关键点匹配的热力图区域，将所述热力图区域转换为设定规则形状的热力图区域，并获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，确定为所述初始人物关键点或所述目标姿态关键点对应的局部仿射变换矩阵；将各所述初始人物关键点或各所述目标姿态关键点对应的局部仿射变换矩阵，确定为初始局部仿射变换矩阵或所述目标局部仿射变换矩阵。

进一步的，所述关键点检测模型包括U型网络。

进一步的，所述数据生成模块530可用于：将所述局部仿射变换矩阵和所述第一图像帧输入到预先训练的密集运动估计模型中，获取所述密集运动估计模型输出的像素运动数据和像素遮挡数据。其中，所述密集运动估计模型包括深度学习模型，所述像素运动数据包括所述第一图像帧中初始人物像素指向所述第二图像帧中匹配的目标像素的运动方向，所述像素遮挡数据包括所述第一图像帧中多个初始人物像素通过仿射变换到所述第二图像帧中匹配的目标像素位置所形成的目标像素之间的遮挡顺序关系。

进一步的，所述图像驱动模型训练装置还可包括密集运动估计模型训练模块，用于如下训练所述密集运动估计模型：将训练视频中的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对深度学习模型进行训练以生成密集运动估计模型。其中，所述空间转换视频帧通过将所述训练视频中的视频帧输入到空间转换模型生成，所述训练视频中的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。

进一步的，所述模型训练模块540可用于：根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在初始损失函数的基础上添加同变性约束函数作为约束条件，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；如果确定所述损失函数满足稳定条件，则将当前训练得到的深度学习模型确定为所述图像驱动模型。

上述图像生成装置可执行本公开实施例任一所提供的图像驱动模型训练方法，具备执行的图像驱动模型训练方法相应的功能模块和有益效果。

实施例六

图6为根据本公开实施例六的一种图像生成装置的示意图。实施例六是实现本公开上述实施例提供的图像生成方法的相应装置，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中等。

相应的，本实施例的装置可以包括：

人物图像获取模块610，用于获取人物图像；

目标视频帧获取模块620，用于获取指定视频中的目标视频帧；

人物驱动图像生成模块630，用于将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如前述任一实施例所述的图像驱动模型训练方法训练生成。

本公开实施例通过采用第一图像帧以及驱动信息关联的像素运动数据和像素遮挡数据作为训练样本，对图像驱动模型进行训练，可以使图像驱动模型自动学习到遮挡特征，从而有效保证利用训练得到的该图像驱动模型输出的人物驱动图像中的人物的人体遮挡关系准确性，进而提高该人物驱动图像的真实性。

上述图像生成装置可执行本公开实施例任一所提供的图像生成方法，具备执行的图像生成方法相应的功能模块和有益效果。

实施例七

图7为根据本公开实施例七提供的一种计算机设备的结构示意图。图7示出了适于用来实现本公开实施方式的示例性计算机设备12的框图。图7显示的计算机设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线、外围总线、或者使用多种总线结构中的任意总线结构。举例来说，这些总线结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro Channel Architecture，MCA)总线、增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘运动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘运动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM))或者其它光介质读写的光盘运动器。在这些情况下，每个运动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以存储至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中。程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据。这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图7中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于微代码、设备运动器、冗余处理单元、外部磁盘运动阵列、(Redundant Arrays of Inexpensive Disks，RAID)系统、磁带运动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序模块42，从而执行各种功能应用以及数据处理，例如实现本公开任意实施例所提供的一种图像驱动模型训练和/或图像生成方法。

实施例八

本公开实施例八提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有公开实施例提供的图像驱动模型训练方法，或者实现如本申请所有公开实施例提供的图像生成方法。

本公开实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机磁盘、硬盘、RAM、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、无线电频率(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括LAN或WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述仅为本公开的较佳实施例及所运用技术原理。本领域技术人员会理解，本公开不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本公开的保护范围。因此，虽然通过以上实施例对本公开进行了较为详细的说明，但是本公开不仅仅限于以上实施例，在不脱离本公开构思的情况下，还可以包括更多其他等效实施例，而本公开的范围由所附的权利要求范围决定。

Claims

一种图像驱动模型训练方法，包括：

获取第一图像帧以及第二图像帧；

从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵；

根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据；

根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。
根据权利要求1所述的方法，其特征在于，所述从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵，包括：

将所述第一图像帧输入到关键点检测模型中，获取所述关键点检测模型输出的多个初始人物关键点和各所述初始人物关键点对应的热力图；

根据各所述初始人物关键点和各所述初始人物关键点对应的热力图，生成初始局部仿射变换矩阵，作为初始姿态特征；

将所述第二图像帧输入到所述关键点检测模型中，获取所述关键点检测器输出的多个目标姿态关键点和各所述目标姿态关键点对应的热力图；

根据各所述目标姿态关键点和各所述目标姿态关键点对应的热力图，生成目标局部仿射变换矩阵，作为目标姿态特征；

将所述初始局部仿射变换矩阵与所述目标局部仿射变换矩阵相乘，获取从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵。
根据权利要求2所述的方法，其特征在于，所述根据各所述初始人物关键点和各所述初始人物关键点对应的热力图，生成初始局部仿射变换矩阵，包括：

针对各所述初始人物关键点，

获取所述初始人物关键点的坐标，以及匹配的置信度；

根据所述初始人物关键点的坐标以及匹配的置信度，生成与所述初始人物关键点匹配的热力图区域；

将所述热力图区域转换为设定规则形状的热力图区域，并

获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，作为所述初始人物关键点对应的局部仿射变换矩阵；

基于各所述初始人物关键点对应的局部仿射变换矩阵，确定所述初始局部仿射变换矩阵。
根据权利要求2或3所述的方法，其特征在于，所述根据各所述目标姿态关键点和各所述目标姿态关键点对应的热力图，生成目标局部仿射变换矩阵，包括：

针对各所述目标姿态关键点，

获取所述目标姿态关键点的坐标，以及匹配的置信度；

根据所述目标姿态关键点的坐标以及匹配的置信度，生成与所述目标姿态关键点匹配的热力图区域；

将所述热力图区域转换为设定规则形状的热力图区域，并

获取所述设定规则形状的热力图区域对应的局部仿射变换矩阵，作为所述目标姿态关键点对应的局部仿射变换矩阵；

基于各所述目标姿态关键点对应的局部仿射变换矩阵，确定所述目标局部仿射变换矩阵。
根据权利要求2所述的方法，其特征在于，所述关键点检测模型包括U型网络。
根据权利要求1所述的方法，其特征在于，所述根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据，包括：

将所述局部仿射变换矩阵和所述第一图像帧输入到预先训练的密集运动估计模型中，获取所述密集运动估计模型输出的像素运动数据和像素遮挡数据；

其中，所述像素运动数据包括所述第一图像帧中各初始人物像素指向所述第二图像帧中匹配的目标像素位置的运动方向，

所述像素遮挡数据包括所述第一图像帧中各所述初始人物像素通过仿射变换到所述第二图像帧中匹配的目标像素位置所形成的目标像素之间的遮挡顺序关系。
根据权利要求6所述的方法，其特征在于，通过如下方式训练所述密集运动估计模型：

将训练视频中的视频帧与空间转换视频帧的光测误差的最小值作为训练目标，对基于深度学习模型的所述密集运动估计模型迭代训练；

其中，所述空间转换视频帧通过将所述训练视频中的视频帧输入到空间转换模型生成，所述训练视频中的视频帧的局部空间特征与所述空间转换视频帧中匹配的局部空间特征相同。
根据权利要求2所述的方法，其特征在于，所述根据所述第一图像帧、像素运动数据和像素遮挡数据，训练基于深度学习模型的图像驱动模型，包括：

根据损失函数配置信息计算所述深度学习模型的损失函数，所述损失函数配置信息用于在所述深度学习模型的初始损失函数的基础上添加同变性约束函数，所述同变性约束函数通过对初始人物关键点进行空间变换后的坐标与期望关键点的坐标之间的差值确定；

如果确定所述损失函数满足稳定条件，则将当前训练得到的深度学习模型确定为所述图像驱动模型。
根据权利要求8所述的方法，其特征在于，所述同变性约束函数包括欧氏距离范数。
一种图像生成方法，包括：

获取人物图像；

获取指定视频中的目标视频帧；

将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如权利要求1至9任一项所述的方法训练生成。
一种图像驱动模型训练装置，包括：

图像获取模块，用于获取第一图像帧以及第二图像帧；

特征提取模块，用于从所述第一图像帧提取初始姿态特征，以及从所述第二图像帧提取目标姿态特征，并生成从所述初始姿态特征指向所述目标姿态特征的局部仿射变换矩阵；

数据生成模块，用于根据所述局部仿射变换矩阵和所述第一图像帧，生成像素运动数据和像素遮挡数据；

模型训练模块，用于根据所述第一图像帧、所述像素运动数据和所述像素遮挡数据，训练基于深度学习模型的图像驱动模型。
一种图像生成装置，包括：

人物图像获取模块，用于获取人物图像；

目标视频帧获取模块，用于获取指定视频中的目标视频帧；

人物驱动图像生成模块，用于将所述人物图像和所述目标视频帧输入到预先训练的图像驱动模型中，获取所述图像驱动模型输出的人物驱动图像，所述图像驱动模型通过如权利要求1至9任一项所述的方法训练生成。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9中任一所述的图像驱动模型训练方法，或实现如权利要求10所述的图像生成方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一所述的图像驱动模型训练方法，或实现如权利要求10所述的图像生成方法。