WO2023132790A2

WO2023132790A2 - 表情驱动方法和装置、表情驱动模型的训练方法和装置

Info

Publication number: WO2023132790A2
Application number: PCT/SG2023/050004
Authority: WO
Inventors: 朱亦哲; 杨骁�; 李健玮; 沈晓辉
Original assignee: 脸萌有限公司
Priority date: 2022-01-04
Filing date: 2023-01-04
Publication date: 2023-07-13
Also published as: WO2023132790A3; CN116433809A

Abstract

本公开提供一种表情驱动方法和装置、表情驱动模型的训练方法，该表情驱动方法包括：获取第一视频；将第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。本公开提供的表情驱动方法、以及表情驱动模型的训练方法用于提高第二视频的实时性。

Description

表情驱动方法和装置、表情驱动模型的训练方法和装置相关申请交叉引用本公开要求于 2022年 01月 04日提交的、申请号为 202210001031.3、名称为 “表情驱动方法、以及模型训练方法 ”的中国专利申请的优先权，其全部内容通过引用并入本文。技术领域本公开涉及形象驱动的技术领域，尤其涉及一种表情驱动方法和装置、表情驱动模型的训练方法和装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序。背景技术人物形象驱动是指根据提供的驱动信息（比如人的姿态、表情等），来驱动某一个静态人物形象，使静态人物形象能够逼真得动起来。在相关技术中，通常采用生成式对抗网络模型对驱动视频进行处理，以得到驱动信息, 并采用驱动信息来驱动静态人物形象，从而生成新视频。在上述相关技术中，在采用生成式对抗网络模型得到新视频的过程中，由于生成式对抗网络模型的数据计算量大，因此使得新视频的实时性较差。发明内容本公开提供一种表情驱动方法和装置、表情驱动模型的训练方法和装置、电子设备、计算机可读存储介质、计算机程序产品及计算机程序，用以解决新视频的实时性较差问题。第一方面，本公开提供一种表情驱动方法，包括：获取第一视频；将第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，所述表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。在一些实施例中，表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定的多个样本图像对训练得到的；第二样本图像为基于目标样本图像中的多个目标人脸关键点、以及对应的第一样本图像中的多个第一人脸关键点得到的；第二样本图像中人脸的姿态表情特征与对应的第一样本图像中人脸的姿态表情特征之间的相似度大于预设值。在一些实施例中，第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之间的位移信息、以及目标样本图像对应的人脸特征图得到的；针对每个目标人脸关键点，位移信息为目标人脸关键点与对应的第一人脸关键点之间的位移信息；人脸特征图为对目标样本图像中的人脸信息进行编码得到的。在一些实施例中，位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间的差异信息、以及预先训练的网络模型确定的。在一些实施例中，差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息确定的。在一些实施例中，多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像。第二方面，本公开提供一种表情驱动模型的训练方法，包括：分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息；根据位移信息和目标样本图像，生成第二样本图像；第二样本图像中人脸的姿态表情特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值；根据多张第一样本图像和对应的第二样本图像，确定多个样本图像对；根据多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。在一些实施例中，根据位移信息和目标样本图像，生成第二样本图像，包括：对目标样本图像中的人脸信息进行编码，得到人脸特征图；根据位移信息和人脸特征图，确定第二样本图像。在一些实施例中，根据位移信息和人脸特征图，确定第二样本图像，包括：根据位移信息，对人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图; 对处理后的人脸特征图进行解码，得到第二样本图像。在一些实施例中，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息，包括：确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的差异信息；根据差异信息和预先训练的网络模型，确定位移信息。在一些实施例中，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的差异信息，包括：将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下；根据同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息，确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。在一些实施例中，还包括：获取多张初始样本图像；确定多张初始样本图像的姿态角度；将多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为多张第一样本图像。第三方面，本公开提供一种表情驱动装置，包括：处理模块；处理模块用于：获取第一视频；将第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，所述表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。在一些实施例中，表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定的多个样本图像对训练得到的；第二样本图像为基于目标样本图像中的多个目标人脸关键点、以及对应的第一样本图像中的多个第一人脸关键点得到的；第二样本图像中人脸的姿态表情特征与对应的第一样本图像中人脸的姿态表情特征之间的相似度大于预设值。在一些实施例中，第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之间的位移信息、以及目标样本图像对应的人脸特征图得到的; 针对每个目标人脸关键点，位移信息为目标人脸关键点与对应的第一人脸关键点之间的位移信息；人脸特征图为对目标样本图像中的人脸信息进行编码得到的。在一些实施例中，位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间的差异信息、以及预先训练的网络模型确定的。在一些实施例中，差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息确定的。在一些实施例中，多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像。第四方面，本公开提供一种表情驱动模型的训练装置，包括：处理模块：处理模块用于：分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息；根据位移信息和目标样本图像，生成第二样本图像；第二样本图像中人脸的姿态表情特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值；根据多张第一样本图像和对应的第二样本图像，确定多个样本图像对；根据多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。在一些实施例中，处理模块具体用于：对目标样本图像中的人脸信息进行编码，得到人脸特征图；根据位移信息和人脸特征图，确定第二样本图像。在一些实施例中，处理模块具体用于：根据位移信息，对人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图；对处理后的人脸特征图进行解码，得到第二样本图像。在一些实施例中，处理模块具体用于：确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的差异信息；根据差异信息和预先训练的网络模型，确定位移信息。在一些实施例中，处理模块具体用于：将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下；根据同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息，确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。在一些实施例中，处理模块还用于：获取多张初始样本图像；确定多张初始样本图像的姿态角度；将多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为多张第一样本图像。第五方面，本公开提供一种电子设备，包括：处理器，以及与处理器通信连接的存储器；存储器存储计算机执行指令；处理器执行存储器存储的计算机执行指令，以实现如第一方面和第二方面任一项的方法。第六方面，本公开提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现如第一方面和第二方面的方法。第七方面，本公开提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面和第二方面的方法。第八方面，本公开提供一种计算机程序，该计算机程序被处理器执行时实现第一方面和第二方面的方法。本公开提供一种表情驱动方法和装置、表情驱动模型的训练方法和装置，该表情驱动方法包括：获取第一视频；将第一视频输入预先训练好的表情驱动模型，得到第二视频; 其中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。在上述表情驱动方法中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，在通过表情驱动模型得到第二视频的过程中，表情驱动模型的数据计算量小，能够根据第一视频实时得到第二视频，从而提高第二视频的实时性。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例, 并与说明书一起用于解释本公开的原理。图 1为本公开提供的表情驱动方法的应用场景示意图；图 2为本公开提供的表情驱动方法的流程图一；图 3为本公开提供的表情驱动模型的训练方法的流程图；图 4为本公开提供的多个目标人脸关键点的示意图；图 5为本公开提供的一种得到第二样本图像的模型结构图；图 6为本公开提供的表情驱动装置的结构示意图；图 7为本公开提供的表情驱动模型的训练装置的结构示意图；图 8为本公开实施例提供的电子设备的硬件示意图。通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。首先对本公开所涉及的名词进行解释：人物形象驱动，是指根据驱动信息 (比如人的姿态、表情等信息) ，来驱动静态人物形象，以使静态人物形象能够逼真得动起来。实时驱动，是指通过摄像设备实时捕捉到人的姿态和表情等，根据捕捉到人的姿态和表情等，实时驱动静态人物形象，以使静态人物形象能够逼真得动起来。接着对相关技术进行说明。在相关技术中，通常采用生成式对抗网络 (Generative adversarial networks, GAN)模型对驱动视频进行处理，以得到驱动信息，并采用驱动信息来驱动静态人物形象，从而生成新视频。在采用生成式对抗网络模型得到新视频的过程中，由于生成式对抗网络模型的数据计算量大，因此使得新视频的实时性较差。在本公开中，为了提高新视频的实时性，发明人想到，采用一种数据计算量小的表情驱动模型，对驱动视频和目标图片（包括静态人物形象）进行处理，来得到新视频，由于本公开中的表情驱动模型的计算量较小，因此，可以快速地对驱动视频和目标图片进行处理，从而提高新视频的实时性。进一步地，以第一视频（驱动视频）中包括驱动图像，第二视频（新视频）中包括生成图像为例，结合图 1对本公开提供的表情驱动方法的应用场景进行说明。图 1为本公开提供的表情驱动方法的应用场景示意图。如图 1所示，包括：目标样本图像、驱动图像、生成图像、多张第一样本图像、表情驱动模型、初始表情驱动模型。基于目标样本图像和多张第一样本图像，对初始表情驱动模型进行训练，得到表情驱动模型。表情驱动模型用于对驱动图像（第一视频中的一帧图像）进行处理，输出生成图像（第二视频中的一帧图像）。其中，生成图像中的人脸图像基于目标样本图像生成，生成图像中的人脸图像的姿态表情特征和驱动图像中的人脸图像的姿态表情特征相同。下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。图 2为本公开提供的表情驱动方法的流程图一。如图 2所示，该方法包括：

5201 , 获取第一视频。可选地，本公开的执行主体可以为电子设备，也可以为设置在电子设备中的表情驱动装置，该表情驱动装置可以通过软件和 /或硬件的结合来实现。电子设备可以为包括高性能图形处理器（ graphics processing unit, GPU）的电子设备，也可以包括低性能 GPU的电子设备。其中，高性能 GPU的计算速度较快，低性能 GPU的计算速度较慢。例如，包括低性能 GPU的电子设备可以为个人数字助理（Personal Digital Assistant, PDA）、用户设备（User Device or User Equipment）。例如用户设备可以为智能手机等。可选地，第一视频可以为电子设备实时采集到的视频，也可以为预先存储在电子设备中的视频。第一视频中包括 N帧驱动图像。 N为大于或等于 2的整数。

5202, 将第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。第二视频中包括 N帧生成图像。针对第一视频中的每帧驱动图像，表情驱动模型对驱动图像进行处理，得到第二视频中与该驱动图像对应的生成图像。可选地，姿态表情特征可以包括：姿态角度和表情。可选地，姿态角度可以包括：俯仰角（pitch）、滚转角（roll）、航向角（yaw）中的任意至少一种。可选地，俯仰角可以指示抬头、或者低头。航向角可以指示左歪头、或者右歪头。滚转角可以指示人脸左转动、或者右转动。在图 2实施例提供的表情驱动方法中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，在通过表情驱动模型得到第二视频的过程中，表情驱动模型的数据计算量小，能够根据第一视频实时得到第二视频，从而提高第二视频的实时性。进一步地，与现有技术不同，在现有技术中，生成式对抗网络模型的数据计算量大, 因此只能将生成式对抗网络模型部署在包括高性能 GPU的电子设备中，才能使得新视频具有较好的实时性，当将生成式对抗网络模型部署在包括低性能 GPU的电子设备中时，使得新视频出现卡顿等问题，导致新视频的实时性较差。而在本公开中，表情驱动模型的数据计算量小（即生成器的计算小），即使将表情驱动模型部署在包括低性能 GPU的电子设备中，也能使得第二视频具有较好的实时性。在上述实施例的基础上，下面结合图 3对表情驱动模型的训练方法进行说明。具体的, 请参见图 3实施例。图 3为本公开提供的表情驱动模型的训练方法的流程图。如图 3所示，该方法包括:

S301、分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点。可选地，表情驱动模型的训练方法的执行主体可以为电子设备、或者设置在电子设备中的表情驱动模型的训练装置，也可以为与电子设备进行通信的服务器、或者设置在服务器中的表情驱动模型的训练装置，该表情驱动模型的训练装置可以通过软件和 /或硬件的结合来实现。可选地，目标样本图像可以为预先设定的图像，也可以为至少一个预设图像中用户选中的图像。其中，每个预设图像中均包括静态人物图像（具有人脸图像）。例如，静态人物图像可以为卡通人物图像、经典画像中的人物图像等。可选地，可以通过如下方式 11和 12提取目标样本图像中的多个目标人脸关键点。方式 11 , 通过人脸关键点检测算法模型，对目标样本图像进行关键点提取，得到多个面部关键点以及对应的位置信息；通过瞳孔关键点检测算法模型，对目标样本图像进行关键点提取，得到多个瞳孔关键点以及对应的位置信息；通过人脸外轮廓关键点检测算法模型，对目标样本图像进行关键点提取，得到多个人脸外轮廓关键点以及对应的位置信息；根据多个面部关键点、多个瞳孔关键点和多个人脸外轮廓关键点，确定多个目标人脸关键点。可选地，可以将多个面部关键点中鼻子、嘴巴、眼睛和眉毛这四个部位对应的关键点，以及多个瞳孔关键点和多个人脸外轮廓关键点，确定为多个目标人脸关键点。可选地，也可以将多个面部关键点中鼻子、嘴巴、眼睛、眉毛和脸部轮廓（脸部下半部分轮廓）这五个部分对应的关键点，多个瞳孔关键点、以及多个人脸外轮廓关键点中脸部上半部分轮廓对应的关键点，确定为多个目标人脸关键点。图 4为本公开提供的多个目标人脸关键点的示意图。在上述方式 11的基础上，如图 4所示，多个目标关键点例如包括：多个面部关键点中鼻子、嘴巴、眼睛和眉毛这四个部位对应的关键点，以及多个瞳孔关键点和多个人脸外轮廓关键点。方式 12、通过人脸关键点检测算法模型，对目标样本图像进行关键点提取，得到多个面部关键点以及对应的位置信息；通过瞳孔关键点检测算法模型，对目标样本图像进行关键点提取，得到多个瞳孔关键点以及对应的位置信息；通过嘴部密集关键点检测算法模型，对目标样本图像进行关键点提取，得到多个嘴部关键点以及对应的位置信息；通过人脸外轮廓关键点检测算法模型，对目标样本图像进行关键点提取，得到多个人脸外轮廓关键点以及对应的位置信息；根据多个面部关键点、多个瞳孔关键点、多个嘴部关键点和多个人脸外轮廓关键点, 确定为多个目标人脸关键点。可选地，可以将多个面部关键点中鼻子、眼睛和眉毛这 3个部位对应的关键点，以及多个瞳孔关键点、多个嘴部关键点和多个人脸外轮廓关键点，确定为多个目标人脸关键点。可选地，也可以将多个面部关键点中鼻子、眼睛、眉毛和脸部轮廓（脸部下半部分轮廓）这四个部分对应的关键点，多个瞳孔关键点、多个嘴部关键点、以及多个人脸外轮廓关键点中脸部上半部分轮廓对应的关键点，确定为多个目标人脸关键点。需要说明的是，针对每张第一样本图像，可以采用上述方式 11或者 12, 提取第一样本图像中的多个第一人脸关键点，此处不再详述。

5302、针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息。在一些实施例中， S302 具体包括：确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的差异信息；根据差异信息和预先训练的网络模型，确定位移信息。在一些实施例中，可以通过如下方法确定差异信息：将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下；根据同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息，确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。可选地，针对每个目标人脸关键点，该差异信息可以等于目标人脸关键点的坐标信息与目标人脸关键点对应的第一人脸关键点的坐标信息的差值。在一些实施例中，将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下, 包括：将各目标人脸关键点的位置信息和各第一人脸关键点的位置信息，转换到同一坐标系下。在一些实施例中，通过预先训练的网络模型，对各目标人脸关键点和对应的第一人脸关键点之间的差异信息进行处理，得到位移信息。

5303、根据位移信息和目标样本图像，生成第二样本图像；第二样本图像中人脸的姿态表情特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值。在一些实施例中， S303 具体包括：根据位移信息，调整各目标关键点在目标样本图像中的位置，得到第二样本图像。在另一些实施例中， S303 具体包括：对目标样本图像中的人脸信息进行编码，得到人脸特征图；根据位移信息和人脸特征图，确定第二样本图像。具体的，根据位移信息和人脸特征图，确定第二样本图像，包括：根据位移信息，对人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图；对处理后的人脸特征图进行解码，得到第二样本图像。 5304、根据多张第一样本图像和对应的第二样本图像，确定多个样本图像对。每个样本图像对中包括第一样本图像和第一样本图像对应的第二样本图像。多个样本图像对中的第一样本图像存在不同。

5305、根据多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。可选地，初始表情驱动模型可以包括生成器和判决器。具体的，根据多个样本图像对，更新生成器和判决器的模型参数，以得到表情驱动模型。其中，表情驱动模型为更新生成器的模型参数之后，得到生成器最终模型。可选地，初始表情驱动模型的模型参数的更新次数达到预设次数、或者对初始表情驱动模型的训练时长达到预设时长、或者初始表情驱动模型的模型参数收敛时，得到表情驱动模型。初始表情驱动模型通常采用多个样本图像对进行训练，例如样本图像对中包括图像 A 和图像 B, 在图像 B中需要驱动的人物图像的姿态表情与图像 A中人物图像对应的姿态表情。在现有技术中，通常通过人工绘制图像 B, 导致多个样本图像对难以获取，浪费人力成本和时间成本。而在本公开中，分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息；根据位移信息和目标样本图像，生成第二样本图像，可以避免通过工人绘制第一样本图像对应的第二样本图像，节省了人力成本和时间成本。在图 3实施例的基础上，表情驱动模型的训练方法还可以包括：获取多张初始样本图像；确定多张初始样本图像的姿态角度；将多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为多张第一样本图像。在一些实施例中，确定多张初始样本图像的姿态角度包括：分别对每张初始样本图像的转动角度进行检测，以得到各初始样本图像的姿态角度。可选地，预定的分布可以为均匀分布，还可以为其他分布，此处不再详述。在实际应用中，多个第一样本图像中通常包括较多的正脸图（具有某一固定姿态角度）, 若通过包括较多的正脸图的多个第一样本图像对初始表情驱动模型进行训练，导致得到的表情驱动模型的准确较差，进而降低新视频的质量。而在本公开中，将多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为多张第一样本图像，使得多个第一样本图像中具有各种姿态角度的样本图像的数量较为均衡（即多个第一样本图像的姿态角度分布较为均衡），因此在通过多张第一样本图像对初始表情驱动模型进行训练之后，可以提高表情驱动模型的准确性，进而提高第二视频的质量。图 5为本公开提供的一种得到第二样本图像的模型结构图。如图 5所示，包括：人脸关键点检测模块 51、人脸位置信息提取模块 52、人脸特征提取模块 53、人脸特征弯曲形变模块 54和人脸图像重建模块 55 o 人脸特征弯曲形变模块 54与人脸位置信息提取模块 52、人脸特征提取模块 53、人脸图像重建模块 55连接，人脸位置信息提取模块 52还与人脸关键点检测模块 51连接。人脸关键点检测模块 51用于分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点。人脸位置信息提取模块 52用于针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息。人脸特征提取模块 53用于对目标样本图像中的人脸信息进行编码，得到人脸特征图。人脸特征弯曲形变模块 54用于根据位移信息，对人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图。人脸图像重建模块 55用于对处理后的人脸特征图进行解码，得到第二样本图像。图 6为本公开提供的表情驱动装置的结构示意图。如图 6所示，表情驱动装置 60包括：处理模块 61；处理模块 61用于：获取第一视频；将第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，第二视频中的人脸图像基于目标样本图像生成，第二视频中的人脸图像的姿态表情特征和第一视频中的人脸图像的姿态表情特征相同。本公开实施例提供的表情驱动装置 60可以执行上述表情驱动方法，其实现原理以及有益效果类似，此处不再进行赘述。在一些实施例中，表情驱动模型为基于多张第一样本图像和对应的第二样本图像确定的多个样本图像对训练得到的; 第二样本图像为基于目标样本图像中的多个目标人脸关键点、以及对应的第一样本图像中的多个第一人脸关键点得到的；第二样本图像中人脸的姿态表情特征与对应的第一样本图像中人脸的姿态表情特征之间的相似度大于预设值。在一些实施例中，第二样本图像为基于多个目标人脸关键点和多个第一人脸关键点之间的位移信息、以及目标样本图像对应的人脸特征图得到的；针对每个目标人脸关键点，位移信息为目标人脸关键点与对应的第一人脸关键点之间的位移信息；人脸特征图为对目标样本图像中的人脸信息进行编码得到的。在一些实施例中，位移信息为根据多个目标人脸关键点和对应的第一人脸关键点之间的差异信息、以及预先训练的网络模型确定的。在一些实施例中，差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息确定的。在一些实施例中，多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像。图 7为本公开提供的表情驱动模型的训练装置的结构示意图。如图 7所示，表情驱动模型的训练装置 70包括：处理模块 71；处理模块 71用于：分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的位移信息；根据位移信息和目标样本图像，生成第二样本图像；第二样本图像中人脸的姿态表情特征与目标样本图像中人脸的姿态表情特征之间的相似度大于预设值；根据多张第一样本图像和对应的第二样本图像，确定多个样本图像对；根据多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。本公开实施例提供的情驱动模型的训练装置 70可以执行上述情驱动模型的训练方法, 其实现原理以及有益效果类似，此处不再进行赘述。在一些实施例中，处理模块 71具体用于：对目标样本图像中的人脸信息进行编码，得到人脸特征图 ; 根据位移信息和人脸特征图，确定第二样本图像。在一些实施例中，处理模块 71具体用于：根据位移信息，对人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图；对处理后的人脸特征图进行解码，得到第二样本图像。在一些实施例中，处理模块 71具体用于：确定目标人脸关键点与第一样本图像中和目标人脸关键点对应的第一人脸关键点之间的差异信息；根据差异信息和预先训练的网络模型，确定位移信息。在一些实施例中，处理模块 71具体用于：将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下；根据同一坐标系下各目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息，确定各目标人脸关键点和对应的第一人脸关键点之间的差异信息。在一些实施例中，处理模块 71还用于：获取多张初始样本图像；确定多张初始样本图像的姿态角度；将多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为多张第一样本图像。图 8为本公开实施例提供的电子设备的硬件示意图。如图 8所示，电子设备 80可以包括：收发器 81、存储器 82和处理器 83。其中，收发器 81 可以包括：发射器和 /或接收器。发射器还可称为发送器、发射机、发送端口或发送接口等类似描述。接收器还可称为接收机、接收端口或接收接口等类似描述。示例性地，收发器 81、存储器 82、处理器 83各部分之间通过总线 84相互连接。存储器 82用于存储计算机执行指令。处理器 83用于执行存储器 82存储的计算机执行指令，使得处理器 83执行上述表情驱动方法、以及表情驱动模型的训练方法。本公开实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当计算机执行指令被处理器执行时实现上述表情驱动方法、以及表情驱动模型的训练方法。本公开实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时，可实现上述表情驱动方法、以及表情驱动模型的训练方法。本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时，可实现上述表情驱动方法、以及表情驱动模型的训练方法。实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成 o前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器 (存储介质) 包括：只读存储器 (read-only memory, ROM) > 随机存取存储器 (random access memory, RAM)、快闪存储器、硬盘、固态硬盘、磁带 (magnetic tape) > 软盘 (floppy disk) 、光盘 (optical disc) 及其任意组合。本公开实施例是参照根据本公开实施例的方法、设备 (系统) 、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/ 或方框、以及流程图和 /或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。显然，本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。在本公开中，术语 “包括 ”及其变形可以指非限制性的包括；术语 “或 ”及其变形可以指 “和 /或” 。本本公开中术语 “第一” 、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本公开中， “多个 ”是指两个或两个以上。 “和 /或”，描述关联对象的关联关系，表示可以存在三种关系，例如， A和 /或 B, 可以表示：单独存在 A, 同时存在 A和 B, 单独存在 B这三种情况。字符 “/”一般表示前后关联对象是一种 “或” 的关系。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。应当理解的是，本公开并不局限于上面巳经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

权利要求书

1、一种表情驱动方法，包括：获取第一视频；将所述第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，所述表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，所述第二视频中的人脸图像基于所述目标样本图像生成，所述第二视频中的人脸图像的姿态表情特征和所述第一视频中的人脸图像的姿态表情特征相同。

2、根据权利要求 1所述的方法，其中，所述表情驱动模型为基于所述多张第一样本图像和对应的第二样本图像确定的多个样本图像对训练得到的；所述第二样本图像为基于目标样本图像中的多个目标人脸关键点、以及对应的第一样本图像中的多个第一人脸关键点得到的；所述第二样本图像中人脸的姿态表情特征与对应的第一样本图像中人脸的姿态表情特征之间的相似度大于预设值。

3、根据权利要求 2所述的方法，其中，所述第二样本图像为基于多个目标人脸关键点和所述多个第一人脸关键点之间的位移信息、以及所述目标样本图像对应的人脸特征图得到的；针对每个目标人脸关键点，所述位移信息为所述目标人脸关键点与对应的第一人脸关键点之间的位移信息；所述人脸特征图为对所述目标样本图像中的人脸信息进行编码得到的。

4、根据权利要求 3所述的方法，其中，所述位移信息为根据所述多个目标人脸关键点和对应的第一人脸关键点之间的差异信息、以及预先训练的网络模型确定的。

5、根据权利要求 4所述的方法，其中，所述差异信息为根据在同一坐标系下目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息确定的。

6、根据权利要求 1-5任一项所述的方法，其中，所述多张第一样本图像为多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像。

7、一种表情驱动模型的训练方法，包括：分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定所述目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之间的位移信息；根据所述位移信息和所述目标样本图像，生成第二样本图像；所述第二样本图像中人脸的姿态表情特征与所述目标样本图像中人脸的姿态表情特征之间的相似度大于预设值；根据所述多张第一样本图像和对应的第二样本图像，确定多个样本图像对；根据所述多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。

8、根据权利要求 7所述的方法，其中，所述根据所述位移信息和所述目标样本图像，生成第二样本图像，包括：对所述目标样本图像中的人脸信息进行编码，得到人脸特征图；根据所述位移信息和所述人脸特征图，确定所述第二样本图像。

9、根据权利要求 8 所述的方法，其中，所述根据所述位移信息和所述人脸特征图, 确定所述第二样本图像，包括：根据所述位移信息，对所述人脸特征图进行弯曲转变处理和 /或位移处理，得到处理后的人脸特征图；对所述处理后的人脸特征图进行解码，得到所述第二样本图像。

10、根据权利要求 7-9任一项所述的方法，其中，所述确定所述目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之间的位移信息，包括: 确定所述目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之间的差异信息；根据所述差异信息和预先训练的网络模型，确定所述位移信息。

11、根据权利要求 10所述的方法，其中，所述确定所述目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之间的差异信息，包括：将多个目标人脸关键点和多个第一人脸关键点转换到同一坐标系下；根据同一坐标系下各所述目标人脸关键点的坐标信息和对应的第一人脸关键点的坐标信息，确定所述各目标人脸关键点和对应的第一人脸关键点之间的差异信息。

12、根据权利要求 7-11任一项所述的方法，其中，所述方法还包括：获取多张初始样本图像；确定所述多张初始样本图像的姿态角度；将所述多张初始样本图像中各姿态角度的样本图像的数量符合预定的分布的初始样本图像，确定为所述多张第一样本图像。

13、一种表情驱动装置，包括：处理模块；所述处理模块用于: 获取第一视频；将所述第一视频输入预先训练好的表情驱动模型，得到第二视频；其中，所述表情驱动模型基于目标样本图像和多张第一样本图像训练得到的，所述第二视频中的人脸图像基于所述目标样本图像生成，所述第二视频中的人脸图像的姿态表情特征和所述第一视频中的人脸图像的姿态表情特征相同。

14、一种表情驱动模型的训练装置，包括：处理模块：所述处理模块用于：分别提取目标样本图像中的多个目标人脸关键点，以及多张第一样本图像中每张第一样本图像中的多个第一人脸关键点；针对每张第一样本图像和每个目标人脸关键点，确定所述目标人脸关键点与所述第一样本图像中和所述目标人脸关键点对应的第一人脸关键点之间的位移信息；根据所述位移信息和所述目标样本图像，生成第二样本图像；所述第二样本图像中人脸的姿态表情特征与所述目标样本图像中人脸的姿态表情特征之间的相似度大于预设值；根据所述多张第一样本图像和对应的第二样本图像，确定多个样本图像对；根据所述多个样本图像对，更新初始表情驱动模型的模型参数，以得到表情驱动模型。

15、一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求 1-12任一项所述的方法。

16、一种计算机可读存储介质，其中，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求 1-12任一项所述的方法。

17、一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求 1-12任一项所述的方法。

18、一种计算机程序，其中，所述计算机程序被处理器执行时实现权利要求 1-12任一项所述的方法。

19