WO2024055379A1

WO2024055379A1 - 基于角色化身模型的视频处理方法、系统及相关设备

Info

Publication number: WO2024055379A1
Application number: PCT/CN2022/124917
Authority: WO
Inventors: 李昱; 曹成坤; 邓杨; 周昌印; 余飞
Original assignee: 粤港澳大湾区数字经济研究院(福田); 杭州盖视科技有限公司
Priority date: 2022-09-16
Filing date: 2022-10-12
Publication date: 2024-03-21
Also published as: CN115643349A

Abstract

本申请公开了基于角色化身模型的视频处理方法、系统及相关设备，其中，上述方法包括：获取驱动对象的驱动视频、权限验证信息及对应的被驱动对象；当驱动对象的权限验证信息满足被驱动对象的权限验证条件时，获取被驱动对象的角色化身模型和参考图像；根据驱动视频获取驱动对象对应的多帧脸部几何渲染图像；获取各脸部几何渲染图像对应的时间编码，根据参考图像、各脸部几何渲染图像及各脸部几何渲染图像对应的时间编码，通过角色化身模型生成被驱动视频，被驱动视频中由上述被驱动对象执行与驱动视频中驱动对象相同的表情和姿态。本申请以驱动对象的视频来驱动角色化身模型，有利于提高角色化身模型的视频展示效果。

Description

基于角色化身模型的视频处理方法、系统及相关设备

技术领域

本申请涉及视频处理技术领域，尤其涉及的是一种基于角色化身模型的视频处理方法、系统及相关设备。

背景技术

随着科学技术的发展，尤其是视频处理技术的发展，用户对于视频处理的要求也逐渐增高。例如，用户想要基于视频处理实现脸部替换，例如实现在视频中以第一用户的表情来驱动第二用户的脸做出对应的表情。

而现有技术中，通常对视频进行逐帧处理，要求第一用户和第二用户分别录取一段视频，对于视频中的每一帧图像，将第一用户和第二用户的图像中脸部区域进行截取和替换。现有技术的问题在于，将第一用户和第二用户的图像中脸部区域进行截取和替换，而替换后的第二用户所对应的图像中的脸部区域中表情虽然是第一用户的表情，但实际上对应的脸部五官也仍是第一用户的五官，并没有实现以第一用户的表情来驱动第二用户的脸做出对应的表情的目的。

现有技术的问题在于，只通过对两个用户的视频中每一帧图像中脸部区域进行截取和替换的视频处理方案，无法实现以第一用户的表情来驱动第二用户的脸做出对应的表情，不利于提高视频展示的效果，也不利于提高视频脸部替换的效果。

因此，现有技术还有待改进和发展。

发明内容

本申请的主要目的在于提供一种基于角色化身模型的视频处理方法、系统及相关设备，旨在解决现有技术中只通过对两个用户的视频中每一帧图像中脸部区域进行截取和替换的视频处理方案不利于提高视频展示的效果的问题。

为了实现上述目的，本申请第一方面提供一种基于角色化身模型的视频处理方法，其中，上述基于角色化身模型的视频处理方法包括：

获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得；

当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像；

根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态；

获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

可选的，上述参考图像用于为上述角色化身模型提供上述被驱动对象对应的图像纹理细节，上述被驱动视频与上述参考图像的图像纹理细节相同。

可选的，上述参考图像是通道数为3的RGB图像。

可选的，上述根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，包括：

对上述驱动视频进行拆分获得多帧驱动图像；

分别提取获得各上述驱动图像对应的三维脸部参数；

分别根据各上述驱动图像对应的三维脸部参数获取各上述驱动图像对应的三维脸部网格；

对各上述驱动图像对应的三维脸部网格进行渲染获得各上述驱动图像对应的脸部几何渲染图像，其中，上述脸部几何渲染图像为灰度图。

可选的，在上述分别根据各上述驱动图像对应的三维脸部参数获取各上述驱动图像对应的三维脸部网格之前，上述方法还包括：

基于上述角色化身模型中上述被驱动对象对应的脸部空间位置对上述三维脸部参数进行对齐以更新上述三维脸部参数。

可选的，上述三维脸部参数包括个体系数、表情系数和姿态系数。

可选的，上述获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，包括：

根据预设的时间编码计算公式获取各上述脸部几何渲染图像对应的时间编码；

将各组待处理数据依次输入上述角色化身模型，获得各组上述待处理数据对应的被驱动图像，其中，一组上述待处理数据由上述参考图像、一个上述脸部几何渲染图像以及该脸部几何渲染图像对应的时间编码组成，上述被驱动图像中由上述被驱动对象执行与对应的脸部几何渲染图像中相同的表情和姿态；

将各上述被驱动图像按照对应的时间编码依次连接并生成上述被驱动视频。

可选的，上述时间编码用于为上述角色化身模型输入时间信息，上述时间编码计算公式为：TPE _t＝(sin(2 ⁰πt),cos(2 ⁰πt),…,sin(2 ^N-1πt),cos(2 ^N-1πt))，其中，TPE _t代表编号为t的脸部几何渲染图像对应的时间编码，N为预设常数。

可选的，上述时间编码、上述时间编码对应的脸部几何渲染图像以及上述参考图像的空间维度相同。

可选的，上述角色化身模型预先根据如下步骤训练获得：

将训练数据中的参考图像、训练脸部几何渲染图像以及该训练脸部几何渲染图像对应的训练时间编码输入深度神经网络生成器，通过上述深度神经网络生成器生成针对上述参考图像和上述训练脸部几何渲染图像的训练被驱动图像，其中，上述训练数据包括多组训练图像组，每一组训练图像组包括与上述被驱动对象对应的参考图像、与上述驱动对象对应的训练脸部几何渲染图像、该训练脸部几何渲染图像对应的训练时间编码以及该训练脸部几何渲染图像对应的训练驱动图像；

根据上述训练被驱动图像和上述训练驱动图像，对上述深度神经网络生成器的模型参数进行调整，并继续执行上述将训练数据中的参考图像、训练脸部几何渲染图像以及该训练脸部几何渲染图像对应的训练时间编码输入上述角色化身模型的步骤，直至满足预设训练条件，以得到上述角色化身模型。

可选的，上述预设训练条件包括上述训练被驱动图像和上述训练驱动图像之间的重建损失收敛。

可选的，上述训练数据由采集的图像数据通过预设数据增强方式进行处理后获得，上述预设数据增强方式包括空间随机裁剪。

可选的，上述重建损失通过多项联合图像重建损失函数计算获得，上述多项联合图像重建损失函数用于联合L1重建损失、感知损失和GAN判别器损失中的至少两种损失。

本申请第二方面提供一种基于角色化身模型的视频处理系统，其中，上述基于角色化身模型的视频处理系统包括：

驱动信息获取模块，用于获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得；

权限验证模块，用于当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像；

驱动视频处理模块，用于根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态；

被驱动视频生成模块，用于获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

本申请第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于角色化身模型的视频处理程序，上述基于角色化身模型的视频处理程序被上述处理器执行时实现任意一项上述基于角色化身模型的视频处理方法的步骤。

由上可见，本申请方案中，获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得；当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像；根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态；获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

与现有技术相比，本申请方案中并不只是对不同对象的图像中脸部区域进行截取和替换，而是预先设置有针对被驱动对象的角色化身模型，在获取到驱动对象对应的驱动视频并在权限验证通过后，获取对应的被驱动对象的已训练角色化身模型和参考图像。然后根据驱动视频获取用于体现驱动对象的表情和姿态的脸部几何渲染图像，结合时间编码，通过角色化身模型对脸部几何渲染图像和参考图像进行融合，从而获得被驱动视频。

被驱动视频并不是通过简单的脸部区域的图像替换获得的，而是将驱动对象的表情、姿态与被驱动对象的实际纹理融合获得的，从而实现由被驱动对象执行与驱动视频中驱动对象相同的表情和姿态。因为脸部几何渲染图像只体现表情和姿态，不体现驱动对象的脸部的实际纹理，实际纹理仅由被驱动对象的参考图像提供，所以在角色化身模型进行图像信息融合时不会错误地保留驱动对象所对应的实际纹理，即最终被驱动视频中所展现出来的对象的图像纹理细节与被驱动对象是相同的。如此，以驱动对象的视频来驱动角色化身模型，有利于提高角色化身模型的视频展示效果。能够实现以驱动对象的表情来驱动被驱动对象的脸做出对应的表情，有利于提高视频脸部替换的效果，有利于提高用户使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例提供的一种基于角色化身模型的视频处理方法的流程示意图；

图2是本申请实施例提供的一种基于用户A的角色化身模型生成被驱动视频的具体流程示意图；

图3是本申请实施例提供的一种基于角色化身模型的视频处理系统的组成模块示意图；

图4是本申请实施例提供的一种智能终端的内部结构原理框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于分类到”。类似的，短语“如果确定”或“如果分类到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦分类到[所描述的条件或事件]”或“响应于分类到[所描述条件或事件]”。

下面结合本申请实施例的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

随着科学技术的发展，尤其是视频处理技术的发展，用户对于视频处理的要求也逐渐增高。例如，用户想要基于视频处理实现脸部替换，例如实现在视频中以第一用户的表情来驱动第二用户的脸做出对应的表情，从而达到娱乐效果。

现有技术的问题在于，只通过对两个用户的视频中每一帧图像中脸部区域进行截取和替换的视频处理方案不利于提高视频脸部替换的效果，无法实现以第一用户的表情来驱动第二用户的脸做出对应的表情。

在一种应用场景中，基于三维重建、动画和CG渲染技术，使用多相机对静态人物进行扫描和3D重建，然后将其和驱动模型的关节点进行绑定，完成动作驱动等效果，最终通过重光照、PBR等渲染技术将2D影像进行渲染重现。但该方案需要预先通过大量额外设备(例如多相机阵列)采集人物形象细节以进行几何形状和纹理的高精度还原，还需要进行人工三维建模调整，制作成本较大。

在另一种应用场景中，可以使用人像视频，利用深度学习等方式，学习预测一些显性的属性，如姿态、相机位置，或者隐式的特征表达，这些属性和特征表达可以被调整和操作以恢复出人像的影像。例如，一种方案(例如FOMM)是基于无监督学习目标人像和驱动人像的关键点对应关系并将其转化成生成稠密光流场，然后使用光流场对人脸图片进行映射，最后通过生成网络生成图像；但该方案是基于2D像素映射的，人脸不具有3D一致性，稠密光流场容易使得背景和人脸一起移动。另一种方案(例如DVP)中，先估计大量显示属性，包括人脸对应图、实现图等，结合图像到图像的转换技术，恢复出真实的人像；但该方案使用了大量的显示属性，例如3D人脸对应图，但生成结果会存在伪影和模糊，并且在处理视频时不流畅。另一种方案(例如NerFace)中，使用神经辐射场作为渲染器，生成高清的人像，可以提升大角度3D的一致性，但其渲染结果仍然会丢失细节，并且渲染效率低。

为了解决上述多个问题中的至少一个问题，本申请方案从成本和效果两方面进行考虑，提供一种效率更高、效果更好且模型所需训练时长更低的方案，使得视频处理和渲染的结果清晰度更高并且更写实，达到以驱动对象的表情来驱动被驱动对象的脸做出对应的表情，并生成对应的被驱动视频，并且使得生成的被驱动视频接近真实视频的效果。

具体的，本申请方案中，获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得；当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像；根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态；获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

示例性方法

如图1所示，本申请实施例提供一种基于角色化身模型的视频处理方法，具体的，上述方法包括如下步骤：

步骤S100，获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得。

其中，上述驱动对象是在视频处理过程中需要保留对应的表情和姿态但不保留对应的脸部细节的对象(例如用户B)。本实施例中，预先为被驱动对象(例如用户A)训练有一个角色化身模型(例如被驱动对象在特定场景下说话的数字人像模型，或者根据被驱动对象在特定场景下说话的视频训练获得的数字人像模型)。被驱动对象是在进行视频处理过程中需要保留对应的脸部细节的对象(即用户A)，因此，本实施例中的视频处理过程相当于根据用户B提供的表情和姿态驱动用户A对应的角色化身模型，使得用户A对应的该角色化身模型生成对应的被驱动视频，该被驱动视频中，以用户A的形象做出与用户B的驱动视频中相同的表情和姿态，从而达到通过视频处理实现以用户B驱动用户A形象的效果。上述姿态代表对应对象的头部姿势，表情则代表对应对象的脸部表情。上述驱动视频可以由相机、手机等设备对驱动对象进行拍摄获得，且具体为拍摄获得的说话视频或具有唇部动作的视频，以便结合真实的唇部动作进行建模和匹配。

在一个实施例中，可以预先为多个其他用户都训练有对应的角色化身模型，驱动对象通过指定对应的被驱动对象来确定需要选择并使用的角色化身模型。

需要说明的是，上述驱动对象和被驱动对象可以为动物、动画形象、虚拟人物或者真实人物，驱动对象和被驱动对象可以相同，也可以不同；本实施例中以真实人物为例进行说明，但不作为具体限定。

进一步的，本实施例中根据上述视频处理方法对驱动对象和被驱动对象的头部区域的图像进行处理，对应的，上述角色化身模型也是用于处理头部区域头像的模型，但基于本方案上述角色化身模型也可以用于处理视频中整个人物形象包括头部区域及肢体。

步骤S200，当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像。

其中，上述权限验证信息用于验证驱动对象是否有权限使用被驱动对象对应的角色化身模型和/或参考图像。具体的，为了保护被驱动对象的隐私和安全，避免任何用户都可以使用被驱动对象的角色化身模型从而生成具有被驱动对象的视频的情况出现，本实施例中，预先为被驱动对象的角色化身模型设置有权限验证条件，只有当驱动对象的权限验证信息满足被驱动对象的权限验证条件时，才能获取被驱动对象对应的角色化身模型和参考图像。需要说明的是，权限验证条件和对应的权限验证信息的设置方式有多种，例如密码匹配的方式、通过权限表授权的方式等，在此不作具体限定。

本实施例中，上述参考图像用于为上述角色化身模型提供上述被驱动对象对应的图像纹理细节，上述被驱动视频与上述参考图像的图像纹理细节相同。具体的，由驱动视频提供表情和姿态，结合参考图像中脸部的图像纹理细节生成对应的被驱动视频。上述参考图像是对被驱动对象进行拍摄获得的，并且可以拍摄出被驱动对象所处的场景中背景区域所对应的图像纹理细节，从而，被驱动视频中对应的背景也与参考图像相同。需要说明的是，图像纹理细节可以包括除表情和姿态以外的细节，例如五官、脸部的特征(如皱纹、眼镜等)、背景区域的图像纹理，在此不作具体限定。

步骤S300，根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态。

本实施例中，根据上述驱动视频依次获取驱动对象对应的连续多帧脸部几何渲染图像，其中，每一帧脸部几何渲染图像用于体现驱动对象对应的表情和姿态，但并不保留驱动视频中每一帧的图像纹理细节。

具体的，本实施例中，上述根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，包括：对上述驱动视频进行拆分获得多帧驱动图像；分别提取获得各上述驱动图像对应的三维脸部参数；分别根据各上述驱动图像对应的三维脸部参数获取各上述驱动图像对应的三维脸部网格；对各上述驱动图像对应的三维脸部网格进行渲染获得各上述驱动图像对应的脸部几何渲染图像，其中，上述脸部几何渲染图像为灰度图。

其中，上述三维脸部参数包括个体系数、表情系数和姿态系数。进一步的，为了提高视频处理过程中的准确性以及提高最终获得的被驱动视频的真实性和其中表情的灵动性，本实施例中，在上述分别根据各上述驱动图像对应的三维脸部参数获取各上述驱动图像对应的三维脸部网格之前，上述方法还包括：基于上述角色化身模型中上述被驱动对象对应的脸部空间位置对上述三维脸部参数进行对齐以更新上述三维脸部参数。即脸部渲染图像是根据更新后的三维脸部参数获得的。

具体的，将上述驱动视频按顺序拆分成图像帧以获得多帧驱动图像，然后对于每一帧驱动图像进行3D人脸参数估计以获得对应的三维脸部参数，包括个体系数、表情系数和姿态系数。在一种应用场景中，通过预先训练的参数提取模型提取对应的三维脸部参数，该参数提取模型被训练为根据输入的人脸图像输出对应的三维脸部参数，该参数提取模型可以是一个预先训练的神经网络模型。上述表情系数用于体现驱动对象对应的表情特征，例如咧嘴笑、瘪嘴哭等；上述姿态系数用于体现驱动对象对应的头部姿势，例如向左右转头、上下点头、摇头等；上述个体系数则用于体现驱动对象的脸部特征，例如脸型，不同用户的脸型不同，因此不同驱动对象的个体系数也不同。结合上述三种三维脸部参数，可以使得生成的被驱动视频中的表情更加准确。

进一步的，将个体系数、表情系数和姿态系数转换到被驱动对象的角色化身模型的脸部空间内(即进行人脸姿态校正)，从而提高被驱动视频的生成效果。进行三维脸部参数对齐(或转换)的过程中，将驱动对象和被驱动对象两者的头部姿态进行对齐，即头部的空间大小和空间位置需要进行大致对齐。在一种应用场景中，在被驱动对象对应的角色化身模型中存储有被驱动对象对应的三维脸部参数，可用于体现驱动对象对应的脸部空间位置，在对驱动对象的三维脸部参数进行对齐的过程中，以将转换后的驱动对象的三维脸部参数中各个系数与被驱动对象的三维脸部参数中各个系数的均值和方差对齐为目标。

获得各个驱动图像对应的三维脸部参数(即个体系数、表情系数和姿态系数)之后，通过预先设置的3D人脸模型(例如BFM、FLAME，3D人脸模型用函数f表示)计算出各个驱动图像对应的三维脸部网格，上述三维脸部网格代表该驱动图像中的人脸几何信息。进一步的，使用预先设置的渲染器(例如 Pytorch3D，渲染器用Render表示)将各个三维脸部网格渲染出来获得各上述驱动图像对应的脸部几何渲染图像。本实施例中，上述脸部几何渲染图像为1通道的灰度图，且一个驱动视频对应有多帧驱动图像，则同样对应有多帧脸部几何渲染图像(即可以获得脸部几何渲染图像的集合)。

步骤S400，获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

本实施例中，在获得上述脸部几何渲染图像之后，加入时间编码，从而结合参考图像，通过角色化身模型完成当前姿态和表情的被驱动对象的预测和生成，进而生成对应的被驱动视频。具体的，上述参考图像是通道数为3的RGB图像，参考图像可以是任意一张含有被驱动对象脸部的图像。本实施例中，使用角色化身模型与训练角色化身模型时使用的参考图像是相同的，且可以是在对上述角色化身模型进行训练时使用的包含被驱动对象的训练视频中的任意一帧。上述参考图像用于提供人物和背景的纹理，使得角色化身模型(即一个训练好的神经网络生成器，例如UNet模型)恢复更多的细节。

需要说明的是，针对一个角色化身模型，在参考图像选定后，全局固定使用同一张参考图像，不再进行更改。

进一步的，上述获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，包括：根据预设的时间编码计算公式获取各上述脸部几何渲染图像对应的时间编码；将各组待处理数据依次输入上述角色化身模型，获得各组上述待处理数据对应的被驱动图像，其中，一组上述待处理数据由上述参考图像、一个上述脸部几何渲染图像以及该脸部几何渲染图像对应的时间编码组成，上述被驱动图像中由上述被驱动对象执行与对应的脸部几何渲染图像中相同的表情和姿态；将各上述被驱动图像按照对应的时间编码依次连接并生成上述被驱动视频。

其中，上述时间编码用于给上述角色化身模型输入时间信息，以提高生成被驱动图像时的时域稳定度。本实施例中，上述时间编码是通道数为2N的时间信息编码，其空间维度和驱动图像以及脸部几何渲染图像相同，其每个通道内数值一样。

具体的，上述预设的时间编码计算公式如下公式(1)所示：

TPE _t＝(sin(2 ⁰πt),cos(2 ⁰πt),…,sin(2 ^N-1πt),cos(2 ^N-1πt)) (1)

其中，TPE _t代表编号为t的脸部几何渲染图像对应的时间编码，编号为t的脸部几何渲染图像与编号为t的驱动图像对应，本实施例中，对于驱动视频，按照每一帧对应的时间位置进行拆分获得多帧驱动图像，并且将各帧驱动图像对应的时间位置作为该驱动图像的编号(即标记)，因此本实施例中t的取值可以从0开始(t＝0，1，2，3，4…)。N是预设常数值，可以根据实际情况进行设置和调整(例如设置成3)，时间编码的通道数为2N，因为存在sin和cos两组编码。

获得时间编码之后，可以依次组成各组待处理数据，一组待处理数据中包括参考图像、一帧脸部几何渲染图像以及一个时间编码，依次将各组待处理数据输入上述角色化身模型中，可以依次获得各帧被驱动图像，最终组合获得被驱动视频。上述被驱动视频中人物主体是被驱动对象，且该人物主体执行的是驱动视频中驱动对象所做出的表情和姿态。

具体的，上述角色化身模型预先根据如下步骤训练获得：

根据上述训练被驱动图像和上述训练驱动图像，对上述角色化身模型的模型参数进行调整，并继续执行上述将训练数据中的参考图像、训练脸部几何渲染图像以及该训练脸部几何渲染图像对应的训练时间编码输入上述角色化身模型的步骤，直至满足预设训练条件，以得到已训练的深度神经网络生成器，并将上述已训练的深度神经网络生成器作为上述角色化身模型；

其中，上述预设训练条件包括上述训练被驱动图像和上述训练驱动图像之间的重建损失收敛。

具体的，上述训练数据由采集的图像数据通过预设数据增强方式进行处理后获得，上述预设数据增强方式包括空间随机裁剪。其中，上述采集的图像数据是训练时直接采集获得的图像数据，训练数据则是由采集的图像数据进行数据增强的操作处理后获得的数据。上述重建损失通过多项联合图像重建损失函数计算获得，上述多项联合图像重建损失函数用于联合L1重建损失、感知损失和GAN判别器损失中的至少两种损失

本实施例中，还基于一种具体应用场景对上述深度神经网络生成器的训练过程以及基于角色化身模型进行视频处理的过程进行具体说明。需要说明的是，在模型的训练和使用过程中，所使用到的数据是相对应或相同的，例如训练脸部几何渲染图像与几何渲染图像是相对应的，其名称区别用于区分是训练过程中使用的数据还是使用模型进行视频处理过程中使用的数据，其获取方式或处理方式可以互为参考。

具体的，本实施例中训练获得的是被驱动对象(即用户A)对应的角色化身模型，因此训练过程中使用的训练脸部几何渲染图像是与被驱动对象对应的，训练脸部几何渲染图像通过训练过程中的训练三维脸部网格获得，训练三维脸部网格则可以通过训练三维脸部参数获得，训练三维脸部参数则可以通过训练驱动图像获得，训练驱动图像则可以通过拍摄的用户A的训练驱动视频获得。

具体的，先对用户A进行拍摄获取用户A说话的视频(即训练驱动视频)，然后将其按照顺序拆分为多帧训练驱动图像。本实施例中，在角色化身模型训练和使用过程中，对视频按帧进行划分的方式是相同的，因此训练过程中也将每一帧对应的时间位置标记为t(t＝0，1，2，3，4…)。获得的训练驱动图像记为I _t，然后对每一帧训练驱动图像I _t进行3D人脸参数估计，获得训练三维脸部参数，包括个体系数β _t、表情系数

以及姿态系数θ _t。然后基于预设的3D人脸模型(可以记为f)计算出对应的训练三维脸部网格，然后基于预设的渲染器Render进行渲染获得1通道的训练脸部几何渲染图像M _t∈R ^H×W×1，H和W分别代表训练脸部几何渲染图像(或训练驱动图像对应的高和宽)，渲染处理过程如下公式(2)所示：

其中，Render代表渲染器的处理过程，函数f代表3D人脸模型的处理过程。

需要说明的是，在角色化身模型的训练阶段，目的是训练一个深度神经网络生成器，用于从训练脸部几何渲染图像M _t中恢复原始的带人脸的训练驱动图像I _t。除此之外，还引入参考图像

和时间编码TPE _t。参考图像

是通道数为3的RGB图像，即

具体的，对于同一个角色化身模型，在进行深度神经网络生成器的训练和基于角色化身模型进行视频处理的过程中，图像帧的划分方式是相同的，使用的参考图像是相同的，并且时间编码的设置方式也是相同的，因此训练过程中的时间编码可以参照上述公式(1)进行具体设置，在此不再赘述。本实施例中，时间编码TPE _t的空间维度与训练脸部几何渲染图像M _t以及参考图像

一致，且TPE _t∈R ^H×W×2N。

本实施例中，上述角色化身模型(记为g)的功能为在给定M _t、TPE _t和

时生成带人脸的图像(即训练被驱动图像)I' _t∈R ^H×W×3，如下公式(3)所示：

其中，I' _t代表第t帧训练驱动图像对应的训练被驱动图像，g代表角色化身模型的处理过程。本实施例中使用的角色化身模型(即神经网络生成器)是一个图到图(输入和输出都是图像，并且空间尺寸不变)的卷积神经网络(如UNet)。训练过程中训练神经网络生成器g使得预测出的训练被驱动图像I' _t可以重建训练视频中对应的训练驱动图像I _t，具体即以最小化训练被驱动图像I' _t和训练驱动图像I _t之间的重建损失为目标来迭代优化并更新角色化身模型g中的模型参数，直到重建损失收敛到最小。需要说明的是，上述预设训练条件还可以包括迭代次数达到迭代次数阈值。

获得上述被驱动对象(即用户A)对应的已训练角色化身模型之后，在驱动对象(即用户B)想要驱动被驱动对象执行对应的动作和表情时，对驱动对象进行视频采集获得驱动视频，从而进行视频处理并生成对应的被驱动视频。图2是本申请实施例提供的一种基于用户A的角色化身模型生成被驱动视频的具体流程示意图，如图2所示，本实施例中，对于用户B的每一帧驱动图像提取3D 人脸参数(包括个体系数、表情系数和姿态系数)，然后将其进行转换，转换到用户A对应的空间内，转换的目标是使得转换后系数的均值和方差对齐，可以如下公式(4)所示：

其中，

和

分别代表转换后获得的与用户A的空间对应的个体系数、表情系数和姿态系数，T代表对齐转换过程，

和

分别代表转换前用户B对应的个体系数、表情系数和姿态系数。

使用

和

渲染获得用户B对应的脸部渲染几何图像

结合时间编码和参考图像，通过角色化身模型，完成当前姿态和表情的用户A对应的被驱动图像的预测已获得对应的被驱动图像，处理过程可以参照上述公式(3)及其具体步骤，在此不再赘述。

如此，本实施例中，提供一种低成本且高度写实的角色化身模型。对于用户A的角色化身模型，只需要由用户A使用日常拍摄设备(如手机)在一个场景(场景一)中拍摄对应的训练驱动视频(例如一段时长约为2分钟的讲话视频)，即可成为角色化身模型训练时的素材。并且，基于一段训练驱动视频，可以利用数据增强和扩展技术获得多组训练图像组。在一种具体应用场景中，将上述训练驱动视频在训练平台上进行约4个小时的数字化身模型的训练，可以得到用于支持用户A在相同场景(场景一)下任意头部动作和表情的数字化身模型。在后续的使用过程中，用户B在任意场景(场景二)下录制驱动视频即可以驱动上述数字化身模型，生成用户A在场景一中讲话的被驱动视频，并且被驱动视频中用户A与用户B在驱动视频中的姿态和表情相同。同时，本实施中结合时间编码，保证生成的被驱动视频真实自然，并且在时域上流畅度和稳定度较高，能达到与真实拍摄视频相近的生成结果。

具体的，在角色化身模型的训练过程中，可以使用包括空间随机裁剪等数据增强方式并通过优化多联合图像重建损失函数(例如L1重建损失、感知损失、GAN判别器损失)进行神经网络生成器训练，训练在NVIDIA A100-SXM4-40GB GPU上进行，Batch Size为20，输入输出图像分辨率为512*512。其中，数据增强是指在训练过程中加入空间随机裁剪，增强数据多样性。例如，对于用户A拍摄的视频帧进行空间随机裁剪后输入神经网络生成器，并通过多项联合图像重建损失函数计算，调整神经网络生成器的各项参数，以获得达到训练预期的神经网络生成器。其中，计算损失是指计算神经网络生成器(即角色化身模型)计算被驱动对象生成的图像与其对应的原始的驱动图像之间的损失。

需要说明的是，本实施例提供的基于角色化身模型的视频处理方法在模型训练和渲染新视频的过程中都具有较高的效率。在一种应用场景中，使用相同的条件(训练素材时长相同，图像分辨率都为512*512)训练获得稳定收敛的模型，DVP方案平均需要训练42小时，且渲染视频时平均每帧需要0.2秒；NerFace方案平均需要训练55小时，渲染视频时平均每帧需要6秒；而本实施例中平均训练4小时，渲染视频时平均每帧0.03秒，可见本实施例方案有利于提高训练和处理效率。

进一步的，对于生成的被驱动视频的质量，可以采用结构相似性(SSIM，Structure Similarity Index)和峰值信噪比(PSNR，Peak Signal-to-Noise Ratio)作为重建指标以进行评价，这两个指标越高则代表生成的被驱动视频与真实的驱动视频时间差距越小，也代表生成的被驱动视频的质量越高。基于本实施例方案生成的被驱动视频对应的结构相似性大于95％，峰值信噪比大于26.85，可见生成的被驱动视频的质量较高。

由上可见，本申请实施例提供的基于角色化身模型的视频处理方法中，不只是对不同对象的图像中脸部区域进行截取和替换，而是预先设置有针对被驱动对象的角色化身模型，在获取到驱动对象对应的驱动视频并在权限验证通过后，获取对应的被驱动对象的角色化身模型和参考图像。然后根据驱动视频获取用于体现驱动对象的表情和姿态的脸部几何渲染图像，结合时间编码，通过被驱动对象的角色化身模型对脸部几何渲染图像和参考图像进行融合，从而获得被驱动视频。

示例性设备

如图3中所示，对应于上述基于角色化身模型的视频处理方法，本申请实施例还提供一种基于角色化身模型的视频处理系统，上述基于角色化身模型的视频处理系统包括：

驱动信息获取模块510，用于获取驱动对象的驱动视频、上述驱动对象的权限验证信息以及上述驱动对象对应的被驱动对象，其中，上述驱动视频通过拍摄上述驱动对象的表情和姿态获得；

权限验证模块520，用于当上述驱动对象的权限验证信息满足上述被驱动对象的权限验证条件时，获取上述被驱动对象对应的角色化身模型和参考图像；

驱动视频处理模块530，用于根据上述驱动视频获取上述驱动对象对应的多帧脸部几何渲染图像，其中，上述脸部几何渲染图像用于体现上述驱动对象对应的表情和姿态；

被驱动视频生成模块540，用于获取各上述脸部几何渲染图像对应的时间编码，根据上述参考图像、各上述脸部几何渲染图像以及各上述脸部几何渲染图像对应的时间编码，通过上述角色化身模型生成被驱动视频，其中，上述被驱动视频中由上述被驱动对象执行与上述驱动视频中驱动对象相同的表情和姿态。

需要说明的是，上述基于角色化身模型的视频处理系统及其各个模块或单元的具体结构和实现方式可以参照上述方法实施例中的对应描述，在此不再赘述。

需要说明的是，上述基于角色化身模型的视频处理系统的各个模块的划分方式并不唯一，在此也不作为具体限定。

基于上述实施例，本申请还提供了一种智能终端，其原理框图可以如图4所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和基于角色化身模型的视频处理程序。该内存储器为非易失性存储介质中的操作系统和基于角色化身模型的视频处理程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该基于角色化身模型的视频处理程序被处理器执行时实现上述任意一种基于角色化身模型的视频处理方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图4中示出的原理框图，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于角色化身模型的视频处理程序，上述基于角色化身模型的视频处理程序被上述处理器执行时实现本申请实施例提供的任意一种基于角色化身模型的视频处理方法的步骤。

本申请实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于角色化身模型的视频处理程序，上述基于角色化身模型的视频处理程序被处理器执行时实现本申请实施例提供的任意一种基于角色化身模型的视频处理方法的步骤。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的系统/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的系统/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于角色化身模型的视频处理方法，其中，所述基于角色化身模型的视频处理方法包括：

获取驱动对象的驱动视频、所述驱动对象的权限验证信息以及所述驱动对象对应的被驱动对象，其中，所述驱动视频通过拍摄所述驱动对象的表情和姿态获得；

当所述驱动对象的权限验证信息满足所述被驱动对象的权限验证条件时，获取所述被驱动对象对应的角色化身模型和参考图像；

根据所述驱动视频获取所述驱动对象对应的多帧脸部几何渲染图像，其中，所述脸部几何渲染图像用于体现所述驱动对象对应的表情和姿态；

获取各所述脸部几何渲染图像对应的时间编码，根据所述参考图像、各所述脸部几何渲染图像以及各所述脸部几何渲染图像对应的时间编码，通过所述角色化身模型生成被驱动视频，其中，所述被驱动视频中由所述被驱动对象执行与所述驱动视频中驱动对象相同的表情和姿态。
根据权利要求1所述的基于角色化身模型的视频处理方法，其中，所述参考图像用于为所述角色化身模型提供所述被驱动对象对应的图像纹理细节，所述被驱动视频与所述参考图像的图像纹理细节相同。
根据权利要求1所述的基于角色化身模型的视频处理方法，其中，所述参考图像是通道数为3的RGB图像。
根据权利要求1所述的基于角色化身模型的视频处理方法，其中，所述根据所述驱动视频获取所述驱动对象对应的多帧脸部几何渲染图像，包括：

对所述驱动视频进行拆分获得多帧驱动图像；

分别提取获得各所述驱动图像对应的三维脸部参数；

分别根据各所述驱动图像对应的三维脸部参数获取各所述驱动图像对应的三维脸部网格；

对各所述驱动图像对应的三维脸部网格进行渲染获得各所述驱动图像对应的脸部几何渲染图像，其中，所述脸部几何渲染图像为灰度图。
根据权利要求4所述的基于角色化身模型的视频处理方法，其中，在所述分别根据各所述驱动图像对应的三维脸部参数获取各所述驱动图像对应的三维脸部网格之前，所述方法还包括：

基于所述角色化身模型中所述被驱动对象对应的脸部空间位置对所述三维脸部参数进行对齐以更新所述三维脸部参数。
根据权利要求4所述的基于角色化身模型的视频处理方法，其中，所述三维脸部参数包括个体系数、表情系数和姿态系数。
根据权利要求1所述的基于角色化身模型的视频处理方法，其中，所述获取各所述脸部几何渲染图像对应的时间编码，根据所述参考图像、各所述脸部几何渲染图像以及各所述脸部几何渲染图像对应的时间编码，通过所述角色化身模型生成被驱动视频，包括：

根据预设的时间编码计算公式获取各所述脸部几何渲染图像对应的时间编码；

将各组待处理数据依次输入所述角色化身模型，获得各组所述待处理数据对应的被驱动图像，其中，一组所述待处理数据由所述参考图像、一个所述脸部几何渲染图像以及该脸部几何渲染图像对应的时间编码组成，所述被驱动图像中由所述被驱动对象执行与对应的脸部几何渲染图像中相同的表情和姿态；

将各所述被驱动图像按照对应的时间编码依次连接并生成所述被驱动视频。
根据权利要求7所述的基于角色化身模型的视频处理方法，其中，所述时间编码用于为所述角色化身模型输入时间信息，所述时间编码计算公式为：TPE _t＝(sin(2 ⁰πt),cos(2 ⁰πt),…,sin(2 ^N-1πt),cos(2 ^N-1πt))，其中，TPE _t代表编号为t的脸部几何渲染图像对应的时间编码，N为预设常数。
根据权利要求8所述的基于角色化身模型的视频处理方法，其中，所述时间编码、所述时间编码对应的脸部几何渲染图像以及所述参考图像的空间维度相同。
根据权利要求1所述的基于角色化身模型的视频处理方法，其中，所述角色化身模型预先根据如下步骤训练获得：

将训练数据中的参考图像、训练脸部几何渲染图像以及该训练脸部几何渲染图像对应的训练时间编码输入深度神经网络生成器，通过所述深度神经网络生成器生成针对所述参考图像和所述训练脸部几何渲染图像的训练被驱动图像，其中，所述训练数据包括多组训练图像组，每一组训练图像组包括与所述被驱动对象对应的参考图像、与所述驱动对象对应的训练脸部几何渲染图像、该训练脸部几何渲染图像对应的训练时间编码以及该训练脸部几何渲染图像对应的训练驱动图像；

根据所述训练被驱动图像和所述训练驱动图像，对所述深度神经网络生成器的模型参数进行调整，并继续执行所述将训练数据中的参考图像、训练脸部几何渲染图像以及该训练脸部几何渲染图像对应的训练时间编码输入所述深度神经网络生成器的步骤，直至满足预设训练条件，以得到所述角色化身模型。
根据权利要求10所述的基于角色化身模型的视频处理方法，其中，所述预设训练条件包括所述训练被驱动图像和所述训练驱动图像之间的重建损失收敛。
根据权利要求10所述的基于角色化身模型的视频处理方法，其中，所述训练数据由采集的图像数据通过预设数据增强方式进行处理后获得，所述预设数据增强方式包括空间随机裁剪。
根据权利要求11所述的基于角色化身模型的视频处理方法，其中，所述重建损失通过多项联合图像重建损失函数计算获得，所述多项联合图像重建损失函数用于联合L1重建损失、感知损失和GAN判别器损失中的至少两种损失。
一种基于角色化身模型的视频处理系统，其中，所述基于角色化身模型的视频处理系统包括：

驱动信息获取模块，用于获取驱动对象的驱动视频、所述驱动对象的权限验证信息以及所述驱动对象对应的被驱动对象，其中，所述驱动视频通过拍摄所述驱动对象的表情和姿态获得；

权限验证模块，用于当所述驱动对象的权限验证信息满足所述被驱动对象的权限验证条件时，获取所述被驱动对象对应的角色化身模型和参考图像；

驱动视频处理模块，用于根据所述驱动视频获取所述驱动对象对应的多帧脸部几何渲染图像，其中，所述脸部几何渲染图像用于体现所述驱动对象对应的表情和姿态；

被驱动视频生成模块，用于获取各所述脸部几何渲染图像对应的时间编码，根据所述参考图像、各所述脸部几何渲染图像以及各所述脸部几何渲染图像对应的时间编码，通过所述角色化身模型生成被驱动视频，其中，所述被驱动视频中由所述被驱动对象执行与所述驱动视频中驱动对象相同的表情和姿态。
一种智能终端，其中，所述智能终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于角色化身模型的视频处理程序，所述基于角色化身模型的视频处理程序被所述处理器执行时实现如权利要求1-13任意一项所述基于角色化身模型的视频处理方法的步骤。