WO2024078243A1

WO2024078243A1 - 视频生成模型的训练方法、装置、存储介质及计算机设备

Info

Publication number: WO2024078243A1
Application number: PCT/CN2023/118459
Authority: WO
Inventors: 伍洋; 胡鹏飞; 齐晓娟; 吴秀哲; 单瀛; 徐静
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2022-10-13
Filing date: 2023-09-13
Publication date: 2024-04-18
Also published as: CN117036583A

Abstract

本申请公开一种视频生成模型的训练方法、装置、存储介质及计算机设备，从目标用户的训练视频中提取语音特征、表情参数和头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息，将语音特征、表情参数和头部参数进行合并，得到训练视频的条件输入；基于条件输入、三维坐标和视角方向对单个神经辐射场进行网络训练，得到视频生成模型；视频生成模型为基于总损失训练得到，总损失包括图像重建损失。在训练过程中引入头部姿态信息和头部位置信息，因此训练得到的视频生成模型能够引入肩部运动状态考量，使得后续根据视频生成模型进行视频重构时，能够使得头部和肩部之间的运动更加协调稳定，提升了重构视频显示的真实性。

Description

视频生成模型的训练方法、装置、存储介质及计算机设备

本申请要求于2022年10月13日提交中国专利局、申请号202211255944.4、申请名称为“视频生成方法、装置、存储介质及计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种视频生成模型的训练方法、装置、存储介质及计算机设备。

背景技术

近年来，人脸重演(Face Reenactment)技术因其在媒体、娱乐、虚拟现实等方面的应用前景而备受关注。说话人像视频的生成作为人脸重演的一项重要任务，被广泛用于视频会议、视频聊天和虚拟人场景中。例如，用户可以利用自己具有良好外观的重构人像，代替自己出镜参加视频会议。

其中，说话人像视频生成的主要原理为利用一个形象更佳的用户重构化身来重演用户实际的人像动作。然而，有关技术生成的说话人像视频容易出现重构视频中用户的人体组织运动不协调的情况，从而，大大降低了视频生成结果呈现给用户的真实感。

发明内容

本申请实施例提供一种视频生成模型的训练方法、装置、存储介质以及计算机设备。旨在提升说话人像视频生成时的运动协调性。

一方面，本申请实施例提供一种视频生成模型的训练方法，该方法由计算机设备执行，该方法包括：获取目标用户的训练视频；从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息；将目标用户的语音特征、目标用户的表情参数和目标用户的头部参数进行合并，得到训练视频的条件输入；基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型；其中，视频生成模型为基于总损失训练得到，总损失包括图像重建损失，图像重建损失是由预测对象颜色值和真实对象颜色值确定的，预测对象颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的，视频生成模型用于对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频。

另一方面，本申请实施例还提供一种视频生成模型的训练装置，该装置部署在计算机设备上，该装置包括：条件获取模块，用于获取目标用户的训练视频；从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息；将目标用户的语音特征、目标用户的表情参数和目标用户的头部参数进行合并，得到训练视频的条件输入；网络训练模块，用于基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型；其中，视频生成模型为基于总损失训练得到，总损失包括图像重建损失，图像重建损失是由预测对象颜色值和真实对象颜色值确定的，预测对象颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的；视频生成模型用于对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频。

另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，其中，在该计算机程序被处理器运行时执行上述的视频生成模型的训练方法。

另一方面，本申请实施例还提供一种计算机设备，该计算机设备包括处理器以及存储器，存储器存储有计算机程序，该计算机程序被处理器调用时执行上述的视频生成模型的训练方法。

另一方面，本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中；计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得计算机设备执行上述视频生成模型的训练方法中的步骤。

本申请提供的一种视频生成模型的训练方法，从目标用户的训练视频中提取语音特征、表情参数和头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息，将语音特征、表情参数和头部参数进行合并，得到训练视频的条件输入。进一步地，基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型，该视频生成模型为基于总损失训练得到，总损失包括图像重建损失，图像重建损失是由预测对象颜色值和真实对象颜色值确定的，预测对象颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的。通过在条件输入中引入头部参数，使得网络训练得到的视频生成模型可以根据头部姿态信息与头部位置信息估算出肩膀部分及其运动状态，这样，在使用视频生成模型对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频时，使得预测出的视频帧中具有完整且逼真的头部与肩膀部分，并且使得头部与肩膀的动作状态保持协调，从而大大提升重构视频显示的真实性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种系统架构示意图；

图2示出了本申请实施例提供的一种视频生成模型的训练方法的流程示意图；

图3示出了本申请实施例提供的一种单个神经辐射场的网络架构图；

图4示出了本申请实施例提供的一种相机射线的示意图；

图5示出了本申请实施例提供的另一种视频生成模型的训练方法的流程示意图；

图6示出了本申请实施例提供的一种应用场景示意图；

图7示出了本申请实施例提供的一种性能对比的示意图；

图8示出了本申请实施例提供的一种视频生成模型的训练方法的实现效果图；

图9是本申请实施例提供的一种视频生成模型的训练装置的模块框图；

图10是本申请实施例提供的一种计算机设备的模块框图；

图11是本申请实施例提供的一种计算机可读存储介质的模块框图。

具体实施方式

下面详细描述本申请的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地，仅用于解释本申请，而不能理解为对本申请的限制。

为了使本技术领域的人员更好地理解本申请的方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请的具体实施方式中，涉及到的视频等相关数据，当运用到本申请实施例的具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。为了便于理解，下面先对本申请所涉及到的相关术语及概念进行介绍。

本申请的视频生成模型的训练方法涉及人工智能(Artificial Intelligence,AI)技术，利用人工智能技术自动化进行视频生成模型的训练，以及后续自动化进行视频生成。

在视频会议中，由于一些个人的关注或偏好，用户并不总是方便向所有参会者展示自己当前的真实面貌和周围环境。这种情况下，一个潜在的解决方案是基于用户的一个好看的重构化身重新模拟自身实际的人像运动，进而生成高保真的说话人像视频(Talking Portrait Video)，该说话人像视频中的重构化身与用户的语音音频和真实的头部运动、面部表情、眨眼等运动相匹配。上述解决方案也有利于许多其他应用，如数字人、电影制作和多人在线游戏等。

目前，有关说话人像视频生成的建模方案大致可以分为三类：基于模型，基于生成对抗网络(Generative Adversarial Network，GAN)以及基于神经辐射场(Neural Radiance Fields，NeRF)。其中，基于模型的方案通常根据红绿蓝(Red-Green-Blue，RGB)或红绿蓝-深度信息(Red-Green-Blue-Depth map，RGBD)数据创建一个特定人物的三维(Three-Dimensional，3D)模型，然后在不考虑头部运动的情况下为该3D模型赋予面部表情，且生成结果的分辨率受限。基于生成对抗网络的方案一般采用对抗学习模式直接生成人物外观，但其学习过程不能知晓场景的3D几何形状，需要额外参考图像来提供身份信息。

基于神经辐射场的方案主要包括以音频和运动为驱动源(Driving Source)的两种方法。其中，音频驱动方法，如语音驱动神经辐射场(Audio Driven Neural Radiance Fields，AD-NeRF)专注于建立语音音频与视觉外观运动之间的关系。运动驱动方法，如学习一个映射函数，将源运动或表情迁移到目标人脸。然而，AD-NeRF依赖于两个独立的神经辐射场来分别模拟头部和躯干，因此存在网络结构分离的问题。NerFACE(一种基于NeRF的人脸建模算法)无法生成稳定和自然的躯干序列，从而导致说话人像视频中重构人像出现头部和肩部之间运行不协调的问题，且上述方法生成的重构人像的嘴唇形状与用户的嘴唇形状无法同步。

为了解决上述问题，本申请实施例提供了视频生成模型的训练方法，下面先对本申请所涉及到的视频生成模型的训练方法的系统的架构进行介绍。

如图1所示，本申请实施例提供的视频生成模型的训练方法可以应用在系统300中，数据获取设备310用于获取训练数据。针对本申请实施例的视频生成模型的训练方法来说，训练数据可以包括用于训练使用的训练视频。数据获取设备310在获取到训练数据之后，可以将该训练数据存入数据库320，训练设备330可以基于数据库320中维护的训练数据训练得到目标模型301。

训练设备330可以基于训练视频对预设的神经网络进行训练，直至该预设的神经网络满足预设条件，得到目标模型301。其中，预设的神经网络为单个神经辐射场。预设条件可以为：总损失函数的总损失值小于预设值、总损失函数的总损失值不再变化、或者训练次数达到预设次数等。该目标模型301能够用于实现本申请实施例中重构视频的生成。

需要说明的是，在实际的应用场景中，数据库320中维护的训练数据不一定都来自于数据获取设备310，也可以从其他设备接收得到，例如，客户端设备360也可以作为数据获取端，将获取的数据作为新的训练数据，并存入数据库320。此外，训练设备330也不一定完全基于数据库320维护的训练数据对预设的神经网络进行训练，也有可能基于从云端或其他设备获取的训练数据对预设的神经网络进行训练，上述描述不应该作为对本申请实施例的限定。

上述根据训练设备330训练得到的目标模型301可以应用于不同的系统或设备中，如应用于图1所示的执行设备340，该执行设备340可以是终端，例如，手机终端、平板电脑、笔记本电脑、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)等，还可以是服务器或者云端等，但并不局限于此。

在图1中，执行设备340可以用于与外部设备进行数据交互，例如，用户可以使用客户端设备360通过网络向执行设备340发送输入数据。该输入数据在本申请实施例中可以包括：客户端设备360发送的训练视频或待重构视频。在执行设备340对输入数据进行预处理，或者在执行设备340的执行模块341执行计算等相关的处理过程中，执行设备340可以调用数据存储系统350中的数据、程序等以用于相应的计算处理，并将计算处理得到的处理结果等数据和指令存入数据存储系统350中。

最后，执行设备340可以将处理结果，也即，目标模型301生成的重构视频通过网络返回给客户端设备360，从而，用户可以在客户端设备360上查询处理结果。值得说明的是，训练设备330可以针对不同的目标或不同的任务，基于不同的训练数据生成相应的目标模型301，该相应的目标模型301即可以用于实现上述目标或者完成上述任务，从而为用户提供所需的结果。

示例性地，图1所示的系统300可以为客户端-服务器(Client-Server，C/S)系统架构，执行设备340可以为服务供应商部署的云服务器，客户端设备360可以为用户使用的笔记本电脑。例如，用户可以利用笔记本电脑中安装的视频生成软件，通过网络上传待重构视频至云服务器，云服务器在接受到待重构视频时，利用目标模型301 进行人像重构，生对应的重构视频，并将重构视频返回至笔记本电脑，进而用户即可在视频生成上获取重构视频。

值得注意的是，图1仅是本申请实施例提供的一种系统的架构示意图，本申请实施例描述的系统的架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。例如，图1中的数据存储系统350相对执行设备340是外部存储器，在其它情况下，也可以将数据存储系统350置于执行设备340中。执行设备340也可以直接是客户端设备。本领域普通技术人员可知，随着系统架构的演变和新的应用场景的出现，本申请实施例提供的技术方案对于解决类似的技术问题，同样适用。

请参阅图2，图2示出了本申请一个实施例提供的视频生成模型的训练方法的流程示意图。在具体的实施例中，所述视频生成模型的训练方法应用于如图9所示的视频生成模型的训练装置500以及配置有视频生成模型的训练装置500的计算机设备600(图10)。

下面将以计算机设备为例，说明本实施例的具体流程，可以理解的是，本实施例所应用的计算机设备可以为服务器或者终端等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是平板电脑、笔记本电脑、台式电脑、智能音箱、智能手表等，但并不局限于此。所述视频生成模型的训练方法具体可以包括以下步骤：

S110：获取目标用户的训练视频。

S120：从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息。

S130：将目标用户的语音特征、目标用户的表情参数和目标用户的头部参数进行合并，得到训练视频的条件输入。

相关技术提出的仅以语音或者表情作为驱动源来生成说话人像视频的方法，会产生不可忽略的视觉问题，也即头部-躯干运动不协调。分析该问题出现的原因，是由于神经辐射场往往将完整的人像建模为一个刚性实体，而不会区分头部运动和躯干运动。所以，每当改变相机观察方向和位置时，整个人像就会僵硬地改变朝向，肩部运动出现晃动，导致头部运动与肩部运动不协调。

为此，本申请实施例创造性的将用户的头部姿态信息与头部位置信息引入条件输入，使得神经辐射场基于头部姿态信息与头部位置信息可以隐式估算出肩膀的运动状态，从而使得后续生成的重构人像可以保持头部运动与肩部运动之间的协调性。

基于此，条件输入至少可以包括目标用户的语音特征、表情参数以及头部参数，该头部参数可以用于表征头部姿态信息与头部位置信息。语音特征可以用于表征用户说话时的音频信息。表情参数可以用于表征用户说话时面部表情信息，如，眼睛和嘴巴的动作。头部姿态信息可以用于表征用户头部的朝向，头部位置可以用于反向表征相机的拍摄位置。

在一些实施例中，该从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数的步骤可以包括：

(1)对目标用户的训练视频进行语音特征提取，得到语音特征。

作为一种实施方式，在获取目标用户的训练视频时，可以利用语音识别模型对该训练视频进行语音特征提取。例如，当训练视频没有关联独立的音频数据时，可以基于训练视频提取目标用户的音频数据，当训练视频关联独立的音频数据时，可以从训练视频的数据包直接获取目标用户的音频数据，进一步地，可以将音频数据输入至深度语音(DeepSpeech)模型，输出语音特征。

在一种可能的实现方式中，DeepSpeech模型是由多个RNN层和CTC Loss的结构组成，用来学习语音到文本的映射，在本申请实施例中，DeepSpeech模型可用于提取目标用户说话声音内容的语音特征。对获取的音频数据进行采样，得到采样数组，其中，该音频数据的数据格式可以为MP3(MPEG-1 Audio Layer 3)或WAV(WaveForm)等。进一步地，对采样数组进行快速傅里叶变换(Fast Fourier Transform，FFT)，并在此基础上进行两层卷积(激活函数用Relu函数)计算，得到卷积后的数据。

对卷积后的数据进行Shape操作，并对该操作后的数据进行切片操作(Sclice Channel)得到预设数量的数据片，并将每个数据片分别输入每个RNN层，从每个RNN层对应得到输出数据，并对输出数据进行合并操作(Concat)得到音频数据(Audio Data)对应的隐式编码(Latent Code)，即为，语音特征a。

(2)对目标用户的训练视频进行三维人脸重构，得到目标用户的三维脸型的脸型表示，并基于脸型表示确定目标用户的表情参数。

其中，三维人脸重构可以是指从一张或多张二维图像中重建出人脸的三维模型，在本申请实施例中，二维图像是训练视频中的视频帧，故本申请实施例的三维人脸重构指的是对训练视频中目标用户进行重新构建得到三维人脸。脸型表示包含了模型从三维人脸中学习到人脸脸型和表情变化，进而通过脸型表示中的表情变化来确定表情参数。

作为一种实施方式，可以从训练视频的每个视频帧中获取对应的表情参数。可选地，可以利用三维可变形人脸模型(3D Morphable Models，3DMM)从每个视频帧中获取表情参数，该三维可变性人脸模型可以对单张视频帧中的二维人脸进行三维重建，得到相应的三维人脸，也即三维脸型，该三维脸型的脸型表示v为：

其中，表示为在选定的人脸数据集上计算的平均值。E^s和E^e分别表示形状空间和表情空间的正交基向量的矩阵。s和e分别表示形状系数和表情系数。N表示三维脸型网格(3D Face Mesh)中的顶点数。进一步地，可以将表情系数e作为重构的三维脸型的表情参数。

(3)对目标用户的三维脸型进行变换映射，得到三维脸型对应的旋转矩阵和平移向量。

利用三维可变形人脸模型可以对单张视频帧中的二维人脸进行三维重建，相反地，也可以将三维脸型网格的顶点映射到一个二维的图像平面。其中，变换映射是指将三维脸型投影到图像平面上的操作。

作为一种实施方式，对目标用户的三维脸型进行变换映射，得到三维脸型对应的旋转矩阵和平移向量。可选地，变换映射可以使用弱透视投影模型，该模型对三维脸型网格的顶点在二维平面的函数输出g可以表示为：
g＝f+Pr+R+t

其中，f表示比例因子，Pr表示正交投影矩阵，R表示旋转矩阵(Rotation Matrix)以及t表示平移向量(Translation Vector)，以此，可以通过上述公式得到旋转矩阵R和平移向量t。

(4)基于旋转矩阵确定头部姿态信息以及基于平移向量确定头部位置信息，并根据头部姿态信息和头部位置信息得到目标用户的头部参数。

考虑到头部位置可以反向表示出相机的拍摄位置，头部姿态的角度会相对于相机的拍摄角度而改变，因此，神经辐射场在知道拍摄位置的情况下，可以得到头部姿态变化的原因，进而基于头部姿态和相机的拍摄位置，就能很好地隐式估算出肩膀形状及其运动状态，使得预测出的视频帧中的人物具有完整性和逼真性，并且头部与肩膀的动作保持协调。

作为一种实施方式，可以将旋转矩阵转换为欧拉角，欧拉角由3个元素组成，表示方向信息，也即头部姿态信息。并将带有相机拍摄位置信息的平移向量反向表示为头部位置信息。进一步地，对头部姿态信息和头部位置信息进行位置编码(Positional Encoding)，分别得到两个编码后的高维向量，并将两个高维向量连接成一个向量表示P。

S140：基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型。

其中，神经辐射场在本申请中用于渲染出二维视频的视频帧中每个像素点的RGB值。有关技术中，通过两个独立的神经辐射场重构人像的头部和躯干，但是两个独立的神经辐射场是分开独自生成的重构人像的头部和躯干的，且计算成本较高，即缺点，然而，利用独立的神经辐射场分别独立生成头部区域和躯干区域的方法，由于网络结构的分离会导致发生头部区域和躯干区域存在不匹配的情况，使得最终重构的人像显示效果不够真实和自然，因此，在有关技术中，两个神经辐射场无法实现重构人像的头部和躯干相互匹配的效果，算法的时间复杂度和空间复杂度也随网络结构的分离变高。

为此，本申请提出使用一个简单的神经辐射场来重构人像的头部和躯干，使得躯干运动能够与头部运行相互匹配，进而使得重构的人像可以达到真实、自然和稳定的显示效果。并且可以大大降低算法的时间复杂度和空间复杂度，进而有效将降低运算成本。

在本申请实施例中，视频生成模型为基于总损失训练得到，总损失包括图像重建损失，图像重建损失是由预测对象颜色值和真实对象颜色值确定的，预测对象颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的。

考虑到嘴部图像区域是神经辐射场生成图像过程中最难学习的部分，因为嘴部形状是随着音频变化而变化最大的部分。同时，观众在观看生成的说话人像视频时，嘴巴区域也是最关注和最敏感的视图区域。一旦唇动与音频在一定程度上不同步，观众可以立即注意到它，从而显著降低重构视频的显示效果。

因此，本申请提出对唇部图像区域进行增强以提高嘴巴唇部的同步性能。例如可以确定嘴部强调损失，嘴部强调损失是由预测嘴部颜色值和真实嘴部颜色值确定的，预测嘴部颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的，从而基于图像重建损失和嘴部强调损失共同构建总损失。如此，通过结合图像重建损失和嘴部强调损失，使得训练出的视频生成模型能够不仅提高头肩运动的协调性，还能提升嘴部运动的同步性，从而提升重构视频显示的真实性。

在总损失包括像重建损失和嘴部强调损失的情况下，为了实现网络训练，可以先获取相机射线上空间采样点的三维坐标和视角方向，相机射线为相机在对场景进行成像时发出的光线，且相机射线对应训练视频的视频帧上的像素点。

本申请利用神经辐射场可以基于空间采样点的信息来合成二维视图。其中，相机射线为相机在对场景进行成像时发出的光线，且相机射线对应视频帧上的像素点。当相机对三维场景进行成像时，所得到的二维图像上的一个像素点实际上对应了一条从相机出发的相机射线上的所有连续空间采样点的投影集合。

该神经辐射场可以基于输入的空间采样点的三维坐标和视角方向,预测出该空间采样点的RGB颜色值(即为颜色值)和密度信息(即为体积密度)为此，需要知道相机射线上空间采样点的三维坐标和视角方向。

作为一种实施方式，空间采样点的三维坐标x＝(x,y,z)和视角方向d＝(θ,φ)可以进行预先的制定设置，具体地，由于空间采样点的位置会决定最终二维平面图像像素点的位置，所以可以根据二维平面图像上像素点的位置信息来设定空间采样点的三维坐标，例如，可以基于相机的内外参数将像素坐标转换为了统一的世界坐标下，相机射线上的空间采样点的三维坐标。进一步地，可以根据预先设定的相机拍摄场景的拍摄角度来确定视角方向，也可以预先基于对获取的参考视频中角色的观察角度来设定视角方向。

然后，基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练。具体过程参照如下步骤。

在一些实施例中，该基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练的步骤可以包括：

(1)对语音特征和表情参数分别进行时间平滑处理，得到平滑语音特征和平滑表情参数。

由于每个视频帧的表情参数都是单独获取的，因此相邻两视频帧之间存在时间不连续性。类似地，语音特征也存在同样的问题，这会导致生成的重构视频出现画面抖动跳帧以及声音不流畅的情况。为了使最终生成的重构视频能够更加稳定，可以对语音特征和表情参数分别进行时间平滑处理。

作为一种实施方式，可以分别使用两个时间平滑网络(Temporal Smoothing Network)过滤语音特征a和表情参数e。例如，对表情参数e进行时间平滑处理：在时间维度上，基于时间步长t-T/2到t+T/2上每个视频帧的表情参数e的线性组合来计算出t时刻视频帧的平滑表情参数，其中，T为时间间隔，以表情参数e作为时间平滑网络的输入，可以计算出线性组合的权重。该时间平滑网络由五个一维卷积组成，后跟一个带有Softmax激活的线性层。

在时间维度上，基于时间步长t-T/2到t+T/2上每个视频帧的语音特征a的线性组合来计算出t时刻视频帧的平滑语音特征，以语音特征a作为时间平滑网络的输入，可以计算出线性组合的权重。

(2)将三维坐标、视角方向、平滑语音特征、平滑表情参数以及头部参数输入至预设的单个神经辐射场，计算得到空间采样点对应的预测颜色值和体积密度。

作为一种实施方式，单个神经辐射场可以基于空间采样点的三维坐标、视角方向以及平滑语音特征、平滑表情参数以及头部参数计算出每个空间采样点的预测颜色值c和体积密度σ。其中，单个神经辐射场的神经网络可以为多层感知机(Multi-Layer Perceptron，MLP)，由隐函数F_θ表示：
F_θ:(x,d,a,e,p)→(c,σ)

其中，隐函数F_θ(即单个神经辐射场)的输入包括三维坐标x、视角方向d、平滑语音特征a、平滑表情参数e以及头部参数p，函数F_θ的输出为空间采样点对应的预测颜色值c和体积密度σ。

请参阅图3，图3示出了一种单个神经辐射场的网络架构图。其中，单个神经辐射场可以为八个感知层构成的多层感知机。如图3所示，获取训练视频的视频帧序列，该视频帧序列关联有音频轨迹(即音频数据)。在一种可能的实现方式中，可以利用三维可变形人脸模型对每个视频帧进行三维人脸重构，获取表情参数e、头部姿态信息和头部位置信息，并基于头部姿态信息和头部位置信息确定头部参数p。并利用DeepSpeech从音频轨迹中提取语音特征a。

然后，分别对表情参数和语音特征进行时间平滑处理得到平滑语音特和平滑表情参数。并将平滑语音特征、平滑表情参数以及头部参数p作为条件输入联合三维坐标x、视角方向d输入至神经辐射场(即隐函数F_θ)中。

在一种可能的实现方式中，神经辐射场可以基于条件输入和三维坐标x预测出空间采样点对应的体积密度和中间特征，再基于中间特征和视角方向d预测出空间采样点对应的预测颜色值。进而基于空间采样点对应的预测颜色值c和体积密度σ生成头部-躯干协调运动的完整图像，也即重构视频帧。并基于图像重建损失和嘴部强调损失对单个神经辐射场进行训练，其中，嘴部强调损失计算利用预先得到的嘴部区域对应的语义分割图，中间特征为神经辐射场的计算过程中生成的中间值。

(3)针对训练视频帧的视频帧，基于预测颜色值和体积密度，确定视频帧的全部图像区域对应的图像重建损失，以及基于预测颜色值和所述体积密度，确定视频帧的嘴部图像区域对应的嘴部强调损失。

因此，本申请提出对唇部图像区域进行增强以提高嘴巴唇部的同步性能。利用从每个视频帧中获取的嘴部区域的语义分割图，在每次迭代中找出来自嘴巴的光线，然后在渲染后计算嘴部强调损失的过程中给予较大的权重。图像重建损失也可以很好的指引神经辐射场学习到全部图像区域上的颜色信息，也即像素点的颜色值，同时基于头部参数可以估算出肩部的运动状态。如此，通过结合图像重建损失和嘴部强调损失，使得训练出的视频生成模型能够不仅提高头肩运动的协调性，还能提升嘴部运动的同步性，从而提升重构视频显示的真实性。

作为一种实施方式，该基于预测颜色值和体积密度，确定视频帧的全部图像区域对应的图像重建损失的步骤可以包括：

(3.1)基于预测颜色值和体积密度，对在全部图像区域内的相机射线进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值。

在本申请实施例中，神经辐射场得到的是一个三维空间采样点的颜色信息和密度信息，当用一个相机去对这个场景成像时，所得到的二维图像上的一个像素实际上对应了一条从相机出发的相机射线上的所有连续的空间采样点。因此，需要基于这相机条射线上的所有空间采样点得到这条相机射线最终在二维图像上渲染的颜色值。

此外，体积密度(Volume Density)可以被理解为一条相机射线r在经过空间采样点所处位置x的一个无穷小的粒子时被终止的概率，这个概率是可微的，也即，这个空间采样点的不透明度。由于一条相机射线上的空间采样点是连续的，这条相机射线对应在二维图像上像素点的颜色值可以由积分的方式得到，请参阅图4，图4示出了一种相机射线的示意图，该相机射线(Ray)可以标记为r(t)＝o+td，其中，o表示相机射线的原点，d表示相机射线的角度，相机射线上t处近段边界和远端边界分别表示为t_n以及t_f。

在一种可能的实现方式中，基于预测颜色值和体积密度，对在视频帧的全部图像区域内的相机射线进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值的方式可以是获取全部图像区域内每个相机射线上空间采样点对应的累计透明度，累计透明度为在第一积分区间上基于相机射线的体积密度进行积分生成的；基于累计透明度、预测颜色值和体积密度的乘积，确定被积函数；在第二积分区间上对被积函数进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值；其中，第一积分区间为相机射线从近端边界到空间采样点的采样距离，第二积分区间为相机射线从近端边界到远端边界的采样距离。

具体地，获取训练视频的视频帧的全部图像区域内每个相机射线上空间采样点对应的累计透明度T(t)，其中，累计透明度可以被理解为相机射线在第一积分区间上没有击中任何粒子的概率，累计透明度可通过在第一积分区间上基于相机射线的体积密度进行积分生成，第一积分区间为相机射线从近端边界t_n到空间采样点处t的采样距离，积分公式如下：

然后，基于累计透明度T(t)、预测颜色值和体积密度的乘积，确定被积函数，并在第二积分区间上对被积函数进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值C(r)，r(s)表示相机射线，第二积分区间为相机射线从近端边界t_n到远端边界t_f的采样距离，颜色积分可以表示为：

(3.2)基于全部图像区域内每个相机射线对应的预测对象颜色值和对应的真实对象颜色值，确定全部图像区域对应的图像重建损失。

在得到预测对象颜色值后，可以可以基于全部图像区域内每个相机射线对应的预测对象颜色值C(r)和对应的真实对象颜色值确定全部图像区域对应的图像重建损失。在一种可能的实现方式中，可以基于均方误差(Mean Square Error，MSE)构建图像重建损失：

其中，R是相机射线集合，该集合中包含了全部图像区域上的相机射线。需要说明的是，可以将训练视频中视频帧上全部区域像素点原有的颜色值作为该像素点对应的相机射线的真实对象颜色值(Ground-truth)。

作为一种实施方式，该基于预测颜色值和体积密度，确定视频帧的嘴部图像区域对应的嘴部强调损失的步骤可以包括：

(3.1)对视频帧进行图像语义分割，得到视频帧对应的嘴部图像区域。

(3.2)基于预测颜色值和体积密度，对在嘴部图像区域内的相机射线进行颜色积分，预测嘴部图像区域内每个相机射线对应的预测嘴部颜色值.

(3.3)基于嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定嘴部图像区域对应的嘴部强调损失。

在本申请实施例中，为了确定嘴部强调损失，可以对训练视频中的视频帧进行图像语义分割，得到视频帧对应的嘴部图像区域，并基于预测颜色值和体积密度，对在视频帧的嘴部图像区域内的相机射线进行颜色积分，预测嘴部图像区域内每个相机射线对应的预测嘴部颜色值。

基于嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定嘴部图像区域对应的嘴部强调损失，在一种可能的实现方式中，可以基于均方误差构建嘴部强调损失：

其中，R_mouth是相机射线集合，该集合中包含了嘴部图像区域上的相机射线。需要说明的是，可以将训练视频中视频帧上嘴部区域像素点原有的颜色值作为该像素点对应的相机射线的真实嘴部颜色值(Ground-truth)。

(4)结合图像重建损失和嘴部强调损失构建总损失，并利用总损失对单个神经辐射场进行网络训练。

为了强调嘴部区域的训练，本申请将嘴部强调损失L_mouth乘以额外的权重系数与图像重建损失L_photometic相加构成总损失来对单个神经辐射场进行网络训练。

作为一种实施方式，该结合图像重建损失和嘴部强调损失构建总损失，并利用总损失对单个神经辐射场进行网络训练的步骤可以包括：

(4.1)获取权重系数。

权重参数可以在网络训练实验过程中，根据训练经验选取最优值。该权重系数λ>0。

(4.2)基于图像重建损失、权重系数以及嘴部强调损失确定总损失。

将嘴部强调损失L_mouth乘以额外的权重系数λ与图像重建损失L_photometic相加构成总损失：
L＝L_photometic+λL_mouth

(4.3)根据总损失对单个神经辐射场进行迭代训练，直至单个神经辐射场满足预设条件。

在得到总损失后，可以根据总损失对单个神经辐射场进行迭代训练，直至单个神经辐射场满足预设条件，其中，预设条件可以为：总损失函数L的总损失值小于预设值、总损失函数L的总损失值不再变化、或者训练次数达到预设次数等。可选的，可以采用优化器去优化总损失函数L，基于实验经验设置学习率(Learning Rate)、训练时的批量大小(Batch Size)以及训练的时期(Epoch)。

当对单个神经辐射场的网络训练满足预设条件时，可以将该满足预设条件的单个神经辐射场作为视频生成模型。该视频生成模型可以用于对目标用户的待重构视频进行对象重构，最终得到重构视频。

作为一种实施方式，可以获取目标用户的待重构视频，进而根据视频生成模型对待重构视频进行对象重构，得到目标用户对应的重构视频。其中，待重构视频至少包括视频会议中的会议视频，直播过程中的实况视频，以及预先录制的视频等，在此不做限定。

在一种可能的实现方式中，根据视频生成模型对待重构视频进行对象重构，得到目标用户对应的重构视频的方式可以是从待重构视频中获取预设帧数的待重构视频帧，其中，预设帧数可以由当前进行对象重构的计算机设备的计算性能决定。

然后将每个待重构视频帧输入到视频生成模型中，从视频生成模型对应预测每个待重构视频帧的重构视频帧，由于视频生成模型在重构视频帧时引入了头部姿态信息和头部位置信息，从而能够估算出合适的肩膀形状来适应头部状态和位置的变化，进而使得生成的人物形象的肩部与头部在整体视频帧上显示的更加自然、稳定和协调，并基于计算得到的所有重构视频帧，合成目标用户对应的重构视频。

本申请实施例中，从目标用户的训练视频中提取语音特征、表情参数和头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息，将语音特征、表情参数和头部参数进行合并，得到训练视频的条件输入。进而基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型。如此，通过在条件输入中引入头部姿态信息与头部位置信息，视频生成模型可以在考虑头部运动的情况下赋予重构人像面部表情，使得重构人像具有高分辨率，从而提高重构图像的清晰度，并且根据头部姿态信息与头部位置信息可以隐式估算出肩膀的运动状态，从而使得生成的重构人像在保持头运动与肩部运动之间的协调性外，还能保证重构人像具有头部和肩部的完整性。

此外，该视频生成模型可以为基于图像重建损失和嘴部强调损失训练得到，其中，图像重建损失由单个神经辐射场根据条件输入生成的预测对象颜色值和真实对象颜色值确定，嘴部强调损失由单个神经辐射场根据条件输入生成的预测嘴部颜色值和真实嘴部颜色值确定。

由于颜色值与空间采样点的位置以及视角方向有关，图像重建损失可以引导单个神经辐射场能够预测不同视角下空间采样点处的不同光照效果，最后通过颜色积分可以使得相机射线对应的像素点的色彩更加丰富，进而增强了重构视频的显示效果。当根据视频生成模型对目标用户的待重构视频进行对象重构时，得到的重构视频可以与待重构视频的嘴部运动具有同步性，并且使得嘴部形状的变化与语音能够准确匹配，加上重构人像可以保持头运动与肩部运动之间的协调性，进而大大提升重构视频显示的真实性。

结合上述实施例所描述的方法，以下将举例作进一步详细说明。

下面将以视频生成模型的训练装置具体集成在计算机设备中为例进行说明，并将针对图5所示的流程结合图6所示的应用场景进行详细地阐述，该计算机设备可以为服务器或者终端设备等。请参阅图5，图5示出了本申请实施例提供的另一种视频生成模型的训练方法，在具体的实施例中，该视频生成模型的训练方法可以运用到如图6所示的视频会议场景中。

视频会议服务供应商提供服务端，该服务端包括云训练服务器410以及云执行服务器430。云训练服务器410用于训练出进行对象重构的视频生成模型，云执行服务器430用于部署进行对象重构的视频生成模型、进行视频会议相关功能的计算机程序，并对客户端发送的生成的重构视频。其中，客户端可以包括接收方使用视频会议服务时，在智能电视420上打开的视频会议软件421，以及发送方使用视频会议服务时，笔记本电脑440上打开的视频会议软件441。

在上述视频会议场景中，发送方与接收方通过各自的视频会议软件，也即客户端进行视频会议，发送方由于个人原因可以使用视频会议软件441上的对象重构功能，对自己的真实人像进行重构，从而，在接受方的视频会议软件421上示出重构的理想人像。其中，人像的重构是服务端的云执行服务器430利用视频生成模型完成的。

需要说明的是，图6仅是本申请实施例提供的一种应用场景，本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定。例如，在其它情况下，图6中真实人像的重构也可以是在视频会议软件441上直接完成，云执行服务器430可以将视频会议软件441生成的重构的人像视频传至视频会议软件421。本领域普通技术人员可知，随着系统架构的演变和新的应用场景(如，视频聊天和实况直播等)的出现，本申请实施例提供的技术方案对于解决类似的技术问题，同样适用。视频生成模型的训练方法具体可以包括以下步骤：

S210：计算机设备获取预设时长的初始视频。

其中，初始视频记录有目标用户说话的音频内容。考虑到有关技术在网络学习过程不能知晓场景的3D几何形状，需要额外参考图像来提供身份信息进行网络学习。本申请提出获取特定人物的一段视频，也即预设时长的初始视频作为训练数据，即可用于进行视频重构的网络学习，避免使用过多的训练数据，从而提高网络训练的效率。

示例性地，发送方可以利用预先录制一段预设时长为五分钟的说话视频作为初始视频，并将该初始视频通过视频会议软件441发送到云训练服务器410进行预处理。可选地，视频会议软件441也可以直接对初始视频进行预处理得到训练视频，再将训练视频发送至云训练服务器410。

S220：计算机设备根据预设分辨率和预设采样率对所述初始视频进行预处理，得到训练视频。

为了让生成的重构视频中人物区域能够占据画面的中心，提高观众观看视频的舒适度，本申请在网络训练阶段，通过预处理可以将初始视频中目标用户的人像确定在训练视频的视频帧的中心区域，从而训练后得到的视频生成模型生成的重构视频中，人物区域能够占据视频画面的中心。

其中，预设分辨率和预设采样率可以根据实际应用场景中，对视频画面中人物内容的显示需求进行设定。示例性地，云训练服务器410在接收到视频会议软件441发送来的初始视频后，可以基于25fps的采样频率对初始视频进行采样，并基于450×450像素的分辨率对初始视频采样出的视频帧进行裁剪，得到训练视频，使得目标用户的人像占据视频帧的中心区域。

S230：计算机设备提取目标用户的训练视频对应的条件输入。

本申请将用户的头部姿态信息与头部位置信息引入条件输入，使得神经辐射场基于头部姿态信息与头部位置信息可以隐式估算出肩膀的运动状态，从而使得生成的重构人像可以保持头运动与肩部运动之间的协调性。

在本申请实施例中，提取训练视频对应的条件输入的方式是获取目标用户的训练视频；从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息；将目标用户的语音特征、目标用户的表情参数和目标用户的头部参数进行合并，得到训练视频的条件输入。

在一些实施例中，该计算机设备从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数的步骤可以包括：

(1)计算机设备对目标用户的训练视频进行语音特征提取，得到语音特征。

示例性地，云训练服务器410在获取训练视频时，可以利用DeepSpeech模型来学习训练视频中的语音到文本的映射，也即提取目标用户说话声音内容的语音特征。具体地，云训练服务器410可以对训练视频关联的音频数据进行采样，得到采样数组，并对采样数组进行快速傅里叶变换，在此基础上进行两层卷积计算，得到卷积后的数据。

云训练服务器410对卷积后的数据进行Shape操作，并对该操作后的数据进行切片操作得到预设数量的数据片，并将每个数据片分别输入每个RNN层，对应从每个RNN层得到输出数据，并对输出数据进行合并操作得到音频数据对应的语音特征a。

(2)计算机设备对目标用户的训练视频进行三维人脸重构，得到目标用户的三维脸型的脸型表示，并基于脸型表示确定目标用户的表情参数。

示例性地，云训练服务器410可以利用三维可变性人脸模型从每个视频帧中获取表情参数，该三维可变性人脸模型可以对单张视频帧中的二维人脸进行三维重建，得到相应的三维脸型的脸型表示

其中，表示为在选定的人脸数据集上计算的平均值。E^s和E^e分别表示形状空间和表情空间的正交基向量的矩阵。s和e分别表示形状系数和表情系数。进一步地，可以将表情系数e作为重构的三维脸型的表情参数。

(3)计算机设备对目标用户的三维脸型进行变换映射，得到三维脸型对应的旋转矩阵和平移向量。

示例性地，云训练服务器410可以对目标用户的三维脸型进行变换映射，得到三维脸型对应的旋转矩阵和平移向量。可选地，变换映射可以使用弱透视投影模型，该模型对三维脸型网格的顶点在二维平面的函数输出可以表示为g＝f+Pr+R+t。其中，f表示比例因子，Pr表示正交投影矩阵，R表示旋转矩阵以及t表示平移向量。

(4)计算机设备基于旋转矩阵确定头部姿态信息以及基于平移向量确定头部位置信息，并根据头部姿态信息和头部位置信息得到目标用户的头部参数。

示例性地，云训练服务器410可以将旋转矩阵转换为欧拉角，欧拉角由3个元素组成，表示方向信息，也即头部姿态信息。并将平移向量表示为头部位置信息。进一步地，对头部姿态信息和头部位置信息进行位置编码，分别得到两个编码后的高维向量，并将两个高维向量连接成一个向量表示P。

S240：计算机设备基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型。

本申请实施例中提供的视频生成模型的训练方法包括对预设的单个神经辐射场的训练，值得说明的是，对预设的单个神经辐射场的训练可以是根据获取的训练样本数据集合预先进行的，后续在每次需要执行对象重构时，可以利用训练得到的视频生成模型直接计算，而无需每次执行对象重构时，再次进行网络训练。

在一些实施例中，该计算机设备基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练的步骤可以包括：

(1)计算机设备对语音特征和表情参数分别进行时间平滑处理，得到对应的平滑语音特征和平滑表情参数。

示例性地，云训练服务器410可以分别使用两个时间平滑网络过滤语音特征a和表情参数e。例如，对表情参数e进行时间平滑处理：在时间维度上，基于时间步长t-T/2到t+T/2上每个视频帧的表情参数e的线性组合来计算出t时刻视频帧的平滑表情参数，以表情参数e作为时间平滑网络的输入，可以计算出线性组合的权重。该时间平滑网络由五个一维卷积组成，后跟一个带有softmax激活的线性层。

示例性地，云训练服务器410可以在时间维度上，基于时间步长t-T/2到t+T/2上每个视频帧的语音特征a的线性组合来计算出t时刻视频帧的平滑语音特征，以语音特征a作为时间平滑网络的输入，可以计算出线性组合的权重。

(2)计算机设备获取相机射线上空间采样点的三维坐标和视角方向。

示例性地，云训练服务器410可以基于相机的内外参数将像素坐标转换为了统一的世界坐标下的光线上的空间采样点的三维坐标。云训练服务器410可以根据预先设定的相机拍摄场景的拍摄角度来确定视角方向，也可以预先基于对预先获取的参考视频中角色的观察角度来设定视角方向。

(3)计算机设备将三维坐标、视角方向、平滑语音特征、平滑表情参数以及头部参数输入至预设的单个神经辐射场，计算得到空间采样点对应的预测颜色值和体积密度。

示例性地，云训练服务器410可以基于隐函数F_θ，将空间采样点的三维坐标x、视角方向d以及平滑语音特征a，平滑表情参数e和头部参数p作为函数输入，从而隐函数F_θ计算出每个空间采样点的预测颜色值c和体积密度σ。其中，隐函数F_θ表示为：F_θ:(x,d,a,e,p)→(c,σ)。

(4)针对训练视频帧的视频帧，计算机设备基于预测颜色值和体积密度，确定视频帧的全部图像区域对应的图像重建损失，以及基于预测颜色值和体积密度，确定视频帧的嘴部图像区域对应的嘴部强调损失。

作为一种实施方式，该基于预测颜色值和体积密度，确定训练视频的视频帧的全部图像区域对应的图像重建损失的步骤可以包括：

(4.1)计算机设备基于预测颜色值和体积密度，对在视频帧的全部图像区域内的相机射线进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值。

示例性地，云训练服务器410可以获取全部图像区域内每个相机射线上空间采样点对应的累计透明度，其中，累计透明度表示可以被理解为相机射线在第一积分区间上没有击中任何粒子的概率，累计透明度可通过在第一积分区间上基于相机射线的体积密度进行积分生成，第一积分区间为相机射线从近端边界到空间采样点处的采样距离。

云训练服务器410可以基于累计透明度、预测颜色值和体积密度的乘积，确定被积函数，并在第二积分区间上对被积函数进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值第二积分区间为相机射线从近端边界到远端边界的采样距离。

云训练服务器410可以基于全部图像区域内每个相机射线对应的预测对象颜色值和对应的真实对象颜色值，确定全部图像区域对应的图像重建损失。可选地，可以基于均方误差构建图像重建损失。将训练视频中视频帧上全部区域像素点原有的颜色值作为该像素点对应的相机射线的真实对象颜色值。

(4.2)计算机设备基于全部图像区域内每个相机射线对应的预测对象颜色值和对应的真实对象颜色值，确定全部图像区域对应的图像重建损失。

(4.1)对视频帧进行图像语义分割，得到视频帧对应的嘴部图像区域。

(4.2)基于预测颜色值和体积密度，对在嘴部图像区域内的相机射线进行颜色积分，预测嘴部图像区域内每个相机射线对应的预测嘴部颜色值。

(4.3)基于嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定嘴部图像区域对应的嘴部强调损失。

示例性地，云训练服务器410可以对训练视频中的视频帧进行图像语义分割，得到视频帧对应的嘴部图像区域，并基于预测颜色值和体积密度，对在视频帧的嘴部图像区域内的相机射线进行颜色积分，预测嘴部图像区域内每个相机射线对应的预测嘴部颜色值。

云训练服务器410可以基于嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定嘴部图像区域对应的嘴部强调损失。并将训练视频中视频帧上嘴部区域像素点原有的颜色值作为该像素点对应的相机射线的真实嘴部颜色值。

(5)计算机设备结合图像重建损失和嘴部强调损失构建总损失，并利用总损失对单个神经辐射场进行网络训练。

为了强调嘴部区域的训练，本申请将嘴部强调损失乘以额外的权重系数与图像重建损失相加构成总损失来对单个神经辐射场进行网络训练。

示例性地，云训练服务器410可以获取权重系数，并基于图像重建损失、权重系数以及嘴部强调损失确定总损失。进而根据总损失对单个神经辐射场进行迭代训练，直至单个神经辐射场满足预设条件。

在一种可能的实现方式中，为了定量分析本申请中的视频生成模型的性能。可以在两个测试集上将该视频生成模型的训练方法与有关技术(Baselines)进行比较。其中，测试集A和测试集B都是说话人像视频。有关技术包括MakeItTalk、AD-NeRF、Wav2Lip以及NerFACE。评估指标(Metrics)包括PSNR和SSIM用于评估重构视频帧的质量(如，面部表情)；LPIPS用于测量真实感的质量；LMD用于评估嘴型的准确性；Sync用于评估嘴唇与音频同步性。

对测试集A和测试集B在全部图像区域上计算PSNR、SSIM和LPIPS的评估指标，在嘴部图像区域上计算LMD和Sync的评估指标，计算结果如下表1所示：

表1

根据表1可以看出，在两个测试集上，本申请提出的方法在评估指标PSNR、SSIM、LPIPS和LMD上获得了最好的性能表现。同时，在音频-嘴形同步性和准确性上也具有优越性。例如，可以观察到本申请的方法创建的重构视频帧中的人物人像具有更准确的面部表情，更高的嘴型同步精度和更自然的头部-躯干协调。

AD-NeRF的生成能力依赖于使用两个独立的神经辐射场进行建模头部和躯干，这不可避免地会导致人像颈部存在分离和晃动的问题。不同的是，本申请基于单个神经辐射场引入详细的头部姿态信息和头部位置信息作为条件输入，能够生成更准确的视觉细节，如面部表情比AD-NeRF更好。

在一种可能的实现方式中，为了定性分析本申请中的视频生成模型的性能。可以在两个测试集上将该视频生成模型的训练方法与有关技术进行直观地比较，也即，将各个方法生成的重构视频帧放在一起进行比较。其中，有关技术包括MakeItTalk、AD-NeRF、Wav2Lip、ATVG、PC-AVS以及NerFACE。如图7所示的一种性能对比的示意图，需要说明的是，该示意图是经过处理后的举例示图。

从图7可以观察出，与基于生成对抗网络的方法(ATVG、Wav2lip、MakeItTalk、PC-AVS)相比，本申请能够生成更加清晰和完整的说话人人像，并且具有更逼真的图像质量，表情也恢复的更加准确。观察现有的基于NeRF的方法(AD-NeRF、NerFACE)的生成结果，AD-NeRF存在头肩分离问题，NerFACE则存在头肩刚性建模带来的头肩不协调问题，所以肩膀会随着头部姿态的变化而发生过度旋转。与AD-NeRF和NerFACE相比，本申请生成的重构视频帧的人物人像完整而协调，真实感强。

S250：计算机设备根据视频生成模型对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频。

当云训练服务器410对单个神经辐射场的网络训练满足预设条件时，可以将该满足预设条件的单个神经辐射场作为视频生成模型部署在云执行服务器430上。进而云执行服务器430可以基于该视频生成模型对目标用户的待重构视频进行对象重构，最终得到重构视频。

示例性地，云执行服务器430可以获取发送方通过笔记本电脑440上的视频会议软件441发送的待重构的会议视频，也即待重构视频，进而，从会议视频中获取预设帧数的待重构视频帧，其中，预设帧数可以由当前进行对象重构的计算机设备的计算性能决定。例如，云执行服务器430可以通过查询内存利用率以及GPU运算性能来进行计算性能的评估。可选地，云执行服务器430可以对自身的计算性能进行不同等级的划分，并为不同等级的计算性能匹配对应的预设帧数。

云执行服务器430可以将每个待重构视频帧输入到视频生成模型中，从视频生成模型对应预测每个待重构视频帧的重构视频帧，并基于计算得到的所有重构视频帧的帧序列合成发送方对应的重构视频。进而将该重构视频发送至接收方的智能电视420上，并通过视频会议软件421可以对该重构视频进行显示。

请参阅图8，图8示出了一种视频生成模型的训练方法的实现效果图，本申请基于单个神经辐射场的隐式表征能力，大大提升了说话人像视频的真实度，该视频生成模型的训练方法可以应用于视频会议、视频聊天、实况直播以及数字人等需要进行说话肖像视频重构的应用场景中。通过将表情参数和语音特征作为单个神经辐射场的驱动源进行训练，可以获取图8中(1)与待重构视频准确匹配的头部姿态和面部表情，以及图8中(2)与待重构视频的语音同步的嘴型，而具有不同的良好外观。本申请并将每个视频帧中的头部姿态信息和头部位置信息加入到单个神经辐射场的条件输入中，从而指导肩膀区域的生成，并适应头部的位置，最终能够生成图8中(3)自然、稳定和协调的肩部，避免了由于头肩刚性建模所带来的头肩不协调问题。

本申请实施例中，可以获取预设时长的初始视频，并根据预设分辨率和预设采样率对所述初始视频进行预处理，得到训练视频。从而获取预设时长的初始视频作为训练数据，即可用于进行视频重构的网络学习，避免使用过多的训练数据，大大提高网络训练的效率。

本申请实施例中，提取目标用户的训练视频对应的条件输入，该条件输入包括语音特征、表情参数以及头部参数，该头部参数用于表征头部姿态信息与头部位置信息，并基于语音特征、表情参数以及头部参数对预设的单个神经辐射场进行网络训练，得到视频生成模型，通过在条件输入中引入头部姿态信息与头部位置信息，视频生成模型在考虑头部运动的情况下可以赋予重构人像面部表情，使得重构人像具有高分辨率，并且根据头部姿态信息与头部位置信息可以隐式估算出肩膀的运动状态，使得生成的重构人像在保持头运动与肩部运动之间的协调性外，还能保证重构人像具有头部和肩部的完整性。

此外，该视频生成模型为基于图像重建损失和嘴部强调损失训练得到，该图像重建损失由单个神经辐射场根据条件输入生成的预测对象颜色值和真实对象颜色值确定，改嘴部强调损失由单个神经辐射场根据条件输入生成的预测嘴部颜色值和真实嘴部颜色值确定，如此，当根据视频生成模型对目标用户的待重构视频进行对象重构时，得到的重构视频可以与待重构视频的嘴部运动具有同步性，从而提升重构视频显示的真实性。

请参阅图9，其示出了本申请实施例提供的一种视频生成模型的训练装置500的结构框图。该视频生成模型的训练装置500包括：条件获取模块510，用于获取目标用户的训练视频；从训练视频中提取目标用户的语音特征、目标用户的表情参数和目标用户的头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息；将目标用户的语音特征、目标用户的表情参数和目标用户的头部参数进行合并，得到训练视频的条件输入；网络训练模块520，用于基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型；其中，视频生成模型为基于总损失训练得到，总损失包括图像重建损失，图像重建损失是由预测对象颜色值和真实对象颜色值确定的，预测对象颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的；视频生成模型用于对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频。

在一些实施例中，条件获取模块510可以具体用于：对目标用户的训练视频进行语音特征提取，得到目标用户的语音特征；对目标用户的训练视频进行三维人脸重构，得到目标用户的三维脸型的脸型表示，并基于脸型表示确定目标用户的表情参数；对目标用户的三维脸型进行变换映射，得到三维脸型对应的旋转矩阵和平移向量；基于旋转矩阵确定头部姿态信息以及基于平移向量确定头部位置信息，并根据头部姿态信息和头部位置信息得到目标用户的头部参数。

在一些实施例中，总损失包括嘴部强调损失，嘴部强调损失是由预测嘴部颜色值和真实嘴部颜色值确定的，预测嘴部颜色值是单个神经辐射场根据条件输入、三维坐标和视角方向生成的。

在一些实施例中，视频生成模型的训练装置500还包括采样获取单元：

采样获取单元，用于获取相机射线上空间采样点的三维坐标和视角方向，相机射线为相机在对场景进行成像时发出的光线，且相机射线对应视频帧上的像素点；

网络训练模块520可以包括：平滑处理单元，用于对语音特征和表情参数分别进行时间平滑处理，得到平滑语音特征和平滑表情参数；采样计算单元，用于将三维坐标、视角方向、平滑语音特征、平滑表情参数以及头部参数输入至预设的单个神经辐射场，计算得到空间采样点对应的预测颜色值和体积密度；损失确定单元，用于针对训练视频帧的视频帧，基于预测颜色值和体积密度，确定训练视频的视频帧的全部图像区域对应的图像重建损失，以及基于预测颜色值和体积密度，确定视频帧的嘴部图像区域对应的嘴部强调损失；网络训练单元，用于结合图像重建损失和嘴部强调损失构建总损失，并利用总损失对单个神经辐射场进行网络训练。

在一些实施例中，损失确定单元可以包括：预测子单元，用于基于预测颜色值和体积密度，对在全部图像区域内的相机射线进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值；重建损失子单元，用于基于全部图像区域内每个相机射线对应的预测对象颜色值和对应的真实对象颜色值，确定全部图像区域对应的图像重建损失。

在一些实施例中，预测子单元可以具体用于：获取全部图像区域内每个相机射线上空间采样点对应的累计透明度，累计透明度为在第一积分区间上基于相机射线的体积密度进行积分生成的；基于累计透明度、预测颜色值和体积密度的乘积，确定被积函数；在第二积分区间上对被积函数进行颜色积分，预测全部图像区域内每个相机射线对应的预测对象颜色值；其中，第一积分区间为相机射线从近端边界到空间采样点的采样距离，第二积分区间为相机射线从近端边界到远端边界的采样距离。

在一些实施例中，损失确定单元还可以具体用于：对视频帧进行图像语义分割，得到视频帧对应的嘴部图像区域；基于预测颜色值和体积密度，对在视频帧的嘴部图像区域内的相机射线进行颜色积分，预测嘴部图像区域内每个相机射线对应的预测嘴部颜色值；基于嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定嘴部图像区域对应的嘴部强调损失。

在一些实施例中，网络训练单元可以具体用于：获取权重系数；基于图像重建损失、权重系数以及嘴部强调损失确定总损失；根据总损失对单个神经辐射场进行迭代训练，直至单个神经辐射场满足预设条件。

在一些实施例中，视频生成模型的训练装置500还可以包括：初始获取模块，用于获取预设时长的初始视频，初始视频记录有目标用户说话的音频内容；预处理模块，用于根据预设分辨率和预设采样率对初始视频进行预处理，得到训练视频，预处理用于将目标用户的对象内容确定在训练视频的视频帧的中心区域。

在一些实施例中，视频生成模型的训练装置500还可以包括对象重构模块530：

对象重构模块530，用于获取目标用于的待重构视频；根据视频生成模型对目标用户的待重构视频进行对象重构，得到目标用户对应的重构视频。

在一些实施例中，待重构视频包括会议视频，对象重构模块530可以具体用于：

从待重构视频中获取预设帧数的待重构视频帧；将每个待重构视频帧输入至视频生成模型，计算出每个待重构视频帧对应的重构视频帧；基于所有待重构视频帧，合成目标用户对应的重构视频。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请提供的方案，从目标用户的训练视频中提取语音特征、表情参数和头部参数，头部参数用于表征目标用户的头部姿态信息与头部位置信息，将语音特征、表情参数和头部参数进行合并，得到训练视频的条件输入。进而基于条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型。由此，通过在条件输入中引入头部姿态信息与头部位置信息，使得视频生成模型可以在考虑头部运动的情况下赋予重构人像面部表情，使得重构人像具有高分辨率，并且根据头部姿态信息与头部位置信息可以隐式估算出肩膀的运动状态，从而使得生成的重构人像在保持头运动与肩部运动之间的协调性外，还能保证重构人像具有头部和肩部的完整性。

其次，该视频生成模型为基于图像重建损失和嘴部强调损失训练得到，其中，图像重建损失由单个神经辐射场根据条件输入生成的预测对象颜色值和真实对象颜色值确定，嘴部强调损失由单个神经辐射场根据条件输入生成的预测嘴部颜色值和真实嘴部颜色值确定，如此，当根据视频生成模型对目标用户的待重构视频进行对象重构时，得到的重构视频可以与待重构视频的嘴部运动具有同步性，进而提高重构视频显示的真实性。

如图10所示，本申请实施例还提供一种计算机设备600，该计算机设备600包括处理器610、存储器620、电源630和输入单元640，存储器620存储有计算机程序，计算机程序被处理器610调用时，可实执行上述实施例提供的各种方法步骤。本领域技术人员可以理解，图中示出的计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器610可以包括一个或多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器620内的指令、程序、指令集或程序集，调用存储在存储器620内的数据，执行电池管理系统的各种功能和处理数据，以及执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(Central Processing Unit，CPU)、图像处理器610(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

尽管未示出，计算机设备600还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器610会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器620中，并由处理器610来运行存储在存储器620中的比如电话本和音视频数据，从而实现前述实施例提供的各种方法步骤。

如图11所示，本申请实施例还提供一种计算机可读存储介质700，该计算机可读存储介质700中存储有计算机程序710，计算机程序710可被处理器调用于执行本申请实施例提供的各种方法步骤。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读存储介质(Non-Transitory Computer-Readable Storage Medium)。计算机可读存储介质700具有执行上述实施例中任何方法步骤的计算机程序的存储空间。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。计算机程序能够以适当形式进行压缩。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例提供的各种方法步骤。

以上，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制，虽然本申请已以较佳实施例揭示如上，然而并非用以限定本申请，任何本领域技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本申请技术方案的范围内。

Claims

一种视频生成模型的训练方法，所述方法由计算机设备执行，所述方法包括：

获取目标用户的训练视频；

从所述训练视频中提取所述目标用户的语音特征、所述目标用户的表情参数和所述目标用户的头部参数，所述头部参数用于表征所述目标用户的头部姿态信息与头部位置信息；

将所述目标用户的语音特征、所述目标用户的表情参数和所述目标用户的头部参数进行合并，得到所述训练视频的条件输入；

基于所述条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型；

其中，所述视频生成模型为基于总损失训练得到，所述总损失包括图像重建损失，所述图像重建损失是由预测对象颜色值和真实对象颜色值确定的，所述预测对象颜色值是单个神经辐射场根据所述条件输入、所述三维坐标和所述视角方向生成的；所述视频生成模型用于对所述目标用户的待重构视频进行对象重构，得到所述目标用户对应的重构视频。
根据权利要求1所述的方法，所述从所述训练视频中提取所述目标用户的语音特征、所述目标用户的表情参数和所述目标用户的头部参数，包括：

对所述目标用户的训练视频进行语音特征提取，得到所述目标用户的语音特征；

对所述目标用户的训练视频进行三维人脸重构，得到所述目标用户的三维脸型的脸型表示，并基于所述脸型表示确定所述目标用户的表情参数；

对所述目标用户的三维脸型进行变换映射，得到所述三维脸型对应的旋转矩阵和平移向量；

基于所述旋转矩阵确定所述头部姿态信息以及基于所述平移向量确定所述头部位置信息，并根据所述头部姿态信息和所述头部位置信息得到所述目标用户的头部参数。
根据权利要求1或2所述的方法，所述总损失包括嘴部强调损失，所述嘴部强调损失是由预测嘴部颜色值和真实嘴部颜色值确定的，所述预测嘴部颜色值是单个神经辐射场根据所述条件输入、所述三维坐标和所述视角方向生成的。
根据权利要求3所述的方法，在所述基于所述条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练之前，所述方法还包括：

获取相机射线上空间采样点的三维坐标和视角方向，所述相机射线为相机在对场景进行成像时发出的光线，且所述相机射线对应所述训练视频的视频帧上的像素点；

所述基于所述条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，包括：

对所述语音特征和所述表情参数分别进行时间平滑处理，得到平滑语音特征和平滑表情参数；

将所述三维坐标、所述视角方向、所述平滑语音特征、所述平滑表情参数以及所述头部参数输入至所述单个神经辐射场，计算得到所述空间采样点对应的预测颜色值和体积密度；

针对所述训练视频帧的视频帧，基于所述预测颜色值和所述体积密度，确定所述视频帧的全部图像区域对应的图像重建损失，以及基于所述预测颜色值和所述体积密度，确定所述视频帧的嘴部图像区域对应的嘴部强调损失；

结合所述图像重建损失和所述嘴部强调损失构建所述总损失，并利用所述总损失对所述单个神经辐射场进行网络训练。
根据权利要求4所述的方法，所述基于所述预测颜色值和所述体积密度，确定所述视频帧的全部图像区域对应的图像重建损失，包括：

基于所述预测颜色值和所述体积密度，对在所述全部图像区域内的相机射线进行颜色积分，预测所述全部图像区域内每个相机射线对应的预测对象颜色值；

基于所述全部图像区域内每个相机射线对应的预测对象颜色值和对应的真实对象颜色值，确定所述全部图像区域对应的图像重建损失。
根据权利要求5所述的方法，所述基于所述预测颜色值和所述体积密度，对在所述视频帧的全部图像区域内的相机射线进行颜色积分，预测所述全部图像区域内每个相机射线对应的预测对象颜色值，包括：

获取所述全部图像区域内每个相机射线上空间采样点对应的累计透明度，所述累计透明度为在第一积分区间上基于相机射线的体积密度进行积分生成的；

基于所述累计透明度、所述预测颜色值和所述体积密度的乘积，确定被积函数；

在第二积分区间上对所述被积函数进行颜色积分，预测所述全部图像区域内每个相机射线对应的预测对象颜色值；

其中，所述第一积分区间为相机射线从近端边界到空间采样点的采样距离，所述第二积分区间为相机射线从近端边界到远端边界的采样距离。
根据权利要求4至6任一项所述的方法，所述基于所述预测颜色值和所述体积密度，确定所述视频帧的嘴部图像区域对应的嘴部强调损失，包括：

对所述视频帧进行图像语义分割，得到所述视频帧对应的嘴部图像区域；

基于所述预测颜色值和所述体积密度，对在所述嘴部图像区域内的相机射线进行颜色积分，预测所述嘴部图像区域内每个相机射线对应的预测嘴部颜色值；

基于所述嘴部图像区域内每个相机射线对应的预测嘴部颜色值和对应的真实嘴部颜色值，确定所述嘴部图像区域对应的嘴部强调损失。
根据权利要求4所述的方法，所述结合所述图像重建损失和所述嘴部强调损失构建所述总损失，并利用所述总损失对所述单个神经辐射场进行网络训练，包括：

获取权重系数；

基于所述图像重建损失、所述权重系数以及所述嘴部强调损失确定所述总损失；

根据所述总损失对所述单个神经辐射场进行迭代训练，直至所述单个神经辐射场满足预设条件。
根据权利要求1所述的方法，所述获取目标用户的训练视频，包括：

获取预设时长的初始视频，所述初始视频记录有所述目标用户说话的音频内容；

根据预设分辨率和预设采样率对所述初始视频进行预处理，得到所述训练视频，所述预处理用于将所述初始视频中所述目标用户的人像确定在训练视频的视频帧的中心区域。
根据权利要求1所述的方法，所述方法还包括：

获取所述目标用于的待重构视频；

根据所述视频生成模型对所述待重构视频进行对象重构，得到所述目标用户对应的重构视频。
根据权利要求10所述的方法，所述根据所述视频生成模型对所述待重构视频进行对象重构，得到所述目标用户对应的重构视频，包括：

从所述待重构视频中获取预设帧数的待重构视频帧；

将每个所述待重构视频帧输入至所述视频生成模型，计算出每个所述待重构视频帧对应的重构视频帧；

基于所有待重构视频帧，合成所述目标用户对应的重构视频。
一种视频生成模型的训练装置，所述装置部署在计算机设备上，所述装置包括：

条件获取模块，用于获取目标用户的训练视频；从所述训练视频中提取所述目标用户的语音特征、所述目标用户的表情参数和所述目标用户的头部参数，所述头部参数用于表征所述目标用户的头部姿态信息与头部位置信息；将所述目标用户的语音特征、所述目标用户的表情参数和所述目标用户的头部参数进行合并，得到所述训练视频的条件输入；

网络训练模块，用于基于所述条件输入、三维坐标以及视角方向对预设的单个神经辐射场进行网络训练，得到视频生成模型；

其中，所述视频生成模型为基于总损失训练得到，所述总损失包括图像重建损失，所述图像重建损失是由预测对象颜色值和真实对象颜色值确定的，所述预测对象颜色值是单个神经辐射场根据所述条件输入、所述三维坐标和所述视角方向生成的；所述视频生成模型用于对所述目标用户的待重构视频进行对象重构，得到所述目标用户对应的重构视频。
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器调用执行如权利要求1～11任一项所述的方法。
一种计算机设备，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个计算机程序，其中，所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行如权利要求1～11任一项所述的方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被存储在存储介质中；计算机设备的处理器从存储介质读取所述计算机程序，处理器执行所述计算机程序，使得所述计算机设备执行如权利要求1～11任一项所述的方法。