WO2024078303A1

WO2024078303A1 - 人脸驱动模型的训练方法、视频生成方法及装置

Info

Publication number: WO2024078303A1
Application number: PCT/CN2023/120778
Authority: WO
Inventors: 杨春勇; 蒋宁; 刘敏; 曾琳铖曦
Original assignee: 马上消费金融股份有限公司
Priority date: 2022-10-09
Filing date: 2023-09-22
Publication date: 2024-04-18
Also published as: CN117935323A

Abstract

本申请实施例提供了人脸驱动模型的训练方法、视频生成方法及装置，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新。

Description

人脸驱动模型的训练方法、视频生成方法及装置

交叉引用

本申请要求在2022年10月09日提交中国专利局、申请号为202211226776.6、名称为“人脸驱动模型的训练方法、视频生成方法及装置”的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人脸驱动模型的训练方法、视频生成方法及装置。

背景技术

目前，随着人工智能技术的快速发展，基于语音驱动生成虚拟数字人视频的应用越来越广泛，其中，虚拟数字人可以是虚拟客服、虚拟导游、智能助手等助手型数字人，还可以是虚拟歌手、虚拟代言人等娱乐型数字人，也可以是虚拟主播、虚拟主持人等主播型数字人；然而，在一些情形下，用于生成虚拟数字人视频的人脸驱动模型的参数准确度低，导致虚拟数字人的表情预测准确度低，从而导致视频中虚拟数字人的表情真实性差的问题。

发明内容

本申请实施例的目的是提供一种人脸驱动模型的训练方法、视频生成方法及装置，能够提高面部表情预测子模型的表情预测准确度，进而提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

为了实现上述技术方案，本申请实施例是这样实现的：

一方面，本申请实施例提供的一种人脸驱动模型的训练方法，所述方法包括：获取N个视频样本数据；每个所述视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数；将所述N个视频样本数据输入至待训练模型进行模型迭代训练，得到人脸驱动模型；其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；每次模型训练的具体实现方式有：针对每个所述视频样本数据：所述第一向量提取子模型对所述视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于各所述视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述视频样本数据中的真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。

一方面，本申请实施例提供的一种视频生成方法，所述方法包括：获取目标语音数据；所述目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据；将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的具体实现方式有：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。

一方面，本申请实施例提供的一种人脸驱动模型的训练装置，所述装置包括：样本数据获取模块，用于获取N个视频样本数据；每个所述视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数；模型训练模块，用于将所述N个视频样本数据输入至待训练模型进行模型迭代训练，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的人脸驱动模型；其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；每次模型训练的具体实现方式有：针对每个所述视频样本数据：所述第一向量提取子模型对所述视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于各所述视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述视频样本数据中的真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。

一方面，本申请实施例提供的一种视频生成装置，所述装置包括：目标数据获取模块，用于获取目标语音数据；所述目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据；视频生成模块，用于将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的具体实现方式有：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。

一方面，本申请实施例提供的一种计算机设备，所述设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如上述方法中的步骤。

一方面，本申请实施例提供的一种存储介质，其中，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如上述方法中的步骤。

一方面，本申请实施例提供了一种计算机程序产品，其中，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的人脸驱动模型的训练方法的流程示意图；

图2为本申请实施例提供的人脸驱动模型的训练方法中每次模型训练过程的第一种流程示意图；

图3为本申请实施例提供的人脸驱动模型的训练方法的第一种实现原理示意图；

图4为本申请实施例提供的人脸驱动模型的训练方法中每次模型训练过程的第二种流程示意图；

图5为本申请实施例提供的人脸驱动模型的训练方法的第二种实现原理示意图；

图6为本申请实施例提供的人脸驱动模型的训练方法的第三种实现原理示意图；

图7为本申请实施例提供的视频生成方法的流程示意图；

图8为本申请实施例提供的视频生成方法的实现原理示意图；

图9为本申请实施例提供的人脸驱动模型的训练装置的模块组成示意图；

图10为本申请实施例提供的视频生成装置的模块组成示意图；

图11为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请一个或多个中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一个或多个一部分实施例，而不是全部的实施例。基于本申请一个或多个中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请的保护范围。

需要说明的是，在不冲突的情况下，本申请中的一个或多个实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。

本申请一个或多个实施例提供了一种人脸驱动模型的训练方法、视频生成方法及装置，考虑到如果先从音素维度基于语音数据提取第一特征向量，并仅将第一特征向量输入至人脸驱动模型中的面部表情预测子模型进行面部表情预测，得到面部表情预测数据；利用表征个体特征的参数矩阵T对该表情预测数据进行调整处理，来实现个体特征无关的表情参数与个体特征相关的表情参数之间的映射，因此，针对样本用户不包含目标用户(即目标说话人)的情况，也需要预先基于目标用户的大量视频数据训练得到相应的参数矩阵T，才能够准确地对目标说话人的面部表情进行预测，也就是说，无论是针对每个样本说话人，还是针对目标说话人预先均需要分别训练得到一个对应的参数矩阵T，这样势必存在需要获取目标用户的大量视频数据的需求问题，而对于无法获取目标用户的大量视频数据的情况而言，无法准确地训练得到一个目标用户对应的参数矩阵T，从而无法实现针对目标用户进行个体特征无关的表情参数与个体特征相关的表情参数之间的映射，基于上述问题，本技术方案通过在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量、以及进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性；本申请在模型训练阶段，在将从音素维度提取的与个体特征无关的第一特征向量作为模型输入的基础上，还直接将从非音素维度提取的与个体特征有关的第二特征向量作为模型输入，使得表情预测子模型不仅能够学习到与个体特征无关的表情参数，还能够学习到与个体特征有关的表情参数，因此，在模型应用阶段，表情预测子模型输出的面部表情预测数据既能够表征基于第三特征向量(即从音素维度提取的特征向量)预测的不同目标说话人的表情共性数据，也能够表征基于第四特征向量(即从非音素维度提取的特征向量)预测的不同目标说话人的表情差异性数据，因此，由于无需预先针对目标说话人训练得到一个对应的参数矩阵T，使得无需获取目标说话人的大量视频数据，同样能够确保面部表情预测数据反映出个体之间的表情差异性，这样在仅能够获取目标说话人的单张图像的情况下，仍能够准确地对目标说话人的面部表情进行预测，降低了对目标说话人的视频数据的数量要求的限制，提高了训练后的人脸驱动模型的适用范围。

图1为本申请一个或多个实施例提供的人脸驱动模型的训练方法的第一种流程示意图，图1中的方法能够由设置有人脸驱动模型训练装置的电子设备执行，该电子设备可以是终端设备或者指定服务器，其中，用于人脸驱动模型训练的硬件装置(即设置有人脸驱动模型训练装置的电子设备)与用于虚拟数字人视频生成的硬件装置(即设置有虚拟数字人视频生成装置的电子设备)可以相同或不同。基于本申请实施例提供的模型训练方法训练得到的人脸驱动模型可以应用到任一需要生成虚拟数字人视频的具体应用场景，例如，用于生成虚拟客服的问题解答视频的应用场景，又如，用于生成虚拟歌手的歌曲演唱视频的应用场景，再如，用于生成虚拟主播的产品介绍视频的应用场景。

具体的，针对人脸驱动模型的训练过程，如图1所示，该方法至少包括以下步骤：

S102，获取N个视频样本数据；其中，每个视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数。

针对预设应用场景，将该预设应用场景下M个样本用户的历史语音数据作为视频样本数据，M为大于1且小于或等于N的整数；例如，若预设应用场景为用于生成虚拟客服的问题解答视频的应用场景，则将M个样本客服人员的问题解答视频作为视频样本数据；又如，若预设应用场景为用于生成虚拟歌手的歌曲演唱视频的应用场景，则将M个样本虚拟歌手的歌曲演唱视频作为视频样本数据；再如，若预设应用场景为用于生成虚拟主播的产品介绍视频的应用场景，则将M个样本主播的产品介绍视频作为视频样本数据。

S104，将上述N个视频样本数据输入至待训练模型进行模型迭代训练，得到人脸驱动模型。

在获取到视频样本数据集合后，基于该视频样本数据集合对待训练模型中预设模型参数进行迭代更新，直到当前模型训练结果满足预设模型训练结束条件，得到用于生成虚拟数字人视频的人脸驱动模型；其中，上述预设模型训练结束条件可以包括：当前模型训练轮数等于总训练轮数、模型损失函数收敛中任一项。

针对上述步骤S104中的模型迭代训练过程，下述对模型迭代训练的具体实现过程进行说明，由于模型迭代训练过程中每次模型训练的处理过程相同，因此，以任意一次模型训练为例进行细化说明。具体的，若上述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；如图2所示，每次模型训练的具体实现方式均可以有如下步骤S1041至步骤S1043：

S1041，针对每个视频样本数据：第一向量提取子模型对该视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；第二向量提取子模型对该样本语音数据进行非音素特征识别，得到第二特征向量；面部表情预测子模型基于上述第一特征向量和第二特征向量进行面部表情预测，得到第一面部表情预测数据。

上述第一向量提取子模型可以是预先训练好的语音识别模型，例如，该语音识别模型可以是预训练模型“基于深度学习的循环神经网络DeepSpeech RNN”，也可以是学习音频到文本的映射的其他神经网络模型；在获取到视频样本数据后，将视频样本数据中的样本语音数据输入至第一向量提取子模型，基于样本语音数据从音素维度提取每一帧语音信号中文本内容特征(即语音转文本处理)，得到第一特征向量，例如，ASR特征向量(语音识别ASR，Automatic Speech Recognition)作为面部表情预测子模型的第一输入数据。

上述第二向量提取子模型可以是预先训练好的说话人表示识别模型，例如，该说话人表示识别模型可以是基于声纹识别算法voxceleb的模型，也可以是学习说话人辨别和确认的其他神经网络模型；在获取到视频样本数据后，不仅将视频样本数据中的样本语音数据输入至第一向量提取子模型，还将该样本语音数据输入至第二向量提取子模型，以便利用第二向量提取子模型，基于样本语音数据从非音素维度提取每一帧语音信号中说话人表示特征，得到第二特征向量(即用于反映个体面部表情差异性的说话人表示向量)，例如，能够表征说话人特性的表示向量作为面部表情预测子模型的第二输入数据。

具体的，由于说话人的语速和情绪等说话方式均能够影响到说话人的面部表情的个性化差异，例如，不同说话人的语速快慢会影响到说话人嘴巴的张合频率等面部表情，不同说话人的情绪差异性会影响到说话人嘴角上扬程度等面部表情，又由于声纹特征能够表征说话人的语速等说话方式，因此，对于第二特征向量的提取过程，上述非音素特征识别可以包括声纹特征识别、情绪特征识别中至少一项。

上述面部表情预测子模型是待训练的用于预测人脸面部表情的神经网络模型；在通过第一向量提取子模型得到第一特征向量，以及通过第二向量提取子模型得到第二特征向量之后，将第一特征向量和第二特征向量输入至面部表情预测子模型，该面部表情预测子模型的输出即为第一面部表情预测数据；其中，面部表情预测子模型中的模型参数为需要迭代训练的模型参数。

S1042，基于上述各视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；上述真实面部表情数据是基于上述视频样本数据中的真实人脸图像得到的。

在利用面部表情预测子模型得到第一面部表情预测数据之后，获取视频样本数据对应的真实面部表情数据，将该真实面部表情数据作为真实标签，将该第一面部表情预测数据作为预测标签，计算第一面部表情预测数据和真实面部表情数据之间的表情预测子损失值，即基于真实标签和预测标签得到模型的表情预测损失，再基于各视频样本数据对应的表情预测子损失值，得到第一损失值；对于某一视频样本数据而言，从视频样本数据中的真实人脸图像中提取真实面部表情数据作为真实标签，以及从视频样本数据中的样本语音数据中，提取第一特征向量和第二特征向量，再基于第一特征向量和第二特征向量进行面部表情预测，得到第一面部表情预测数据作为预测标签，进而计算真实标签与预测标签之间的表情预测损失信息。

上述真实面部表情数据可以预先利用脸部特征提取器基于视频样本数据中的真实人脸图像进行人脸特征数据提取得到，也可以实时利用脸部特征提取器，基于视频样本数据中的真实人脸图像进行人脸特征数据提取得到；例如，脸部特征提取器可以是已有的三维面部追踪(3-dimension face tracking，3D face tracking)，也可以是其他脸部特征提取器；利用脸部特征提取器对真实人脸图像进行人脸特征数据提取，得到用户的真实面部表情数据、形状特征向量和纹理特征向量；其中，形状特征向量和纹理特征向量可以作为基于面部表情预测数据进行脸部图像渲染的基础数据。

S1043，基于上述第一损失值，对上述待训练模型进行参数更新；其中，由于待训练模型中第一向量提取子模型和第二向量提取子模型的模型参数是预先训练的，并且第一损失值主要用来表征真实面部表情数据与面部表情预测数据之间的表情预测损失信息，因此第一损失值主要用来对面部表情预测子模型的模型参数进行迭代更新。

在基于第一面部表情预测数据和真实面部表情数据得到第一损失值之后，利用梯度下降方法基于上述第一损失值对面部表情预测子模型进行参数调整；其中，由于第一面部表情预测数据是基于上述第一特征向量和第二特征向量这两部分确定的，因此，第一损失值不仅能够反映从音素特征维度考量的表情预测损失分量，还能够反映从非音素特征维度考量的表情预测损失分量，因此，能够提高第一损失值的准确度，从而提高模型参数调整的准确度，使得训练后的面部表情预测子模型的面部表情预测准确度更高。

基于待训练模型的第一损失值对模型参数进行迭代训练，得到训练后的人脸驱动模型可以参见相关技术中的利用梯度下降方法反向传播对模型参数进行调优的过程，在此不再赘述。

本申请实施例中，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

如图3所示，给出了一种人脸驱动模型训练过程的具体实现原理示意图，具体包括：获取多个样本用户的视频样本数据；每个视频样本数据包括真实人脸图像和样本语音数据；将视频样本数据中的样本语音数据输入至第一向量提取子模型进行文本内容识别，得到第一特征向量；以及，将样本语音数据输入至第二向量提取子模型进行非音素特征识别，得到第二特征向量；将上述第一特征向量和上述第二特征向量输入至待训练的面部表情预测子模型进行面部表情预测，得到第一面部表情预测数据；将视频样本数据中的真实人脸图像输入至脸部特征提取器进行特征提取，得到样本用户的真实面部表情数据；其中，上述脸部特征提取器还可以用于提取样本用户的形状特征向量和纹理特征向量，脸部特征数据提取过程可以是在模型训练之前完成的，也可以是与模型训练的过程同步进行的；基于各视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；基于上述第一损失值，对待训练模型中面部表情预测子模型的模型参数进行迭代更新，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的人脸驱动模型；其中，训练后的人脸驱动模型包括上述第一向量提取子模型、第二向量提取子模型和面部表情预测子模型。

上述脸部特征提取器可以是独立于训练后的人脸驱动模型的，例如，对于脸部特征数据提取过程在模型训练之前完成的情况，脸部特征提取器与人脸驱动模型是相对独立的；上述脸部特征提取器还可以是属于训练后的人脸驱动图像，例如，针对脸部特征数据提取过程与模型训练的过程同步进行的情况，训练后的人脸驱动模型包括脸部特征提取器。

考虑到可能存在利用面部表情预测子模型得到的面部表情预测数据中口型与语音不同步的问题，即口型与音频不对应，存在延迟反应，因此，在对面部表情预测子模型进行模型参数调整的过程中，不仅考虑了基于真实表情标签和预测表情标签得到的面部表情损失，还考虑了预测表情图像帧中的口型与语音帧对应的文字之间的同步损失，最终用于模型参数优化的损失值不仅包括面部表情预测数据与真实面部表情数据之间的第一损失值，还包括口型信息与语音帧对应的文字之间的第二损失值，基于此，如图4所示，在上述图2的基础上，上述待训练模型还包括面部表情渲染器和口型语音同步识别子模型；每次模型训练的具体实现方式还可以包括如下步骤S1044至步骤S1045：

S1044，针对每个视频样本数据：面部表情渲染器基于上述第一面部表情预测数据进行脸部图像渲染，得到人脸预测图像；口型语音同步识别子模型基于上述人脸预测图像和样本语音数据，确定视频样本数据对应的同步子损失值。

上述面部表情渲染器可以是相关技术中的三维人脸渲染器，例如，三维人脸渲染器可以是可微分渲染器tf-mesh-render，还可以是其他面部表情渲染器；在获取到第一面部表情预测数据，以及获取到形状特征向量和纹理特征向量之后，将第一面部表情预测数据、形状特征向量和纹理特征向量输入到面部表情渲染器，进行脸部图像渲染即可得到人脸预测图像，以便将人脸预测图像作为口型语音同步识别子模型的输入数据进行口型与语音的同步性识别。

上述口型语音同步识别子模型可以是预先训练的用于识别面部口型与语音帧对应的文字是否同步的神经网络模型，例如，SycNet模型或者其他神经网络模型；在获取到人脸预测图像(包含预测的面部口型)后，将人脸预测图像和样本语音数据输入至口型语音同步识别子模型，以对人脸预测图像帧中面部口型与样本语音帧对应的文字之间的同步性进行打分，得到同步子损失值。

其中，上述S1044与上述S1042之间的先后顺序可以互换，本申请对此不做限制。

S1045，基于上述各视频样本数据对应的同步子损失值，确定第二损失值；上述第二损失值用于表征样本用户的口型与语音的延迟程度。

在获取到各视频样本数据对应的同步子损失值之后，对多个同步子损失值进行求和或者加权求和，即可得到第二损失值。

上述S1043，基于上述第一损失值，对上述待训练模型进行参数更新，具体包括：

S10431，基于上述第一损失值和第二损失值，对上述待训练模型进行参数更新。

基于上述第一损失值和所述第二损失值，确定加权损失值；基于该加权损失值，对上述待训练模型中面部表情预测子模型的模型参数进行迭代更新，得到训练后的人脸驱动模型；其中，训练后的人脸驱动模型可以包括口型语音同步识别子模型(用于对基于第二面部表情预测数据渲染得到的人脸渲染图像中的面部口型与目标语音数据中语音帧对应的文字的同步性进行识别，从而能够基于同步性识别结果，对面部表情预测子模型的精度进行评估)，训练后的人脸驱动模型也可以不包括口型语音同步识别子模型。

由于口型语音同步识别子模型主要是用于对面部表情预测数据中口型与样本语音数据的同步性进行识别，从而得到表征面部口型与语音帧延迟程度的第二损失值，进而使得同时基于表征真实表情和预测表情之间的面部表情损失，以及表征面部口型与语音帧之间的同步损失，对面部表情预测子模型的模型参数进行调优，在模型训练过程中，对面部表情预测子模型所输出的预测表情中的口型信息与对应的真实语音帧之间的同步性进行监督，使得面部表情预测子模型输出的面部表情预测数据既能够确保面部表情的真实性，又能够确保面部口型与语音帧的同步性，因此，口型语音同步识别子模型可以仅在模型训练阶段使用，而在模型应用阶段，可以不需要口型语音同步识别子模型，即待训练模型可以包括上述第一向量提取子模型、第二向量提取子模型、面部表情预测子模型、面部表情渲染器和口型语音同步识别子模型，而训练后的人脸驱动模型可以包括上述第一向量提取子模型、第二向量提取子模型、面部表情预测子模型和面部表情渲染器。

在上述图3的基础上，如图5所示，给出了另一种人脸驱动模型训练过程的具体实现原理示意图，具体包括：获取多个样本用户的视频样本数据；每个视频样本数据包括真实人脸图像和样本语音数据；将视频样本数据中的样本语音数据输入至第一向量提取子模型进行文本内容识别，得到第一特征向量；以及，将样本语音数据输入至第二向量提取子模型进行非音素特征识别，得到第二特征向量；将上述第一特征向量和上述第二特征向量输入至待训练的面部表情预测子模型进行面部表情预测，得到第一面部表情预测数据；将视频样本数据中的真实人脸图像输入至脸部特征提取器进行特征提取，得到样本用户的真实面部表情数据、形状特征向量和纹理特征向量；其中，脸部特征数据提取过程可以是在模型训练之前完成的，也可以是与模型训练的过程同步进行的；将第一面部表情预测数据、形状特征向量和纹理特征向量输入至面部表情渲染器进行脸部图像渲染，得到人脸预测图像；然后，将各视频样本数据对应的人脸预测图像和样本语音数据输入至口型语音同步识别子模型进行口型语音同步性识别，得到视频样本数据对应的同步子损失值；基于各视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；以及，基于各视频样本数据对应的同步子损失值，确定第二损失值；基于上述第一损失值和第二损失值，对待训练模型中面部表情预测子模型的模型参数进行迭代更新，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的人脸驱动模型；其中，训练后的人脸驱动模型包括上述第一向量提取子模型、第二向量提取子模型、面部表情预测子模型和面部表情渲染器。

对于上述同步子损失值的确定过程，上述口型语音同步识别子模型可以包括多层神经网络和损失信息输出网络。

(1)上述多层神经网络将上述人脸预测图像和样本语音数据映射到高维空间，进行口型与语音同步对比，得到语音口型同步得分。

将人脸预测图像帧和对应的样本语音帧一并输入到多层神经网络；多层神经网络基于人脸预测图像帧进行口型特征提取，得到图像帧高维特征向量；以及多层神经网络基于样本语音帧进行语音特征提取，得到语音帧高维特征向量；将图像帧高维特征向量与语音帧高维特征向量进行相关性计算，基于相关性计算结果得到语音口型同步得分。

(2)上述损失信息输出网络基于上述语音口型同步得分，确定上述视频样本数据对应的同步子损失值。

在针对每一对人脸预测图像帧和样本语音帧，确定相应的语音口型同步得分之后，基于各人脸预测图像帧对应的语音口型同步得分，确定视频样本数据对应的同步子损失值。针对上述第一面部表情预测数据的生成过程，上述面部表情预测子模型可以包括向量拼接网络和面部表情识别网络。

(1)上述向量拼接网络对上述第一特征向量和第二特征向量进行拼接处理，得到目标特征向量。

在获取到各视频样本数据对应的第一特征向量和第二特征向量之后，将第一特征向量和第二特征向量输入至上一轮参数更新后的向量拼接网络，对第一特征向量和第二特征向量进行加权求和处理，向量拼接网络的输出即为目标特征向量。

(2)上述面部表情识别网络基于上述目标特征向量进行面部表情识别，得到第一面部表情预测数据。

在获取到各视频样本数据对应的目标特征向量之后，将目标特征向量输入至上一轮参数更新后的面部表情识别网络，进行面部表情预测，面部表情识别网络的输出即为视频样本数据对应的第一面部表情预测数据。

考虑到在人脸驱动模型的训练过程中，主要是对面部表情预测子模型的模型参数进行迭代更新，而上述第一向量提取子模型、第二向量提取子模型和口型语音同步识别子模型均为预先基于相应的样本集数据训练好的预设神经网络模型；以及上述面部表情渲染器也应是预先构建好的三维人脸渲染器；利用预先训练好的第一向量提取子模型、第二向量提取子模型、口型语音同步识别子模型和面部表情渲染器，输出人脸驱动模型训练过程所需的基础数据，以便基于该基础数据得到面部表情预测子模型的总损失值，进而基于该总损失值对面部表情预测子模型的模型参数进行迭代更新。

其中，上述第一向量提取子模型的训练过程可以参照相关技术中的端到端的语音识别模型的具体训练过程；以及上述面部表情渲染器的构建过程可以参见相关技术中的可微分渲染器的构建过程，在此不再赘述。

针对上述第二向量提取子模型的训练过程，在上述S102，获取N个视频样本数据之前，还包括：

步骤A1，获取第一样本数据集；其中，第一样本数据集可以包括用于通过非音素特征识别进行说话人分类训练的说话人语音数据集。

上述第一样本数据集可以包括用于通过声纹特征识别进行说话人分类训练的说话人语音数据集，和/或用于通过情绪特征识别进行说话人分类训练的说话人语音数据集。

步骤A2，基于上述第一样本数据集对第一预设神经网络模型进行参数迭代更新，得到上述训练后的第二向量提取子模型。

上述第一预设神经网络模型可以是待训练的说话人表示识别模型，先将第一样本数据集输入至待训练的说话人表示识别模型进行说话人分类，得到说话人分类预测结果，再基于说话人分类预测结果和说话人真实分类信息确定说话人分类损失值，再基于该说话人分类损失值对第一预设神经网络模型的模型参数进行迭代更新，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的第一预设神经网络模型；将训练后的第一预设神经网络模型作为训练后的第二向量提取子模型；其中，训练后的第二向量提取子模型用于对样本语音数据进行非音素特征识别，得到第二特征向量。

针对上述口型语音同步识别子模型的训练过程，在上述S102，获取N个视频样本数据之前，还包括：

步骤B1，获取第二样本数据集；其中，第二样本数据集可以包括用于对口型与语音是否同步进行分类训练的样本数据集，每个样本数据包括一对图像帧和语音帧。

步骤B2，基于上述第二样本数据集对第二预设神经网络模型进行参数迭代更新，得到上述训练后的口型语音同步识别子模型。

上述第二预设神经网络模型可以是待训练的用于识别面部口型与语音帧是否同步的神经网络模型，先将第二样本数据集输入至待训练的第二预设神经网络模型进行二分类，得到口型语音同步分类预测结果，再基于口型语音同步分类预测结果和口型语音同步与否的真实分类信息确定口型语音同步分类损失值，再基于该口型语音同步分类损失值对第二预设神经网络模型的模型参数进行迭代更新，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的第二预设神经网络模型；将训练后的第二预设神经网络模型作为训练后的口型语音同步识别子模型；其中，训练后的口型语音同步识别子模型用于基于人脸预测图像和样本语音数据，确定视频样本数据对应的同步子损失值。

考虑到在利用人脸驱动模型生成虚拟数字人视频的过程中，为了提高虚拟数字人的播放效果，提升用户观看体验，还可以在虚拟数字人视频中增加更加真实的背景画面，即需要将利用面部表情渲染器进行渲染得到的人脸预测图像与指定背景画面进行融合，因此，上述训练后的人脸驱动模型还可以包括背景合成渲染器，即训练后的人脸驱动模型包括上述第一向量提取子模型、第二向量提取子模型、面部表情预测子模型、面部表情渲染器和背景合成渲染器；其中，背景合成渲染器可以包括神经渲染器Neural Render或者其他三维渲染器；背景合成渲染器可以是在人脸驱动模型的训练之前，基于第三样本数据集(即包含目标背景画面的样本视频数据集)预先构建的，也可以是在人脸驱动模型的训练过程中，基于上述人脸预测图像和目标背景画面实时构建的。

在上述图5的基础上，如图6所示，给出了又一种人脸驱动模型训练过程的具体实现原理示意图，具体包括：

在获取多个样本用户的视频样本数据之前，预先基于样本数据集1得到训练后的第一向量提取子模型；以及预先基于样本数据集2得到训练后的第二向量提取子模型；以及预先基于样本数据集3得到训练后的口型语音同步识别子模型；以及预先基于样本数据集4构建得到面部表情渲染器；然后，基于训练后的第一向量提取子模型、第二向量提取子模型、口型语音同步识别子模型、面部表情渲染器和待训练的面部表情预测子模型，生成待训练模型；然后，基于获取到的多个样本用户的视频样本数据，对待训练的面部表情预测子模型的模型参数进行迭代更新，得到参数迭代更新后的面部表情预测子模型；以及基于目标背景画面视频和面部表情渲染器输出的人脸预测图像，对初始的背景合成渲染器的参数进行迭代优化，得到参数优化后的背景合成渲染器；基于预先训练后的第一向量提取子模型、第二向量提取子模型、面部表情渲染器、参数迭代更新后的面部表情预测子模型和参数优化后的背景合成渲染器，生成训练后的人脸驱动模型。

本申请实施例中的人脸驱动模型的训练方法，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

对应上述图1至图6描述的视频生成方法，基于相同的技术构思，本申请实施例还提供了一种视频生成方法，图7为本申请实施例提供的视频生成方法的流程示意图，图7中的方法能够由设置有视频生成装置的电子设备执行，该电子设备可以是终端设备或者指定服务器，该电子设备中部署有预先训练后的人脸驱动模型；其中，训练后的人脸驱动模型包括训练后的第一向量提取子模型、第二向量提取子模型、面部表情渲染器、面部表情预测子模型、背景合成渲染器中至少一项。基于本申请实施例提供的模型训练方法训练得到的人脸驱动模型可以应用到任一需要生成虚拟数字人视频的具体应用场景，例如，用于生成虚拟客服的问题解答视频的应用场景，又如，用于生成虚拟歌手的歌曲演唱视频的应用场景，再如，用于生成虚拟主播的产品介绍视频的应用场景。

针对利用训练后的人脸驱动模型生成虚拟数字人视频的具体实现过程，如图7所示，上述视频生成方法至少包括以下步骤：

S702，获取目标语音数据；其中，目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据。

上述目标语音数据可以是直接获取的语音数据(即目标用户的原声语音数据)，还可以是基于预设文本内容转换得到的语音数据(即目标用户的合成语音数据)；其中，针对无法直接获取目标用户的原声语音数据的情况，先获取目标文本数据；再利用预设文本转语音模型，对目标文本数据进行文本语音转换处理，得到目标用户的合成语音数据；其中，预设文本转语音模型可以是预先基于样本数据集训练得到的；例如，可以是基于文本转语音(Text-to-Speech，TTS)技术的文本转语音模型，利用该文本转语音模型得到合成语音数据中包含目标用户的非音素特征，其中，基于目标文本数据转换得到的合成语音数据能够反映目标用户的声纹特征(即利用TTS技术自动生成包含目标用户的声纹特征的语音帧的一段语音数据)，因此，无论是基于原声语音数据，还是基于合成语音数据均能够准确地提取出与个体特征有关的第四特征向量，这样可以不要求必须采集目标用户的原声语音，而是仅基于目标文本数据即可触发生成任一目标用户的虚拟数字人视频，提高了虚拟数字人视频的生成灵活性。

S702，将上述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，训练后的人脸驱动模型可以是基于上述人脸驱动模型的训练方法训练得到的。

上述训练后的人脸驱动模型可以包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；其中，上述人脸驱动处理的具体实现方式有：第一向量提取子模型对上述目标语音数据进行文本内容识别，得到第三特征向量；第二向量提取子模型对上述目标语音数据进行非音素特征识别，得到第四特征向量；面部表情预测子模型基于上述第三特征向量和第四特征向量进行表情预测，得到第二面部表情预测数据；基于上述第二面部表情预测数据进行图像渲染，得到目标虚拟数字人视频。

本申请实施例中，在目标虚拟数字人视频的生成过程，将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频；因此，面部表情预测子模型在进行面部表情预测时，不仅考虑了与个体特征无关的第三特征向量，还考虑了与个体特征有关的第三特征向量，这样能够提高第二面部表情预测数据的预测准确度；并且，如果在面部表情预测子模型的训练过程中考虑口型语音同步损失的话，面部表情预测子模型在进行面部表情预测时，还能够确保第二面部表情预测数据中面部口型与语音帧的同步性。

上述人脸驱动模型还包括面部表情渲染器和背景合成渲染器；具体的，上述基于第二面部表情预测数据进行图像渲染，得到目标虚拟数字人视频，具体包括：面部表情渲染器基于上述第二面部表情预测数据进行脸部图像渲染，得到人脸渲染图像；背景合成渲染器基于上述人脸渲染图像进行背景合成，得到目标虚拟数字人视频。

由于人脸驱动模型中面部表情预测子模型、面部表情渲染器和背景合成渲染器之间均是相互独立的，因此，最终生成的目标虚拟数字人视频中的语音数据和图像数据可以是同一个用户的，也可以是不同用户的，即上述目标虚拟数字人视频可以包括目标用户的语音数据和虚拟数字人图像，或者，上述目标虚拟数字人视频可以包括目标用户的语音数据和其他用户的虚拟数字人图像；并且目标虚拟数字人视频中的背景图像也可以是根据实际需求进行灵活设置的。

针对预设应用场景，获取该预设应用场景下的目标语音数据；将目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；例如，若预设应用场景为用于生成虚拟客服的问题解答视频的应用场景，则获取基于目标问题解答文本转换得到的目标问题解答语音，将该目标问题解答语音作为目标语音数据；又如，若预设应用场景为用于生成虚拟歌手的歌曲演唱视频的应用场景，则获取基于目标歌曲歌词文本转换得到的目标歌曲演唱语音，将该目标歌曲演唱语音作为目标语音数据；再如，若预设应用场景为用于生成虚拟主播的产品介绍视频的应用场景，则获取基于目标产品介绍文本转换得到的目标产品介绍语音，将该目标产品介绍语音作为目标语音数据。

以上述训练后的人脸驱动模型包括预设文本转语音模型、脸部特征提取器、第一向量提取子模型、第二向量提取子模型、面部表情预测子模型、面部表情渲染器和背景合成渲染器为例；如图8所示，给出了一种虚拟数字人视频生成过程的具体实现原理示意图，具体包括：获取预设应用场景下的目标文本数据；利用预设的TTS技术对目标文本数据进行文本语音转换处理，得到第一目标用户的合成语音数据；将第一目标用户的合成语音数据输入至第一向量提取子模型进行文本内容识别，得到第三特征向量；以及，将第一目标用户的合成语音数据输入至第二向量提取子模型进行非音素特征识别，得到第四特征向量；将上述第三特征向量和上述第四特征向量输入至面部表情预测子模型进行面部表情预测，得到第二面部表情预测数据；将第二目标用户的真实人脸图像输入至脸部特征提取器进行特征提取，得到第二目标用户的形状特征向量和纹理特征向量；其中，第二目标用户可以与第一目标用户相同或不同，脸部特征数据提取过程可以是在虚拟数字人视频生成之前完成的，也可以是与虚拟数字人视频的生成过程同步进行的；将第二面部表情预测数据、形状特征向量和纹理特征向量输入至面部表情渲染器进行脸部图像渲染，得到目标人脸渲染图像；将目标人脸渲染图像输入至背景合成渲染器进行背景合成，得到目标虚拟数字人视频。

本申请实施例中的视频生成方法，在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频；其中，由于在人脸驱动模型的训练过程中，主要是将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，因此，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

需要说明的是，本申请中该实施例与本申请中上一实施例基于同一发明构思，因此该实施例的具体实施可以参见前述人脸驱动模型的训练方法的实施，重复之处不再赘述。

对应上述图1至图6描述的人脸驱动模型的训练方法，基于相同的技术构思，本申请实施例还提供了一种人脸驱动模型的训练装置，图9为本申请实施例提供的人脸驱动模型的训练装置的模块组成示意图，该装置用于执行图1至图6描述的人脸驱动模型的训练方法，如图9所示，该装置包括：样本数据获取模块902，用于获取N个视频样本数据；每个所述视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数；模型训练模块904，用于将所述N个视频样本数据输入至待训练模型进行模型迭代训练，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的人脸驱动模型；其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；每次模型训练的具体实现方式有：针对每个所述视频样本数据：所述第一向量提取子模型对所述视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于各所述视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述视频样本数据中的真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。

本申请实施例中的人脸驱动模型的训练装置，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

需要说明的是，本申请中关于人脸驱动模型的训练装置的实施例与本申请中关于人脸驱动模型的训练方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的人脸驱动模型的训练方法的实施，重复之处不再赘述。

对应上述图7至图8描述的视频生成方法，基于相同的技术构思，本申请实施例还提供了一种视频生成装置，图10为本申请实施例提供的视频生成装置的模块组成示意图，该装置用于执行图7至图8描述的视频生成方法，如图10所示，该装置包括：目标数据获取模块1002，用于获取目标语音数据；所述目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据；视频生成模块1004，用于将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的具体实现方式有：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。

本申请实施例中的视频生成装置，在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频；其中，由于在人脸驱动模型的训练过程中，主要是将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，因此，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

进一步地，对应上述图1至图8所示的方法，基于相同的技术构思，本申请实施例还提供了一种计算机设备，该设备用于执行上述的人脸驱动模型的训练方法或者视频生成方法，如图11所示。

计算机设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1101和存储器1102，存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对计算机设备中的一系列计算机可执行指令。更进一步地，处理器1101可以设置为与存储器1102通信，在计算机设备上执行存储器1102中的一系列计算机可执行指令。计算机设备还可以包括一个或一个以上电源1103，一个或一个以上有线或无线网络接口1104，一个或一个以上输入输出接口1105，一个或一个以上键盘1106等。

在一个具体的实施例中，计算机设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对计算机设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：获取N个视频样本数据；每个所述视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数；将所述N个视频样本数据输入至待训练模型进行模型迭代训练，得到人脸驱动模型；其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；每次模型训练的具体实现方式有：针对每个所述视频样本数据：所述第一向量提取子模型对所述视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于各所述视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述视频样本数据中的真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。

在另一个具体的实施例中，计算机设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对计算机设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：获取目标语音数据；所述目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据；将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的具体实现方式有：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。

本申请实施例中的计算机设备，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

需要说明的是，本申请中关于计算机设备的实施例与本申请中关于人脸驱动模型的训练方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的人脸驱动模型的训练方法的实施，重复之处不再赘述。

进一步地，对应上述图1至图8所示的方法，基于相同的技术构思，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：获取N个视频样本数据；每个所述视频样本数据包括样本用户的真实人脸图像和样本语音数据，N为大于1的整数；将所述N个视频样本数据输入至待训练模型进行模型迭代训练，得到人脸驱动模型；其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；每次模型训练的具体实现方式有：针对每个所述视频样本数据：所述第一向量提取子模型对所述视频样本数据中样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于各所述视频样本数据对应的第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述视频样本数据中的真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。

另一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：获取目标语音数据；所述目标语音数据包括目标用户的原声语音数据或者目标用户的合成语音数据；将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的具体实现方式有：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。

本申请实施例中的存储介质存储的计算机可执行指令在被处理器执行时，在人脸驱动模型的训练过程中，将通过对样本语音数据进行文本内容识别得到的第一特征向量和进行非音素特征识别得到的第二特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据和真实面部表情数据对待训练模型进行参数更新；即不仅从音素维度提取得到与个体特征无关的第一特征向量，还从非音素维度提取得到与个体特征有关的第二特征向量，同时基于第一特征向量和第二特征向量对面部表情预测子模型进行参数更新，使得面部表情预测子模型能够同时学习到与个体特征无关的表情参数和与个体特征有关的表情参数，这样能够提高面部表情预测子模型的模型参数的精度，从而提高面部表情预测子模型的表情预测准确度，进而在人脸驱动模型(即包含训练后的面部表情预测子模型)的应用阶段，同样将通过对目标语音数据进行文本内容识别得到的第三特征向量和进行非音素特征识别得到的第四特征向量，作为面部表情预测子模型的输入数据进行面部表情预测，得到面部表情预测数据；再基于面部表情预测数据进行图像渲染得到虚拟数字人视频，这样能够提高利用训练后的人脸驱动模型生成的虚拟数字人视频的表情真实性。

需要说明的是，本申请中关于存储介质的实施例与本申请中关于人脸驱动模型的训练方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的人脸驱动模型的训练方法的实施，重复之处不再赘述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

一种人脸驱动模型的训练方法，所述方法包括：

获取多个视频样本数据；所述视频样本数据包括样本用户的真实人脸图像和样本语音数据；

将所述视频样本数据输入至待训练模型进行模型迭代训练，得到人脸驱动模型；

其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述模型迭代训练中的每次模型训练包括：

所述第一向量提取子模型对所述样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；

基于所述第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述真实人脸图像得到的；

基于所述第一损失值，对所述待训练模型进行参数更新。
根据权利要求1所述的方法，其中，所述待训练模型还包括面部表情渲染器和口型语音同步识别子模型；所述模型迭代训练中的每次模型训练还包括：

所述面部表情渲染器基于所述第一面部表情预测数据进行脸部图像渲染，得到人脸预测图像；所述口型语音同步识别子模型基于所述人脸预测图像和所述样本语音数据，确定同步子损失值；

基于所述同步子损失值，确定第二损失值；所述第二损失值用于表征样本用户的口型与语音的延迟程度；

所述基于所述第一损失值，对所述待训练模型进行参数更新，包括：基于所述第一损失值和所述第二损失值，对所述待训练模型进行参数更新。
根据权利要求2所述的方法，其中，所述口型语音同步识别子模型包括多层神经网络和损失信息输出网络；

所述多层神经网络将所述人脸预测图像和所述样本语音数据映射到高维空间，进行口型与语音同步对比，得到语音口型同步得分；

所述损失信息输出网络基于所述语音口型同步得分，确定所述同步子损失值。
根据权利要求1所述的方法，其中，所述面部表情预测子模型包括向量拼接网络和面部表情识别网络；

所述向量拼接网络对所述第一特征向量和所述第二特征向量进行拼接处理，得到目标特征向量；

所述面部表情识别网络基于所述目标特征向量进行面部表情识别，得到第一面部表情预测数据。
根据权利要求1所述的方法，其中，在获取N个视频样本数据之前，还包括：

获取第一样本数据集；所述第一样本数据集包括用于通过非音素特征识别进行说话人分类训练的说话人语音数据集；

基于所述第一样本数据集对第一预设神经网络模型进行参数迭代更新，得到训练后的所述第二向量提取子模型。
根据权利要求2所述的方法，其中，在获取N个视频样本数据之前，还包括：

获取第二样本数据集；所述第二样本数据集包括用于对口型与语音是否同步进行分类训练的样本数据集，每个样本数据包括一对图像帧和语音帧；

基于所述第二样本数据集对第二预设神经网络模型进行参数迭代更新，得到训练后的所述口型语音同步识别子模型。
根据权利要求1至6任一项所述的方法，其中，所述非音素特征识别包括声纹特征识别、情绪特征识别中至少一项。
一种视频生成方法，所述方法包括：

获取目标语音数据；

将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；

其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的过程包括：

所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。
根据权利要求8所述的方法，其中，所述人脸驱动模型还包括面部表情渲染器和背景合成渲染器；所述基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频，包括：

所述面部表情渲染器基于所述第二面部表情预测数据进行脸部图像渲染，得到人脸渲染图像；所述背景合成渲染器基于所述人脸渲染图像进行背景合成，得到所述目标虚拟数字人视频。
一种人脸驱动模型的训练装置，所述装置包括：

样本数据获取模块，用于获取多个视频样本数据；所述视频样本数据包括样本用户的真实人脸图像和样本语音数据；

模型训练模块，用于将所述视频样本数据输入至待训练模型进行模型迭代训练，直到当前模型训练结果满足预设模型训练结束条件，得到训练后的人脸驱动模型；

其中，所述待训练模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述模型迭代训练中的每次模型训练包括：所述第一向量提取子模型对所述样本语音数据进行文本内容识别，得到第一特征向量；所述第二向量提取子模型对所述样本语音数据进行非音素特征识别，得到第二特征向量；所述面部表情预测子模型基于所述第一特征向量和所述第二特征向量进行面部表情预测，得到第一面部表情预测数据；基于所述第一面部表情预测数据和真实面部表情数据，确定第一损失值；所述真实面部表情数据是基于所述真实人脸图像得到的；基于所述第一损失值，对所述待训练模型进行参数更新。
一种视频生成装置，所述装置包括：

目标数据获取模块，用于获取目标语音数据；

视频生成模块，用于将所述目标语音数据输入至训练后的人脸驱动模型进行人脸驱动处理，得到目标虚拟数字人视频；

其中，所述人脸驱动模型包括第一向量提取子模型、第二向量提取子模型和面部表情预测子模型；所述人脸驱动处理的过程包括：所述第一向量提取子模型对所述目标语音数据进行文本内容识别，得到第三特征向量；所述第二向量提取子模型对所述目标语音数据进行非音素特征识别，得到第四特征向量；所述面部表情预测子模型基于所述第三特征向量和所述第四特征向量进行表情预测，得到第二面部表情预测数据；基于所述第二面部表情预测数据进行图像渲染，得到所述目标虚拟数字人视频。
一种计算机设备，所述设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如权利要求1至7任一项或者权利要求8至9任一项所述的方法中的步骤。
一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如权利要求1至7任一项或者权利要求8至9任一项所述的方法。
一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如权利要求1至7任一项或者权利要求8至9任一项所述的方法。