WO2022143197A1

WO2022143197A1 - 虚拟对象面部动画生成方法及装置、存储介质、终端

Info

Publication number: WO2022143197A1
Application number: PCT/CN2021/138747
Authority: WO
Inventors: 金师豪; 王从艺; 柴金祥
Original assignee: 魔珐(上海)信息科技有限公司; 上海墨舞科技有限公司
Priority date: 2020-12-31
Filing date: 2021-12-16
Publication date: 2022-07-07
Also published as: CN112700523B; CN112700523A

Abstract

一种虚拟对象面部动画生成方法及装置、存储介质、终端，所述方法包括：接收待处理的图像帧，所述图像帧包括演员的面部图像；基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；从所述三维面部中提取得到多个三维特征点；基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。本发明方案能够提供一种高效且高精度的虚拟对象面部动画生成方案，生成的虚拟对象面部与演员真实面部的表情相似度高。

Description

虚拟对象面部动画生成方法及装置、存储介质、终端

本申请要求2020年12月31日提交中国专利局、申请号为202011639440.3、发明名称为“虚拟对象面部动画生成方法及装置、存储介质、终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及虚拟数字对象技术领域，具体地涉及一种虚拟对象面部动画生成方法及装置、存储介质、终端。

背景技术

面部捕捉(简称面捕)动画技术主要包括离线面部动画制作和实时驱动虚拟角色的面部表情这两大部分。

在传统动画制作流程里，为了制作出高质量的面部动画，不仅需要动画师有较高的制作能力，而且非常耗时。除此之外，在传统动画制作流程里是无法实时驱动虚拟角色的面部表情的。

近些年出现的人脸表演动画技术(即前述面捕动画技术)，通过采用捕捉到的演员面部信息去加速离线动画的制作，以期减少离线面部动画制作的人力成本。同时，面捕动画技术的应用使得实时驱动虚拟角色的面部表情成为可能。

但是，现有的面捕动画技术仍然存在制作耗时、人力成本高、生成的虚拟对象面部质量低等诸多问题。

发明内容

本发明解决的技术问题是提供一种高效且高精度的虚拟对象面部动画生成方案。

为解决上述技术问题，本发明实施例提供一种虚拟对象面部动画生成方法，包括：接收待处理的图像帧，所述图像帧包括演员的面部图像；基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；从所述三维面部中提取得到多个三维特征点；基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。

所述预设三维面部模型包括预设三维人脸模型和预设三维眼神模型，所述演员的三维面部包括演员的三维人脸以及演员的三维眼神，其中，所述演员的三维人脸是基于所述预设三维人脸模型以及所述面部图像重建得到的，所述演员的三维眼神是基于所述预设三维眼神模型以及所述面部图像重建得到的。

可选的，基于所述预设三维人脸模型以及所述面部图像重建所述演员的三维人脸的过程包括如下步骤：检测所述面部图像以至少得到多个二维人脸特征点；根据所述预设三维人脸模型生成估算三维人脸；从所述估算三维人脸中提取得到多个估算三维特征点；将所述多个估算三维特征点投影至二维平面，以得到多个二维投影点；计算所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异；如果所述坐标差异小于预设阈值，则将所述估算三维人脸确定为重建得到的所述演员的三维人脸。

可选的，所述二维人脸特征点具有对应的语义信息，所述二维投影点具有对应的语义信息，所述计算所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异包括：分别计算所述多个二维人脸特征点和多个二维投影点中，对应相同语义信息的二维人脸特征点与二维投影点之间的坐标差异；将计算得到的多个坐标差异之和确定为所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异。

可选的，基于所述预设三维人脸模型以及所述面部图像重建所述演员的三维人脸的过程还包括如下步骤：如果所述坐标差异大于预设阈值，则迭代调整所述预设三维人脸模型和相机外参，直至基于调整后的预设三维人脸模型得到的多个二维投影点与所述多个二维人脸特征点之间的坐标差异小于所述预设阈值。

可选的，所述预设三维人脸模型的输出结果与输入权重相关联，所述迭代调整所述预设三维人脸模型包括：迭代调整所述输入权重，以得到所述预设三维人脸模型的不同的输出结果，不同的输出结果对应不同的表情。

可选的，所述相机外参包括所述演员的面部与拍摄所述面部图像的影像采集设备之间的相对位置与朝向。

可选的，所述预设三维人脸模型的建立过程包括如下步骤：获取所述演员的混合形状模型组，所述混合形状模型组包括多个混合形状模型并用于描述多个表情；对所述混合形状模型组进行主成分分析，以得到所述预设三维人脸模型。

可选的，所述多个表情至少包括中性表情，所述混合形状模型组至少包括一个描述所述中性表情的混合形状模型。

可选的，所述三维特征点与动画数据之间映射关系的建立过程包括如下步骤：获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。

可选的，所述多帧训练帧选取自单个视频，并且，所述多帧训练帧是所述视频包括的所有图像帧中对应的三维特征点的特征信息差异最大的图像帧。

可选的，所述待处理的图像帧选取自所述视频中除训练帧之外的图像帧。

可选的，所述训练数据根据表情相似度调节，所述表情相似度为所述演员在所述待处理的图像帧中做出的表情与基于所述待处理的图像帧生成的虚拟对象面部的表情之间的相似度。

可选的，所述多帧训练帧获取自多个视频，并且所述多个视频是所述演员按照预设脚本表演时拍摄得到的。

可选的，所述待处理的图像帧为实时拍摄得到的所述演员的面部图像。

为解决上述技术问题，本发明实施例还提供一种虚拟对象面部动画生成装置，包括：接收模块，用于接收待处理的图像帧，所述图像帧包括演员的面部图像；重建模块，用于基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；提取模块，用于从所述三维面部中提取得到多个三维特征点；确定模块，用于基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；生成模块，用于基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种虚拟对象面部动画生成方法，包括：接收待处理的图像帧，所述图像帧包括演员的面部图像；基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；从所述三维面部中提取得到多个三维特征点；基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。

较之现有的面捕技术方案，本实施方案能够提供一种高效且高精度的虚拟对象面部动画生成方案，生成的虚拟对象面部与演员真实面部的表情相似度高。具体而言，基于预设三维面部模型提高三维面部重建的质量。进一步，由于准确地重建了演员的三维面部，从而能够更为准确地预测动画数据，最终得到高质量的虚拟对象面部。并且，采用本实施方案生成虚拟对象面部的整体制作效率高。进一步，由于采用三维面部重建技术，能够放松对演员佩戴头盔的要求，不需严格恢复到上次捕捉面部数据时的头盔佩戴位置。

进一步，所述预设三维面部模型包括预设三维人脸模型和预设三维眼神模型，所述演员的三维面部包括演员的三维人脸以及演员的三维眼神，其中，所述演员的三维人脸是基于所述预设三维人脸模型以及所述面部图像重建得到的，所述演员的三维眼神是基于所述预设三维眼神模型以及所述面部图像重建得到的。

进一步，所述预设三维人脸模型的建立过程包括如下步骤：获取所述演员的混合形状模型组，所述混合形状模型组包括多个混合形状模型并用于所述多个表情；对所述混合形状模型组进行主成分分析，以得到所述预设三维人脸模型。由此，基于混合形状模型获得精度非常高的该演员的主成分分析模型作为预设三维人脸模型。由于预设三维人脸模型的质量足够高，因而可以在生成虚拟对象面部生成时重建出高精度的演员的三维面部作为动画数据的映射基础。

进一步，对于输入的面部图像，使用机器学习模型自动检测所述面部图像以得到多个二维特征点。相比于现有技术需要动画师手动从演员的面部图像中标注出二维特征点，本实施方案针对每张演员的面部图片都是自动检测出二维特征点，也即该步骤是完全自动化的，大幅提升了动画制作效率。

进一步，所述三维特征点与动画数据之间映射关系的建立过程包括如下步骤：获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。进一步，所述多帧训练帧选取自单个视频，并且，所述多帧训练帧是所述视频包括的所有图像帧中对应的三维特征点的特征信息差异最大的图像帧。进一步，所述待处理的图像帧选取自所述视频中除训练帧之外的图像帧。本实施方案适用于离线面部动画制作场景，能够大幅提高离线制作效率。以针对一段1000帧的视频制作离线面部动画为例，基于本实施方案，可以从1000帧中选取30帧左右的训练帧及其动画数据作为训练数据，并训练得到三维特征点与动画数据之间的映射关系。至于1000帧中剩余的970帧则可以直接基于前述训练得到的映射关系进行预测，以得到对应的动画数据，而无需如传统制作流程一般整整1000帧的动画都需要动画师手动精心制作得到对应的动画数据。

进一步，所述三维特征点与动画数据之间映射关系的建立过程包括如下步骤：获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。进一步，所述多帧训练帧获取自多个视频，并且所述多个视频是所述演员按照预设脚本表演时拍摄得到的。进一步，所述待处理的图像帧为实时拍摄得到的所述演员的面部图像。本实施方案适用于实时驱动应用场景，能够实时驱动各种精度的虚拟角色面部。

附图说明

图1是本发明实施例一种虚拟对象面部动画生成方法的流程图；

图2是本发明实施例一种预设三维人脸模型的建立过程流程图；

图3是图1中步骤S102的一个具体实施方式的流程图；

图4是本发明实施例一种虚拟对象面部动画生成装置的结构示意图。

具体实施方式

如背景技术所言，现有的面捕动画技术仍然存在制作耗时、人力成本高、生成的虚拟对象面部动画质量低等诸多问题。

本申请发明人经过分析发现，现有的人脸表演动画技术(即面捕技术)主要分为两大类：一种是基于二维(two-dimension，简称2D)人脸特征点，一种是基于三维(three-dimension，简称3D)人脸重建。

基于二维人脸特征点的这类技术，很多都需要动画师针对捕捉到的面捕视频手动标注二维特征点。这一步骤是非常耗时的，而且手动标注的质量好坏对最终结果影响很大。而且这类技术对演员佩戴头盔要求极高，不但要佩戴稳定，与上一次捕捉数据时佩戴的位置也要尽可能接近。

基于三维人脸重建的这类技术，需要先根据捕捉到的人脸画面重建出三维人脸，然后将三维人脸信息重定向成虚拟角色面部的动画数据。现有这类技术一般重建出的三维人脸质量不高。而且，现有这类技术是将计算得到的混合形状(blendshape)权重直接传递给虚拟角色的混合形状权重，这种做法只能针对比较简单的角色绑定起作用，且效果有限。

综上所述，现有面捕技术所通常采用两种技术手段均存在诸多缺陷，无法高效地生成高质量的虚拟对象面部。

本实施方案能够提供一种高效且高精度的虚拟对象面部动画生成方案，生成的虚拟对象面部与演员真实面部的表情相似度高。具体而言，基于预设三维面部模型提高三维面部重建的质量。进一步，由于准确地重建了演员的三维面部，从而能够更为准确地预测动画数据，最终得到高质量的虚拟对象面部。并且，采用本实施方案生成虚拟对象面部的整体制作效率高。进一步，由于采用三维面部重建技术，能够放松对演员佩戴头盔的要求，不需严格恢复到上次捕捉面部数据时的头盔佩戴位置。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种虚拟对象面部动画生成方法的流程图。

本实施方案可以应用于虚拟数字对象生成、动画制作等应用场景，如应用于虚拟对象面部的动画生成场景。采用本实施方案，能够基于面捕技术将演员的面部表情重定向到虚拟对象面部，使得虚拟对象呈现的面部表情与演员做出的表情相一致。

虚拟对象可以包括虚拟人，也可以包括虚拟动物、虚拟植物等多类型的具有面部的虚拟对象。虚拟对象可以是三维的。

所述虚拟对象面部动画数据可以包括用于生成虚拟对象动画的控制器数据，具体表现形式为数字化向量的序列。例如，采用本实施方案能够得到虚拟对象面部的动画数据，所述动画数据即为控制器的属性值，将所述动画数据转化为UE或Unity3d可以接收的数据形式，输入渲染引擎，如UE或Unity3d，即可驱动虚拟对象的面部做出相应的动作。

所述动画数据可以包括虚拟对象的面部表情，即虚拟对象的表情参数。例如，面部表情可以包括表情、眼神等信息。

具体地，参考图1，本实施例所述虚拟对象面部动画生成方法可以包括如下步骤：

步骤S101，接收待处理的图像帧，所述图像帧包括演员的面部图像；

步骤S102，基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；

步骤S103，从所述三维面部中提取得到多个三维特征点；

步骤S104，基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；

步骤S105，基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。

在一个具体实施中，预设三维面部模型是基于所述演员做出特定表情时的扫描数据建立的数学模型，能够描述这个演员的任意表情。并且，所述预设三维面部模型能够用尽量少的表情参数描述出演员的三维面部表情变化，利于提高后续重建三维面部时的处理效率。

进一步，所述预设三维面部模型可以与所述演员相关联，所述演员即为步骤S101中输入的待处理的图像帧中所拍摄的演员。也即，更换演员时需要重复执行预设三维面部模型的建立操作。由此可以提高制作精度，节省计算开销。

进一步，所述预设三维面部模型可以包括预设三维人脸模型和预设三维眼神模型，所述演员的三维面部可以包括演员的三维人脸以及演员的三维眼神，其中，所述演员的三维人脸可以是基于所述预设三维人脸模型以及所述面部图像重建得到的，所述演员的三维眼神可以是基于所述预设三维眼神模型以及所述面部图像重建得到的。

在一个具体实施中，参考图2，所述预设三维人脸模型的建立过程可以包括如下步骤：

步骤S201，获取所述演员的混合形状模型组，所述混合形状模型组包括多个混合形状模型并用于描述多个表情；

步骤S202，对所述混合形状模型组进行主成分分析，以得到所述预设三维人脸模型。

具体地，所述多个表情至少包括中性表情，所述混合形状模型组至少包括一个描述所述中性表情的混合形状模型。所述中性表情是指无表情。其他表情可以包括张嘴、撇嘴、脸颊鼓气、右闭眼等。进一步，可以扫描演员的多个表情获得多组扫描数据，基于多组扫描数据生成所述演员的混合形状模型组(即，blendshape模型组)，或者利用多线性模型(multi-linear model)和所述演员的多个表情的RGBD(三通道彩色图像和深度图像，即RGB+Depth Map的简称)数据生成混合形状模型组(即，blendshape模型组)。

在一个具体实施中，在所述步骤S202中，可以对混合形状模型组进行主成分分析(Principle Component Analysis，简称PCA)，得到所述演员的预设三维人脸模型。由此，能够以更少的数据量描述演员的面部表情变化。

具体而言，所述预设三维人脸模型可以基于公式(1)描述：

其中，α ₁,...,α _n为输入权重，n为表情的数量；M(α ₁,...,α _n)为所述预设三维人脸模型的输出结果；μ为平均表情的向量；e _i为第i个主成分向量，μ和e _i是主成分分析的结果，为固定变量，与具体表情无关，与演员相关。

输入权重为n个主成分向量的权重，即n个表情参数。结合公式(1)，输入不同的输入权重可以生成不同形状(即表情)的三维人脸。

当给定一组输入权重α ₁,...,α _n时，可根据预设三维人脸模型生成对应表情的演员的三维人脸。

同时，可以得到第i个主成分对应的标准差δ _i。

由此，基于混合形状模型组获得精度非常高的该演员的主成分分析模型作为预设三维人脸模型。由于预设三维人脸模型的质量足够高，因而在生成虚拟对象面部时可以重建出高精度的演员的三维面部作为动画数据的映射基础。

在一个具体实施中，在离线制作动画或者实时表演动画的时候，都需要通过演员的面部图像重建出对应表情的三维人脸，也即执行步骤S102。其中，步骤S102可以包括基于预设三维人脸模型以及所述演员的面部图像重建得到所述演员的三维人脸，所述步骤S102还可以包括基于预设三维眼神模型以及所述演员的面部图像重建得到所述演员的三维眼神。接下来，结合图3对基于预设三维人脸模型以及所述演员的面部图像重建所述演员的三维人脸的过程进行具体阐述。

具体地，参考图3，所述步骤S102可以包括如下步骤：

步骤S1021，检测所述面部图像以至少得到多个二维人脸特征点；

步骤S1022，根据所述预设三维人脸模型生成估算三维人脸；

步骤S1023，从所述估算三维人脸中提取得到多个估算三维特征点；

步骤S1024，将所述多个估算三维特征点投影至二维平面，以得到多个二维投影点；

步骤S1025，计算所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异；

步骤S1026，如果所述坐标差异小于预设阈值，则将所述估算三维人脸确定为重建得到的所述演员的三维人脸。

进一步，检测面部图像可以得到多个二维特征点，其中，所述二维特征点包括二维人脸特征点，还包括二维瞳孔特征点。

在一个具体实施中，从所述三维人脸中提取得到多个三维特征点包括，可以预先确定多个二维人脸特征点分别对应的多个三维人脸的顶点索引，依据多个三维人脸的顶点索引，将多个三维人脸的顶点提取出来作为多个三维特征点。在步骤S1023中从估算三维人脸中提取估算三维特征点即采取的该方法。

在演员表演时需要佩戴一个头盔，头盔上会固定一个摄像机，摄像机会录制演员表演时的面部画面，摄像机可以为头戴式RGB(R为红色RED的缩写，G为绿色Green的缩写，B为蓝色Blue的缩写)相机，或者RGBD(D为深度图Depth的缩写)相机。对每一帧的演员的面部图像，三维人脸重建的流程是一样，这里以其中一帧为例对图3所示步骤S102的具体流程进行详细说明。

在所述步骤S1021中，获取一帧的面部图像后，可以采用机器学习方法对面部图像进行检测，以检测出其中的二维特征点及对应的语义信息。所述语义信息用于描述该二维特征点所对应的面部位置。每个二维特征点的语义信息是预先定义好的，如64号二维特征点表示鼻尖点。

例如，每张面部图像会检测73个二维人脸特征点和6个二维瞳孔特征点，以及每个二维特征点的语义信息。如0～14号是二维脸部轮廓点，15～72是二维脸部五官点，73～78是二维瞳孔特征点。

例如，所述机器学习模型可以包括基于卷积神经网络(Convolution Neural Network，简称CNN)构建的模型，或者主动外观模型(Active appearance model)。

相比于现有技术需要动画师手动从演员的面部图像中标注出二维特征点，本实施方案针对每张演员的面部图片都是自动检测出二维特征点，也即该步骤是完全自动化的，大幅提升了动画制作效率。

进一步，每一个二维人脸特征点可以对应一个三维人脸的顶点索引。例如，64号二维人脸特征点(即鼻尖点)对应的三维人脸的顶点索引为3780。在本具体实施中，可以预先确定73个二维人脸特征点分别对应的73个三维人脸的顶点索引。

进一步，6个二维瞳孔特征点用于后续眼神重建，其中，左右眼各三个二维瞳孔特征点，包括一个瞳孔中心特征点和两个二维瞳孔边缘特征点。

具体地，从所述三维人脸中提取得到多个三维特征点包括，可以预先确定73个二维人脸特征点分别对应的73个三维人脸的顶点索引，依据73个三维人脸的顶点，将73个三维人脸的顶点提取出来作为73个三维特征点。

在所述步骤S1022中，依据输入权重和步骤S202建立的预设三维人脸模型，可以得到对应于演员在当前面部图像中所做表情的估算三维人脸。

然后，根据预先确定的对应于73个二维人脸特征点的73个三维人脸的顶点索引，可以得到对应于演员在当前面部图像中所做表情的估算三维人脸上这73个顶点的坐标位置。也即，从对应于演员在当前面部图像中所做表情的估算三维人脸中提取得到73个估算三维特征点。

然后，根据演员的面部与相机的相对位置(R，t)和透视投影函数Π，利用三维人脸重建的目标函数(公式(2))，可以将上述73个估算三维特征点投影到所述面部图像上得到二维投影点，并计算二维投影点与步骤S1021检测得到的二维人脸特征点之间的坐标差异。

其中，M(α ₁,...,α _n)为公式(1)所述预设三维人脸模型的输出结果；p _i为步骤S1021检测到的第i个二维人脸特征点；v _i为第i个二维人脸特征点对应的三维人脸的顶点索引；R为演员的面部相对于相机的旋转矩阵；t为演员的面部相对于相机的平移向量；Π为透视投影函数，该函数的功能是将三维顶点投影成二维点，其中，透视投影函数需要用到相机内参，相机内参是通过相机标定得到的；

表示第i个二维人脸特征点对应的二维投影点；“||||”为取模函数；

为正则项，α _j是第j个输入权重；为了保证在迭代调整过程中不会求出奇怪的输入权重α ₁,...,α _n；λ为可调节的超参数，用于调节正则项对整个迭代调整过程的影响；δ _i为预设三维人脸模型里第i个主成分对应的标准差。

在本具体实施中，采用欧氏距离衡量上述坐标差异。

进一步，在公式(2)中，将对应相同语义信息的二维人脸特征点和二维投影点确定为编号相同的二维人脸特征点和二维投影点，编号取值范围为i＝[1,73]。也即，在公式(2)中，分别计算所述多个二维人脸特征点和多个二维投影点中，对应相同语义信息的二维人脸特征点与二维投影点之间的坐标差异；将计算得到的多个坐标差异之和确定为所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异。

进一步，根据基于公式(2)计算得到的坐标差异，可以确定基于当前输入权重得到的估算三维人脸是否贴合于面部图像中演员做出的表情。

如果坐标差异小于预设阈值，则将估算三维人脸确定为演员的三维人脸。

如果所述坐标差异大于预设阈值，表明基于当前输入权重得到的估算三维人脸不符合面部图像中演员做出的表情。相应地，可以迭代调整所述预设三维人脸模型和相机外参，并重复执行步骤S1022至步骤S1025以迭代计算坐标差异，直至基于调整后的预设三维人脸模型得到的多个二维投影点与所述多个二维人脸特征点之间的坐标差异小于所述预设阈值。此时，可以获得最贴合于面部图像中演员所做表情的估算三维人脸。不同的估算三维人脸对应不同的表情。

例如，所述预设三维人脸模型的输出结果与输入权重相关联，相应的，可以迭代调整所述输入权重，以得到所述预设三维人脸模型的不同的输出结果，不同的输出结果对应不同的表情。所述预设三维人脸模型的输出结果为三维人脸。不同的三维人脸对应不同的表情。

例如，初始时输入权重可以从零开始迭代，即从无表情开始迭代调整。

例如，所述相机外参包括所述演员的面部与拍摄所述面部图像的影像采集设备之间的相对位置和朝向(R，t)。所述影像采集设备包括相机，即摄像头。

进一步，根据预设三维眼神模型以及面部图像重建得到所述演员的三维眼神。

在一个具体实施中，所述三维眼神模型可以是根据重建的三维人脸和相机外参(R，t)建立得到的模型，或者，所述三维眼神模型也可以是人工神经网络预测模型。具体地，可以根据重建的三维人脸和相机外参(R，t)，以及检测到的自面部图像的6个二维瞳孔特征点来重建出三维眼神。或者，也可以根据面部图像利用人工神经网络直接预测出三维眼神。

进一步，将重建的所述三维人脸和具有重建的三维眼神的眼球合并到一起得到重建后的所述三维面部。

在一个具体实施中，所述步骤S104中所述三维特征点与动画数据之间映射关系的建立过程可以包括步骤：获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。

具体地，各帧训练帧对应的多个三维特征点可以是通过执行上述步骤S101至步骤S103得到的，也即，将每一帧训练帧作为待处理的图像帧执行上述步骤S101至步骤S103以得到对应的多个三维特征点。

具体地，根据具有重建的三维眼神的眼球，获取左右瞳孔中心的三维坐标，作为左右眼的三维瞳孔中心特征点。

在一个具体实施例中，所述多个三维特征点可以包括表征人脸的73个三维特征点和表征眼神的2个三维瞳孔中心特征点。在本具体实施中，从具有重建的三维眼神的眼球中选择2个三维瞳孔中心特征点表示左右眼的眼神方向。表征人脸的73个三维特征点的提取方法可以按照步骤S1023的方法执行。

进一步，所述多帧训练帧可以选取自单个视频，并且视频可以是所述演员按照预设脚本表演时拍摄得到的。并且，所述多帧训练帧是所述视频包括的所有图像帧中三维特征点的特征信息差异最大的图像帧。

进一步，所述待处理的图像帧可以选取自所述视频中除训练帧之外的图像帧。

本实施方案适用于离线面部动画制作场景，能够大幅提高离线制作效率。以针对一段1000帧的视频制作离线面部动画为例，基于本实施方案，可以从1000帧中选取30帧左右的训练帧及其动画数据作为训练数据，并训练得到三维特征点与动画数据之间的映射关系。至于1000帧中剩余的970帧则可以直接基于前述训练得到的映射关系进行预测，以得到对应的动画数据，而无需如传统制作流程一般整整1000帧的动画都需要动画师手动精心制作得到对应的动画数据。

具体而言，可以录制演员A的一段表演视频。对该段视频的每一帧面部图像，执行步骤S102以重建出对应的三维面部，然后执行步骤S103以提取出每一帧三维面部的三维特征点。在本示例中，假设这段视频共有1000帧。

然后，根据这1000帧三维面部各自对应的三维特征点，采用最远点采样算法采样出差异性最大(即特征信息差异最大)的30帧作为训练帧。其中，特征信息差异大是指两帧三维面部的对应的三维特征点的位置差异比较大。即从1000帧中选取最具代表性的30帧作为训练帧，最具代表性是指表情差别最大、最突出。除了最远点采样算法之外，还可以采用其他方法获取训练帧，例如，整群抽样(cluster sampling)、分层采样、随机采样。

在制作动画数据之前，要有虚拟角色的面部绑定，绑定里包含了动画师要用到的控制器。可以通过调整控制器的属性值来调整虚拟角色的表情。

然后，动画师可以参考这30帧的面部图片制作出对应的30帧动画数据。动画数据是指控制器数据。

至此，可以得到30帧的三维特征点和对应的动画数据，这些数据形成训练数据，作为预测剩余970帧所对应动画数据的训练基础。具体而言，现在已经有30帧面部图像、对应的30帧三维面部的三维特征点数据以及对应的30帧动画数据。这样就有了30帧训练数据，每一帧训练数据包括该帧的三维面部的三维特征点数据和该帧的动画数据。

接下来，利用径向基函数(radial based function，简称RBF)算法建立三维面部的三维特征点与动画数据之间的映射关系。例如，利用这30帧的训练数据训练RBF算法模型，得到RBF权重参数。该RBF权重参数即可描述上述映射关系。除了RBF算法外，还可以用诸如线性回归等算法建立所述映射关系。

然后，利用训练得到的RBF算法模型去预测剩余970帧的动画数据。在预测的时候，向RBF算法模型输入任意一帧的三维面部的三维特征点，该模型即可输出该帧的动画数据。

在离线面部动画制作场景中，可以根据表情相似度调整所述训练数据，所述表情相似度为所述演员在所述待处理的图像帧中做出的表情与基于所述待处理的图像帧生成的虚拟对象面部的表情之间的相似度。

进一步，所述训练数据可以是基于所述表情相似度进行反馈调节后的结果。

例如，实际操作过程中，可以不是一开始就选择30帧为训练帧。而是先选择十几帧训练一下，用训练得到的映射关系预测一下剩余帧的动画数据。如果预测得到的动画质量足够好就停止调整。如果预测得到的动画质量不够好就从视频中再增加选择一些图像帧作为训练帧。

又例如，用户可以指定训练帧的数目(即帧数)，然后执行本具体实施的终端可以选出用户指定数目的训练帧。在训练过程中，用户可以对当前选出的训练帧做删减或增加，还能指定当前视频中的任意一帧作为训练帧。

再例如，在用基于训练数据建立的映射关系预测得到剩余帧的动画数据后，可以根据所述表情相似度来确定是否需要调整训练数据。例如，若表情相似度较低，则可以增加或删减训练数据中的训练帧，或者调整训练数据中与训练帧对应的动画数据，以通过对剩余帧的动画数据的预测结果来反馈影响训练数据的生成，以期得到更高质量、更贴合演员实际表情的虚拟对象面部。

进一步，在离线面部动画制作场景中，在制作完成一段表演视频对应的动画数据后，可以将制作用到的训练数据(即前述30帧三维特征点和30帧动画数据)导出并保存。在实时驱动场景中可以用到这些训练数据。

在一个具体实施中，所述多帧训练帧可以获取自多个视频，并且所述多个视频是所述演员按照预设脚本表演时拍摄得到的。

进一步，所述待处理的图像帧可以为实时拍摄得到的所述演员的面部图像。

本实施方案适用于实时驱动应用场景，能够实时驱动各种精度的虚拟角色面部。

具体而言，在演员实时驱动虚拟角色之前，需要提前准备好训练数据。训练数据的好坏对最终实时驱动的效果影响很大，因此对训练数据的制作有较高要求。

例如，训练数据的准备过程如下：

首先对演员录制一些指定内容的表演视频。所述指定内容可以包括一段常规表情，如微笑、惊讶、大惊、蔑视等。所述指定内容还可以包括基础表情，例如降眉、鼻孔收缩等。所述指定内容还可以包括吐字发声，如中文从a(啊)o(喔)e(鹅)i(衣)u(乌)...开始演员吐字时表情。所述指定内容还可以包括文字的朗读，如指定演员朗读一段或几段文字片段并录制，该片段是提前选好的。

进一步，还可以录制一些与剧本相关的视频。同时，针对角色特点和剧本，会录制一些为该虚拟角色准备的表演片段或表情。

录制好这些表演视频后，可以采用上述离线面部动画制作流程制作出这些表演视频中每一帧面部图像对应的动画数据。当觉得制作的动画质量足够好后，导出这些动画数据作为训练数据。进一步，在实时驱动场景中，获取的训练数据可以是如离线面部动画制作流程所采用的经过表情相似度反馈调节的结果，以得到更优的训练数据。

在一个具体实施中，可以从所述演员录制一些指定内容的表演视频和所述演员按照预设脚本表演录制得到的每一段视频中分别选取一部分图像帧做出训练帧。针对每一段视频，采用上述离线面部动画制作流程所采用的经过表情相似度反馈调节的方法调节训练数据(包括训练帧中的三维特征点和动画数据)，获得调节后的训练数据。将调节后的训练数据叠加到一起作为所述训练数据进行训练。由此，保证训练数据的覆盖面更广泛，能够覆盖大部分的表情。

进一步，准备好训练数据后，可以基于所述训练数据训练RBF算法模型，从而得到RBF权重参数以描述所述映射关系。

接下来，可以开始实时驱动虚拟对象面部了，实时驱动的具体过程如下：

演员佩戴好头盔，连接好相机；从相机实时捕捉到演员的面部图像；执行步骤S1021以实时检测出面部图像中的二维特征点；执行步骤S1022至步骤S1026以实时重建出三维面部，并执行步骤S103以提取出三维特征点；用基于训练数据训练得到的RBF算法模型实时预测出动画数据；利用角色绑定，实时地将动画数据转化为UE或Unity3d可以接收地数据形式(如混合形状权重和骨骼数据)；将转化后地数据实时发送给UE或者Unity3d，从而实时驱动虚拟对象面部。

通常而言，实时驱动与离线制作的区别在于，两者的预测对象不同。离线制作的预测对象是单个视频中未被选为训练帧的剩余帧，而实时驱动的预测对象是实时接收到的视频数据，实时驱动的预测对象不是用于训练的视频中的图像帧。

另一方面，实时驱动与离线制作的区别还在于，离线制作有反馈过程而实时驱动没有。离线制作的预测结果可以反过来影响训练数据的选取和数据内容，实时驱动则没有此过程。

在一个变化例中，在离线制作场景中，虽然不同的视频训练得到的RBF算法模型一般而言不能通用的，但训练数据是可以通用的，从而丰富训练样本。

或者，当训练样本足够多，使得训练得到的RBF算法模型能够表达足够多种类表情下三维特征点与动画数据之间的映射关系时，所述RBF算法模型也能够是通用模型而适用于不同视频。

具体地，若离线制作的训练数据足够多到能覆盖所有表情，那么离线制作的预测对象也可以是新获取到的视频数据中的图像帧。

对于捕捉演员在表演过程中的表情，可采用以下方法进行捕捉。脸上描点法，在演员的脸上标记处若干个标记点，捕捉人脸，获得人脸信息；脸上不描点法：演员的脸上无标记点，运用算法直接在演员的脸上提取信息，捕捉人脸，获得人脸信息。在人脸捕捉过程中，可以采用单个相机或者多个相机对人脸进行捕捉。单个相机轻便易戴，也可以达到多个相机的结果，多个相机可以实现多个角度的人脸数据的捕捉。对于捕捉设备，可以采用RGB相机和/或RGBD相机。

由上，采用本实施方案能够提供一种高效且高精度的虚拟对象面部动画生成方案，生成的虚拟对象面部与演员真实面部的表情相似度高。具体而言，基于预设三维面部模型提高三维面部重建的质量。进一步，由于准确地重建了演员的三维面部，从而能够更为准确地预测动画数据，最终得到高质量的虚拟对象面部。并且，采用本实施方案生成虚拟对象面部的整体制作效率高。进一步，由于采用三维面部重建技术，能够放松对演员佩戴头盔的要求，不需严格恢复到上次捕捉面部数据时的头盔佩戴位置。

图4是本发明实施例一种虚拟对象面部动画生成装置的结构示意图。本领域技术人员理解，本实施例所述虚拟对象面部动画生成装置4可以用于实施上述图1至图3所述实施例中所述的方法技术方案。

具体地，参考图4，本实施例所述虚拟对象面部动画生成装置4可以包括：接收模块41，用于接收待处理的图像帧，所述图像帧包括演员的面部图像；重建模块42，用于基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；提取模块43，用于从所述三维面部中提取得到多个三维特征点；确定模块44，用于基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；生成模块45，用于基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。

进一步，所述重建模块42可以包括：第一检测单元，用于检测所述面部图像以至少得到多个二维人脸特征点；第一生成单元，用于根据所述预设三维人脸模型生成估算三维人脸；第一提取单元，用于从所述估算三维人脸中提取得到多个估算三维特征点；投影单元，用于将所述多个估算三维特征点投影至二维平面，以得到多个二维投影点；第一计算单元，用于计算所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异；第一确定单元，如果所述坐标差异小于预设阈值，则将所述估算三维人脸确定为重建得到的所述演员的三维人脸。

进一步，所述二维人脸特征点具有对应的语义信息，所述二维投影点具有对应的语义信息，所述第一计算单元包括：第二计算单元，用于分别计算所述多个二维人脸特征点和多个二维投影点中，对应相同语义信息的二维人脸特征点与二维投影点之间的坐标差异；第二确定单元，用于将计算得到的多个坐标差异之和确定为所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异。

进一步，所述重建模块42还可以包括：迭代调整单元，如果所述坐标差异大于预设阈值，则迭代调整所述预设三维人脸模型和相机外参，直至基于调整后的预设三维人脸模型得到的多个二维投影点与所述多个二维人脸特征点之间的坐标差异小于所述预设阈值。

进一步，所述预设三维人脸模型的输出结果与输入权重相关联，所述迭代调整单元包括：输入权重调整单元，用于迭代调整所述输入权重，以得到所述预设三维人脸模型的不同的输出结果，不同的输出结果对应不同的表情。

进一步，所述相机外参包括所述演员的面部与拍摄所述面部图像的影像采集设备之间的相对位置与朝向。

进一步，所述虚拟对象面部动画生成装置4还包括：第一建立模块，用于建立所述预设三维面部模型。

进一步，所述第一建立模块包括：第一获取单元，获取所述演员的混合形状模型组，所述混合形状模型组包括多个混合形状模型并用于描述多个表情；分析单元，用于对所述混合形状模型组进行主成分分析，以得到所述预设三维人脸模型。

进一步，所述多个表情至少包括中性表情，所述混合形状模型组至少包括一个描述所述中性表情的混合形状模型。

进一步，所述虚拟对象面部动画生成装置4还包括：第二建立模块，用于建立所述三维特征点与动画数据之间的映射关系。

进一步，所述第二建立模块包括：第二获取单元，用于获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；建立单元，用于基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。

进一步，所述多帧训练帧选取自单个视频，并且，所述多帧训练帧是所述视频包括的所有图像帧中对应的三维特征点的特征信息差异最大的图像帧。

进一步，所述待处理的图像帧选取自所述视频中除训练帧之外的图像帧。

进一步，所述训练数据根据表情相似度调节，所述表情相似度为所述演员在所述待处理的图像帧中做出的表情与基于所述待处理的图像帧生成的虚拟对象面部的表情之间的相似度。

进一步，所述多帧训练帧获取自多个视频，并且所述多个视频是所述演员按照预设脚本表演时拍摄得到的。

进一步，所述待处理的图像帧为实时拍摄得到的所述演员的面部图像。

关于所述虚拟对象面部动画生成装置4的工作原理、工作方式的更多内容，可以参照上述图1至图3中的相关描述，这里不再赘述。

进一步，所述虚拟对象面部动画生成装置4可以集成于终端、服务器等计算设备。例如，虚拟对象面部动画生成装置4可以集中地集成于同一服务器内。或者，虚拟对象面部动画生成装置4可以分散的集成于多个终端或服务器内并相互耦接。例如，所述预设三维面部模型可以单独设置于终端或服务器上，以确保较优的数据处理速度。

基于本实施例虚拟对象面部动画生成装置4及对应的虚拟对象面部动画生成方法，用户在接收模块41一侧输入待处理的图像，即可在生成模块45的输出端得到对应的虚拟对象面部的表情，从而实现演员面捕。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图3所示实施例中所述的方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图3所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

一种虚拟对象面部动画生成方法，其特征在于，包括：

接收待处理的图像帧，所述图像帧包括演员的面部图像；

基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；

从所述三维面部中提取得到多个三维特征点；

基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；

基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。
根据权利要求1所述的方法，其特征在于，所述预设三维面部模型包括预设三维人脸模型和预设三维眼神模型，所述演员的三维面部包括演员的三维人脸以及演员的三维眼神，其中，所述演员的三维人脸是基于所述预设三维人脸模型以及所述面部图像重建得到的，所述演员的三维眼神是基于所述预设三维眼神模型以及所述面部图像重建得到的。
根据权利要求2所述的方法，其特征在于，基于所述预设三维人脸模型以及所述面部图像重建所述演员的三维人脸的过程包括如下步骤：

检测所述面部图像以至少得到多个二维人脸特征点；

根据所述预设三维人脸模型生成估算三维人脸；

从所述估算三维人脸中提取得到多个估算三维特征点；

将所述多个估算三维特征点投影至二维平面，以得到多个二维投影点；

计算所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异；

如果所述坐标差异小于预设阈值，则将所述估算三维人脸确定为重建得到的所述演员的三维人脸。
根据权利要求3所述的方法，其特征在于，所述二维人脸特征点具有对应的语义信息，所述二维投影点具有对应的语义信息，所述计算所述多个人脸二维特征点与所述多个二维投影点之间的坐标差异包括：

分别计算所述多个二维人脸特征点和多个二维投影点中，对应相同语义信息的二维人脸特征点与二维投影点之间的坐标差异；

将计算得到的多个坐标差异之和确定为所述多个二维人脸特征点与所述多个二维投影点之间的坐标差异。
根据权利要求3所述的方法，其特征在于，基于所述预设三维人脸模型以及所述面部图像重建所述演员的三维人脸的过程还包括如下步骤：

如果所述坐标差异大于预设阈值，则迭代调整所述预设三维人脸模型和相机外参，直至基于调整后的预设三维人脸模型得到的多个二维投影点与所述多个二维人脸特征点之间的坐标差异小于所述预设阈值。
根据权利要求5所述的方法，其特征在于，所述预设三维人脸模型的输出结果与输入权重相关联，所述迭代调整所述预设三维人脸模型包括：

迭代调整所述输入权重，以得到所述预设三维人脸模型的不同的输出结果，不同的输出结果对应不同的表情。
根据权利要求5所述的方法，其特征在于，所述相机外参包括所述演员的面部与拍摄所述面部图像的影像采集设备之间的相对位置与朝向。
根据权利要求2所述的方法，其特征在于，所述预设三维人脸模型的建立过程包括如下步骤：

获取所述演员的混合形状模型组，所述混合形状模型组包括多个混合形状模型并用于描述多个表情；

对所述混合形状模型组进行主成分分析，以得到所述预设三维人脸模型。
根据权利要求8所述的方法，其特征在于，所述多个表情至少包括中性表情，所述混合形状模型组至少包括一个描述所述中性表情的混合形状模型。
根据权利要求1所述的方法，其特征在于，所述三维特征点与动画数据之间映射关系的建立过程包括如下步骤：

获取训练数据，所述训练数据包括多帧训练帧各自对应的多个三维特征点以及动画数据，所述多帧训练帧为所述演员做出不同表情时的面部图像；

基于所述训练数据建立所述三维特征点与动画数据之间的映射关系。
根据权利要求10所述的方法，其特征在于，所述多帧训练帧选取自单个视频，并且，所述多帧训练帧是所述视频包括的所有图像帧中对应的三维特征点的特征信息差异最大的图像帧。
根据权利要求11所述的方法，其特征在于，所述待处理的图像帧选取自所述视频中除训练帧之外的图像帧。
根据权利要求12所述的方法，其特征在于，所述训练数据根据表情相似度调节，所述表情相似度为所述演员在所述待处理的图像帧中做出的表情与基于所述待处理的图像帧生成的虚拟对象面部的表情之间的相似度。
根据权利要求10或13所述的方法，其特征在于，所述多帧训练帧获取自多个视频，并且所述多个视频是所述演员按照预设脚本表演时拍摄得到的。
根据权利要求14所述的方法，其特征在于，所述待处理的图像帧为实时拍摄得到的所述演员的面部图像。
一种虚拟对象面部动画生成装置，其特征在于，包括：

接收模块，用于接收待处理的图像帧，所述图像帧包括演员的面部图像；

重建模块，用于基于预设三维面部模型以及所述面部图像重建得到所述演员的三维面部，所述预设三维面部模型用于描述所述演员的面部表情变化；

提取模块，用于从所述三维面部中提取得到多个三维特征点；

确定模块，用于基于三维特征点与动画数据之间的映射关系，确定所述多个三维特征点对应的动画数据；

生成模块，用于基于所述动画数据生成对应的虚拟对象面部的表情，且生成的所述虚拟对象面部的表情与所述演员在所述面部图像中做出的表情保持一致。
一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至15中任一项所述方法的步骤。
一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至15中任一项所述方法的步骤。