WO2021232690A1

WO2021232690A1 - 一种视频生成方法、装置、电子设备及存储介质

Info

Publication number: WO2021232690A1
Application number: PCT/CN2020/126223
Authority: WO
Inventors: 刘晓强; 张国鑫; 马里千; 金博; 张博宁; 孙佳佳
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-05-18
Filing date: 2020-11-03
Publication date: 2021-11-25
Also published as: CN113689538B; CN113689538A

Abstract

一种视频生成方法、装置、电子设备及存储介质，涉及计算机技术领域，用于简化根据二维人脸图像生成人脸视频的过程。该方法包括：对待处理二维人脸图像进行关键点识别及三维重建，得到待处理二维人脸图像的包括人脸形状参数和面部特征信息的3DMM参数；根据人脸视频模板中每帧图像的面部特征参数分别对待处理二维人脸图像的面部特征参数进行调整，获得与每帧图像对应的调整后的待处理二维人脸图像的面部特征参数；基于与每帧图像对应的调整后的待处理二维人脸图像的面部特征参数、待处理二维人脸图像的人脸形状参数和面部特征参数进行三维模型构建，得到与每帧图像对应的目标帧人脸图像；基于目标帧人脸图像获得目标人脸视频。

Description

一种视频生成方法、装置、电子设备及存储介质

相关申请的交叉引用

本申请要求在2020年05月18日提交中国专利局、申请号为202010420064.2、申请名称为“一种视频生成方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

相关技术中，基于一个二维人脸图像生成有表情变化的人脸视频时，常通过手动调整二维人脸图像或者由设计人员使用动画制作工具制作多帧人脸表情图像，进而基于多帧人脸表情图像生成一个有表情变化的人脸视频，发明人意识到上述人脸视频的生成过程复杂且消耗较大的人力，无法规模性生成有表情变化的人脸视频，且由于生成的人脸视频依赖于设计人员的技术，不能保证生成的人脸视频的质量。

发明内容

本申请实施例提供一种视频生成方法、装置、电子设备及存储介质，用于简化根据二维人脸图像生成动态的人脸视频的过程。

本申请实施例第一方面，提供一种视频生成方法，包括：

对待处理二维人脸图像进行关键点识别以及三维重建，得到所述待处理二维人脸图像的三维人脸形变3DMM参数，所述3DMM参数包括人脸形状参数和面部特征参数；

针对人脸视频模板中每帧图像，根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数；以及基于与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数、所述待处理二维人脸图像的人脸形状参数以及所述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与所述每帧图像对应的目标帧人脸图像；

基于与所述每帧图像对应的目标帧人脸图像，获得所述待处理人脸二维图像对应的目标人脸视频。

本申请实施例第二方面，提供一种视频生成装置，包括：

参数获取单元，被配置为执行对待处理二维人脸图像进行关键点识别以及三维重建，得到所述待处理二维人脸图像的三维人脸形变3DMM参数，所述3DMM参数包括人脸形状参数和面部特征参数；

目标帧人脸图像获取单元，被配置为执行针对人脸视频模板中每帧图像，根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数；以及基于与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数、所述待处理二维人脸图像的人脸形状参数以及所述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与所述每帧图像对应的目标帧人脸图像；

视频生成单元，被配置为执行基于与所述每帧图像对应的目标帧人脸图像，获得所述待处理人脸二维图像对应的目标人脸视频。

本申请实施例第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器被配置为执行如下本申请第一方面及可能的实现方式中任意一项所述的过程。

本申请第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上承载一个或多个计算机指令程序，当所述计算机指令程序被一个或多个处理器执行时，所述一个或多个处理器执行如第一方面及一种可能的实施方式中任一所述的方法。

本申请实施例能针对待处理二维人脸图像生成与人脸视频模板的面部特征信息一致的目标人脸视频，简化了根据待处理二维人脸图像生成动态的目标人脸视频的过程，且提升了生成目标人脸视频的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请实施例的原理，并不构成对本申请的不当限定。

图1为本申请实施例提供的一种视频生成方法的流程示意图；

图2为本申请实施例提供的一种二维网格模型的示意图；

图3为本申请实施例提供的一种获取人脸视频模板中每帧图像的面部特征参数的流程示意图；

图4为本申请实施例提供的一种姿态角信息的示意图；

图5为本申请实施例提供的一个目标帧人脸图像的调整后的口腔区域的示意图；

图6为本申请实施例提供的一种获取人脸视频模板中任意帧图像对应的目标帧人脸图像的过程示意图；

图7为本申请实施例提供的一种待处理二维人脸图像的示意图；

图8为本申请实施例提供的人脸视频模板中一帧图像的示意图；

图9为本申请实施例提供的一种目标帧人脸图像的示意图；

图10为本申请实施例提供的一种视频生成装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的技术名词进行说明。

巴塞尔人脸模型2009版本(base face model 2009，bfm2009)：一种用于姿态和光照不变的人脸识别的三维网格模型(3D face model)。

三维人脸形变模型(3D Morphable Models，3DMM)：是一个三维人脸形变模型，这个模型由一系列参数定义，这些参数分为：形状、反照、投影、身份等，通过给定一组这样的参数，生成一个三维模型，当然也可以生成二维图片；也可以使用二维图片，去预测这样一组3DMM参数，从而预测该二维图片对应的三维模型。

下面对本申请实施例的设计思想进行说明：相关技术在一些场景中需要给用户上传的二维人脸图像添加动态的表情以形成动态表情包，但发明人意识到在基于一个二维人脸图像生成有表情变化的人脸视频时，常由设计人员通过手动调整二维人脸图像或者使用动画制作工具制作多帧人脸表情图像，进而生成一个有表情变化的人脸视频，其过程复杂且消耗较大的人力，无法规模性生成，且生成的人脸视频的质量依赖于设计人员的技术；随着技术的发展，出现使用表情驱动人物的方式，基于二维人脸图像生成人脸视频，该过程中通过三维重建技术创建一个虚拟人物，之后用表情驱动渲染该虚拟人物，但发明人发现这种方案渲染出的人脸是独立于原来的二维人脸图像的一个虚拟形象，由于较重的渲染而使人脸缺乏真实感，且渲染出的人脸脱离了原始的二维人脸图像的背景，丢失了原始的二维人脸图像的质感和纹理。

鉴于此，本申请实施例设计一种视频生成方法、装置、电子设备及存储介质，以简化根据二维人脸图像生成人脸视频的过程，包括：基于3DMM模型获得待处理二维人脸图像的3DMM参数，该3DMM参数包括人脸形状参数和面部特征参数；并基于人脸模板视频中每帧图像的面部特征参数分别对待处理二维人脸图像的3DMM参数进行调整，获得与每帧图像对应的调整后的待处理二维人脸图像的面部特征参数，进而基于与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数、上述待处理二维人脸图像的人脸形状参数以及上述待处理二维人脸图像的面部特征参数进行三维模型构建，获得与每帧图像对应的目标帧人脸图像；并基于与每帧图像对应的目标帧人脸图像，生成待处理人脸二维图像对应的目标人脸视频。

其中目标帧人脸图像和人脸模板视频中对应帧图像的面部特征参数趋于一致，进而使得获得的目标帧人脸图像中的面部特征信息与人脸模板视频中对应帧图像的面部特征信息趋于一致。

以下结合附图对本申请实施例的方案进行详细说明；如图1所示，本申请实施例提供一种视频生成方法，具体包括如下步骤：

步骤S101，对待处理二维人脸图像进行关键点识别以及三维重建，得到上述待处理二维人脸图像的三维人脸形变3DMM参数，上述3DMM参数包括人脸形状参数和面部特征信息。

在一种可能的实施方式中，上述关键点识别可以但不局限于使用较成熟的神经网络模型推理得到待处理二维人脸图像中人脸的第一设定数量的二维关键点，其中神经网络模型可以但不局限于包括卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(RecurrentNeuralNetworks，RNN)以及深度神经网络(Deep Neural Networks，DNN)等；为了保证最终生成的目标人脸视频中人脸的真实度，可以但不局限于将上述第一设定数量设置为101。

在对待处理二维人脸图像进行关键点识别后，可以对识别出的二维关键点进行三维重建，如可以通过使用bfm2009的3dmm或bfm2017的3dmm或普通的3dmm方法进行三维重建，得到待处理二维人脸图像的3DMM参数。

步骤S102，针对人脸视频模板中每帧图像，根据上述每帧图像的面部特征参数分别对上述待处理二维人脸图像的面部特征参数进行调整，获得与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数；以及基于与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数、上述待处理二维人脸图像的人脸形状参数以及上述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与上述每帧图像对应的目标帧人脸图像。

应当说明的是，对待处理二维人脸图像的面部特征参数进行调整的目的是：尽量让调整后的待处理二维人脸图像的面部特征参数表征的面部特征，和每帧图像的面部特征参数表征的面部特征趋向于一致，即每帧图像对应的调整后的面部特征参数表征的面部特征信息，与每帧图像的面部特征参数表征的面部特征信息趋向于一致。

作为一种实施例，若上述面部特征信息包括人脸的表情参数和姿态角信息，则可以通过如下方式，根据上述每帧图像的面部特征参数分别对上述待处理二维人脸的面部特征参数进行调整，获得上述每帧图像对应的调整后的待处理二维人脸图像的面部特征参数：

基于每帧图像的姿态角信息调整上述待处理二维人脸图像的姿态角信息，得到与上述每帧图像对应的调整后的上述待处理二维人脸图像的姿态角信息；

分别将上述每帧图像的表情参数、与上述每帧图像对应的调整后的上述待处理二维人脸图像的姿态角信息，确定为与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数。

此处，将每帧图像的面部特征参数中的表情参数，作为每帧图像对应的调整后的待处理二维人脸图像的面部特征参数的一部分，即每帧图像对应修改后的待处理二维人脸图像的面部特征参数中保留了人脸视频模板中每帧图像中人脸的表情特征；基于每帧图像对应的姿态角信息调整待处理二维人脸图像对应的姿态角信息，得到与每帧图像对应的调整后的待处理二维人脸图像的姿态角信息；并将与每帧图像对应的调整后的姿态角信息，作为与每帧图像对应的调整后的待处理二维人脸图像的面部特征参数的一部分。即与每帧图像对应的调整后的面部特征参数中保留了待处理二维人脸图像中人脸根据每帧图像中人脸的姿态特征调整后的姿态特征。

作为一种实施例，可以通过如下方式，得到与上述每帧图像对应的目标帧人脸图像：

针对上述每帧图像，根据上述待处理二维图像的面部特征参数和上述待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整前的三维网格模型3dmesh_ori；

根据与每帧图像对应的调整后的面部特征参数和待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整后的三维网格模型3dmesh_new；

分别将上述调整前的三维网格模型3dmesh_ori和上述调整后的三维网格模型3dmesh_new投影至同一平面，获得调整前的二维网格模型2dmesh_ori和调整后的二维网格模型2dmesh_new；

将上述调整后的二维网格模型2dmesh_new中各像素的像素值替换为上述调整前的二维网格模型2dmesh_ori中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像。

其中二维网格模型可以看作三维网格模型在二维平面上的一个投影，请参见图2，本申请实施例还提供一种二维网格模型的示意图，该二维网格模型中包括一群离散的点和这些点围城的一个个小的三角形，每个小的三角形可以认为是一个像素，每个小的三角形里面的颜色可以认为是该像素的像素值。

调整后的二维网格模型2dmesh_new和调整前的二维网格模型2dmesh_ori都是待处理二维图形中的人脸对应的二维网格模型，只是2dmesh_new中的部分有关表情的像素相对于2dmesh_ori是改变了的，如若图2为2dmesh_ori，则2dmesh_new可能是图2中口腔区域201的像素发生了一些改变的二维网格模型；因此2dmesh_new中的像素和2dmesh_ori中的像素是存在对应关系的，可以根据这个对应关系将2dmesh_new中各像素的像素值替换为2dmesh_ori中各像素的像素值。

步骤S103，基于与每帧图像对应的目标帧人脸图像，获得上述待处理人脸二维图像对应的目标人脸视频。

在一种可能的实施方式中，可以按照人脸视频模板中每帧图像的排列顺序，将与每帧图像对应的目标帧人脸图像排列得到待处理人脸二维图像对应的目标人脸视频。

作为一种实施例，在上述步骤S102中作为一种实施例，根据上述每帧图像的面部特征参数分别对上述待处理二维人脸图像的面部特征参数进行调整，获得与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数的步骤之前，还包括：对上述每帧图像进行关键点识别；根据关键点识别结果对上述每帧图像进行三维重建，得到上述每帧图像的3DMM参数中的面部特征参数。

在一种可能的实施方式中，对待处理二维人脸图像进行关键点识别以及三维重建，得到上述待处理二维人脸图像的面部特征信息；上述关键点识别可以但不局限于使用较成熟的神经网络模型推理得到每帧图像的第二设定数量的二维关键点，其中神经网络模型可以但不局限于包括CNN、RNN或DNN等；为了保证最终生成的目标人脸视频中人脸的真实度，可以但不局限于将上述第二设定数量设置为101。

在对每帧图像进行关键点识别后，可以对识别出的二维关键点进行三维重建，如可以通过使用bfm2009的3dmm或bfm2017的3dmm或普通的3dmm方法进行三维重建，得到每帧图像的3DMM参数中的面部特征参数。

如图3所示，提供一种获取人脸视频模板中每帧图像的面部特征参数的过程，可以包括：

步骤S301，输入人脸视频模板，并获取上述人脸视频模板的每帧图像。

步骤S302，对每帧图像进行关键点识别，获得每帧图像的关键点。

步骤S303，通过bfm2009的3dmm对每帧图的关键点进行三维重建。

步骤S304，根据对每帧图的关键点进行三维重建的结果，提取每帧图像的3DMM参数中的面部特征参数。

在步骤S304之后，可以将提取的每帧图像的面部特征参数存储为预处理模板，以便后期对待处理二维人脸图像生成目标人脸视频时使用。

作为一种实施例，上述姿态角信息包括俯仰角yaw、偏航角pitch以及翻滚角roll中的至少一个姿态角参数，请参见图4，给出一种俯仰角yaw、偏航角pitch以及翻滚角roll的示意图，其中以图中人物头部的中心点为原点，原点向内图像内部为x轴、原点向图示上方为y轴，原点向图示右方为z轴建立一个三维坐标系，其中俯仰角yaw的方向为绕y轴旋转的方向，偏航角pitch的方向为绕x轴旋转的方向，翻滚角roll为绕z轴旋转的方向。

在上述步骤S102中可以通过如下方式，基于每帧图像的姿态角信息调整上述待处理二维人脸图像的姿态角信息，得到上述每帧图像对应的调整后的上述待处理二维人脸图像的姿态角信息：

针对上述至少一个姿态角参数中每个姿态角参数，确定人脸视频模板中所有帧图像的上述每个姿态角参数的平均姿态角参数；

确定上述每帧图像的上述每个姿态角参数对应的偏差角，上述偏差角为上述每个姿态角参数与对应的平均姿态角参数的偏差值；

基于上述待处理二维人脸图像中上述每个姿态角参数和上述每帧图像中上述每个姿态角参数对应的偏差角，确定上述每帧图像对应的调整后的每个姿态角信息。

进一步，可以通过如下公式1的原理，基于每帧图像的面部特征参数中的俯仰角yaw调整上述待处理二维人脸图像的面部特征参数中的俯仰角yaw，得到与每帧图像对应的调整后的待处理二维人脸图像的俯仰角yaw：

公式1：src1.yaw＝src.yaw+(dst.yaw-dst.meanyaw)×k1；

公式1中，src1.yaw为与每帧图像对应的调整后的待处理二维人脸图像的俯仰角，dst.yaw为上述每帧图像的面部特征参数中的俯仰角，dst.meanyaw为人脸视频模板中所有帧图像的面部特征参数中的俯仰角的平均值，k1为俯仰角的调整参数。

此处为了避免对待处理二维人脸图像的俯仰角的调整过大导致待处理二维人脸图像明显变形，以及避免对待处理二维人脸图像的俯仰角的调整过小导致待处理二维人脸图像无变化，可以但不局限于将上述k1设置为0.2或0.3。

进而可以通过如下公式2，基于每帧图像的面部特征参数中的偏航角pitch 调整上述待处理二维人脸图像的面部特征参数中的偏航角pitch，得到上述每帧图像对应的调整后的待处理二维人脸图像的偏航角pitch：

公式2：src1.pitch＝src.pitch+(dst.pitch-dst.meanpitch)×k2；

公式2中，src1.pitch为与每帧图像对应的调整后的待处理二维人脸图像的偏航角，dst.pitch为上述每帧图像的面部特征参数中的偏航角，dst.meanpitch为人脸视频模板中所有帧图像的面部特征参数中的偏航角的平均值，k2为偏航角的调整参数。

此处为了避免对待处理二维人脸图像的偏航角的调整过大导致待处理二维人脸图像明显变形，以及避免对待处理二维人脸图像的偏航角的调整过小导致待处理二维人脸图像无变化，可以但不局限于将上述k2设置为0.2或0.3。

进而可以通过如下公式3，基于每帧图像的面部特征参数中的翻滚角roll调整上述待处理二维人脸图像的面部特征数中的翻滚角roll，得到与每帧图像对应的调整后的待处理二维人脸图像的翻滚角roll：

公式3：src1.roll＝src.roll+(dst.roll-dst.meanroll)×k3；

公式3中，src1.roll为与每帧图像对应的调整后的待处理二维人脸图像的翻滚角，dst.roll为上述每帧图像的面部特征参数中的翻滚角，dst.meanroll为人脸视频模板中所有帧图像的面部特征参数中的翻滚角的平均值，k3为翻滚角的调整参数。

此处为了避免对待处理二维人脸图像的翻滚角的调整过大导致待处理二维人脸图像明显变形，以及避免对待处理二维人脸图像的翻滚角的调整过小导致待处理二维人脸图像无变化，可以但不局限于将上述k3设置为0.1或0.2。

应当说明的是，发明人考虑到对翻滚角的调整会导致人脸的扭动，翻滚角的调整参数k3过大时会导致人脸和背景扭曲过大，翻滚角的调整参数k3较小时导致无扭曲而使得人脸显得僵硬，因此本申请实施例中的翻滚角的调整参数可以但不局限于略小于俯仰角的调整参数或偏航角的调整参数。

作为一种实施例，在上述步骤S102中，若人脸视频模板中每帧图像中人脸的口腔区域是张开的，即人脸视频模板中的人脸是张嘴微笑的，而待处理二维人脸图像中人脸是闭嘴的话；或人脸视频模板中的人脸是闭嘴的，而待处理二维人脸图像中人脸是张嘴的话，则获取到的目标帧人脸图像中人脸的表情可能是异常的，因此将上述调整后的二维网格模型中各像素的像素值替换为上述调整前的二维网格模型中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像的步骤之后，还可以对上述每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；基于上述每帧图像对应的二维网格模型中的口腔区域调整上述每帧图像对应的目标帧人脸图像的口腔边缘点，并将调整后的口腔边缘点围城的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。

即针对人脸视频模板的一帧图像，若该帧图像中人脸是张嘴的，则该帧图像对应的二维网格模型中口腔区域的范围比较大，进而可以基于该帧图像对应的二维网格模型调整对应的目标帧人脸图像的口腔边缘点，使得调整后的口腔边缘点围城的口腔区域与该帧图像对应的二维网格模型中口腔区域的范围一致，进而基于预设口腔网格模板填充调整后的口腔边缘点围城的口腔区域的像素；若该帧图像中人脸是闭嘴的，则该帧图像对应的二维网格模型中口腔区域的范围比较小，基于该帧图像对应的二维网格模型调整对应的目标帧人脸图像的口腔边缘点，其中由于该镇图像中人脸是闭嘴的，调整后的口腔边缘点围城的口腔区域的范围较小，此时即便基于预设口腔网格模板填充调整后的口腔边缘点围城的口腔区域的像素，对调整后的口腔边缘点围城的口腔区域也较小。

考虑到进一步提升调整目标帧人脸图像的口腔区域的准确度，本申请实施例中还可以，将上述调整后的二维网格模型中各像素的像素值替换为上述调整前的二维网格模型中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像的步骤之后，检测人脸视频模板中每帧图像的口腔区域是否闭合，若检测出上述每帧图像中存在口腔区域未闭合的图像，则对口腔区域未闭合的每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于上述口腔区域未闭合的每帧图像对应的二维网格模型中的口腔区域调整上述口腔区域未闭合的每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。

其中，针对检测出的口气区域闭合的图像，则不用按照上述方法调整与其对应的目标人脸图像的口腔边缘点。

为了更准确地调整目标帧人脸图像的口腔区域，本申请实施例中可以通过关键点识别检测出16个口腔边缘点，进而调整这16个口腔边缘点的位置；因为口腔闭合时牙齿因为遮挡而变暗，因此需要将调整后的口腔边缘点围城的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值之后，为了使得调整后的口腔区域与目标帧人脸图像的其他部分更好的融合，可以在调整后的口腔区域的边界使用alphablend来融合口腔边界，如图5所示，为一个目标帧人脸图像的调整后的口腔区域的示意图。

如图6所示，以下提供一种获取人脸视频模板中任意帧图像对应的目标帧人脸图像的过程，具体包括如下步骤：

步骤S601，对待处理二维人脸图像进行关键点识别以及三维重建，得到待处理二维人脸图像的人脸形状参数和面部特征参数，该面部特征参数包括表情参数和姿态角信息；

步骤S602，获取该任意帧图像的面部特征参数，该面部特征参数包括表情参数和姿态角信息；

步骤S603，基于该任意帧图像的姿态角信息调整待处理二维图像的姿态角信息，得到与该任意帧图像对应的调整后的待处理二维人脸图像姿态角信息；

步骤S604，将该任意帧图像的表情参数、与该任意帧图像对应的调整后的待处理二维人脸图像的姿态角信息，确定为与该任意帧图像对应的调整后的面部特征参数。

步骤S605，根据待处理二维图像的面部特征参数和待处理二维图像的人脸形状参数进行三维模型构建，得到调整前的三维网格模型3dmesh_ori。

步骤S606，根据该任意帧图像对应的调整后的待处理二维人脸图像的面部特征参数和待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整后的三维网格模型3dmesh_new。

步骤S607，分别将3dmesh_ori和3dmesh_new投影至同一平面，获得调整前的二维网格模型2dmesh_ori和调整后的二维网格模型2dmesh_new；并将2dmesh_new中各像素的像素值替换为2dmesh_ori中对应像素的像素值，得到该任意帧图像对应的目标帧人脸图像。

步骤S608，识别目标帧人脸图像的口腔边缘点；并基于该任意帧图像对应的二维网格模型中的口腔区域调整上述口腔边缘点，以及将调整后的口腔边缘点围城的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。

请参见图7，给出一个待处理二维人脸图像的示意图，图8为人脸模板视频中某一帧图像，图9为根据上述人脸模板视频中某一帧图像的面部特征参数对待处理二维人脸图像的面部特征参数进行调整，并根据与上述某一帧图像对应的调整后的待处理二维人脸图像的面部特征参数、待处理二维人脸图像的面部特征参数以及待处理二维人脸图像的人脸形状参数获得的目标帧人脸图像的示意图。

本申请实施例中基于人脸视频模板中每帧图像的姿态角信息调整待处理二维人脸图像的姿态角信息，并基于人脸视频模板中每帧图像对应的调整后的姿态角信息、人脸视频模板中每帧图像的表情参数以及待处理人脸二维图像中的人脸形状参数，获得将待处理二维人脸图像添加动态表情的目标人脸视频，一方面简化了基于待处理二维人脸图像生成动态视频的过程，另一方面为待处理二维人脸图像添加了动态表情的同时保证了得到的目标人脸视频中人脸的真实度，且减少了目标人脸视频中人脸的形状在生成动态视频中发生形变的可能性。

如图10所示，基于相同的发明构思，本申请实施例还提供一种视频生成装置1000，该装置包括：

参数获取单元1001，被配置为执行对待处理二维人脸图像进行关键点识别以及三维重建，得到上述待处理二维人脸图像的三维人脸形变3DMM参数，上述3DMM参数包括人脸形状参数和面部特征参数；

目标帧人脸图像获取单元1002，被配置为执行针对人脸视频模板中每帧图像，根据上述每帧图像的面部特征参数分别对上述待处理二维人脸图像的面部特征参数进行调整，获得与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数；以及基于与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数、上述待处理二维人脸图像的人脸形状参数以及上述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与上述每帧图像对应的目标帧人脸图像；

视频生成单元1003，被配置为执行基于与上述每帧图像对应的目标帧人脸图像，获得上述待处理人脸二维图像对应的目标人脸视频。

可选的，上述面部特征信息包括人脸的表情参数和姿态角参数，目标帧人脸图像获取单元1002具体被配置为执行：基于每帧图像的姿态角信息调整上述待处理二维人脸图像的姿态角信息，得到与上述每帧图像对应的调整后的上述待处理二维人脸图像的姿态角信息；分别将上述每帧图像的表情参数、与上述每帧图像对应的调整后的上述待处理二维人脸图像的姿态角信息，确定为与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数。

在一种可能的实施方式中，上述姿态角信息包括俯仰角、偏航角和翻滚角中的至少一个姿态角参数，目标帧人脸图像获取单元1002具体被配置为执行：

在一种可能的实施方式中，目标帧人脸图像获取单元1002具体被配置为执行：

针对上述每帧图像，根据上述待处理二维图像的面部特征参数和上述待处理二维图像的人脸形状参数进行三维模型构建，得到调整前的三维网格模型；

根据上述每帧图像对应的调整后的面部特征参数和上述待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整后的三维网格模型；

分别将上述调整前的三维网格模型和上述调整后的三维网格模型投影至同一平面，获得调整前的二维网格模型和调整后的二维网格模型；

将上述调整后的二维网格模型中各像素的像素值替换为上述调整前的二维网格模型中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像。

在一种可能的实施方式中，目标帧人脸图像获取单元1002还被配置为执行：

将上述调整后的二维网格模型中各像素的像素值替换为上述调整前的二维网格模型中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像的步骤之后，对上述每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于上述每帧图像对应的二维网格模型中的口腔区域调整上述每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。

将上述调整后的二维网格模型中各像素的像素值替换为上述调整前的二维网格模型中对应像素的像素值，得到上述每帧图像对应的目标帧人脸图像的步骤之后，若检测出上述每帧图像中存在口腔区域未闭合的图像，则对口腔区域未闭合的每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

在一种可能的实施方式中，目标帧人脸图像获取单元1002还被配置为执行：根据上述每帧图像的面部特征参数分别对上述待处理二维人脸图像的面部特征参数进行调整，获得与上述每帧图像对应的调整后的上述待处理二维人脸图像的面部特征参数的步骤之前，对上述每帧图像进行关键点识别；根据关键点识别结果对上述每帧图像进行三维重建，得到上述每帧图像的3DMM参数中的面部特征参数。

如图11所示，本申请实施例提供一种电子设备1100，包括处理器1101、用于存储上述处理器可执行指令的存储器1102；其中，上述处理器1101被配置为执行上述任意一种视频生成方法。

本申请实施例提供一种计算机可读存储介质，上述计算机可读存储介质上承载一个或多个计算机指令程序，当上述计算机指令程序被一个或多个处理器执行时，上述一个或多个处理器执行上述任意一种视频生成方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由上述电子设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

一种视频生成方法，包括：

对待处理二维人脸图像进行关键点识别以及三维重建，得到所述待处理二维人脸图像的三维人脸形变3DMM参数，所述3DMM参数包括人脸形状参数和面部特征参数；

针对人脸视频模板中每帧图像，根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数；以及基于与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数、所述待处理二维人脸图像的人脸形状参数以及所述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与所述每帧图像对应的目标帧人脸图像；

基于与所述每帧图像对应的目标帧人脸图像，获得所述待处理人脸二维图像对应的目标人脸视频。
如权利要求1所述的方法，所述面部特征参数包括人脸的表情参数和姿态角信息，所述根据所述每帧图像的面部特征参数分别对所述待处理二维人脸的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数的步骤，包括：

基于每帧图像的姿态角信息调整所述待处理二维人脸图像的姿态角信息，得到与所述每帧图像对应的调整后的所述待处理二维人脸图像的姿态角信息；

分别将所述每帧图像的表情参数、与所述每帧图像对应的调整后的所述待处理二维人脸图像的姿态角信息，确定为与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数。
如权利要求2所述的方法，所述姿态角信息包括俯仰角、偏航角和翻滚角中的至少一个姿态角参数，所述基于每帧图像的姿态角信息调整所述待处理二维人脸图像的姿态角信息，得到所述每帧图像对应的调整后的所述待处理二维人脸图像的姿态角信息的步骤，包括：

针对所述至少一个姿态角参数中每个姿态角参数，确定人脸视频模板中所有帧图像的所述每个姿态角参数的平均姿态角参数；

确定所述每帧图像的所述每个姿态角参数对应的偏差角，所述偏差角为所述每个姿态角参数与对应的平均姿态角参数的偏差值；

基于所述待处理二维人脸图像中所述每个姿态角参数和所述每帧图像中所述每个姿态角参数对应的偏差角，确定所述每帧图像对应的调整后的每个姿态角信息。
如权利要求1所述的方法，所述基于与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数、所述待处理二维人脸图像的人脸形状参数以及所述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与所述每帧图像对应的目标帧人脸图像的步骤，包括：

针对所述每帧图像，根据所述待处理二维图像的面部特征参数和所述待处理二维图像的人脸形状参数进行三维模型构建，得到调整前的三维网格模型；

根据所述每帧图像对应的调整后的面部特征参数和所述待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整后的三维网格模型；

分别将所述调整前的三维网格模型和所述调整后的三维网格模型投影至同一平面，获得调整前的二维网格模型和调整后的二维网格模型；

将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像。
如权利要求4所述的方法，所述将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像的步骤之后，还包括：

对所述每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于所述每帧图像对应的二维网格模型中的口腔区域调整所述每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。
如权利要求4所述的方法，所述将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像的步骤之后，还包括：

若检测出所述每帧图像中存在口腔区域未闭合的图像，则对口腔区域未闭合的每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于所述口腔区域未闭合的每帧图像对应的二维网格模型中的口腔区域调整所述口腔区域未闭合的每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。
如权利要求1～6任一项所述的方法，所述根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数的步骤之前，还包括：

对所述每帧图像进行关键点识别；

根据关键点识别结果对所述每帧图像进行三维重建，得到所述每帧图像的3DMM参数中的面部特征参数。
一种视频生成装置，包括：

参数获取单元，被配置为执行对待处理二维人脸图像进行关键点识别以及三维重建，得到所述待处理二维人脸图像的三维人脸形变3DMM参数，所述3DMM参数包括人脸形状参数和面部特征参数；

目标帧人脸图像获取单元，被配置为执行针对人脸视频模板中每帧图像，根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数；以及基于与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数、所述待处理二维人脸图像的人脸形状参数以及所述待处理二维人脸图像的面部特征参数进行三维模型构建，得到与所述每帧图像对应的目标帧人脸图像；

视频生成单元，被配置为执行基于与所述每帧图像对应的目标帧人脸图像，获得所述待处理人脸二维图像对应的目标人脸视频。
如权利要求8所述的装置，所述面部特征信息包括人脸的表情参数和姿态角参数，所述目标帧人脸图像获取单元具体被配置为执行：

基于每帧图像的姿态角信息调整所述待处理二维人脸图像的姿态角信息，得到与所述每帧图像对应的调整后的所述待处理二维人脸图像的姿态角信息；

分别将所述每帧图像的表情参数、与所述每帧图像对应的调整后的所述待处理二维人脸图像的姿态角信息，确定为与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数。
如权利要求9所述的装置，所述姿态角信息包括俯仰角、偏航角和翻滚角中的至少一个姿态角参数，所述目标帧人脸图像获取单元具体被配置为执行：

针对所述至少一个姿态角参数中每个姿态角参数，确定人脸视频模板中所有帧图像的所述每个姿态角参数的平均姿态角参数；

确定所述每帧图像的所述每个姿态角参数对应的偏差角，所述偏差角为所述每个姿态角参数与对应的平均姿态角参数的偏差值；

基于所述待处理二维人脸图像中所述每个姿态角参数和所述每帧图像中所述每个姿态角参数对应的偏差角，确定所述每帧图像对应的调整后的每个姿态角信息。
如权利要求8所述的装置，所述目标帧人脸图像获取单元具体被配置为执行：

针对所述每帧图像，根据所述待处理二维图像的面部特征参数和所述待处理二维图像的人脸形状参数进行三维模型构建，得到调整前的三维网格模型；

根据所述每帧图像对应的调整后的面部特征参数和所述待处理二维人脸图像的人脸形状参数进行三维模型构建，得到调整后的三维网格模型；

分别将所述调整前的三维网格模型和所述调整后的三维网格模型投影至同一平面，获得调整前的二维网格模型和调整后的二维网格模型；

将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像。
如权利要求11所述的装置，所述目标帧人脸图像获取单元还被配置为执行：

将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像的步骤之后，对所述每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于所述每帧图像对应的二维网格模型中的口腔区域调整所述每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。
如权利要求11所述的装置，所述目标帧人脸图像获取单元具体被配置为执行：

将所述调整后的二维网格模型中各像素的像素值替换为所述调整前的二维网格模型中对应像素的像素值，得到所述每帧图像对应的目标帧人脸图像的步骤之后，若检测出所述每帧图像中存在口腔区域未闭合的图像，则对口腔区域未闭合的每帧图像对应的目标帧人脸图像进行关键点识别获得口腔边缘点；

基于所述口腔区域未闭合的每帧图像对应的二维网格模型中的口腔区域调整所述口腔区域未闭合的每帧图像对应的目标帧人脸图像中的口腔边缘点，并将调整后的口腔边缘点确定的口腔区域各像素的像素值替换为预设口腔网格模板中对应像素的像素值。
如权利要求8～13任一项所述的装置，所述目标帧人脸图像获取单元还被配置为执行：

根据所述每帧图像的面部特征参数分别对所述待处理二维人脸图像的面部特征参数进行调整，获得与所述每帧图像对应的调整后的所述待处理二维人脸图像的面部特征参数的步骤之前，对所述每帧图像进行关键点识别；

根据关键点识别结果对所述每帧图像进行三维重建，得到所述每帧图像的3DMM参数中的面部特征参数。
一种电子设备，包括处理器、用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质上承载一个或多个计算机指令程序，当所述计算机指令程序被一个或多个处理器执行时，所述一个或多个处理器执行权利要求1-7中任一项所述的方法。