WO2023143101A1

WO2023143101A1 - 一种面部视频编码方法、解码方法及装置

Info

Publication number: WO2023143101A1
Application number: PCT/CN2023/071943
Authority: WO
Inventors: 王钊; 李彬哲; 叶琰; 王诗淇
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-01-25
Filing date: 2023-01-12
Publication date: 2023-08-03
Also published as: CN114531561A

Abstract

本申请实施例提供了一种面部视频编码方法、解码方法及装置。面部视频编码方法包括：获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板；对目标面部视频帧和三维面部模板进行特征提取，得到目标三维面部描述信息；编码目标三维面部描述信息，得到面部视频比特流。本申请实施例，使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小。本申请实施例，可以提升面部视频帧重建的质量。

Description

一种面部视频编码方法、解码方法及装置

本申请要求于2022年01月25日提交中国专利局、申请号为202210085764.X、申请名称为“一种面部视频编码方法、解码方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种面部视频编码方法、解码方法及装置。

背景技术

随着视频编解码技术的不断发展，视频编解码设备已被广泛应用于各种场景中，例如：视频会议、视频直播等等。

目前，较为传统的视频编解码方法，通常是基于二维特征对面部视频帧进行面部信息提取和描述的，而二维特征本身是对原始三维面部进行映射得到的，其得到过程存在一定的扭曲和失真，因此，基于上述二维特征进行面部视频的编解码操作，最终得到的重建面部视频帧的质量较差。

发明内容

有鉴于此，本申请实施例提供一种面部视频编码方法、解码方法及装置，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种面部视频编码方法，包括：

获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板；

对所述目标面部视频帧和所述三维面部模板进行特征提取，得到目标三维面部描述信息；

编码所述目标三维面部描述信息，得到面部视频比特流。

根据本申请实施例的第二方面，提供了一种面部视频解码方法，包括：

获取面部视频比特流和三维面部模板；所述面部视频比特流是基于目标面部视频帧对应的目标三维面部描述信息得到的；

解码所述面部视频比特流，得到所述目标三维面部描述信息；

基于所述目标三维面部描述信息，对所述三维面部模板进行形变处理，得到与所述目标面部视频帧对应的重建面部视频帧。

根据本申请实施例的第三方面，提供了一种模型训练方法，包括：

根据目标面部视频帧样本和三维面部模板样本，得到目标三维面部描述样本信息；

将所述目标三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息；

编码所述潜在编码样本信息，得到面部视频比特流样本；

对所述面部视频比特流样本进行解码，得到潜在编码样本信息；并将所述潜在编码样本信息输入待训练的全连接解码模型，得到目标三维面部描述样本信息；

基于所述目标三维面部描述样本信息，对所述三维面部模板样本进行形变处理，得到重建面部视频帧样本；

根据所述面部视频比特流样本对应的传输码率构建码率损失函数；根据所述重建面部视频帧样本和所述目标面部视频帧样本，构建失真损失函数；

基于所述码率损失函数和所述失真损失函数得到训练损失函数，以对全连接编码模型和全连接解码模型进行训练。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的面部视频编码方法对应的操作，或者，如第二方面所述的面部视频解码方法对应的操作，或者，如第三方面所述的模型训练方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的面部视频编码方法，或者，如第二方面所述的面部视频解码方法，或者，如第三方面所述的模型训练方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的面部视频编码方法对应的操作，或者，如第二方面所述的面部视频解码方法对应的操作，或者，如第三方面所述的模型训练方法对应的操作。

根据本申请实施例提供的面部视频编码方法以及解码方法，在编码阶段，是基于三维面部模板，对目标面部视频帧进行了三维面部描述信息的提取，并通过对上述三维面部描述信息编码得到的面部视频比特流，由于面部本身即为三维的，因此，直接使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小。本申请实施例，可以提升面部视频帧重建的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为基于深度视频生成的编解码方法的框架示意图；

图2为根据本申请实施例提供的面部视频通信的场景示意图；

图3为根据本申请实施例一的一种面部视频编码方法的步骤流程图；

图4为图3所示实施例中的一种具体场景示例的示意图；

图5为根据本申请实施例二的一种面部视频解码方法的步骤流程图；

图6为图5所示实施例中的一种具体场景示例的示意图；

图7为根据本申请实施例三的一种模型训练方法的步骤流程图；

图8为图7所示实施例中的一种场景示例的示意图；

图9为根据本申请实施例四的一种面部视频编码装置的结构框图；

图10为根据本申请实施例五的一种面部视频解码装置的结构框图；

图11为根据本申请实施例六的一种模型训练装置的结构框图；

图12为根据本申请实施例七的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

参见图1，图1为基于深度视频生成的编解码方法的框架示意图。该方法的主要原理是基于待编码帧的运动对参考帧进行形变，以得到待编码帧对应的重建帧。下面结合图1对基于深度视频生成的编解码方法的基本框架进行说明：

第一步，编码阶段，编码器采用关键点提取器提取待编码的目标面部视频帧的目标关键点信息，并对目标关键点信息编码；同时，采用传统的图像编码方法(如VVC、HEVC等)对参考面部视频帧进行编码。

第二步，解码阶段，解码器中的运动估计模块，通过关键点提取器提取参考面部视频帧的参考关键点信息；并基于参考关键点信息和目标关键点信息进行稠密运动估计，得到稠密运动估计图和遮挡图，其中，稠密运动估计图表征关键点信息表征的特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系；遮挡图表征目标面部视频帧中各像素点被遮挡的程度。

第三步，解码阶段，解码器中的生成模块基于稠密运动估计图对参考面部视频帧进行形变处理，得到形变处理结果，再将形变处理结果与遮挡图相乘，从而输出重建面部视频帧。

图1所示方法中，是基于从二维面部视频帧中提取到的二维信息(关键点信息)进行面部信息提取和描述，进而进行视频帧重建的，而二维特征本身是对原始三维面部进行映射得到的，其得到过程存在一定的扭曲和失真，因此，上述基于二维特征进行面部视频的编解码操作，最终得到的重建面部视频帧的质量较差。

本申请实施例中，编码阶段，基于三维面部模板，对目标面部视频帧进行了三维面部描述信息的提取，并通过对上述三维面部描述信息编码得到的面部视频比特流，由于面部本身即为三维的，因此，直接使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小。因此，可以提升面部视频帧重建的质量。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

参见图2，图2为根据本申请实施例提供的面部视频通信的一种场景示意图。为便于理解，首先结合图2对本申请实施例的整个面部视频通信过程进行解释说明。其中，整个通信过程包括：由发送端执行的面部视频编码过程，和，由接收端执行的面部视频解码过程。

由发送端执行的面部视频编码过程，包括：获取捕获的由多个连续面部视频帧组成的面部视频，以及获取面部视频中的面部对应的三维面部模板，将面部视频中的各面部视频{I_t|t＝0,1,2...N}和三维面部模板输入发送端的特征提取器，从而得到各面部视频帧I_t的三维面部描述信息(图1中以三维表情信息β_t、三维平移信息l_t以及三维角度信息θ_t作为三维面部描述信息进行举例说明，并不构成对三维面部描述信息的具体先多功能)，再对上述三维面部描述信息进行编码，从而得到面部视频比特流χ_t，以发送至接收端进行解码。

由接收端执行的面部视频解码过程，包括：对接收到的面部视频比特流χ_t进行解码，从而得到三维面部模板，基于得到的上述三维面部描述信息，对三维面部模板进行形变处理(图1中以采用面部3D形变统计模型(3DMM)对三维面部模板进行形变处理为例进行说明，并不构成对本申请中形变处理方式的限定)，得到重建面部视频，以供后续基于三维面部模型的应用程序(如：沉浸式虚拟现实、视频会议/直播，等等)使用。

实施例一

参照图3，图3为根据本申请实施例一的一种面部视频编码方法的步骤流程图。本申请实施例中提供的面部视频编码方法可以对应于上述图1中由发送端执行的面部视频编码过程。具体地，本实施例提供的面部视频编码方法包括以下步骤：

步骤302，获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板。

三维面部模板是面部在空间中的数字化表示，包括多种不同的表示方法，例如：点云、多边形网格、体像素等等，例如：就体像素表示的三维面部模型而言，其具体描述形式可以为：每个体像素的位置信息，以及每个体像素的像素值，等等。

具体地，可以基于参考面部视频帧，采用三维面部重建算法，或者，再结合人工交互操作得到的。例如，三维面部模板的获取过程，可以包括：

基于参考面部视频帧进行三维面部重建，得到初始三维面部模板；响应于对初始三维面部模板的编辑操作，得到三维面部模板。

也就是说，可以先根据现有的三维面部重建算法，得到初始的三维面部模板，但是，初始三维面部模板的精确度可能较低，此后，可以人工对各体像素的位置信息以及像素值等等，进行调整，以更精准地表达参考面部视频帧中的面部。

步骤304，对目标面部视频帧和三维面部模板进行特征提取，得到目标三维面部描述信息。

三维面部描述信息为用于驱动三维面部模板的信息，对应地，目标三维面部描述信息为用于驱动三维面部模板，以得到目标面部视频帧对应的三维面部的信息。

三维面部描述信息可以包括：三维表情信息、三维平移信息、三维角度信息、三维纹理信息、三维形状信息，等等。本申请实施例中，对于三维面部描述信息的具体内容不做限定，可以根据实际需要选择上述信息中的一个或者多个作为面部描述信息。

步骤306，编码目标三维面部描述信息，得到面部视频比特流。

为了降低编码码率，可选地，在其中一些实施例中，在编码目标三维面部描述信息，得到面部视频比特流之前，还可以：

对参考面部视频帧和三维面部模板进行特征提取，得到参考三维面部描述信息；适应性地，编码目标三维面部描述信息，得到面部视频比特流，则可以包括：对参考三维面部描述信息和目标三维面部描述信息进行差分运算，得到差分三维面部描述信息；对差分三维面部描述信息进行编码，得到潜在编码信息，潜在编码信息的维度值小于差分三维面部描述信息；分别对潜在编码信息和参考三维面部描述信息进行熵编码，得到面部视频比特流。

上述编码方式中，首先，是基于参考三维面部描述信息和目标三维面部描述信息的差分结果生成面部视频比特流的，由于差分结果的数据量低于目标三维面部描述信息的数据量，因此，上述方式与直接基于目标三维面部描述信息生成面部视频比特流的方式相比，可以有效降低面部视频流的编码码率；其次，在得到上述差分结果之后，还对差分结果进行了编码(降维处理)，从而使得得到的潜在编码信息的维度小于上述差分结果的维度，这样可以进一步降低待编码的数据量，因此，基于降维得到的上述潜在编码信息得到面部视频比特流，可以进一步地降低编码码率。

进一步地，可以通过机器学习模型，对差分三维面部描述信息进行编码，从而得到潜在编码信息，具体方式可以为：

将差分三维面部描述信息输入全连接编码模型，以使全连接编码模型输出潜在编码信息。

可选的，在其中一些实施例中，为了进一步地降低编码码率，还可以在得到潜在编码信息之后，执行如下操作：

获取与目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；对潜在编码信息和前序潜在编码信息进行差分运算，得到差分潜在编码信息；

对应地，可以通过如下方式得到面部视频比特流，包括：

分别对差分潜在编码信息和参考三维面部描述信息进行熵编码，得到面部视频比特流。

上述方式，在得到目标面部视频帧的潜在编码信息之后，将潜在编码信息和前一面部视频帧对应的前序潜在编码信息进行差分运算，得到了差分潜在编码信息，进而基于差分潜在编码信息生成面部视频比特流，由于差分潜在编码信息的数据量小于潜在编码信息的数据量，因此，基于差分潜在编码信息生成面部视频比特流，可以进一步地降低编码码率。

参见图4，图4为图3所示实施例中的一种具体场景示例的示意图，以下，将参考图4所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

获取参考面部视频帧和目标面部视频帧，以及，三维面部模板，对参考面部视频帧和三维面部模板进行特征提取，得到参考三维面部描述信息ω_r＝{β_r,θ_r,l_r}；对目标面部视频帧和三维面部模板进行特征提取，得到目标三维面部描述信息ω_t＝{β_t,θ_t,l_t}；对ω_r量化之后，与进行ω_t差分运算，进而将差分运算结果输入全连接编码模型，以输出到潜在编码信息η_t，并对η_t量化得到η_t＇，对η_t＇和目标面部视频帧的前一面部视频帧对应的前序潜在编码信息η_(t-1)＇进行差分运算，并对运算结果进行熵编码，同时，对参考三维面部描述信息ω_r 量化得到ω_r＇，并对ω_r＇进行熵编码，从而得到面部视频比特流。

本申请实施例中，在编码阶段，是基于三维面部模板，对目标面部视频帧进行了三维面部描述信息的提取，并通过对上述三维面部描述信息的编码得到的面部视频比特流，由于面部本身即为三维的，因此，直接使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而后续再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小，可以提升面部视频帧重建的质量。

本实施例的面部视频编码方法可以由任意适当的具有数据能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例二

参照图5，图5为根据本申请实施例二的一种面部视频解码方法的步骤流程图。本申请实施例中提供的面部视频解码方法可以对应于上述图2中由接收端执行的面部视频解码过程。具体地，本实施例提供的面部视频解码方法包括以下步骤：

步骤502，获取面部视频比特流和三维面部模板。

其中，面部视频比特流是基于目标面部视频帧对应的目标三维面部描述信息得到的。

三维面部模板可以是从编码段直接传输过来的，也可以是从编码端接收参考面部视频帧之后，基于参考面部视频帧，采用三维面部重建算法，或者，再结合人工交互操作得到的。具体得到三维面部模板的方法可参见步骤302中的详细介绍，此处不再赘述。

步骤504，解码面部视频比特流，得到目标三维面部描述信息。

可选地，面部视频比特流中还可以包括编码后参考三维面部描述信息；对应地，解码面部视频比特流，得到目标三维面部描述信息，包括：

对面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息；对潜在编码信息进行解码，得到差分三维面部描述信息；对参考三维面部描述信息和差分三维面部描述信息进行加和运算，得到目标三维面部描述信息。其中，差分三维面部描述信息是对参考三维面部描述信息和目标三维面部描述信息进行差分运算得到的。

进一步地，可以采用机器学习模型，对潜在编码信息进行解码，以得到差分三维面部描述信息，具体地可以：将潜在编码信息输入全连接解码模型，以使全连接解码模型输出差分三维面部描述信息。

进一步地，对面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息，可以包括：

对面部视频比特流进行熵解码，得到差分潜在编码信息和参考三维面部描述信息；获取与目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；对差分潜在编码信息和前序潜在编码信息进行加和运算，得到潜在编码信息。

步骤506，基于目标三维面部描述信息，对三维面部模板进行形变处理，得到与目标面部视频帧对应的重建面部视频帧。

参见图6，图6为图5所示实施例中的一种具体场景示例的示意图，以下，将参考图6所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

获取面部视频比特流和三维面部模板，对面部视频比特流进行熵解码，分别得到量化后的目标三维面部描述信息ω_r＇，以及，差分潜在编码信息；对潜在编码信息和目标面部视频帧的前一面部视频帧对应的前序潜在编码信息η_(t-1)′进行加和运算，得到量化后的潜在编码信息η_t＇，将η_t＇输入全连接解码模型，得到潜在编码信息η_t，对η_t和ω_r＇进行加和运算，得到重建的目标三维面部描述信息ω_t＇，基于ω_t＇和三维面部模板，采用3DMM算法，得到重建面部视频帧。

本申请实施例中，在编码阶段，是基于三维面部模板，对目标面部视频帧进行了三维面部描述信息的提取，并通过对上述三维面部描述信息编码得到的面部视频比特流，由于面部本身即为三维的，因此，直接使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而在解码阶段，再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小，可以提升面部视频帧重建的质量。

本实施例的面部视频解码方法可以由任意适当的具有数据能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例三

参照图7，图7为根据本申请实施例三的一种模型训练方法的步骤流程图。具体地，本实施例提供的模型训练方法包括以下步骤：

步骤702，根据目标面部视频帧样本和三维面部模板样本，得到目标三维面部描述样本信息。

步骤704，将目标三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息。

步骤706，编码潜在编码样本信息，得到面部视频比特流样本。

步骤708，对面部视频比特流样本进行解码，得到潜在编码样本信息；并将潜在编码样本信息输入待训练的全连接解码模型，得到目标三维面部描述样本信息。

步骤710，基于目标三维面部描述样本信息，对三维面部模板样本进行形变处理，得到重建面部视频帧样本。

步骤712，根据面部视频比特流样本对应的传输码率构建码率损失函数；根据重建面部视频帧样本和目标面部视频帧样本，构建失真损失函数。

步骤714，基于码率损失函数和失真损失函数得到训练损失函数，以对全连接编码模型和全连接解码模型进行训练。

可选地，为了进一步地降低编码码率，在执行步骤702的同时，可以：基于参考面部视频帧样本和三维面部模板样本得到参考三维面部描述样本信息。对应地，步骤704-步骤710可以包括：

基于参考三维面部描述样本信息和目标三维面部描述样本信息，得到差分三维面部描述样本信息；将差分三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息；编码潜在编码样本信息和参考三维面部描述样本信息，得到面部视频比特流样本；对面部视频比特流样本进行解码，得到潜在编码样本信息和参考三维面部描述样本信息；将潜在编码样本信息输入待训练的全连接解码模型，得到差分三维面部描述样本信息；基于参考三维面部描述样本信息和差分三维面部描述样本信息，得到目标三维面部描述样本信息；基于目标三维面部描述样本信息，对三维面部模板样本进行形变处理，得到重建面部视频帧样本。

步骤712中，在构建失真损失函数时，可以直接将基于目标三维面部描述样本信息和重建得到的三维面部描述样本信息进行平均误差计算(如MAE,Mean Absolute Error)的计算结果作为失真损失函数；也可以先分别将基于目标面部视频帧样本和重建的目标面部视频帧样本输入现有的面部特征点提取模型，从而分别得到目标面部视频帧样本对应的目标面部特征点，以及，重建面部视频帧样本对应的重建面部特征点，再基于目标面部特征点的位置信息，以及重建面部特征点的位置信息，基于平均误差构建失真损失函数；还可以，对上述两种方式进行融合，将直接基于目标三维面部描述样本信息和重建得到的三维面部描述样本信息进行平均误差计算的计算结果作为第一失真损失函数，与基于目标面部特征点的位置信息，以及重建面部特征点的位置信息得到的第二失真损失函数进行加权融合，从而得到最终的训练损失函数。

对应地，在步骤712中，可以分别为码率损失函数、第一失真损失函数以及第二失真损失函数设定对应的权重值，然后基于设定的各权重值，对上述三种类型的损失函数进行加和处理，从而得到最终的训练损失函数。具体地，可参见如下公式：

L＝λ₁L_R+λ₂L_M+λ₃L_L

其中，L为最终的训练损失函数；L_R为码率损失函数；L_M为第一失真损失函数；L_L为第二失真损失函数；λ₁、λ₂、λ₃分别为码率损失函数的权重值、第一失真损失函数的权重值，以及第二失真损失函数的权重值。

对于本申请实施例中各步骤的具体执行过程，可以参考前述实施例中的对应步骤，此处不再赘述。

参见图8，图8为本申请实施例三对应的场景示意图，该图在图4和图6的基础上，增加了码率损失函数、第一失真损失函数以及第二失真损失函数，从图8中可以看出：码率损失函数是基于面部视频比特流样本对应的传输码率构建的；第一失真损失函数是基于目标三维面部描述样本信息和重建得到的三维面部描述样本信息构建的；第二失真损失函数是基于目标面部视频帧样本和重建面部视频帧样本得到的。

本实施例的模型训练方法可以由任意适当的具有数据能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例四

参见图9，图9为根据本申请实施例四的一种面部视频编码装置的结构框图。本申请实施例提供的面部视频编码装置包括：

第一获取模块902，用于获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板；

目标三维面部描述信息得到模块904，用于对目标面部视频帧和三维面部模板进行特征提取，得到目标三维面部描述信息；

编码模块906，用于编码目标三维面部描述信息，得到面部视频比特流。

可选地，在其中一些实施例中，面部视频编码装置还包括：

参考三维面部描述信息得到模块，用于对参考面部视频帧和三维面部模板进行特征提取，得到参考三维面部描述信息；

编码模块906，具体用于对参考三维面部描述信息和目标三维面部描述信息进行差分运算，得到差分三维面部描述信息；对差分三维面部描述信息进行编码，得到潜在编码信息，潜在编码信息的维度值小于差分三维面部描述信息；分别对潜在编码信息和参考三维面部描述信息进行熵编码，得到面部视频比特流。

可选地，在其中一些实施例中，编码模块906在执行对差分三维面部描述信息进行编码，得到潜在编码信息的步骤时，具体用于：

可选地，在其中一些实施例中，面部视频编码装置还包括：

差分潜在编码信息得到模块，用于在得到潜在编码信息之后，获取与目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；对潜在编码信息和前序潜在编码信息进行差分运算，得到差分潜在编码信息；

对应地，编码模块906在执行分别对潜在编码信息和参考三维面部描述信息进行熵编码，得到面部视频比特流的步骤时，具体用于；分别对差分潜在编码信息和参考三维面部描述信息进行熵编码，得到面部视频比特流。

可选地，在其中一些实施例中,目标三维面部描述信息，包括如下至少一项：三维表情信息、三维平移信息、三维角度信息。

本实施例的面部视频编码装置用于实现前述多个方法实施例中相应的面部视频编码方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的面部视频编码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例五

参见图10，图10为根据本申请实施例五的一种面部视频解码装置的结构框图。本申请实施例提供的面部视频解码装置包括：

第二获取模块1002，用于获取面部视频比特流和三维面部模板；面部视频比特流是基于目标面部视频帧对应的目标三维面部描述信息得到的；

解码模块1004，用于解码面部视频比特流，得到目标三维面部描述信息；

重建面部视频帧得到模块1006，用于基于目标三维面部描述信息，对三维面部模板进行形变处理，得到与目标面部视频帧对应的重建面部视频帧。

可选地，在其中一些实施例中,面部视频比特流中还包括编码后参考三维面部描述信息；解码模块1004，具体用于：对面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息；对潜在编码信息进行解码，得到差分三维面部描述信息，差分三维面部描述信息是对参考三维面部描述信息和目标三维面部描述信息进行差分运算得到的；对参考三维面部描述信息和差分三维面部描述信息进行加和运算，得到目标三维面部描述信息。

可选地，在其中一些实施例中,解码模块1004在执行对潜在编码信息进行解码，得到差分三维面部描述信息的步骤时，具体用于：

将潜在编码信息输入全连接解码模型，以使全连接解码模型输出差分三维面部描述信息。

可选地，在其中一些实施例中,解压模块1004在执行对面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息的步骤时，具体用于：对面部视频比特流进行熵解码，得到差分潜在编码信息和参考三维面部描述信息；获取与目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；对差分潜在编码信息和前序潜在编码信息进行加和运算，得到潜在编码信息。

本实施例的面部视频解码装置用于实现前述多个方法实施例中相应的面部视频解码方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的面部视频解码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例六

参见图11，图11为根据本申请实施例六的一种模型训练装置的结构框图。本申请实施例提供的模型训练装置包括：

目标三维面部描述样本信息提取模块1102，用于根据目标面部视频帧样本和三维面部模板样本，得到目标三维面部描述样本信息；

全连接编码模块1104，用于将目标三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息；

视频流样本得到模块1106，用于编码潜在编码样本信息，得到面部视频比特流样本；

全连接解码模块1108，用于对面部视频比特流样本进行解码，得到潜在编码样本信息；并将潜在编码样本信息输入待训练的全连接解码模型，得到目标三维面部描述样本信息；

重建面部视频帧样本得到模块1110，用于基于目标三维面部描述样本信息，对三维面部模板样本进行形变处理，得到重建面部视频帧样本；

损失函数构建模块1112，用于根据面部视频比特流样本对应的传输码率构建码率损失函数；根据重建面部视频帧样本和目标面部视频帧样本，构建失真损失函数；

训练模块1114，用于基于码率损失函数和失真损失函数得到训练损失函数，以对全连接编码模型和全连接解码模型进行训练。

本实施例的模型训练装置用于实现前述多个方法实施例中相应的模型训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的模型训练装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七

参照图12，示出了根据本申请实施例七的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图12所示，该会议终端可以包括：处理器(processor)1202、通信接口(Communications Interface)1204、存储器(memory)1206、以及通信总线1108。

其中：

处理器1202、通信接口1204、以及存储器1206通过通信总线1208完成相互间的通信。

通信接口1204，用于与其它电子设备或服务器进行通信。

处理器1202，用于执行程序1210，具体可以执行上述面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法实施例中的相关步骤。

具体地，程序1210可以包括程序代码，该程序代码包括计算机操作指令。

处理器1202可能是CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1206，用于存放程序1210。存储器1206可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序1210具体可以用于使得处理器1202执行以下操作：获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板；对所述目标面部视频帧和所述三维面部模板进行特征提取，得到目标三维面部描述信息；编码所述目标三维面部描述信息，得到面部视频比特流。

或者，

程序1210具体可以用于使得处理器1202执行以下操作：获取面部视频比特流和三维面部模板；所述面部视频比特流是基于目标面部视频帧对应的目标三维面部描述信息得到的；解码所述面部视频比特流，得到所述目标三维面部描述信息；基于所述目标三维面部描述信息，对所述三维面部模板进行形变处理，得到与所述目标面部视频帧对应的重建面部视频帧。

或者，

程序1210具体可以用于使得处理器1202执行以下操作：根据目标面部视频帧样本和三维面部模板样本，得到目标三维面部描述样本信息；将所述目标三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息；编码所述潜在编码样本信息，得到面部视频比特流样本；对所述面部视频比特流样本进行解码，得到潜在编码样本信息；并将所述潜在编码样本信息输入待训练的全连接解码模型，得到目标三维面部描述样本信息；基于所述目标三维面部描述样本信息，对所述三维面部模板样本进行形变处理，得到重建面部视频帧样本；根据所述面部视频比特流样本对应的传输码率构建码率损失函数；根据所述重建面部视频帧样本和所述目标面部视频帧样本，构建失真损失函数；基于所述码率损失函数和所述失真损失函数得到训练损失函数，以对全连接编码模型和全连接解码模型进行训练。

程序1210中各步骤的具体实现可以参见上述面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，在编码阶段，是基于三维面部模板，对目标面部视频帧进行了三维面部描述信息的提取，并通过对上述三维面部描述信息的编码得到的面部视频比特流，由于面部本身即为三维的，因此，直接使用三维面部描述信息对面部进行描述，描述信息的准确度更高，进而再基于上述描述准确度较高的三维面部描述信息进行面部视频帧重建，得到的重建面部视频帧与目标面部视频帧间的质量差异则较小。本申请实施例，可以提升面部视频帧重建的质量。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法。此外，当通用计算机访问用于实现在此示出的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

一种面部视频编码方法，包括：

获取待编码的目标面部视频帧和与参考面部视频帧对应的三维面部模板；

对所述目标面部视频帧和所述三维面部模板进行特征提取，得到目标三维面部描述信息；

编码所述目标三维面部描述信息，得到面部视频比特流。
根据权利要求1所述的方法，其中，在所述编码所述目标三维面部描述信息，得到面部视频比特流之前，所述方法还包括：

对所述参考面部视频帧和所述三维面部模板进行特征提取，得到参考三维面部描述信息；

所述编码所述目标三维面部描述信息，得到面部视频比特流，包括：

对所述参考三维面部描述信息和所述目标三维面部描述信息进行差分运算，得到差分三维面部描述信息；

对所述差分三维面部描述信息进行编码，得到潜在编码信息，所述潜在编码信息的维度值小于所述差分三维面部描述信息；

分别对所述潜在编码信息和所述参考三维面部描述信息进行熵编码，得到面部视频比特流。
根据权利要求2所述的方法，其中，所述对所述差分三维面部描述信息进行编码，得到潜在编码信息，包括：

将所述差分三维面部描述信息输入全连接编码模型，以使所述全连接编码模型输出潜在编码信息。
根据权利要求2所述的方法，其中，在所述得到潜在编码信息之后，所述方法还包括：

获取与所述目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；

对所述潜在编码信息和所述前序潜在编码信息进行差分运算，得到差分潜在编码信息；

所述分别对所述潜在编码信息和所述参考三维面部描述信息进行熵编码，得到面部视频比特流，包括：

分别对所述差分潜在编码信息和所述参考三维面部描述信息进行熵编码，得到面部视频比特流。
根据权利要求1所述的方法，其中，所述目标三维面部描述信息，包括如下至少一项：三维表情信息、三维平移信息、三维角度信息。
根据权利要求1所述的方法，其中，所述三维面部模板的获取过程，包括：

基于所述参考面部视频帧进行三维面部重建，得到初始三维面部模板；

响应于对所述初始三维面部模板的编辑操作，得到三维面部模板。
一种面部视频解码方法，包括：

获取面部视频比特流和三维面部模板；所述面部视频比特流是基于目标面部视频帧对应的目标三维面部描述信息得到的；

解码所述面部视频比特流，得到所述目标三维面部描述信息；

基于所述目标三维面部描述信息，对所述三维面部模板进行形变处理，得到与所述目标面部视频帧对应的重建面部视频帧。
根据权利要求7所述的方法，其中，所述面部视频比特流中还包括编码后参考三维面部描述信息；

所述解码所述面部视频比特流，得到所述目标三维面部描述信息，包括：

对所述面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息；

对所述潜在编码信息进行解码，得到差分三维面部描述信息，所述差分三维面部描述信息是对参考三维面部描述信息和目标三维面部描述信息进行差分运算得到的；

对所述参考三维面部描述信息和所述差分三维面部描述信息进行加和运算，得到所述目标三维面部描述信息。
根据权利要求8所述的方法，其中，所述对所述潜在编码信息进行解码，得到差分三维面部描述信息，包括：

将所述潜在编码信息输入全连接解码模型，以使所述全连接解码模型输出差分三维面部描述信息。
根据权利要求8所述的方法，其中，所述对所述面部视频比特流进行熵解码，得到潜在编码信息和参考三维面部描述信息，包括：

对所述面部视频比特流进行熵解码，得到差分潜在编码信息和参考三维面部描述信息；

获取与所述目标面部视频帧的前一面部视频帧对应的前序潜在编码信息；

对所述差分潜在编码信息和所述前序潜在编码信息进行加和运算，得到潜在编码信息。
一种模型训练方法，包括：

根据目标面部视频帧样本和三维面部模板样本，得到目标三维面部描述样本信息；

将所述目标三维面部描述样本信息输入待训练的全连接编码模型，得到潜在编码样本信息；

编码所述潜在编码样本信息，得到面部视频比特流样本；

对所述面部视频比特流样本进行解码，得到潜在编码样本信息；并将所述潜在编码样本信息输入待训练的全连接解码模型，得到目标三维面部描述样本信息；

基于所述目标三维面部描述样本信息，对所述三维面部模板样本进行形变处理，得到重建面部视频帧样本；

根据所述面部视频比特流样本对应的传输码率构建码率损失函数；根据所述重建面部视频帧样本和所述目标面部视频帧样本，构建失真损失函数；

基于所述码率损失函数和所述失真损失函数得到训练损失函数，以对全连接编码模型和全连接解码模型进行训练。
一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的面部视频编码方法对应的操作，或者，如权利要求7-10中任一项所述的面部视频解码方法对应的操作，或者，如权利要求11中所述的模型训练方法对应的操作。