WO2023143349A1

WO2023143349A1 - 一种面部视频编码方法、解码方法及装置

Info

Publication number: WO2023143349A1
Application number: PCT/CN2023/073054
Authority: WO
Inventors: 王钊; 陈柏林; 叶琰; 王诗淇
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-01-25
Filing date: 2023-01-19
Publication date: 2023-08-03
Also published as: CN114422795A

Abstract

本申请实施例提供了一种面部视频编码方法、解码方法及装置。面部视频编码方法包括：获取待编码的目标面部视频帧和参考面部视频帧；对所述目标面部视频帧进行特征提取，得到目标紧凑特征，所述目标紧凑特征表征所述目标面部视频帧中的关键特征信息；分别对所述目标紧凑特征和所述参考面部视频帧进行编码，得到面部视频比特流。本申请实施例，可以在保证面部视频编码质量的前提下，降低编码码率，更好地满足了低码率面部视频编码的需求。

Description

一种面部视频编码方法、解码方法及装置

本申请要求于2022年01月25日提交中国专利局、申请号为202210085278.8、申请名称为“一种面部视频编码方法、解码方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种面部视频编码方法、解码方法及装置。

背景技术

随着视频编解码技术的不断发展，视频编解码设备已被广泛应用于各种场景中，例如：视频会议、视频直播等等。

目前，较为传统的视频编解码方法通常针对的是普遍的自然场景，采用基于块的运动估计、离散余弦变换等方法进行视频帧的编解码。

采用传统视频编码方法对面部视频进行编码时，为保证视频编码质量，视频的编码率通常较低，无法满足低码率面部视频编码的需求。

发明内容

有鉴于此，本申请实施例提供一种面部视频编码方法、解码方法及装置，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种面部视频编码方法，包括：

获取待编码的目标面部视频帧和参考面部视频帧；

对所述目标面部视频帧进行特征提取，得到目标紧凑特征，所述目标紧凑特征表征所述目标面部视频帧中的关键特征信息；

分别对所述目标紧凑特征和所述参考面部视频帧进行编码，得到面部视频比特流。

根据本申请实施例的第二方面，提供了一种面部视频解码方法，包括：

获取面部视频比特流，所述面部视频比特流包括：编码后参考面部视频帧和编码后紧凑特征信息；所述编码后紧凑特征信息表征待重建的目标面部视频帧的关键特征信息；

解码所述编码后参考面部视频帧，并对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征；

解码所述编码后紧凑特征信息，得到所述目标面部视频帧的目标紧凑特征；

基于所述参考紧凑特征和所述目标紧凑特征进行稀疏运动估计，得到稀疏运动估计图，所述稀疏运动估计图表征在预设的稀疏特征域中，所述目标面部视频帧与所述参考面部视频帧之间的相对运动关系；

根据所述稀疏运动估计图和所述参考面部视频帧，得到与所述目标面部视频帧对应的重建面部视频帧。

根据本申请实施例的第三方面，提供了一种模型训练方法，包括：

将目标面部视频帧样本输入特征提取模型，得到目标紧凑特征样本；分别对所述目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本；

解码所述面部视频比特流样本，得到所述参考面部视频帧样本和所述目标紧凑特征样本；将所述参考面部视频帧样本输入所述特征提取模型，得到参考紧凑特征样本；

基于所述参考紧凑特征样本和所述目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将所述稀疏运动估计样本图和所述参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本；

根据所述初始重建面部视频帧样本和所述目标面部视频帧样本，分别构建感知损失函数和对抗损失函数；基于所述初始重建面部视频帧、所述目标面部视频帧样本以及所述目标紧凑特征样本对应的传输码率，得到率失真损失函数；

对所述感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据所述训练损失函数，对所述特征提取模型和所述形变图像预估模型进行训练。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的面部视频编码方法对应的操作，或者，如第二方面所述的面部视频解码方法对应的操作，或者，如第三方面所述的模型训练方法对应的操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的面部视频编码方法，或者，如第二方面所述的面部视频解码方法，或者，如第三方面所述的模型训练方法。

根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的面部视频编码方法对应的操作，或者，如第二方面所述的面部视频解码方法对应的操作，或者，如第三方面所述的模型训练方法对应的操作。

根据本申请实施例提供的面部视频编码方法以及解码方法，在编码阶段，是对目标面部视频帧进行了目标紧凑特征提取，并通过对上述目标紧凑特征的编码得到的面部视频比特流，由于目标紧凑特征是表征目标面部视频帧中的关键特征信息的特征，其通过较小的数据量表征了整个面部视频帧中的关键信息，因此，通过对目标紧凑特征的编码得到的面部视频比特流，其数据量也较小，在进行视频流传输时对应的比特流也较小(码率较低)，另外，在解码阶段，对上述得到的面部视频比特流进行解码，再基于解码得到的表征目标面部视频帧中关键特征信息的目标紧凑特征，进行面部视频帧重构，得到的重构视频帧与目标面部视频帧间的质量差异也较小。综上，本申请实施例，可以在保证面部视频重建质量的前提下，降低编码码率，更好地满足了低码率面部视频编码的需求。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为基于深度视频生成的编解码方法的框架示意图；

图2为根据本申请实施例一的一种面部视频编码方法的步骤流程图；

图3为图2所示实施例中的一种场景示例的示意图；

图4为根据本申请实施例二的一种面部视频解码方法的步骤流程图；

图5为图4所示实施例中的一种场景示例的示意图；

图6为图4所示实施例中的另一种场景示例的示意图；

图7为根据本申请实施例三的一种模型训练方法的步骤流程图；

图8为图7所示实施例中的一种场景示例的示意图；

图9为根据本申请实施例四的一种面部视频编码装置的结构框图；

图10为根据本申请实施例五的一种面部视频解码装置的结构框图；

图11为根据本申请实施例六的一种模型训练装置的结构框图；

图12为根据本申请实施例七的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

参见图1，图1为基于深度视频生成的编解码方法的框架示意图。该方法的主要原理是基于待编码帧的运动对参考帧进行形变，以得到待编码帧对应的重建帧。下面结合图1对基于深度视频生成的编解码方法的基本框架进行说明：

第一步，编码阶段，编码器采用关键点提取器提取待编码的目标面部视频帧的目标关键点信息，并对目标关键点信息编码；同时，采用传统的图像编码方法(如VVC、HEVC等)对参考面部视频帧进行编码。

第二步，解码阶段，解码器中的运动估计模块，通过关键点提取器提取参考面部视频帧的参考关键点信息；并基于参考关键点信息和目标关键点信息进行稠密运动估计，得到稠密运动估计图和遮挡图，其中，稠密运动估计图表征关键点信息表征的特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系；遮挡图表征目标面部视频帧中各像素点被遮挡的程度。

第三步，解码阶段，解码器中的生成模块基于稠密运动估计图对参考面部视频帧进行形变处理，得到形变处理结果，再将形变处理结果与遮挡图相乘，从而输出重建面部视频帧。

图1所示方法中，是基于从面部视频帧中提取到的关键点信息进行面部视频帧重建的，而关键点信息为显示表示的信息，在编码过程中，关键点信息的数据量无法根据对编码比特消耗的具体要求进一步减小，因此，上述方法无法满足低码率面部视频帧的编码要求。

另外，基于关键点信息得到的重建面部视频帧，与原始目标面部视频帧相比，其面部姿态信息以及表情信息等通常无法较为准确地得到重建，也就是说，视频帧的重建质量较低。

本申请实施例中，基于从面部视频帧提取到表征其关键特征信息的紧凑特征进行面部视频帧重建。与关键点信息相比，紧凑特征这一隐式特征，其不但能够表征视频帧中的关键特征信息，而且，紧凑特征矩阵的大小，可以根据比特消耗的具体要求进一步地减小，也就是说，紧凑特征可以通过较小的数据量表征整个面部视频帧中的关键信息，因此，通过对紧凑特征的编码得到的面部视频比特流，其数据量也较小，在进行视频流传输时对应的比特流也较小(码率较低)。

另外，对于面部视频帧而言，关键特征信息可以包括五官位置信息、姿态信息以及表情信息等等。因此，与关键点信息相比，紧凑特征表征的信息更丰富，进而，得到的重建视频帧与原始目标面部视频帧的图像质量也更加接近。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

参照图2，图2为根据本申请实施例一的一种面部视频编码方法的步骤流程图。具体地，本实施例提供的面部视频编码方法包括以下步骤：

步骤202，获取待编码的目标面部视频帧和参考面部视频帧。

步骤204，对目标面部视频帧进行特征提取，得到目标紧凑特征，目标紧凑特征表征目标面部视频帧中的关键特征信息。

本申请实施例中，可以借助机器学习模型对目标面部视频帧进行特征提取，从而得到目标紧凑特征。具体地：可以将目标面部视频帧输入预先训练完成的特征提取模型中，以使特征提取模型输出各目标面部视频帧的目标紧凑特征。

对于面部视频帧而言，关键特征信息具体可以为：五官位置信息、姿态信息以及表情信息等等。

本申请实施例中，对于特征提取模型的结构和参数不做限定，可以根据实际需要进行设定，例如：特征提取模型可以为基于卷积层和广义除法归一化层组合而成的U-Net网络，等等。

步骤206，分别对目标紧凑特征和参考面部视频帧进行编码，得到面部视频比特流。

具体地，针对参考面部视频帧，可以采用相对较小的量化失真进行编码，编码过程保留参考面部视频帧的完整数据，例如：可以采用通用视频编码(VVC)的方式，对参考面部视频帧进行编码。针对目标紧凑特征，则可以通过量化及熵编码的方式，进行编码。

参见图3，图3为本申请实施例一对应的场景示意图，以下，将参考图3所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

分别获取目标面部视频帧a，以及，参考面部视频帧a0；对目标面部视频帧a进行特征提取，得到目标紧凑特征；对目标紧凑特征以及参考面部视频帧a0分别进行编码，从而得到面部视频比特流，后续可以将面部视频比特流传送至解码端，以通过解码端对基于面部视频比特流进行面部视频流解码，从而得到目标面部视频帧a对应的重构面部视频帧。

进一步的，在本申请一些实施例中，为了进一步降低面部视频编码的码率，可以基于相邻目标面部视频帧的目标紧凑特征，进行差分运算，再对差分运算得到的差值进行编码以形成面部视频比特流。

具体过程如下：

分别对各目标面部视频帧进行特征提取，得到各目标面部视频帧的目标紧凑特征；对相邻两个目标面部视频帧的目标紧凑特征进行差分运算，得到目标紧凑特征残差；分别对目标紧凑特征残差和参考面部视频帧进行编码，得到面部视频比特流。

与直接基于目标紧凑特征进行编码处理的方式相比，上述方式中，是基于目标紧凑特征之间的差值进行编码处理，从而得到面部视频比特流的，显然，目标紧凑特征之间的差值的数据量小于目标紧凑特征本身的数据量，因此，基于目标紧凑特征之间的差值进行编码处理，可以有效降低面部视频编码的码率。

本申请实施例中，在编码阶段，是对目标面部视频帧进行了目标紧凑特征提取，并通过对上述目标紧凑特征的编码得到的面部视频比特流，由于目标紧凑特征是表征目标面部视频帧中的关键特征信息的特征，其通过较小的数据量表征了整个面部视频帧中的关键信息，因此，通过对目标紧凑特征的编码得到的面部视频比特流，其数据量也较小，在进行视频流传输时对应的比特流也较小(码率较低)。本申请实施例，可以降低编码码率，更好地满足了低码率面部视频编码的需求。

本申请实施例一提供的面部视频编码方法，可以由视频编码端(编码器)执行，用于对面部视频文件进行编码，以实现对面部视频文件的数字宽带进行压缩。其可以适用与多种不同的场景，如：常规的涉及面部的视频游戏的存储和流式传输，具体地：可以通过本申请实施例提供的面部视频编码方法对游戏视频帧进行编码，形成对应的视频码流，以在视频流服务或者其他类似的应用中存储和传输；又如：视频会议、视频直播等低延时场景，具体地：可以通过本申请实施例提供的面部视频编码方法对视频采集设备采集到的面部视频数据进行编码，形成对应的视频码流，并发送至会议终端，通过会议终端对视频码流进行解码从而得到对应的面部视频画面；还如：虚拟现实场景，可以通过本申请实施例提供的面部视频编码方法对视频采集设备采集到的面部视频数据进行编码，形成对应的视频码流，并发送至虚拟现实相关设备(如VR虚拟眼镜等)，通过VR设备对视频码流进行解码从而得到对应的面部视频画面，并基于面部视频画面实现对应的VR功能，等等。

实施例二

参照图4，图4为根据本申请实施例二的一种面部视频解码方法的步骤流程图。具体地，本实施例提供的面部视频解码方法包括以下步骤：

步骤402，获取面部视频比特流，面部视频比特流包括：编码后参考面部视频帧和编码后紧凑特征信息。

其中，编码后紧凑特征信息表征待重建的目标面部视频帧的关键特征信息。

本申请实施例中，编码后紧凑特征信息对应为对各目标面部视频帧进行特征提取得到的用于表征关键特征信息的紧凑特征信息，也可以对应为：相邻的目标面部视频帧的目标紧凑特征之间的差值。

步骤404，解码编码后参考面部视频帧，并对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征。

可以借助机器学习模型对参考面部视频帧进行特征提取，从而得到参考紧凑特征。具体地：可以将参考面部视频帧输入预先训练完成的特征提取模型中，以使特征提取模型输出各参考面部视频帧的参考紧凑特征。

步骤406，解码编码后紧凑特征信息，得到目标面部视频帧的目标紧凑特征。

当编码后紧凑特征信息对应为对各目标面部视频帧进行特征提取得到的用于表征关键特征信息的紧凑特征信息时，可以对编码后紧凑特征信息进行解码处理，从而得到目标面部视频帧的目标紧凑特征；当编码后紧凑特征信息对应为：相邻的目标面部视频帧的目标紧凑特征之间的差值时，则可以在获取到前一目标面部视频帧的目标紧凑特征之后，基于解码后的目标紧凑特征之间的差值，计算出后一目标面部视频帧的目标紧凑特征。

步骤408，基于参考紧凑特征和目标紧凑特征进行稀疏运动估计，得到稀疏运动估计图。

稀疏运动估计图表征在预设的稀疏特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系。

两个不同的面部视频帧之间，可以通过若干种方式表征其相对运动关系，例如：可以在像素级别上，分别计算两个面部视频帧中的每个像素之间的相对运动关系；也可以，对两个面部视频帧进行特征提取，得到对应的较为稀疏的特征图，从而在上述特征图(特征域)级别上，分别计算两个面部视频帧之间的相对运动关系。

本步骤中，则可以是按照后一种方式，在紧凑特征级别上，基于参考紧凑特征和目标紧凑特征，得到紧凑特征域中，参考面部视频帧与目标面部视频帧时间的相对运动关系。

步骤410，根据稀疏运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧。

参见图5，图5本申请实施例二对应的场景示意图，以下，将参考图5所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

获取由编码后参考面部视频帧和编码后紧凑特征信息组成的面部视频比特流；对编码后参考面部视频帧进行解码，从而得到参考面部视频帧，并对参考面部视频帧进行特征提取，得到参考紧凑特征；另外，对编码后紧凑特征信息进行解码，从而得到目标面部视频帧的目标紧凑特征；然后，基于得到的参考紧凑特征和目标紧凑特征进行稀疏运动估计，从而得到稀疏运动估计图；最后，即可根据稀疏运动估计图和参考面部视频帧，进行面部视频帧重建，从而得到与目标面部视频帧对应的重建面部视频帧。

由于稀疏运动估计图表征的是在稀疏特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系，也就是说，稀疏运动估计图表征的是一个较为粗略的相对运动关系，因此，直接根据稀疏运动估计图和参考面部视频帧，生成与目标面部视频帧对应的重建面部视频帧，得到的重建面部视频帧与目标面部视频帧之间的质量差异可能较大。

因此，为了进一步提高重建面部视频帧的质量，进一步地，在其中一些实施例中，根据稀疏运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧，可以包括：

基于稀疏运动估计图，对参考面部视频帧进行形变处理，得到目标面部视频帧对应的初始重建面部视频帧；

对参考紧凑特征和目标紧凑特征进行差分运算，得到紧凑特征差值；

根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，稠密运动估计图表征在预设的稠密特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系；

根据稠密运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧。

上述方式中，再次基于紧凑特征之间的差值，以及，基于稀疏运动估计图和参考面部视频帧生成的初始建面部视频帧，得到了稠密运动估计图，也即：在更为稠密的特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系，该相对运动关系相较于稀疏运动估计图表征的相对运动关系，则更为精准，因此，基于稠密运动估计图和参考面部视频帧，生成重建面部视频帧，可以提高重建面部视频帧的质量。

进一步地，在其中一些实施例中，根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，进一步地可以包括：

根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图和遮挡图，遮挡图表征目标面部视频帧中各像素点被遮挡的程度；

根据稠密运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧，包括：

根据稠密运动估计图、参考面部视频帧以及遮挡图，得到与目标面部视频帧对应的重建面部视频帧。

具体地，可以先根据稠密运动估计图，对参考面部视频帧进行形变处理，得到形变面部视频帧，再基于遮挡图，对形变面部视频帧进一步进行形变处理，得到最终的重建面部视频帧。

在参考面部视频帧和目标面部视频帧中，面部可能会发生一定角度的扭转，此时，可能会存在视频帧中的某些像素点被遮挡的情况。例如：参考面部视频帧中的面部为正面的面部，而目标面部视频帧的面部则稍微像左侧或者右侧转动了一定角度，此时，则存在被遮挡的像素点。

因此，为了进一步提升重建面部视频帧的质量，在生成重建面部视频帧的过程中，可以在考虑稠密运动估计图的基础上，同时考虑视频帧中各像素点被遮挡的概率，基于稠密运动估计图和遮挡图，对参考面部视频帧进行变形处理，从而得到更为精准的重建面部视频帧。

进一步的，为提高面部视频解码的整体效率，上述一些步骤，可以借助机器学习模型进行处理，具体地：

对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征，可以包括：

将解码得到的参考面部视频帧输入特征提取模型，以使特征提取模型输出参考紧凑特征。

基于稀疏运动估计图，对参考面部视频帧进行形变处理，得到目标面部视频帧对应的初始重建面部视频帧，可以包括：

将稀疏运动估计图和参考面部视频帧输入形变图像预估模型，以使形变图像预估模型输出目标面部视频帧对应的初始重建面部视频帧。

根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，可以包括：

将紧凑特征差值和初始重建面部视频帧输入稠密运动估计模型，以使稠密运动估计模型输出稠密运动估计图。

根据稠密运动估计图、参考面部视频帧以及遮挡图，得到与目标面部视频帧对应的重建面部视频帧，可以包括：

将稠密运动估计图、参考面部视频帧以及遮挡图输入生成模型，以使生成模型输出与目标面部视频帧对应的重建面部视频帧。

参见图6，图6为本申请实施例二对应的另一场景示意图，该场景是在图5所示场景的基础上，同时基于稠密运动估计图、遮挡图，对参考面部视频帧进行形变处理，得到最终的重建面部视频帧，具体地：

在图5的基础上，根据稀疏运动估计图和参考面部视频帧，进行面部视频帧重建，从而得到与目标面部视频帧对应的初始重建面部视频帧；同时，对参考面部视频帧和目标面部视频帧进行差分运算，得到差分运算结果；再基于初始重建面部视频帧和上述差分运算结果，进行稠密运动估计，同时得到稠密运动估计图和遮挡图；最后，基于稠密运动估计图、遮挡图以及参考面部视频帧，得到最终的与目标面部视频帧对应的重建面部视频帧。

本申请实施例中，在解码阶段，对编码阶段得到的面部视频比特流进行解码，再基于解码得到的目标紧凑特征，进行面部视频帧重构，由于目标紧凑特征能够表征目标面部视频帧中关键特征信息，因此，基于目标紧凑特征得到的重构视频帧与目标面部视频帧间的质量差异也较小。本申请实施例，可以降低编码码率的同时，得到较高质量的重构面部视频帧。

本实施例的面部视频解码方法可以由任意适当的具有数据能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例三

参照图7，图7为根据本申请实施例三的一种模型训练方法的步骤流程图。具体地，本实施例提供的模型训练方法包括以下步骤：

步骤702，将目标面部视频帧样本输入特征提取模型，得到目标紧凑特征样本；分别对目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本。

本申请中，对于特征提取模型的结构和参数不做限定，可以根据实际需要进行设定，例如：特征提取模型可以为基于卷积层和广义除法归一化层组合而成的U-Net网络，等等。

步骤704，解码面部视频比特流样本，得到参考面部视频帧样本和目标紧凑特征样本；将参考面部视频帧样本输入特征提取模型，得到参考紧凑特征样本。

本步骤中的特征提取模型，可以为与步骤602中的特征提取模型完全相同的模型，以便于得到与目标紧凑特征样本对应的参考紧凑特征样本。

步骤706，基于参考紧凑特征样本和目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将稀疏运动估计样本图和参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本。

本申请中，对于形变图像预估模型的结构和参数也不做限定，可以根据实际需要进行设定，例如：也可以为基于卷积层和广义除法归一化层组合而成的U-Net网络，等等。

上述步骤702-步骤706中各步骤的具体执行过程，可以参考上述实施例一或者实施例二中的对应步骤，此处不再赘述。

步骤708，根据初始重建面部视频帧样本和目标面部视频帧样本，分别构建感知损失函数和对抗损失函数；基于初始重建面部视频帧、目标面部视频帧样本以及目标紧凑特征样本对应的传输码率，得到率失真损失函数。

具体地，可以通过如下方式构建感知损失函数：

分别将初始重建面部视频帧样本和目标面部视频帧样本输入预设的已训练完成的图像分类模型，例如VGG-19网络模型，从而分别得到初始重建面部视频帧样本对应的初始特征图和目标面部视频帧样本对应的目标特征图；然后再基于初始特征图和目标特征图，进行均方误差计算，从而得到感知损失函数。

对抗损失函数可以通过如下方式构建：将初始重建面部视频帧样本和目标面部视频帧样本同时输入预先已训练完成的分类器，基于分类结果(是否为同一类型的视频帧)构建对应的对抗损失函数。

率失真损失函数的构建过程可以包括：先获取目标紧凑特征样本对应的传输码率，然后，再基于初始重建面部视频帧样本和目标面部视频帧样本，构建失真函数(本申请实施例中，对于构建失真函数所采用的具体方式不做限定，例如：可以使用深度图像结构和纹理相似性算法构建失真函数，等等)，再对上述传输码率和构建的失真函数进行融合(如相加等)，得到率失真损失函数。

步骤710，对感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据训练损失函数，对特征提取模型和形变图像预估模型进行训练。

具体地，可以分别为感知损失函数、对抗损失函数以及率失真损失函数设定对应的权重值，然后基于设定的各权重值，对感知损失函数、对抗损失函数以及率失真损失函数进行加和处理，从而得到最终的训练损失函数。具体地，可参见如下公式：

L＝λ₁L_per+λ₂L_GD+λ₃L_RD

其中，L为最终的训练损失函数；L_per为感知损失函数；L_GD为对抗损失函数；L_RD为率失真损失函数；λ₁、λ₂、λ₃分别为感知损失函数的权重值、对抗损失函数的权重值，以及率失真损失函数的权重值。

参见图8，图8为本申请实施例三对应的场景示意图，以下，将参考图8所示的示意图，以一个具体场景示例，对本申请实施例进行说明：

将目标面部视频帧样本输入待训练的特征提取模型，得到目标紧凑特征样本；分别对目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本；解码面部视频比特流样本中的编码后参考面部视频帧样本，得到参考面部视频帧样本；解码面部视频比特流样本中的编码后紧凑特征样本，得到目标紧凑特征样本；再将参考面部视频帧样本输入上述特征提取模型，得到参考紧凑特征样本；基于参考紧凑特征样本和目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将稀疏运动估计样本图和参考面部视频帧样本输入待训练的形变图像预估模型，得到初始重建面部视频帧样本；根据初始重建面部视频帧样本和目标面部视频帧样本，分别构建感知损失函数L_per和对抗损失函数L_GD；基于初始重建面部视频帧、目标面部视频帧样本以及目标紧凑特征样本对应的传输码率，得到率失真损失函数L_RD；对L_per、L_GD以及L_RD进行融合，得到训练损失函数L；根据L，对上述待训练的特征提取模型和形变图像预估模型进行训练，从而得到训练完成的特征提取模型和形变图像预估模型。

进一步地，与图6对应地，在其中一些实施例中，还可以进一步地引入稠密运动估计模型以及生成模型，在图8所示训练程序的基础上，进行如下改进：将稀疏运动估计样本图和参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本；对参考紧凑特征样本和目标紧凑特征样本进行差分运算，得到紧凑特征样本差值；将紧凑特征样本差值和初始重建面部视频帧样本输入待训练的稠密运动估计模型，得到稠密运动估计样本图和遮挡样本图；将稠密运动估计样本图、参考面部视频帧样本以及遮挡样本图输入待训练的生成模型，得到重建面部视频帧。

之后，根据初始重建面部视频帧样本和目标面部视频帧样本，构建第一感知损失函数；根据重建面部视频帧和目标面部视频帧样本，构建第二感知损失函数；基于述重建面部视频帧和目标面部视频帧样本，构建对抗损失函数；基于述重建面部视频帧和目标面部视频帧样本构建的失真损失函数，以及，目标紧凑特征样本对应的传输码率，得到率失真损失函数；对第一感知损失函数、第二感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据训练损失函数，对上述待训练的特征提取模型、形变图像预估模型、稠密运动估计模型以及生成模型进行训练，得到训练完成的特征提取模型、形变图像预估模型、稠密运动估计模型以及生成模型进行训练。

本实施例的模型训练方法可以由任意适当的具有数据能力的电子设备执行，包括但不限于：服务器、PC机等。

实施例四

参见图9，图9为根据本申请实施例四的一种面部视频编码装置的结构框图。本申请实施例提供的面部视频编码装置包括：

面部视频帧获取模块902，用于获取待编码的目标面部视频帧和参考面部视频帧。

特征提取模块904，用于对目标面部视频帧进行特征提取，得到目标紧凑特征，目标紧凑特征表征目标面部视频帧中的关键特征信息。

编码模块906，用于分别对目标紧凑特征和参考面部视频帧进行编码，得到面部视频比特流。

可选地，在其中一些实施例中，目标面部视频帧为多个连续面部视频帧；特征提取模块904，具体用于：分别对各目标面部视频帧进行特征提取，得到各目标面部视频帧的目标紧凑特征；

编码模块906，具体用于：对相邻两个目标面部视频帧的目标紧凑特征进行差分运算，得到目标紧凑特征残差；

分别对目标紧凑特征残差和参考面部视频帧进行编码，得到面部视频比特流。

可选地，在其中一些实施例中，特征提取模块904，具体用于：分别将各目标面部视频帧输入特征提取模型，以使特征提取模型输出各目标面部视频帧的目标紧凑特征。

本实施例的面部视频编码装置用于实现前述多个方法实施例中相应的面部视频编码方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的面部视频编码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例五

参见图10，图10为根据本申请实施例五的一种面部视频解码装置的结构框图。本申请实施例提供的面部视频解码装置包括：

视频比特流获取模块1002，用于获取面部视频比特流，面部视频比特流包括：编码后参考面部视频帧和编码后紧凑特征信息；编码后紧凑特征信息表征待重建的目标面部视频帧的关键特征信息；

第一解码模块1004，用于解码编码后参考面部视频帧，并对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征；

第二解码模块1006，用于解码编码后紧凑特征信息，得到目标面部视频帧的目标紧凑特征；

稀疏运动估计模块1008，用于基于参考紧凑特征和目标紧凑特征进行稀疏运动估计，得到稀疏运动估计图，稀疏运动估计图表征在预设的稀疏特征域中，目标面部视频帧与参考面部视频帧之间的相对运动关系；

重建面部视频帧得到模块1010，用于根据稀疏运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧。

可选地，在其中一些实施例中，重建面部视频帧得到模块1010，具体用于：

可选地，在其中一些实施例中，重建面部视频帧得到模块1010在执行根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图的步骤时，具体用于：根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图和遮挡图，遮挡图表征目标面部视频帧中各像素点被遮挡的程度；在执行根据稠密运动估计图和参考面部视频帧，得到与目标面部视频帧对应的重建面部视频帧的步骤时，具体用于：根据稠密运动估计图、参考面部视频帧以及遮挡图，得到与目标面部视频帧对应的重建面部视频帧。

可选地，在其中一些实施例中，第一解压模块1004在执行对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征步骤时，具体用于：

可选地，在其中一些实施例中，重建面部视频帧得到模块1010，在执行基于稀疏运动估计图，对参考面部视频帧进行形变处理，得到目标面部视频帧对应的初始重建面部视频帧步骤时，具体用于：将稀疏运动估计图和参考面部视频帧输入形变图像预估模型，以使形变图像预估模型输出目标面部视频帧对应的初始重建面部视频帧。

可选地，在其中一些实施例中，重建面部视频帧得到模块1010，在执行根据紧凑特征差值和初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图步骤时，具体用于：将紧凑特征差值和初始重建面部视频帧输入稠密运动估计模型，以使稠密运动估计模型输出稠密运动估计图。

可选地，在其中一些实施例中，重建面部视频帧得到模块1010，在执行根据稠密运动估计图、参考面部视频帧以及遮挡图，得到与目标面部视频帧对应的重建面部视频帧的步骤时，具体用于：

本实施例的面部视频解码装置用于实现前述多个方法实施例中相应的面部视频解码方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的面部视频解码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例六

参见图11，图11为根据本申请实施例六的一种模型训练装置的结构框图。本申请实施例提供的模型训练装置包括：

面部视频比特流样本得到模块1102，用于将目标面部视频帧样本输入特征提取模型，得到目标紧凑特征样本；分别对目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本；

紧凑特征样本得到模块1104，用于解码编码后面部视频流样本，得到参考面部视频帧样本和目标紧凑特征样本；将参考面部视频帧样本输入特征提取模型，得到参考紧凑特征样本；

初始重建面部视频帧样本得到模块1106，用于基于参考紧凑特征样本和目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将稀疏运动估计样本图和参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本；

率失真损失函数得到模块1108，用于根据初始重建面部视频帧样本和目标面部视频帧样本，分别构建感知损失函数和对抗损失函数；基于初始重建面部视频帧、目标面部视频帧样本以及目标紧凑特征样本对应的传输码率，得到率失真损失函数；

模型训练模块1110，用于对感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据训练损失函数，对特征提取模型和形变图像预估模型进行训练。

本实施例的模型训练装置用于实现前述多个方法实施例中相应的模型训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的模型训练装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七

参照图12，示出了根据本申请实施例七的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图12所示，该会议终端可以包括：处理器(processor)1202、通信接口(Communications Interface)1204、存储器(memory)1206、以及通信总线1208。

其中：

处理器1202、通信接口1204、以及存储器1206通过通信总线1208完成相互间的通信。

通信接口1204，用于与其它电子设备或服务器进行通信。

处理器1202，用于执行程序1210，具体可以执行上述面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法实施例中的相关步骤。

具体地，程序1210可以包括程序代码，该程序代码包括计算机操作指令。

处理器1202可能是CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1206，用于存放程序1210。存储器1206可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序1210具体可以用于使得处理器1202执行以下操作：获取待编码的目标面部视频帧和参考面部视频帧；对面部目标面部视频帧进行特征提取，得到目标紧凑特征，面部目标紧凑特征表征面部目标面部视频帧中的关键特征信息；分别对面部目标紧凑特征和面部参考面部视频帧进行编码，得到面部视频比特流。

或者，

程序1210具体可以用于使得处理器1202执行以下操作：获取面部视频比特流，面部视频比特流包括：编码后参考面部视频帧和编码后紧凑特征信息；面部编码后紧凑特征信息表征待重建的目标面部视频帧的关键特征信息；解码面部编码后参考面部视频帧，并对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征；解码面部编码后紧凑特征信息，得到面部目标面部视频帧的目标紧凑特征；基于面部参考紧凑特征和面部目标紧凑特征进行稀疏运动估计，得到稀疏运动估计图，面部稀疏运动估计图表征在预设的稀疏特征域中，面部目标面部视频帧与面部参考面部视频帧之间的相对运动关系；根据面部稀疏运动估计图和面部参考面部视频帧，得到与面部目标面部视频帧对应的重建面部视频帧。

或者，

程序1210具体可以用于使得处理器1202执行以下操作：将目标面部视频帧样本输入特征提取模型，得到目标紧凑特征样本；分别对面部目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本；解码面部视频比特流样本，得到面部参考面部视频帧样本和面部目标紧凑特征样本；将面部参考面部视频帧样本输入面部特征提取模型，得到参考紧凑特征样本；基于面部参考紧凑特征样本和面部目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将面部稀疏运动估计样本图和面部参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本；根据面部初始重建面部视频帧样本和面部目标面部视频帧样本，分别构建感知损失函数和对抗损失函数；基于面部初始重建面部视频帧、面部目标面部视频帧样本以及面部目标紧凑特征样本对应的传输码率，得到率失真损失函数；对面部感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据面部训练损失函数，对面部特征提取模型和面部形变图像预估模型进行训练。

程序1210中各步骤的具体实现可以参见上述面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，在编码阶段，是对目标面部视频帧进行了目标紧凑特征提取，并通过对上述目标紧凑特征的编码得到的面部视频比特流，由于目标紧凑特征是表征目标面部视频帧中的关键特征信息的特征，其通过较小的数据量表征了整个面部视频帧中的关键信息，因此，通过对目标紧凑特征的编码得到的面部视频比特流，其数据量也较小，在进行视频流传输时对应的比特流也较小(码率较低)，另外，在解码阶段，对上述得到的面部视频比特流进行解码，再基于解码得到的表征目标面部视频帧中关键特征信息的目标紧凑特征，进行面部视频帧重构，得到的重构视频帧与目标面部视频帧间的质量差异也较小。综上，本申请实施例，可以在保证面部视频重建质量的前提下，降低编码码率，更好地满足了低码率面部视频编码的需求。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法。此外，当通用计算机访问用于实现在此示出的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的面部视频编码方法，或者，面部视频解码方法，或者，模型训练方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

一种面部视频编码方法，包括：

获取待编码的目标面部视频帧和参考面部视频帧；

对所述目标面部视频帧进行特征提取，得到目标紧凑特征，所述目标紧凑特征表征所述目标面部视频帧中的关键特征信息；

分别对所述目标紧凑特征和所述参考面部视频帧进行编码，得到面部视频比特流。
根据权利要求1所述的方法，其中，所述目标面部视频帧为多个连续面部视频帧；所述对所述目标面部视频帧进行特征提取，得到所述目标面部视频帧的紧凑特征，包括：

分别对各目标面部视频帧进行特征提取，得到各目标面部视频帧的目标紧凑特征；

所述分别对所述目标紧凑特征和所述参考面部视频帧进行编码，得到面部视频比特流，包括：

对相邻两个目标面部视频帧的目标紧凑特征进行差分运算，得到目标紧凑特征残差；

分别对所述目标紧凑特征残差和所述参考面部视频帧进行编码，得到面部视频比特流。
根据权利要求2所述的方法，其中，所述分别对各目标面部视频帧进行特征提取，得到各目标面部视频帧的目标紧凑特征，包括：

分别将各目标面部视频帧输入特征提取模型，以使所述特征提取模型输出各目标面部视频帧的目标紧凑特征。
一种面部视频解码方法，包括：

获取面部视频比特流，所述面部视频比特流包括：编码后参考面部视频帧和编码后紧凑特征信息；所述编码后紧凑特征信息表征待重建的目标面部视频帧的关键特征信息；

解码所述编码后参考面部视频帧，并对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征；

解码所述编码后紧凑特征信息，得到所述目标面部视频帧的目标紧凑特征；

基于所述参考紧凑特征和所述目标紧凑特征进行稀疏运动估计，得到稀疏运动估计图，所述稀疏运动估计图表征在预设的稀疏特征域中，所述目标面部视频帧与所述参考面部视频帧之间的相对运动关系；

根据所述稀疏运动估计图和所述参考面部视频帧，得到与所述目标面部视频帧对应的重建面部视频帧。
根据权利要求4所述的方法，其中，所述根据所述稀疏运动估计图和所述参考面部视频帧，得到与所述目标面部视频帧对应的重建面部视频帧，包括：

基于所述稀疏运动估计图，对所述参考面部视频帧进行形变处理，得到所述目标面部视频帧对应的初始重建面部视频帧；

对所述参考紧凑特征和所述目标紧凑特征进行差分运算，得到紧凑特征差值；

根据所述紧凑特征差值和所述初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，所述稠密运动估计图表征在预设的稠密特征域中，所述目标面部视频帧与所述参考面部视频帧之间的相对运动关系；

根据所述稠密运动估计图和所述参考面部视频帧，得到与所述目标面部视频帧对应的重建面部视频帧。
根据权利要求5所述的方法，其中，所述根据所述紧凑特征差值和所述初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，包括：

根据所述紧凑特征差值和所述初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图和遮挡图，所述遮挡图表征所述目标面部视频帧中各像素点被遮挡的程度；

所述根据所述稠密运动估计图和所述参考面部视频帧，得到与所述目标面部视频帧对应的重建面部视频帧，包括：

根据所述稠密运动估计图、所述参考面部视频帧以及所述遮挡图，得到与所述目标面部视频帧对应的重建面部视频帧。
根据权利要求6所述的方法，其中，所述对解码得到的参考面部视频帧进行特征提取，得到参考紧凑特征，包括：

将解码得到的参考面部视频帧输入特征提取模型，以使所述特征提取模型输出参考紧凑特征。
根据权利要求6所述的方法，其中，所述基于所述稀疏运动估计图，对所述参考面部视频帧进行形变处理，得到所述目标面部视频帧对应的初始重建面部视频帧，包括：

将所述稀疏运动估计图和所述参考面部视频帧输入形变图像预估模型，以使所述形变图像预估模型输出目标面部视频帧对应的初始重建面部视频帧。
根据权利要求6所述的方法，其中，所述根据所述紧凑特征差值和所述初始重建面部视频帧进行稠密运动估计，得到稠密运动估计图，包括：

将所述紧凑特征差值和所述初始重建面部视频帧输入稠密运动估计模型，以使所述稠密运动估计模型输出稠密运动估计图。
根据权利要求6所述的方法，其中，所述根据所述稠密运动估计图、所述参考面部视频帧以及所述遮挡图，得到与所述目标面部视频帧对应的重建面部视频帧，包括：

将所述稠密运动估计图、所述参考面部视频帧以及所述遮挡图输入生成模型，以使所述生成模型输出与所述目标面部视频帧对应的重建面部视频帧。
一种模型训练方法，包括：

将目标面部视频帧样本输入特征提取模型，得到目标紧凑特征样本；分别对所述目标紧凑特征样本和参考面部视频帧样本进行编码，得到面部视频比特流样本；

解码所述面部视频比特流样本，得到所述参考面部视频帧样本和所述目标紧凑特征样本；将所述参考面部视频帧样本输入所述特征提取模型，得到参考紧凑特征样本；

基于所述参考紧凑特征样本和所述目标紧凑特征样本进行稀疏运动估计，得到稀疏运动估计样本图；将所述稀疏运动估计样本图和所述参考面部视频帧样本输入形变图像预估模型，得到初始重建面部视频帧样本；

根据所述初始重建面部视频帧样本和所述目标面部视频帧样本，分别构建感知损失函数和对抗损失函数；基于所述初始重建面部视频帧、所述目标面部视频帧样本以及所述目标紧凑特征样本对应的传输码率，得到率失真损失函数；

对所述感知损失函数、对抗损失函数以及率失真损失函数进行融合，得到训练损失函数；根据所述训练损失函数，对所述特征提取模型和所述形变图像预估模型进行训练。
一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-3中任一项所述的面部视频编码方法对应的操作，或者，如权利要求4-9中任一项所述的面部视频解码方法对应的操作，或者，如权利要求11中所述的模型训练方法对应的操作。