WO2022027881A1

WO2022027881A1 - 基于视频序列特征和QP-λ修正的时域率失真优化方法

Info

Publication number: WO2022027881A1
Application number: PCT/CN2020/132813
Authority: WO
Inventors: 朱策; 秦晗; 王永华; 刘翼鹏; 刘凯
Original assignee: 电子科技大学
Priority date: 2020-08-05
Filing date: 2020-11-30
Publication date: 2022-02-10
Also published as: CN111918068A; CN111918068B

Abstract

本发明属于视频编解码技术领域，具体涉及一种基于视频序列特征和QP-λ修正的时域率失真优化方法。本发明对新一代编码器AV1提出了一种基于视频序列特征以及QP-λ修正的时域率失真优化方法，根据此前在HEVC-RA编码结构下的时域依赖关系以及AV1的特性和视频序列特征，通过构造时域失真传播链，估计当前编码单元及受影响的未来编码单元的聚合失真，计算时域失真传播模型中编码单元的传播因子，进而通过更加准确的传播因子调整拉格朗日乘子实现时域依赖率失真优化，同时对QP-λ的关系进行重新修正，调整I帧以获得更好的编码效果。

Description

基于视频序列特征和QP-λ修正的时域率失真优化方法

技术领域

本发明属于视频编解码技术领域，具体涉及一种基于视频序列特征和QP-λ修正的时域率失真优化方法。

背景技术

率失真理论(Rate Distortion Theory)是视频编码的理论基础。率失真理论提供了在给定失真的条件下对信源压缩的极限值，或者是在给定码率的条件下能达到的最小失真。率失真优化问题是在比特消耗的限制下，最小化视频编码的失真，从本质上说是一有约束的优化问题，其数学表达如公式所示：

min{D} s.t. R≤R _max (1.1)

其中D代表失真,R代表编码比特率,R _max代表最大编码比特率。

但在实际使用当中，有约束的优化问题的求解相对困难，(Sullivan,et al.,1998)中提出了利用拉格朗日乘数法，将有约束的优化问题转化成无约束的优化问题的方法。从根本上来说，(Sullivan,et al.,1998)中的方法是利用拉格朗日乘子将比特消耗折算成失真，进而将有约束的优化问题转换成无约束的优化问题。(Sullivan,et al.,1998)中提出的率失真优化方法，也是视频编码中最常使用的优化方法。

而量化操作是视频编码中产生失真的主要因素，提高量化器性能对提高编码压缩效率有着重要意义。率失真优化的量化就是在给定码率的约束条件下，寻找能使失真最小的量化参数设置。要想确定编码块的最佳量化参数，首先必须确定拉格朗日乘子λ。大量的实验结果表明，λ与量化参数QP之间存在着密切的关系。但随着视频编码的发展，更为复杂的编码结构的引入，比如分级-B(Hierarchical-B)编码结构，以及不同的编码器，都会对(Sullivan,et al.,1998)中发现的λ与QP的关系造成一定的影响。针对不同编码器采用与之相应的λ与QP关系的调整方案，给每一个特定的λ值分配最优的QP，从而提高编码效率。

在使用率失真优化方法的时候，编码器默认的情况是，待优化的编码单元(编码块)之间是相互独立的，即各个编码单元的码率、失真、参数和其他单元没有关系。例如，第k个单元的编码参数(如量化步长、编码模式、运动矢量等)为o _k，对应的编码比特为R(o _k)、编码失真为D(o _k)，则上述的率失真优化问题，通过引入全局拉格朗日乘子λ _g，转换为公式的无约束问题，其中J被称为率失真代价函数。

事实上，上式的最优解可看成是代价函数J _k(λ)＝D _k(o _k)+λ _gR _k(o _k)取得极小值时的参数o _k，代价函数表示了图1中R-D平面上的一条斜率为λ的直线。实际上，这种将各个编码单元独立处理的方法，实际上是一种局部最优的方法，因为实际视频的各个编码单元是存在依赖关系的。对公式求导可得

由此可见，λ _g是率失真曲线上某个点的负斜率较大的λ _g对应码率较小，失真较大的可操作点，而较小的λ _g对应着码率较大，失真较小的可操作点，是影响率失真性能最主要的决定因素，因此拉格朗日乘子λ _g的选取至关重要，目前AV1(AOMedia Video 1)中λ _g的大小主要由预先设置好的量化参数QP决定，与输入视频序列无关。

然而由于帧内\帧间预测会在不同编码单元间引入依赖性，对每个编码单元采用独立率失真优化技术并不能使编码性能达到最优。因此需要一种复杂度可以接受的全局率失真优化方法，进一步提升编码效率。

文献Source Distortion Temporal Propagation Analysis for Random-Access Hierarchical Video Coding Optimization中研究了一种RA编码结构下时域率失真优化算法。根据RA配置下的时域依赖关系，建立了多参考帧下的时域失真传播链，估计失真传播程度，计算传播因子，进而根据聚合传播因子调整全局拉格朗日乘子，实现时域率失真优化，解决全局率失真优化问题。

图2给出了AV1默认的时域层级关系，由于AV1默认的GOP大小是16，除时域层级最高的帧以外，其余帧的编码块都会对更高时域层级的帧以及后续帧产生直接或者间接的影响。(AV1默认编码结构类似于HEVC的随机接入视频编码，其编码顺序于解码顺序不一致，需要考虑前向参考和后向参考，所述前向参考为前向参考帧的播放顺序大于当前帧的POC(Picture Order Count,图片顺序计数)，反之为后向参考)。图3给出了AV1中主要的参考关系。

在AV1默认编码结构下，对于时域层级最高(TL5)的帧,即rPOC(rPOC即relative POC,是出现在GOP(Group of Pictures)中相同位置的帧)为1,3,5...15的帧，其优化问题为：

对于时域层级TL4的帧,即rPOC为2,6,10,14的帧，其优化问题为：

对于时域层级TL3的帧，即rPOC为4,12的帧，其优化问题为：

对于时域层级TL2的帧，即rPOC为8的帧，其优化问题为：

对于时域层级TL1的帧，即rPOC为0,16的帧，其优化问题为：

在高码率情况下，后续编码单元的编码失真可用公式表示:

是比编码单元B _i+1的运动补偿误差：

F _i代表编码单元B _i的原始像素，

代表编码单元B _i的重建像素、F _i+1代表编码单元B _i+1的原始像素。

由于该算法此前针对的视频编码标准是HEVC，没有对新一代编码器AV1的特性以及视频序列特征进行相应的调整，也没有对AV1中QP-λ的关系进行重新修正，同时该算法没有对I帧进行调整，而I帧对后续帧的影响非常重要。

发明内容

本发明针对上述问题，对新一代编码器AV1提出了一种基于视频序列特征以及QP-λ修正的时域率失真优化方法，根据此前在HEVC-RA编码结构下的时域依赖关系以及AV1的特性和视频序列特征，通过构造时域失真传播链，估计当前编码单元及受影响的未来编码单元的聚合失真，计算时域失真传播模型中编码单元的传播因子，进而通过更加准确的传播因子调整拉格朗日乘子实现时域依赖率失真优化，同时对QP-λ的关系进行重新修正，调整I帧以获得更好的编码效果。

本发明的技术方案是：

一种基于视频序列特征以及QP-λ修正的时域率失真优化方法的具体步骤如下：

S1、根据AV1默认编码结构中主要时域依赖关系，建立时域传播链(如图4)，通过前向运动搜索找出每个原始编码块所影响的匹配块，并记录下相应的原始运动补偿误差(OMCP,Original Motion Compensation Predicted error)和运动矢量；

S2、定义关系模型中的拉格朗日乘子为λ _new,量化步长Qstep,根据编码器自带的量化参数QP与量化步长Qstep对应列表，对不同QP的不同序列的拉格朗日乘子与其对应的量化步长Qstep进行统计，构造拉格朗日乘子λ _new与量化步长Qstep之间的关系模型，得到关系模型用公式(1.9)-(1.10)表示；

λ _new＝3.667*Qstep ²-5.198e-07*Qstep-0.6664 (1.9)

其中λ _org是编码器中的拉格朗日乘子

对原始视频序列进行简要分类，采用类似帧差法的方式，计算后续10，20，30...帧相对于初始第一帧的差值的绝对值之和，最后求得累积之和的像素级的平均值，用E表示。对所求结果，按照阈值设置不同的QP和λ调整范围，以及相应的α和I帧QP:

SAD _i＝∑|p ₀-p _10*i| (1.11)

α＝clip3(0.90,0.98,1-0.0006*(0.8*E-20)) (1.15)

其中SAD _i指的是第i个差值的绝对值之和,p ₀代表初始帧的像素值，p _10*i代表后续10，20，30...帧的像素值，视频序列总帧数用F表示,宽用W表示，高用H表示。constrainQPrange代表QP最大可调节范围。公式(1.13)是λ的调整范围，λ _org代表AV1预先设置的λ。QP ₀代表I帧的QP(0～255)，α代表公式(1.8)的系数，clip3()函数用于将1-0.0006*(0.8*E-20)的计算结果限制在0.90～0.98之间。

S3、在实际编码当前帧前，利用S1获得的原始运动补偿误差和运动矢量计算得到当前帧每个编码块16×16的传播因子，用调和平均的方式求得每个Superblock的平均传播因子。由于AV1默认采用二次编码，利用AV1内置变量pcnt_neutral区分屏幕内容序列，结合S2得到的调整范围对不同视频序列的拉格朗日乘子进行针对性的调整。

S4、根据步骤S2得到的关系模型，定义λ _new为通过关系模型计算得到的拉格朗日乘子，计算编码器中拉格朗日乘子λ _org与λ _new的差值，对不同的差值，利用关系模型公式(1.9)-(1.10)对编码器中的拉格朗日乘子λ _org进行修正。

S5、由于AV1中对rPOC为16的帧采用了特殊的ALT帧进行编码，同时rPOC为16的帧处于时域层级TL1，类似于HEVC中的关键帧，其失真会对后续多帧失真产生影响。因此，在AV1编码器对ALT帧内块级拉格朗日乘子调整的基础上，再对其进行缩放以及QP-λ修正，以提高编码效果。

本发明的方案与此前方法的区别点包括，针对不同序列采用了不同的编码策略，以及对AV1中的QP-λ关系进行重新修正，并根据AV1特性进行调整，包括对ALT帧的调整以及对满足阈值序列的I帧进行调整。

本发明的有益效果：

通过对不同序列采用不同的编码策略，以及当前帧中各编码块对后续编码的影响，并对编码器中的拉格朗日乘子λ进行修正，在AV1官方源码libaom-1.0的版本下，在Y分量下获得了平均1.66％的码率节省。

附图说明

图1为率失真曲线；

图2为AV1默认编码结构；

图3为AV1中主要时域依赖关系；

图4为时域失真传播链的构造示意图；

图5为BasketballDrill序列的率失真曲线；

具体实施方式

为了使本发明的目的，技术方案和优点更加清楚，下面结合附图和实施例，详细描述本发明的技术方案。实施例采用开发环境为Visual Studio 2015，实施例基于AV1参考软件libaom-1.0实现。

为了简化全局率失真算法的实现过程，可以通过传播因子κ _i直接在AV1中修改全局拉格朗日乘子λ _g。由于后续编码单元在推导传播因子κ _i时并没有真正被编码，因此需对后续编码单元的失真进行估计。

在高码率情况下，后续编码单元的编码失真可用公式表示:

由于编码单元B _i+1没有被编码，R _i+1无法获得，D _i+1无法使用公式计算，但在量化步长Q _step下B _i+1的编码失真可表示为

其中

可通过大量量化步长和编码单元的实验拟合出一条F(θ)曲线，此前算法的F(θ)曲线是针对HEVC编码器，在AV1上已经不再适用，在AV1上重新进行实验得到新的曲线，并对曲线上的点进行采样，建立一个F(θ)与θ的查询表，进而估计编码块的失真。同时，本发明将此前设置为固定值的α改为根据视频序列自适应的α。

本发明主要步骤包括：

步骤1：根据AV1默认编码结构中主要时域依赖关系，建立时域传播链(如图4)，通过前向运动搜索找出每个原始编码块所影响的匹配块，并记录下相应的OMCP和运动矢量；

步骤2：定义关系模型中的拉格朗日乘子为λ _new,量化步长Qstep,根据编码器自带的量化参数QP与量化步长Qstep对应列表，对不同QP的不同序列的拉格朗日乘子与其对应的量化步长Qstep进行统计，构造拉格朗日乘子λ _new与量化步长Qstep之间的关系模型，得到关系模型用公式(1.9)-(1.10)表示；

步骤3：对原始视频序列进行简要分类，采用类似帧差法的方式，计算后续10，20，30...帧相当于初始第一帧的差值的绝对值之和，最后求得累积之和的像素级的平均值。对所求结果，按照阈值设置不同的QP和λ调整范围，以及相应的α和I帧QP,用公式(1.11)-(1.16)表示。

步骤4：在实际编码当前帧前，利用S1获得的原始运动补偿误差和运动矢量计算得到当前帧每个编码块16×16的传播因子，用调和平均的方式求得每个Superblock的平均传播因子。由于AV1默认采用二次编码，利用AV1内置变量pcnt_neutral区分屏幕内容序列，结合S21得到的调整范围对不同视频序列的拉格朗日乘子进行针对性的调整。

步骤5：根据步骤S2得到的关系模型，定义λ _new为通过关系模型计算得到的拉格朗日乘子，计算编码器中拉格朗日乘子λ _org与λ _new的差值，对不同的差值，利用关系模型公式(1.9)-(1.10)对编码器中的拉格朗日乘子λ _org进行修正。

步骤6：由于AV1中对rPOC为16的帧采用了特殊的ALT帧进行编码，同时rPOC为16的帧处于时域层级TL1，类似于HEVC中的关键帧，其失真会对后续多帧失真产生影响。因此，在AV1编码器对ALT帧内块级拉格朗日乘子调整的基础上，再对其进行缩放以及QP-λ修正，以提高编码效果。

在建立时域传播链时，用大小为16×16的块进行运动搜索，并计算每个块的传播因子，由于AV1中对分辨率大于等于720P的视频序列采用128×128的SuperBlock进行独立划分编码,对小于720P的视频序列采用64×64的SuperBlock进行独立划分编码，所以对SuperBlock内所有16×16的块的传播因子取平均值，作为SuperBlock的传播因子，调整SuperBlock级的拉格朗日乘子和QP。I帧根据所求阈值对部分序列进行调整，

本发明采用AV1参考软件libaom-1.0作为实验平台，实验环境参照JVET规定的通用测试条件CTC(Common Test Conditions)，仅在AV1默认编码结构下进行实验，实验测试序列为Class B、C、D、E、F共20个视频序列，每个测试序列使用四个QP点(32，43，53，63)进行编码。参考软件配置为，以BasketballDrill序列为例，--codec＝av1 -w 832 -h 480 --fps＝50/1 --cpu-used＝1 --threads＝0 --profile＝0 --drop-frame＝0 --static-thresh＝0 --sharpness＝0 --frame-parallel＝0 --tile-columns＝0 --end-usage＝q -v --cq-level＝32 --psnr --limit＝500 -o BasketballDrill_832x480_50.yuv.ivf BasketballDrill_832x480_50.yuv

表1 本发明相比于libaom-1.0的测试结果

编码实验结果如表1所示，表中显示了测试序列在AV1默认编码结构下Y分量取得了1.66％的编码性能。对于大部分测试序列，本发明性能提升明显，尤其是ClassE，性能提升显著，Y分量下取得了5.03％的码率节省。主要是因为Class E是场景较为固定的视频序列，各视频帧相似度较高，时域依赖性强，本发明对这种序列能取得较好的效果。除此之外，BasketballDrill序列在Y分量下取得了6.21％的码率节省，也是因其背景相对静止。接下来选取部分序列，基于率失真优化曲线对比图，观察它们的编码性能提升情况，如图5为BasketballDrill序列的率失真曲线图，横坐标为编码码率Rate，纵坐标为重建视频峰值信噪比PSNR，其中蓝色曲线是该全局率失真优化算法的率失真曲线，红色曲线是原始libaom-1.0的率失真曲线，可以看出，对于时域依赖性较强的序列，该算法编码效率提升明显。

同样，在编码复杂度方面，该时域率失真优化算法在AV1默认编码结构下的编码复杂度平均减少6％，主要是由于算法中所计算得到的自适应的拉格朗日乘子可使编码单元得到更好的预测效果，虽然在建立时域传播链上耗费了一定的时间，但高质量的预测可使编码残差变小，进而加速变换，量化和熵编码的一系列过程，从而使总体的时间减少。

表2 本发明相比于libaom-1.0的编码时间百分比

序列	Class B	Class C	Class D	Class E	Class F	△EncT
	95％	94％	97％	91％	92％	94％

Claims

基于视频序列特征和QP-λ修正的时域率失真优化方法，其特征在于，包括以下步骤：

S1、根据AV1默认编码结构中时域依赖关系，建立时域传播链，通过前向运动搜索找出每个原始编码块所影响的匹配块，并记录下相应的原始运动补偿误差和运动矢量；

S2、定义拉格朗日乘子为λ _new，量化步长Qstep,根据编码器自带的量化参数QP与量化步长Qstep对应列表，对不同QP的不同序列的拉格朗日乘子λ与其对应的量化步长Qstep进行统计，构造拉格朗日乘子λ _new与量化步长Qstep之间的关系模型，得到关系模型为：

λ _new＝3.667*Qstep ²-5.198e-07*Qstep-0.6664

其中λ _org是编码器中的拉格朗日乘子；

对原始视频序列进行分类，采用帧差法的方式，计算后续10，20，30...帧相对于初始第一帧的差值的绝对值之和，最后求得累积之和的像素级的平均值，用E表示，对所求结果，按照阈值设置不同的QP和λ调整范围，以及相应的α和I帧QP：

SAD _i＝∑|p ₀-p _10*i|

α＝clip3(0.90,0.98,1-0.0006*(0.8*E-20))

其中SAD _i指的是第i个差值的绝对值之和,p ₀代表初始帧的像素值，p _10*i代表后续10，20，30...帧的像素值，视频序列总帧数用F表示,宽用W表示，高用H表示，constrainQPrange代表QP最大可调节范围，QP ₀代表I帧的QP(0～255)，α为系数，clip3()函数用于将1-0.0006*(0.8*E-20)的计算结果限制在0.90～0.98之间；

S3、在实际编码当前帧前，利用S1获得的原始运动补偿误差和运动矢量计算得到当前帧每个编码块16×16的传播因子，用调和平均的方式求得每个Superblock的平均传播因子，由于AV1默认采用二次编码，利用AV1内置变量区分屏幕内容序列，结合S2得到的调整范围对不同视频序列的拉格朗日乘子进行针对性的调整；

S4、根据步骤S2得到的关系模型，λ _new为通过关系模型计算得到的拉格朗日乘子，计算编码器中拉格朗日乘子λ _org与λ _new的差值，对不同的差值，利用关系模型公式对编码器中的拉格朗日乘子λ _org进行修正；

S5、由于AV1中对rPOC为16的帧采用了特殊的ALT帧进行编码，同时rPOC为16的帧处于时域层级TL1，其失真会对后续多帧失真产生影响，因此，在AV1编码器对ALT帧内块级拉格朗日乘子调整的基础上，再对其进行缩放以及QP-λ修正，以提高编码效果。