WO2024082579A1

WO2024082579A1 - 一种考虑时域失真传播的零时延全景视频码率控制方法

Info

Publication number: WO2024082579A1
Application number: PCT/CN2023/087513
Authority: WO
Inventors: 朱策; 杨栩; 罗雷; 郭红伟; 段昶; 杜金; 侯晶晶
Original assignee: 电子科技大学
Priority date: 2022-10-18
Filing date: 2023-04-11
Publication date: 2024-04-25
Also published as: CN115695799A

Abstract

本发明属于图像处理技术领域，具体涉及一种考虑时域失真传播的零时延全景视频码率控制方法。本发明的方法主要为优化目标比特分配和全局率失真优化编码，包括编码树单元（CTU）级的码率控制以及时域全局率失真优化。CTU级码率控制主要包括优化目标比特分配以及码率控制参数更新；时域全局率失真优化主要利用已编码帧的重建误差和运动补偿预测误差信息来估计当前编码帧内每个CTU的时域依赖性并据此调整CTU的率失真优化参数，同时根据全景球面图形投影到2D平面（ERP投影）过程中，会在两极产生过采样增加像素冗余的特征，根据投影面积变化比值来调整编码参数。本发明能有效缩短编码时间并且在给定带宽的条件下提升视频编码质量。

Description

一种考虑时域失真传播的零时延全景视频码率控制方法

技术领域

本发明属于图像处理技术领域，具体涉及一种考虑时域失真传播的零时延全景视频码率控制方法。

背景技术

全景视频是一种使用相机阵列或3D摄像机进行全方位360度进行拍摄的视频，用户在观看视频的时候，可以随意调节视频上下左右方位进行观看，全景视频具有高帧率、高分辨率(至少4K)、宽视域的特征，存储和传输全景视频非常消耗资源。码率控制是根据目标码率来逐层优化分配比特，并按照一定的编码策略动态调整编码器的编码参数，使编码器输出码流满足传输信道带宽限制及存储设备存储空间的需求，尽可能使得实际输出码率与目标码率一致。其在实时视频通信系统中广泛应用。传统全景视频编码存在以下问题，首先是其在投影过程中会产生像素冗余而影响编码性能；同时传统编码器没有利用帧间编码单元之间的时域相关性进行编码，编码性能还有极大地提升空间；传统编码器没有考虑帧间时域失真影响因子主要原因是其计算复杂度太高，不利于实时通信。本发明针对以上问题提出了一种考虑时域失真传播的零时延全景视频码率控制方法，本发明首先根据全景视频球面面积和投影面积之比来调整编码参数以减小像素冗余带来的编码性能损失；同时通过计算编码帧像素均值和方差值的变化量来确定图像场景是否发生变换；在没有发生场景变换的情况下，根据视频图像具有连续性的特点，利用时域上前一编码帧的重建误差和运动补偿预测误差计算时域失真影响因子，并利用该因子来编码当前帧。本发明不用预存未编码帧，而且利用已编码帧信息计算时域失真影响因子，计算量小，编码复杂度极低，同时率失真性能有非常大的提升，所以本发明易于推广。

目前的码率控制方法包括：

H.266/VVC码率控制方法，主要步骤为：

步骤1：比特分配

VTM采用分层比特分配结构，在GOP层、帧层、CTU层分别进行比特分配，越往下，码率分配越准确，修正误差也越好实现。VTM在各个层次上平均分配目标码率，为了逐步消除已编码单元产生的码率控制误差，通过滑动窗口来平滑码率波动，防止出现码率波动较大而影响视频质量的情况，通过下列式子实现分层码率分配，即

其中，R_tar为目标码率，FR为帧率，R_pic为整个序列平均每帧的比特数，T_gop、T_pic、T_ctu分别为分配给待编码GOP、编码帧、编码单元的目标比特数，SW是平滑比特分配的滑动窗，N_coded、R_coded、N_gop、ω_pic、ω_ctu、分别为已编码帧数、编码视频序列已消耗比特、一个GOP帧数、GOP内已编码帧数、编码帧所占权重、编码单元所占权重、未编码帧所占权重之和、帧内未编码CTU权重之和。

步骤2：根据R-λ模型计算拉格朗日乘子

拉格朗日乘子λ_i为率失真曲线的斜率，D_i、R_i分别为第i个编码单元的失真和编码比特，拉格朗日乘子λ_i与码率R_i之间的关系

步骤3：更新编码参数

上式中参数在编码完一帧或者一个编码树单元CTU后会自动更新。参数更新公式为

and

式中D_i、R_i在编码完一帧或一个CTU后即可确定，而帧级的λ_i沿用同一个GOP内同一层级最近邻已编码帧拉格朗日乘子代替，CTU级的λ_i沿用与编码帧处于同一层级的最近邻已编码帧对应CTU拉格朗日乘子代替，然后用来更新参数c_i、k_i。

步骤4：计算编码过程中用到的量化参数QP
QP_i＝4.2005·lnλ_i+13.7122

可以看出，码率控制算法中的量化参数和拉格朗日乘子的对数可以用线性函数关系拟合。

上述传统的码率控制方法中，存在的问题是：VVC中的R-Lambda码率控制模型可以达到较高的控制精度，但是其没有考虑全景视频由于投影带来的像素冗余问题。同时，没有利用帧间时域相关性进行率失真优化编码，编码质量有较大的提升空间。

发明内容

针对上述问题，本发明提供一种考虑时域失真传播的零时延全景视频码率控制方法。本发明的方法主要为优化目标比特分配和全局率失真优化编码，包括编码树单元(CTU)级的码率控制以及时域全局率失真优化。CTU级码率控制主要包括优化目标比特分配以及码率控制参数更新；时域全局率失真优化主要利用已编码帧的重建误差和运动补偿预测误差信息来估计当前编码帧内每个CTU的时域依赖性并据此调整CTU的率失真优化参数，同时根据全景球面图形投影到2D平面(ERP投影)过程中，会在两极产生过采样增加像素冗余的特征，根据投影面积变化比值来调整编码参数。

本发明的技术方案为：

一种考虑时域失真传播的零时延全景视频码率控制方法，包括以下步骤：

S1、向编码器输入目标码率以及待编码序列；

S2、判断当前是否为第一帧，若是，则执行：

计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比；

初始化码率控制单元的参数；

计算当前帧的目标比特数；

根据目标比特数计算当前帧的帧级拉格朗日乘子；

依据帧级拉格朗日乘子计算帧级QP并帧内编码；

编码完当前帧，重复步骤S2；

否则，进入步骤S3；

S3、计算帧像素均值和方差值；

S4、判断当前帧数是否大于2倍GOP大小，若是，则进入S5；否则进入S6；

S5、根据迭代算法计算全局拉格朗日乘子并优化帧内各CTU比特分配，进入步骤S7；

S6、使用编码器自带比特分配算法为帧内各CTU分配比特；

S7、计算帧级拉格朗日乘子及QP；

S8、按顺序编码CTU；

S9、判断当前帧像素方差值与上一帧的差值是否大于阈值，若是，则进入步骤S10，否则进入步骤S11；

S10、根据步骤S2中获得的面积拉伸比调节当前CTU的拉格朗日乘子，进入步骤S13；

S11、判断当前帧数是否大于3，若是，则进入S13，否则进入S10；

S12、根据前一帧的时域失真影响因子和S2中获得的面积比值调节每个CTU的拉格朗日乘子；

S13、根据S10或者S12中计算的当前CTU的拉格朗日乘子来计算当前CTU的量化参数QP并编码CTU；

S14、判断是否是最后一个CTU，若是，则编码完当前帧，进入步骤S15，否则，回到步骤S8；

S15、更新当前帧及各CTU的码率控制参数及实际用的比特数；

S16、获取当前帧保存的每个CTU的重建误差以及运动补偿预测误差来计算当前帧内各个CTU的时域失真影响因子；

S17、判断是否是最后一帧，若是，则进入S18，否则进入S2

S18、当前全景视频序列编码完成。

进一步的，步骤S2中，定义全景视频球体半径为r，则纬度为θ的球面环带区域面积为：
S_s(θ)＝2π·r²·cosθ·sindθ

投影2D平面后，得到拉伸区域的面积为：

则面积拉伸比为：

进一步地，步骤S3具体为：

其中，P、D分别表示均值和方差，P_i,j表示每一个像素点的像素值，分辨率为n*m。

进一步的，步骤S5具体为：

其中，R、r分别为帧级和CTU级目标比特，λ_g为全局拉格朗日乘子，α_i＝c_i·k_i， λ_i为率失真曲线的斜率，D_i、R_i分别为第i个编码单元的失真和编码比特，M为CTU个数。

进一步的，步骤10中的拉格朗日乘子调节方法为：

其中，λ_P为帧级拉格朗日乘子，λ_n为调节后的拉格朗日乘子。

进一步的，步骤12中的拉格朗日乘子调节方法为：

其中，k为时域失真影响因子。

本发明的有益效果为：本发明能够在降低编码复杂度且不需要缓存后续帧的前提下，使得码率控制误差非常小，能有效缩短编码时间并且在给定带宽的条件下提升视频编码质量。

附图说明

图1是本发明的方法流程示意图。

具体实施方式

下面结合附图来对本发明进行详细描述。

在视频码率控制中，编码器通过率失真优化(RDO)技术为输入视频选择一组最优的编码参数以及率失真代价最小的编码模式，其目标是在一定码率限制条件下尽可能降低编码失真或者在一定编码失真限定条件下尽可能减少编码比特。本发明所提出的零时延方法是指不允许编码器预先获得后续帧的信息，即得到待编码帧后不缓存分析数据必须立刻编码，具体实现方式如图1所示。

对于输入的第一帧图像，因为编码器内部还没有获得时域失真影响因子，因此需要先基于给定的目标码率对编码器内部参数进行初始化，初始化方式与VVC码率控制方法中一致，各个编码层级的目标比特数为：

与传统方法不同的是，本发明的方法中还需要计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比，具体方法为：

定义r为球体半径，可以计算纬度为θ球面环带区域面积为
S_s(θ)＝2π·r²·cosθ·sindθ

对应于投影2D平面，该拉伸区域的面积为

投影前后的面积比为

可以看出，该比值随着纬度的增加而减小，在赤道区域，也即纬度θ为0处，该面积比为1，没有拉伸。假设赤道区域的熵在投影前后没有发生改变，越趋近于极点，熵变化越大。

从第二个图像组GOP开始，通过迭代算法逼近比特分配公式中的最优拉格朗日乘子，用该最优拉格朗日乘子分配比特，具体为：

式中R、r分别为帧级和CTU级目标比特，λ_g为全局拉格朗日乘子，α_i＝c_i·k_i，一帧共有M个CTU。

对于第二帧及以后图像，则可以通过选择基于面积拉伸比对拉格朗日乘子进行调节，而对于第三帧及以后的图像，因已经获得了时域失真影响因子，则基于时域失真影响因子和面积拉伸比对拉格朗日乘子进行调节，具体为：通过将原本的拉格朗日乘子除以调整权重后得到新的拉格朗日乘子λ_n，进而实现时域率失真优化。

其中λ_P为帧级拉格朗日乘子。显然，纬度值θ越大，k(θ)越小，调整后的拉格朗日乘子越大，反之越小；同时，时域依赖性强的编码树单元，k越大，那么调整后的拉格朗日乘子就越小，也就意味着其失真将会被减小，有利于后续帧达到更高的率失真性能；反之，时域依赖性弱的编码树单元就会被相对的编差一些。

选择拉格朗日乘子调节方式的条件是通过判断当前帧像素方差值与上一帧的差值是否大于阈值50。因为时域失真传播的前提是视频图像的连续性，如果发生图像场景切换，传播链将断开，所以通过图像方差值的变换量来判断场景是否发生切换。

拉格朗日乘子和QP的计算方式为：

首先计算当前帧图像的平均每像素目标比特数(T_bpp)，计算公式为

T_bpp＝T_pic/N_pixels

N_pixels是指一个图片的像素数。而后计算当前图像的帧级拉格朗日参数λ。

对于Ⅰ帧:采用基于帧内复杂度的码率控制方法。根据实验知，定义帧内复杂度为则和拉格朗日乘子有如下关系：

其中，MAD为像素的平均绝对值误差，BPP是像素的平均目标比特。α和β参数的初始值经验地设置为9.9416和-1.367。

对于P帧:计算方式为λ＝αR^β，α的初始值设置为1058，β的值设置为-1.327

相应的帧级QP使用如下关系式进行计算得到:
QP_i＝4.2005·lnλ_i+13.7122

当完成一帧图像编码后，更新当前帧及各CTU的码率控制参数及实际用的比特数，并获取当前帧保存的每个CTU的重建误差以及运动补偿预测误差来计算当前帧内各个CTU的时域失真影响因子。具体为使用编码树单元的重建失真和运动补偿预测误差失真的比值来度量视频编码中的时域依赖性，即

编码块的失真D_cur与编码块的运动补偿预测误差对于当前编码块来说，在真正编码之前无法获得其失真。为了做到零时延，考虑使用前一帧对应位置编码树单元信息近似代替当前块的时域依赖性。这样做的原因是相邻两帧的图像特点一般比较相近，同时根据当前帧和前一帧的像素均值和方差的差来判断图像是否发生场景切换从而决定是否使用该失真影响因子。

在编码完一帧或者一个编码树单元CTU后会自动更新。参数更新公式为

and

式中失真、码率D_i、R_i在编码完一帧或一个CTU后即可确定，而帧级的λ_i沿用同一个 GOP内同一层级最近邻已编码帧拉格朗日乘子代替，CTU级的λ_i沿用与编码帧处于同一层级的最近邻已编码帧对应CTU拉格朗日乘子代替，然后用来更新参数c_i、k_i。

下面使用实验结果说明本发明方案的有效性，全景视频码率控制算法集成到基于360lib的H.266/VVC参考软件VTM14.0中，编码器配置为Lowdelay-P，实验条件遵守国际编码标准组织JCT-VC建议的标准全景视频序列作为测试视频，包括8K、6K和4K三类中的全部14个视频序列，对比的指标有BD-Rate，码率控制精度以及编码时间。其中当BD-Rate为负值时，代表相同重建质量下码率减少，技术具有增益，当BD-Rate为正值时，代表相同重建质量下码率增加，技术存在损失。此处分别以给定QP时VVC编码器的编码质量以及VVC的码率控制算法为对比的基准。

表1给出了本方案及VTM14.0和360lib的码率控制方法在BD-Rate上的表现。相较于vtm的码率控制方法，大幅度节省了码率，本方法有8.7％的码率节省。

表1与VTM14.0码率控制算法的编码BD-rate对比

表2给出了本方案与VTM14.0的率失真优化算法在BD-rate上的对比，平均有4.3％左右的码率节省。

表2与VTM14.0率失真优化算法的BD-rate对比

表3给出了本方案以及VTM14.0和360lib码率控制方案编码码率控制误差的大小。误码率的计算方法为，实际编码输出码率与设定的目标码率之间的绝对误差除以目标码率，偏差越大，误码率越高，码率控制的精度也就越低。本方案保证了极低的码率控制误差0.0891％。

表3码率控制误差对比

表4给出了本方案在编码时间上的性能。所有序列总的编码时间由3972小时降低到3963小时。

表4编码时间对比

Claims

一种考虑时域失真传播的零时延全景视频码率控制方法，其特征在于，包括以下步骤：

S1、向编码器输入目标码率以及待编码序列；

S2、判断当前是否为第一帧，若是，则执行：

计算CTU行对应的纬度值并计算球面及其投影平面的面积拉伸比；

初始化码率控制单元的参数；

计算当前帧的目标比特数；

根据目标比特数计算当前帧的帧级拉格朗日乘子；

依据帧级拉格朗日乘子计算帧级QP并帧内编码；

编码完当前帧，重复步骤S2；

否则，进入步骤S3；

S3、计算帧像素均值和方差值；

S4、判断当前帧数是否大于2倍GOP大小，若是，则进入S5；否则进入S6；

S5、根据迭代算法计算全局拉格朗日乘子并优化帧内各CTU比特分配，进入步骤S7；

S6、使用编码器自带比特分配算法为帧内各CTU分配比特；

S7、计算帧级拉格朗日乘子及QP；

S8、按顺序编码CTU；

S9、判断当前帧像素方差值与上一帧的差值是否大于阈值，若是，则进入步骤S10，否则进入步骤S11；

S10、根据步骤S2中获得的面积拉伸比调节当前CTU的拉格朗日乘子，进入步骤S13；

S11、判断当前帧数是否大于3，若是，则进入S13，否则进入S10；

S12、根据前一帧的时域失真影响因子和S2中获得的面积比值调节每个CTU的拉格朗日乘子；

S13、根据S10或者S12中计算的当前CTU的拉格朗日乘子来计算当前CTU的量化参数QP并编码CTU；

S14、判断是否是最后一个CTU，若是，则编码完当前帧，进入步骤S15，否则，回到步骤S8；

S15、更新当前帧及各CTU的码率控制参数及实际用的比特数；

S16、获取当前帧保存的每个CTU的重建误差以及运动补偿预测误差来计算当前帧内各个CTU的时域失真影响因子；

S17、判断是否是最后一帧，若是，则进入S18，否则进入S2；

S18、当前全景视频序列编码完成。
根据权利要求1所述的一种考虑时域失真传播的零时延全景视频码率控制方法，其特征在于，步骤S2中，计算面积拉伸比的方法为：定义全景视频球体半径为r，则纬度为θ的球面环带区域面积为：
S_s(θ)＝2π·r²·cosθ·sin dθ

投影2D平面后，得到拉伸区域的面积为：

则面积拉伸比为：
根据权利要求2所述的一种考虑时域失真传播的零时延全景视频码率控制方法，其特征在于，步骤S5具体为：

其中，R、r分别为帧级和CTU级目标比特，λ_g为全局拉格朗日乘子，α_i＝c_i·k_i， λ_i为率失真曲线的斜率，D_i、R_i分别为第i个编码单元的失真和编码比特，M为CTU个数。
根据权利要求3所述的一种考虑时域失真传播的零时延全景视频码率控制方法，其特征在于，步骤10中的拉格朗日乘子调节方法为：

其中，λ_P为帧级拉格朗日乘子，λ_n为调节后的拉格朗日乘子。
根据权利要求3所述的一种考虑时域失真传播的零时延全景视频码率控制方法，其特征在于，步骤12中的拉格朗日乘子调节方法为：

其中，k为时域失真影响因子。