WO2016115968A1

WO2016115968A1 - 一种融合视觉感知特征的可分层视频编码方法

Info

Publication number: WO2016115968A1
Application number: PCT/CN2015/100056
Authority: WO
Inventors: 刘鹏宇; 贾克斌
Original assignee: 北京工业大学
Priority date: 2015-01-20
Filing date: 2015-12-31
Publication date: 2016-07-28
Also published as: US10313692B2; CN104539962B; US20170085892A1; CN104539962A

Abstract

公开了一种融合视觉感知特征的可分层视频编码方法，包括视觉感兴趣区域优先级的设定以及视频编码资源分配方案的设定，前者为：鉴于视频图像内容的丰富性和人眼视觉选择性注意机制，将视频内容分别进行时域和空域视觉特征显著度分析，完成视觉感兴趣区域优先级标注，后者表现为：为在保证视频编码质量和压缩效率的同时，提高视频编码实时性能，依据视觉感兴趣区域优先级，首先满足感兴趣区域宏块的编码资源最优化，实现分层编码，有效缓解了编码复杂度与编码效率之间的矛盾，与H.264/AVC国际视频编码标准相比，能够在保持较高视频图像质量和低压缩码率的前提下，将编码速度平均提高约80％，显著改善了视频编码性能。

Description

一种融合视觉感知特征的可分层视频编码方法

技术领域

本发明涉及视频编码方法，尤其涉及一种融合视觉感知特征的可分层视频编码方法。

背景技术

随着多媒体信息处理和通信技术的飞速发展，IPTV、PDA、立体电影、自由视点视频等多样化视频业务相继推出，视频编码在信息化处理以及相关领域展现了广阔的发展前景。然而，在网络带宽和存储空间受限的同时，人们对视频质量的要求却在不断提高、数字视频的性能指标，如分辨率、质量、帧率等不断提升，对现有的视频编码标准提出了新要求。

为了获得具有低复杂度、高质量和高压缩率的视频编码方法，继2003年由国际电信联盟ITU-T和国际标准化组织ISO/IEC联合推出视频压缩标准H.264/AVC后，2010年1月，ISO/IEC和ITU-T联合成立了JCT-VC(Joint Collaborative Team on Video Coding)小组，并且发布了下一代视频编码技术提案HEVC(High Efficiency Video Coding)。提案指出，HEVC依然沿用H.264/AVC的混合编码框架，着力研究新的编码技术，旨在解决现有视频编码标准在压缩率与编码复杂度之间的矛盾，使之适应多类型的网络传输，承载更多的信息处理业务。具有“实时性”、“高压缩率”和“高清晰度”的视频编码标准及其应用技术，已成为信号与信息处理领域的研究热点之一。

截至目前，众多学者围绕视频快速编码或者视觉感知分析开展了大量研究工作，但是很少将二者结合在一个编码框架内联合实现对视频编码性能的优化。

在视觉感知特征分析方面，有的研究人员采用颜色、亮度、方向和肤色四种视觉特征进行感兴趣区域计算，但忽略了运动视觉特征；有的研究人员融合了运动、亮度强度、人脸和文字等视觉特征，构建视觉注意模型实现感兴趣提取；也有的研究人员采用运动和纹理信息获取感兴趣区域；或者有人提出在压缩域或者基于小波变换的方法获得感兴趣区域。由于现有的全局运动估计算法复杂度都较大，因此视觉感兴趣区域提取算法复杂度过高。上述基于人类视觉系统HVS(Human Visual System)的视频编码技术集中研究了比特资源优化分配的方法，在比特资源受限时保证感兴趣区域的视频图像质量，但欠缺对计算资源分配问题的考虑，并且对进行视觉感知分析时引入的额外计算复杂度，也没有引起足够的关注，其计算效率有待提高。

在快速视频编码方面，有的研究人员通过控制运动估计点数、以损失率失真性能为代价，实现快速编码；有的研究人员通过进行编码参数控制实现快速编码。但上述方法并不区分视频图像中不同区域在视觉意义上的重要程度，对所有编码内容采用相同的快速编码方案，忽略了HVS对视频场景感知的差异性。

发明内容

本发明针对上述问题，提出一种融合视觉感知特征的可分层视频编码方法，包括视觉感兴趣区域优先级的设定以及视频编码资源分配方案的设定两部分；

所述视觉感兴趣区域优先级的设定主要为：鉴于视频图像内容的丰富性和人眼视觉选择性注意机制，视频内容通常同时具有时域和空域双重视觉特征，标注视觉特征显著度区域的计算公式可表示为：

式中，ROI(x,y)代表当前编码宏块视觉感兴趣优先级；T(x,y,MV)代表当前编码宏块的时域视觉特征显著度；S(x,y,Mode)代表当前编码宏块的空域视觉特征显著度；(x,y)表示当前编码宏块的位置坐标；

所述视频编码资源分配方案的设定表现为：为在保证视频编码质量和压缩效率的同时，改善视频编码实时性能，首先满足感兴趣区域宏块的编码最优化，

采用快速帧内预测算法，利用宏块灰度直方图描述宏块平坦程度，依据宏块平坦度自适应地选取可能的帧内预测模式集合；

采用快速帧间预测算法，通过分析各种帧间预测模式出现概率的统计特性，对特定模式进行预判以提前终止不必要的帧间预测模式搜索和率失真代价计算，减少编码耗时；

采用快速运动估计搜索算法，基于编码块运动矢量相关性，依据编码块运动程度，判定搜索层次，实现高效搜索。

所述视觉感兴趣区域优先级的设定中，首先，进行时域视觉显著度区域标注：具体分为两个步骤：步骤1运动矢量噪声检测和步骤2平移运动矢量检测，分别用于削弱由于运动矢量噪声和摄像机运动而产生的平移运动矢量对于时域视觉显著度区域检测准确性的影响，完成前景与背景的分离，得到较为准则的、符合人眼视觉特征的时域视觉显著度区域标注结果；然后，进行空域视觉显著度区域标；最后，依据时域、空域视觉特征显著度区域标注结果，完成视觉特征显著度区域的标注。

在进行时域视觉显著度区域标注时，所述步骤1运动矢量噪声检测的计算公式表示为：

(1)式中，(x,y)为当前编码块位置坐标，

表示当前编码块的运动矢量MV，

表示运动参考区域C_rr内的平均运动矢量，定义为：

表示运动参考区域C_rr所包含宏块的运动矢量，

表示累加次数；

运动参考区域C_rr的定义如下，以使参考区域C_rr的形状、位置、面积能够随当前运动矢量

的变化而实现自适应调整：

将分别位于C_rr的左上、右上、左下和右下的四个宏块表示为MB₁,MB₂,MB_3，MB₄，其位置坐标定义为：

其中，

和

分别是当前运动矢量

在水平和垂直方向上的运动幅度，w_s和h_s分别表示当前编码块的宽度和高度，[·]表示取整计算；

如果

说明在运动参考区域C_rr内不存在运动矢量，则认为

是由运动噪声引起的，应予以滤除，

被置为0，标记T₁(x,y,MV)＝3；

如果

说明当前编码块与邻近宏块相比具有较显著的运动特征，属于前景动态区域，标记T₁(x,y,MV)＝2；

否则，说明当前编码块与邻近宏块具有相似的运动特性，时域显著性并不明显，需要进一步进行平移运动矢量检测，以判定该编码块是属于背景区域，还是属于前景平移区域，标记为T₂(x,y,MV)；

所述步骤2平移运动矢量检测的计算公式可表示为：

(2)式中，(x,y)表示当前编码块的位置坐标；

为动态阈值；SAD_(x,y)为当前编码块与前一帧对应位置块之间的绝对差值和SAD(Sum of Absolute Differences,SAD)，用于表征相邻两帧对应编码块的变化程度，定义如下：

其中，s(i,j)为当前编码块的像素值；c(i,j)为前一帧对应位置块的像素值；M，N分别为当前编码块的长、宽尺寸；

动态阈值

为前一帧中被确定为背景区域内的所有编码块SAD的均值，定义如下：

其中，S_c表示前一帧的背景区域；

表示S_c内包含编码块对应SAD值的累加和；Num表示累加次数；

综合上述(1)和(2)两个处理步骤，进行时域视觉显著度区域标注的计算公式可描述为：

(3)式中，各参数的定义与式(1)和式(2)相同；

然后，进行空域视觉显著度区域标注，其计算公式可描述为：

(4)式中，(x,y)表示当前编码块的位置坐标；Mode表示编码块的预测模式；mode_P表示P帧编码中当前编码块的预测模式；mode_I表示I帧编码中当前编码块的预测模式；

如果mode_P选择了帧内预测模式，说明空域视觉特征显著度最高，属于敏感区，标记S(x,y,Mode)＝2；

如果mode_P选择了子块帧间预测模式集合Inter8(8×8,8×4,4×8,4×4)或者mode_I选择了Intra4×4预测模式，说明空间细节丰富，也具有较高空域视觉特征显著度，属于关注区，标记S(x,y,Mode)＝1；

如果mode_P选择了宏块帧间预测模式集合Inter16(Skip,16×16,16×8,8×16)或者mode_I选择了Intra16×16预测模式，说明空间变化平缓，空间视觉特征显著度低，属于非显著区，标记S(x,y,Mode)＝0；

最后，依据时域、空域视觉特征显著度区域标注结果，标注视觉特征显著度区域。

采用快速帧内预测算法的具体过程：

步骤1：计算当前编码宏块亮度分量Y的灰度直方图，记录其最大像素数Max Value；

步骤2：设定上限阈值Th_high和下限阈值Th_low，Th_high和Th_low均为[1，256]间的整数；

步骤3：若Max Value≥Th_high，认为宏块平坦，舍弃Intra4×4预测模式集合，选择Intra16×16预测模式集合，并将率失真开销最小的模式作为最优帧内预测模式；同时更新上限阈值：

否则，进入步骤4；

步骤4：若Max Value≤Th_low，认为宏块细节丰富，舍弃Intra16×16预测模式集合，选择Intra4×4预测模式集合，并将率失真开销最小的模式作为最佳帧内预测模式；同时更新下限阈值：

否则，进入步骤5；

步骤5：若Th_low<Max Value<Th_high，认为宏块平坦度特征不显著，采用标准帧内预测算法；

本发明中的上限阈值Th_high和下限阈值Th_low分别设定为150和50。

采用快速帧间预测算法的具体过程：

步骤1：Skip模式的预判

步骤1.1：计算Skip模式(mode0)的率失真代价值J_skip，如果小于阈值T则停止对其他模式的搜索，选定Skip作为最佳预测模式，跳转至步骤4；否则执行步骤1.2；

其中，T＝(0.7-Min_cost/18000)×Min_cost，Min_cost为前一个编码宏块的最优率失真代价值；

步骤1.2：计算Inter16×16模式(mode1)的率失真代价值J_16×16，如果J_16×16>J_skip，则仍选定Skip作为最佳编码模式，跳转至步骤4；否则执行步骤2；

步骤2：宏块/子块帧间预测模式的预判

步骤2.1：计算Inter16×16模式和Inter8×8模式的率失真代价值J_16×16和J_8×8，若J_8×8-J_16×16>T₀，则选定Inter16×16模式作为最佳帧间编码模式，跳转至步骤4；否则，执行步骤2.2；

其中，T₀＝0.2×Min_cost，是根据实验数据得出的自适应经验域值，可以在保证快速判决模式的同时，尽量减少误判率，Min_cost为前一个编码宏块的最优率失真代价值；

步骤2.2：计算Inter4×4模式的率失真代价值J_4×4，如果J_4×4<min(J_16×16,J_8×8)，则对该宏块进行亚分割，将子块帧间预测模式Inter8×8，Inter8×4，Inter4×8和Inter4×4(mode4～mode7)作为帧间备选模式集合；否则，将宏块帧间预测模式Inter16×16，Inter16×8，Inter8×16(mode1～mode3)作为帧间预测备选模式集合，舍弃亚分割预测；

步骤3：帧内模式的预判

步骤3.1：计算当前编码宏块的平均边缘误差值ABE(Average Boundary Error)与边缘误差总和SBE(Summation Boundary Error)，平均边缘误差值ABE反映了宏块的时间相关性；

ABE＝SBE/64

其中，

式中：Y_orig为当前编码宏块的像素值；Y_rec为重构宏块的像素值；(x,y)表示当前编码宏块的位置坐标；

步骤3.2：计算当前编码宏块的平均比特率AR(Average Rate)，平均比特率AR反映了宏块的空间相关性；

AR＝λRate/384

式中：λ为拉格朗日乘数因子；Rate为宏块编码所需的比特数；

步骤3.3：比较宏块的平均边缘误差和平均比特率，若ABE<C·AR(C＝0.95)，则说明该宏块的空域冗余小于时域冗余，舍弃对帧内预测模式的遍历计算，进入步骤4；否则，保留帧内预测模式遍历计算，进入步骤4；

步骤4：根据率失真准则计算并选择出最优帧间预测模式，完成帧间预测编码。

采用快速运动估计搜索算法的具体过程：

步骤1：描述宏块运动特征

步骤1.1：基于率失真准则，计算当前编码宏块运动估计的率失真代价值RD cost_motion：

J_motion(mv,ref|λ_motin)＝SAD[s,r(ref,mv)]+λ_motin[R(mv-pred)+R(ref)]

式中，s为当前宏块像素值；mv是宏块运动矢量，pred为预测矢量；ref为选择的参考帧；r(ref,mv)为参考宏块的像素值；R是运动矢量进行差分编码消耗的比特数，包括运动矢量与其预测值的差值的编码比特数和参考帧的编码比特数；λ_motion为拉格朗日乘子；SAD为当前块与参考块之间的绝对误差和，其定义为：

式中M和N分别表示当前编码宏块的宽度和高度；x,y表示宏块所在位置；s表示真实值；c表示预测值；m＝(m_x,m_y)^T表示宏块运动矢量，m_x和m_y分别表示宏块在水平和垂直方向的运动矢量；

步骤1.2：基于率失真准则，计算在mode模式下的率失真代值RD cost_mode：

J_mode(s,c,mode|λ_mode)＝SSD(s,c,mode|QP)+λ_mode×R(s,c,mode|QP)

式中，mode为当前宏块的帧间编码模式；s为原始视频信号；c为mode模式编码后的重建视频信号；λ_mode为拉格朗日乘子；R(s,c,mode|QP)是与模式和量化参数有关的包括宏块头信息、运动矢量和所有DCT块信息的总的二进制位数；QP是编码量化步长；SSD(s,c,mode)为原始信号与重建信号之间的平方差值和，即：

其中，B₁和B₂分别表示编码块的水平像素数和垂直像素数，其取值可为16，8，4；s_Y[x,y]，c_Y[x,y,mode|QP]表示原始视频和重建视频亮度信号的取值；c_U,c_V和s_U,s_V表示相应的色差信号的取值；

步骤1.3：从RD cost_motion和RD cost_mode中选取最小率失真代价值，记为RD_mincost；

步骤2：判定宏块运动剧烈程度

判定宏块运动剧烈程度的计算公式为：

式中，γ,δ为判别宏块运动程度的调整因子，分别定义为：

其中，Bsize[blocktype]为当前编码宏块尺寸，有7种取值：16×16，16×8，8×16，8×8，8×4，4×8，4×4；pred_mincost由UMHexagonS算法起始搜索点选择的运动矢量预测方式而定：

(1)如果起始搜索点采用时间预测方式的运动矢量，则pred_mincost选取参考帧预测运动矢量reference frame MV predictor；

(2)如果起始搜索点没有采用时间预测方式的运动矢量，再分为以下两类情况：

(2.1)若当前运动估计预测宏块选择的是16×16，16×8，8×16大尺寸帧间预测模式，则pred_mincost选取中值预测运动矢量median MV predictor；

(2.2)若当前运动估计预测宏块选择的是8×8，8×4，4×8，4×4小尺寸帧间预测模式，则pred_mincost选取上层预测运动矢量uplayer MV predictor；

根据大量实验测试数据，数组α₁[blocktype]和数组α₂[blocktype]分别定义为：

α₁[blocktype]＝[-0.23，-0.23，-0.23，-0.25，-0.27，-0.27，-0.28]；

α₂[blocktype]＝[-2.39，-2.40，-2.40，-2.41，-2.45，-2.45，-2.48]；

步骤3：确定宏块运动估计搜索层次

步骤3.1：当宏块运动程度较低时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，只进行内层的第1层和第2层的非均匀六边形网格搜索；

步骤3.2：当宏块运动程度中等时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，进行第1层到第3层的非均匀六边形网格搜索；

步骤3.3：当宏块运动程度较高时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，才进行4层的非均匀六边形网格搜索。

本发明采用视频编码层和视觉感知分析层的双层结构实现快速编码。一方面，视觉感知分析层利用编码层的码流信息，进行视觉特征显著度分析，标识视觉感兴趣区域优先级，大大缩短了视觉感知分析的计算耗时；另一方面，编码层复用感知分析层输出的视觉特征显著度分析结果，优化分配编码计算资源，实现了可分层视频编码，提高了编码速度。本发明既保证了视频图像质量和编码效率，又整体提高了编码计算速度，在编码速度、主观视频质量及压缩码率三方面达到了平衡。

附图说明

图1所示为本发明中率失真性能比较结果图；

图2所示为本发明中计算复杂度比较结果图；

具体实施方式

下面结合图表和具体实施方式对本发明作进一步详细地说明。

一种融合视觉感知特征的可分层视频编码方法，包括视觉感兴趣区域优先级的设定以及视频编码资源分配方案的设定两部分；

所述视觉感兴趣区域优先级的设定主要为：鉴于视频图像内容的丰富性和人眼视觉选择性注意机制，视频内容通常同时具有时域和空域双重视觉特征，为了降低对视频内容的时域和空域视觉特征的计算复杂度，提出利用已有视频编码码流信息来进行人眼对时域和空域视觉显著度区域的标注，

首先，进行时域视觉显著度区域标注：具体分为两个步骤：(1)运动矢量噪声检测和(2)平移运动矢量检测，分别用于削弱由于运动矢量噪声和摄像机运动而产生的平移运动矢量对于时域视觉显著度区域检测准确性的影响，完成前景与背景的分离，得到较为准则的、符合人眼视觉特征的时域视觉显著度区域标注结果，

(1)运动矢量噪声检测：

进行运动矢量噪声检测的计算公式可表示为:

(1)式中，(x,y)为当前编码块位置坐标，

表示当前编码块的运动矢量MV，

表示运动参考区域C_rr内的平均运动矢量，定义为：

表示参考区域C_rr所包含宏块的运动矢量，

表示累加次数。

为了使得运动参考区域C_rr的形状、位置、面积能够随当前运动矢量

的变化而实现自适应调整，运动参考区域C_rr的定义如下，：

将分别位于C_rr的左上、右上、左下和右下的四个宏块表示为MB₁,MB₂,MB₃，MB₄，其位置坐标定义为：

其中，

和

分别是当前运动矢量

在水平和垂直方向上的运动幅度，w_s和h_s分别表示当前编码块的宽度和高度，[·]表示取整计算。

如果

说明在运动参考区域C_rr内不存在运动矢量，则认为

是由运动噪声引起的，应予以滤除，

被置为0，标记T₁(x,y,MV)＝3.

如果

说明当前编码块与邻近宏块相比具有较显著的运动特征，属于前景动态区域，标记T₁(x,y,MV)＝2。

否则，说明当前编码块与邻近宏块具有相似的运动特性，时域显著性并不明显，需要进一步进行平移运动矢量检测，以判定该编码块是属于背景区域，还是属于由于摄像机的移动而产生的平移运动矢量的前景平移区域，标记为T₂(x,y,MV)。

(2)平移运动矢量检测：

进行平移运动矢量检测的计算公式可表示为：

(2)式中，(x,y)表示当前编码块的位置坐标；

其中，s(i,j)为当前编码块的像素值；c(i,j)为前一帧对应位置块的像素值；M、N分别为当前编码块的长、宽尺寸。

动态阈值

其中，S_c表示前一帧的背景区域；

表示S_c内包含编码块对应SAD值的累加和；Num表示累加次数。

(3)式中，各参数的定义与式(1)和式(2)相同。

然后，进行时域视觉显著度区域标注：

(4)式中，(x,y)表示当前编码块的位置坐标；Mode表示编码块的预测模式；mode_P表示P帧编码中当前编码块的预测模式；mode_I表示I帧编码中当前编码块的预测模式。

如果mode_P选择了宏块帧间预测模式集合Inter16(Skip,16×16,16×8,8×16)或者mode_I选择了Intra16×16预测模式，说明空间变化平缓，空间视觉特征显著度低，属于非显著区，标记S(x,y,Mode)＝0。

最后，依据时域、空域视觉特征显著度区域标注结果，标注视觉特征显著度区域：

计算公式可表示为：

(5)式中，ROI(x,y)代表当前编码宏块视觉感兴趣优先级；T(x,y,MV)代表当前编码宏块的时域视觉特征显著度；S(x,y,Mode)代表当前编码宏块的空域视觉特征显著度；(x,y)表示当前编码宏块的位置坐标；

视频编码资源分配方案的设定表现为：为在保证视频编码质量和压缩效率的同时，改善视频编码实时性能，首先满足感兴趣区域宏块的编码最优化，制定的分层编码方案见表1。

表1

表1采用快速帧内预测算法，利用宏块灰度直方图描述宏块平坦程度，依据宏块平坦度自适应地选取可能的帧内预测模式集合。

基本原理为：

宏块灰度直方图描述了该宏块所包含的灰度级信息。从数学上来说，灰度直方图统计了宏块中各个灰度级出现的次数或概率；从图形上来说，灰度直方图是一个二维图形，横坐标表示宏块包含的灰度级，从全黑到全白的灰度级范围为[0,255]，纵坐标表示宏块中的像素点在各个灰度级上出现的次数。

宏块灰度直方图的形状可以反映宏块纹理的丰富程度。在宏块灰度直方图的纵坐标轴上，必然存在一个纵坐标最大的灰度级(即峰值)，那么把属于该灰度级的像素点总数定义为该宏块的最大像素数，记为Max Value。如果Max Value明显高于宏块灰度直方图中其他灰度级出现的次数，则说明它是该宏块的主要灰度分量，宏块内像素的空间相关性较大，即宏块平坦，适合采用Intra16×16预测模式集合；反之，Max Value与宏块灰度值直方图中的其他灰度级出现的次数相当，则说明该宏块覆盖了多个灰度级，宏块内像素灰度变化剧烈，即宏块纹理丰富，适合采用Intra4×4预测模式集合。

具体过程为：

否则，进入步骤4；

否则，进入步骤5；

步骤5：若Th_low<Max Value<Th_high，认为宏块平坦度特征不显著，采用标准帧内预测算法。

表1采用快速帧间预测算法，通过分析各种帧间预测模式出现概率的统计特性，对特定模式进行预判以提前终止不必要的帧间预测模式搜索和率失真代价计算，减少编码耗时。

基本原理为：

为了提高编码精度，H.264/AVC视频编码标准在帧间编码中采用7种可变块的预测模式，每个编码宏块可划分为Inter16×16，Inter16×8，Inter8×16和Inter8×8模式，其中Inter8×8模式还可以进行亚分割，划分为Inter8×8，Inter8×4，Inter4×8和Inter4×4模式。此外，H.264/AVC帧间预测还支持Skip模式以及Intra16×16和Intra4×4两种帧内预测模式。H.264/AVC对每一个编码宏块遍历所有可能选择的预测模式，以获得率失真性能的最优化，达到最佳预测效果。灵活多样的可选帧间预测模式的引入成为H.264/AVC较其它视频编码标准获得更高编码效率的重要因素，但块划分模式组合的增多也使帧间预测模式判决过程异常复杂，造成编码计算复杂度急剧增加。

研究发现，视频图像基本可以分为背景纹理平坦区域、背景纹理细致区域和运动区域3大类：通常背景纹理平坦区域在视频内容中占有很大比重，对于这类平坦区域和运动平滑区域，大多采取Skip模式(mode0)或者宏块级帧间预测模式Inter16×16，Inter16×8，Inter8×16(mode1～mode3)进行预测；在运动复杂的情况下需要使用更多的编码模式进行预测，才会使用到帧间亚分割预测模式Inter8×8，Inter8×4，Inter4×8和Inter4×4(mode4～mode7)；只有在视频图像的边缘部分才会使用到Intra16×16和Intra4×4帧内预测模式(I16MB,I4MB)，其出现的几率非常低。因此，可以根据帧间预测模式统计特性进行预先判决，分集筛选，以排除掉出现机率很小的编码模式，提高编码速度。

具体过程为：

步骤1：Skip模式的预判

其中，T＝(0.7-Min_cost/18000)×Min_cost。Min_cost为前一个编码宏块的最优率失真代价值。

步骤1.2：计算Inter16×16模式(mode1)的率失真代价值J_16×16，如果J_16×16>J_skip，则仍选定Skip作为最佳编码模式，跳转至步骤4；否则执行步骤2。

步骤2：宏块/子块帧间预测模式的预判

其中，T₀＝0.2×Min_cost，是根据实验数据得出的自适应经验域值，可以在保证快速判决模式的同时，尽量减少误判率。Min_cost为前一个编码宏块的最优率失真代价值。

步骤2.2：计算Inter4×4模式的率失真代价值J_4×4，如果J_4×4<min(J_16×16,J_8×8)，则对该宏块进行亚分割，将子块帧间预测模式Inter8×8，Inter8×4，Inter4×8和Inter4×4(mode4～mode7)作为帧间备选模式集合；否则，将宏块帧间预测模式Inter16×16，Inter16×8，Inter8×16(mode1～mode3)作为帧间预测备选模式集合，舍弃亚分割预测。

步骤3：帧内模式的预判

ABE＝SBE/64

其中，

式中：Y_orig为当前编码宏块的像素值；Y_rec为重构宏块的像素值；(x,y)表示当前编码宏块的位置坐标。

AR＝λRate/384

式中：λ为拉格朗日乘数因子；Rate为宏块编码所需的比特数。

步骤3.3：比较宏块的平均边缘误差和平均比特率，若ABE<C·AR(C＝0.95)，则说明该宏块的空域冗余小于时域冗余，舍弃对帧内预测模式的遍历计算，进入步骤4；否则，保留帧内预测模式遍历计算，进入步骤4。

表1采用快速运动估计搜索算法，基于编码块运动矢量相关性，依据编码块运动程度，判定搜索层次，实现高效搜索。

基本原理为：

H.264/AVC标准中所采用的UMHexagonS算法，是目前效果最好的运动估计算法之一。但通过大量实验统计数据发现，最佳匹配点在UMHexagonS算法各个搜索步骤上是非均匀分布的，但UMHexagonS算法在“非均匀4层次的六边形格网格搜索”步骤中，并没有对编码块运动特征与搜索范围之间的关联性进行分析，不论当前编码宏块的运动程度如何，都必须在完成4层非均匀六边形搜索(4层×16个搜索点/层＝64个搜索点)以后才能进入下一步搜索，计算量相当可观。对于视频序列中占有较大比重的运动平缓区域的宏块而言，过大的搜索半径及分布在外层上的搜索点对提高运动估计准确度的贡献甚微，但却消耗了较多的运动估计时间。反之，对于少数运动程度剧烈的编码块，耗费在内层上搜索点的遍历计算也造成了编码耗时。可见，当前编码宏块的运动剧烈程度与其最佳匹配点所在运动估计搜索层次有着必然的联系。如果能够根据宏块运动程度自适应地选择搜索层数，无疑将大大节约搜索点数，降低运动估计的计算复杂度。而选取何种特征和准则判别宏块运动程度成为优化运动估计算法的关键所在。

由此，本发明将原UMHexagonS算法中的4层非均匀六边形网格搜索改进为搜索层数随宏块运动程度自适应变化的非均匀六边形网格搜索。首先描述宏块运动特征；然后将宏块运动程度划分为三个档次：运动程度较低、运动程度中等、运动程度较高；最后根据运动程度选择相应的搜索层次。

具体过程为：

步骤1：描述宏块运动特征

J_motion(mv,ref|λ_motin)＝SAD[s,r(ref,mv)]+λ_motin[R(mv-pred)+R(ref)]

式中M和N分别表示当前编码宏块的宽度和高度；x,y表示宏块所在位置；s表示真实值；c表示预测值；m＝(m_x,m_y)^T表示宏块运动矢量，m_x和m_y分别表示宏块在水平和垂直方向的运动矢量。

J_mode(s,c,mode|λ_mode)＝SSD(s,c,mode|QP)+λ_mode×R(s,c,mode|QP)

式中，mode为当前宏块的帧间编码模式；s为原始视频信号；c为mode模式编码后的重建视频信号；λ_mode为拉格朗日乘子；R(s,c,modeQP)是与模式和量化参数有关的包括宏块头信息、运动矢量和所有DCT块信息的总的二进制位数；QP是编码量化步长；SSD(s,c,mode)为原始信号与重建信号之间的平方差值和，即：

其中，B₁和B₂分别表示编码块的水平像素数和垂直像素数，其取值可为16，8，4；s_Y[x,y]，c_Y[x,y,mode|QP]表示原始视频和重建视频亮度信号的取值；c_U,c_V和s_U,s_V表示相应的色差信号的取值。

步骤1.3：从RD cost_motion和RD cost_mode中选取最小率失真代价值，记为RD_mincost。

步骤2：判定宏块运动剧烈程度

判定宏块运动剧烈程度的计算公式为：

式中，γ,δ为判别宏块运动程度的调整因子，分别定义为：

(2.2)若当前运动估计预测宏块选择的是8×8，8×4，4×8，4×4小尺寸帧间预测模式，则pred_mincost选取上层预测运动矢量uplayer MV predictor。

α₁[blocktype]＝[-0.23，-0.23，-0.23，-0.25，-0.27，-0.27，-0.28]；

α₂[blocktype]＝[-2.39，-2.40，-2.40，-2.41，-2.45，-2.45，-2.48]。

步骤3：确定宏块运动估计搜索层次

在P帧编码中，由公式(5)：

ROI(x,y)＝3时，情况①，编码宏块属于前景动态区域(T(x,y,MV)＝2)或者前景平移区域(T(x,y,MV)＝1)，具有时域视觉特征，并且S(x,y,Mode)＝1，说明该宏块选择了帧间子块预测模式集合Inter8，也具有空域视觉特征，属于时域视觉特征显著且纹理丰富区；情况②当S(x,y,Mode)＝2，说明P帧编码宏块采用了帧内预测模式，属于空域视觉特征敏感区。上述两种情况下人眼关注度最高，遍历执行快速的帧内预测和帧间子块预测模式集合Inter8，运动估计搜索执行第2～4层搜索，允许的参考帧数为5个。

ROI(x,y)＝2时，编码宏块具有时域视觉特征(T(x,y,MV)＝2或T(x,y,MV)＝1)，且S(x,y,Mode)＝0，说明该宏块选择了帧间宏块预测模式集合Inter16，空域视觉特征不显著，属于时域视觉特征显著且纹理平坦区，人眼关注度次之，略过帧内预测，仅遍历执行快速帧间宏块预测模式集合Inter16，运动估计搜索执行第1～3层搜索，参考帧数为3个。

ROI(x,y)＝1时，编码宏块不具有时域视觉特征(T(x,y,MV)＝0)，属于非动态背景区域，且S(x,y,Mode)＝1，说明该宏块选择了帧间子块预测模式集合Inter8，具有空域视觉特征，属于空域视觉特征关注区，人眼关注度再次之，略过帧内预测，仅遍历执行快速帧间子块预测模式集合Inter8，运动估计搜索执行第1～2层搜索，参考帧数为1个。

ROI(x,y)＝0时，说明当前编码宏块不具有时域特征和空域视觉特征，属于平坦静止背景区域；人眼关注度最低，仅遍历执行快速帧间宏块预测模式集合Inter16，运动估计搜索执行第1层搜索，参考帧数为1个。

在I帧编码中，由公式(5)：

ROI(x,y)＝1时，编码宏块不具有时域视觉特征(T(x,y,MV)＝0)，且S(x,y,Mode)＝1，说明该宏块选择了Intra4×4预测模式，空间细节丰富，也具有较高空域视觉特征显著度，属于关注区，略过Intra16×16预测。

ROI(x,y)＝0时，编码宏块不具有时域特征和空域视觉特征，属于平坦静止背景区域；人眼关注度最低，仅执行Intra16×16预测。

综上所述，本发明首先依据低层编码信息实现了高效视觉感知特征分析与检测，再根据视觉感兴趣区域优先级标注结果，指导编码方案选择，简化了预测编码的备选模式集和运动估计搜索范围，减少了参考帧数量，降低了视频编码层的计算复杂度。

本发明同时公开了仿真测试与统计结果；

表2为本发明方法与H.264/AVC(JM17.0)标准算法的性能比较结果。

表2

表2统计了具有不同运动特点的10个典型标准测试序列在本发明提出方法下相对于H.264/AVC(JM17.0)标准算法的编码性能比较结果。

在量化步长QP分别为28，32，36时，本发明方法与H.264/AVC标准算法相比，编码时间平均节省约80％；输出码率增加平均控制在2％以内；PSNR-Y平均降低-0.188dB，其中视觉感兴趣区域的PSNR-Y平均降低-0.153dB，优先保证了视觉感知特征显著区域的编码质量，符合人眼对非感兴趣区域的降质不敏感的视觉感知特性。

在输出码率控制方面，图1中两条率失真性能R-D曲线非常接近，说明本发明方法较好地继承了H.264/AVC标准算法低码率、高质量的编码优势。

在视频图像重建质量方面，本发明方法保证了PSNR-Y平均降幅在-0.2dB以内，远小于人眼对图像质量变化感知的最小灵敏度(-0.5dB)，保持了良好的重建视频图像质量。

在编码速度提高方面，图2统计数据表明，本发明方法与H.264/AVC标准算法和现有算法相比，具有更低的计算复杂度。对于运动平缓、纹理平坦的Akiyo，News等序列，与H.264/AVC(JM17.0)相比，编码时间平均节省均在85％以上。

本发明提出的融合视觉感知特征的视频编码方法，可以在大幅提高编码速度的前提下，保持良好的视频图像主观质量，试验结果证明了充分利用编码信息进行低复杂度视觉感知分析的可行性，视觉感知特征显著度分析结果与HVS的一致性，验证了基于视觉感知特征制定可分级编码方案的合理性。

Claims

一种融合视觉感知特征的可分层视频编码方法，其特征在于，包括视觉感兴趣区域优先级的设定以及视频编码资源分配方案的设定两部分；

所述视觉感兴趣区域优先级的设定主要为：鉴于视频图像内容的丰富性和人眼视觉选择性注意机制，视频内容通常同时具有时域和空域双重视觉特征，标注视觉特征显著度区域的计算公式可表示为：

式中，ROI(x,y)代表当前编码宏块视觉感兴趣优先级；T(x,y,MV)代表当前编码宏块的时域视觉特征显著度；S(x,y,Mode)代表当前编码宏块的空域视觉特征显著度；(x,y)表示当前编码宏块的位置坐标；

所述视频编码资源分配方案的设定表现为：为在保证视频编码质量和压缩效率的同时，改善视频编码实时性能，首先满足感兴趣区域宏块的编码最优化，

采用快速帧内预测算法，利用宏块灰度直方图描述宏块平坦程度，依据宏块平坦度自适应地选取可能的帧内预测模式集合；

采用快速帧间预测算法，通过分析各种帧间预测模式出现概率的统计特性，对特定模式进行预判以提前终止不必要的帧间预测模式搜索和率失真代价计算，减少编码耗时；

采用快速运动估计搜索算法，基于编码块运动矢量相关性，依据编码块运动程度，判定搜索层次，实现高效搜索。
根据权利要求1所述的融合视觉感知特征的可分层视频编码方法，其特征在于，所述视觉感兴趣区域优先级的设定中，首先，进行时域视觉显著度区域标注：具体分为两个步骤：步骤1运动矢量噪声检测和步骤2平移运动矢量检测，分别用于削弱由于运动矢量噪声和摄像机运动而产生的平移运动矢量对于时域视觉显著度区域检测准确性的影响，完成前景与背景的分离，得到较为准则的、符合人眼视觉特征的时域视觉显著度区域标注结果；然后，进行空域视觉显著度区域标；最后，依据时域、空域视觉特征显著度区域标注结果，完成视觉特征显著度区域的标注。
根据权利要求2所述的融合视觉感知特征的可分层视频编码方法，其特征在于，在进行时域视觉显著度区域标注时，所述步骤1运动矢量噪声检测的计算公式表示为：

(1)式中，(x,y)为当前编码块位置坐标，
表示当前编码块的运动矢量MV，
表示运动参考区域C_rr内的平均运动矢量，定义为：

表示运动参考区域C_rr所包含宏块的运动矢量，
表示累加次数；

运动参考区域C_rr的定义如下，以使参考区域C_rr的形状、位置、面积能够随当前运动矢量
的变化而实现自适应调整：

将分别位于C_rr的左上、右上、左下和右下的四个宏块表示为MB₁,MB₂,MB₃，MB₄，其位置坐标定义为：

其中，

和
分别是当前运动矢量
在水平和垂直方向上的运动幅度，w_s和h_s分别表示当前编码块的宽度和高度，[·]表示取整计算；

如果
说明在运动参考区域C_rr内不存在运动矢量，则认为
是由运动噪声引起的，应予以滤除，
被置为0，标记T₁(x,y,MV)＝3；

如果
说明当前编码块与邻近宏块相比具有较显著的运动特征，属于前景动态区域，标记T₁(x,y,MV)＝2；

否则，说明当前编码块与邻近宏块具有相似的运动特性，时域显著性并不明显，需要进一步进行平移运动矢量检测，以判定该编码块是属于背景区域，还是属于前景平移区域，标记为T₂(x,y,MV)；

所述步骤2平移运动矢量检测的计算公式可表示为：

(2)式中，(x,y)表示当前编码块的位置坐标；
为动态阈值；SAD_(x,y)为当前编码块与前一帧对应位置块之间的绝对差值和SAD(Sum of Absolute Differences,SAD)，用于表征相邻两帧对应编码块的变化程度，定义如下：

其中，s(i,j)为当前编码块的像素值；c(i,j)为前一帧对应位置块的像素值；M，N分别为当前编码块的长、宽尺寸；

动态阈值
为前一帧中被确定为背景区域内的所有编码块SAD的均值，定义如下：

其中，S_c表示前一帧的背景区域；
表示S_c内包含编码块对应SAD值的累加和；Num表示累加次数；

综合上述(1)和(2)两个处理步骤，进行时域视觉显著度区域标注的计算公式可描述为：

(3)式中，各参数的定义与式(1)和式(2)相同；

然后，进行空域视觉显著度区域标注，其计算公式可描述为：

(4)式中，(x,y)表示当前编码块的位置坐标；Mode表示编码块的预测模式；mod e_P表示P帧编码中当前编码块的预测模式；mod e_I表示I帧编码中当前编码块的预测模式；

如果mod e_P选择了帧内预测模式，说明空域视觉特征显著度最高，属于敏感区，标记S(x,y,Mode)＝2；

如果mod e_P选择了子块帧间预测模式集合Inter8(8×8,8×4,4×8,4×4)或者mod e_I选择了Intra4×4预测模式，说明空间细节丰富，也具有较高空域视觉特征显著度，属于关注区，标记S(x,y,Mode)＝1；

如果mod e_P选择了宏块帧间预测模式集合Inter16(Skip,16×16,16×8,8×16)或者mod e_I选择了Intra16×16预测模式，说明空间变化平缓，空间视觉特征显著度低，属于非显著区，标记S(x,y,Mode)＝0；

最后，依据时域、空域视觉特征显著度区域标注结果，标注视觉特征显著度区域。
根据权利要求1所述的融合视觉感知特征的可分层视频编码方法，其特征在于，采用快速帧内预测算法的具体过程：

步骤1：计算当前编码宏块亮度分量Y的灰度直方图，记录其最大像素数Max Value；

步骤2：设定上限阈值Th_high和下限阈值Th_low，Th_high和Th_low均为[1，256]间的整数；

步骤3：若Max Value≥Th_high，认为宏块平坦，舍弃Intra4×4预测模式集合，选择Intra16×16预测模式集合，并将率失真开销最小的模式作为最优帧内预测模式；同时更新上限阈值：
否则，进入步骤4；

步骤4：若Max Value≤Th_low，认为宏块细节丰富，舍弃Intra16×16预测模式集合，选择Intra4×4预测模式集合，并将率失真开销最小的模式作为最佳帧内预测模式；同时更新下限阈值：
否则，进入步骤5；

步骤5：若Th_low<Max Value<Th_high，认为宏块平坦度特征不显著，采用标准帧内预测算法；

本发明中的上限阈值Th_high和下限阈值Th_low分别设定为150和50。
根据权利要求1所述的融合视觉感知特征的可分层视频编码方法，其特征在于，采用快速帧间预测算法的具体过程：

步骤1：Skip模式的预判

步骤1.1：计算Skip模式(mode0)的率失真代价值J_skip，如果小于阈值T则停止对其他模式的搜索，选定Skip作为最佳预测模式，跳转至步骤4；否则执行步骤1.2；

其中，T＝(0.7-Min_cos t/18000)×Min_cos t，Min_cos t为前一个编码宏块的最优率失真代价值；

步骤1.2：计算Inter16×16模式(mode1)的率失真代价值J_16×16，如果J_16×16>J_skip，则仍选定Skip作为最佳编码模式，跳转至步骤4；否则执行步骤2；

步骤2：宏块/子块帧间预测模式的预判

步骤2.1：计算Inter16×16模式和Inter8×8模式的率失真代价值J_16×16和J_8×8，若J_8×8-J_16×16>T₀，则选定Inter16×16模式作为最佳帧间编码模式，跳转至步骤4；否则，执行步骤2.2；

其中，T₀＝0.2×Min_cos t，是根据实验数据得出的自适应经验域值，可以在保证快速判决模式的同时，尽量减少误判率，Min_cos t为前一个编码宏块的最优率失真代价值；

步骤2.2：计算Inter4×4模式的率失真代价值J_4×4，如果J_4×4<min(J_16×16,J_8×8)，则对该宏块进行亚分割，将帧间亚分割预测模式Inter8×8，Inter8×4，Inter4×8和Inter4×4(mode4～mode7)作为帧间备选模式集合；否则，将宏块级帧间预测模式Inter16×16，Inter16×8，Inter8×16(mode1～mode3)作为帧间预测备选模式集合，舍弃亚分割预测；

步骤3：帧内模式的预判

步骤3.1：计算当前编码宏块的平均边缘误差值ABE(Average Boundary Error)与边缘误差总和SBE(Summation Boundary Error)，平均边缘误差值ABE反映了宏块的时间相关性；

ABE＝SBE/64

其中，

式中：Y_orig为当前编码宏块的像素值；Y_rec为重构宏块的像素值；(x,y)表示当前编码宏块的位置坐标；

步骤3.2：计算当前编码宏块的平均比特率AR(Average Rate)，平均比特率AR反映了宏块的空间相关性；

AR＝λRate/384

式中：λ为拉格朗日乘数因子；Rate为宏块编码所需的比特数；

步骤3.3：比较宏块的平均边缘误差和平均比特率，若ABE<C·AR(C＝0.95)，则说明该宏块的空域冗余小于时域冗余，舍弃对帧内预测模式的遍历计算，进入步骤4；否则，保留帧内预测模式遍历计算，进入步骤4；

步骤4：根据率失真准则计算并选择出最优帧间预测模式，完成帧间预测编码。
根据权利要求1所述的融合视觉感知特征的可分层视频编码方法，其特征在于，采用快速运动估计搜索算法的具体过程：

步骤1：描述宏块运动特征

步骤1.1：基于率失真准则，计算当前编码宏块运动估计的率失真代价值RD cost_motion：

J_motion(mv,ref|λ_motin)＝SAD[s,r(ref,mv)]+λ_motin[R(mv-pred)+R(ref)]

式中，s为当前宏块像素值；mv是宏块运动矢量，pred为预测矢量；ref为选择的参考帧；r(ref,mv)为参考宏块的像素值；R是运动矢量进行差分编码消耗的比特数，包括运动矢量与其预测值的差值的编码比特数和参考帧的编码比特数；λ_motion为拉格朗日乘子；SAD为当前块与参考块之间的绝对误差和，其定义为：

式中M和N分别表示当前编码宏块的宽度和高度；x,y表示宏块所在位置；s表示真实值；c表示预测值；m＝(m_x,m_y)^T表示宏块运动矢量，m_x和m_y分别表示宏块在水平和垂直方向的运动矢量；

步骤1.2：基于率失真准则，计算在mode模式下的率失真代值RD cost_mode：

J_mod e(s,c,mod e|λ_mod e)＝SSD(s,c,mod e|QP)+λ_mod e×R(s,c,mod e|QP)

式中，mode为当前宏块的帧间编码模式；s为原始视频信号；c为mode模式编码后的重建视频信号；λ_mod e为拉格朗日乘子；R(s,c,mod e|QP)是与模式和量化参数有关的包括宏块头信息、运动矢量和所有DCT块信息的总的二进制位数；QP是编码量化步长；SSD(s,c,mod e)为原始信号与重建信号之间的平方差值和，即：

其中，B₁和B₂分别表示编码块的水平像素数和垂直像素数，其取值可为16，8，4；s_Y[x,y]，c_Y[x,y,mod e|QP]表示原始视频和重建视频亮度信号的取值；c_U,c_V和s_U,s_V表示相应的色差信号的取值；

步骤1.3：从RD cost_motion和RD cost_mode中选取最小率失真代价值，记为RD_min cos t；

步骤2：判定宏块运动剧烈程度

判定宏块运动剧烈程度的计算公式为：

式中，γ,δ为判别宏块运动程度的调整因子，分别定义为：

其中，Bsize[blocktype]为当前编码宏块尺寸，有7种取值：16×16，16×8，8×16，8×8，8×4，4×8，4×4；pred_min cos t由UMHexagonS算法起始搜索点选择的运动矢量预测方式而定：

(1)如果起始搜索点采用时间预测方式的运动矢量，则pred_min cos t选取参考帧预测运动矢量reference frame MV predictor；

(2)如果起始搜索点没有采用时间预测方式的运动矢量，再分为以下两类情况：

(2.1)若当前运动估计预测宏块选择的是16×16，16×8，8×16大尺寸帧间预测模式，则pred_min cos t选取中值预测运动矢量median MV predictor；

(2.2)若当前运动估计预测宏块选择的是8×8，8×4，4×8，4×4小尺寸帧间预测模式，则pred_min cos t选取上层预测运动矢量uplayer MV predictor；

根据大量实验测试数据，数组α₁[blocktype]和数组α₂[blocktype]分别定义为：

α₁[blocktype]＝[-0.23，-0.23，-0.23，-0.25，-0.27，-0.27，-0.28]；

α₂[blocktype]＝[-2.39，-2.40，-2.40，-2.41，-2.45，-2.45，-2.48]；

步骤3：确定宏块运动估计搜索层次

步骤3.1：当宏块运动程度较低时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，只进行内层的第1层和第2层的非均匀六边形网格搜索；

步骤3.2：当宏块运动程度中等时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，进行第1层到第3层的非均匀六边形网格搜索；

步骤3.3：当宏块运动程度较高时，在UMHexagonS算法的“非均匀4层次的六边形格网格搜索”步骤中，才进行4层的非均匀六边形网格搜索。