WO2010078759A1

WO2010078759A1 - 基于码率控制的图像时间域和空间域分辨率处理方法

Info

Publication number: WO2010078759A1
Application number: PCT/CN2009/073590
Authority: WO
Inventors: 马国强
Original assignee: 深圳市融创天下科技发展有限公司
Priority date: 2009-01-09
Filing date: 2009-08-28
Publication date: 2010-07-15
Also published as: US8311097B2; US20110058605A1; CN101778275B; CN101778275A; EP2234401A1; EP2234401A4

Description

基于码率控制的图像时间域和空间域

分辨率処理方法技术领域

本发明涉及视频图象处理领域，更具体地说，涉及一种自适应时间域和空间域分辨率框架的图像处理方法。背景技术

在窄带视频通信应用领域，由于传输带宽的限制，需要降低视频图像编码码率，在较低的编码码率下传输的图象有很大概率都处于过压缩状态，继而引起的方块效应、量化噪声等对视频图像的主观效果会产生比较明显的损伤。在编码器中，造成过压缩的原因主要是由过量化引起的，具体表现在两种情况:

(1) 量化系数 Qp过高，使得量化步长偏大，不能反映视频图像的细节变化，结果导致视频图象的高频部分失真过大，视频图象的细节损失比较严重。

(2) 宏块边界效应，由于一帧视频图像中两侧边缘宏块的编码模式可能不相同，并且各宏块可能选择不同的量化参数，因此会引起视频图像边界能量的断裂，即经过压缩编码后的相邻图像块的边界不连续，造成明显的方块效应 (blocking effect) , 在目前主流的视频图像压缩编码技术如 H261/H263/H264及 MPEG4等国际标准中，一般都是基于 DCT离散余弦变换的方法将空域图像信息变换到频率域，再将变换后少数的 DCT系数进行量化和编码。采用传统的编码压缩方法在低码率压缩的视频图像通信中产生的方块效应是引起图像失真的一个重要因素，方块效应严重影响了视频图像通信的主观质量和客观质量（PSNR)。

实验证明，对于给定的输入图象，随着编码过程中分配码率的降低，存在着一个临界点，当分配码率小于该临界点时，重建图象在原有的时间分辨率和空间分辨率下不能保存足够的图像紋理信息。本发明提出了一种新的视频图像处理方法 ( AstRF ) ( RDO based Adaptive spatial-temporal Resolution Frame ) ,即基于率失真优化的自适应时间域和空间域分辨率框架的图像处理方法，当编码器检测到分配码率小于临界点时，自动根据率失真优化的原则，找出在分配的特定目标码率下最适合的时间分辨率和空间分辨率，在解码器解码后，再通过一定的算法恢复到输入图象的分辨率。通过本发明提供的图像处理方法可以明显改善在低码率下传输视频图像因过压缩而引起的对视频图像的主观效果的明显损伤。

发明内容

本发明要解决的技术问题在于，针对现有技术中的因过压缩而严重影响视频图像主观质量和客观质量的问题，提供一种基于率失真优化的自适应时间域和空间域分辨率框架的图像处理方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于率失真优化的自适应时间域和空间域分辨率框架的图像处理方法，所述方法包括以下步骤：

A. 编码器根据输入的视频图像和目标分配码率的变化计算并获得临界码率条件值；

B. 编码器将所述临界码率条件值与阈值进行比较，若所述临界码率条件值小于阈值即所述的目标分配码率小于所述临界码率时通过下采样获得适应于所述目标分配码率的图像分辨率，否则进行常规编码处理；

C. 解码器通过上采样恢复接收图像的原始分辨率并进行平滑处理。

优选地，所述步骤 A中计算并获得临界码率条件值的公式为：

Risual_{x y k} = H x (C_x,_y,_k _ P_x,_y,_k ) x H ^T

其中，表示编码然后解码得到的重建图象，表示 k时刻的图

Ρ_Χ,_Λ表示， Η是任意编码器指定的空间 -频域变换矩阵； R^isual^^k表示编码后得到的残差在频域的分布，

其中， Qp 是量化参数， N是参加计算区域的象素数目， 7 ^是为高频分：适当增加权重，取值如下:

1 1 1 1 1 2 1 1

2 1 -1 -2 1 1 -1 -2

H

1 -1 -1 1 1 -1 -1 2

1 -2 2 -1 1 - 2 1 -1

Score 是临界码率条件值。。

优选地，所述步骤 B中的所述阈值根据不同场景变化的范围是 0. 1至 0. 95。进一步优选地，所述步骤 B进一步包括：

B 1. 通过下采样获得适应于所述目标分配码率的图像空间分辨率；

B2. 通过下采样获得适应于所述目标分配码率的图像时间分辨率。

进一步优选地，所述步骤 B1进一步包括：

B11.设置图像空间分辨率模板集合；

B12.根据率失真优化方法在所述模板集合中获得最佳模板做为适应于所述目标分配码率的图像空间分辨率。进一步优选地，所述步骤 B12中所述率失真优化方法是采用拉格朗日线性逼近方法实现 RDO, 公式为： J = R p) + pD p) 其中，遍历模板集合中各种编码模式求取 ^Ji，使所述公式中的最小。即 minG/)对应的模式，即是 R-D最优，其对应的图像分辨率即是所述图像空间分辨率。

优选地，所述步骤 B2中所述下采样是采用抽帧的方式降低时间分辨率。优选地，所述步骤 C进一步包括： CI. 采用空间重采样恢复接收图像的原始空间分辨率；

C2.采用时间窗平滑和场景切换判断方式对图像进行平滑处理。

优选地，所述步骤 C1中所述空间重采样是采用了双立方体卷积插值算法，所述双立方体卷积插值算法包括一维立方体卷积插值算法和二维立方体卷积插值算法，其中，一维立方体卷积插值算法为：

其中，中 c)是待插值点， /^( )是参考网格点， 1

其中， ¾ α = -0.5

其中 W )是函数 H ( c) = 的最近似拟合表达式; 二维立方体卷积插值算法为：

其中， P '(；是待插值点， ^是参考网格点。

优选地，所述步骤 C2中所述场景切换判断的步骤包括：

C21.分析当前宏块，选取最佳帧内和帧间编码模式，使用拉格朗日率失真模型计算出帧内编码代价函数值和帧间编码代价函数值，计算公式为：

IntraCostlnMb = SATD + λ χ Rbit(Intra)

InterCostlnMb = SAD + λ χ Rbit(Inter)

其中， IntraCostlnMb是帧内编码代价函数值， InterCostlnMb是帧间编码代价函数值，是拉格朗日因子， SATD是经过哈德曼变换的 4 X 4块的预测参差绝对值总和， SAD是绝对误差和， Rbit是使用相应编码参数对应的编码输出比特数；

C22. 将当前图像中每个宏块的帧内编码代价函数值和帧间编码代价函数值进行累加，分析完整帧图像后得到帧内编码总代价函数值和帧间编码总代价函数值，若帧间编码总代价函数值大于帧内编码总代价函数值与敏感系数的乘积则发生了场景切换，否则没有发生场景切换，其中敏感系数范围是 0.1至 0.9。

实施本发明提供的基于率失真优化的自适应时间域和空间域分辨率框架的图像处理方法，当编码器检测到分配码率小于临界码率时，自动根据率失真优化的原则，找出在分配的特定目标码率下最适合的时间分辨率和空间分辨率，在解码器解码后，再通过一定的算法恢复到输入图象的空间分辨率。通过本发明提供的图像处理方法可以明显改善在低码率下传输视频图像因过压缩而引起的对视频图像的主观效果的明显损伤并且在降低计算复杂度的同时仍能保证图象质量。附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图 1是依据本发明一较佳实施例的一种自适应时间域和空间域分辨率框架的图像处理方法的流程图；

图 2是本发明的一个实施例中用于平滑图像的时间窗示意图；

图 3是本发明在一个实施例中使用场景切换判断方式对图像进行平滑处理的场景切换判断方法流程图；

图 4是本发明在一个实施例中空间重采样的一维插值和二维插值需要的参考网格点示意图；

图 5是本发明的一个实施例中空间重采样的立方体卷积插值函数与距离之间的关系示意图；

图 6是本发明的一个实施例中 Akiyo序列图象原始分辨率编码与本发明方法率失真性能对比示意图；

图 7是本发明的一个实施例中 Foreman序列图象原始分辨率编码与本发明方法率失真性能对比示意图；

图 8是本发明的一个实施例中 Mobile序列图象原始分辨率编码与本发明方法率失真性能对比示意图；

图 9是本发明的一个实施例中 Tempete序列图象原始分辨率编码与本发明方法率失真性能对比示意图。具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。图 1示出了依据本发明一较佳实施例的一种自适应时间域和空间域分辨率框架的图像处理方法的流程图，过程如下：

在步骤 S100中，在编码器端接收原始输入的视频图像；

在步骤 S105中，在编码器端计算并获得临界码率条件值，方法如下：假设表示 k时刻的图象， t表示目标码率，表示重新采样后的生成图象：

S^r _x^_k' =R(S_x^_k) 其中， R(表示下采样函数。设表示 ^^编码然后解码得到的重建图象，

C ,_y,_k表示 S ,_y,_k编码然后解码得到的图象。 D_x,_y,_k表示由 S_x,_y,_k编码得到的失真： D_x,_y,_k = S_x^_k -C_x,_y,_k；设表示由 S _y,_k编码，然后恢复分辨率后得到的失

其中， 0表示上采样函数。

设 ¾_W ，表示编码后得到的残差在频域的分布。 's_W ，的取值见式

4, 其中 H可以是任意编码器指定的空间-频域变换矩阵。 Risual_xyk =Hx(C_xyk -P_xyk)xH^T

其中， Qp 是量化参数， N是参加计算区域的象素数目， 7^是为高频分量适当增加权重，取值如下： 1 1 1 1

1 1 2 8

1 2 16 8

1 8 8 16

1 1 1 1 1 2 1 1

2 1 -1 -2 1 1 -1 -2

H= H^T =

1 -1 -1 1 1 -1 -1 2

1 -2 2 -1 1 -2 1 -1

Score 是临界码率条件值；在步骤 S110中，比较判断编码器计算的临界码率条件值 Score是否小于阈值 L, 在本发明使用的场景中，图象分辨率为 320X240， 10FPS, 码率 50kbps，信道是 60kbps左右， L可以取 0.85，如果场景发生变化，如码率变化了等等，需要重新根据实验调整阈值 L, 阈值 L的范围是 0.1— 0.95; 若临界码率条件值 Score小于阈值 L则执行步骤 S115, 否则执行步骤 S135;

在步骤 S115中，在编码器端采用下采样计算适应于目标分配码率的空间分辨率，方法如下：

首先对空间分辨率设置模板，如下：

今纵向缩小 1/2

今纵向缩小 1/3

今纵向缩小 1/4

今横向缩小 1/2

今横向缩小 1/3

今横向缩小 1/4

具体的模板可以根据实际中原始分辨率的大小实际设定。在确定好模块集合后，根据 RD0的原则在这些模板中寻找最佳值。可以使用拉格朗日线性逼近方法来实现 RD0，按照式：

J = R(p) + pD(p) 遍历模板集合中各种编码模式求取 ^Ji，使上式中的最小。即 ^min ^^对应的模式，即是 R-D最优，其对应的分辨率即是最优分辨率；

在步骤 S120中，在编码器端采用下采样计算适应于目标分配码率的时间分辨率，方法如下：

主要通过时间上分层（或分级）来实现时间分辨率的可变。一个提供时间可分级的比特流，图象可以分割成具有以下特性的一个基础层和一个或者几个增强层。这些时间层通过时间级来标志，基础层以时间级 0表示，其它的时间层依次递增，相应地时间分辨率也随之增加。对于一个自然数 k，可以通过移除比特流中所有时间级大于 k的时间（增强）层，得到一个以 k标定的低层次时间分辨率。在混合视频编解码器中，一般情况下时间可分级的一个必要条件是允许通过将当前被预测帧的运动补偿预测参考帧限制在低于或者是等于当前帧的时间层中来实现。利用编码器中分层 B帧（hierarchical B picture ) 的工具可以得到时间可分级的 N层 2阶时间增强层。

时间基础层 T。，独立于其它所有帧被编码，开始于一个 IDR访问单元，其中每一帧编码方式为帧内编码或者利用之前的基础层的图象作为参考帧。基础层的编码和显示次序是相同的。时间级为 Τ_χ的时间增强层图片永远坐落于两个连续的时间级低于 X的图片之间。时间增强层是作为 Β帧被编码的，其参考帧列表 Li st 0和 Li st 1被限制在前后时间级小于 X的两个图象。每个时间层集合可以独立于所有时间级 Υ>Χ的增强层被解码；

上述时间分级的分层预测结构 (Hierarchical Prediction Structure ) 可以与编码器的多参考帧方法相结合，参考帧列表可以使用多于一个参考帧，而且可以包含与被预测帧相同时间级的图片，分层预测结构可以是非二阶的，可以根据实际编码需要，任意修改预测结构；

在上述时间分层的结构中，很明显时间上的参考受到局限，编码器率失真性能将会不可避免地受到影响，以下部分介绍如何在一定程度上改善这个问题。

分层预测结构的编码效率很大一部分依赖于不同的时间层量化参数是怎样选择的。基础层编码必须有最高的保真度，因为其直接或者间接地作为所有其它图象的运动补偿预测参考。而其它各个时间层的量化参数可以逐层增加，因为其重建图象质量只能影响更少的图片。基础层量化参数的选择可以通过传统的方法由率失真分析来完成。然而对增强层的 QP，为了避免复杂的计算，可以使用以下的方法，实验证明对不同特性的视频信号有较好的鲁棒性。

假设基础层的量化参数是 QP。，对于时间级为 k>0的增强层其量化参数可以选择为 QP_k= QP。+3+k。

虽然这种方法在一个 GOP内引起很大的 PSNR波动，但是实验证明其重建结果还是比较平滑的。

在步骤 S125中，在解码器端采用上采样的方法回复视频图像的原始空间分辨率，这里的上采样就是使用空间重采样的方式即使用双立方体卷积插值算法回复视频图像的原始空间分辨率，双立方体卷积插值算法包括一维插值算法和二维插值算法；

在步骤 S130中，在解码器端对处理过的图像进行平滑处理，包括时间窗平滑处理和场景切换判断方式的平滑处理，平滑处理完毕即结束本方法流程；在步骤 S135中，是在临界码率条件值 Score不小于阈值 L时，在编码器端对原始输入的视频图像进行常规编码处理；

在步骤 S140中，对应于步骤 S135在解码器端对接收的编码的视频图像进行常规的解码处理。

图 2示出了本发明的一个实施例中用于平滑图像的时间窗示意图，在时间窗中，空间分辨率的下降采用平滑过度的方式，让人的视觉逐渐过度。图 2表示连续的时间窗，可以统计一个窗口的整体情况，然后回来重新编码整个窗口。

图 3示出了本发明在一个实施例中使用场景切换判断方式对图像进行平滑处理的场景切换判断方法流程图，包括以下步骤：

在步骤 300中，首先分析当前宏块，选取最佳帧内和帧间编码模式；在步骤 302中，使用拉格朗日率失真模型计算出 IntraCostlnMb和 InterCostlnMb; IntraCostlnMb和 InterCostlnMb分别代表在帧内编码及帧间编码的代价函数，计算方法如下：

IntraCostlnMb = SATD + λ χ Rbit(Intra)

InterCostlnMb = SAD + λ χ Rbit(Inter) 其中，是拉格朗日因子， SATD是经过哈德曼变换的 4 X 4块的预测参差绝对值总和， SAD是绝对误差和， Rbit是使用相应编码参数对应的编码输出比特数；

在步骤 304中，将当前图像中每个宏块的帧内编码代价函数值 (IntraCostlnMb )和帧间编码代价函数值（InterCostlnMb )进行累加求和，得到帧内编码总代价函数值（ IntraTotalCost )，帧间编码总代价函数值 (InterTotalCost) , 公式为：

IntraTotalCost = > IntraCostlnMb

InterTotalCost = InterCostlnMb

在步骤 306中，判断当前帧是否结束，若没有结束则继续执行步骤 300，若当前帧结束则执行步骤 308;

在步骤 308中，当分析完整帧图像后，根据求得的帧内编码总代价函数值 (IntraTotalCost) 和帧间编码总代价函数值（InterTotalCost) 分析判断当前图像是不是场景切换，如果 InterTotalCost > IntraTotalCost X Fbias 此幅图像的判断结果为场景切换 310，否则判断结果为没有场景切换 312; 其中， Fbias是判断场景切换的敏感系数，取值范围是 0.1— 0.9, 如果过小会造成误判，过大会造成对场景切换反映迟钝，例如在 50kbps信道传输 QVGA ( 320x240 ) , lOfps的场景时，建议取 0.25, 其它场景可以根据具体需要作调节。

图 4示出了本发明在一个实施例中空间重采样的一维插值和二维插值需要的参考网格点示意图，本发明的空间重采样使用了双立方体卷积插值。被插值点的灰度值由 16个最近的原图像网格点的灰度值加权平均而得，整个插值过程包括了水平方向上的一维插值以及垂直方向上的一维插值，每次一维插值需要 4个参考网格点，两边各两个；而二维插值共需要 4x4=16个参考网格点；一维立方体卷积插值的核函数算子是：

其中，是待插值点与参考网格点之间的距离，而参数《 = -0.5。这个核函数是函数 H (X) = 的最近似拟合表达式，函数 H W = 的函数图像如附 χ · π χ - π

图中的图 5所示。立方体卷积一维插值公式为：

其中，是待插值点， Pfe)是参考网格点，若参考网格点落在了图像之外，则用最近的图像边缘上的像素点取代；二维插值是可分离的两个方向上的一维插值的组合，算法为：

P'(x, y) =∑W(y - y_j) - (f_j W(x - χ, )Ρ{χ, , ))

;=0 i=0 图 5示出了本发明的一个实施例中空间重采样的立方体卷积插值函数与距离之间的关系示意图，反映该函数图像的函数为： Hw = 。

χ - π

图 6是本发明的一个实施例中 Akiyo序列图象原始分辨率编码与本发明方法率失真性能对比示意图。

图 7是本发明的一个实施例中 Foreman序列图象原始分辨率编码与本发明方法率失真性能对比示意图。

图 8是本发明的一个实施例中 Mobile序列图象原始分辨率编码与本发明方法率失真性能对比示意图。

图 9是本发明的一个实施例中 Tempete序列图象原始分辨率编码与本发明方法率失真性能对比示意图。

图 6、图 7、图 8和图 9分别显示了 Akiyo、 Foreman, Mobile和 Tempete分别采用原始分辨率及本发明方法的率失真性能，这里需要说明的是，原始分辨率下计算 PSNR时采用的是解码图象和原始图象间的差异；本发明方法计算 PSNR 采用的是解码图象和分辨率调整后图象间的差异；从这些图中可以看到，原始分辨率和本发明方法两条曲线在某个点开始分叉，这个点就是临界码率，之后采用本发明方法的曲线与重采样图象之间的失真远小于原始分辨率图象编码后与原始输入图象之间的失真。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，包括以下步骤：

2、根据权利要求 1所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于：所述步骤 A中计算并获得临界码率条件值的公式为：

Ri腿 ,_y,_k = H x (C_x,_y,_k—P_x,_y,_k ) x H ^T

其中，表示编码然后解码得到的重建图象，表示 k时刻的图象，表示预测图像， H是任意编码器指定的空间-频域变换矩阵， R^isual^表示编码，后得到的残差在频域的分布，

其中， Qp 是量化参数， N是参加计算区域的像素数目， 7 ^是为高频分量适当增加权重，取值如下：

1 1 1 1 1 2 1 1

2 1 -1 - 2 1 1 -1

H H

1 -1 -1 1 1 -1 -1

1 - 2 2 -1 1 - 2 1

Score 是临界码率条件值。

3、根据权利要求 1所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于：所述步骤 B中的所述阈值根据不同场景变化的范围是 0. 1至 0. 95 ο

4、根据权利要求 1所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 Β进一步包括：

B1. 通过下采样获得适应于所述目标分配码率的图像空间分辨率；

Β2. 通过下采样获得适应于所述目标分配码率的图像时间分辨率。

5、根据权利要求 4所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 B1进一步包括：

B11.设置图像空间分辨率模板集合；

B12.根据率失真优化方法在所述模板集合中获得最佳模板做为适应于所述目标分配码率的图像空间分辨率。

6、根据权利要求 5所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 B12中所述率失真优化方法是采用拉格朗日线性逼近方法实现 RDO, 公式为： J = R(p) _{+ P}D(p) 其中，遍历模板集合中各种编码模式求取 ^J 使所述公式中的最小。即 minG/)对应的模式，即是 R-D最优，其对应的图像分辨率即是所述图像空间分辨率。

7、根据权利要求 4所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 B2中所述下采样是采用抽帧的方式降低时间分辨率。

8、根据权利要求 1所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 C进一步包括：

C 1. 采用空间重采样恢复接收图像的原始空间分辨率；

9、根据权利要求 8所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 C1中所述空间重采样是采用了双立方体卷积插值算法，所述双立方体卷积插值算法包括一维立方体卷积插值算法和二维立方体卷积插值算法，其中，一维立方体卷积插值算法为：

其中，中是待插值点，是参考网格点，

(a + : (a + : + 1 0 ^≤ 1 < 1

其中， - 5a\x\ + Sa\x\ - 4a 1≤ < 2 ¾a = -0.5

其中 W )是函数 H ( c) = 的最近似拟合表达式;

χ · π

二维立方体卷积插值算法为

P' , y) =∑W(y - _yj ) - ∑W(x - _Xi )P(_Xi , _yj )) 其中， P '( 是待插值点， P . , ^)是参考网格点。

10、根据权利要求 8所述的自适应时间域和空间域分辨率框架的图像处理方法，其特征在于，所述步骤 C2中所述场景切换判断的步骤包括：

IntraCostlnMb = SATD + λ χ Rbit(Intra)

InterCostlnMb = SAD + λ χ Rbit(Inter)

其中， IntraCostlnMb是帧内编码代价函数值， InterCostlnMb是帧间编码代价函数值，是拉格朗日因子， SATD是经过哈德曼变换的 4 X 4块的预测参差绝对值总和， SAD是绝对误差和， Rbit是使用相应编码参数对应的编码输出比特数； C22. 将当前图像中每个宏块的帧内编码代价函数值和帧间编码代价函数值进行累加，分析完整帧图像后得到帧内编码总代价函数值和帧间编码总代价函数值，若帧间编码总代价函数值大于帧内编码总代价函数值与敏感系数的乘积则发生了场景切换，否则没有发生场景切换，其中敏感系数范围是 0.1至 0.9₍