WO2017045344A1

WO2017045344A1 - 一种视频帧的下采样方法和上采样方法以及传输处理方法

Info

Publication number: WO2017045344A1
Application number: PCT/CN2016/073415
Authority: WO
Inventors: 张萌; 陈廷欢; 孙知非
Original assignee: 东南大学
Priority date: 2015-09-17
Filing date: 2016-02-04
Publication date: 2017-03-23
Also published as: CN105263027A; CN105263027B

Abstract

本发明公开了一种视频帧的下采样方法和上采样方法以及传输处理方法，利用视频帧经过离散余弦变换后大部分能量都集中在低频系数中和高频系数所对应的空间域是稀疏的这两个性质，将视频帧经过离散余弦变换后，下采样截取低频系数，将高频系数所对应的空间域利用压缩感知理论进行下采样；在上采样端，将下采样得到的低频系数通过高频系数补零的方式拓展到与原视频帧同样的大小，然后利用逆离散余弦变换回到空间域；同时，利用压缩感知重构算法恢复高频系数所对应的空间域。最后低频系数补零的空间域成分加上高频压缩感知重构算法得到的空间域成分就得到与原视频帧高度一致的重构视频帧。本发明方法在与传统方案相同的下采样比下，上采样得到的视频帧对原视频帧具有更高的相似度。

Description

一种视频帧的下采样方法和上采样方法以及传输处理方法

技术领域

本发明属于图像处理领域，尤其涉及一种视频帧的下采样方法和上采样方法以及传输处理方法。

背景技术

随着显示器件的发展，高清视频在消费市场上非常流行。然而，有限的带宽资源限制了高清图像的传输，比如，4k高清电视是人们非常喜爱的，但其每一个视频帧包含了大量的像素数据，导致了在传输时占用了大量的带宽资源。为了突破带宽的限制，学者提出了视频帧下采样和上采样概念。上、下采样属于一种伸缩编码，在下采样过程中，减少高清图像传输的数据量；而在上采样过程中，恢复出高清图像原有的数据量。

近年来，国内外学者提出了很多上、下采样方案，如插值，预测和估计等。然而，这些方法只优化了上采样过程。而在下采样过程中，原视频帧数据只是在空间域或者变换域中被截断。

一些学者论证了在小波域或者DCT(离散余弦变换)域的下采样和上采样可以获得很好的性能。DCT被广泛地应用在视频编码方案中，如AVC/H.264。因为视频帧或者图像中大部分的能量都集中在低频成分中，很多下采样方案是在DCT域中高频成分被简单地截断。例如：加州大学圣芭芭拉分校的Mitra提出了子带DCT近似方案；首尔大学的Park提出了无逆DCT的模块表示方案；纽约州立大学Chen提出了DCT-维纳方案，其中维纳滤波器被用来估计高频成分；香港理工大学的Siu提出了基于自学习的k-NN MMSE估计方案来提高PSNR；Mitra应用了DCT系数之间的相关性来提高视觉质量。然而，这些方案都基于大部分能量都集中于DCT低频系数上这个假设，但这个假设不满足时，这些方案的性能将变差。因此，当视频帧中存在较多快速变换的区域或者边缘区域，即能量在高频DCT系数部分较为集中，上述关于DCT的下采样方案的PSNR(峰值信噪比)和SSIM(结构相似度测量)将会下降。

另一方面，2006年T.Tao等人提出了压缩感知(Compressive Sensing；CS)理论[D.L.Donoho,“Compressed sensing,”IEEE Transactions on Information Theory,vol.52,no.4,pp.1289–1306,2006]引起了国内外学者的广泛关注。利用压缩感知理论能够在远低于奈奎斯特采样速率下进行采样，使压缩和采样同时进行，从而减少了大量的采样数据，且能保证对信号的准确重构。但利用压缩感知理论的前提是压缩采样的信号必须是稀疏的，因此，利用压缩感知进行图像采样处理，必须先对图像进行稀疏变换，但往往图像经过稀疏变换以后，图像的数据量将变大，导致图像传输占用大的带宽。

申请人通过对视频帧的DCT域进行大量理论研究和仿真实验，发现高频DCT系数所对应的空域成分是稀疏的，即将视频帧的低频系数去除而保留高频成分时，在视频帧中只有快速变化区域和边缘区域。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种视频帧的下采样方法和上采样方法，通过利用DCT高频系数所对应空域的稀疏性对视频帧数据进行下采样和相应的上采样，达到低数据量传输和高重构精度的效果。

技术方案：为实现上述目的，本发明中视频帧的下采样方法包括以下步骤：

(1)将视频帧I_original进行离散余弦变换得到视频帧I_original在余弦变换域下的系数I_DCT；

(2)将所述余弦变换域下的系数I_DCT中的高频系数利用截断矩阵进行截断，得到低频成分的下采样结果T_lf；

(3)将所述余弦变换域下的系数I_DCT中的低频系数置零得到高频成分，并将高频成分通过逆离散余弦变换回到空间域I_hf；

(4)将所述空间域I_hf排列成向量，然后利用测量矩阵进行压缩采样，得到高频成分的下采样结果T_hf。

相应的，本发明还公开了一种视频帧的上采样方法，包括以下步骤：

(1)将低频成分的下采样结果T_lf中的高频系数补零，然后使用逆离散余弦变换回到空间域，得到低频空间域成分I_lf'；

(2)将高频成分的下采样结果T_hf利用压缩感知重构算法重构，并排列成一个矩阵，得到空间域高频成分矩阵I'_hf；

(3)将所述低频空间域成分I_lf'和空间域高频成分I'_hf进行叠加恢复出原视频帧I'。

进一步地，本发明还提供一种视频帧的传输处理方法，包括以下步骤：

(1)发送端对输入的视频帧按照上述下采样方法对视频帧中的低频成分和高频成分分别进行下采样得到低频成分的下采样结果T_lf和高频成分的下采样结果T_hf；

(2)将所述低频成分的下采样结果T_lf和高频成分的下采样结果T_hf进行发送；

(3)接收端接收到所述低频成分的下采样结果T_lf和高频成分的下采样结果T_hf，并利用上述上采样方法进行视频帧的还原。

有益效果：本发明中利用视频帧的大部分能量集中在离散余弦变换的低频系数且高频系数所对应的空域是稀疏的这两个性质，在对视频帧进行下采样的过程中先对低频成分和高频成分进行分离，将视频帧的DCT低频系数截断并保留，高频DCT系数所对应的空域成分采用压缩感知理论进行压缩采样，对低频系成分和高频成分分别进行下采样，保留了视频帧的大部分信息，特别是高频系数所对应的边缘信息和快速变化区域的信息；相应的，在对视频帧进行上采样的过程中，针对下采样的低频成分和高频成分，利用逆离散余弦变换和l₁范数重构算法分别重构出低频成分和高频成分，将保留的DCT低频系数补零到与原图像相同的数据大小，同时利用压缩感知重构算法重构出高频DCT系数所对应的空域成分，两者相加即为原图像的高相似度重构图像，在下采样保留了视频帧的大部分信息的基础上，上采样重构还原的图像便可达到很高的精度。本发明方法在与传统方案相同的下采样比下，上采样得到的视频帧对原视频帧具有更高的相似度。

附图说明

图1是本发明的视频帧上、下采样方案的流程图；

图2是视频帧DCT高频成分和低频成分的分解图；图2(a)是原视频帧；图2(b)是原视频帧保留离散余弦变换低频系数并且高频系数补零的空域图；图2(c)是原视频帧离散余弦变换高频系数对应的空域图；

图3是本发明的视频帧下采样方法的流程图；

图4是本发明的视频帧上采样方法的流程图；

图5是本发明与现有的混合插值法在不同采样比条件下PSNR数据的仿真对比图；

图6是本发明与现有的混合插值法在不同下采样比条件下SSIM数据的仿真对比图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

图1中可以看出，上下采样过程都分别分为对视频帧高频部分和低频部分进行的，利用的是离散余弦变换能量集中在低频系数和高频系数所对应的空间域是稀疏的这两个性质。

图2中可以看出，图2(b)中相对于图2(a)较为模糊，但基本上可以确定视频帧的内容，足以见得，低频系数对应的空域图集中了原视频帧中的大部分能量，图2(c)中视频帧的灰度值大部分是零或者接近于零(对应于图中黑色部分)，只有边缘区域存在稀疏值，可以看出视频帧的高频成分所对应的空间域是稀疏的。

在图像处理过程中，视频以视频帧为一个处理单元，视频帧以矩阵的形式进行表示，矩阵的元素为像素点，视频帧作为图像，其长度和宽度也都以像素为单位，全文中所提到的视频帧和视频帧数据为同一概念，均表示指代某一视频帧的矩阵。

图3中视频帧发送端利用离散余弦变换和压缩感知分别对视频帧的低频成分和高频成分进行下采样，包括以下步骤：

(1)输入原始的视频帧I_original数据；

(2)将视频帧I_original进行离散余弦变换C_2D得到原视频帧在余弦变换域下的系数I_DCT∈R^M×N：

其中，M是图像的长度，N是图像的宽度，f_lf表示低频系数，f_hf表示高频系数

C_1Dm、C_1Dn均是一维离散余弦变换矩阵，C_1Dm的长度为M，它的元素是

i,j是位置坐标，当j＝1时，

当j＝2,…,M时，

C_1Dn长度为N，它的元素是

当j＝1时，

当j＝2,…,N时，

表示Kronecker积；C_1Dn'为C_1Dn的转置。

(3)将视频帧在余弦变换域下的系数I_DCT的高频系数进行行截断D_c和列截断D_r，得到低频系数对应的空间域视频帧图像，即低频成分的下采样结果T_lf：

其中，

是行截断矩阵，M_D是截断后的图像列数

是列截断矩阵，R表示实数集，N_D是列截断后的图像宽度，E是单位矩阵。

(4)将视频帧在余弦变换域下的系数I_DCT的低频系数置零，并将高频系数通过逆离散余弦变换回到空间域I_hf，该空间域中仅存在高频成分：

其中

是逆离散余弦变换矩阵。

(5)将空间域I_hf排列成一个向量，然后利用压缩感知理论进行压缩采样，得到高频成分下采样结果T_hf：

T_hf＝Φvec(I_hf)＝Φλ

其中Φ是测量矩阵(measurement matrix)[D.L.Donoho,“Compressed sensing,”IEEE Transactions on Information Theory,vol.52,no.4,pp.1289–1306,2006]，测量矩阵是压缩感知理论里的一个定义量，是一种随机矩阵，并且满足有限等距性质(RIP)即可为测量矩阵，所谓有限等距性，简单解释就是矩阵的每一列近似正交，vec()是将矩阵排列成一个向量的操作，一般按照矩阵的从左到右，从上到下排列，λ是中间变量，λ＝vec(I_hf)。

在对视频帧进行下采样之后，将采样后的数据发送给视频接收端，相应的，接收端利用离散余弦变换和压缩感知分别对视频帧的低频成分和高频成分进行上采样处理，然后进行整合得到复原后的视频帧数据，如图4所示，该方法包括以下步骤：

(1)将低频成分下采样结果T_lf的高频系数补零，然后使用逆离散余弦变换回到空间域I_lf'：

其中，U_c和U_r分别是上采样行补零矩阵和下采样列补零矩阵，E是单位矩阵。

(2)将高频成分下采样结果T_hf利用压缩感知重构算法重构，并排列成一个矩阵，得到空间域高频成分矩阵I'_hf：

I'_hf＝mat(λ')

其中，λ'是重构的λ，mat()是vec()的逆操作，即将向量转化成矩阵，

表示求向量λ的0范数，即为向量λ中非零元素的个数，argmin(·)是求最小值，s.t.表示约束条件，Φ是测量矩阵，T_hf是高频成分下采样后的结果，I_hf'是重构的离散余弦变换高频成分对应的空域数据。

(3)将重构的空间域高频成分加上由逆离散余弦变换得到的低频空间域成分，即可恢复出原视频帧矩阵I'：

I'＝I'_lf+I'_hf

为了验证本发明方法比现有技术的优势，在本发明的下上采样方法与现有的下上采样方法在不同的采样率下，利用峰值信噪比PSNR和结构相似度测量SSIM数据的仿真对比图进行比较两种方法的性能，PSNR和SSIM都是对两幅图相似性的一种量化评价，值越高，相似度越高，本发明方法对比的两幅图为：原视频帧和上采样还原的图像；现有下采样方法对比的两幅图为：原视频帧和其相应上采样还原的图像。

如图5所示，在不同的下采样率下，本发明方法的峰值信噪比PSNR比离散余弦变换-维纳插值法高1.239dB以上，可以看出，随着采样率的升高，本发明方法的峰值信噪比PSNR的提升率高于离散余弦变换-维纳插值法，而混合插值法随着下采样率的升高，峰值信噪比PSNR增长的很少；另外，对于本发明方法而言，低频成分下采样数据固定(固定DCT截断率)的性能比高频成分下采样数据固定(固定压缩采样率)的性能较高。

如图6所示，在不同的下采样率下，本发明方法的结构相似度测量SSIM比离散余弦变换-维纳插值法高0.0067以上。

为了验证本发明方法对不同图像均有较好的普遍适用性，采用相同的下采样率利用本发明方法和DCT维纳混合插值法和双三次插值对不同图像进行处理对比，表1中三种方法的下采样率为0.5，针对不同图像进行处理(表中罗列了12个图像)，就PSNR而言，本发明方法比DCT维纳混合插值法和双三次插值平均高至少2.5dB；就SSIM而言，本发明方法比DCT维纳混合插值法和双三次插值平均高至少0.05，足以见得本发明方法的稳定性和普遍适用性。

表1本发明方法与DCT维纳混合插值法和双三次插值的性能对比表

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

一种视频帧的下采样方法，其特征在于，包括以下步骤：

(1)将视频帧I_original进行离散余弦变换得到视频帧I_original在余弦变换域下的系数I_DCT；

(2)将所述余弦变换域下的系数I_DCT中的高频系数利用截断矩阵进行截断，得到低频成分的下采样结果T_lf；

(3)将所述余弦变换域下的系数I_DCT中的低频系数置零得到高频成分，并将高频成分通过逆离散余弦变换回到空间域I_hf；

(4)将所述空间域I_hf排列成向量，然后利用测量矩阵进行压缩采样，得到高频成分的下采样结果T_hf。
根据权利要求1所述的视频帧的下采样方法，其特征在于，所述截断矩阵包括行截断矩阵D_r和列截断矩阵D_c，表达式如下：

式中，M_D是截断后的图像列数，R表示实数集，N_D是列截断后的图像宽度，E是单位矩阵，M是图像的长度，N是图像的宽度。
一种视频帧的上采样方法，其特征在于，包括以下步骤：

(1)将低频成分的下采样结果T_lf中的高频系数补零，然后使用逆离散余弦变换回到空间域，得到低频空间域成分I_lf'；

(2)将高频成分的下采样结果T_hf利用压缩感知重构算法重构，并排列成一个矩阵，得到空间域高频成分矩阵I'_hf；

(3)将所述低频空间域成分I_lf'和空间域高频成分I'_hf进行叠加恢复出原视频帧I'。
一种视频帧的传输处理方法，其特征在于，包括以下步骤：

(1)发送端对输入的视频帧按照权利要求1所述的下采样方法对视频帧中的低频成分和高频成分分别进行下采样得到低频成分的下采样结果T_lf和高频成分的下采样结果T_hf；

(2)将所述低频成分的下采样结果T_lf和高频成分的下采样结果T_hf进行发送；

(3)接收端接收到所述低频成分的下采样结果T_lf和高频成分的下采样结果T_hf，并利用权利要求2所述的上采样方法进行视频帧的还原。