WO2005027520A1

WO2005027520A1 - Bi-directional predicting method for video coding/decoding

Info

Publication number: WO2005027520A1
Application number: PCT/CN2004/000735
Authority: WO
Inventors: Xiangyang Ji; Wen Gao; Debin Zhao; Yan Lu; Siwei Ma; Honggang Qi
Original assignee: Institute Of Computing Technology Chinese Academy Of Sciences
Priority date: 2003-09-12
Filing date: 2004-07-02
Publication date: 2005-03-24
Also published as: US8005144B2; EP1672926B1; BRPI0413945A8; EP1672926A4; US20070110156A1; JP4755095B2; BRPI0413945A; KR100897880B1; JP2007505529A; KR20070026317A; CN1225127C; CN1525762A; EP1672926A1; BRPI0413945B1

Description

用于视频编码的编码端 /解码端汉向预测方法技术领域

本发明涉及一种用于视频编码的双向预测方法，尤其是一种用于对视频进行压缩的双向预测方法；属于视频编解码技术领域。背景技术

数字电视、新一代移动通信、宽带网络通信和家庭消费电子这些蓬勃发展的高技术产业群，其共性技术集中在以视音频为主要内容的多媒体信息处理技术，特别是数据压缩技术上。高效的视频编解码技术是实现高质量、低成本多媒体数据存储与传输关键。目前常用的编码方法有预测编码、正交变换编码、向量量化编码等等，这些方法都是基于信号处理理论的，通常也称为第一代编码技术。现在比较流行的图像编码国际标准都是基于这种编码理论，采用的是基于块匹配的运动补偿、离散余弦变换和量化相结合的编码方法。典型的有国际标准化组织 /国际电工技术委员会第一联合技术组（IS0/IEC JTC1 )推出的运动图象专家组（Mot ion Picture Experts Group, 简称 MPEG) - 1， MPEG - 2 和 MPEG-4等国际标准，以及国际电信联盟（ITU- T )提出的 H. 26x系列推荐。这些视频编码标准在工业界得到了广泛应用。

这些视频编码标准都采用了混合视频编码（Hybr id Video Coding ) 策略，通常包括：预测、变换、量化和信息熵编码等四个主要模块。预测模块的主要功能时利用已经编码并重建的图像对当前要编码的图像进行预测（帧间预测），或者利用图像中已经编码并重建的图像块对当前要编码的图像块进行预测（帧内预测）；变换模块的主要功能是将输入的图像块变换到另外一个空间，使输入信号的能量尽可能地集中在低频变换系数上，进而降低图像块内元素之间的相关性，有利于压缩；量化模块的主要功能是将变换的系数映射到一个有利于编码的有限元素集上；信息熵编码模块的主要功能是根据统计规律，将量化后的变换系数用变长码表示。视频解码系统包含相似的模块，主要是将输入的码流通过熵解码、反量化、反变换等过程重建解码图像。除了上述模块，视频编解码系统中通常还包含一些辅助的编码工具，这些工具也会对整个系统的编码性能（压缩比）做出贡献。

视频编码的大部分编码效率来自于基于运动补偿的预测。基于运动补偿的预测的主要功能是消除视频序列在时间上的冗余。视频编码过程就是对视频序列的每一帧图像进行编码的过程，完成这一功能的就是预测模块。常用的视频编码系统对每一帧图像的编码是以图像块为基本单元进行的。在编码每一帧图像时，又可以分为帧内（ I帧）编码、预测（ P帧）编码和双向预测（ B帧）编码等情况。一般来说，编码时， I帧、 P帧和 B帧编码是穿插进行的，比如按照 IBBPBBP的顺序。

B 帧的引入可以有效地解决运动物体之间或物体与背景之间由于不同的运动方向或运动速率而引起的 "遮挡问题"。 B帧的编码可以使得编码压缩效率达到 200: 1以上的码率。对 B帧中的图像块进行编码需要包括：直接（Direct )、前向预测 ( Forward Predict ion ), 后向预测 ( Backward Predict ion )和双向预测（Bi-direct ional Predict ion )四种模式。由于 B帧技术需要同时进^ "前向与后向的运动估计，因此需要较高的运算复杂度，同时为了区分前后向运动矢量要引入额外的标识信息。

在现有视频编码系统中， B 帧通常存在双向预测的运动模式，因为这种模式可以有效地消除由于图片之间的旋转、亮度的变化、噪声等引起的帧间预测不准确性。但是，与此同时也需要对更多的运动矢量进行编码，因此，运动矢量编码的比特数在整个编码中的比重经常要大于 30%。

因此，如果有一种方法，在保持较好地双向预测性能前提下，降低对运动矢量的编码，将会有效地提高编码的压缩率，特别是对于低码率视频传输的应用，降低运动矢量编码所需要的比特数更有意义。发明内容本发明所要解决的技术问题在于提出一种用于视频编码的双向预测方法，可以有效地降低所需编码的运动矢量数量，而且基本上不增加编码端搜索匹配块的复杂度。

本发明的技术方案如下所述：

用于视频编码的编码端的双向预测的方法包括如下步骤：

步骤 1 0、对当前 B帧的每一图像块，采用前向预测模式，从前向参考图像中获得当前图像块候选前向运动矢量；

步骤 20、利用步骤 1 0得到的当前图像块的侯选前向运动矢量，计算得到候选后向运动矢量，获得进行双向预测所需的侯选前向运动矢量和侯选后向运动矢量；

步骤 30、利用步骤 20得到的当前图像块的侯选前向运动矢量和侯选后向运动矢量，通过双向预测方法得到候选双向预测参考块；

步骤 40、在给定的搜索范围之内和 /或在匹配值小于或等于预先设定的匹配阈值以前，不断设定新的参考块，并重复进行前面三个步骤，选取最佳的匹配块；

步骤 50、将该图像块的由最优参考块确定的前向运动矢量、后向运动矢量和块残差，编入码流中。所述的用于视频编码的解码端双向预测方法，包括如下步骤：

步骤 21、从码流中解码，获得前向运动矢量；

步骤 31、利用步骤 21 中得到前向运动矢量时，计算得到后向运动矢量，得到了双向预测所需的前向运动矢量和后向运动矢量；

步骤 41、利用步骤 31得到的当前图像块的前向运动矢量和后向运动矢量，通过双向预测方法，求得最终的双向预测参考块；

步骤 51、将步骤 41得到的预测参考块与码流中解码相应的得到的块残差合并形成当前块图像块。本发明的用于视频编码的双向预测方法，只对一个运动矢量进行编码，另一个运动矢量通过计算获得，实现了双向预测的目的，也称为单运动矢量双向预测方法，本发明方法基本上不增加编码端搜索匹配块的复杂度，能够极大的节省对运动矢量的编码量，并且本发明方法也可以更真实地体现视频中物体的运动，获得更准确的运动矢量预测，与前向预测编码，后向预测编码相结合，可用实现一种新的预测编码类型。附图说明

图 1是在帧编码中的后向运动矢量推导过程示意图；

图 2是在场编码中，奇场或偶场中当后向参考场对应块的运动矢量指向时域上早于当前场的某一场时，后向运动矢量推导过程示意图；

图 3是在场编码中，偶场中，当后向参考场对应块的运动矢量指向与偶场属于同一帧相应的奇场时，在场编码中后向运动矢量推导过程示意图；

图 4是编码端实现运动估计获得前向运动矢量来计算后向运动矢量以及最终求得最优的匹配块的双向预测流程图；

图 5 是解编码端如何从码流中获得的前向运动矢量来推导后向运动矢量，并最终通过双向预测补偿来重构某一图像块的过程。具体实施方式

下面通过附图和实施例对本发明的技术方案做进一步详细说明：在本发明的实施例中，假设只有一个前向参考图片与一个后向参考图片对当前 B帧的图像块在前后参考帧上进行运动估计。

本发明的实施例的用于视频编码的双向预测方法，所述的双向预测编码方法，如图 4所示，包括如下步骤：

步骤 1 0、对当前 B帧的每一图像块，采用前向预测模式，从前向参考图像中获得当前图像块候选的前向运动矢量。所述的前向预测模式具体为：

步骤 101、如果前向参考图片中包 ^殳定的参考块，执行步驟 10²；否则，执行步骤 1 03 ;

步骤 102、前向参考图片中设定的参考块在前向参考图片中的位置与 B帧当前图像块在当前图片中的位置作差，所得到的向量即为候选前向运动矢量；结束步骤 1 0 ;

步骤 1 03、选定前向参考图片中与 B帧当前图像块位置相同图像块作为前向参考图片中设定的参考块，执行步骤 1 02。

由于前后两帧的图像时间间隔很短，相差不会特别多，起初选择参考图片位置相同点作为参考点，此时的候选前向运动矢量为 0，二者之间没有位置改变；如果通过下面步骤 40的改变了参考点，候选前向运动矢量就不再为 0了。

步骤 20、利用步骤 10得到的当前图像块的侯选前向运动矢量，计算得到侯选后向运动矢量，获得进行双向预测所需的侯选前向运动矢量和侯选后向运动矢量；具体为：

帧编码模式：

在这种模式中，当前块的候选前向运动矢量和候选后向运动矢量可以通过如下公式计算：

CMV_B = -( ^Do— ^£ χ CMV_F

Β TD_B ^{J b}

这里 TD_B是当前 B帧与前向参考帧的时域距离， TD_DA后向参考帧与前向参考帧的时域距离， CMV_F与 CMV_B分别是相应 B帧当前块的候选前向运动矢量和候选后向运动矢量，见图 1。

场编码方式：

在奇场这种模式中，当前块的候选前向运动矢量和候选后向运动矢量可以通过如下公式计算：

TD_D , - TD_B ,

CMV_BJ = - (-^ - ~~ X CMV_F 这里 TD_B是当前图片与前向参考图片，在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， CMV_F与 CMV_B分别是推导出来的相应 B 帧当前块的候选前向运动矢量和候选后向运动矢量。下标 i的取值根据奇偶模式决定，为奇模式时取 0 , 偶模式时取 1 , 见图 2。

在偶场这种模式中，当后向参考场对应块的运动矢量指向时域上早于当前场的某一场时，当前块的后向运动矢量的推导与奇场的一致。

当后向参考场对应块的运动矢量指向相应的（与偶场属于同一帧）奇场时，在这种情况下，当前块的候选前向运动矢量和候选后向运动矢量推导如下： MV_B CMV_F<X

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， CMV_F与 CMV_B分别是推导出来的相应 B帧当前块的候选前向运动矢量和候选后向运动矢量，见图 3。

步骤 30、利用步骤 20得到的当前图像块的候选前向运动矢量和候选后向运动矢量，通过双向预测方法得到最终的双向预测参考块；即对候选前向运动矢量和候选后向运动矢量所指的两个预测参考块对应的像素取平均，求得最终的双向预测参考块。

步骤 40、在给定的搜索范围之内和 /或在匹配值小于或等于预先设定的匹配阈值以前，不断设定新的参考块，重复进行前面三个步骤，最后选取最优的匹配块；

在步骤 40中，搜索范围为以参考图片中与 B帧当前块位置相同的参考块为中心的一定区域，搜索区域的大小由对图像质量的要求不同而不同，搜索的区域越大，得出的参考块越准确，搜索区域最大可遍及整个参考图片。全部搜索范围中参考块得出的双向预测参考块与 B帧当前块对应像素之差即的绝对值的和（用 SAD表示）最小的双向预测参考块为最优匹配块。

匹配值为双向预测参考块与 B帧当前块对应像素之差的绝对值的和 SAD，匹配阈值为预先设定的匹配值，如果匹配值小于或等于匹配阈值，此时的参考块即为最优参考块。按一定的顺序，一般以当前参考块为基点由近及远，来计算参考块的匹配值。采用设定匹配阈值的方法，可以不必完全遍历所有的参考点，找到符合要求的参考块，就结束最优参考块的搜索过程，效率很高。

在以上的两种方法中，采用了计算 SAD的方法来表示双向预测参考块与 B 帧当前块的差异，也可以采用其他的方法，比如计算对应像素的方差，但不如 SAD方法直观，高效。

当然，可以采用搜索区域和设定匹配阈值相结合的方法，如图 4所示，在设定的区域内由近及远计算匹配值；这样可以根据需要，确定搜索范围；又不必完全遍历整个搜索范围，最为高效。

步骤 50、将该图像块的由最优参考块确定的前向运动矢量、后向运动矢量和块残差，编入码流中。块残差为最优参考块确定的双向预测参考块与 B帧当前块的对应像素的差异，可以直接编码最优参考块与 B帧当前块对应像素的差值序列，或将该差值序列进行压缩，利于传送。本发明的实施例的用于视频编码的汉向预测方法，所述的双向预测解码方法，如图 5所示，包括如下步骤：

所述的双向预测解码方法，包括如下步骤：

步骤 21、从码流中解码，获得前向运动矢量；

步骤 31、利用步骤 21 中得到前向运动矢量时，计算得到后向运动矢量，得到了汉向预测所需的前向运动矢量和后向运动矢量；

步骤 51、将步骤 41得到的预测参考块与码流中解码相应的得到的块残差合并形成当前块图像。所述的步骤 31中，计算后向运动矢量的步骤如下：

步骤 310、判断当前的图像模式，如果为帧编码模式，执行步骤 311 ; 如果为场编码方式，判断为奇场还是偶场，如果为奇场，执行步骤 312; 如果为偶场，执行步骤 31 3;

步骤 311、通过如下的公式，计算得到后向运动矢量：

TD D_- TD

TD B

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， MV_F与 MV_B分别是相应 B帧当前块的前向运动矢量和后向运动矢量；结束步骤 31 ;

步骤 312、通过如下的公式，计算得到后向运动矢量：

TD_B是当前图片与前向参考图片，在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， {^<与 MV_B分别是推导出来的相应 B帧当前块的前向运动矢量和后向运动矢量；下标 i的取值根据奇偶模式决定，为奇模式时取 0 , 偶模式时取 1。结束步骤 31 ;

步骤 313、当后向参考场对应块的运动矢量指向时域上早于当前场的某一场时，执行步骤 312; 当后向参考场对应块的运动矢量指向与偶场属于同一帧相应的奇场时，通过如下的公式，计算得到后向运动矢量：

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， MV_F与 MV_B分别是推导出来的相应 B帧当前块的前向运动矢量和后向运动矢量；结束步骤 31。

在步骤 41 中，双向预测方法具体过程为：对前向运动矢量和后向运动矢量所指的两个预测参考块对应的像素取平均，求得最终的双向预测参考块。解码过程比较简单，从码流中获得前向运动矢量后，直接计算得到后向运动矢量，然后计算出双向预测参考块与块残差合并，得出编码前的图像，这完全可以认为是编码过程的逆过程。最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

权利要求

1、一种用于视频编码的编码端双向预测方法，其特征在于：包括如下步骤：

步骤 10、对当前 B帧的每一图像块，采用前向预测模式，从前向参考图像中获得当前图像块候选前向运动矢量；

步骤 20、利用步骤 10得到的当前图像块的候选前向运动矢量，计算得到候选后向运动矢量，获得进行双向预测所需的候选前向运动矢量和候选后向运动矢量；

步骤 30、利用步骤 20得到的当前图像块的候选前向运动矢量和候选后向运动矢量，通过双向预测方法得到候选双向预测参考块；

步骤 40、在给定的搜索范围之内和 /或在匹配值小于或等于预先设定的匹配阈值以前，设定新的参考块，重复步骤 10-30，选取最优参考块；

步骤 50、将该图像块的由最优参考块确定的前向运动矢量、后向运动矢量和块残差，编入码流中。

2、才艮据权利要求 1 所述的用于视频编码的编码端双向预测方法，其特征在于：所述步骤 10中，采用前向预测运动模式，获得候选前向运动矢量的过程，包括如下步骤：

步骤 101、如果是初次，选定前向参考图片中与 B帧当前图像块位置相同的图像块作为前向参考图片中设定的参考块，执行步骤 102 ; 否则，直接执行步骤 102;

步骤 102、前向参考图片中设定的参考块在前向参考图片中的位置与 B帧当前图像块在当前图片中的位置作差运算，所得到的向量即为候选前向运动矢量；结束步骤 10。

3、根据权利要求 1 所述的用于视频编码的编码端双向预测方法，其特征在于：所述的步骤 20中，计算候选后向运动矢量的过程，包括如下步骤：步骤 110、判断当前的图 «式，如果为帧编码模式，执行步骤 111; 如果为场编码方式，判断奇场还是偶场，如果为奇场，执行步骤 112; 如果为偶场，执行步骤 113;

步骤 111、通过如下的公式，计算得到候选后向运动矢量：

TD -TD

CMV_B = -( ° ^B) X CMV_F

B TD_B ^F

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离，

CMV_B分别是相应 B帧当前块的侯选前向与侯选后向运动矢量；结束步骤 20;

步骤 112、通过如下的公式，计算得到候选后向运动矢量：

TD_Di-TD_Bi

CMV_BJ = - ( ^D _T'_D ^Β'Ί χ MV_FJ

TD_B是当前图片与前向参考图片，在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， ^1^与 CMV_B分别是推导出来的相应 B帧当前块的前向与候选后向运动矢量；结束步骤 20;

步骤 113、当后向参考场对应块的运动矢量指向时域上早于当前场的某一场时，执行步骤 112; 当后向参考场对应块的运动矢量指向与偶场属于同一帧相应的奇场时，通过如下的公式，计算得到候选后向运动矢量： TD_n , + TD_R ,

CMV_B, = {-^- ~~ -) x C F,,,

丄

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， 0¾^与 CMV_B分别是推导出来的相应 B帧当前块的候选前向运动矢量与候选后向运动矢量；结束步骤 20。

4、根据权利要求 1 所述的用于视频编码的双向预测方法，其特征在于：所述的步骤 30双向预测方法，具体过程为：对候选前向运动矢量和候选后向运动矢量所指的两个预测参考块对应的像素取平均，求得最终的双向预测参考块。

5、根据权利要求 1 所述的用于视频编码的双向预测方法，其特征在于：所述的步骤 40中，搜索范围为以参考图片中与 B帧当前块位置相同的参考块为中心的一定区域，最大可遍及整个参考图片，全部搜索范围中通过参考块计算出的双向预测参考块与对应的 B帧当前块像素之差的绝对值之和最小的参考块为最优参考块。

6、根据权利要求 1 所述的用于视频编码的编码端双向预测方法，其特征在于：所述的步骤 40中匹配值为双向预测参考块与 B帧当前块对应像素之差的绝对值的和，匹配阈值为预先设定的匹配值，如果匹配值小于或等于匹配阈值，此时的参考块即为最优参考块。

7、根据权利要求 1 所述的用于视频编码的编码端双向预测方法，其特征在于：所述的块残差包括最优参考块与 B帧当前块之间对应像素的差异。

8、一种用于视频编码的解码端双向预测方法，其特征在于：包括如下步骤：

步骤 21、从码流中解码，获得前向运动矢量；

步骤 51、将步骤 41得到的预测参考块与码流中解码相应的得到的块残差合并形成当前块图像块。

9、根据权利要求 8 所述的用于视频编码的解码端双向预测方法，其特征在于：所述的步骤 31中，计算后向运动矢量的步骤包括：

步骤 310、判断当前的图像模式，如果为帧编码模式，执行步骤 311 ; 如果为场编码方式，判断奇场还是偶场，如果为奇场，执行步骤 312; 如果为偶场，执行步骤 31 3;

步骤 311、通过如下的公式，计算得到后向运动矢量：

TD_B是当前图片与前向参考图片在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， MV_F与 MV_B分别是相应 B帧当前块的前向运动矢量与后向运动矢量；结束步骤 31 ;

步骤 312、通过如下的公式，计算得到后向运动矢量：

TD_B是当前图片与前向参考图片，在时域上的距离， TD_D是前向参考图片与后向参考图片在时域上的距离， MV_F与 MV_B分别是推导出来的相应 B帧当前块的前向运动矢量与后向运动矢量；结束步骤 31 ;

步骤 31 3、当后向参考场对应块的运动矢量指向时域上早于当前场的某一场时，执行步骤 312 ; 当后向参考场对应块的运动矢量指向与偶场属于同一帧相应的奇场时，通过如下的公式，计算得到后向运动矢量：

1 0、根据权利要求 8所述的用于视频编码的解码端双向预测方法，其特征在于：所述的步骤 41双向预测方法，具体过程为：对前向运动矢量和后向运动矢量所指的两个预测参考块对应的像素取平均，求得最终的双向预测参考块。