WO2017124298A1

WO2017124298A1 - 视频编码、解码方法及其帧间预测方法、装置和系统

Info

Publication number: WO2017124298A1
Application number: PCT/CN2016/071341
Authority: WO
Inventors: 王振宇; 王荣刚; 姜秀宝; 高文
Original assignee: 北京大学深圳研究生院
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2017-07-27
Also published as: US20190110060A1; US10425656B2

Abstract

一种视频编码、解码方法及其帧间预测方法、装置和系统，其中，帧间预测方法包括：获取当前图像块的运动矢量以及当前像素的相关空间位置信息；根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量；根据得到的当前像素的运动矢量得到当前像素的预测值。因此，在进行帧间预测时，不仅仅考虑当前图像块的运动矢量，还考虑当前像素的相关空间位置信息，可以适应不同图像镜头畸变的特性以及当物体在画面中运动时产生的放大/缩小现象，从而提高计算像素的运动矢量时的准确性，提升视频编解码过程中帧间预测的性能和压缩效率。

Description

视频编码、解码方法及其帧间预测方法、装置和系统

技术领域

本申请涉及数字视频编解码技术领域，具体涉及一种视频编码、解码方法及其帧间预测方法、装置和系统。

背景技术

目前，虚拟现实技术和相关应用正在快速发展。在虚拟现实技术中，全景图像和全景视频是一个重要的组成部分。由于全景视频记录了360度视角的全部画面，具有极高的数据量，因此全景视频的压缩是虚拟现实应用中的一个关键技术。全景视频作为一种新兴的媒体，和传统的视频相比，具有视野大，分辨率高，数据量大等特点。利用全景视频，观察者视点不变，改变观察方向能够观察到周围的全部场景，而普通的二维视频只反应了全景视频的某个局部。

柱面全景视频是一种常见的全景视频，它相当于一个虚拟的摄像机，把空间中的三维物体投影到柱面上。柱面全景视频的生成可以利用多摄像头或者单摄像头采集系统采集而成。

由于全景视频的视野范围是普通视频的5～6倍，在给用户提供相同的视觉质量的情况下，全景视频的数据量是普通视频的5～6倍。如果按照传统的视频传输方案，全景视频在网络环境下的使用变得困难重重。但是，由于在同一时刻，用户所需要看到的内容只是全景视频的某一部分，所以分块编码与传输成为了全景视频网络传输的常见方案。

请参考图1，柱面全景视频的传输方法主要包括下面步骤：

对全景图像进行分块，并对每个图像块的序列独立进行编码。

之后选择所需要的编码后的数据进行传输。在此可以根据用户当前的视角选择数据。传输媒介可以是因特网、无线网络、局域网、光学网络、其它合适的传输媒介、或者这些传输媒介的适当组合。

最后解码端接收到数据之后，对这些块序列进行独立的解码和投影变换，得到所需图像。

在全景视频的分块编码中，分块的尺寸对于全景视频的编码效率以及传输区域有着重要的影响，而这两项因素直接决定着需要传输的数据量。如果编码块尺寸小，则传输区域较小，但是编码效率会较低；如果编码块尺寸大，则编码效率较高，但是传输区域也较大。所以在相同的视觉质量下，不同的编码块尺寸，需要传输的数据量是不一样的。

另外，由于全景视频相对普通视频具有一定的特殊性，例如全景视频具有循环性，画面存在较大畸变等，需要使用一个特殊的编码技术以提高全景视频的压缩效率。

传统的视频编解码标准中，采用帧间预测的方法，帧间预测方法以图像块为单位，在参考图像上选取一个相同大小的块作为当前图像块的预测块。而在全景视频中，画面存在较大的畸变，当物体在画面中运动时，物体的大小会伴随着运动出现放大或缩小的现象，从而影响编码的预测性能以及压缩效率。

发明内容

本申请提供一种视频编码、解码方法及其帧间预测方法、装置和系统，解决了部分镜头畸变严重的视频编解码过程中帧间预测性能差、压缩效率差的问题。

根据本申请的第一方面，本申请提供了一种用于视频编解码的帧间预测方法，包括：

获取当前图像块的运动矢量以及当前像素的相关空间位置信息；

根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量；

根据得到的当前像素的运动矢量得到当前像素的预测值。

根据本申请的第二方面，本申请还提供了一种用于视频编解码的帧间预测装置，包括：

信息获取模块，用于获取当前图像块的运动矢量以及当前像素的相关空间位置信息；

计算模块，用于根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量；

预测模块，用于根据得到的当前像素的运动矢量得到当前像素的预测值。

根据本申请的第三方面，本申请还提供了一种视频编码方法，包括：

将当前图像划分为若干图像块；

采用上述帧间预测方法得到当前图像块的预测图像块；

将当前图像块与预测图像块相减，得到残差块；

对残差块进行变换、量化和熵编码，以得到编码码流。

根据本申请的第四方面，本申请还提供了一种视频解码方法，包括：

对编码码流进行熵解码、反量化和反变换，以得到重建的残差块；

采用上述帧间预测方法得到当前图像块的预测图像块；

将预测图像块和重建的残差块相加，得到重建的图像块。

根据本申请的第五方面，本申请还提供了一种视频编码系统，包括：

图像块划分装置，用于将当前图像划分为若干图像块；

上述帧间预测装置，用于得到当前图像块的预测图像块；

残差计算装置，用于将当前图像块与预测图像块相减，得到残差块；

码流生成装置，用于对残差块进行变换、量化和熵编码，以得到编码码流。

根据本申请的第六方面，本申请还提供了一种视频解码系统，包括：

残差块重建装置，用于对编码码流进行熵解码、反量化和反变换，以得到重建的残差块；

上述帧间预测装置，用于得到当前图像块的预测图像块；

图像块重建装置，用于将预测图像块和重建的残差块相加，得到重建的图像块。

本申请提供的视频编码、解码方法及其帧间预测方法、装置和系统中，在进行帧间预测时，不仅仅考虑当前图像块的运动矢量，还考虑当前像素的相关空间位置信息，可以适应不同图像镜头畸变的特性以及当物体在画面中运动时产生的放大/缩小现象，从而提高计算像素的运动矢量时的准确性，提升视频编解码过程中帧间预测的性能和压缩效率。

附图说明

图1为柱面全景视频的传输方法示意图；

图2为本申请一种实施例中全景视频编码方法的流程示意图；

图3为本申请一种实施例中用于全景视频编解码的帧间预测的流程示意图；

图4为本申请一种实施例中帧间预测的原理示意图；

图5为本申请一种实施例中用于全景视频编解码的帧间预测装置的模块示意图；

图6为本申请一种实施例中全景视频解码方法的流程示意图；

图7为本申请一种实施例中全景视频编码系统的结构示意图；

图8为本申请一种实施例中全景视频解码系统的结构示意图。

具体实施方式

首先需要说明的是，本申请提供的视频编码、解码方法及其帧间预测方法、装置和系统，可以应用在全景视频编解码中，也可以应用在半全景或其他镜头畸变较大的序列的编解码中，为了便于对本申请进行说明，本申请仅以全景视频编解码为例进行说明。

本申请的发明构思在于：针对典型的全景视频编码，全景视屏通过柱面映射得到，因此位于全景图像顶部和底部的画面会被横向拉伸。当物体从图像中部向顶部或底部运动时，物体在图像中的宽度会增加；反之，物体在图像中的宽度会减小。同时，拉伸或缩小的幅度同物体在图像中的纵向坐标和纵向运动矢量相关，因此可以跟据这些数据(相关空间位置信息)更精确地计算图像块中每个像素的运动矢量，从而提升全景视频编解码过程中帧间预测的性能和压缩效率。

下面通过具体实施方式结合附图对本申请作进一步详细说明。

实施例一

请参考图2，本实施例提供了一种全景视频编码方法，包括下面步骤：

步骤1.1：将当前图像划分为若干图像块。具体的，切分的图像块的大小可以根据实际需求选择。

步骤1.2：通过运动估计得到当前图像块的运动矢量(MV_x,MV_y)。

具体的，运动估计采用现有技术中任意一种可行的方法。

步骤1.3：通过帧间预测得到预测图像块。

请参考图3，本实施例中，帧间预测方法包括下面步骤：

步骤2.1：获取当前图像块的运动矢量以及当前像素的相关空间位置信息。

步骤2.2：根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量。

本实施例中，当前像素的相关空间位置信息包括当前图像的尺寸大小，当前图像块在当前图像内的坐标，当前图像块的尺寸大小，以及当前像素在当前图像块内的坐标。

具体的，请参考图4，为本实施例中帧间预测方法的原理示意图。

当前图像的宽为width，高为height的图像。当前图像块的运动矢量定义为图像块中心像素点的运动矢量，记为(MV_x,MV_y)，当然，在其他实施例中，当前图像块的运动矢量也可以采用其他定义试。另外，当前图像块的宽为w，高为h。当前图像块在当前图像内的坐标定义为当前图像块左上角像素在当前图像中的坐标(x,y)，在该坐标系中，可以以当前图像左上角为原点，向下和向右分别为纵坐标和横坐标的正方向。当前像素在当前图像块内的坐标(i,j)所采用的坐标系可以为一个以当前图像块左上角像素为原点，向下和向右分别为纵坐标和横坐标的正方向的坐标系。

在其他实施例中，当前像素的相关空间位置信息可以根据实际需求选择其他可用的信息。本实施例中仅以上述信息为例来对本申请进行说明，应当理解，本申请正是由于考虑了当前像素的相关空间位置信息，从而克服了由全景图像镜头畸变的特性以及当物体在画面中运动时产生的放大/缩小现象所引起的相关问题，提高了计算像素的运动矢量时的准确性，提升全景视频编解码过程中帧间预测的性能和压缩效率。

所以，在本实施例中，步骤2.2中通过下面函数关系得到当前像素的运动矢量：

(MV′_x,MV′_y)＝f(x,y,w,h,i,j,MV_x,MV_y,width,height)

其中，f为预设函数，(x,y)为当前图像块左上角像素在当前图像内的坐标，(i,j)为当前像素在当前图像块内的坐标，w、h分别为当前图像块的宽和高，width、height分别为当前图像的宽和高，(MV_x,MV_y)为当前图像块的运动矢量。

具体的，MV′_x、MV′_y可以分别通过下面方法得到：

其中，α为横向缩放因子，可近似由以下公式求得：

步骤2.3：根据得到的当前像素的运动矢量得到当前像素的预测值，进而得到当前图像块的预测图像块。

本实施例中，优选的，当得到的当前像素的运动矢量指向的参考样本位置不是整像素位置时，则使用插值法计算参考样本位置的样本值，并将该样本值作为当前像素的预测值；当得到的当前像素的运动矢量指向的参考样本位置是整像素位置时，则将该整像素位置的像素值作为参考样本位置的样本值，并将该样本值作为当前像素的预测值。

具体的，插值法采用自适应插值法。自适应插值包括了不同的插值滤波器，插值滤波器的选取由参考样本的坐标(横坐标和纵坐标)确定。插值滤波器的选取方式包括但不限于以下方式：假定参考样本位置的坐标为(refX,refY),当refY小于height/2时，横向插值使用4抽头滤波器，纵向插值使用8抽头滤波器；否则，横向插值使用8抽头滤波器，纵向插值使用4抽头滤波器。插值使用1/4像素精度，对8抽头滤波器，1/4像素位置对应的滤波器为{-1,4,-10,57,19,-7,3,-1}，2/4像素位置对应的滤波器为{-1,4,-11,40,40,-11,4,-1}，3/4像素位置对应的滤波器为{-1,3,-7,19,57,-10,4,-1}。对4抽头滤波器，1/4像素位置对应的滤波器为{2，-9，57，17，-4，1}，2/4像素位置对应的滤波器为{2，-9，39，39，-9，2}，3/4像素位置对应的滤波器为{1，-4，17，57，-9，2}。

由于一部分全景图是通过鱼眼相机拍摄得到，通过柱面映射得到正常的全景图时，画面上部分纵向分辨率较高，横向分辨率较低，反之，画面下部分纵向分辨率较低，横向分辨率较高。在柱面映射的时候，分辨率低的部分本来就是插值得到的，这部分画面在横向(或纵向)上就相对平滑，因此插值不需要那么多的抽头数，相比于传统的统一使用相同滤波器的插值方法，可以减少运算量。所以，本实施例中采用上述方式选择插值滤波器。当然，在其他实施例中，插值滤波器的选择可以根据实际需求自由设计。

步骤1.4：当前图像块每个像素减去预测图像块相同位置的像素，得到残差块。

步骤1.5：对残差块进行变换、量化得到量化块；最后通过熵编码将量化块的每个系数以及当前图像块的运动矢量写入编码码流。

实施例二

请参考图5，基于上述实施例一提供的一种用于全景视频编解码的帧间预测方法，本实施例还相应提供了一种用于全景视频编解码的帧间预测装置，包括信息获取模块101、计算模块102和预测模块103。

信息获取模块101用于获取当前图像块的运动矢量以及当前像素的相关空间位置信息。

计算模块102用于根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量。

具体的，请参考图4，为本实施例中帧间预测装置的原理示意图。

所以，在本实施例中，计算模块102通过下面函数关系得到当前像素的运动矢量：

(MV′_x,MV′_y)＝f(x,y,w,h,i,j,MV_x,MV_y,width,height)

具体的，MV′_x、MV′_y可以分别通过下面方法得到：

其中，α为横向缩放因子，可近似由以下公式求得：

预测模块103用于根据得到的当前像素的运动矢量得到当前像素的预测值，进而得到当前图像块的预测图像块。

本实施例中，优选的，当得到的当前像素的运动矢量指向的参考样本位置不是整像素位置时，则预测模块103使用插值法计算参考样本位置的样本值，并将该样本值作为当前像素的预测值；当得到的当前像素的运动矢量指向的参考样本位置是整像素位置时，则预测模块103将该整像素位置的像素值作为参考样本位置的样本值，并将该样本值作为当前像素的预测值。

实施例三

请参考图6，本实施例提供了一种全景视频解码方法，包括下面步骤：

步骤3.1：对编码码流进行熵解码、反量化和反变换，以得到重建的残差块。

步骤3.2：通过帧间预测得到预测图像块。

请参考图3，本实施例中，帧间预测方法包括下面步骤：

步骤2.2：根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量。具体的，当前图像块的运动矢量可以通过运动估计得到。

所以，在本实施例中，步骤3.2中通过下面函数关系得到当前像素的运动矢量：

(MV′_x,MV′_y)＝f(x,y,w,h,i,j,MV_x,MV_y,width,height)

具体的，MV′_x、MV′_y可以分别通过下面方法得到：

其中，α为横向缩放因子，可近似由以下公式求得：

步骤3.3：进行运动补偿，将预测图像块和重建的残差块相同位置的像素值相加，得到重建图像块。重建图像块即为解码得到的图像块。

实施例四

请参考图7，对应于上述实施例一提供的全景视频编码方法，本实施例相应提供了一种全景视频编码系统，包括图像块划分装置201、帧间预测装置202、残差计算装置203和码流生成装置204。

图像块划分装置201用于将当前图像划分为若干图像块。

帧间预测装置202用于得到当前图像块的预测图像块。并且，本实施例中，帧间预测装置202采用上述实施例二提供的帧间预测装置。

残差计算装置203用于将当前图像块与预测图像块相减，得到残差块。

码流生成装置204用于对残差块进行变换、量化和熵编码，以得到编码码流。

实施例五

请参考图8，对应于上述实施例三提供的全景视频解码方法，本实施例相应提供了一种全景视频解码系统，包括残差块重建装置301、帧间预测装置302和图像块重建装置303。

残差块重建装置301用于对编码码流进行熵解码、反量化和反变换，以得到重建的残差块。

帧间预测装置302用于得到当前图像块的预测图像块。并且，本实施例中，帧间预测装置302采用上述实施例二提供的帧间预测装置。

图像块重建装置303用于将预测图像块和重建的残差块相加，得到重建的图像块。

需要说明的是，本申请实施例中，仅对全景视频编解码过程中的帧间预测方法进行详细说明，对于全景视频编解码过程中的其他步骤，皆可以采用现有技术中的任意一种可行方法。另外，通常，视频处理装置可包括编码装置和/或解码装置，编码装置包括编码过程和解码过程，解码装置包括解码过程。解码装置的解码过程与编码装置的解码过程相同。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来控制相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存取存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请发明构思的前提下，还可以做出若干简单推演或替换。

Claims

一种用于视频编解码的帧间预测方法，其特征在于，包括：

获取当前图像块的运动矢量以及当前像素的相关空间位置信息；

根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量；

根据得到的当前像素的运动矢量得到当前像素的预测值。
如权利要求1所述的方法，其特征在于，所述当前像素的相关空间位置信息包括当前图像的尺寸大小，当前图像块在当前图像内的坐标，当前图像块的尺寸大小，以及当前像素在当前图像块内的坐标。
如权利要求2所述的方法，其特征在于，所述根据当前图像块的运动矢量以及当前像素的空间位置信息得到当前像素的运动矢量的步骤，包括：

通过下面函数关系得到当前像素的运动矢量：

(MV′_x,MV′_y)＝f(x,y,w,h,i,j,MV_x,MV_y,width,height)

其中，f为预设函数，(x,y)为当前图像块左上角像素在当前图像内的坐标，(i,j)为当前像素在当前图像块内的坐标，w、h分别为当前图像块的宽和高，width、height分别为当前图像的宽和高，(MV_x,MV_y)为当前图像块的运动矢量。
如权利要求1-3任一项所述的方法，其特征在于，所述根据得到的当前像素的运动矢量得到当前像素的预测值的步骤，包括：当得到的当前像素的运动矢量指向的参考样本位置不是整像素位置时，则使用插值法计算参考样本位置的样本值，并将该样本值作为当前像素的预测值；当得到的当前像素的运动矢量指向的参考样本位置是整像素位置时，则将该整像素位置的像素值作为参考样本位置的样本值，并将该样本值作为当前像素的预测值。
如权利要求4所述的方法，其特征在于，所述插值法采用自适应插值法，所述自适应插值法所采用的插值滤波器根据所述参考样本的坐标确定。
一种用于视频编解码的帧间预测装置，其特征在于，包括：

信息获取模块，用于获取当前图像块的运动矢量以及当前像素的相关空间位置信息；

计算模块，用于根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量；

预测模块，用于根据得到的当前像素的运动矢量得到当前像素的预测值。
如权利要求6所述的装置，其特征在于，所述当前像素的相关空间位置信息包括当前图像的尺寸大小，当前图像块在当前图像内的坐标，当前图像块的尺寸大小，以及当前像素在当前图像块内的坐标。
如权利要求7所述的装置，其特征在于，计算模块用于根据当前图像块的运动矢量以及当前像素的相关空间位置信息得到当前像素的运动矢量时：

计算模块用于通过下面函数关系得到当前像素的运动矢量：

(MV′_x,MV′_y)＝f(x,y,w,h,i,j,MV_x,MV_y,width,height)

其中，f为预设函数，(x,y)为当前图像块左上角像素在当前图像内的坐标，(i,j)为当前像素在当前图像块内的坐标，w、h分别为当前图像块的宽和高，width、height分别为当前图像的宽和高，(MV_x,MV_y)为当前图像块的运动矢量。
如权利要求6-8任一项所述的装置，其特征在于，预测模块用于根据得到的当前像素的运动矢量得到当前像素的预测值时：当得到的当前像素的运动矢量指向的参考样本位置不是整像素位置时，则预测模块用于使用插值法计算参考样本位置的样本值，并将该样本值作为当前像素的预测值；当得到的当前像素的运动矢量指向的参考样本位置是整像素位置时，则预测模块用于将该整像素位置的像素值作为参考样本位置的样本值，并将该样本值作为当前像素的预测值。
如权利要求9所述的装置，其特征在于，所述插值法采用自适应插值法，所述自适应插值法所采用的插值滤波器根据所述参考样本的坐标确定。
一种视频编码方法，其特征在于，包括：

将当前图像划分为若干图像块；

采用如权利要求1-5任一项所述的帧间预测方法得到当前图像块的预测图像块；

将当前图像块与预测图像块相减，得到残差块；

对残差块进行变换、量化和熵编码，以得到编码码流。
一种视频解码方法，其特征在于，包括：

对编码码流进行熵解码、反量化和反变换，以得到重建的残差块；

采用如权利要求1-5任一项所述的帧间预测方法得到当前图像块的预测图像块；

将预测图像块和重建的残差块相加，得到重建的图像块。
一种视频编码系统，其特征在于，包括：

图像块划分装置，用于将当前图像划分为若干图像块；

如权利要求6-10任意一项所述的帧间预测装置，用于得到当前图像块的预测图像块；

残差计算装置，用于将当前图像块与预测图像块相减，得到残差块；

码流生成装置，用于对残差块进行变换、量化和熵编码，以得到编码码流。
一种视频解码系统，其特征在于，包括：

残差块重建装置，用于对编码码流进行熵解码、反量化和反变换，以得到重建的残差块；

如权利要求6-10任意一项所述的帧间预测装置，用于得到当前图像块的预测图像块；

图像块重建装置，用于将预测图像块和重建的残差块相加，得到重建的图像块。