WO2020140331A1

WO2020140331A1 - 视频图像处理方法与装置

Info

Publication number: WO2020140331A1
Application number: PCT/CN2019/077893
Authority: WO
Inventors: 郑萧桢; 王苏红; 王苫社; 马思伟
Original assignee: 深圳市大疆创新科技有限公司; 北京大学
Priority date: 2019-01-03
Filing date: 2019-03-12
Publication date: 2020-07-09
Also published as: EP3908000A1; JP7224005B2; US20230345036A1; US11743482B2; CN116996683A; CN111357290B; US11178420B2; US20220078466A1; JP7393061B2; US20210021858A1; CN113905234A; JP2022515995A; US11689736B2; US20210021857A1; JP2023052767A; JP2024012636A; CN111357290A; EP3908000A4; KR20210107120A; US20220116644A1

Abstract

提供一种视频图像处理方法与装置，该方法包括：确定当前图像块；当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量。在保证编解码性能的前提下，可以降低复杂度。

Description

视频图像处理方法与装置

版权申明

技术领域

本申请涉及视频编解码领域，并具体涉及一种视频图像处理方法与装置。

背景技术

目前，主要的视频编码标准在帧间预测部分都采用了基于块的运动补偿技术，其主要原理是为当前图像块在已编码图像中寻找一个最相似块，该过程称为运动补偿。例如，对于一帧图像，先分成等大的编码区域(Coding Tree Unit，CTU)，例如，大小为64×64或128×128。每个CTU可以进一步划分成方形或矩形的编码单元(Coding Unit，CU)。每个CU在参考帧中(一般为当前帧的时域附近的已重构帧)寻找最相似块作为当前CU的预测块。当前块(即当前CU)与相似块(即当前CU的预测块)之间的相对位移称为运动矢量(Motion Vector，MV)。在参考帧中寻找最相似块作为当前块的预测块的过程就是运动补偿。

在当前的一种预测模式中，通常根据两种方式构建当前CU的运动信息候选列表。首先是空域的候选运动矢量，通常是将当前CU的已编码的邻近块的运动信息填充至候选列表中；其次是时域的候选运动矢量，时域运动矢量预测(Temproal Motion Vector Prediction，TMVP)利用了当前CU在邻近已编码图像中对应位置CU的运动信息。根据运动信息候选列表中的一个候选运动矢量确定当前CU的运动矢量；根据当前CU的运动矢量确定当前CU的预测块。

目前的预测模式中还存在改进的空间。

发明内容

本申请提供一种视频图像处理方法与装置，在保持现有ATMVP技术的性能增益的前提下，可以降低ATMVP技术的复杂度。

第一方面，提供一种视频图像处理方法，该方法包括：

确定当前图像块；

当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量；其中，

所述TMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

根据所述相关块的运动矢量确定所述当前图像块的时域候选运动矢量；

所述ATMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

将所述当前图像块划分成多个子图像块；

在所述相关块中确定所述多个子图像块中每个的子图像块对应的子相关块；

根据所述每个子图像块对应的子相关块的运动矢量确定所述当前图像块的子图像块的时域候选运动矢量。

将本申请提供的方案可以对存在的冗余操作进行简化。

第二方面，提供一种视频图像处理装置，该装置包括：

存储器与处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得，所述处理器用于：

确定当前图像块；

所述TMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

所述ATMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

将所述当前图像块划分成多个子图像块；

第三方面，提供一种计算机非易失性存储介质，其上存储有计算机程序，所述计算机程序被计算机执行时使得所述计算机实现第一方面或第一方面的任一可能的实现方式中的方法。

第四方面，提供一种包含指令的计算机程序产品，所述指令被计算机执行时使得所述计算机实现第一方面或第一方面的任一可能的实现方式中的方法。

附图说明

图1是本申请实施例提供的视频图像处理方法的示意性流程图。

图2是本申请实施例提供的视频图像处理装置的示意性框图。

图3为本申请实施例提供的编码设备或解码设备的一种实现方式的示意性框图。

具体实施方式

在视频编解码中，预测步骤用于减少图像中的冗余信息。预测块指的是一帧图像中用于预测的基本单元，在一些标准中，该预测块也称为预测单元(Prediction Unit，PU)。在对一帧图像进行编码/压缩之前，图像被分成多个图像块，进一步的，该多个图像块中的每一个图像块可以再次被分成多个图像块，以此类推。不同的编码方法中，分割的层级数量可以不同，所承担的操作方法也不同。不同的编码标准中，对同一层级上的图像块的名称可能不同。例如，在一些视频标准中，一帧图像第一次被分割成的多个图像块中的每个图像块称为编码树单元(Coding Tree Unit，CTU)；每个编码树单元可以包含一个编码单元(Coding Unit，CU)或者再次分割成多个编码单元；一个编码单元可以根据预测方式分割成一个、两个、四个或者其他数量的预测单元。在一些视频标准中，该编码树单元也被称为最大编码单元(Largest Coding Unit，LCU)。

预测指的是查找与该预测块相似的图像数据，也称为该预测块的参考块。通过对该预测块和该预测块的参考块之间的差异进行编码/压缩，以减少编码/压缩中的冗余信息。其中，预测块与参考块的差异可以是由该预测块与该参考块的相应像素值相减得到的残差。预测包括帧内预测和帧间预测。帧内预测指的是在预测块所在帧内查找该预测块的参考块，帧间预测指的是在除预测块所在帧以外的其他帧内查找该预测块的参考块。

在现有的一些视频标准中，预测单元是图像中最小的单元，预测单元不会继续被划分成多个图像块。但下文中所提到的“图像块”或“当前图像块”指的是一个预测单元(或一个编码单元)，而且一个图像块可以被继续划分成多个子图像块，每个子图像块可以进一步做预测。当前图像块为待进行编码(或解码)的图像块。当前图像块所在的图像帧称为当前帧。例如，当前图像块在一些视频标准中为一个编码单元(CU)。

本方案中，在对当前图像块进行预测之前，会构建运动信息候选列表，根据在该运动信息候选列表中选中的候选运动信息对当前图像块进行预测。其中，本文中所提到的运动信息可以包括运动矢量，或者包括运动矢量和参考帧信息。其中，该运动信息候选列表指的是当前块的候选运动信息的集合，该运动信息候选列表中的各候选运动信息可以存储在同一个缓冲区(buffer)中，也可以存储在不同的缓冲区中，在此不做限制。下文中所提到的运动信息在运动信息候选列表中的索引，可以是运动信息在当前块的全部候选运动信息集合中的索引，或者，也可以运动信息在所在的缓冲区的索引，在此不做限制。

构建运动信息候选列表有多类模式。下面先对构建运动信息候选列表的多类模式进行举例说明。

在第一类模式中，作为第一个示例，在编码端，在构建好运动信息候选列表之后，可以通过如下步骤完成当前图像块的编码。

1)从运动信息候选列表中选出最优的一个运动信息，根据该运动信息确定当前图像块的运动矢量MV1，并获得该选出的运动信息在运动信息候选列表中的索引。

2)根据当前图像块的运动矢量MV1，从参考图像(即参考帧)中确定当前图像块的预测图像块。即，确定当前图像块的预测图像块在参考帧中的位置。

3)获得当前图像块与预测图像块之间的残差。

4)向解码端发送步骤1)中获得的索引以及步骤3)获得的残差。

作为示例，在解码端，可以通过如下步骤解码出当前图像块。

1)从编码端接收残差与索引。

2)采用预设的方法构建运动信息候选列表。该预设的方法与编码端构建运动信息候选列表的方法可以一致。

3)根据索引，在运动信息候选列表中选中运动信息并根据该选中的运动信息确定当前图像块的运动矢量MV1。

4)根据运动矢量MV1，获取当前图像块的预测图像块，再结合残差，解码得到当前图像块。

也即在第一类模式中，当前图像块的运动矢量等于预测MV(Motion vector prediction，MVP)(例如上述提到的运动矢量MV1)。在一些视频编解码标准中，该第一类模式包括merge模式和/或affine merge模式。

在第二类模式中，与第一类模式不同的是，编码端根据从运动信息候选列表选出最优的一个运动信息并根据该运动信息确定当前图像块的预测MV后，还以该预测MV为搜索起点进行运动搜索，将最终搜索到的位置与搜索起点的位移记为运动矢量差值(Motion vector difference，MVD)。然后根据当前图像块的预测MV+MVD，从参考图像中确定当前图像块的预测图像块。因此，编码端向解码端发送的码流中除了包括第一类模式中提到的索引号和残差，还包括该MVD。在一些视频编解码标准中，该第二类模式可以包括高级运动矢量预测(Advanced Motion Vector Prediction，AMVP)模式。

不同类模式下的运动信息候选列表的构建方式可以相同也可以不同。同一种方式构建的运动信息候选列表可以只适用其中的一种类型模式，也可以适用不同类型的构建模式。确定运动信息候选列表中的其中一个候选者的方法可以只使用其中一种类型模式，也可以使用不同类型的构建模式。在此不做限制。

本方案中将提供两种构建方式的运动信息候选列表，为描述方便，下文中称该两种构建方式的运动信息候选列表为运动矢量第一候选列表和运动矢量第二候选列表。该两种列表的一个区别在于：运动矢量第一候选列表中的至少一个候选者包括子图像块的运动矢量，运动矢量第二候选列表中的每个候选者包括图像块的运动矢量。

如上文所说，这里的图像块和当前图像块是同一类型的概念，指的均是一个预测单元(或一个编码单元)，子图像块指的是在该图像块的基础上分割得到的多个子图像块。在采用运动矢量第一候选列表中的候选者进行预测时，根据该候选者确定当前图像块的参考块，然后计算该图像块与该参考块的残差。在采用运动矢量第二候选列表中的候选者进行预测时，若采用的候选者为子图像块的运动矢量，则根据该候选者确定当前图像块中的各子图像块的参考块，然后计算当前图像块中的各子图像块与其参考块的残差，将各子图像块的残差拼接成该当前图像块的残差。

本方案中提到的当前图像块的运动矢量第二候选列表可以应用于上述的第一类模式和/或第二类模式。例如，在一些视频编解码标准中，该运动矢量第二候选列表可以是Merge候选列表中的常规Merge运动信息候选列表(Normal Merge Candidate List)。在一些视频编解码标准中，该运动矢量第二候选列表可以是AMVP候选列表(AMVP Candidate List)。在一些视频编解码标准中，该运动矢量第一候选列表可以是Merge候选列表中的仿射Merge运动信息候选列表(Affine Merge Candidate List)。应理解，运动矢量第二候选列表也可以有别的名称。

应理解，本申请提供的构建的方案所形成的运动矢量第一候选列表和运动矢量第二候选列表可以应用于编码端与解码端。换句话说，本申请提供的方法的执行主体可以为编码端，也可以为解码端。

在一个示例中，在确定运动矢量第一候选列表和/或运动矢量第二候选列表中的候选者时，可以根据TMVP操作和/或高级/可选时域运动矢量预测(Advanced/Alternative temporal motion vector prediction，ATMVP)操作确定其中的候选者。

其中，ATMVP操作是一种运动矢量预测机制。ATMVP技术的基本思想是通过获取当前图像块(例如当前CU)内多个子块的运动信息进行运动补偿。ATMVP操作在构建候选列表(例如merge/affine merge候选列表或者AMVP候选列表)中引入当前图像块内多个子块的运动信息作为候选。ATMVP技术的实现大致可以分为两个步骤。第一步，通过扫描当前图像块的候选运动矢量列表或当前图像块的相邻图象块的运动矢量，确定一个时域矢量；第二步，将当前图像块划分为N×N的子块(例如sub-CU)，根据第一步获取的时域矢量确定各个子块在参考帧中的对应块，并根据各个子块在参考帧中对应块的运动矢量，确定各个子块的运动矢量。

例如，在构建运动矢量第一候选列表时，可以将根据ATMVP操作确定的运动矢量作为候选者(例如作为第一个候选者)加入列表中。在构建运动矢量第二候选列表时，可以根据TMVP操作确定的运动矢量作为候选者加入列表中。例如，根据TMVP操作所确定的时域候选运动矢量可以作为候选者同时加入常规Merge候选列表和AMVP候选列表中。又例如，根据TMVP操作所确定的时域候选运动矢量可以作为候选者加入常规Merge候选列表或者加入AMVP候选列表中。

在一个示例中，TMVP操作包括：在时域邻近的图像中确定当前图像块的相关块；根据所述相关块的运动矢量确定所述当前图像块的时域候选运动矢量。

在一个示例中，ATMVP操作包括：在时域邻近的图像中确定当前图像块的相关块；将所述当前图像块划分成多个子图像块；在所述相关块中确定所述多个子图像块中每个的子图像块对应的子相关块；根据所述每个子图像块对应的子相关块的运动矢量确定所述当前图像块的子图像块的时域候选运动矢量。

其中，TMVP操作和ATMVP操作中提到的时域邻近的图像可以为与当前图像块所在的图像时间距离最近的参考图像；或，该时域邻近的图像可以为编解码端预设的参考图像；或，该时域邻近的图像可以为当前图像块的参考图像为在视频参数集、序列头、序列参数集、图像头、图像参数集、条带头中指定的参考图像。一个示例中，该时域邻近的图像可以为当前图像块的同位帧。同位帧即为在条带级信息头中设定的用于获取运动信息进行预测的帧。在一些应用场景中，该同位帧也被称为位置相关帧(collocated picture)。

一个示例中，当前图像块的相关块可以为当前图像块的同位块。在一些视频编解码标准中，相关块可以被称为collocated block或者corresponding block。其中，同位块可以是同位帧中与当前图像块具有相同位置的图像块，或者是同位帧中与当前图像块的位置具有相同位置差的图像块。

其中，TMVP操作中和ATMVP操作中确定当前图像块的相关块的方法可以相同，也可以不同。

在一个示例中，TMVP操作中和ATMVP操作中确定当前图像块的相关块的方法相同，均包括：将当前图像块中的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块；或者，将所述当前图像块的空域相邻的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块。

在ATMVP操作和TMVP操作的第一步的一个示例中，均通过对运动矢量merge候选列表中当前已加入的所有空域候选运动矢量进行扫描，来确定当前图像块的相关块。相比该示例，采用“将当前图像块中的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块；或者，将所述当前图像块的空域相邻的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块”的方式可以对TMVP操作中和ATMVP操作中的冗余操作进行简化。

其中，当前图像块的相关块的大小可以和当前图像块的大小相同，或者，当前图像块的相关块的大小为默认值。

其中，当前图像块中的指定位置可以是当前图像块中的任意一个位置，例如，可以是当前图像块的左上角点、右上角点、中心点、左下角点、右下角点中的任意一个。当前图像块中的空域相邻的指定位置，指的是在当前图像中除当前图像块之外的某个指定位置，例如是与当前图像块邻近的指定位置。

以上述的指定位置为当前图像块左上角点为例，在时域邻近的图像中存在一个与当前图像块的左上角点的位置相同的像素点，可以将该像素点所在的已编/解码块作为当前图像块的相关块，或者，也可以将以该像素点为左上角点，且大小与当前图像块的大小相同或者大小为预设大小的图像块作为当前图像块的相关块。

在ATMVP操作的一个示例中，对子图像块的大小进行帧级自适应的设置，子图像块的大小默认为4×4，当满足一定条件时，子图像块的大小被设置为8×8。例如，在编码端，在编码当前图像块时，计算同一时域层的上一个编码图像块进行ATMVP模式编码时CU中的各个子图像块的平均块大小，当平均块大小大于阈值，当前图像块的子图像块的尺寸被设置为8×8，否则使用默认值4×4。目前，在新一代视频编码标准(Versatile Video Coding，VVC)中，是以8×8的大小对运动矢量进行存储。应理解，当将子图像块的大小设置为4×4，该子图像块的运动矢量的大小(也为4×4)不符合当前标准中运动矢量的存储粒度。此外，在该ATMVP操作的示例中，编码当前图像块时，还需要存储同一时域层的上一个已编码图像块的子图像块的大小的信息。

在ATMVP操作的另一个示例中，当前图像块为一个CU，将其划分之后得到的子图像块可称为sub-CU。可选地，子图像块的大小和/或子图像块的相关块的大小固定为大于或等于64个像素。可选地，子图像块的大小和/或子图像块的相关块的大小均固定为8×8个像素。将当前图像块的子图像块的大小固定设置为8×8，一方面可以适应视频标准VVC中规定的运动矢量的存储粒度，另一方面，无需存储上一个已编码图像块的子图像块的大小的信息，因此，可以节省存储空间。

应理解，在保证子图像块的大小和/或子图像块的相关块的大小固定为等于64个像素的前提下，子图像块的大小和/或子图像块的相关块的大小还可以为别的尺寸，例如子图像块的大小和/或子图像块的相关块的大小为A×B，A≤64，B≤64，A和B均为4的整数。例如，子图像块的大小和/或子图像块的相关块的大小为4×16个像素，或者为16×4个像素。

在一些实现方式中，运动矢量的存储粒度也可以不是8×8，而是其他数值。可选的，当前图像块的子图像块的大小设置为与运动矢量的粒度相同，都为x×y，该x和y为正整数。

在一些实现方式中，在确定当前块的运动矢量第一候选列表和/或运动矢量第二候选列表中的候选者时，在当前图像块的尺寸满足预设条件时，根据ATMVP操作来确定当前图像块在运动矢量第一候选列表和/或运动矢量第二候选列表中的时域候选运动矢量。

在一些实现方式中，在确定当前块的运动矢量第一候选列表和/或运动矢量第二候选列表中的候选者时，在当前图像块的尺寸不满足预设条件时，关闭ATMVP操作，也即不根据ATMVP操作来确定当前图像块在运动矢量第一候选列表和/或运动矢量第二候选列表中的时域候选运动矢量。

在一些实现方式中，在确定每一个图像块的运动矢量第一候选列表和/或运动矢量第二候选列表中的候选者时，在当前图像块的尺寸满足预设条件时，根据TMVP操作来确定当前图像块在运动矢量第一候选列表和/或运动矢量第二候选列表中的时域候选运动矢量。

在一些实现方式中，在确定每一个图像块的运动矢量第一候选列表和/或运动矢量第二候选列表中的候选者时，在当前图像块的尺寸不满足预设条件时，关闭TMVP操作，也即根据TMVP操作来确定当前图像块在运动矢量第一候选列表和/或运动矢量第二候选列表中的时域候选运动矢量。

其中，在上述提到的四种实现方式的至少一种实现方式中，预设条件可以包括一个条件，或者包括多个条件的组合。例如，在当前图像块的尺寸满足第一条件组时，才根据ATMVP操作来确定当前图像块的时域候选运动矢量。在当前图像块的尺寸满足第二条件组时，才根据TMVP操作来确定当前图像块的时域候选运动矢量。其中，第一条件组中的条件数量为至少1个。其中，第二条件组的条件数量为至少1个。其中，第一条件组和第二条件组可以完全相同，或者完全不同，或者部分相同。

在一个示例中，当前图像块的尺寸为x1×y1，当前图像块的子图像块的默认设置尺寸为x2×y2，其中，x1、x2、y1、y2均为正整数；预设条件包括：x1不小于x2，和/或，y1不小于y2。例如，当x1不小于x2，和/或，y1不小于y2时，根据ATMVP操作和/或TMVP操作来确定当前图像块的时域候选运动矢量。

在一个示例中，当x1小于或小于等于x2，和/或，y1小于或小于等于y2时，设置不执行所述ATMVP操作。例如，在构建上述的运动矢量第一候选列表时，加入的运动矢量候选者中没有候选者是根据ATMVP操作确定的。

在一个示例中，当前图像块的尺寸为x1×y1，预设尺寸为x3×y3；其中，x1、x3、y1、y3均为正整数；预设条件包括：x1不小于x3，和/或，y1不小于y3。例如，当x1小于或小于等于x3，和/或，y1小于或小于等于y3时，根据ATMV操作和/或TMVP操作来确定当前图像块的时域候选运动矢量。

在一个示例中，当x1小于或小于等于x3，和/或，y1小于或小于等于y3时，设置不执行所述TMVP操作。跳过TMVP操作由于在硬件设计中，尽量要求相同大小的处理区域完成编码或解码的时间一致，因而对于包含较多小块的区域，需要的流水时间就远远超过了其他区域；因此，节省小块的流水时间对于硬件的并行处理十分有意义。在当前图像块的尺寸较小时，跳过TMVP操作可以节省小块的流水时间。除此之外，目前编码技术中对于时域相关性的利用率越来越高，许多时域预测技术被采纳，如ATMVP，因此对小块而言，跳过TMVP带来的性能影响可以忽略不计。

本文中在提到不执行TMVP操作或跳过TMVP操作时，在第一类模式和第二类模式运动信息候选列表均采用TMVP操作来确定候选者的情况中，可以仅在第一类模式或仅在第二类模式的运动信息候选列表中跳过TMVP操作；或者，可以在第一类模式和第二类模式的运动信息候选列表中均跳过TMVP操作。

在一个示例中，运动矢量的存储粒度为所述x3×y3。

在一个示例中，当当前图像块的尺寸与第一默认尺寸相同时，仅执行所述TMVP操作和所述ATMVP操作中的一个。例如，设置不进行ATMVP操作或者不进行TMVP操作。例如，仅执行ATMVP操作。例如，设置不进行TMVP操作。一个示例中，该第一默认尺寸可以和运动矢量的存储粒度的尺寸相同。在当前图像块的尺寸与第一默认尺寸相同时，ATMVP技术与TMVP技术存在一定冗余，两个技术均为当前图像块导出一组时域运动信息，因此，设置不进行其中一种操作，跳过了部分冗余操作，可以有效节省编解码的时间。一些实现方式中，ATMVP在导出时使用了当前图像块已有的merge列表中的候选运动矢量，而TMVP则是直接从邻近已编码图像中的固定位置导出候选运动矢量，在这种情况下，一定程度上ATMVP技术导出的运动矢量比TMVP技术的更为有效与自适应，因此设置不进行TMVP操作。

在一个示例中，当当前图像块包含一个运动矢量的存储粒度时，根据ATMVP操作和/或TMVP操作来确定当前图像块的时域候选运动矢量。也即当当前图像块的尺寸能够涵盖一个运动矢量的存储粒度时，根据ATMVP操作和/或TMVP操作来确定当前图像块的时域候选运动矢量。

在一个示例中，当当前图像块无法包含一个运动矢量的存储粒度或者当前图像块的尺寸等于一个运动矢量的存储粒度时，设置不进行TMVP操作。TMVP技术导出一组时域运动信息，当当前图像块无法包含一个运动矢量的存储粒度时，可能出现导出的运动矢量相同的结果，引起不必要的划分操作。

在一个示例中，预设条件包括：所述当前图像块的像素数量大于或大于等于预置数值。在一个示例中，当所述当前图像块的像素数量小于或小于等于所述预置数值时，不执行所述TMVP操作和/或所述ATMVP操作。例如，该预置数值可以是32或者是64。

在一个具体例子中，在当前CU块的宽或高小于8的情况、当前CU块的宽、高均等于8的情况以及当前CU块的宽或高小于8或当前CU块的宽、高均等于8的情况下，设置不进行TMVP操作，由于跳过了部分冗余操作，可以有效节省编解码的时间。

在一些实现方式中，对于构建当前图像块的运动矢量第二候选列表的过程中，关闭TMVP操作过程，也即不采用TMVP技术来确定加入该运动矢量第二候选列表的时域候选运动矢量。考虑到加入的与时域运动信息相关的其他操作，如ATMVP操作、HMVP操作等，目前构建过程中的TMVP技术效果大大减小，其与以上这些技术存在一定冗余，即某些情况下可能导出相同的运动信息，导致候选列表构建过程过于冗杂、低效。在一个示例中，在对当前图像块构建merge候选运动矢量列表的过程中关闭TMVP过程。在这种情况下，时域相关信息仍得到了有效利用，且merge candidate list构建流程更为简单，一定程度上可以降低编解码端复杂度。

在运动补偿预测阶段，以往主流的视频编码标准只应用了平移运动模型。而在现实世界中，有太多种运动形式，如放大/缩小，旋转，远景运动和其他不规则运动。为了提高帧间预测的效率，可以在编解码技术中引入仿射变换(affine)运动补偿模型。仿射变换运动补偿会通过一组控制点(control point)的MV来描述图像块的仿射运动场。一个示例中，仿射变换运动补偿模型采用的是四参Affine模型，则该组控制点包括两个控制点(例如图像块的左上角点和右上角点)。一个示例中，仿射变换运动补偿模型采用的是六参Affine模型，则该组控制点包括三个控制点(例如图像块的左上角点、右上角点和左下角点)。

一种实现方式中，在构建运动矢量第一候选列表时，加入的候选者可以是一组控制点的MV，或者称为控制点预测运动矢量(CPMVP，Control point motion vector prediction)。可选的，运动矢量第一候选列表可用于Merge模式中，具体的，可以称为Affine Merge模式；相对应的，该运动矢量第一候选列表可以称为affine merge candidate list。在Affine Merge模式中，直接使用运动矢量第一候选列表中的预测作为当前图像块的CPMV(Control point motion vector)，也即不需要进行affine运动估计过程。

一种实现方式中，可将根据ATMVP技术确定的候选者加入到运动矢量第一候选列表中。

其中，一个示例中，将当前图像块的相关块的控制点运动矢量组作为候选者加入到运动矢量第一候选列表中。在采用运动矢量第一列表中该候选者进行预测时，根据当前图像块的相关块的控制点运动矢量组对该当前图像块进行预测。

其中，一个示例中，如上文所描述的，将当前图像块的相关块的代表运动矢量作为候选者加入到运动矢量第一候选列表中。进一步，可选的，还标记该候选者为根据ATMVP技术确定的。当采用运动矢量第一候选列表中该候选者进行预测时，根据该标记和候选者确定当前图像块的相关块，将当前图像块和该相关块采用相同的方式划分成多个子图像块，当前图像块中的各子图像块与所述相关块中的各子图像块一一对应；根据该相关块中各子图像块的运动矢量分别对当前图像块中对应的子图像块的运动矢量进行预测。

其中，可选的，当相关块中出现运动矢量不可获得的子图像块时，采用该相关块的代表运动矢量替代该不可获得的运动矢量，对当前图像块中对应的子图像块进行预测。可选的，当相关块的代表运动矢量均不可获得时，放弃将根据ATMVP技术确定的候选者加入到该运动矢量第二候选列表中。一种示例中，当相关块中的子图像块不可获得，或者相关块中的子图像块采用帧内编码模式时，确定该相关块中出现不可获得运动矢量的子图像块。

其中，可选的，运动矢量第一候选列表中每个候选者包括一组控制点的运动矢量；在将当前图像块的相关块的代表运动矢量加入运动矢量第一候选列表中时，为保证数据格式的一致性，可将该相关块的代表运动矢量插入为候选者中的每一个控制点的运动矢量(也即该候选者中的每个控制点的运动矢量都赋值为该相关块的代表运动矢量)。

其中，可选的，当前图像块的相关块的代表运动矢量可以指的是该相关块的中心位置的运动矢量，或者其他代表该相关块的运动矢量，在此不做限制。

如图1所示，本申请实施例还提供一种视频图像处理方法，该方法包括如下步骤。

S110，确定当前图像块。

S120，当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量。

其中，所述TMVP操作包括：在时域邻近的图像中确定当前图像块的相关块；根据所述相关块的运动矢量确定所述当前图像块的时域候选运动矢量。

其中，所述ATMVP操作包括：在时域邻近的图像中确定当前图像块的相关块；将所述当前图像块划分成多个子图像块；在所述相关块中确定所述多个子图像块中每个的子图像块对应的子相关块；根据所述每个子图像块对应的子相关块的运动矢量确定所述当前图像块的时域候选运动矢量。

关于图1所示视频图像处理方法可以参考上文描述，在此不再赘述。

上文结合图1描述了本申请的方法实施例，下文将描述图1所示的方法实施例对应的装置实施例。应理解，装置实施例的描述与方法实施例的描述相互对应，因此，未详细描述的内容可以参见前面方法实施例，为了简洁，这里不再赘述。

图2为本申请实施例提供的视频图像处理装置200的示意性框图。该装置900用于执行如图7所示的方法实施例。该装置200包括如下单元。

第一确定模块210，用于确定当前图像块；

第二确定模块220，用于当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量。

应理解，本实施例中的第一确定模块和第二确定模块可以由处理器实现。

本申请实施例还提供一种视频图像处理装置。装置可以用于执行上文描述的方法实施例。装置包括处理器、存储器，存储器用于存储指令，处理器用于执行存储器存储的指令，并且对存储器中存储的指令的执行使得处理器用于执行根据上文方法实施例的方法。

可选地，该装置还可以包括通信接口，用于与外部设备进行通信。例如，处理器用于控制通信接口接收和/或发送信号。

本申请提供的装置可以应用于编码器，也可以应用于解码器。

图3为本申请提供的编码设备或解码设备(简称为译码设备1100)的一种实现方式的示意性框图。其中，译码设备1100可以包括处理器1110、存储器1130和总线系统1150。其中，处理器和存储器通过总线系统相连，该存储器用于存储指令，该处理器用于执行该存储器存储的指令。编码设备的存储器存储程序代码，且处理器可以调用存储器中存储的程序代码执行本申请描述的各种视频编码或解码方法，尤其是本申请描述的帧间预测方法。为避免重复，这里不再详细描述。

在本申请实施例中，该处理器1110可以是CPU，该处理器1110还可以是其他通用处理器、DSP、ASIC、FPGA或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器1130可以包括ROM或者RAM。任何其他适宜类型的存储设备也可以用作存储器1130。存储器1130可以包括由处理器1110使用总线1150访问的代码和数据1131。存储器1130可以进一步包括操作系统1133和应用程序1135，该应用程序1135包括允许处理器1110执行本申请描述的视频编码或解码方法(尤其是本申请描述的帧间预测方法)的至少一个程序。例如，应用程序1135可以包括应用1至N，其进一步包括执行在本申请描述的视频编码或解码方法的视频编码或解码应用(简称视频译码应用)。

该总线系统1150除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统1150。

可选的，译码设备1100还可以包括一个或多个输出设备，诸如显示器1170。在一个示例中，显示器1170可以是触感显示器，其将显示器与可操作地感测触摸输入的触感单元合并。显示器1170可以经由总线1150连接到处理器1110。

本申请实施例还提供一种计算机存储介质，其上存储有计算机程序，计算机程序被计算机执行时使得计算机执行上文方法实施例提供的方法。

本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行执行上文方法实施例提供的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种视频图像处理方法，其特征在于，包括：

确定当前图像块；

当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量；其中，

所述TMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

根据所述相关块的运动矢量确定所述当前图像块的时域候选运动矢量；

所述ATMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

将所述当前图像块划分成多个子图像块；

在所述相关块中确定所述多个子图像块中每个的子图像块对应的子相关块；

根据所述每个子图像块对应的子相关块的运动矢量确定所述当前图像块的子图像块的时域候选运动矢量。
根据权利要求1所述的视频图像处理方法，其特征在于，在所述TMVP操作和所述所述ATMVP操作中，所述时域邻近的图像中确定当前图像块的相关块，包括：

将当前图像块中的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块；或者，

将所述当前图像块的空域相邻的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块。
根据权利要求2所述的视频图像处理方法，其特征在于，所述当前图像块的指定位置包括以下其中一个位置：

所述当前图像块的左上角点；

所述当前图像块的右上角点；

所述当前图像块的中心点；

所述当前图像块的左下角点；

所述当前图像块的右下角点。
根据权利要求1至3任一项所述的视频图像处理方法，其特征在于，所述时域邻近的图像为所述当前图像块的同位帧。
根据权利要求1至4任一项所述的视频图像处理方法，其特征在于，所述当前图像块的相关块为所述当前图像块的同位块。
根据权利要求1所述的视频图像处理方法，其特征在于，其中，所述子图像块的尺寸默认设置为与运动矢量存储粒度的尺寸相同。
根据权利要求6所述的视频图像处理方法，其特征在于，所述运动矢量存储粒度的尺寸为8×8，所述子图像块的尺寸默认设置为8×8。
根据权利要求1所述的视频图像处理方法，其特征在于，所述当前图像块的尺寸为x1×y1，所述当前图像块的子图像块的默认设置尺寸为x2×y2，其中，x1、x2、y1、y2均为正整数；

所述预设条件包括：x1不小于x2，和/或，y1不小于y2。
根据权利要求8所述的视频图像处理方法，其特征在于，

所述方法还包括：

当x1小于或小于等于x2，和/或，y1小于或小于等于y2时，设置不进行所述ATMVP操作。
根据权利要求1所述的视频图像处理方法，其特征在于，所述方法还包括：

当所述当前图像块的尺寸与第一默认尺寸相同时，仅执行所述TMVP操作和所述ATMVP操作中的一个。
根据权利要求10所述的视频图像处理方法，其特征在于，所述第一默认尺寸与所述运动矢量存储粒度的尺寸相同。
根据权利要求10所述的视频图像处理方法，其特征在于，当所述当前图像块的尺寸与所述第一默认尺寸相同时，仅执行所述TMVP操作和所述ATMVP操作中的所述ATMVP操作。
根据权利要求1所述的视频图像处理方法，其特征在于，所述当前图像块的尺寸为x1×y1，预设尺寸为x3×y3；其中，x1、x3、y1、y3均为正整数；

所述预设条件包括：x1不小于x3，和/或，y1不小于y3。
根据权利要求13所述的视频图像处理方法，其特征在于，运动矢量的存储粒度为所述x3×y3。
根据权利要求13所述的视频图像处理方法，其特征在于，所述方法还包括：

当x1小于或小于等于x3，和/或，y1小于或小于等于y3时，不执行所述TMVP操作。
根据权利要求1所述的视频图像处理方法，其特征在于，所述预设条件包括：

所述当前图像块包含一个运动矢量的存储粒度。
根据权利要求16所述的视频图像处理方法，其特征在于，所述方法还包括：

当所述当前图像块没有包含一个运动矢量的存储粒度或者所述当前图像块的尺寸等于一个运动矢量的存储粒度时，不执行所述TMVP操作。
根据权利要求1所述的视频图像处理方法，其特征在于，所述预设条件包括：

所述当前图像块的像素数量大于或大于等于预置数值。
根据权利要求18所述的视频图像处理方法，其特征在于，所述方法还包括：

当所述当前图像块的像素数量小于或小于等于所述预置数值时，不执行所述TMVP操作和/或所述ATMVP操作。
根据权利要求19所述的视频图像处理方法，其特征在于，所述预置数值为32或者和64。
根据权利要求1所述的视频图像处理方法，其特征在于，所述方法还包括：

当采用ATMVP操作确定所述当前图像块的时域候选运动矢量，和/或，采用HMVP操作确定所述当前图像块的候选运动矢量时，不执行所述TMVP操作。
根据权利要求1至21任一项所述的视频图像处理方法，其特征在于，根据所述TMVP操作所确定的所述当前图像块的时域候选运动矢量为 Merge候选列表和/或高级运动矢量预测AMVP候选列表中的候选运动矢量。
根据权利要求22所述的视频图像处理方法，根据所述TMVP操作所确定的所述当前图像块的时域候选运动矢量为普通Merge候选列表和/或高级运动矢量预测AMVP候选列表中的候选运动矢量。
一种视频图像处理装置，其特征在于，包括：存储器与处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得，所述处理器用于：

用于确定当前图像块；

用于当所述当前图像块的尺寸满足预设条件时，根据时域运动矢量预测TMVP操作，和/或，高级/可选时域运动矢量预测ATMVP操作确定所述当前图像块的时域候选运动矢量；其中，

所述TMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

根据所述相关块的运动矢量确定所述当前图像块的时域候选运动矢量；

所述ATMVP操作包括：

在时域邻近的图像中确定当前图像块的相关块；

将所述当前图像块划分成多个子图像块；

在所述相关块中确定所述多个子图像块中每个的子图像块对应的子相关块；

根据所述每个子图像块对应的子相关块的运动矢量确定所述当前图像块的子图像块的时域候选运动矢量。
根据权利要求24所述的视频图像处理装置，其特征在于，在所述TMVP操作和所述所述ATMVP操作中，所述时域邻近的图像中确定当前图像块的相关块，包括：

将当前图像块中的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块；或者，

将所述当前图像块的空域相邻的指定位置在所述时域邻近的图像中相同位置处的图像块确定为所述当前图像块的相关块。
根据权利要求25所述的视频图像处理装置，其特征在于，所述当前图像块的指定位置包括以下其中一个位置：

所述当前图像块的左上角点；

所述当前图像块的右上角点；

所述当前图像块的中心点；

所述当前图像块的左下角点；

所述当前图像块的右下角点。
根据权利要求24至26任一项所述的视频图像处理装置，其特征在于，所述时域邻近的图像为所述当前图像块的同位帧。
根据权利要求24至27任一项所述的视频图像处理装置，其特征在于，所述当前图像块的相关块为所述当前图像块的同位块。
根据权利要求24所述的视频图像处理装置，其特征在于，其中，所述子图像块的尺寸默认设置为与运动矢量存储粒度的尺寸相同。
根据权利要求29所述的视频图像处理装置，其特征在于，所述运动矢量存储粒度的尺寸为8×8，所述子图像块的尺寸默认设置为8×8。
根据权利要求24所述的视频图像处理装置，其特征在于，所述当前图像块的尺寸为x1×y1，所述当前图像块的子图像块的默认设置尺寸为x2×y2，其中，x1、x2、y1、y2均为正整数；

所述预设条件包括：x1不小于x2，和/或，y1不小于y2。
根据权利要求31所述的视频图像处理装置，其特征在于，

所述处理器还用于：

当x1小于或小于等于x2，或者y1小于或小于等于y2时，设置不进行所述ATMVP操作。
根据权利要求24所述的视频图像处理装置，其特征在于，所述处理器还用于：

当所述当前图像块的尺寸与第一默认尺寸相同时，仅执行所述TMVP操作和所述ATMVP操作中的一个。
根据权利要求33所述的视频图像处理装置，其特征在于，所述第一默认尺寸与所述运动矢量存储粒度的尺寸相同。
根据权利要求33所述的视频图像处理装置，其特征在于，所述处理器还用于：

当所述当前图像块的尺寸与所述第一默认尺寸相同时，仅执行所述TMVP操作和所述ATMVP操作中的所述ATMVP操作。
根据权利要求24所述的视频图像处理装置，其特征在于，所述当前图像块的尺寸为x1×y1，预设尺寸为x3×y3；其中，x1、x3、y1、y3均为正整数；

所述预设条件包括：x1不小于x3，和/或，y1不小于y3。
根据权利要求36所述的视频图像处理装置，其特征在于，运动矢量的存储粒度为所述x3×y3。
根据权利要求36所述的视频图像处理装置，其特征在于，所述处理器还用于：

当x1小于或小于等于x3，和/或，y1小于或小于等于y3时，不执行所述TMVP操作。
根据权利要求24所述的视频图像处理装置，其特征在于，所述预设条件包括：

所述当前图像块包含一个运动矢量的存储粒度。
根据权利要求39所述的视频图像处理装置，其特征在于，所述处理器还用于：

当所述当前图像块没有包含一个运动矢量的存储粒度或者所述当前图像块的尺寸等于一个运动矢量的存储粒度时，不执行所述TMVP操作。
根据权利要求24所述的视频图像处理装置，其特征在于，所述预设条件包括：

所述当前图像块的像素数量大于或大于等于预置数值。
根据权利要求41所述的视频图像处理装置，其特征在于，所述处理器还用于：

当所述当前图像块的像素数量小于或小于等于所述预置数值时，不执行所述TMVP操作和/或所述ATMVP操作。
根据权利要求41所述的视频图像处理装置，其特征在于，所述预置数值为32或者和64。
根据权利要求24所述的视频图像处理装置，其特征在于，所述处理器还用于：

当采用ATMVP操作确定所述当前图像块的时域候选运动矢量，和/或，采用HMVP操作确定所述当前图像块的候选运动矢量时，不执行所述TMVP操作。
根据权利要求24至44任一项所述的视频图像处理装置，其特征在于，根据所述TMVP操作所确定的所述当前图像块的时域候选运动矢量为Merge候选列表和/或高级运动矢量预测AMVP候选列表中的候选运动矢量。
根据权利要求45所述的视频图像处理装置，根据所述TMVP操作所确定的所述当前图像块的时域候选运动矢量为普通Merge候选列表和/或高级运动矢量预测AMVP候选列表中的候选运动矢量。
一种计算机非易失性存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机执行时使得，所述计算机执行如权利要求1至23中任一项所述的方法。
一种包含指令的计算机程序产品，其特征在于，所述指令被计算机执行时使得计算机执行如权利要求1至23中任一项所述的方法。