WO2024001886A1

WO2024001886A1 - 编码单元划分方法、电子设备和计算机可读存储介质

Info

Publication number: WO2024001886A1
Application number: PCT/CN2023/101495
Authority: WO
Inventors: 曹洲; 徐科; 孔德辉; 杨维; 任聪
Original assignee: 深圳市中兴微电子技术有限公司
Priority date: 2022-06-30
Filing date: 2023-06-20
Publication date: 2024-01-04
Also published as: CN117376572A

Abstract

本公开提供一种编码单元划分方法、电子设备和计算机可读存储介质。所述编码单元划分方法包括：对原始图像进行划分，得到多个编码树单元；以图像块为粒度，将每个所述编码树单元分成包括多个图像块的图像块一维数组；对所述图像块一维数组中的各个图像块进行视觉注意力机制计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度；根据所述各个图像块对应的编码单元划分深度，对所述编码树单元进行编码单元划分。

Description

编码单元划分方法、电子设备和计算机可读存储介质

相关申请的交叉引用

本申请要求于2022年6月30日提交的名称为“CU划分方法、电子设备和计算机可读存储介质”的中国专利申请CN 202210770312.5的优先权，其全部内容通过引用并入本文中。

技术领域

本公开涉及通信领域，尤其涉及一种编码单元划分方法、电子设备和计算机可读存储介质。

背景技术

随着人们物质与精神生活水平的不断提高，人们对高清甚至超高清视频的要求也越来越迫切。如何在保证视频质量的同时减少带宽的消耗这一核心问题逐渐成研究的焦点。与上一代高级视频编码标准H264/高级视频编码(AVC，Advanced Video Coding)相比，H265/高效率视频编码(HEVC，High Efficiency Video Coding)通过引入编码单元(CU，Coding Unit)四叉树划分结构、多角度帧内预测等技术，使压缩率获得了大幅提升。

发明内容

本公开提供一种编码单元划分方法方法、电子设备和计算机可读存储介质。

本公开提供了一种编码单元划分方法，包括：对原始图像进行划分，得到多个编码树单元；以图像块为粒度，将每个所述编码树单元分成包括多个图像块的图像块一维数组；对所述图像块一维数组中的各个图像块进行视觉注意力机制计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度；根据所述各个图像块对应的编码单元划分深度，对所述编码树单元进行编码单元划分。

本公开提供了一种电子设备，所述电子设备包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据本申请的编码单元划分方法。

本公开提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器实现根据本申请的编码单元划分方法。

附图说明

图1是根据本公开的编码单元划分方法的流程图。

图2是传统编码方法的流程图。

图3是根据本公开的基于视觉转换的视频编解码CU划分结构示意图。

图4是根据本公开的编码单元划分尺寸与深度对应表关系图。

图5是根据本公开的编码树单元(64×64)划分深度示意图。

图6是根据本公开的电子设备的示意图。

图7是根据本公开的计算机可读存储介质的示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

随着HEVC中引入新编码技术，编码时间复杂度与H264/AVC相比提升了数倍。基于编码单元(CU，Coding Unit)四叉树的划分过程需要遍历当前编码树单元(CTU，Coding Tree Unit)(64×64像素)中所有可能的CU划分结果，然后基于每种CU划分方式分别计算率失真代价(RDC，Rate Distortion Cost)，最后从中选出RDC最小的CU划分方式进行编码。这一过程虽然能降低码率，但是占据了编码时间的80％，编码复杂度也增长了数倍，因此如何在HEVC标准中更有效的找出最优CU划分方式，对于加速H265/HEVC编码执行效率至关重要。

自视觉转换(ViT，Vision Transformer)机制提出以来，基于图像块(patch)的注意力机制相比与传统卷积神经网络而言，因其在所需训练数据、计算复杂度和实际性能等方面的优势，使其在图像视频应用领域获得广泛关注。

本公开针对编码码率与编码复杂度之间的矛盾，基于ViT注意力机制，提出一种基于ViT的视频编解码CU划分方法。

本公开提供一种CU划分方法，如图1所示，所述方法包括如下步骤S100至S400。

在步骤S100，对原始图像进行划分，得到多个CTU。

在步骤S200，以图像块为粒度，将每个CTU分成包括多个图像块的图像块一维数组。

在步骤S300，对图像块一维数组中的各个图像块进行视觉注意力机制计算，得到图像块一维数组中的各个图像块对应的CU划分深度。

在步骤S400，根据各个图像块对应的CU划分深度，对CTU进行CU划分。

本公开提供的是一种基于视觉注意力机制的视频编解码CU块划分方法。首先将原始图像划分成多个CTU。将当前CTU像素块(如64×64像素)按照CU最小划分单元分割成多个图像块(patch)，即，每个patch块的尺寸为CU最小划分单元。

以patch作为基础块，使用patch块中含有的像素值对其分别编码。将一个CTU中所有的patch排列成以patch为单元的一维数组。例如，可以将64×64像素的CTU划分成256个4×4像素的patch，将原先以矩阵排列的256个patch变换成线性排列的patch一维数组。需要说明的是，“一维”是针对patch而言，而不是说像素的维度。对于像素而言，维度为256×16，其中，256表示patch块的数量，16表示每个patch块中含有的像素的个数。

之后，将以上编码信息进行线性变换投影，在添加位置编码信息后，输入到Vision Transformer(ViT)中。经Vision Transformer注意力机制的一系列计算后，得到每个patch对应的CU划分深度，然后根据每个patch对应的CU划分深度，对当前CTU进行CU划分。对原始图像中每个CTU均按照此方法进行CU划分，即，实现对整个原始图像的CU划分。

图2示出了H265/HEVC协议编码的整体流程图，图中虚线框内的部分是本公开ViT网络替换传统算法的部分。由图中可以看出，本公开使用ViT网络替换了传统循环遍历寻找最优CU划分的计算方式。

与传统H265/HEVC相比，本公开提出的基于ViT的视频编解码CU划分方法，通过合理的训练与学习，既避免了传统方法中遍历所有CU的划分方式带来的编码复杂度，而且与传统卷积神经网络(CNN，Convolutional Neural Networks)相比，进一步降低了神经网络的计算复杂度，提高了编码速度，通过注意力机制的学习，可以很好的保证视频的编码质量，同时提高了H265/HEVC协议的高实时性与可靠性。

在一些实施例中，根据CTU的深度数值将CTU划分为多个层，并且根据各个图像块对应的CU划分深度，对CTU进行CU划分(即，步骤S400)包括：根据各个图像块对应的CU划分深度，对CTU按照深度顺序逐层进行CU划分。

进一步地，根据各个图像块对应的CU划分深度，对CTU按照深度顺序逐层进行CU划分包括：从当前深度i为0的层开始，遍历并统计CTU中所有图像块对应的CU划分深度大于i的图像块的数量Ni，其中，i表示当前深度，i和Ni为自然数；若Ni大于当前深度i预设的CU划分阈值αi，则对CTU中的当前CU进行划分，并继续进行下一深度的CU划分，其中，αi大于0；否则，结束对CTU的CU划分。

本公开提供的CU划分方法，根据每个patch对应的CU划分深度，在每个深度对当前CTU进行遍历、统计和CU划分。取代了传统方法中循环遍历每种CU划分方式，因此避免了因遍历所有CU划分方式而是带来的计算复杂度，提高了编码速度。

在本公开实施例中，针对每一深度预设CU划分阈值，作为衡量当前深度下是否需要进行CU划分的判断条件。

例如，CTU的深度从0到3，由上向下分成4个层次，64×64→32×32→16×16→8×8，为各层预设CU划分阈值αi。根据上述视觉注意力机制计算得到的每个patch对应的CU划分深度，在每个层次中，统计CU划分深度超过当前层次的patch块的数量，作为当前深度的patch深度预测值数量。若当前层次的patch深度预测值数量大于当前层预设的CU划分阈值，则认为当前CU可被划分，进而对当前CU进行四分。划分完一个层次后，对下一层继续统计下一深度的patch深度预测值数量，并与下一深度对应的CU划分阈值进行比较，以判断是否执行CU划分步骤。依此类推，对由上向下按照深度顺序逐层递归地进行遍历统计，对CTU进行CU划分，直至在某一深度中patch深度预测值数量小于或等于CU划分阈值，结束对CTU的CU划分。

需要说明的是，预设的CU划分阈值，不限于与patch深度预测值的数量作比较，也可以增加更多的比较规则，或针对其他指标进行比较。例如，patch深度预测值数量占当前层总patch数量的比例，或者比较patch深度与当前遍历的CU的实际深度。

在一些实施例中，对图像块一维数组中的各个图像块进行视觉注意力机制计算，得到图像块一维数组中的各个图像块对应的CU划分深度(即，步骤S300)包括：对图像块一维数组进行扩维，得到扩维后的输入数组；对输入数组进行视觉注意力机制计算，得到第一计算结果；对第一计算结果进行全连接层的计算，得到第二计算结果；对第二计算结果进行软最大值(softmax)层的计算，得到图像块一维数组中的各个图像块对应的CU划分深度。

在一些实施例中，为图像块一维数组进行扩维包括：将图像块一维数组进行线性投影，并添加位置编码信息，得到扩维后的输入数组。

图3是根据本公开的基于ViT的视频编解码CU划分结构示意图。在图中，左侧示出了CTU(64×64)按照4×4的尺寸划分成图像块的示意图，右侧示出了首先将划分的图像块平展成一维输入，经过线性投影(Linear Projection)后，添加位置编码信息，然后输入到视觉转换(Vision Transformer)层中，在经过每个patch之间的视觉注意力机制计算后，每个patch块对应的输出会成为后续全连接层(Fully Connected Layer)的输入，之后经过Softmax层(Softmax Layer)，得到每个patch块对应的CU划分深度，映射到图像块的深度标签(Patches Depth Label)中。

在一些实施例中，对图像块一维数组中的各个图像块进行视觉注意力机制计算，得到图像块一维数组中的各个图像块对应的CU划分深度(即，步骤S300)还包括：通过反向传播的方式进行至少一轮视觉注意力机制训练，得到各个图像块的深度预测值；通过损失函数将损失最小的图像块的深度预测值确定为图像块一维数组中的各个图像块对应的CU划分深度。

本公开实施例中，可以将图像块一维数组中的各个图像块对应的CU划分深度作为与各个图像块对应的标签，通过视觉注意力机制计算得到每个图像块对应的CU划分深度后，可以继续通过反向传播对Vision Transformer层、全连接层、Softmax层进行训练，得到各个图像块的深度预测值，与真实标签进行比较，通过Softmax层损失函数来评价各个图像块的深度预测值，若损失已经达到最小，则认为已达到最优。

本公开实施例中，图像块可以是按照CU最小划分单元划分出的4*4像素块，CTU可以是64*64像素块。

图4是CU划分尺寸与CU划分深度对应表，其中CU划分尺寸可以为64×64、32×32、16×16、8×8、4×4其中任意一种尺寸，对应的CU划分深度依次为0、1、2、3、4。

图5是CTU(64×64)中的一种CU划分方式的示意图，其中，CU块与相应的划分深度已标出。

在进行视觉注意力机制训练和学习的过程中，也可以基于ViT对每个patch进行预测CU划分深度后，统计patch块CU深度预测值，重新对CTU由上往下进行统计并划分。

可以用于本公开实施例的深度学习基本操作包括但不限于：ViT、逆卷积(Deconvolution)、线性整流函数(ReLU)、S生长曲线 (Sigmoid)、全连接(Full-Connection)、重构(Reshape)等。

需要说明的是，除了使用ViT网络结构之外，也可以用残差网络(ResNet，Residual Network)、CNN、特征压缩与激发的残差网络(SE-Resnet)等网络结构来代替ViT实现CU的划分。

本公开实施例所提供的CU划分方法可以应用在所有需要视频编码的地方，如视频处理单元(VPU，Video Processing Unit)、视频编解码芯片内置算法、智能座舱、视频压缩、视频传输等方面。

下面结合一个示例对本公开的CU划分方法的具体应用进行介绍。

图3描述了本公开的整体流程，输入为H265/HEVC中的CTU(64×64)视频CTU，输出为在CTU中基于patch(4×4)块划分后，每个patch块对应的划分深度。最后根据统计CTU中patch块对应深度，即可完成CU划分。

本示例主要包括数据集与标签准备、Vision Transformer训练、Vision Transformer推理、CU统计划分等步骤，以下将详细介绍各步骤实施细节。

步骤1：数据集与标签准备

原始数据可从Vimeo90K、REDS4、VID4等公开数据集中获取视频序列图像获取，首先将原始图像按照64×64的尺寸进行切块获取CTU，之后对每个CTU块中CU划分方式采用穷举遍历并依次计算率失真代价(RDC)，选择率失真代价最小的CU划分方式。最后将CTU块按照4×4的尺寸分成patch块，并为每个patch块分别赋予其所属CU块的深度(深度标签)。

步骤2：Vision Transformer训练

将以上获取到的每个CTU中的patch块数据与对应标签各自变换成一维数据，每个CTU块的patch块数据变换后可以表示成input＝[patch_0,patch_1,patch_2,...,patch_255]，其中，patch_0、patch_1、patch_2、……、patch_255为patch块编码数据，input维度为256×16；patch块对应标签变换后可以表示为label＝[label_0,label_1,label_2,...,label_255]，其中，label_0、label_1、label_2、……、label_255分别表示为patch_0、patch_1、 patch_2、……、patch_255块所属CU的划分深度。之后input经过线性投影并添加位置编码信息后，input的维度为256×768，输入到Vision Transformer中进行注意力机制计算，得到ViT结果输出ViT_output＝[ViT_0,ViT_1,ViT_2,...,ViT_255]的中间结果输出，之后ViT_output作为后续全连接层、Softmax层输出，得到每个patch块对应的深度depth＝[dep_0,dep_1,dep2,...,dep_255]，最后与label真实标签进行比较，通过反向传播对Vision Transformer、全连接层、Softmax层进行训练。Softmax层损失函数为多分类交叉熵的损失：

其中，C＝5表示深度分类的数量，在本公开中深度标签可以取值0、1、2、3、4，p(xi)表示各个深度可能结果的概率。

步骤3：Vision Transformer推理

在Vision Transformer、全连接层、Softmax层训练结束后，在推理阶段，如Vision Transformer训练步骤中所述，以当前CTU块分成的patch块变换成的一维数据作为输入，经Vision Transformer、全连接层、Softmax层后得到每个patch块对应的深度。

步骤4：CU统计划分

设置划分阈值α0、α1、α2、α3，对CTU由上向下(64×64→32×32→16×16→8×8)递归遍历统计划分。

1)首先统计顶层(64×64)CTU块(深度0，尺寸64×64)内部大于深度0的patch深度预测值数量，若patch深度预测值数量所占比例>α0，则对当前CTU块四分，否则结束CU划分。

2)对所有32×32块(CTU)(深度1，尺寸32×32)内部大于深度1的patch深度预测值数量，若patch深度预测值数量所占比例>α1，则对当前CU块四分，否则结束当前CU划分。

3)对所有16×16块(CTU)(深度2，尺寸16×16)内部大于深度2的patch深度预测值数量，若patch深度预测值数量所占比例>α2，则对当前CU块四分，否则结束当前CU划分。

4)对所有8×8块(CTU)(深度3，尺寸8×8)内部大于深度3的patch深度预测值数量，若patch深度预测值数量所占比例>α3，则对当前CU块四分，否则结束当前CU划分。

最终得到CTU中CU的最终划分方式，用于后续视频编解码流程中。

本公开还提供一种电子设备，如图6所示，其包括：一个或多个处理器501；存储器502，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开各实施例的CU划分方法。

此外，电子设备还可以包括一个或多个I/O接口503，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

处理器501为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器502为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)503连接在处理器501与存储器502间，能实现处理器501与存储器502的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器501、存储器502和I/O接口503通过总线504相互连接，进而与计算设备的其它组件连接。

本公开还提供一种计算机可读存储介质，如图7所示，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现根据本公开各实施例的CU划分方法。

如上文所述，H265/HEVC虽然与上一代视频编解码标准H264/AVC协议相比，极大提高了压缩率，但编码复杂度也增长了数倍，其中，遍历所有CU划分并计算RDC，从中选择最优CU划分的计算方式是H265/HEVC编码所消耗时间的主要来源。本公开提出一种基于ViT的视频编解码CU划分方式，以CTU划分的最小基础块为输入，输出每个对应最小基础块的划分深度，通过图像块注意力机制的计算，提升了视频编码效率，使得实时高质量视频编码成为可能。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本公开的优选实施例，并非因此局限本公开的权利范围。本领域技术人员不脱离本公开的范围和实质内所作的任何修改、等同替换和改进，均应在本公开的权利范围之内。

Claims

一种编码单元划分方法，包括：

对原始图像进行划分，得到多个编码树单元；

以图像块为粒度，将每个所述编码树单元分成包括多个图像块的图像块一维数组；

对所述图像块一维数组中的各个图像块进行视觉注意力机制计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度；

根据所述各个图像块对应的编码单元划分深度，对所述编码树单元进行编码单元划分。
根据权利要求1所述的编码单元划分方法，其中，根据所述编码树单元的深度数值将所述编码树单元划分为多个层，并且根据所述各个图像块对应的编码单元划分深度，对所述编码树单元进行编码单元划分，包括：

根据所述各个图像块对应的编码单元划分深度，对所述编码树单元按照深度顺序逐层进行编码单元划分。
根据权利要求2所述的编码单元划分方法，其中，根据所述各个图像块对应的编码单元划分深度，对所述编码树单元按照深度顺序逐层进行编码单元划分，包括：

从当前深度i为0的层开始，遍历并统计所述编码树单元中所有图像块对应的编码单元划分深度大于i的图像块的数量Ni，其中，i表示当前深度，i和Ni为自然数；

若Ni大于当前深度i预设的编码单元划分阈值αi，则对所述编码树单元中的当前编码单元进行划分，并继续进行下一深度的编码单元划分，其中，αi大于0；

若Ni小于或等于当前深度i预设的编码单元划分阈值αi，则结束对所述编码树单元的编码单元划分。
根据权利要求1所述的编码单元划分方法，其中，对所述图像块一维数组中的各个图像块进行视觉注意力机制计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度，包括：

对所述图像块一维数组进行扩维，得到扩维后的输入数组；

对所述输入数组进行视觉注意力机制计算，得到第一计算结果；

对所述第一计算结果进行全连接层的计算，得到第二计算结果；

对所述第二计算结果进行软最大值层的计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度。
根据权利要求4所述的编码单元划分方法，其中，对所述图像块一维数组进行扩维包括：

将所述图像块一维数组进行线性投影，并添加位置编码信息，得到扩维后的输入数组。
根据权利要求4所述的编码单元划分方法，其中，对所述图像块一维数组中的各个图像块进行视觉注意力机制计算，得到所述图像块一维数组中的各个图像块对应的编码单元划分深度，还包括：

通过反向传播的方式进行至少一轮视觉注意力机制训练，得到各个图像块的深度预测值；

通过损失函数将损失最小的图像块的深度预测值确定作为所述图像块一维数组中的各个图像块对应的编码单元划分深度。
根据权利要求1至6中任意一项所述的编码单元划分方法，其中，所述图像块是按照编码单元最小划分单元划分出的4*4像素块。
根据权利要求1至6中任意一项所述的编码单元划分方法，其中，所述编码树单元是64*64像素块。
一种电子设备，所述电子设备包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的编码单元划分方法。
根据权利要求9所述的电子设备，还包括：

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任意一项所述的编码单元划分方法。