WO2024027616A1

WO2024027616A1 - 帧内预测方法、装置、计算机设备及可读介质

Info

Publication number: WO2024027616A1
Application number: PCT/CN2023/110099
Authority: WO
Inventors: 任聪; 徐科; 孔德辉; 杨维; 曹洲
Original assignee: 深圳市中兴微电子技术有限公司
Priority date: 2022-08-01
Filing date: 2023-07-31
Publication date: 2024-02-08
Also published as: CN117544774A

Abstract

本公开提供一种帧内预测方法，应用于Transformer网络，包括：将待预测图像划分为预设数量的图像块，并生成包括图像块的图像块序列；对图像块序列进行维度处理，得到图像块嵌入输出序列；根据图像块嵌入输出序列和图像块的第一位置信息，对待预测图像进行编码，得到图像块编码输出序列，图像块编码输出序列包括第一帧内全局信息；根据图像块的第二位置信息和已预测得到的图像块预测序列，对图像块编码输出序列进行解码，得到当前的图像块预测序列，当前的图像块预测序列包括第二帧内全局信息；根据当前的图像块预测序列生成预测图像。本公开还提供一种帧内预测装置、计算机设备和可读介质。

Description

帧内预测方法、装置、计算机设备及可读介质

相关申请的交叉引用

本申请要求于2022年8月1日提交的名称为“帧内预测方法、装置、计算机设备及可读介质”的中国专利申请CN202210914755.7的优先权，其全部内容通过引用并入本文。

技术领域

本公开涉及视频编解码技术领域，具体涉及一种帧内预测方法、装置、计算机设备及可读介质。

背景技术

随着用户对高清视频需求量的增加，视频多媒体的视频数据量也在与日俱增。由于视频中包含很多冗余信息，如果未经压缩，这些视频很难应用于实际的存储和传输，因此需要编码技术来对视频进行压缩，减少存储和传输的压力。在编码技术中，帧内预测技术是非常重要的一种，因为在各种视频帧类型中，I帧(帧内编码帧)全部采用帧内预测，I帧的压缩比率通常比P帧(预测编码帧)和B帧(双向预测编码帧)更低，因此帧内预测编码的效率对视频整体平均码率具有较大影响。另一方面，I帧通常都会作为P帧/B帧解码过程中的参考帧，如果I帧的编码出现了错误，那么不仅仅是该I帧出现错误，参考该I帧的P帧和B帧也同样不能正确解码。

发明内容

本公开提供一种帧内预测方法、装置、计算机设备和可读介质。

在本公开的一方面中，提供了一种帧内预测方法，所述方法应用于Transformer网络，包括：将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列；对所述图像块序列进行维度处理，得到图像块嵌入输出序列；根据所述图像块嵌入输出序列和所述图像块的第一位置信息，对所述待预测图像进行编码，得到图像块编码输出序列，所述图像块编码输出序列包括第一帧内全局信息；根据所述图像块的第二位置信息和已预测得到的图像块预测序列，对所述图像块编码输出序列进行解码，得到当前的图像块预测序列，所述当前的图像块预测序列包括第二帧内全局信息；以及根据所述当前的图像块预测序列生成预测图像。

在本公开的另一方面中，提供了一种帧内预测装置，所述装置为Transformer网络设备，包括划分模块、维度处理模块、编码模块、解码模块和生成模块，其中，所述划分模块被配置为，将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列；所述维度处理模块被配置为，对所述图像块序列进行维度处理，得到图像块嵌入输出序列；所述编码模块被配置为，根据所述图像块嵌入输出序列和所述图像块的第一位置信息，对所述待预测图像进行编码，得到图像块编码输出序列，所述图像块编码输出序列包括第一帧内全局信息；所述解码模块被配置为，根据所述图像块的第二位置信息和已预测得到的图像块预测序列，对所述图像块编码输出序列进行解码，得到当前的图像块预测序列，所述当前的图像块预测序列包括第二帧内全局信息；所述生成模块被配置为，根据所述当前的图像块预测序列生成预测图像。

在本公开的再一方面中，提供了一种计算机设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前所述的帧内预测方法。

在本公开的又一方面中，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如前所述的帧内预测方法。

附图说明

图1是根据本公开实施例利用Transformer网络进行帧内预测与传统的帧内预测的对比示意图；

图2是根据本申请实施例的帧内预测流程示意图；

图3是根据本申请实施例的编码过程示意图；

图4是根据本申请实施例的解码过程示意图；

图5是根据本申请实施例的生成图像块序列的流程示意图；

图6是根据本申请实施例的生成预测图像的流程示意图一；

图7是根据本申请实施例的生成预测图像的流程示意图二；

图8是根据本申请实施例的确定编解码次数的流程示意图；

图9是根据本申请实施例的帧内预测装置的结构示意图一；

图10是根据本申请实施例的帧内预测装置的结构示意图二。

具体实施方式

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

传统的帧内预测方式，以H.265为例，是在PU(Prediction Unit，预测单元)的基础上定义35种预测模式，PU可以以四叉树的形式划分TU(Transform Unit，转换单元)，且一个PU内所有TU共享同一种预测模式的形式划分TU，且一个PU内的所有TU共享同一种预测模式。H.265帧内预测过程如下：判断当前TU相邻参考像素是否可用并做相应的处理，对参考像素进行滤波，根据滤波后的参考像素计算当前TU的预测像素值。传统的帧内预测具有多种预测模式，导致运算开销大。

在目前的相关技术中，除了传统的帧内预测方式，还有使用深度学习中卷积神经网络进行帧内预测的方式，但在该方式中，卷积在提取特征时通过局部感受野进行提取，一定程度上忽视了较长距离编码块与块的相关性。为了获取更准确的帧内预测值，本公开实施例提出了基于Transformer网络架构的视频编码的帧内预测方法。

图1的右部分示出了根据本公开实施例的Transformer网络的结构示意图。

如图1所示，本公开实施例利用Transformer网络进行帧内预测编码，代替了传统的帧内估计和帧内预测编码，输出的预测图像用于后续的量化操作。以下结合图1和图2，对本公开实施例的帧内预测过程进行详细说明。

本公开实施例提供一种帧内预测方法，所述方法应用于Transformer网络，结合图1和图2所示，所述方法包括以下步骤S11至S15。

在步骤S11中，将待预测图像划分为预设数量的图像块，并生成包括图像块的图像块序列。

待预测图像的宽为W，高为H。在本步骤中，例如由图1所示的Extracted Patches模块将大小为W*H的待预测图像划分为预设数量S的相同大小的图像块(patch)P_i，(i＝1，2，...，S)，S个图像块形成图像块序列P，P＝[P₁，P₂，...，P_s]。

在步骤S12中，对图像块序列进行维度处理，得到图像块嵌入输出序列。

在本步骤中，例如由图1所示的Embedding模块将步骤S11得到的图像块序列P＝[P₁，P₂，...，P_s]中的每个图像块P_i通过全连接层得到维度为d_t的一维的第一特征序列P_{x_i}＝[x₁，x₂，...，x_t]，每个图像块的维度是d_t，Embedding模块输出图像块嵌入输出序列P_x，P_x＝[P_{x_1}，P_{x_2}，...，P_{x_s}]。

在步骤S13中，根据图像块嵌入输出序列和图像块的第一位置信息，对待预测图像进行编码，得到图像块编码输出序列，图像块编码输出序列包括第一帧内全局信息。

例如，由图1所示的Encoder模块(其由N个相同的encoder子模块堆叠构成)，对待预测图像进行N次编码，编码次数N预先配置,N为大于1的整数。在本步骤中，Encoder模块根据图像块嵌入输出序列P_x和图像块的第一位置信息(Positional Encoding 1)，对待预测图像进行编码，得到图像块编码输出序列P_e，P_e＝[P_{e_1}，P_{e_2}，...，P_{e_s}]。每个图像块得到维度为d_t的一维的第二特征序列P_{e_i}(i＝1，2，...，S)，各个图像块的第二特征序列P_{e_i}组成图像块编码输出序列P_e。

需要说明的是，图像块编码输出序列P_e包括第一帧内全局信息，第一帧内全局信息在对待预测图像进行编码过程中生成。

在步骤S14中，根据图像块的第二位置信息和已预测得到的图像块预测序列，对图像块编码输出序列进行解码，得到当前的图像块预测序列，当前的图像块预测序列包括第二帧内全局信息。

例如，由图1所示的Decoder模块(其由M个相同的decoder子模块堆叠构成)，对图像块编码输出序列P_e进行解码，解码次数M预先配置,M为大于1的整数。在本步骤中，Decoder模块根据图像块的第二位置信息(Positional Encoding 2)和已预测得到的图像块预测序列P_d’，P_d’＝[P_{d_1}，P_{d_2}，...，P_{t-1_s}]，对图像块编码输出序列P_e进行解码，得到当前的图像块预测序列P_d，P_d＝[P_{d_1}，P_{d_2}，...，P_{d_s}]。每个图像块得到维度为d_t的一维的第三特征序列P_{d_i}(i＝1，2，...，S)，各个图像块的第三特征序列P_{d_i}组成当前的图像块预测序列P_d。

需要说明的是，当前的图像块预测序列P_d包括第二帧内全局信息，第二帧内全局信息在对图像块编码输出序列P_e进行解码过程中生成。

在步骤S15中，根据当前的图像块预测序列生成预测图像。

例如，由图1所示的Fusion模块对当前的图像块预测序列P_d统一维度进行维度转换处理后进行拼接，得到宽为W、高为H的预测图像。

本公开实施例提供的帧内预测方法，应用于Transformer网络，包括：将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列；对图像块序列进行维度处理，得到图像块嵌入输出序列；根据图像块嵌入输出序列和图像块的第一位置信息，对待预测图像进行编码，得到图像块编码输出序列，图像块编码输出序列包括第一帧内全局信息；根据图像块的第二位置信息和已预测得到的图像块预测序列，对图像块编码输出序列进行解码，得到当前的图像块预测序列，当前的图像块预测序列包括第二帧内全局信息；根据当前的图像块预测序列生成预测图像。本公开实施例通过Transformer网络来实现帧内预测编码，既利用了图像块内的局部信息，又利用Transformer中的自注意力机制层获取帧内全局信息，有效克服卷积归纳偏差带来的局限性，使得信息交互更加充分，从而更准确地得到帧内编码的预测图像。

自注意力机制(self-attention)是Transformer网络的核心，也是本公开实施例获取帧内全局信息的重要手段。以下分别结合图3和图4，对获取第一帧内全局信息和第二帧内全局信息的示例性过程进行说明。

在一些实施例中，第一帧内全局信息根据已添加第一位置信息的图像块嵌入输出序列P_x计算得到。如图3所示，encoder子模块先根据已添加第一位置信息的图像块嵌入输出序列P_x进行自注意处理得到第一帧内全局信息，经过与图像块嵌入输出序列P_x相加、归一化等处理以及正反馈处理后再次相加处理，实现对待预测图像编码，得到图像块编码输出序列P_e。

在一些实施例中，第二帧内全局信息根据图像块编码输出序列P_e和已添加第二位置信息的已预测得到的图像块预测序列P_d’计算得到。如图4所示，decoder子模块先根据已添加第二位置信息的已预测得到的图像块预测序列P_d’进行第一次自注意处理，经过与已预测得到的图像块预测序列P_d’相加、归一化等处理后，再根据图像块编码输出序列P_e进行第二次自注意处理，经过与图像块编码输出序列P_e相加、归一化、正反馈等处理后，完成解码过程，得到当前的图像块预测序列P_d。

以下以第一帧内全局信息为例，说明其计算过程。第一帧内全局信息可以通过以下公式(1)计算得到：

其中，Attention为第一帧内全局信息，d_t为第一特征序列P_{x_i}的维度，softmax()为激活函数，Q、K、V矩阵表示各维度的已添加第一位置信息的第一特征序列P_{x_i}之间的权重值(即依赖关系)，Q、K、V矩阵根据图像块嵌入输出序列P_x与3个预设矩阵经过矩阵变换(相乘)后得到，3个预设矩阵中的参数可以通过可学习的方式获得。由此可以看出，Q、K、V矩阵仅和图像块嵌入输出序列P_x有关，就是对于图像块嵌入输出序列P_x的自注意力。

在一些实施例中，如图5所示，所述将待预测图像划分为预设数量的图像块，并生成包括图像块的图像块序列(即步骤S11)，包括以下步骤S111至S112。

在步骤S111中，将待预测图像划分为预设数量的大小相等的图像块。

待预测图像大小为W*H，将大小为W*H的待预测图像划分为例如num*num＝S个图像块，则每个图像块的大小为即图像块的宽为W/num、高为H/num。

在步骤S112中，按照从左往右、从上到下的顺序将图像块排序，生成图像块序列。

通过步骤S111-S112,抛弃传统编码需要计算CTU(Coding Tree Units，树编码单元)块划分的方式，采用直接等分块的方式提升图像块划分效率，解决传统帧内预测的运算开销大的问题。

在一些实施例中，如图6所示，所述根据当前的图像块预测序列生成预测图像(即步骤S15)，包括以下步骤S151至S153。

在步骤S151中，对当前的图像块预测序列进行线性化处理，得到第一序列,第一序列包括各图像块的一维数组。

在步骤S152中，将各图像块的一维数组转换为二维矩阵,并根据二维矩阵生成第二序列。

在步骤S153中，根据第二序列，按照从左到右、从上到下的顺序对各所述二维矩阵进行拼接，得到预测图像。

结合图6和图7所示，Fusion模块可包括Linear、Reshape和Concat三个处理单元。利用Linear将输入的当前的图像块预测序列P_d＝[P_{d_1}，P_{d_2}，...，P_{d_s}]线性化处理，得到第一序列P_L，P_L＝[P_{L_1}，P_{L_2}，...，P_{L_s}]，P_{L_i}(i＝1，2，...，S)的维度是H*W/s。第一序列P_L输入Reshape，Reshape将一维数组P_{L_i}转换成二维矩阵P_{R_i}，二维矩阵P_{R_i}的宽为W/num、高为H/num，各二维矩阵P_{R_i}组成第二序列P_R＝[P_{R_1}，P_{R_2}，...，P_{R_s}]。第二序列P_R输入Concat，Concat将第二序列P_R按照从左往右、从上往下的排列顺序拼接成预测图像，预测图像的宽为W、高为H，输出Transformer网络最终的预测图像，提供给后续量化处理。

在一些实施例中，在对不同的待预测图像进行编码的次数不同和/或进行解码的次数不同的情况下，通过一下步骤S21和S22来确定N和M。

在步骤S21中，计算待预测图像的纹理复杂度。

在一些实施例中，纹理复杂度为图像的灰度级直方图的方差μ₂，且例如由图1所示的纹理负责的估计模块计算待预测图像的纹理复杂度，纹理复杂度可以通过以下公式(2)计算：

其中，z表示待预测图像的灰度，p(z_i)为相应的直方图，L为灰度的数量。m是z的均值，可以通过以下公式(3)计算：

需要说明的是，纹理复杂度不限于上述计算方式，也可以采用其他方式计算，如基于梯度的计算、基于深度学习方式等。

在步骤S22中，根据纹理复杂度和预设的参考阈值确定N和M，N和M分别为预先配置的阈值中的一个。

在一些实施例中，参考阈值包括第一参考阈值和第二参考阈值，所述根据纹理复杂度和预设的参考阈值确定所述N和M(即步骤S22)，包括以下步骤：在纹理复杂度小于第一参考阈值的情况下，确定N为预先配置的第一编码阈值N1，并确定M为预先配置的第一解码阈值M1；在纹理复杂度大于或等于第一参考阈值且小于或等于第二参考阈值的情况下，确定N为预先配置的第二编码阈值N2，并确定M为预先配置的第二解码阈值M2；在纹理复杂度大于第二参考阈值的情况下，确定N为预先配置的第三编码阈值N3，并确定M为预先配置的第三解码阈值M3；其中，N3>N2>N1，M3>M2>M1，N1，N2，N3以及M1，M2，M3根据实际应用设置。

例如，由图1的阈值判断模块进行纹理复杂度判断，若纹理复杂度小于第一参考阈值，表示待预测图像为弱纹理，则将编码次数N和解码次数M设置为较小的值(N1和M1)；若纹理复杂度大于或等于第一参考阈值且小于或等于第二参考阈值，表示待预测图像为中纹理，则将编码次数N和解码次数M设置为中间值(N2和M2)；若纹理复杂度大于第二参考阈值，表示待预测图像为强纹理，则将编码次数N和解码次数M设置为较大的值(N3和M3)。

通过上述步骤S21-S22，可以实现编码次数N(即encoder子模块的堆叠数量)和解码次数M(即decoder子模块的堆叠数量)的动态调整。在这种情况下，Transformer网络包括纹理复杂度估计模块和阈值判断模块，该Transformer网络为Dynamic Transformer网络。需要说明的是，编码次数N(即encoder子模块的堆叠数量)和解码次数M(即decoder子模块的堆叠数量)也可以配置为常量，无需根据待预测图像进行动态调整，在这种情况下，Transformer网络不包括纹理复杂度估计模块和阈值判断模块。

在一些实施例中，第一位置信息和第二位置信息可以通过以下公式(4)和(5)计算：

其中，pos表示图像块的编号，PE(pos,2i)是偶数编号图像块的位置，PE(pos,2i+1)是奇数编号图像块的位置，i表示d_t维度的标识。

需要说明的是，第一位置信息和第二位置信息也可以采用深度学习的方式获取。

在本公开实施例中，对Transformer网络进行训练可以采用交叉熵作为损失函数，也可以使用其他损失函数，如L1损失函数、L2损失函数等。

本公开实施例应用于Transformer网络，可以替换成其他Transformer网络变体，如swin-Transformer、Sparse Transformer、Image Transformer等网络。

本公开实施例提供了基于Dynamic Transformer网络的帧内预测编码方法，抛弃传统编码需要计算CTU块划分的方式,采用patch直接等分块的方式提升块划分效率；通过Transformer网络实现帧内预测编码，利用了图像块内的局部信息，又经过Transformer网络中的自注意力机制(self-attention)层获取帧内全局信息，使得网络中信息交互更加充分，从而更准确地得到帧内编码的预测图像，保证编码质量。Dynamic Transformer结合对帧内纹理复杂度评估，利用参考阈值进行判断，能够自适应地调节编解码子模块的堆叠数量，动态改变网络深度，降低网络计算资源。相比于CNN(Convolution neural network，卷积神经网络)，Transformer网络采用更浅的模型深度就可以获取帧内全局信息，整体的计算资源占用更少。

基于相同的技术构思，本公开实施例还提供一种帧内预测装置，所述帧内预测装置为Transformer网络设备，如图9所示，所述帧内预测装置包括划分模块101、维度处理模块102、编码模块103、解码模块104和生成模块105。

划分模块101被配置为，将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列。

维度处理模块102被配置为，对所述图像块序列进行维度处理，得到图像块嵌入输出序列。

编码模块103被配置为，根据所述图像块嵌入输出序列和所述图像块的第一位置信息，对所述待预测图像进行编码，得到图像块编码输出序列，所述图像块编码输出序列包括第一帧内全局信息。

解码模块104被配置为，根据所述图像块的第二位置信息和已预测得到的图像块预测序列，对所述图像块编码输出序列进行解码，得到当前的图像块预测序列，所述当前的图像块预测序列包括第二帧内全局信息。

生成模块105被配置为，根据所述当前的图像块预测序列生成预测图像。

在一些实施例中，所述第一帧内全局信息根据已添加所述第一位置信息的图像块嵌入输出序列计算得到。

在一些实施例中，所述第二帧内全局信息根据所述图像块编码输出序列和已添加所述第二位置信息的已预测得到的图像块预测序列计算得到。

在一些实施例中，划分模块101被配置为，将待预测图像划分为预设数量的大小相等的图像块；按照从左往右、从上到下的顺序将所述图像块排序，生成所述图像块序列。

在一些实施例中，生成模块105被配置为，对所述当前的图像块预测序列进行线性化处理，得到第一序列,所述第一序列包括各所述图像块的一维数组；将各所述图像块的一维数组转换为二维矩阵,并根据所述二维矩阵生成第二序列；根据所述第二序列，按照从左到右、从上到下的顺序对各所述二维矩阵进行拼接，得到预测图像。

在一些实施例中，编码模块103被配置为，对所述待预测图像进行N次编码；解码模块104被配置为，对所述图像块编码输出序列进行M次解码。所述N和M预先配置，N和M为大于1的整数。

在一些实施例中，如图10所示，所述帧内预测装置还包括编解码次数确定模块106，编解码次数确定模块106被配置为，计算所述待预测图像的纹理复杂度；根据所述纹理复杂度和预设的参考阈值确定所述N和M，所述N和M为预先配置的阈值中的一个。

在一些实施例中，所述参考阈值包括第一参考阈值和第二参考阈值。

编解码次数确定模块106被配置为，在所述纹理复杂度小于所述第一参考阈值的情况下，确定N为预先配置的第一编码阈值N1，并确定M为预先配置的第一解码阈值M1；在所述纹理复杂度大于或等于所述第一参考阈值且小于或等于所述第二参考阈值的情况下，确定N为预先配置的第二编码阈值N2，并确定M为预先配置的第二解码阈值M2；在所述纹理复杂度大于所述第二参考阈值的情况下，确定N为预先配置的第三编码阈值N3，并确定M为预先配置的第三解码阈值M3；其中，N3>N2>N1，M3>M2>M1。

本公开实施例还提供了一种计算机设备，该计算机设备包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述各实施例所提供的帧内预测方法。

本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述各实施例所提供的帧内预测方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本发明的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种帧内预测方法，所述方法应用于Transformer网络，包括：

将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列；

对所述图像块序列进行维度处理，得到图像块嵌入输出序列；

根据所述图像块嵌入输出序列和所述图像块的第一位置信息，对所述待预测图像进行编码，得到图像块编码输出序列，所述图像块编码输出序列包括第一帧内全局信息；

根据所述图像块的第二位置信息和已预测得到的图像块预测序列，对所述图像块编码输出序列进行解码，得到当前的图像块预测序列，所述当前的图像块预测序列包括第二帧内全局信息；

根据所述当前的图像块预测序列生成预测图像。
如权利要求1所述的方法，其中，所述第一帧内全局信息根据已添加所述第一位置信息的图像块嵌入输出序列计算得到。
如权利要求1所述的方法，其中，所述第二帧内全局信息根据所述图像块编码输出序列和已添加所述第二位置信息的已预测得到的图像块预测序列计算得到。
如权利要求1所述的方法，其中，所述将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列，包括：

将待预测图像划分为预设数量的大小相等的图像块；

按照从左往右、从上到下的顺序将所述图像块排序，生成所述图像块序列。
如权利要求1所述的方法，其中，所述根据所述当前的图像块预测序列生成预测图像，包括：

对所述当前的图像块预测序列进行线性化处理，得到第一序列,所述第一序列包括各所述图像块的一维数组；

将各所述图像块的一维数组转换为二维矩阵,并根据所述二维矩阵生成第二序列；

根据所述第二序列，按照从左到右、从上到下的顺序对各所述二维矩阵进行拼接，得到预测图像。
如权利要求1-5任一项所述的方法，其中，所述对所述待预测图像进行编码，包括：对所述待预测图像进行N次编码；

所述对所述图像块编码输出序列进行解码，包括：对所述图像块编码输出序列进行M次解码；

所述N和M预先配置，N和M为大于1的整数。
如权利要求6所述的方法，其中，在对不同的待预测图像进行编码的次数不同和/或进行解码的次数不同的情况下，所述N和所述M通过以下方式确定：

计算所述待预测图像的纹理复杂度；

根据所述纹理复杂度和预设的参考阈值确定所述N和M，所述N和M为预先配置的阈值中的一个。
如权利要求7所述的方法，其中，所述参考阈值包括第一参考阈值和第二参考阈值，所述根据所述纹理复杂度和预设的参考阈值确定所述N和M，包括：

在所述纹理复杂度小于所述第一参考阈值的情况下，确定N为预先配置的第一编码阈值N1，并确定M为预先配置的第一解码阈值M1；

在所述纹理复杂度大于或等于所述第一参考阈值且小于或等于所述第二参考阈值的情况下，确定N为预先配置的第二编码阈值N2，并确定M为预先配置的第二解码阈值M2；

在所述纹理复杂度大于所述第二参考阈值的情况下，确定N为预先配置的第三编码阈值N3，并确定M为预先配置的第三解码阈值M3；

其中，N3>N2>N1，M3>M2>M1。
一种帧内预测装置，所述装置为Transformer网络设备，包括划分模块、维度处理模块、编码模块、解码模块和生成模块，所述划分模块被配置为，将待预测图像划分为预设数量的图像块，并生成包括所述图像块的图像块序列；

所述维度处理模块被配置为，对所述图像块序列进行维度处理，得到图像块嵌入输出序列；

所述编码模块被配置为，根据所述图像块嵌入输出序列和所述图像块的第一位置信息，对所述待预测图像进行编码，得到图像块编码输出序列，所述图像块编码输出序列包括第一帧内全局信息；

所述解码模块被配置为，根据所述图像块的第二位置信息和已预测得到的图像块预测序列，对所述图像块编码输出序列进行解码，得到当前的图像块预测序列，所述当前的图像块预测序列包括第二帧内全局信息；

所述生成模块被配置为，根据所述当前的图像块预测序列生成预测图像。
一种计算机设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8任一项所述的帧内预测方法。
一种计算机可读介质，其上存储有计算机程序，其中，所述程序被执行时实现如权利要求1-8任一项所述的帧内预测方法。