WO2023000179A1

WO2023000179A1 - 视频超分辨网络及视频超分辨、编解码处理方法、装置

Info

Publication number: WO2023000179A1
Application number: PCT/CN2021/107449
Authority: WO
Inventors: 元辉; 付丛睿; 刘瑶; 杨烨; 李明
Original assignee: Oppo广东移动通信有限公司
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-01-26
Also published as: EP4365820A1; CN117730338A

Abstract

一种视频超分辨网络及视频超分辨、编解码处理方法、装置，视频超分辨网络基于3D卷积实现对低分辨率视频帧序列的浅层特征提取、深层特征提取，重建得到更高分辨率的视频帧序列。视频超分辨网络的判别网络采用两个分支分别进行细节特征判断和运动信息特征判断。在视频压缩过程中对视频帧进行超分辨可以增强图像质量。还可以将解码后的超分辨处理与编码前的下采样处理结合，实现低码率图像的传输和恢复。

Description

视频超分辨网络及视频超分辨、编解码处理方法、装置

技术领域

本公开实施例涉及但不限于图像处理技术，更具体地，涉及一种视频超分辨网络及视频超分辨、编解码处理方法、装置。

背景技术

一般的视频压缩过程如图1所示，在编码端，包括视频采集、视频预处理、视频编码等过程。在解码端，包括视频解码、视频后处理和显示播放等过程。在视频预处理时，有时为了带宽、码率等限制会降低视频的帧率，同时视频压缩编码时也会带来图像质量的降低。视频解码后的视频后处理过程是提升视频质量的一个重要环节，但提升效果还有待增强。

发明概述

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开一实施例提供了一种视频超分辨网络，包括生成网络，其中，所述生成网络包括依次连接的第一特征提取部分、第二特征提取部分和重建部分，其中：

所述第一特征提取部分设置为接收第一视频帧序列，基于3D卷积从所述第一视频帧序列中提取第一特征并输出；

所述第二特征提取部分，设置为接收所述第一特征，基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征并输出；

所述重建部分设置为接收所述第二特征，基于3D卷积和3D上采样实现特征融合和特征的时空超分辨，及基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列。

本公开一实施例还提供了一种视频超分辨处理方法，包括：

基于3D卷积从所述第一视频帧序列中提取第一特征；

基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征；

基于3D卷积和3D上采样实现所述第二特征的特征融合和特征的时空超分辨，及基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。

本公开一实施例还提供了一种视频解码处理方法，包括：

对码流进行解码，得到第一视频帧序列；

判断所述第一视频帧序列是否满足设定的超分辨条件；

在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理，得到第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。

本公开一实施例还提供了一种视频编码处理方法，包括：

进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样；

在确定不进行下采样的情况下，将来自数据源的所述视频帧序列直接输入视频编码器进行视频编码；

在确定进行下采样的情况下，对来自数据源的所述视频帧序列进行下采样，将下采样后的视频帧序列输入视频编码器进行视频编码。

本公开一实施例还提供了一种视频超分辨处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如本公开任一实施例所述的视频超分辨处理方法。

本公开一实施例还提供了一种视频解码处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如本公开任一实施例所述的视频解码处理方法。

本公开一实施例还提供了一种视频解码处理装置，包括：

视频解码器，设置为对码流进行解码，得到第一视频帧序列；

超分辨判决装置，设置为判断所述第一视频帧序列是否满足设定的超分辨条件，在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理；在不满足设定的超分辨条件的情况下，确定跳过对所述第一视频帧序列的视频超分辨处理；

视频超分辨网络，设置为对所述第一视频帧序列进行视频超分辨处理，得到分辨率大于所述第一视频帧序列的第二视频帧序列。

本公开一实施例还提供了一种视频编码处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如本公开任一实施例所述的视频编码处理方法。

本公开一实施例还提供了一种视频编码处理装置，其中，包括：

下采样判决模块，设置为进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样，在确定进行下采样的情况下，将来自数据源的所述视频帧序列输出到下采样装置，在确定不进行下采样的情况下，将来自数据源的所述视频帧序列直接输出到视频编码器进行编码；

下采样装置，设置为对输入的视频帧序列进行下采样，将下采样后的视频帧序列输出到视频编码器进行编码；

视频编码器，设置为对来自数据源的所述视频帧序列或者下采样后的所述视频帧序列进行视频编码。

本公开一实施例还提供了一种视频编解码系统，包括如本公开实施例所述的视频编码处理装置和如本公开实施例所述的视频解码处理装置。

本公开一实施例还提供了一种码流，其中，所述码流包括根据如本公开实施例所述的视频编码处理方法生成，所述码流中包含所述下采样标志。

本公开一实施例还提供了一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序时被处理器执行时实现如本公开任一实施例所述的方法。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图概述

附图用来提供对本公开实施例的理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1是视频压缩过程的示意图；

图2是一种生成对抗网络的架构图；

图3是本公开一实施例生成网络的结构图；

图4是本公开一实施例3D残差注意力机制模型的结构示意图；

图5是本公开一实施例判别网络的结构图；

图6是本公开一实施例视频超分辨处理方法的流程图；

图7A是本公开一实施例对已解码视频帧序列进行超分辨的示意图；

图7B是本公开一实施例视频解码器的架构图；

图8A是本公开一实施例视频编码器的架构图；

图8B是本公开一实施例可分级视频编码架构的示意图，仅示出了与上采样和下采样密切相关的部分；

图8C是本公开一实施例可分级视频解码架构的示意图，仅示出与上采样密切相关的部分；

图9是本公开一实施例视频编码处理方法的流程图；

图10是与图9所示视频编码处理方法对应的本公开一实施例视频解码处理方法的流程图；

图11是本公开一实施例视频编解码系统的架构图；

图12是本公开一实施例视频编码处理装置的结构示意图。

详述

本公开描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本公开所描述的实施例包含的范围内可以有更多的实施例和实现方案。

本公开的描述中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本公开中被描述为“示例性的”或者“例如”的任何实施例不应被解释为比其他实施例更优选或更具优势。本文中的“和/或”是对关联对象的关联关系的一种描述，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“多个”是指两个或多于两个。另外，为了便于清楚描述本公开实施例的技术方案，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

在描述具有代表性的示例性实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本公开实施例的精神和范围内。

请参照图1，视频后处理主要是针对视频预处理、视频编码和视频解码过程中的质量损失进行的，以增强视频的图像质量和提升视频的帧数。为了提升视频质量，一些方法是用滤波器对压缩后的图像进行滤波处理。但这些方法主要是通过平滑视频压缩引入的失真以达到提升图像的视觉效果，而不是恢复图像本身的像素值。为了提升视频帧的帧率，可以采用非基于块匹配的帧率提升算法和基于块匹配的帧率提升算法。非基于块匹配的帧率提升算法不考虑图像中的物体运动，只是利用相邻视频帧进行线性插值产生新的视频帧，这种算法运算复杂度底，但视频帧存在抖动、模糊现象。而基于块匹配的帧率提升算法通过估计物体的运动向量，在物体的运动轨迹上插值来提高视频帧的帧率。插值得到的视频帧的质量会所提升，但复杂度较高。

超分辨率(SR：Super-Resolution)(文中简称为超分辨)是指通过硬件或软件方法提高原有图像的分辨率。通过一幅或者多幅低分辨率(LR：Low Resolution)图像来得到一幅高分辨率(HR：High Resolution)图像的过程就是超分辨的过程。超分辨技术可以通过深度学习的方法将低分辨率视频重建成高分辨率视频图像、为用户带来良好的视频体验。

本公开一实施例提供了一种生成对抗网络(GAN：Generative Adversarial Networks)。如图2所示，该网络包括能捕获数据分布的生成网络(generator)G，也可称为生成器。以及是能估计数据来源于真实样本概率的判别网络(discriminator)D，也可称为判别器。在这种框架下，同时训练生成网络和判别网络，通过这两个网络互相对抗来达到最好的生成效果。生成网络训练时的输入是低分辨率图像，输出为重建的超分辨图像。而判别网络训练时的输入是超分辨图像和真实图像，输出是输入图像来源于真实图像的概率，低分辨率图像可以通过对真实图像进行下采样而得到。生成网络的训练过程就是最大化判别器犯错误的概率，使得判别器误以为数据是真实图像(真样本)而不是生成器生成的超分辨图像(假样本)。而判别网络的训练目标是能将真样本和假样本最大化分开。因此，这一框架就对应于两个参与者的极小极大博弈(minimax game)。在所有可能的网络参数中，可以求出唯一均衡解，使得生成网络生成的假样本进去了判别网络以后，判别网络给出的结果是一个接近0.5的值。

本公开一实施例提出了基于生成对抗网络实现超分辨的方法，相应的网络为超分辨生成对抗网络(SRGAN：Super-Resolution Generative Adversarial Networks)，在SRGAN的网络框架中。生成网络的核心是多个相同布局的残差块，使用批量归一化(BN：batch-normalization layers)层和修正线性单元(ReLU：Rectified Linear Unit)作为激活函数，用2个训练好的子像素(trained sub-pixel)卷积层增加输入图像的分辨率。判别网络包含8个递增的卷积层，按从2到64到512个核函数增长，作为结果的512个特征图后是2个全连接层(dense layers，也可称为密集层)和一个最终的S形(sigmoid)激活函数，以得到样本类别的概率。但SRGAN不能同时实现时间和空间上的超分辨以充分提取不同维度的有用特征，对视频质量的提升有限。其判别网络结构单一，没有利用光流信息，判别能力受到限制。因此经该网络重建的高分辨率图像的质量仍有待提高。

本公开一实施例提供了一种视频超分辨网络，包括用于实现视频时空超分辨功能的生成网络。所述生成网络使用3D卷积来实现时空超分的功能，先基于3D卷积进行浅层特征提取，之后用一系列残差注意力块(RAB：residual attention Block)进行深层特征提取。每个RAB块自身使用残差学习的方式，使用3D注意力机制，来进一步提升时空超分辨的质量。

如图3所示，所述生成网络包括依次连接的第一特征提取部分、第二特征提取部分和重建部分，其中：

第一特征提取部分10，设置为接收第一视频帧序列，基于3D卷积从所述第一视频帧序列中提取第一特征并输出；

第二特征提取部分20，设置为接收所述第一特征，基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征并输出；

重建部分30，设置为接收所述第二特征，基于3D卷积和3D上采样实现特征融合和特征的时空超分辨，及基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。

上述第二特征是从第一特征中提取的，也可以将第一特征称为浅层特征，将第二特征称为深层特征。

上述第一视频帧序列也可以称为低分辨率视频帧序列，第二视频帧序列可以称为高分辨率视频帧序列或者超分辨率视频帧序列。

上述图像分辨率和视频帧率可以统称为分辨率，其中图像分辨率也可以称为空间分辨率，视频帧率也可以称为时间分辨率。

上述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率，可以是：所述第二视频帧序列的图像分辨率大于所述第一视频帧序列的图像分辨率，和/或，所述第二视频帧序列的视频帧率大于所述第一视频帧序列的视频帧率。

在本公开一示例性的实施例中，所述第一特征提取部分包括依次连接的3D卷积层和激活层，如图3中的Conv3d和PReLU，所述3D卷积层的输入为所述第一视频帧序列，所述激活层的输出为所述第一特征。

在本公开一示例性的实施例中，所述第二特征提取部分包括依次连接的多个残差注意力块(RAB)，如图3所示，第一个RAB的输入为所述第一特征，除第一个RAB之外的其他RAB的输入为前一RAB的输出，最后一个RAB的输出为所述第二特征；每一所述RAB包括依次连接的3D卷积层、激活层以及3D注意力机制模型单元，如图5中的Conv3d、PReLU和3D-CBAM。所述RAB的输入送入所述3D卷积层，还跳跃连接(skip connection)与所述3D注意力机制模型单元的输出相加，得到的和作为所述RAB的输出。

在本公开一示例性的实施例中，所述3D注意力机制模型单元采用3D卷积块注意力模型(3D-CBAM：3D Convolutional Block Attention Module)，如图4所示，该3D卷积块注意力模型包括3D通道注意力模块60和3D空间注意力模块70，所述3D注意力机制模型单元的输入送入所述3D通道注意力模块；所述3D通道注意力模块的输入与输出相乘得到的第一积作为所述3D空间注意力模块的输入，所述3D空间注意力模块的输出与所述第一积相乘得到的第二积，作为所述3D注意力机制模型单元的输出。

在一些技术中，注意力机制是在二维空间上设计的，本公开实施例的3D-CBAM在二维的基础上进行扩展，增加了一个深度维度，在每一次提取通道特征和空间特征时，考虑深度参数的变化。对于输入的3D特征图，3D-CBAM按照顺序推理通道注意力特征图和空间注意力特征图。

3D通道注意力模块实现时，可以将输入的特征图分别经过基于宽度、高度和深度上的最大值池化和均值池化后，输入共享多层感知机，然后分别进行基于对应元素的加和操作，再用sigmoid函数激活，生成初始的通道特征图，将初始的通道特征图与输入的特征图相乘，生成最终的通道特征图。

3D空间注意力模块实现时，可以将上述最终的通道特征图作为3D空间注意力模块的输入特征图，对其做基于通道的最大池化操作和均值池化操作，提取出的特征再进行基于通道的合并操作，然后通过卷积操作(如7×7卷积，3×3卷积等)将其降维成一个通道，再经过sigmoid函数激活生成空间注意力特征图。最后，将生成的空间注意力特征图和输入的所述最终的通道特征图相乘，得到3D-CBAM输出的特征图。

3D注意力机制在对特征提取时同时考虑空间和时间的变化，能够更加适应本公开实施例视频超分辨网络要达到的目的，更好的自适应学习。3D通道注意力模块更加关注哪些通道对最终的超分辨起到作用，选择出对预测起到决定性作用的特征。3D空间注意力模块则关注哪些像素位置会对网络的预测起到更重要的最用，联合使用这两种注意力机制模块可以最大限度的提高网络的学习能力，得到更好的时空超分辨结果。

在本公开一示例性的实施例中，请参见图3，所述重建部分30包括依次连接的以下单元：

用于融合特征的3D卷积单元，包括依次连接的3D卷积层和激活层(如图3中的Conv3D和PReLu)，所述用于融合特征的3D卷积单元的输入为所述第二特征；PReLu是带参数修正线性单元(Parametric Rectifier Linear Unit)。

用于实现特征的时空超分辨的3D转置卷积单元，包括依次连接的3D转置卷积层和激活层(如图5中的ConvTrans-3D和PReLu)，所述3D转置卷积单元的输入为所述用于融合特征的3D卷积单元的输出，3D转置卷积可以实现上采样的功能；及

用于生成视频帧序列的3D卷积层(如图5中的Conv3D)，输入为所述3D转置卷积单元的输出，输出为所述第二视频帧序列。

在本公开一示例性的实施例中，所述激活层使用的激活函数为PReLu，激活函数有很多种，此处也可以采用其他的激活函数。

本公开实施例上述生成网络的特点包括：采用3D卷积，可以同时提取到视频的时间和空间特征，特征提取更加准确，同时相对于分别对时间和空间信息提取的方法，也进一步减小了计算资源的消耗；该生成网络采用3D注意力机制，可以很好的将网络提取的特征集中，从而得到更好的重建结果；该生成网络可以采用数量可变的RAB块，网络结构更加灵活，可以根据计算资源自由选择数量，来适合不同场景的需求。

生成网络可以独立使用，作为视频超分辨网络来完成视频超分辨功能。而在本公开一示例性的实施例中，所述视频超分辨网络还包括判别网络，生成网络和判别网络组成的视频超分辨网络的总体架构如图2所示。所述判别网络训练时的输入为真实视频帧序列和生成网络生成的第二视频帧序列，分别作为输入判别网络的真样本和假样本。判断网络的输出为输入的视频帧序列为真实视频帧的概率。生成网络训练时作为输入数据的第一视频帧序列是对真实视频帧序列进行劣化得到。例如，可以通过对真实视频帧序列进行下采样、模糊处理，加入噪声、压缩编解码中的一种或多种处理得到作为训练集的第一视频帧序列。下采样的方式有多种，有线性方式，例如最近邻采样，双线性采样，Bicubic下采样，均值下采样等；也可以非线性方式，如神经网络下采样。可以设置多种下采样倍数以得到不同分辨率的第一视频帧序列，从而训练出多组网络参数，在使用时就可以根据需要灵活设置视频超分辨网络的网络参数以取得不同的超分辨效果。

本公开一实施例中，所述视频超分辨网络还包括：判别网络，设置为在训练时，以真实视频帧序列和所述生成网络训练时生成的所述第二视频帧序列为输入，从输入的视频帧序列中提取细节特征以及视频帧之间的运动信息特征，基于所述细节特征和运动信息特征确定输入的所述视频帧序列为真实视频帧序列的概率，其中，所述真实视频帧序列的分辨率与所述第二视频帧序的分辨率相同，所述生成网络训练时接收的所述第一视频帧序列通过对所述真实视频帧序列进行下采样而得到。

在本公开一示例性的实施例中，如图5所示，所述判别网络包括第一分支、第二分支、与所述第一分支和第二分支连接的信息融合单元，以及与所述信息融合单元连接的权重计算单元，其中：

第一分支40，设置为基于特征提取网络从输入的视频帧序列中提取细节特征，基于所述细节特征进行真伪判断；

第二分支50，设置为基于光流网络从输入的视频帧序列中提取视频帧之间的运动信息特征，基于所述运动信息特征进行真伪判断；

信息融合单元，设置为对所述第一分支和第二分支输出的真伪判断的结果进行融合；

权重计算单元，设置为根据所述信息融合单元输出的融合后的信息进行权重计算，得到输入的视频帧序列为真实视频帧序列的概率。

在本公开一示例性的实施例中，所述信息融合单元采用全连接层(如图5中的dense(1))实现；所述权重计算单元采用S形函数(如图5中的sigmod函数)实现。

在本公开一示例性的实施例中，所述第一分支40包括依次连接的以下单元：

2D卷积单元，包括依次连接的2D卷积层和激活层。如图5中的Conv_1和LeakyReLU；

多个2D卷积加归一化单元，所述2D卷积加归一化单元包括依次连接的2D卷积层、BN层和激活层，图5中的Conv_2层、BN层和LeakyReLU组成一个2D卷积加归一化单元，其他的2D卷积加归一化单元在图中分别用CBL_2至CBL_8表示。图5的示例中使用了7个CBL，但本公开不局限于此数量；BN层用于加快网络收敛速率。

全连接单元，包括依次连接的全连接层和激活层，如图5中的第一分支40中的Dense(1024)和LeakyReLU。

在本公开一示例性的实施例中，所述第二分支50包括依次连接的以下单元：

N个2D卷积加归一化单元，包括依次连接的2D卷积层、BN层和激活层，N≥2，如图5的第二分支示出了9个2D卷积加归一化单元，Conv1层、BN层和LeakyReLU组成第一个2D卷积加归一化单元，其他2D卷积加归一化单元表示为CBL2、CBL3、CBL3-1、CBL4、CBL4-1、CBL5、CBL5-1和CBL6；

M个2D反卷积单元，包括2D反卷积层和激活层，M≥2，图5中示出了4个2D反卷积单元，其中的2D反卷积层分别表示为DeConv5、DeConv4、DeConv3和DeConv2，激活层均为LeakyReLU；

全连接单元，包括依次连接的全连接层和激活层，如图5中的第二分支50中的Dense(1024)和LeakyReLU。

在本公开一示例性的实施例中，第2i个2D卷积加归一化单元的输出还连接到第M-i+1个2D反卷积单元的输入，1≤i≤M，N＝2M+1。在图5所示的示例中，N＝9，M＝4。其连接关系具体如图5所示，此种网络结构可实现对视频帧之间的运动信息特征的提取和真伪判断。

在本公开一示例性的实施例中，所述判别网络中的激活层使用的激活函数为带泄露修正线性单元LeakReLu。激活函数有很多种，此处也可以采用其他的激活函数。

在本公开一示例性的实施例中，图5所示的判别网络中，第一支路40中卷积层参数设置如下表所示：

Conv_1	Conv_2	Conv_3	Conv_4
K3 s1 n64	K3 s2 n64	K3 s1 n128	K3 s2 n128
Conv_5	Conv_6	Conv_7	Conv_8
K3 s1 n256	K3 s2 n256	K3 s1 n512	K3 s1 n512

其中，K表示卷积核(kernel)大小，s表示步长(stride)，n表示卷积核数量(number)。K3表示卷积核大小为3，s1表示步长为1，n64表示卷积核数量为64，依此类推，卷积核大小和步长的单位可以为像素。

第二支路50中卷积层参数设置如下：

Conv1	Conv2	Conv3	Conv3-1	Conv4
K7 s2 n64	K5 s2 n128	K3 s3 n256	K3 s1 n256	K3 s2 n512
Conv4-1	Conv5	Conv5-1	Conv6
K3 s1 n512	K3 s2 n512	K3 s1 n512	K3 s2 n1024
DeConv5	DeConv4	DeConv3	DeConv2
K4 s2 n512 p1	K4 s2 n256 p1	K4 s2 n128 p1	K4 s2 n64 p1

其中，K、s、n的含义同上表，p表示填充(padding)。

本公开实施例的判别网络采用两个判别准则，一是视频帧本身的特征，二是视频帧之间的运动信息。相应地，判别网络包括两个分支，整体为U型网络结构，其中一条分支用于提取输入视频帧序列的细节特征和判断，另一条分支用光流网络来获取输入视频帧序列的运动信息特征和判断。可以更准确地的识别出输入视频帧的真伪概率，即是真实视频帧序列还是超分辨率视频帧序列(即第二视频帧序列)。而相较于使用2D注意力机制，通过使用3D残差注意力机制能够更好的提取到不同维度上的有用特征，提高视频质量。

本公开实施例的视频超分辨网络可使用以下电路中的任意一种或者以下电路的任意组合来实现：一个或多个微处理器、数字信号处理器、专用集成电路、现场可编程门阵列、离散逻辑、硬件。如果部分地以软件来实施本公开，那么可将用于软件的指令存储在合适的非易失性计算机可读存储媒体中，且可使用一个或多个处理器在硬件中执行所述指令从而实施本公开方法。

本公开实施例基于生成对抗的视频时空超分辨网络，能够同时对视频的空间分辨率和时间分辨率进行提升，即在空间和时间上超分辨，包含多维特征信息。可以显著增强低分辨率视频帧序列的图像质量和帧率，使用一个网络同时实现了视频帧图像超分辨和帧率提升两种效果。此外，本公开实施例的视频时空超分辨网络将运动信息的利用放在了判别网络上，相较于在生成网络部分利用光流信息进行运动估计，能够进一步的利用真实视频的信息，来进一步提升整个网络的性能，提高视频超分的质量。

本公开的网络结构可以在上述实施例的基础上有所变化。例如，生成网络包含的RAB的个数可以进行适当的删减或增加，来满足不同场景不同计算能力的需求。

本公开一实施例还提供了一种对本公开实施例的视频超分辨网络的训练方法，包括以下过程：

数据预处理过程：

对作为样本的连续视频帧序列，选取该连续视频序列中的7帧，将整个视频裁剪成7×sH×sW大小的块状视频帧序列，作为训练集的高分辨率的真实视频帧序列(简称HR序列)，每个HR序列有7帧，每一HR视频帧的高度为sH，宽度为sW。可以对HR序列在时间和空间同时做下采样，得到块状的低分辨率视频帧序列(简称LR序列)5×H×W。训练时设置较小的H，W值，可以减小训练时间，增加数据集的复杂度。所有的训练数据进行归一化处理，使其像素值在(0，1)区间内，更好的用于网络的训练结果。通过上述处理，得到足够数量的LR序列和HR序列。

训练过程：

采用Kaiming初始化方法对网络中的各个参数初始化，学习速率r＝1e-4，使用Adam优化器优化网络参数。

将LR序列作为视频超分辨网络的输入数据，HR序列作为视频超分辨网络的目标数据，对生成网络进行训练。生成网络的输出为与HR序列大小相同的超分辨率视频帧序列(简称SR序列)。将SR序列(即假样本)与HR序列(即真样本)作为判别网络训练的输入数据送入判别网络，其中HR序列与SR序列各占50％，判别网络输出判定结果，即输入数据的真伪概率，也可以说是输入数据为HR序列的概率。

判别网络对SR序列和HR序列的判定结果用于计算判别网络的损失和生成网络的对抗损失，生成网络输出的SR序列与HR序列的均方误差(MSE：Mean Square Error)可以作为生成网络的损失函数。经过多次反复迭代，直至网络误差达到预先设定的允许误差，训练结束，保存网络模型结构参数，得到训练好的基于神经网络的视频超分辨网络模型。

在本公开一示例中，视频超分辨网络使用PyTorch平台(PyTorch平台是一个开源的Python机器学习库)在Nvidia GTX 1080Ti GPU上实现。实验的训练集和测试集均使用Vimeo-90K。在视频帧图像上实现了4倍超分辨，帧率提升了2倍。实验显示，残差注意力块(RAB：residual attention block)的块数对实验结果存在影响，RAB数量分别取3，7，9和12时，RAB数量为12时生成的SR视频帧的质量最好。而使用生成对抗网络相比于只使用生成网络，超分辩视频帧的质量更好。

视频编码端可能因为种种客观限制，无法提供高分辨率的视频。比如摄像机分辨率不够，网络带宽不足，源端资源不足等。基于深度学习的视频超分辨能较好的恢复图像细节。因而可以借助视频超分辨处理，对于视频质量做增强，呈现给用户高质量的视频，提升图像的主观视觉效果。

本公开一实施例提供了一种视频超分辨处理方法，如图6所示，包括：

步骤110，基于3D卷积从所述第一视频帧序列中提取第一特征；

步骤120，基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征；

步骤130，基于3D卷积和3D上采样实现所述第二特征的特征融合和特征的时空超分辨，及基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。

在本公开一示例性的实施例中，所述视频超分辨处理方法基于如本公开任一实施例所述的视频超分辨网络实现

在本公开一示例性的实施例中，所述第二视频帧序列的图像分辨率大于所述第一视频帧序列的图像分辨率，和/或，所述第二视频帧序列的视频第一视频帧序列的视频帧率。

视频超分辨可以用于视频压缩过程的各个环节，例如，用于解码端的视频后处理过程，用于编码端的视频预处理过程，也可以用于视频编码过程和视频解码过程。下面用几个示例分别加以说明。

第一种应用场景

一种处理方式是采用常规的视频编码方法但是加大压缩的力度如增大量化步长，以编码得到较低码率的视频帧序列，在解码端再通过视频超分辨提升视频质量。即将视频超分辨应用于视频解码中的后处理过程。如可以在视频播放设备中通过对解码器输出的已解码视频帧序列进行超分辨处理，提高重建视频帧的分辨率。

在本公开一示例性的实施例中，将视频超分辨应用于视频后处理时，图6所示的视频超分辨处理方法中的所述第一视频帧序列是对码流解码输出的已解码视频帧序列，所述视频超分辨处理用于提升所述已解码视频帧序列的分辨率。将视频超分辨应用于视频后处理时，可以用视频超分辨处理代替原有的后处理滤波器(post-filtering)，也可以保留原有的后处理滤波，增加视频超分辨处理。

图7A是该应用场景下视频解码端的结构框图。如图所示，包括：

视频解码器101，设置为对已编码视频码流(简称码流)进行解码，得到第一视频帧序列；

视频超分辨网络103，设置为对所述第一视频帧序列进行视频超分辨处理，得到分辨率大于所述第一视频帧序列的第二视频帧序列；

显示器105，设置为对所述第二视频帧序列进行显示和播放。

本实施例的视频解码器101可以采用如图7B所示的视频解码器。该视频解码器的结构可以用于H.264/AVC、H.265/HEVC、VVC/H.266及其他类似标准的视频解码。在其他实施例中，视频解码器101也可以采用其他类型的视频解码器，如端到端视频编解码技术中基于神经网络的视频解码器。

如图7B所示，视频解码器101包含熵解码单元150、预测处理单元152、反量化单元154、反变换处理单元156、重建单元158(图中用带加号的圆圈表示)、滤波器单元159，以及图片缓冲器160。在其它实施例中，视频解码器30可以包含更多、更少或不同的功能组件。

熵解码单元150可对接收的码流进行熵解码，提取语法元素、量化后的系数块和PU的运动信息等信息。预测处理单元152、反量化单元154、反变换处理单元156、重建单元158以及滤波器单元159均可基于从码流提取的语法元素来执行相应的操作。

作为执行重建操作的功能组件，反量化单元154可对量化后的TU关联的系数块进行反量化。反变换处理单元156可将一种或多种反变换应用于反量化后的系数块以便产生TU的重建残差块。

预测处理单元152包含帧间预测处理单元162和帧内预测处理单元164。如果PU使用帧内预测编码，帧内预测处理单元164可基于从码流解析出的语法元素确定PU的帧内预测模式，根据确定的帧内预测模式和从图片缓冲器件60获取的PU邻近的已重建参考信息执行帧内预测，产生PU的预测块。如果PU使用帧间预测编码，帧间预测处理单元162可基于PU的运动信息和相应的语法元素来确定PU的一个或多个参考块，基于所述参考块来产生PU的预测块。

重建单元158可基于TU关联的重建残差块和预测处理单元152产生的PU的预测块(即帧内预测数据或帧间预测数据)，得到CU的重建块。

滤波器单元159可对CU的重建块执行环路滤波，得到重建的图片。重建的图片存储在图片缓冲器160中。图片缓冲器160可提供参考图片以用于后续运动补偿、帧内预测、帧间预测等，也可将重建的视频数据作为已解码视频数据输出，在显示装置上的呈现。

上述显示器105例如可以是液晶显示器、等离子显示器、有机发光二极管显示器或其它类型的显示装置。在其他示例中，解码端也可以不包含显示器105，而是包含可应用解码后数据的其他装置。

本公开实施例可以用于解决视频压缩过程中产生的图像质量损失和视频帧率下降等问题。通过将视频超分辨网络应用于解码端的后处理，对解码输出的视频帧序列进行时空超分辨，可以提升视频图像的质量。为了符合解码端对帧率的要求，在后处理时也可以同时对帧率做提升，从而为用户呈现更高分辨率和更高帧率的高质量视频。

本实施例采用视频超分辨网络对解码后的视频帧序列进行质量增强，并不要求编码端在视频预处理时对视频帧序列下采样。

在本公开一示例性的实施例中，所述第一视频帧序列是对码流解码输出的已解码视频帧序列；所述视频超分辨处理方法还包括：从码流中解析出编码端发送的视频超分辨网络的网络参数信息，及，根据所述网络参数信息设置所述视频超分辨网络的网络参数。对于不同的已解码视频帧序列，可以为视频超分辨网络配置不同的网络参数如生成网络中RAB的个数等，以达到更好的超分辨效果。而合适的网络参数可以由编码端来产生并生并写入码流，解码端从码流中解析出所述网络参数并进行配置，可以取得更好的质量增强的效果。

第二种应用场景

在本公开一示例性的实施例中，将视频超分辨应用于视频预处理过程。如在视频采集设备的视频预处理模块，将采集到的原始视频帧序列输入本公开实施例的视频超分辨网络进行处理，得到分辨率更高、帧率更高的输出视频，再将该输出视频作为视频编码器的输入视频进行编码处理。

本实施例将视频超分辨应用于视频预处理时，图6所示的视频超分辨处理方法中的所述第一视频帧序列是视频采集设备采集到的原始视频帧序列，所述视频超分辨处理可以提升原始视频帧序列的分辨率。

第三种应用场景

自适应分辨率改变(ARC：Adaptive Resolution Change)允许视频帧序列根据网络状态传输不同分辨率的视频帧，当网络带宽低时传输低分辨率视频帧，带宽高时传输原始分辨率视频帧。在H.265和H.264中，当编码器在传输视频过程中想改变分辨率时需要插入一个满足新分辨率的即时解码刷新(IDR：Instantaneous Decoding Refresh)帧或类似的帧。但是传输IDR帧需要比较多的码率，对视频会议类的应用会引入延迟。如果不插入IDR帧则在帧间预测时当前帧和参考帧分辨率不同会带来问题。VP9(VP9是Google开发的开放的视频压缩标准)通过参考图像重采样(RPR：reference picture resampling)来解决这个问题，使得不同分辨率直接的图像可以进行帧间预测。RPR也已经写入多功能视频编码(VVC：Versatile Video Coding)标准中。根据RPR，当视频序列的分辨率改变时，为了能够进行运动补偿，需要对参考图像进行重采样，其中，基于图像的RPR将重采样前和重采样后的参考图像都放入已解码图片缓冲器(DBP：Decoded Picture Buffer)内，当运动补偿时在DPB中找对应分辨率的参考图像进行预测。

在本公开一示例性的实施例中，将视频超分辨应用于视频编码过程的RPR的处理，此时图6所示的视频超分辨处理方法中的所述第一视频帧序列是从视频编码器的DBP中获取的需要进行上采样的参考图像(可以是一帧或多帧参考图像，可以只提升图像分辨率)。所述视频超分辨处理可以实现对参考图像的上采样，得到图像分辨率更大的参考图像供帧间预测时选择。

图8A所示的视频编码器1000可以用于实现RPR，其包括图像分辨率调整单元1115，本公开实施例的超分辨网络可用于图像分辨率调整单元1115中，实现参考图像的上采样。

如图8A所示，视频编码器207包含预测处理单元1100、划分单元1101、残差产生单元1102、变换处理单元1104、量化单元1106、反量化单元1108、反变换处理单元1110、重建单元1112、滤波器单元1113、已解码图片缓冲器1114、图像分辨率调整单元1115，以及熵编码单元1116。预测处理单元1100包含帧间预测处理单元121和帧内预测处理单元1126。在其他实施例中，视频编码器20可以包含比该示例更多、更少或不同功能组件。

划分单元1101与预测处理单元1100配合将接收的视频数据划分为切片(Slice)、CTU或其它较大的单元。划分单元1101接收的视频数据可以是包括I帧、P帧或B帧等视频帧的视频序列。

预测处理单元1100可以将CTU划分为CU，对CU执行帧内预测编码或帧间预测编码。对CU做帧内预测和帧间预测时，可以将CU划分为一个或多个预测单元(PU：prediction unit)。

帧间预测处理单元1121可对PU执行帧间预测，产生PU的预测数据，所述预测数据包括PU的预测块、PU的运动信息和各种语法元素。

帧内预测处理单元1126可对PU执行帧内预测，产生PU的预测数据。PU的预测数据可包含PU的预测块和各种语法元素。

残差产生单元1102可基于CU的原始块减去CU划分的PU的预测块，产生CU的残差块。

变换处理单元1104可将CU划分为一个或多个变换单元(TU：Transform Unit)，TU关联的残差块是CU的残差块划分得到的子块。通过将一种或多种变换应用于TU关联的残差块来产生TU关联的系数块。

量化单元1106可基于选定的量化参数对系数块中的系数进行量化，通过调整QP值可以调整对系数块的量化程度。

反量化单元1108和反变换单元1110可分别将反量化和反变换应用于系数块，得到TU关联的重建残差块。

重建单元1112可将所述重建残差块和预测处理单元1100产生的预测块相加，产生CU的重建块。

滤波器单元1113对所述重建块执行环路滤波后，将其存储在已解码图片缓冲器1114中作为参考图像。帧内预测处理单元1126可以从已解码图片缓冲器1114中提取PU邻近的块的参考图像以执行帧内预测。帧间预测处理单元1121可使用已解码图片缓冲器1114缓存的上一帧的参考图像对当前帧图像的PU执行帧间预测。

图像分辨率调整单元1115对已解码图片缓冲器1114中存储的参考图像进行重采样，可以包括上采样和/或下采样，得到多种分辨率的参考图像保存在已解码图片缓冲器1114中。

熵编码单元1116可以对接收的数据(如语法元素、量化后的系统块、运动信息等)执行熵编码操作。

第四种应用场景

在视频编码端受到网络带宽不足，源端资源不足等因素影响时，还有一种处理方式是采用可分级视频编码的方式。可分级视频编码引入了基本层(BL：Base Layer)、增强层(EL：Enhance Layer)等概念，把对解码图像重要的信息(比特)放在有保障的信道中传输。这些重要信息的集合称为基本层。而把次要信息(比特)放在没有保障的信道中传输，这些数据信息的集合称为增强层。在解码端，增强层信息部分甚至全部丢失，解码器仍能从基本层的信息中恢复出可接受的图像质量。

可分级视频编码有多种类型，如空域可分级编码、时域可分级编码、频域可分级编码和质量可分级编码等。以空域可分级编码为例，空域可分级编码对视频中的每帧图像产生多个不同空间分辨率的图像，解码基本层码流得到的低分辨率的图像，如果同时加入增强层码流到解码器，得到的是高分辨率的图像。

一个示例性的可分级视频编码框架如图8B所示，该编码框架包括基本层、第一增强子层即L1层和第二增强子层即L2层。图中仅示出了编码架构中与上采样和下采样密切相关的部分。输入视频帧序列经第一下采样单元801和第二下采样单元803进行两次下采样后送入基本编码器805进行编码，输出已编码基本层码流，基本编码器805输出的基本层的重建视频帧在第一上采样单元807进行上采样，得到L1层的重建视频帧。第一减法器806用第一下采样单元801输出的L1层的原始视频帧减去该L1层的重建视频帧，得到L1层残差。L1层的重建视频帧和L1层的重建残差在加法器808相加后，再在第二上采样单元809上采样，得到L2层的重建视频帧。第二减法器810用输入视频帧序列减去该L2层的重建视频帧，得到L2层残差。可分级视频编码框架中也可以包括3个或更多的增强子层。

在本公开一示例性的实施例中，将视频超分辨应用于包括基本层和增强层的视频编码架构中，例如低复杂度增强视频编码(LCEVC：Low Complexity Enhancement Video Coding)的编码器中，用于编码侧的增强层数据的生成。具体地，可以使用本公开实施例的视频超分辨网络来实现可分级视频编码架构中的上采样单元。

本实施例将视频超分辨应用于可分级视频编码架构时，图6所示的视频超分辨处理方法中的所述第一视频帧序列是包括基本层和增强层的可分级视频编码架构中产生的基本层的重建(Reconstruction)视频帧序列或增强子层(如L1层)的重建视频帧序列，所述视频超分辨处理可以实现对所述重建视频帧序列的上采样，用于生成相应增强子层的残差，

第五种应用场景

在本公开一示例性的实施例中，将视频超分辨应用于包括基本层和增强层的可分级视频解码架构中。一个示例性的可分级视频解码架构如图8C所示，该解码架构包括基本层、第一增强子层即L1层和第二增强子层即L2层，但也可以包括一个增强子层或3个以上的增强子层。图中仅示出了解码架构中与上采样密切相关的部分。如图所示，基本解码器901输出的基本层的已解码视频帧序列经第一上采样单元903上采样得到初始中间图像(Preliminary Intermediate Picture)。初始中间图像和L1层的已解码数据在第一加法器904相加，得到L1层的组合中间图像(Combined Intermediate Picture)。组合中间图像在第二上采样单元905上采样后得到初始输出图像(Preliminary Output Picture)。初始输出图像和L2层的已解码数据在第二加法器906相加，得到输出视频帧序列。

本实施例将视频超分辨应用于包括基本层和增强层的视频解码架构中，例如LCEVC的解码器中，用于解码侧的增强层数据的生成。具体地，可以使用本公开实施例的视频超分辨网络来实现可分级视频解码架构中的上采样单元。本实施例将视频超分辨应用于可分级视频解码架构时，图6所示的视频超分辨处理方法中的所述第一视频帧序列是包括基本层和增强层的可分级视频解码架构中产生的基本层的已解码视频帧序列或增强子层的组合中间图像(可以是一幅或多幅图像)，所述视频超分辨处理可以实现对已解码视频帧序列的上采样，生成初始中间图像；或实现对组合中间图像的上采样，生成初始输出图像。

本公开一实施例中，视频编码端对视频编码之前，先根据当前情况确定是否进行下采样，如在带宽等资源不足时通过下采样减少编码的数据量，使码流量大大减少。视频解码端完成对码流的解码之后，再判断是否对解码后的视频帧序列进行超分辨。这些方式也可实现分级编码的类似效果，例如，当网络带宽较小的时候，只有下采样后编码得到的基本视频码流被传输，而在网络带宽较大时，不进行下采样，相当于传输增强的视频信息，以此得到自适应性，保证拥有网络连接的大部分终端都可以用适当的码流来传输多媒体信息。且这种方案优于编码端将视频帧直接编码成相同码率的图像、解码端再用超分辨网络对解码后的图像进行质量增强的方案。

本公开一实施例提供了一种视频编码处理方法，如图9所示，包括：

步骤210，进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样，如果是，执行步骤220，如果否，执行步骤230；

步骤220，在确定不进行下采样的情况下，将来自数据源的视频帧序列直接输入视频编码器进行视频编码，生成码流，结束；

步骤230，在确定进行下采样的情况下，对来自数据源的视频帧序列进行下采样，将经下采样后的视频帧序列输入视频编码器进行视频编码，生成码流。

本文中所称的视频编码处理包括视频预处理和视频编码。所述视频预处理可以包括下采样等处理。本文所称的视频解码处理包括视频解码和视频后处理，视频后处理可以包括本公开实施例的视频超分辨处理。

在本公开一示例性的实施例中，所述对来自数据源的视频帧序列进行下采样，包括：对来自数据源的视频帧序列的图像分辨率和/或视频帧率进行下采样。下采样时，可以根据带宽等因素选取合适的下采样倍数，使得编码后的码率与带宽相适应。

在本公开一示例性的实施例中，所述视频编码处理方法还包括：进行视频编码时，将一下采样标志写入码流，所述下采样标志用于指示编码端对来自数据源的所述视频帧序列的预处理是否包括下采样。

如果编码端对来自数据源的所述视频帧序列做预处理时进行过下采样，而视频超分辨网络是基于真实视频帧序列和对真实视频帧序列下采样得到的第一视频帧序列训练得到的，那么编码端对来自数据源的视频帧进行下采样再进行压缩编码生成码流，解码端对码流解码重建第一视频帧序列后，解码端使用所述视频超分辨网络对重建的第一视频帧序列进行视频超分辨处理，其对视频质量的提升是显著的。因为此时视频超分辨网络的应用场景与训练场景是相似的，都是用于恢复下采样后的视频帧的分辨率。而如果编码端不对视频帧进行下采样，那么即使解码后的视频质量达不到要求，在解码端使用按上述方式训练的视频超分辨网络对已解码视频帧序列进行质量增强，其对视频质量的提升效果是有限的或没有效果。因此编码端生成上述下采样标志并写入码流，使得解码端可以根据该下采样标志确定是否进行视频超分辨处理或者根据该下采样标志和其他条件共同确定是否进行视频超分辨处理，有利于解码端合理地做出是否进行视频超分辨处理的判决。

在本公开一示例性的实施例中，所述确定是否对来自数据源的视频帧序列进行下采样，包括：在满足以下条件中的任一种时，确定对来自数据源的视频帧序列进行下采样：

可用于传输视频码流的带宽小于不进行下采样时传输视频码流所需的带宽：

编码端的资源不支持对来自数据源的视频帧序列直接进行视频编码；

所述来自数据源的视频帧序列属于指定的需要进行下采样的视频帧序列。

虽然此处列出了需要对来自数据源的视频帧序列进行下采样的几种情况，但这仅仅是示意性的，完全可能存在其他需要对视频帧序列进行下采样的情况。本公开对此不加以局限。

在本公开一示例性的实施例中，所述视频编码处理方法还包括：进行视频编码时，获取来自数据源的所述视频帧序列对应的视频超分辨网络的网络参数，将所述网络参数写入码流。例如，对某一视频资源，可以由编码端预先根据所述视频资源制作训练用的样本，对视频超分辨网络进行训练，从而得到该视频资源对应的视频超分辨网络的网络参数，然后可以将所述网络参数与所述视频资源保存在一起，在对所述视频资源进行视频编码时，读取所述网络参数并编码写入码流。这样解码端可以解析出所述网络参数，使用所述网络参数配置视频超分辨网络，取得预期的质量增强效果。

本实施例视频编码处理方法可以根据带宽等情况，确定对视频帧进行预处理时是否进行下采样，使得编码端可以自适应地选择一种合适的编码处理方法来适应网络环境、编码资源等变化。

本公开一实施例还提供了一种视频解码处理方法，如图10所示，包括：

步骤310，对码流进行解码，得到第一视频帧序列；

步骤320，判断所述第一视频帧序列是否满足设定的超分辨条件，如果是，执行步骤330，如果否，执行步骤340；

步骤330，在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理，得到第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率；

步骤340，在不满足设定的超分辨条件的情况下，跳过对所述第一视频帧序列的视频超分辨处理。

在跳过视频超分辨处理，或者进行视频超分辨处理得到第二视频帧序列之后，可以进行后续的解码后处理过程，或者进行视频的显示、播放。

在本实施例的一个示例中，所述视频超分辨网络采用本公开任一实施例所述的视频超分辨网络。但在本实施例的其他示例中，也可以采用其他的视频超分辨网络来进行本实施例的视频超分辨处理。

在本实施例的一个示例中，所述视频超分辨网络包括生成网络，所述生成网络训练时，以作为样本的第一视频帧序列为输入数据，以真实视频帧序列为目标数据，其中，所述真实视频帧序列的分辨率和所述第二视频帧序列的分辨率相同，作为样本的所述第一视频帧序列通过对所述真实视频帧序列进行下采样而得到的。本文中，生成网络训练时的输入是作为样本的第一视频帧序列，生成网络训练好之后使用时的输入可以是解码得到的第一视频帧序列(还可以是来自数据源的第一视频帧序列等)，作为样本的第一视频帧序列和解码得到的第一视频帧序列的分辨率相同，内容可以不同。对真实视频帧序列进行下采样得到第一视频帧序列的过程中，也可以进行除下采样之外的其他处理，如在下采样之后还进行压缩编码和解码等处理。按照本示例训练的视频超分辨网络，适合于将经过下采样后再进行压缩编码和解码的低分辨率视频帧序列恢复为高分辨率视频帧序列。

在本公开一示例性的实施例中，所述对码流进行解码，还得到一下采样标志，所述下采样标志用于指示编码端对所述第一视频帧序列的预处理是否包括下采样；所述设定的超分辨条件至少包括：所述下采样标志指示编码端对所述第一视频帧序列的预处理包括下采样。在一个示例中，在所述下采样标志指示编码端对所述第一视频帧序列的预处理不包括下采样的情况下，可以确定跳过对所述第一视频帧序列的视频超分辨处理。下采样标志本身用于指示编码端对视频帧的预处理是否包括下采样，此处的下采样标志可用于指示编码端对所述第一视频帧序列的预处理包括下采样，意味着该下采样标志与第一视频帧序列相关，例如属于同一编码单元。

如上文所述，在视频超分辨网络使用经下采样得到的训练样本的情况下，下采样标志可以帮助解码端确定编码端在视频预处理时是否进行过下采样，从而更好地判断是否要进行视频超分辨处理，单纯地根据解码后视频质量，在该视频质量达不到某个固定的阈值时就进行视频超分辨，在该视频质量达到该阈值时就不进行视频超分辨，不考虑视频超分辨的预期效果，是比较机械的，有局限性。如果编码端进行过下采样而解码后的视频质量刚好达到阈值，此时也是可以进行视频超分辨以提高视频质量。如果编码端没有进行过下采样，由于其他因素如摄像机本身的分辨率差，传输路径上的噪声大等，使得解码后的视频质量达不到阈值，此时也可以不进行视频超分辨。

在本公开一示例性的实施例中，所述设定的超分辨条件包括以下条件中的一种或任意组合：

所述第一视频帧序列的图像质量低于设定的质量要求；

编码端对所述第一视频帧序列的预处理包括下采样；

解码端的视频超分辨功能处于可用状态；

在所述第一视频帧序列不满足设定的超分辨条件的情况下，跳过对所述第一视频帧序列的超分辨处理。

上述列举的超分辩条件可以组合使用，例如，在第一视频帧序列的图像质量低于设定的质量要求、编码端对所述第一视频帧序列序列进行下采样，且解码端的视频超分辨功能处于可用状态时，再判定执行对第一视频帧序列的超分辨处理。但这里的条件并不是穷举，可能还存在其他条件。上述质量要求可以用设定的峰值信噪比(PSNR Peak Signal to Noise Ratio)、结构相似性(SSIM：Structural Similarity)，均方误差(MSE：Mean Square Error)等评价指标来表示。

本实施例将视频超分辨网络应用于视频处理的流程中。在压缩编码前将视频在空间和时间上下采样，大大降低了需要编码的视频数据量；在解码后用所训练的视频超分辨网络进行相对应的上采样，恢复出原有视频。总体上明显降低码率，大大提高编码效率，减少传输码流。

本公开一实施例还提供了一种视频编解码系统，如图11所示，包括编码端设备和解码端设备。

编码端设备包括数据源201和视频编码处理装置200，数据源201可以是视频捕获装置(例如，摄像机)、含有先前捕获的数据的存档、用以从内容提供者接收数据的馈入接口，用于产生数据的计算机图形系统，或这些来源的组合。视频编码处理装置200可使用以下电路中的任意一种或者以下电路的任意组合来实现：一个或多个微处理器、数字信号处理器、专用集成电路、现场可编程门阵列、离散逻辑、硬件。如果部分地以软件来实施本公开，那么可将用于软件的指令存储在合适的非易失性计算机可读存储媒体中，且可使用一个或多个处理器在硬件中执行所述指令从而实施本公开方法。视频编码处理装置200可以基于上述电路实现本公开任一实施例所述的视频编码处理方法。

如图11所示，视频编码处理装置200包括：

下采样判决装置203，设置为进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样，在确定进行下采样的情况下，将来自数据源的所述视频帧序列输出到下采样装置，在确定不进行下采样的情况下，将来自数据源的所述视频帧序列直接输出到视频编码器进行视频编码；

下采样装置205，设置为对输入的视频帧序列进行下采样，将下采样后的视频帧序列输出到视频编码器进行编码；

视频编码器207，设置为对来自数据源的所述视频帧序列或者下采样后的所述视频帧序列进行视频编码。

在本公开一示例性的实施例中，所述下采样判决装置203确定是否对来自数据源的视频帧序列进行下采样，包括：在满足以下条件中的任一种时，确定对来自数据源的视频帧序列进行下采样：

在本公开一示例性的实施例中，所述下采样装置205对来自数据源的视频帧序列进行下采样，包括：对来自数据源的视频帧序列的图像分辨率和/或视频帧率进行下采样。

在本公开一示例性的实施例中，所述下采样判决装置203还设置为生成下采样标志并输出到所述视频编码器207，所述下采样标志用于指示编码端对来自数据源的所述视频帧序列的预处理是否包括下采样；所述视频编码器207还设置为在进行视频编码时，将所述下采样标志写入码流。此处的下采样标志可用于指示编码端对来自数据源的所述视频帧序列的预处理包括下采样，表示此处的下采样标志与来自数据源的所述视频帧序列相关，如属于同一编码单元。

如图11所示，解码端设备包括视频解码处理装置300和显示器307，显示器307可以是液晶显示器、等离子显示器、有机发光二极管显示器或其它类型的显示装置。视频解码处理装置300可使用以下电路中的任意一种或者以下电路的任意组合来实现：一个或多个微处理器、数字信号处理器、专用集成电路、现场可编程门阵列、离散逻辑、硬件。如果部分地以软件来实施本公开，可将用于软件的指令存储在合适的非易失性计算机可读存储媒体中，且可使用一个或多个处理器在硬件中执行所述指令从而实施本公开方法。视频解码处理装置300可以基于上述电路实现本公开任一实施例所述的视频解码处理方法。

视频解码处理装置300又包括：

视频解码器301，设置为对码流进行解码，得到第一视频帧序列；

超分辨判决装置303，设置为判断所述第一视频帧序列是否满足设定的超分辨条件，在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理；在不满足设定的超分辨条件的情况下，确定跳过对所述第一视频帧序列的视频超分辨处理；

视频超分辨网络305，设置为对所述第一视频帧序列进行视频超分辨处理，得到分辨率大于所述第一视频帧序列的第二视频帧序列；

在本公开一示例性实施例中，所述视频超分辨网络采用如本公开任一实施例所述的的视频超分辨网络。

在本公开一示例性实施例中，所述视频超分辨网络中的生成网络训练时以作为样本的第一视频帧序列为输入数据，以真实视频帧序列为目标数据，作为样本的所述第一视频帧序列是对所述真实视频帧序列进行下采样而得到的。如此训练的视频超分辨网络，适合于将经过下采样、压缩编码和解码后的低分辨率视频帧序列恢复为高分辨率视频帧序列，具有良好的质量增强效果。

在本公开一示例性实施例中，所述视频解码器对码流进行解码，还从码流中提取一下采样标志，所述下采样标志用于指示编码端对所述第一视频帧序列的预处理是否包括下采样；所述超分辨判决装置使用的所述超分辨条件至少包括：所述下采样标志指示编码端对所述第一视频帧序列的预处理包括下采样；在一个示例中，所述超分辨判决装置在所述下采样标志指示编码端对所述第一视频帧序列的预处理不包括下采样的情况下，可以确定不对所述第一视频帧序列进行超分辨处理。

在本公开一示例性实施例中，所述超分辨判决装置使用的所述设定的超分辨条件包括以下条件中的一种或任意组合：

所述第一视频帧序列的图像质量低于设定的质量要求；

编码端对所述第一视频帧序列的预处理包括下采样；

解码端的视频超分辨功能处于可用状态；

所述超分辨判决装置在所述第一视频帧序列不满足设定的超分辨条件的情况下，可以确定跳过对所述第一视频帧序列的视频超分辨处理。

基于本公开实施例的视频编解码系统，编码端在视频预处理阶段，根据目前所检测到的带宽环境等因素，判断是否需要对视频帧序列下采样，如需要(例如带宽不足时)，则选择相应的下采样倍数，对视频帧序列的空间分辨率和/或时间分辨率进行下采样，再编码成码流传输；而在解码端用对应的解码器解码，解码后的视频帧质量不高，可送入视频超分辨网络进行质量的提升，得到具有所需的空间分辨率和时间分辨率的视频。当带宽变大时，编码端可以直接将来自数据源的视频帧序列编码成码流传输，解码端可以直接解码获得高质量视频，此时不进行视频超分辨。无论编码端是否进行下采样，均可使用相同的视频编码器进行编码，编码运算相对简单，资源占用少。

本公开一实施例还提供了一种视频编码处理装置，如图12所示，包括处理器5以及存储有可在所述处理器5上运行的计算机程序的存储器6，其中，所述处理器5执行所述计算机程序时实现如本公开任一实施例所述的视频编码处理方法。

本公开一实施例还提供了一种视频解码处理装置，可参见图12，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如本公开任一实施例所述的视频解码处理方法。

本公开一实施例还提供了一种视频超分辨处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现本公开任一实施例所述的视频超分辨处理方法。

本公开一实施例还提供了一种视频编解码系统，包括如本公开任一实施例所述的视频编码处理装置和本公开任一实施例所述的视频解码处理装置。

本公开一实施例还提供了一种码流，其中，所述码流包括根据本公开实施例所述的视频编码处理方法生成，所述码流中包含下采样标志。

本公开一实施例还提供了一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序时被处理器执行时实现如本公开任一实施例所述的视频编码处理方法或视频解码处理方法。

在一个或多个示例性实施例中，所描述的功能可以硬件、软件、固件或其任一组合来实施。如果以软件实施，那么功能可作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质传输，且由基于硬件的处理单元执行。计算机可读介质可包含对应于例如数据存储介质等有形介质的计算机可读存储介质，或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何介质的通信介质。以此方式，计算机可读介质通常可对应于非暂时性的有形计算机可读存储介质或例如信号或载波等通信介质。数据存储介质可为可由一个或多个计算机或者一个或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包含计算机可读介质。

举例来说且并非限制，此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机存取的任何其它介质。而且，还可以将任何连接称作计算机可读介质举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令，则同轴电缆、光纤电缆、双纹线、DSL或例如红外线、无线电及微波等无线技术包含于介质的定义中。然而应了解，计算机可读存储介质和数据存储介质不包含连接、载波、信号或其它瞬时(瞬态)介质，而是针对非瞬时有形存储介质。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘或蓝光光盘等，其中磁盘通常以磁性方式再生数据，而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读介质的范围内。

可由例如一个或多个数字信号理器(DSP)、通用微处理器、专用集成电路(ASIC)现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器来执行指令。因此，如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文描述的功能性可提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入在组合式编解码器中。并且，可将所述技术完全实施于一个或多个电路或逻辑元件中。

本公开实施例的技术方案可在广泛多种装置或设备中实施，包含无线手机、集成电路(IC)或一组IC(例如，芯片组)。本公开实施例中描各种组件、模块或单元以强调经配置以执行所描述的技术的装置的功能方面，但不一定需要通过不同硬件单元来实现。而是，如上所述，各种单元可在编解码器硬件单元中组合或由互操作硬件单元(包含如上所述的一个或多个处理器)的集合结合合适软件和/或固件来提供。

Claims

一种视频超分辨网络，包括生成网络，其中，所述生成网络包括依次连接的第一特征提取部分、第二特征提取部分和重建部分，其中：

所述第一特征提取部分设置为接收第一视频帧序列，基于3D卷积从所述第一视频帧序列中提取第一特征并输出；

所述第二特征提取部分，设置为接收所述第一特征，基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征并输出；

所述重建部分设置为接收所述第二特征，基于3D卷积和3D上采样实现特征融合和特征的时空超分辨，及基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。
根据权利要求1所述的视频超分辨网络，其中：

所述第一特征提取部分包括依次连接的3D卷积层和激活层，所述3D卷积层的输入为所述第一视频帧序列，所述激活层的输出为所述第一特征。
根据权利要求1所述的视频超分辨网络，其中：

所述第二特征提取部分包括依次连接的多个残差注意力块RAB，第一个RAB的输入为所述第一特征，除第一个RAB之外的其他RAB的输入为前一RAB的输出，最后一个RAB的输出为所述第二特征；所述RAB包括依次连接的3D卷积层、激活层和3D注意力机制模型单元，所述RAB的输入送入所述3D卷积层，还跳跃连接与3D注意力机制模型单元的输出相加，得到的和作为所述RAB的输出。
根据权利要求3所述的视频超分辨网络，其中：

所述3D注意力机制模型单元为3D卷积块注意力模型，所述3D卷积块注意力模型包括依次连接的3D通道注意力模块和3D空间注意力模块，所述3D注意力机制模型单元的输入送入所述3D通道注意力模块，所述3D通道注意力模块的输入与输出相乘得到的第一乘积作为所述3D空间注意力模块的输入，所述3D空间注意力模块的输出与所述第一乘积相乘得到的第二乘积，作为所述3D注意力机制模型单元的输出。
根据权利要求1所述的视频超分辨网络，其中：

所述重建部分包括依次连接的以下单元：

用于融合特征的3D卷积单元，包括依次连接的3D卷积层和激活层，所述用于融合特征的3D卷积单元的输入为所述第二特征；

用于实现特征的时空超分辨的3D转置卷积单元，包括依次连接的3D转置卷积层和激活层，所述3D转置卷积单元的输入为所述用于融合特征的3D卷积单元的输出；及

用于生成视频帧序列的3D卷积层，输入为所述3D转置卷积单元的输出，输出为所述第二视频帧序列；

其中，所述第二视频帧序列的图像分辨率大于所述第一视频帧序列的图像分辨率，和/或，所述第二视频帧序列的视频第一视频帧序列的视频帧率。
根据权利要求2至5中任一项的视频超分辨网络，其中：

所述激活层使用的激活函数为带参数修正线性单元PReLu。
根据权利要求1所述的视频超分辨网络，其中：

所述视频超分辨网络还包括：判别网络，设置为在训练时，以真实视频帧序列和所述生成网络训练时生成的所述第二视频帧序列为输入，从输入的视频帧序列中提取细节特征以及视频帧之间的运动信息特征，基于所述细节特征和运动信息特征确定输入的所述视频帧序列为真实视频帧序列的概率，其中，所述真实视频帧序列的分辨率与所述第二视频帧序的分辨率相同，所述生成网络训练时接收的所述第一视频帧序列通过对所述真实视频帧序列进行下采样而得到。
根据权利要求7所述的视频超分辨网络，其中：

所述判别网络包括第一分支、第二分支、与所述第一分支和第二分支连接的信息融合单元，以及与所述信息融合单元连接的权重计算单元，其中：

所述第一分支设置为基于特征提取网络从输入的视频帧序列中提取细节特征，基于所述细节特征进行真伪判断；

所述第二分支设置为基于光流网络从输入的视频帧序列中提取视频帧之间的运动信息特征，基于所述运动信息特征进行真伪判断；

所述信息融合单元设置为对所述第一分支和第二分支输出的真伪判断的结果进行融合；

所述权重计算单元设置为根据所述信息融合单元输出的融合后的信息进行权重计算，得到输入的视频帧序列为真实视频帧序列的概率。
根据权利要求8所述的视频超分辨网络，其中：

所述信息融合单元采用全连接层实现；

所述权重计算单元采用S形函数实现。
根据权利要求8所述的视频超分辨网络，其中：

所述第一分支包括依次连接的以下单元：

2D卷积单元，包括依次连接的2D卷积层和激活层；

多个2D卷积加归一化单元，所述2D卷积加归一化单元包括依次连接的2D卷积层、批量归一化BN层和激活层；

全连接单元，包括依次连接的全连接层和激活层。
根据权利要求8所述的视频超分辨网络，其中：

所述第二分支包括依次连接的以下单元：

N个2D卷积加归一化单元，包括依次连接的2D卷积层、BN层和激活层，N≥2；

M个2D反卷积单元，包括2D反卷积层和激活层，M≥2；

全连接单元，包括依次连接的全连接层和激活层。
根据权利要求11所述的视频超分辨网络，其中：

第2i个2D卷积加归一化单元的输出还连接到第M-i+1个2D反卷积单元的输入，1≤i≤M，N＝2M+1。
根据权利要求10或11所述的视频超分辨网络，其中：

所述激活层使用的激活函数为带泄露修正线性单元LeakReLu。
一种视频超分辨处理方法，包括：

基于3D卷积从所述第一视频帧序列中提取第一特征；

基于3D残差注意力机制从所述第一特征中提取时间和/或空间上的第二特征；

基于3D卷积和3D上采样实现所述第二特征的特征融合和特征的时空超分辨；及，基于3D卷积重建视频帧序列，生成第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。
根据权利要求14所述的视频超分辨处理方法，其中：

所述视频超分辨处理方法基于如权利要求1至13中任一项所述的视频超分辨网络实现。
根据权利要求14所述的视频超分辨处理方法，其中：

所述第一视频帧序列是对码流解码输出的已解码视频帧序列；或者

所述第一视频帧序列是视频采集设备采集到的原始视频帧序列；或者

所述第一视频帧序列是从视频编码器的已解码图片缓冲器中获取的需要进行上采样的参考图像；或者

所述第一视频帧序列是包括基本层和增强层的可分级视频编码架构中产生的基本层的重建视频帧序列或增强子层的重建视频帧序列；或者

所述第一视频帧序列是包括基本层和增强层的可分级视频解码架构中产生的基本层的已解码视频帧序列或增强子层的组合中间图像。
根据权利要求14或15所述的视频超分辨处理方法，其中：

所述第一视频帧序列是对码流解码输出的已解码视频帧序列；

所述视频超分辨处理方法还包括：从码流中解析出编码端发送的视频超分辨网络的网络参数信息，及，根据所述网络参数信息设置所述视频超分辨网络的网络参数。
一种视频解码方法，包括：

对码流进行解码，得到第一视频帧序列；

判断所述第一视频帧序列是否满足设定的超分辨条件；

在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理，得到第二视频帧序列，所述第二视频帧序列的分辨率大于所述第一视频帧序列的分辨率。
根据权利要求18所述的视频解码处理方法，其中：

所述视频超分辨网络采用如权利要求1至13中任一项所述的视频超分辨网络。
根据权利要求18所述的视频解码处理方法，其中：

所述视频超分辨网络包括生成网络，所述生成网络训练时，以作为样本的第一视频帧序列为输入数据，以真实视频帧序列为目标数据，其中，所述真实视频帧序列的分辨率和所述第二视频帧序列的分辨率相同，作为样本的所述第一视频帧序列通过对所述真实视频帧序列进行下采样而得到的。
根据权利要求18或19或20所述的视频解码处理方法，其中：

所述对码流进行解码，还得到一下采样标志，所述下采样标志用于指示编码端对所述第一视频帧序列的预处理是否包括下采样；

所述设定的超分辨条件至少包括：所述下采样标志指示编码端对所述第一视频帧序列的预处理包括下采样。
根据权利要求18所述的视频解码处理方法，其中：

所述设定的超分辨条件包括以下条件中的一种或任意组合：所述第一视频帧序列的图像质量低于设定的质量要求；编码端对所述第一视频帧序列的预处理包括下采样；及，解码端的视频超分辨功能处于可用状态；

在所述第一视频帧序列不满足设定的超分辨条件的情况下，跳过对所述第一视频帧序列的超分辨处理。
一种视频编码处理方法，包括：

进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样；

在确定不进行下采样的情况下，将来自数据源的所述视频帧序列直接输入视频编码器进行视频编码；

在确定进行下采样的情况下，对来自数据源的所述视频帧序列进行下采样，将下采样后的视频帧序列输入视频编码器进行视频编码。
根据权利要求23所述的视频编码处理方法，其中：

所述视频编码处理方法还包括：

进行视频编码时，将一下采样标志写入码流，所述下采样标志用于指示编码端对来自数据源的所述视频帧序列的预处理是否包括下采样。
根据权利要求23所述的视频编码处理方法，其中：

所述确定是否对来自数据源的视频帧序列进行下采样，包括：在满足以下条件中的任一种时，确定对来自数据源的视频帧序列进行下采样：

可用于传输视频码流的带宽小于不进行下采样时传输视频码流所需的带宽：

编码端的资源不支持对来自数据源的视频帧序列直接进行视频编码；

所述来自数据源的视频帧序列属于指定的需要进行下采样的视频帧序列。
根据权利要求23或24或25所述的视频编码处理方法，其中：

所述视频编码处理方法还包括：

进行视频编码时，获取来自数据源的所述视频帧序列对应的视频超分辨网络的网络参数，将所述网络参数写入码流。
一种视频超分辨处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如权利要求14至17中任一所述的视频超分辨处理方法。
一种视频解码处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如权利要求18至22中任一所述的视频解码处理方法。
一种视频解码处理装置，包括：

视频解码器，设置为对码流进行解码，得到第一视频帧序列；

超分辨判决装置，设置为判断所述第一视频帧序列是否满足设定的超分辨条件，在满足设定的超分辨条件的情况下，将所述第一视频帧序列输出到视频超分辨网络进行视频超分辨处理；在不满足设定的超分辨条件的情况下，确定跳过对所述第一视频帧序列的视频超分辨处理；

视频超分辨网络，设置为对所述第一视频帧序列进行视频超分辨处理，得到分辨率大于所述第一视频帧序列的第二视频帧序列。
根据权利要求29所述的视频解码处理装置，其中：

所述视频解码器对码流进行解码时，还从码流中提取一下采样标志，所述下采样标志用于指示编码端对所述第一视频帧序列的预处理是否包括下采样；

所述超分辨判决装置使用的所述超分辨条件至少包括：所述下采样标志指示编码端对所述第一视频帧序列的预处理包括下采样。
一种视频编码处理装置，包括处理器以及存储有可在所述处理器上运行的计算机程序的存储器，其中，所述处理器执行所述计算机程序时实现如权利要求23至26中任一所述的视频编码处理方法。
一种视频编码处理装置，其中，包括：

下采样判决模块，设置为进行视频预处理时确定是否对来自数据源的视频帧序列进行下采样，在确定进行下采样的情况下，将来自数据源的所述视频帧序列输出到下采样装置，在确定不进行下采样的情况下，将来自数据源的所述视频帧序列直接输出到视频编码器进行编码；

下采样装置，设置为对输入的视频帧序列进行下采样，将下采样后的视频帧序列输出到视频编码器进行编码；

视频编码器，设置为对来自数据源的所述视频帧序列或者下采样后的所述视频帧序列进行视频编码。
根据权利要求32所述的视频编码处理装置，其中：

所述下采样判决装置还设置为生成下采样标志并输出到所述视频编码器，所述下采样标志用于指示编码端对来自数据源的所述视频帧序列的预处理是否包括下采样；

所述视频编码器还设置为在进行视频编码时，将所述下采样标志写入码流。
一种视频编解码系统，包括如权利要求31至33中任一所述的视频编码处理装置和如权利要求28至30中任一所述的视频解码处理装置。
一种码流，其中，所述码流包括根据如权利要求24所述的视频编码处理方法生成，所述码流中包含所述下采样标志；或者，所述码流包括根据如权利要求26所述的视频编码处理方法生成，所述码流中包含所述网络参数。
一种非瞬态计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序时被处理器执行时实现如权利要求14至26中任一所述的方法。