WO2024001887A1

WO2024001887A1 - 视频图像的处理方法、装置、电子设备和存储介质

Info

Publication number: WO2024001887A1
Application number: PCT/CN2023/101498
Authority: WO
Inventors: 陈杰; 易自尧; 徐科; 孔德辉
Original assignee: 深圳市中兴微电子技术有限公司
Priority date: 2022-06-30
Filing date: 2023-06-20
Publication date: 2024-01-04
Also published as: CN117395423A

Abstract

本申请提出一种视频图像的处理方法、装置、电子设备和存储介质，涉及视频图像处理技术领域。该方法包括：将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息；将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。

Description

视频图像的处理方法、装置、电子设备和存储介质

相关申请的交叉引用

本申请要求于2022年6月30日提交的名称为“视频图像的处理方法、装置、电子设备和存储介质”的中国专利申请CN 202210770276.2的优先权，其全部内容通过引用并入本文中。

技术领域

本申请涉及视频图像处理技术领域，具体涉及一种视频图像的处理方法、装置、电子设备和存储介质。

背景技术

目前，在视频编码领域中，为了获得较好的视频质量，需要对视频数据进行不同模式的分块，并对不同帧的视频数据进行压缩处理，以保证不同的应用需求。

但是，在对视频数据进行编码和分块的处理过程中，需要递归遍历所有可能的划分方式，并选择其中失真代价最小的处理模式对视频数据进行处理，在对视频数据中的不同区域进行划分后，通常还会根据位置信息对不同的宏块(如，32*32等)进行简单的划分，易导致对视频中的物体的运动估计不准确，且对应的运动补偿不能满足图像的使用需求的问题。

上述处理过程虽然提升了视频压缩率，但极大地增加了计算复杂度，延长了对视频文件的处理时长，无法满足用户对视频文件的处理实时性需求。

发明内容

本申请提供一种视频图像的处理方法、装置、电子设备和存储介质。

本申请实施例提供一种视频图像的处理方法，包括：将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息，其中，多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络；将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。

本申请实施例提供一种视频图像的处理装置，包括：运动估计模块，被配置为将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息，其中，多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络；编码模块，被配置为将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。

本申请实施例提供一种电子设备，包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请的视频图像的处理方法。

本申请实施例提供了一种可读存储介质，该可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本申请的视频图像的处理方法。

关于本申请的以上实施例和其他方面以及其实现方式，在附图说明、具体实施方式和权利要求中提供更多说明。

附图说明

图1示出根据本申请的视频图像的处理方法的流程示意图。

图2示出根据本申请的视频图像的处理系统的方框示意图。

图3示出根据本申请的基于金字塔图像确定的多尺度光流运动估计网络的结构示意图。

图4示出根据本申请的多尺度光流运动估计网络的训练流程示意图。

图5示出根据本申请的视频图像的处理方法的另一流程示意图。

图6示出根据本申请的视频图像的处理装置的组成方框图。

图7示出根据本申请的实现视频图像的处理方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在高效率视频编码(High Efficiency Video Coding，HEVC)协议或(Versati le Video Coding，VVC)协议中，通常会采用编码树单元(Coding Tree Unit，CTU)作为基本的处理结构，CTU可以进一步划分为编码单元(Code Unit，CU)。在帧内预测或帧间预测的过程中，CTU和CU也可以划分为多个预测单元(Prediction Unit，PU)，各个PU之间共享工作参数(如，编码模式等)。在HEVC协议中，CU可使用四叉树的形式来表示其内部结构。

HEVC协议和VVC协议支持的单元划分方式包括：无分区、四元分区、两个二元分区和两个三元分区(例如，CU的1/4、2/4、1/4水平或垂直分区)。VVC协议中，还引入了64个几何PU分区方式，以允许在矩形CU或方形CU中进行非水平或非垂直的分割。64个几何分区中的每个分区都由指向其参数(例如，角度和/或距离等)的索引值表示。几何PU分区方式不能应用于宽度(或高度)大于64，或宽度(或高度)小于8的CU。VVC协议还包括：内部子分区(Intra Sub-Partitions，ISP)的特定分区模式。多种分区方式能够带来更高的分区灵活性。

在相同视频质量的前提下，采用多功能视频编码VVC协议实现的帧内编码，能够将图像的压缩效率提升约50％，但是，在进行编码块的压缩过程中，VVC协议通常采用四叉树、三叉树和二叉树相结合的块划分模式。在块划分的整个过程中，需要递归遍历所有可能的划分方式，并选择其中率失真代价最小的划分模式作为目标划分模式，这极大地增加了计算复杂度，延长了对视频文件的处理时长，使得图像压缩的速率降低，无法满足用户对视频文件的处理实时性需求。

运动估计是视频编解码的关键部分，但是在传统的编码方式中，运动估计是基于PU进行处理的，并且在对视频数据中的不同区域进行划分后，通常还会根据位置信息对不同的宏块进行简单的划分，这易导致对视频中的物体的运动估计不准确，且对应的运动补偿不能满足图像的使用需求的问题。

图1示出根据本申请的视频图像的处理方法的流程示意图。该方法可应用于视频图像的处理装置。如图1所示，根据本申请的视频图像的处理方法包括但不限于以下步骤S110至S120。

在步骤S110，将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息。

多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络。光流(Optical Flow或Optic Flow)是用来描述视频图像中的物体运动的概念，即，相对于观察者的运动所造成的观测目标、表面或边缘的运动。

在步骤S120，将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。

在本实施例中，通过将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息，能够使待处理视频图像的运动估计信息体现待处理视频图像对应的不同尺度的运动估计信息，方便后续对待处理视频图像进行处理；将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，能够分别基于不同尺度的运动估计信息对待处理视频图像进行编码，降低计算复杂度，提升图像的处理效率，减少对图像的处理时长，从而使获得的目标图像能够准确体现待处理视频图像中的物体的运动轨迹，满足用户对视频图像的使用需求。

在一些具体实现中，在将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息(即，步骤S110)之前，还包括：获取样本光流数据和样本视频图像数据；依据端点误差函数和样本光流数据对光流运动估计网络进行预训练，获得待处理网络；将样本视频图像输入至待处理网络中进行微调训练，获得多尺度光流运动估计网络。

样本视频图像包括多层样本图像，每层样本图像对应的图像分辨率不同。光流数据是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。一般而言，光流数据是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的数据。样本光流数据可以是通过人工标注光流的方式获得的样本数据。

将样本光流数据输入到光流运动估计网络中进行训练，并采用端点误差函数(End Point Error Loss)作为损失函数，以判断是否结束对光流运动估计网络的预训练。例如，通过端点误差函数计算样本光流数据中的每个像素点预测的光流与预先标注的光流之间的二维空间欧式距离，并判断该二维空间欧式距离是否在预设距离阈值范围内，从而确定是否结束对光流运动估计网络的预训练。

在确定二维空间欧式距离在预设距离阈值范围内(即，端点误差函数的计算结果处于稳定收敛)的情况下，获得待处理网络；否则，继续进行预训练的过程。

当获得待处理网络后，还需要将样本视频图像输入到待处理网络中进行微调训练，以使微调训练后的网络能够满足不同尺度的图像的处理需求。

在一些具体实现中，将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像(即，步骤S120)，可以采用如下方式实现：将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得编码后的图像；在确定编码后的图像满足预设图像质量评价指标的情况下，获得目标图像。

预设图像质量评价指标可以包括：尖峰信噪比(Peak Signal-to-Noise Ratio，PSNR)、图像相似度(Structural Similarity，SSIM)和编码速度中的至少一种。

通过多种不同的评价指标对编码后的图像进行评价，能够对编码后的图像进行合理的评价，从而获得符合用户需求的目标图像，提升用户的使用体验。

图2示出根据本申请的视频图像的处理系统的方框示意图。如图2所示，将视频图像序列201输入到运动估计网络202中进行训练，获得与视频图像序列201对应的运动估计信息，然后将运动估计信息和视频图像序列201一起输入至视频编码器203中进行编码，从而获得视频编码器203输出的压缩视频图像序列204。

运动估计网络202是能够表征不同尺度的光流和光流引导信息的多尺度光流运动估计网络。运动估计网络202可以包括：卷积(Convolution)模块、解卷积(Deconvolution)模块、线性整流函数(Linear Rectification Function，ReLU)处理模块、神经网络的激活函数(如，Sigmoid函数)处理模块、全连接层(Full-Connection)和重构函数(Reshape)处理模块中的至少一种或几种。

在一些具体实现中，将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息(即，步骤S110)，可以采用如下方式实现：依据图像分辨率对待处理视频图像进行分层，获得与待处理视频图像对应的金字塔图像；分别将每层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得各层待处理图像对应的运动估计参数和残差值；依据各层待处理图像对应的残差值和预设残差阈值，确定待处理视频图像的运动估计信息。

金字塔图像包括多层待处理图像，每层待处理图像对应的图像分辨率不同。

需要说明的是，不同的图像分辨率对应不同的金字塔图像的层级，从而将不同层级的待处理图像输入到多尺度光流运动估计网络中进行运动估计，所获得的运动估计参数分别与不同的图像分辨率相对应，即，金字塔图像中的每层待处理图像都对应一组运动估计参数和残差值。

进一步地，将某层待处理图像对应的残差值和预设残差阈值进行比较，从而确定是否结束对该层待处理图像的运行估计。例如，当某层待处理图像对应的残差值大于预设残差阈值时，则可以结束对该层待处理图像的运动估计，获得该层待处理图像对应的运动估计信息；否则，需要继续对该层待处理图像进行运动估计。

当金字塔图像中的各层待处理图像都完成了运动估计后，可基于各层待处理图像对应的运动估计信息进行综合分析，确定待处理视频图像的运动估计信息。例如，将各层待处理图像对应的运动估计信息进行合并，获得待处理视频图像的运动估计信息，待处理视频图像的运动估计信息包括多种不同图像分辨率的运动估计信息。

在一些具体实现中，分别将每层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得各层待处理图像对应的运动估计参数和残差值，可采用如下方式实现。

分别对每层待处理图像做如下处理：将待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理图像对应的基于像素点的光流数据；依据待处理图像中的宏块的数量和每个宏块内多个像素点的运动向量，确定待处理图像中的每个宏块内多个像素点的运动向量均值；依据宏块对应的运动向量和每个宏块内多个像素点的运动向量均值，确定宏块对应的残差值。在一个实施例中，宏块对应的运动向量为当前帧图像中的宏块的运动向量。

每层待处理图像包括多个宏块，每个宏块包括多个像素点，运动估计参数包括运动向量均值。基于像素点的光流数据包括待处理图像中的每个宏块内多个像素点的运动向量。

通过将待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理图像对应的基于像素点的光流数据，能够获取像素级别的光流数据(例如，待处理图像中的每个宏块内多个像素点的运动向量)，以提升对待处理图像到的处理精准性。此外，可以通过加和求平均的方式，对待处理图像中的宏块的数量和每个宏块内多个像素点的运动向量进行计算，获得待处理图像中的每个宏块内多个像素点的运动向量均值，以体现每个宏块内的运动方向性。进一步地，将宏块对应的运动向量和计算得到的每个宏块内多个像素点的运动向量均值进行比较，可确定宏块的运动向量是否与该宏块内多个像素点的运动向量均值相同，并确定该宏块对应的残差值，以方便后续对该宏块进行处理。

待处理视频图像至少包括：连续的第一帧样本图像和第二帧样本图像。例如，图3示出根据本申请的基于金字塔图像确定的多尺度光流运动估计网络的结构示意图。如图3所示，F1和F2分别表示视频图像中的连续两帧图像样本图像(例如，图像分辨率为512*512的图像)，其中，F2为当前帧图像，F1为F2的前一帧图像。

分别对F1和F2构建n层金字塔结构(例如，如图3所示，n等于3)，获得与F1对应的第一金字塔图像，以及与F2对应的第二金字塔图像，第一金字塔和第二金字塔的层数相同，例如，第一金字塔图像和第二金字塔图像都分别包括n层待处理图像。

然后，分别提取第一金字塔图像中的第k层待处理图像和第二金字塔图像中的第k层待处理图像；将第一金字塔图像中的第k层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得第二金字塔图像中的第k层待处理图像对应的运动估计信息；依据第二金字塔图像中的第k层待处理图像对应的运动估计信息和第二金字塔图像中的第k层待处理图像，确定第k层待处理图像对应的基于像素点的光流数据；同时，计算获得第k层待处理图像对应的残差值。k为大于或等于1，且小于或等于第一金字塔图像的层数(即，n)的整数，即，1≤k≤n。

若第k层待处理图像对应的残差值在预设残差阈值的范围内(例如，第k层待处理图像对应的残差值大于预设残差阈值)，则依据相应宏块区域对应的k-1层的待处理图像对应的运动估计参数，确定待处理视频图像的运动估计信息，其中，k-1层的待处理图像对应的运动估计参数可以包括：每层待处理图像中的每个宏块内多个像素点的运动向量均值。

例如，第k层为图像分辨率为128*128的图像，则可以获得第k层待处理图像中的每个宏块(例如，图像分辨率为32*32的图像，或，图像分辨率为64*64的图像等)中的多个像素点的运行向量均值。

需要说明的是，在对每层待处理图像进行处理时，都需要重复上述步骤，直至金字塔图像中的所有层次的待处理图像对应的残差值都满足预设残差阈值的要求，最终获得包括不同尺寸大小的宏块内多个像素点的运动向量均值，以体现各层待处理图像对应的运行估计参数，方便后续使用。

在一些具体实现中，依据各层待处理图像对应的残差值和预设残差阈值，确定待处理视频图像的运动估计信息，包括：在确定第p层待处理图像对应的残差值在预设残差阈值的范围内的情况下，依据p-1层的待处理图像对应的运动估计参数，确定待处理视频图像的运动估计信息。

p-1层的待处理图像对应的运动估计参数包括：每层待处理图像中的每个宏块内多个像素点的运动向量均值，p为大于1，且小于或等于金字塔图像的层数(即，n)的整数，即，1＜p≤n，第一层的待处理图像为初始层的待处理图像。

图4示出根据本申请的多尺度光流运动估计网络的训练流程示意图。如图4所示，多尺度光流运动估计网络的训练网络包括但不限于如下模块：前向功能模块(previous feature)401、可变形卷积网络(Deformable Convolutional Networks，DCN)402、特征变形(Warped feature)模块403、光流(optical flow)数据404、LR特征模块405、剩余偏移量计算(Residual offsets)模块406、DCN偏移(DCN offsets)模块407、DCN标识(DCN masks)模块408、以及第一卷积核(Conv C¹)411至第m卷积核(Conv C^m)41m，其中，m表示卷积核的数量，m为大于或等于1的整数。

需要说明的是，DCN中的偏移的多样性，能够使形变对齐具有优于光流数据对齐的性能。然而，形变对齐存在难训练的问题，在网络训练的过程中，由于训练结果的不稳定性，易导致偏移量产生发散，进而影响网络模型的性能。为了充分利用偏移的多样性并克服网络训练的不稳定性，基于形变对齐与光流对齐之间的强相关性，通过使用光流数据404对形变数据进行引导，以获得良好的输出数据。

例如，限定偏移(offsets)在预设设定的光流数据的范围内，就可以限制偏移的溢出，极大的增加网络训练的稳定性。

在第j次时间补偿的过程中，若LR特征模块405输出的形变特征为g_i，前向功能模块401输出的特征为f_i-1；光流数据404对应表示为s_i→1-1，(即，从第i处移动到第i-1处的光流数据)，则可通过对f_i-1进行仿射变换，获得变换结果其中，仿射变换的过程可采用如下公式表示：

进一步地，通过DCN偏移模块407输出偏移o_i→1-1，并通过DCN标识模块408进行调制掩码m_i→i-1，从而完成特征的预对齐，i为大于1的整数。

在上述过程中，通过计算光流残差，而非直接计算偏移的方式，能够基于偏移的学习可以通过使光流数据404辅助特征的对齐；而使卷积神经网络仅学习残差，能够降低常规形变对齐模块的负担。DCN标识模块408还能起到注意力机制的作用，使训练后的网络具有更好的灵活性。

图5示出根据本申请的视频图像的处理方法的另一流程示意图。如图5所示，本申请实施例中的视频图像的处理方法包括但不限于以下步骤S501至S506。

在步骤S501，获取样本光流数据和样本视频图像数据。

样本视频图像数据包括：多层样本图像，每层样本图像对应的图像分辨率不同。例如，基于预设数量对多个样本视频图像进行划分，以获得训练集数据和测试集数据。

样本光流数据可以包括：通过下载互联网上的公开数据集，和/或通过人工标注光流的方式获得的数据。

在步骤S502，依据端点误差函数和样本光流数据对光流运动估计网络进行预训练，获得待处理网络。

光流运动估计网络可以包括：基于卷积的神经网络(如，光流网络(FlowNet)等)。以上对于光流运动估计网络仅是举例说明，可根据实际需要进行具体设定，其他未说明的光流运动估计网络也在本申请的保护范围之内，在此不再赘述。

在一些具体实现中，可采用端点误差函数，计算样本光流数据中的每个像素点预测的光流与预先标注的光流之间的二维空间欧式距离，通过该二维空间欧式距离，确定是否完成对光流运动估计网络的预训练。

在步骤S503，将样本视频图像输入至待处理网络中进行微调训练，获得多尺度光流运动估计网络。

微调训练(fine-tune)是通过将样本视频图像能够输入至待处理网络中进行训练，例如，采用均方误差(Mean Square Error，MSE)损失函数和/或L1损失函数对训练结果进行微调，当MSE损失函数和/或L1损失函数稳定收敛时，获得多尺度光流运动估计网络；否则，继续进行微调训练的过程。

需要说明的是，L1损失函数用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。

在步骤S504，将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息。

在步骤S505，将多尺度光流运动估计网络与编码器进行连接，使待处理视频图像及其对应运动估计信息都输入到编码器中进行编码，获得编码后的图像。

在步骤S506，在确定编码后的图像满足预设图像质量评价指标的情况下，获得目标图像。

需要说明的是，若编码后的图像不能满足预设图像质量评价指标，则还需要继续对多尺度光流运动估计网络进行训练，直至编码后的图像满足预设图像质量评价指标。

预设图像质量评价指标包括：图像质量指标(如，PSNR、SSIM等)、压缩性能指标(如，编码压缩比、编码速度等)和上述各个指标的加权和值中的任意一种或几种。

在本实施例中，通过采用基于光流网络进行像素级别的帧间预测的运动估计，有效提高预测单元的运动估计和运动补偿的精度，使获得的待处理视频图像的运动估计信息更准确。此外，采用多尺度光流网络的预测方式，能够降低计算复杂度，从而提升图像的处理效率，使帧间预测过程更准确，并提高编解码效率。

下面结合附图，详细介绍根据本申请实施例的视频图像的处理装置。图6示出根据本申请的视频图像的处理装置的组成方框图。如图6所示，该视频图像的处理装置600包括但不限于如下模块：运动估计模块601和编码模块602。

运动估计模块601被配置为将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息，其中，多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络。

编码模块602被配置为将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。

在一些具体实现中，运动估计模块601具体用于：依据图像分辨率对待处理视频图像进行分层，获得与待处理视频图像对应的金字塔图像，其中，金字塔图像包括多层待处理图像，每层待处理图像对应的图像分辨率不同；分别将每层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得各层待处理图像对应的运动估计参数和残差值；依据各层待处理图像对应的残差值和预设残差阈值，确定待处理视频图像的运动估计信息。

在一些具体实现中，每层待处理图像包括多个宏块，每个宏块包括多个像素点，运动估计参数包括运动向量均值。分别将每层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得各层待处理图像对应的运动估计参数和残差值，包括：分别对每层待处理图像做如下处理：将待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理图像对应的基于像素点的光流数据，其中，基于像素点的光流数据包括待处理图像中的每个宏块内多个像素点的运动向量；依据待处理图像中的宏块的数量和每个宏块内多个像素点的运动向量，确定待处理图像中的每个宏块内多个像素点的运动向量均值；依据宏块对应的运动向量和每个宏块内多个像素点的运动向量均值，确定宏块对应的残差值。在一个实施例中，宏块对应的运动向量为当前帧图像中的宏块的运动向量。

在一些具体实现中，待处理视频图像至少包括：连续的第一帧样本图像和第二帧样本图像，其中，第一帧样本图像对应第一金字塔图像，第二帧样本图像对应第二金字塔图像，第一金字塔图像和第二金字塔图像的层数相同；将待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理图像对应的基于像素点的光流数据，包括：分别提取第一金字塔图像中的第k层待处理图像和第二金字塔图像中的第k层待处理图像；将第一金字塔图像中的第k层待处理图像输入到多尺度光流运动估计网络中进行运动估计，获得第二金字塔图像中的第k层待处理图像对应的运动估计信息；依据第二金字塔图像中的第k层待处理图像对应的运动估计信息和第二金字塔图像中的第k层待处理图像，确定第k层待处理图像对应的基于像素点的光流数据。k为大于或等于1，且小于或等于第一金字塔图像的层数(即，n)的整数，即，1≤k≤n。

在一些具体实现中，视频图像的处理装置，还包括：获取模块，用于获取样本光流数据和样本视频图像数据；预训练模块，用于依据端点误差函数和样本光流数据对光流运动估计网络进行预训练，获得待处理网络；微调训练模块，用于将样本视频图像输入至待处理网络中进行微调训练，获得多尺度光流运动估计网络。

样本视频图像包括多层样本图像，每层样本图像对应的图像分辨率不同。

在一些具体实现中，编码模块602具体用于：将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得编码后的图像；在确定编码后的图像满足预设图像质量评价指标的情况下，获得目标图像。

在一些具体实现中，预设图像质量评价指标，包括：尖峰信噪比、图像相似度和编码速度中的至少一种。

需要说明的是，本实施例中的视频图像的处理装置600能够实现本申请实施例中任一种视频图像的处理方法。

根据本申请实施例的设备，通过运动估计模块将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得待处理视频图像的运动估计信息，能够使待处理视频图像的运动估计信息体现待处理视频图像对应的不同尺度的运动估计信息，方便后续对待处理视频图像进行处理；编码模块将待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，能够分别基于不同尺度的运动估计信息对待处理视频图像进行编码，降低计算复杂度，提升图像的处理效率，减少对图像的处理时长，从而使获得的目标图像能够准确体现待处理视频图像中的物体的运动轨迹，满足用户对视频图像的使用需求。

需要明确的是，本申请并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图7所示，计算设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。输入接口702、中央处理器703、存储器704、以及输出接口705通过总线707相互连接，输入设备701和输出设备706分别通过输入接口702和输出接口705与总线707连接，进而与计算设备700的其他组件连接。

具体地，输入设备701接收来自外部的输入信息，并通过输入接口702将输入信息传送到中央处理器703；中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器704中，然后通过输出接口705将输出信息传送到输出设备706；输出设备706将输出信息输出到计算设备700的外部供用户使用。

在一个实施例中，图7所示的计算设备可以被实现为一种电子设备，该电子设备可以包括：存储器，被配置为存储程序；处理器，被配置为运动存储器中存储的程序，以执行上述实施例描述的视频图像的处理方法。

在一个实施例中，图7所示的计算设备可以被实现为一种视频图像的处理系统，该系统可以包括：存储器，被配置为存储程序；处理器，被配置为运动存储器中存储的程序，以执行上述实施例描述的视频图像的处理方法。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本申请的范围。因此，本申请的恰当范围将根据权利要求确定。

Claims

一种视频图像的处理方法，包括：

将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得所述待处理视频图像的运动估计信息，其中，所述多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络；

将所述待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。
根据权利要求1所述的方法，其中，将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得所述待处理视频图像的运动估计信息，包括：

依据图像分辨率对所述待处理视频图像进行分层，获得与所述待处理视频图像对应的金字塔图像，其中，所述金字塔图像包括多层待处理图像，每层所述待处理图像对应的图像分辨率不同；

分别将每层所述待处理图像输入到所述多尺度光流运动估计网络中进行运动估计，获得各层所述待处理图像对应的运动估计参数和残差值；

依据各层所述待处理图像对应的残差值和预设残差阈值，确定所述待处理视频图像的运动估计信息。
根据权利要求2所述的方法，其中，每层所述待处理图像包括多个宏块，每个所述宏块包括多个像素点，所述运动估计参数包括运动向量均值，并且

分别将每层所述待处理图像输入到所述多尺度光流运动估计网络中进行运动估计，获得各层所述待处理图像对应的运动估计参数和残差值，包括：

分别对每层所述待处理图像做如下处理：

将所述待处理图像输入到所述多尺度光流运动估计网络中进行运动估计，获得所述待处理图像对应的基于像素点的光流数据，其中，所述基于像素点的光流数据包括所述待处理图像中的每个宏块内多个像素点的运动向量；

依据所述待处理图像中的宏块的数量和每个所述宏块内多个像素点的运动向量，确定所述待处理图像中的每个宏块内多个像素点的运动向量均值；

依据所述宏块对应的运动向量和每个所述宏块内多个像素点的运动向量均值，确定所述宏块对应的残差值。
根据权利要求3所述的方法，其中，所述宏块对应的运动向量为当前帧图像中的所述宏块的运动向量。
根据权利要求3所述的方法，其中，所述待处理视频图像至少包括：连续的第一帧样本图像和第二帧样本图像，其中，所述第一帧样本图像对应第一金字塔图像，所述第二帧样本图像对应第二金字塔图像，所述第一金字塔图像和所述第二金字塔图像的层数相同，并且

将所述待处理图像输入到所述多尺度光流运动估计网络中进行运动估计，获得所述待处理图像对应的基于像素点的光流数据，包括：

分别提取所述第一金字塔图像中的第k层待处理图像和所述第二金字塔图像中的第k层待处理图像；

将所述第一金字塔图像中的第k层待处理图像输入到所述多尺度光流运动估计网络中进行运动估计，获得所述第二金字塔图像中的第k层待处理图像对应的运动估计信息；

依据所述第二金字塔图像中的第k层待处理图像对应的运动估计信息和所述第二金字塔图像中的第k层待处理图像，确定所述第k层待处理图像对应的基于像素点的光流数据；

其中，k为大于或等于1，且小于或等于所述第一金字塔图像的层数的整数。
根据权利要求3所述的方法，其中，依据各层所述待处理图像对应的残差值和预设残差阈值，确定所述待处理视频图像的运动估计信息，包括：

在确定第p层待处理图像对应的残差值在所述预设残差阈值的范围内的情况下，依据p-1层的待处理图像对应的运动估计参数，确定所述待处理视频图像的运动估计信息；

其中，所述p-1层的待处理图像对应的运动估计参数包括：每层所述待处理图像中的每个宏块内多个像素点的运动向量均值，p为大于1，且小于或等于所述金字塔图像的层数的整数，第一层的待处理图像为初始层的待处理图像。
根据权利要求1至6中任一项所述的方法，其中，在将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得所述待处理视频图像的运动估计信息之前，所述方法还包括：

获取样本光流数据和样本视频图像数据；

依据端点误差函数和所述样本光流数据对光流运动估计网络进行预训练，获得所述待处理网络；

将所述样本视频图像输入至所述待处理网络中进行微调训练，获得所述多尺度光流运动估计网络；其中，所述样本视频图像包括多层样本图像，每层所述样本图像对应的图像分辨率不同。
根据权利要求1至6中任一项所述的方法，其中，将所述待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像，包括：

将所述待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得编码后的图像；

在确定所述编码后的图像满足预设图像质量评价指标的情况下，获得所述目标图像。
根据权利要求8所述的方法，其中，所述预设图像质量评价指标，包括：尖峰信噪比、图像相似度和编码速度中的至少一种。
一种视频图像的处理装置，包括：

运动估计模块，被配置为将待处理视频图像输入到多尺度光流运动估计网络中进行运动估计，获得所述待处理视频图像的运动估计信息，其中，所述多尺度光流运动估计网络为表征不同尺度的光流和光流引导信息的网络；

编码模块，被配置为将所述待处理视频图像及其对应的运动估计信息输入到编码器中进行编码，获得目标图像。
一种电子设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的视频图像的处理方法。
一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器实现如权利要求1至9中任一项所述的视频图像的处理方法。