WO2023025245A1

WO2023025245A1 - 视频图像处理方法、网络训练方法、电子设备、和计算机可读存储介质

Info

Publication number: WO2023025245A1
Application number: PCT/CN2022/114827
Authority: WO
Inventors: 宋剑军; 徐科; 孔德辉; 易自尧; 杨维
Original assignee: 中兴通讯股份有限公司
Priority date: 2021-08-25
Filing date: 2022-08-25
Publication date: 2023-03-02
Also published as: CN115731098A

Abstract

本申请提供了一种视频图像处理方法、一种网络训练方法、一种电子设备、以及一种计算机可读存储介质，所述视频图像处理方法包括：采用第一胶囊网络对当前图像和与当前图像相邻的N帧参考图像进行特征提取，得到当前图像的特征向量以及每一帧参考图像的特征向量，N为大于或等于1的整数；采用第一注意力网络对当前图像的特征向量以及参考图像的特征向量进行相关性处理，得到第一相关性向量；采用第一运动估计网络对第一相关性向量进行运动估计处理得到第一帧间运动信息；根据第一帧间运动信息对参考图像进行图像变换得到图像变换后的参考图像；以及采用第一运动补偿网络对当前图像和所有图像变换后的参考图像进行融合处理得到第一融合图像；对第一融合图像进行超分辨率处理得到目标图像。

Description

视频图像处理方法、网络训练方法、电子设备、和计算机可读存储介质

相关申请的交叉引用

本申请要求于2021年8月25日提交的中国专利申请NO.202110985417.8的优先权，该中国专利申请的内容通过引用的方式整体合并于此。

技术领域

本申请实施例涉及图像处理领域，特别涉及视频图像处理方法、网络训练方法、电子设备、以及计算机可读存储介质。

背景技术

随着视频图像行业的快速发展，视频的分辨率从标清、高清、超清、超高清到4K/8K，帧率从30帧、60帧、90帧到120帧，视频中包含的信息量也在不断扩大，这势必会给网络带宽带来极大的压力，如何提高视频图像质量变得越来越重要。提高视频图像质量的一种方法是不断提高传输码率，另一种方法是在视频图像显示前进行超分辨率(SR，Super Resolution)处理，显然传输码率不能够无限增加，而SR处理能够根据场景进行不断调整。

SR处理是指通过硬件或软件的方法来提高原有视频图像的分辨率，即通过对一系列低分辨率的视频图像进行处理来得到高分辨率的视频图像的过程。SR处理的核心思想就是用时间带宽(即获取同一场景中的一帧或多帧图像序列)换取空间分辨率，实现时间分辨率向空间分辨率的转换。

目前的SR处理有可能会陷入局部特征相对较优的情况，从而忽略了整体特征层次的相关性。

公开内容

第一方面，本申请实施例提供一种视频图像处理方法，包括：采用第一胶囊网络对当前图像和与所述当前图像相邻的N帧参考图像进行特征提取，得到所述当前图像的特征向量以及每一帧所述参考图像的特征向量；N为大于或等于1的整数；针对每一帧所述参考图像，采用第一注意力网络对所述当前图像的特征向量以及所述参考图像的特征向量进行相关性处理，得到所述当前图像的特征向量与所述参考图像的特征向量之间的第一相关性向量；采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息；根据所述第一帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像；以及采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像；采用超分辨率网络对所述第一融合图像进行超分辨率处理得到超分辨率的目标图像。

第二方面，本申请实施例提供一种视频图像处理方法，包括：针对与当前图像相邻的每一帧参考图像，采用第三运动估计网络对当前图像和所述参考图像进行运动估计处理得到第二帧间运动信息；根据所述第二帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像；采用第二胶囊网络对所述当前图像和所有所述图像变换后的参考图像进行特征提取，得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量；针对每一帧所述图像变换后的参考图像，采用第二注意力网络对所述当前图像的特征向量以及所述图像变换后的参考图像的特征向量进行相关性处理，得到所述当前图像的特征向量与所述图像变换后的参考图像的特征向量之间的第五相关性向量；以及采用第二运动补偿网络，根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像；采用超分辨率网络对所述第二融合图像进行超分辨率处理得到超分辨率的目标图像。

第三方面，本申请实施例提供一种网络训练方法，包括：采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；N为大于或等于1的整数；根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第一胶囊网络的第一重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失；以及根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第一总损失小于或等于第一预设阈值。

第四方面，本申请实施例提供一种网络训练方法，包括：基于训练好的第一胶囊网络，采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；N为大于或等于1的整数；计算第一胶囊网络的第一重构损失，计算第二信息熵损失，以及根据所述第一重构损失和所述第二信息熵损失计算第二总损失；根据所述第二总损失更新所述第一胶囊网络、所述第一注意力网络和所述第一运动估计网络中需要训练的所有参数，继续执行所述采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像的步骤，直到所述第二总损失小于或等于第二预设阈值；采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算所述第一胶囊网络的第一重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失；以及根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用上述第一方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第一总损失小于或等于第一预设阈值。

第五方面，本申请实施例提供一种网络训练方法，包括：采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；N为大于或等于1的整数；根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第二胶囊网络的第二重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失；以及根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第三总损失小于或等于第三预设阈值。

第六方面，本申请实施例提供一种网络训练方法，包括：采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；N为大于或等于1的整数；计算第二信息熵损失，根据所述第二信息熵损失更新所述第三运动估计网络中需要训练的所有参数，继续执行所述采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像的步骤，直到所述第二信息熵损失小于或等于第四预设阈值；采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量；计算第二信息熵损失，计算第二胶囊网络的第二重构损失，以及根据所述第二信息熵损失和所述第二重构损失计算第四总损失；根据所述第四总损失更新所述第三运动估计网络以及所述第二胶囊网络中需要训练的参数，继续执行所述采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量的步骤，直到所述第四总损失小于或等于第五预设阈值；采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算所述第二胶囊网络的第二重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失；以及根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用上述第二方面的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第三总损失小于或等于第三预设阈值。

第七方面，本申请实施例提供一种电子设备，包括：至少一个处理器；以及存储器，所述存储器上存储有至少一个计算机程序，当所述至少一个计算机程序被所述至少一个处理器执行时，实现上述任意一种视频图像处理方法、或上述任意一种网络训练方法。

第八方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种视频图像处理方法、或上述任意一种网络训练方法。

附图说明

图1为本申请实施例提供的一种视频图像处理方法的流程图；

图2为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图3为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图4为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图5为本申请实施例提供的一种视频图像处理方法的流程图；

图6为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图7为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图8为本申请实施例的视频图像超分辨率处理过程中图像的变化示意图；

图9为本申请实施例提供的一种网络训练方法的流程图；

图10为本申请实施例提供的一种网络训练方法的流程图；

图11为本申请实施例提供的一种网络训练方法的流程图；

图12为本申请实施例提供的一种网络训练方法的流程图；以及

图13为本申请实施例提供的电子设备的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图对本申请提供的视频图像处理方法、网络训练方法、电子设备、以及计算机可读存储介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例能够以不同形式来体现，且本申请不应当被解释为限于本文阐述的实施例。提供这些实施例的目的在于使本申请更加透彻和完整，并使本领域技术人员充分理解本申请的范围。

在不冲突的情况下，本申请各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括至少一个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本申请。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在特定特征、整体、步骤、操作、元件和/或组件，但不排除存在或可添加至少一个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

视频图像超分辨率(SR，Super Resolution)处理分两类，分别为视频图像修复和视频图像插值。视频图像插值又包括视频图像分辨率变化和视频图像帧数变化，视频图像分辨率变化例如是无极放大或缩小，视频图像帧数变化例如是插帧或抽帧。一般来说，视频超分辨率处理技术源于图像超分辨率处理技术，其目的是从一个或多个低分辨率的参考图像(Reference Image)中恢复出高分辨率的目标图像(Target Image)，视频超分辨率处理技术和图像超分辨率处理技术之间的区别也很明显，由于视频是由多个帧组成的，视频超分辨率处理技术通常利用帧间和帧内的信息对视频图像进行修复。

帧间信息的利用对视频超分辨率处理技术的性能有很大的影响。正确和充分地利用帧间信息能够提高视频超分辨率处理技术的最终结果。运动估计和运动补偿(MEMC，Motion Estimate and Motion Compensation)是视频超分辨率处理技术中非常主流的方法，运动估计(ME，Motion Estimate)的目的是提取帧间运动信息，运动补偿(MC，Motion Compensation)用于根据帧间运动信息执行帧间的扭曲操作使其对齐。

大多数运动估计技术都是通过光流方法来实现的。光流方法通过相邻帧在时域中的相关性和变化来计算相邻帧之间的运动。运动估计方法分为传统方法(如LucasKanade、Druleas等)和深度学习方法(如FlowNet、FlowNet 2.0和SpyNet等)。

光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。通常将二维图像平面上特定坐标点的灰度瞬时变化率定义为光流矢量。

光流方法以两个连续帧作为输入，两个连续帧中，一个是目标帧J对应的图像j，另一个是图像j的相邻帧，即图像i，按照公式F _i→j＝(h _i→j,v _i→j)＝ME(I _i,I _j)计算从图像i到图像j的光流。F _i→j为从图像i到图像j的光流，h _i→j为位移变化量的水平分量，v _i→j为位移变化量的垂直分量，以及ME(·)为计算光流的函数。

MC用于根据帧间运动信息对图像i进行图像变换，使相邻帧(即图像i)在空间上与目标帧J对齐，再将图像变换后的图像i与图像j进行融合得到目标帧J，即J＝MC(I _i→j,F _i→j)。I _i→j为图像变换后的图像i，以及MC(·)为运动补偿函数。

光流方法一方面能够提高视频的单帧质量，另一方面由于考虑了时间相关性，生成的像素在时间上能够保持连续性，使得时间上匹配的像素连贯播放。

目前光流法的深度学习方法采用卷积神经网络(CNN，Convolution Neural Networks)，虽然随着卷积网络的层数的加深，CNN能够学习到更为全局的上下文信息，然后利用这些上下文信息进行预测，但是因为CNN是局部连接和参数共享的，并没有考虑特征之间的相互关联和相互位置关系，CNN缺乏各个特征的层次结构信息。例如，一旦CNN的卷积核检测到了类似于眼睛、鼻子和嘴巴这种特征，相关卷积核对这些特征卷积出来的值就会很大，那么与人脸相关的神经元就相当突出，最后光流特征对齐到人脸这一类，但是CNN不会考虑到这些特征之间的相关性和结构性，有可能会陷入局部特征最优的情况，忽略了整体特征层次的相关性。

图1为本申请实施例提供的一种视频图像处理方法的流程图。

第一方面，参照图1，本申请实施例提供一种视频图像处理方法，包括步骤100至102。

步骤100、采用第一胶囊网络cap-net1对当前图像

和与当前图像

相邻的N帧参考图像进行特征提取，得到当前图像的特征向量

以及每一帧参考图像的特征向量；N为大于或等于1的整数。

在本申请实施例中，与当前图像

相邻的N帧参考图像是指时间上与当前图像

相邻的N帧参考图像，例如，时间上位于当前图像

之前的N帧参考图像

相应的参考图像的特征向量分别为

或者，时间上位于当前图像

之后的N帧参考图像

相应的参考图像的特征向量分别为

或者，时间上位于当前图像

之前的M帧参考图像

以及时间上位于当前图像

之后的(N-M)帧参考图像

相应的参考图像的特征向量分别为

以及

M为大于或等于1，且小于或等于N的整数。图2以N取1为例给出了视频图像超分辨率处理过程中图像的变化示意图。

在一些实施方式中，对当前图像

进行特征提取所采用的第一胶囊网络cap-net1与对参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络，或属于不同的胶囊网络；对不同参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络，或属于不同的胶囊网络。

在本申请实施例中，当对当前图像

进行特征提取所采用的第一胶囊网络cap-net1与对参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络，且对不同参考图像进行特征提取所采用的第一胶囊网络cap-net1属于同一个胶囊网络时，采用第一胶囊网络cap-net1对当前图像

和与当前图像

相邻的N帧参考图像进行特征提取得到当前图像的特征向量

以及每一帧参考图像的特征向量是指将当前图像

和与当前图像

相邻的N帧参考图像依次输入到第一胶囊网络cap-net1得到对应的特征向量。也就是说，第一胶囊网络cap-net1一次只能处理一帧图像得到对应的特征向量。

在一些实施方式中，第一胶囊网络cap-net1包括以下至少之一：卷积层、主胶囊层、或者数字胶囊层等。

在本申请实施例中，主胶囊层也称为底层胶囊层，数字胶囊层也称为高层胶囊层。

步骤101、针对每一帧参考图像，采用第一注意力网络att-net1对当前图像

的特征向量

以及参考图像的特征向量进行相关性处理，得到当前图像

的特征向量

与参考图像的特征向量之间的第一相关性向量；采用第一运动估计网络ME-net1对第一相关性向量进行运动估计处理得到第一帧间运动信息；根据第一帧间运动信息对参考图像进行图像变换warp得到图像变换后的参考图像。

在一些实施方式中，第一注意力网络att-net1采用通道注意力(channel attention)机制、或空间注意力(spatial attention)机制等中的至少一个构建得到。

在一些实施方式中，第一注意力网络att-net1采用点乘计算实现相关性处理。

在本申请实施例中，参考图像

对应的第一相关性向量分别为

参考图像

对应的第一相关性向量分别为

参考图像

以及

对应的第一相关性向量分别为

以及

在一些实施方式中，第一运动估计网络ME-net1采用以下至少之一实现：普通方法、传统方法、或光流法等。普通方法如Res-net，传统方法如LucasKanade、Druleas等，光流法如FlowNet、FlowNet 2.0和SpyNet。

在一些实施方式中，采用第一运动估计网络ME-net1直接对第一相关性向量进行运动估计处理得到第一帧间运动信息，如图2所示；或者，采用第二运动估计网络ME-net2对所述当前图像

和所述参考图像进行特征提取和相关性处理得到所述当前图像和所述参考图像之间的第二相关性向量；将所述第一相关性向量和所述第二相关性向量进行点乘计算得到第三相关性向量；采用所述第一运动估计网络ME-net1对所述第三相关性向量进行运动估计处理得到所述第一帧间运动信息，如图3所示；或者，将所述第一相关性向量和所述当前图像进行点乘计算得到新的当前图像；将所述第一相关性向量和所述参考图像进行点乘计算得到新的参考图像；采用第二运动估计网络ME-net2对所述新的当前图像和所述新的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的参考图像之间的第四相关性向量；采用所述第一运动估计网络ME-net1对所述第四相关性向量进行运动估计处理得到所述第一帧间运动信息，如图4所示。

在本申请实施例中，参考图像

对应的第一帧间运动信息分别为

对应的图像变换后的参考图像分别为

对应的第二相关性向量分别为

参考图像

对应的第一帧间运动信息分别为

对应的图像变换后的参考图像分别为

对应的第二相关性向量分别为

参考图像

以及

对应的第一帧间运动信息分别为

以及

对应的图像变换后的参考图像分别为

以及

对应的第二相关性向量分别为

以及

步骤102、采用第一运动补偿网络MC-net1对当前图像

和所有图像变换后的参考图像进行融合处理得到第一融合图像

采用超分辨率网络P-net对第一融合图像

进行超分辨率处理得到超分辨率的目标图像

在一些实施方式中，第一运动补偿网络MC-net1是卷积神经网络Cnn-net、或者循环神经网络(Recurrent Neural Network,Rnn-net)中的至少一个。

在一些实施方式中，超分辨率处理包括分辨率缩放、插帧或增强中的至少一个。

分辨率缩放是指添加图像的上采样部分(upsample)或下采样部分(downsample)，插帧是指添加图像插入部分(interpolated)，增强是指添加图像修复部分。

在一些实施方式中，采用第一运动补偿网络MC-net1对当前图像

包括：针对每一帧参考图像，根据第一相关性向量确定参考图像的权重；以及采用第一运动补偿网络MC-net1，根据所有参考图像的权重对当前图像

在一些实施方式中，参考图像的权重为第一相关性向量的平均值。例如，当前图像和参考图像均为64×64×3的向量，那么第一相关性向量为64×64×C的向量，那么参考图像的权重应该是64×64×1，也就是将第一相关性向量在C对应的维度上进行平均计算。

在本申请实施例中，能够采用多种方式实现根据所有参考图像的权重对当前图像

例如，以参考图像的权重为图像变换后的参考图像的系数，将当前图像

和所有图像变换后的参考图像进行加权平均得到第一融合图像

或者，分别从当前图像

和所有图像变换后的参考图像中提取对应的特征，以参考图像的权重为图像变换后的参考图像对应的特征的系数，将当前图像

对应的特征和所有图像变换后的参考图像对应的特征进行加权平均得到第一融合图像

本申请实施例提供的视频图像处理方法，采用胶囊网络得到对应图像的特征向量，结合注意力网络提升了运动估计网络中对特征的对齐效果，从而避免了陷入局部特征最优解的情况，考虑了整体特征层次的相关性。

图5为本申请实施例提供的一种视频图像处理方法的流程图。

第二方面，参照图5，本申请实施例提供一种视频图像处理方法，包括步骤500至503。

步骤500、针对与当前图像

相邻的每一帧参考图像，采用第三运动估计网络ME-net3对当前图像

和参考图像进行运动估计处理得到第二帧间运动信息；根据第二帧间运动信息对参考图像进行图像变换warp得到图像变换后的参考图像。

在本申请实施例中，第三运动估计网络ME-net3相当于上述视频图像处理方法中第一运动估计网络ME-net1和第二运动估计网络ME-net2的叠加。也就是说，第三运动估计网络ME-net3实际上是先对当前图像

和参考图像进行特征提取和相关性处理，再进行运动估计处理才得到第二帧间运动信息。

在本申请实施例中，假设与当前图像

相邻的参考图像为N帧，与当前图像

相邻的N帧参考图像是指时间上与当前图像

相邻的N帧参考图像，例如，时间上位于当前图像

之前的N帧参考图像

相应的第二帧间运动信息分别为

对应的图像变换后的参考图像分别为

或者，时间上位于当前图像

之后的N帧参考图像

相应的第二帧间运动信息分别为

对应的图像变换后的参考图像分别为

或者，时间上位于当前图像

之前的M帧参考图像

以及时间上位于当前图像

之后的(N-M)帧参考图像

相应的第二帧间运动信息分别为

以及

对应的图像变换后的参考图像分别为

以及

M为大于或等于1，且小于或等于N的整数。图6以N取1为例给出了视频图像超分辨率处理过程中图像的变化示意图。

步骤501、采用第二胶囊网络cap-net2对当前图像

和所有图像变换后的参考图像进行特征提取，得到当前图像的特征向量

以及每一帧图像变换后的参考图像的特征向量。

在一些实施方式中，对当前图像

进行特征提取所采用的第二胶囊网络cap-net2与对图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络，或属于不同的胶囊网络；对不同图像变换后的参考图像进行特征提取所采用的第二胶囊网络cap-net2属于同一个胶囊网络，或属于不同的胶囊网络。

在本申请实施例中，当对当前图像

进行特征提取所采用的第二胶囊网络cap-net2与对图像变换后的参考图像进行特征提取所采用的第二胶囊网络cap-net2属于同一个胶囊网络，且对不同图像变换后的参考图像进行特征提取所采用的第二胶囊网络cap-net2属于同一个胶囊网络时，采用第二胶囊网络cap-net2对当前图像

和所有图像变换后的参考图像进行特征提取得到当前图像的特征向量

以及每一帧图像变换后的参考图像的特征向量是指将当前图像

和所有图像变换后的参考图像依次输入到第二胶囊网络cap-net2得到对应的特征向量。也就是说，第二胶囊网络cap-net2一次只能处理一帧图像得到对应的特征向量。

在一些实施方式中，第二胶囊网络cap-net2包括以下至少之一：卷积层、主胶囊层、或数字胶囊层等。

在本申请实施例中，参考图像

对应的图像变换后的参考图像的特征向量分别为

参考图像

对应的图像变换后的参考图像的特征向量分别为

参考图像

以及

对应的图像变换后的参考图像的特征向量分别为

以及

步骤502、针对每一帧图像变换后的参考图像，采用第二注意力网络att-net2对当前图像的特征向量

以及图像变换后的参考图像的特征向量进行相关性处理，得到当前图像的特征向量

与图像变换后的参考图像的特征向量之间的第五相关性向量。

在一些实施方式中，第二注意力网络att-net2采用通道注意力(channel attention)机制、或空间注意力(spatial attention)机制等中的至少一个构建得到。

在本申请实施例中，参考图像

对应的第五相关性向量分别为

参考图像

对应的第五相关性向量分别为

参考图像

以及

对应的第五相关性向量分别为

以及

步骤503、采用第二运动补偿网络MC-net2，根据所有第五相关性向量对当前图像

和所有图像变换后的参考图像进行融合处理得到第二融合图像

采用超分辨率网络P-net对第二融合图像

进行超分辨率处理得到超分辨率的目标图像

在一些实施方式中，采用第二运动补偿网络MC-net2，直接根据所有第五相关性向量对当前图像

如图6所示；或者，采用第三运动补偿网络MC-net3对所述当前图像

和所述图像变换后的参考图像进行特征提取和相关性处理得到所述当前图像和所述图像变换后的参考图像之间的第六相关性向量；将所述第五相关性向量和所述第六相关性向量进行点乘计算得到第七相关性向量；采用第二运动补偿网络MC-net2，根据所有所述第七相关性向量对所述当前图像

和所有所述图像变换后的参考图像进行融合处理得到第二融合图像

如图7所示；或者，将所述第五相关性向量和所述当前图像

进行点乘计算得到新的当前图像；将所述第五相关性向量和所述图像变换后的参考图像进行点乘处理得到新的图像变换后的参考图像；采用第三运动补偿网络MC-net3对所述新的当前图像和所述新的图像变换后的参考图像进行特征提取和相关性处理，得到所述新的当前图像和所述新的图像变换后的参考图像之间的第八相关性向量；采用第二运动补偿网络MC-net2，根据所有所述第八相关性向量对所述当前图像

如图8所示。

在一些实施方式中，采用第二运动补偿网络MC-net2，根据所有第五相关性向量对当前图像

包括：针对每一帧图像变换后的参考图像，根据第五相关性向量确定图像变换后的参考图像的权重；采用第二运动补偿网络MC-net2，根据所有图像变换后的参考图像的权重对当前图像

在一些实施方式中，图像变换后的参考图像的权重为第五相关性向量的平均值。例如，当前图像和图像变换后的参考图像均为64×64×3的向量，那么第五相关性向量为64×64×C的向量，那么图像变换后的参考图像的权重应该是64×64×1，也就是将第五相关性向量在C对应的维度上进行平均计算。

在本申请实施例中，能够采用多种方式实现根据所有图像变换后的参考图像的权重对当前图像

例如，以图像变换后的参考图像的权重为图像变换后的参考图像的系数，将当前图像

和所有图像变换后的参考图像进行加权平均得到第二融合图像

或者，分别从当前图像

和所有图像变换后的参考图像中提取对应的特征，以图像变换后的参考图像的权重为图像变换后的参考图像对应的特征的系数，将当前图像

对应的特征和所有图像变换后的参考图像对应的特征进行加权平均得到第二融合图像

在本申请实施例中，根据所有所述第七相关性向量对所述当前图像

以及根据所有所述第八相关性向量对所述当前图像

的实现过程与根据所有所述第五相关性向量对所述当前图像

的实现过程类似，这里不再赘述。

图9为本申请实施例提供的一种网络训练方法的流程图。

第三方面，参照图9，本申请实施例提供一种网络训练方法，包括步骤900至902。

步骤900、采用上述步骤100至102中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；N为大于或等于1的整数。

步骤901、根据目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第一胶囊网络的第一重构损失，以及根据L2损失、第一信息熵损失和第一重构损失计算第一总损失。

在一些实施方式中，根据目标图像和对应的真实图像计算L2损失包括：按照公式

计算L2损失；Loss _SR为L2损失，H为目标图像的高度，W为目标图像的宽度，

为目标图像的第i行第j列对应的像素值，

为真实图像的第i行第j列对应的像素值，以及|| ||为平方函数。

在一些实施方式中，计算第一信息熵损失包括以下任意一个：

根据目标图像和真实图像计算第一信息熵损失；

根据目标图像和当前图像计算第一信息熵损失；或者

根据参考图像和图像变换后的参考图像计算第一信息熵损失。

在一些实施方式中，根据目标图像和真实图像计算第一信息熵损失包括：按照公式

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为真实图像的信息熵。

在一些实施方式中，根据目标图像和当前图像计算第一信息熵损失包括：按照公式

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为当前图像的信息熵。

在一些实施方式中，根据参考图像和图像变换后的参考图像计算第一信息熵损失包括：按照公式

计算第一信息熵损失；Loss _in为第一信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

按照公式

计算图像x的信息熵。

像素值x _i分布在0至N的范围内，P _xi为像素值为x _i的概率，这里只取P _xi不为0的情况，并且公式中的对数一般取2为底。

在一些实施方式中，计算第一胶囊网络的第一重构损失包括以下任意一个：

根据参考图像和参考图像的特征向量计算第一重构损失；或者

根据当前图像和当前图像的特征向量计算第一重构损失。

在一些实施方式中，根据当前图像和当前图像的特征向量计算第一重构损失包括：按照公式

计算第一重构损失；Loss _recon为第一重构损失，H为当前图像的高度，W为当前图像的宽度，

为当前图像的第i行第j列的像素值，以及

为当前图像的特征向量的第i行第j列的像素值。

在一些实施方式中，根据第k个参考图像和第k个参考图像的特征向量计算第一重构损失包括：按照公式

计算第一重构损失；Loss _recon为第一重构损失，H为第k个参考图像的高度，W为第k个参考图像的宽度，

为第k个参考图像的第i行第j列的像素值，以及

为第k个参考图像的特征向量的第i行第j列的像素值。

在一些实施方式中，根据L2损失、第一信息熵损失和第一重构损失计算第一总损失包括：将L2损失、第一信息熵损失和第一重构损失相加得到第一总损失。

步骤902、根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行上述步骤900，直到第一总损失小于或等于第一预设阈值。

在一些实施方式中，根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数。在一些实施方式中，根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第二运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数。

本申请实施例提供的网络训练方法，基于L2损失、信息熵损失和胶囊网络的重构损失计算用于更新训练参数的总损失，由于胶囊网络的重构损失保证了基于胶囊网络的输出重构的图像与输入到胶囊网络的图像的一致性，也就是保证了胶囊网络对特征提取的准确性，信息熵损失既保证了输出的目标图像与当前图像的基本特征的一致性，即空域信息的波动较小，也保证了输出的目标图像与参考图像的基本特征的一致性，即时域信息的波动较小，从而基于训练好的网络进行视频图像超分辨率处理时，得到空域信息和时域信息的波动较小的目标图像，提高视频图像处理的效果。

图10为本申请实施例提供的一种网络训练方法的流程图。

第四方面，参照图10，本申请实施例提供一种网络训练方法，包括步骤1000至1005。

步骤1000、基于训练好的第一胶囊网络，采用上述步骤100至102中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；N为大于或等于1的整数。

步骤1001、计算第一胶囊网络的第一重构损失，计算第二信息熵损失，以及根据第一重构损失和第二信息熵损失计算第二总损失。

在一些实施方式中，计算第二信息熵损失包括：根据参考图像和图像变换后的参考图像计算第二信息熵损失。

在一些实施方式中，根据参考图像和图像变换后的参考图像计算第二信息熵损失包括：按照公式

计算第二信息熵损失；Loss _in为第二信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

按照公式

计算图像x的信息熵。

根据当前图像和当前图像的特征向量计算第一重构损失。

为当前图像的第i行第j列的像素值，以及

为当前图像的特征向量的第i行第j列的像素值。

为第k个参考图像的第i行第j列的像素值，以及

为第k个参考图像的特征向量的第i行第j列的像素值。

在一些实施方式中，根据第一重构损失和第二信息熵损失计算第二总损失包括：将第一重构损失和第二信息熵损失相加得到第二总损失。

步骤1002、根据第二总损失更新第一胶囊网络、第一注意力网络和第一运动估计网络中需要训练的所有参数，继续执行上述步骤1000，直到第二总损失小于或等于第二预设阈值。

在一些实施方式中，根据第二总损失更新第一胶囊网络、第一注意力网络和第一运动估计网络中需要训练的所有参数。在另一些实施方式中，根据第二总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络和第二运动估计网络中需要训练的所有参数。

步骤1003、采用上述步骤100至102中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像。

步骤1004、根据目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第一胶囊网络的第一重构损失，以及根据L2损失、第一信息熵损失和第一重构损失计算第一总损失。

为目标图像的第i行第j列对应的像素值，

根据目标图像和真实图像计算第一信息熵损失；

根据目标图像和当前图像计算第一信息熵损失；或者

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为真实图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为当前图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

步骤1005、根据第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行上述步骤1000，直到第一总损失小于或等于第一预设阈值。

本申请实施例提供的网络训练方法，对视频图像处理方法中的网络进行分阶段训练，进一步提高了训练效果。

图11为本申请实施例提供的一种网络训练方法的流程图。

第五方面，参照图11，本申请实施例提供一种网络训练方法，包括步骤1100至1102。

步骤1100、采用上述步骤500至503中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；N为大于或等于1的整数。

步骤1101、根据目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第二胶囊网络的第二重构损失，以及根据L2损失、第一信息熵损失和第二重构损失计算第三总损失。

为目标图像的第i行第j列对应的像素值，

根据目标图像和真实图像计算第一信息熵损失；

根据目标图像和当前图像计算第一信息熵损失；或者

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为真实图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为当前图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

按照公式

计算图像x的信息熵。

在一些实施方式中，计算第二胶囊网络的第二重构损失包括以下任意一个：

根据图像变换后的参考图像和图像变换后的参考图像的特征向量计算第二重构损失；或者

根据当前图像和当前图像的特征向量计算第二重构损失。

在一些实施方式中，根据当前图像和当前图像的特征向量计算第二重构损失包括：按照公式

计算第二重构损失；Loss _recon为第二重构损失，H为当前图像的高度，W为当前图像的宽度，

为当前图像的第i行第j列的像素值，以及

为当前图像的特征向量的第i行第j列的像素值。

在一些实施方式中，根据第k个图像变换后的参考图像和第k个图像变换后的参考图像的特征向量计算第二重构损失包括：按照公式

计算第二重构损失；Loss _recon为第二重构损失，H为第k个图像变换后的参考图像的高度，W为第k个图像变换后的参考图像的宽度，

为第k个图像变换后的参考图像的第i行第j列的像素值，以及

为第k个图像变换后的参考图像的特征向量的第i行第j列的像素值。

在一些实施方式中，根据L2损失、第一信息熵损失和第二重构损失计算第三总损失包括：将L2损失、第一信息熵损失和第二重构损失相加得到第三总损失。

步骤1102、根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行上述步骤1100，直到第三总损失小于或等于第三预设阈值。

在一些实施方式中，根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数。在一些实施方式中，根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络、第三运动补偿网络和超分辨率网络中需要训练的所有参数。

图12为本申请实施例提供的一种网络训练方法的流程图。

第六方面，参照图12，本申请实施例提供一种网络训练方法，包括步骤1200至1207。

步骤1200、采用上述步骤500至503中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；N为大于或等于1的整数。

步骤1201、计算第二信息熵损失，根据第二信息熵损失更新第三运动估计网络中需要训练的所有参数，继续执行上述步骤1200，直到第二信息熵损失小于或等于第四预设阈值。

在一些实施方式中，计算第二信息熵损失包括：

根据参考图像和图像变换后的参考图像计算第二信息熵损失。

计算第二信息熵损失；Loss _in为第二信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

按照公式

计算图像x的信息熵。

步骤1202、采用上述步骤500至503中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理，得到当前图像的特征向量以及每一帧图像变换后的参考图像的特征向量。

步骤1203、计算第二信息熵损失，计算第二胶囊网络的第二重构损失，以及根据第二信息熵损失和第二重构损失计算第四总损失。

根据当前图像和当前图像的特征向量计算第二重构损失。

为当前图像的第i行第j列的像素值，以及

为当前图像的特征向量的第i行第j列的像素值。

为第k个图像变换后的参考图像的第i行第j列的像素值，以及

在一些实施方式中，根据第二信息熵损失和第二重构损失计算第四总损失包括：将第二信息熵损失和第二重构损失相加得到第四总损失。

步骤1204、根据第四总损失更新第三运动估计网络和第二胶囊网络中需要训练的参数，继续执行上述步骤1200，直到第四总损失小于或等于第五预设阈值。

步骤1205、采用上述步骤500至503中的视频图像处理方法对当前图像和与当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像。

步骤1206、根据目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第二胶囊网络的第二重构损失，以及根据L2损失、第一信息熵损失和第二重构损失计算第三总损失。

为目标图像的第i行第j列对应的像素值，

根据目标图像和真实图像计算第一信息熵损失；

根据目标图像和当前图像计算第一信息熵损失；或者

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为真实图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为目标图像的信息熵，以及

为当前图像的信息熵。

计算第一信息熵损失；Loss _in为第一信息熵损失，

为第k个参考图像的信息熵，以及

为第k个图像变换后的参考图像的信息熵。

按照公式

计算图像x的信息熵。

步骤1207、根据第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行步骤1200至1206，直到第三总损失小于或等于第三预设阈值。

第七方面，本申请实施例提供一种电子设备1300，如图13所示，所述电子设备1300包括：至少一个处理器1301；以及存储器1302，存储器1302上存储有至少一个计算机程序，当至少一个计算机程序被所述至少一个处理器1301执行时，实现上述任意一种视频图像处理方法、或上述任意一种网络训练方法。

处理器为具有数据处理能力的器件，包括但不限于中央处理器(CPU)等；以及，存储器为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、以及闪存(FLASH)。

在一些实施方式中，处理器1301、存储器1302通过总线1303相互连接，进而与计算设备的其它组件连接。

第八方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种视频图像处理方法，或上述任意一种网络训练方法。

本领域普通技术人员应当理解，上文中所公开方法中的全部或某些步骤、及装置中的功能模块/单元能够被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器(如中央处理器、数字信号处理器或微处理器)执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储器、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则与特定实施例相结合描述的特征、特性和/或元素可单独使用，或可与结合其它实施例描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本申请的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种视频图像处理方法，包括：

采用第一胶囊网络对当前图像和与所述当前图像相邻的N帧参考图像进行特征提取，得到所述当前图像的特征向量以及每一帧所述参考图像的特征向量；其中，N为大于或等于1的整数；

针对每一帧所述参考图像，采用第一注意力网络对所述当前图像的特征向量以及所述参考图像的特征向量进行相关性处理，得到所述当前图像的特征向量与所述参考图像的特征向量之间的第一相关性向量；采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息；根据所述第一帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像；以及

采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像；采用超分辨率网络对所述第一融合图像进行超分辨率处理得到超分辨率的目标图像。
根据权利要求1所述的视频图像处理方法，其中，对所述当前图像进行特征提取所采用的第一胶囊网络与对所述参考图像进行特征提取所采用的第一胶囊网络属于同一个胶囊网络，或属于不同的胶囊网络；以及

对不同所述参考图像进行特征提取所采用的第一胶囊网络属于同一个胶囊网络，或属于不同的胶囊网络。
根据权利要求1所述的视频图像处理方法，其中，所述采用第一运动补偿网络对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第一融合图像包括：

针对每一帧所述参考图像，根据所述第一相关性向量确定所述参考图像的权重；以及

采用所述第一运动补偿网络，根据所有所述参考图像的权重对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到所述第一融合图像。
根据权利要求1所述的视频图像处理方法，还包括：

所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息之前，采用第二运动估计网络对所述当前图像和所述参考图像进行特征提取和相关性处理，得到所述当前图像和所述参考图像之间的第二相关性向量；将所述第一相关性向量和所述第二相关性向量进行点乘计算得到第三相关性向量；

所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息包括：采用所述第一运动估计网络对所述第三相关性向量进行运动估计处理得到所述第一帧间运动信息。
根据权利要求1所述的视频图像处理方法，还包括：

所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息之前，将所述第一相关性向量和所述当前图像进行点乘计算得到新的当前图像；将所述第一相关性向量和所述参考图像进行点乘计算得到新的参考图像；采用第二运动估计网络对所述新的当前图像和所述新的参考图像进行特征提取和相关性处理得到所述新的当前图像和所述新的参考图像之间的第四相关性向量；

所述采用第一运动估计网络对所述第一相关性向量进行运动估计处理得到第一帧间运动信息包括：采用所述第一运动估计网络对所述第四相关性向量进行运动估计处理得到所述第一帧间运动信息。
一种视频图像处理方法，包括：

针对与当前图像相邻的每一帧参考图像，采用第三运动估计网络对当前图像和所述参考图像进行运动估计处理得到第二帧间运动信息；根据所述第二帧间运动信息对所述参考图像进行图像变换得到图像变换后的参考图像；

采用第二胶囊网络对所述当前图像和所有所述图像变换后的参考图像进行特征提取，得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量；

针对每一帧所述图像变换后的参考图像，采用第二注意力网络对所述当前图像的特征向量以及所述图像变换后的参考图像的特征向量进行相关性处理，得到所述当前图像的特征向量与所述图像变换后的参考图像的特征向量之间的第五相关性向量；以及

采用第二运动补偿网络，根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像；采用超分辨率网络对所述第二融合图像进行超分辨率处理得到超分辨率的目标图像。
根据权利要求6所述的视频图像处理方法，其中，对所述当前图像进行特征提取所采用的第二胶囊网络与对所述图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络，或属于不同的胶囊网络；以及

对不同所述图像变换后的参考图像进行特征提取所采用的第二胶囊网络属于同一个胶囊网络，或属于不同的胶囊网络。
根据权利要求6所述的视频图像处理方法，其中，所述采用第二运动补偿网络，根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括：

针对每一帧所述图像变换后的参考图像，根据所述第五相关性向量确定所述图像变换后的参考图像的权重；以及

采用所述第二运动补偿网络，根据所有所述图像变换后的参考图像的权重对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到所述第二融合图像。
根据权利要求6所述的视频图像处理方法，还包括：

所述采用第二运动补偿网络根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像之前，采用第三运动补偿网络对所述当前图像和所述图像变换后的参考图像进行特征提取和相关性处理，得到所述当前图像和所述图像变换后的参考图像之间的第六相关性向量；将所述第五相关性向量和所述第六相关性向量进行点乘计算得到第七相关性向量；以及

所述采用第二运动补偿网络，根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括：采用所述第二运动补偿网络，根据所有所述第七相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到所述第二融合图像。
根据权利要求6所述的视频图像处理方法，还包括：

所述采用第二运动补偿网络根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像之前，将所述第五相关性向量和所述当前图像进行点乘计算得到新的当前图像；将所述第五相关性向量和所述图像变换后的参考图像进行点乘处理得到新的图像变换后的参考图像；采用第三运动补偿网络对所述新的当前图像和所述新的图像变换后的参考图像进行特征提取和相关性处理，得到所述新的当前图像和所述新的图像变换后的参考图像之间的第八相关性向量；

所述采用第二运动补偿网络，根据所有所述第五相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到第二融合图像包括：采用所述第二运动补偿网络，根据所有所述第八相关性向量对所述当前图像和所有所述图像变换后的参考图像进行融合处理得到所述第二融合图像。
一种网络训练方法，包括：

采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；其中，N为大于或等于1的整数；

根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第一胶囊网络的第一重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失；以及

根据所述第一总损失更新所述第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第一总损失小于或等于第一预设阈值。
根据权利要求11所述的网络训练方法，其中，所述计算第一信息熵损失包括以下任意一个：

根据所述目标图像和所述真实图像计算所述第一信息熵损失；

根据所述目标图像和所述当前图像计算所述第一信息熵损失；或者

根据所述参考图像和图像变换后的参考图像计算所述第一信息熵损失。
根据权利要求11所述的网络训练方法，其中，所述计算第一胶囊网络的第一重构损失包括以下任意一个：

根据所述参考图像和所述参考图像的特征向量计算所述第一重构损失；或者

根据所述当前图像和所述当前图像的特征向量计算所述第一重构损失。
一种网络训练方法，包括：

基于训练好的第一胶囊网络，采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；其中，N为大于或等于1的整数；

计算第一胶囊网络的第一重构损失，计算第二信息熵损失，以及根据所述第一重构损失和所述第二信息熵损失计算第二总损失；

根据所述第二总损失更新所述第一胶囊网络、所述第一注意力网络和所述第一运动估计网络中需要训练的所有参数，继续执行所述采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像的步骤，直到所述第二总损失小于或等于第二预设阈值；

采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；

根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算所述第一胶囊网络的第一重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第一重构损失计算第一总损失；以及

根据所述第一总损失更新第一胶囊网络、第一注意力网络、第一运动估计网络、第一运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用权利要求1至5中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第一总损失小于或等于第一预设阈值。
根据权利要求14所述的网络训练方法，其中，所述计算第二信息熵损失包括：

根据所述参考图像和所述图像变换后的参考图像计算所述第二信息熵损失。
根据权利要求14所述的网络训练方法，其中，所述计算第一信息熵损失包括以下任意一个：

根据所述目标图像和所述真实图像计算所述第一信息熵损失；

根据所述目标图像和所述当前图像计算所述第一信息熵损失；或者

根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
根据权利要求14所述的网络训练方法，其中，所述计算第一胶囊网络的第一重构损失包括以下任意一个：

根据所述参考图像和所述参考图像的特征向量计算所述第一重构损失；或者

根据所述当前图像和所述当前图像的特征向量计算所述第一重构损失。
一种网络训练方法，包括：

采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；其中，N为大于或等于1的整数；

根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算第二胶囊网络的第二重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失；以及

根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第三总损失小于或等于第三预设阈值。
根据权利要求18所述的网络训练方法，其中，所述计算第一信息熵损失包括以下任意一个：

根据所述目标图像和所述真实图像计算所述第一信息熵损失；

根据所述目标图像和所述当前图像计算所述第一信息熵损失；或者

根据所述参考图像和图像变换后的参考图像计算所述第一信息熵损失。
根据权利要求18所述的网络训练方法，其中，所述计算第二胶囊网络的第二重构损失包括以下任意一个：

根据所述图像变换后的参考图像和所述图像变换后的参考图像的特征向量计算所述第二重构损失；或者

根据所述当前图像和所述当前图像的特征向量计算所述第二重构损失。
一种网络训练方法，包括：

采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像；其中，N为大于或等于1的整数；

计算第二信息熵损失，根据所述第二信息熵损失更新所述第三运动估计网络中需要训练的所有参数，继续执行所述采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到N帧图像变换后的参考图像的步骤，直到所述第二信息熵损失小于或等于第四预设阈值；

采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量；

计算第二信息熵损失，计算第二胶囊网络的第二重构损失，以及根据所述第二信息熵损失和所述第二重构损失计算第四总损失；

根据所述第四总损失更新所述第三运动估计网络和所述第二胶囊网络中需要训练的参数，继续执行所述采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到所述当前图像的特征向量以及每一帧所述图像变换后的参考图像的特征向量的步骤，直到所述第四总损失小于或等于第五预设阈值；

采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像；

根据所述目标图像和对应的真实图像计算L2损失，计算第一信息熵损失，计算所述第二胶囊网络的第二重构损失，以及根据所述L2损失、所述第一信息熵损失和所述第二重构损失计算第三总损失；以及

根据所述第三总损失更新第二胶囊网络、第二注意力网络、第三运动估计网络、第二运动补偿网络和超分辨率网络中需要训练的所有参数，继续执行所述采用权利要求6至10中任意一项所述的视频图像处理方法对当前图像和与所述当前图像相邻的N帧参考图像进行处理得到超分辨率的目标图像的步骤，直到所述第三总损失小于或等于第三预设阈值。
根据权利要求21所述的网络训练方法，其中，所述计算第二信息熵损失包括：

根据所述参考图像和所述图像变换后的参考图像计算所述第二信息熵损失。
根据权利要求21所述的网络训练方法，其中，所述计算第一信息熵损失包括以下任意一个：

根据所述目标图像和所述真实图像计算所述第一信息熵损失；

根据所述目标图像和所述当前图像计算所述第一信息熵损失；或者

根据所述参考图像和所述图像变换后的参考图像计算所述第一信息熵损失。
根据权利要求21所述的网络训练方法，其中，所述计算第二胶囊网络的第二重构损失包括以下任意一个：

根据所述图像变换后的参考图像和所述图像变换后的参考图像的特征向量计算所述第二重构损失；或者

根据所述当前图像和所述当前图像的特征向量计算所述第二重构损失。
一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器上存储有至少一个计算机程序，当所述至少一个计算机程序被所述至少一个处理器执行时，实现权利要求1至10中任意一项所述的视频图像处理方法、或权利要求11至24中任意一项所述的网络训练方法。
一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任意一项所述的视频图像处理方法、或权利要求11至24中任意一项所述的网络训练方法。