WO2021218414A1

WO2021218414A1 - 视频增强方法及装置、电子设备、存储介质

Info

Publication number: WO2021218414A1
Application number: PCT/CN2021/079872
Authority: WO
Inventors: 朱丹; 段然; 陈冠男
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-04-30
Filing date: 2021-03-10
Publication date: 2021-11-04
Also published as: US20220318950A1; CN113592723B; CN113592723A

Abstract

一种视频增强方法及装置、电子设备、存储介质，涉及图像处理技术领域。所述方法包括：对M帧图像进行特征提取，得到至少一个第一尺度的图像特征(S310)；针对每个第一尺度的图像特征，对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征(S320)；对第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征(S330)；第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样的倍数和第N+1-j级下采样的倍数相同；对第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像(S340)。可以提高视频增强的效率以及效果。

Description

视频增强方法及装置、电子设备、存储介质

相关申请的交叉引用

本申请要求于2020年04月30日提交的申请号为202010366748.9、名称为“视频增强方法及装置、电子设备、存储介质”的中国专利申请的优先权，该中国专利申请的全部内容通过引用全部并入本文。

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种视频增强方法、视频增强装置、电子设备以及非易失性计算机可读存储介质。

背景技术

图像增强可以有目的地强调图像的整体或局部特性，将原来不清晰的图像变得清晰或强调某些感兴趣的特征，使之改善图像质量、丰富信息量，以满足某些特殊分析的需要。因此，图像增强技术被广泛地应用于各个领域。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

根据本公开的第一方面，提供一种视频增强方法，包括：

将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，M为大于1的整数；

所述将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，包括：

对所述M帧图像进行特征提取，得到至少一个第一尺度的图像特征；

针对每个所述第一尺度的图像特征，均执行以下过程：

对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征，N为大于1的整数；

对所述第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征；其中，第1级上采样处理的输入为所述第二尺度的图像特征，第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，i为2～N的整数，j为1～N的整数；

对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像。

可选地，所述视频处理模型是通过目标损失对原始视频处理模型进行训练得到；所述原始视频处理模型被配置为对输入所述原始视频处理模型的视频进行视频增强处理；所述目标损失包括多级尺度的损失，所述多级尺度的损失中每级尺度的损失为N级上采样处理中每级上采样处理的损失。

可选地，所述每级上采样处理的损失是第一图像和第二图像之间的损失，所述第一图像是将M帧样本图像输入所述原始视频处理模型进行对应级的上采样处理得到的，所述第二图像是每级上采样处理的目标图像，所述第一图像和所述第二图像的分辨率是相同的。

可选地，对所述原始视频处理模型进行训练得到训练后的所述视频处理模型，包括：

获取多组M帧样本图像以及每组所述M帧样本图像对应的至少一帧样本增强图像；

针对每组M帧样本图像，对该组M帧样本图像进行特征提取，得到至少一个第一尺度的样本图像特征；

针对每个所述第一尺度的样本图像特征，均执行以下过程：

对该第一尺度的样本图像特征进行N级下采样处理，得到第二尺度的样本图像特征；

对所述第二尺度的样本图像特征进行N级上采样处理，得到每级上采样对应的预测输出图像；

针对每级上采样，将该级上采样对应的目标输出图像与该级上采样对应的预测输出图像的差值作为该级上采样的损失；其中，第i级上采样对应的目标输出图像为对该组M帧样本图像对应的样本增强图像进行N+1-i级下采样处理的输入；

将各级上采样的损失之和作为所述目标损失，根据所述目标损失更新所述原始视频处理模型中的网络参数值。

可选地，每组M帧样本图像对应一帧样本增强图像，所述一帧样本增强图像具体为该组M帧样本图像的中间帧样本图像对应的增强图像，其中，M为大于1的奇数。

可选地，该组M帧样本图像的中间帧样本图像对应的增强图像具体为：

所述中间帧样本图像对应的去噪图像；或者

所述中间帧样本图像对应的去模糊图像。

可选地，M的值为3、5或7。

可选地，在所述将M帧图像输入预先建立的视频处理模型之前，所述方法还包括：

获取待处理视频中的L帧图像；

在所述L帧图像的第一帧图像之前，以及最后一帧图像之后分别增加

帧图像，得到L+M-1帧图像；

将所述L+M-1帧图像划分为L组M帧图像，L为大于M的整数；

针对每组M帧图像，执行所述将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像的步骤。

可选地，所述对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像，包括：

将所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到叠加特征；

将所述叠加特征转换为三个通道的图像特征，得到该第一尺度的图像特征对应的增强图像。

对所述第三尺度的图像特征和所述第一尺度的图像特征进行叠加处理之后进行超分辨率处理，得到该第一尺度的图像特征对应的超分辨率图像。

可选地，N的值为4。

根据本公开的第二方面，提供一种视频增强装置，包括：

图像增强处理器，被配置为将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，M为大于1的整数；

所述图像增强处理器，具体被配置为对所述M帧图像进行特征提取，得到至少一个第一尺度的图像特征；

针对每个所述第一尺度的图像特征，均执行以下过程：

可选地，本公开实施例的视频增强装置，还包括：

样本获取处理器，被配置为获取多组M帧样本图像以及每组所述M帧样本图像对应的至少一帧样本增强图像；

模型训练处理器，被配置为针对每组M帧样本图像，对该组M帧样本图像进行特征提取，得到至少一个第一尺度的样本图像特征；

针对每个所述第一尺度的样本图像特征，均执行以下过程：

所述中间帧样本图像对应的去噪图像；或者

所述中间帧样本图像对应的去模糊图像。

可选地，M的值为3、5或7。

可选地，本公开实施例的视频增强装置，还包括：

待处理视频获取处理器，被配置为获取待处理视频中的L帧图像；

帧图像，得到L+M-1帧图像；

视频帧划分处理器，被配置为将所述L+M-1帧图像划分为L组M帧图像，L为大于M的整数；

图像增强处理器，具体被配置为针对每组M帧图像将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像。

可选地，所述图像增强处理器通过下述步骤实现对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像：

可选地，所述图像增强处理器通过下述步骤实现对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像，包括：

可选地，N的值为4。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用于本公开实施例的视频增强方法的示例性系统架构的示意图；

图2示出了卷积神经网络的一种结构示意图；

图3示出了本公开实施例中视频增强方法的一种流程图；

图4示出了本公开实施例中视频处理模型的一种网络结构示意图；

图5示出了本公开实施例中视频处理模型的训练方法的一种流程图；

图6示出了本公开实施例中视频处理模型的又一种网络结构示意图；

图7示出了本公开实施例中视频增强装置的一种结构示意图；

图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

一些技术中，可以基于卷积神经网络算法，对图像进行增强处理。但是由于视频是由多帧图像构成，视频增强的计算量较大，计算效率较低。并且，该算法视频增强的效果也较差。

图1示出了可以应用于本公开实施例的视频增强方法的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102中的一个或多个，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102可以是具有显示屏的各种电子设备，包括但不限于便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器104可以是多个服务器组成的服务器集群等。

本公开实施例所提供的视频增强方法一般由服务器104执行，相应地，视频增强装置一般设置于服务器104中。但本领域技术人员容易理解的是，本公开实施例所提供的视频增强方法也可以由终端设备101、102执行，相应地，视频增强装置也可以设置于终端设备101、102中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是用户通过终端设备101、102将待处理视频上传至服务器104，服务器104通过本公开实施例所提供的视频增强方法对该待处理视频进行处理，还可以将得到的增强视频发送给终端设备101、102。

以下对本公开实施例的技术方案进行详细阐述：

目前，图像增强可以包括：图像效果的增强以及图像形态的增强。其中，图像效果的增强可以包括：图像去噪、图像去模糊、图像修复等，图像形态的增强可以包括：图像超分辨率处理等。

图像增强可以通过卷积神经网络来实现。卷积神经网络是神经网络的一种特殊结构，可以将原始图像和原始图像的增强图像分别作为输入和输出，并用卷积核替代标量的权值。一个三层结构的卷积神经网络如图2所示。该网络具有4个输入，隐藏层中具有3个输出，输出层含有2个输出，最终系统输出两幅图像。每个模块

表示一个卷积核。k表示输入层编号，i和j表示输入和输出的单位编号。偏置

是一组叠加在卷积层输出上的标量。叠加了偏置的卷积层的输出可以输入激活层。经过训练后，卷积核和偏置是固定的。

其中，训练的过程是通过一组匹配的输入和输出，以及优化算法对卷积核和偏置进行参数调优。通常情况下，每个卷积层可以包含数十个或数百个卷积核，深度神经网络往往包含5层以上的卷积层。可见，基于卷积神经网络的图像增强算法，网络参数较多，计算效率较低。并且，卷积神经网络无法提取更多的图像特征，导致图像增强的效果较差。

为了解决上述问题，本公开实施例提供了一种视频增强方法，可以提高视频增强的计算效率，并提高视频增强的效果。

具体的，可以将M帧图像输入预先建立的视频处理模型，得到M帧图像中至少一帧图像的增强图像，M为大于1的整数。此处的至少一帧图像的增强图像可以是M帧图像的中间帧对应的增强图像，也可以是M帧图像中除中间帧以外的其他帧对应的增强图像；例如如果M是3，可以是第2帧；如果M是5，可以是第3帧。

参见图3，图3示出了本公开实施例中视频增强方法的一种流程图，视频处理模型对M帧图像的处理过程可以包括以下步骤：

步骤S310，对M帧图像进行特征提取，得到至少一个第一尺度的图像特征。

针对每个第一尺度的图像特征，均可以执行步骤S320～步骤S340，这样，最终得到的增强图像的数量与第一尺度的图像特征的数量相同。

步骤S320，针对每个第一尺度的图像特征，对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征，N为大于1的整数。

步骤S330，对第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征；其中，第1级上采样处理的输入为第二尺度的图像特征，第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，i为2～N的整数，j为1～N的整数。

步骤S340，对第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像。

本公开实施例的视频增强方法，通过对M帧图像进行处理，可以保证视频处理的帧间连续性，避免出现帧间抖动。通过对M帧图像进行N级下采样处理以及N级上采样处理，即进行多尺度的特征提取，可以提升计算效率，加速运算。在上采样处理过程中，通过逐级还原并与对应下采样处理过程中的特征叠加，融合了高层特征和低层特征，可以提高特征表达能力，从而可以提高视频增强的效果。

以下对本公开实施例的视频增强方法进行更加详细的阐述。

在步骤S310中，对M帧图像进行特征提取，得到至少一个第一尺度的图像特征。

本公开实施例中，M帧图像可以是连续的视频帧。需要说明的是，为了保证帧间连续性，避免出现帧间抖动，M可以是较小的数值，例如，可以为2～7的整数。在选取M帧图像时，可以选取要进行增强处理的当前帧、当前帧的前、后各一帧图像。或者，选取当前帧、当前帧的前、后各两帧图像。或者，选取当前帧、当前帧的前、后各三帧图像等。即M的值可以为3、5或7。这样，可以使当前帧位于M帧图像的中间，可以避免偏差，以提取更多、更准确的图像特征，以提升图像增强效果。当然，本公开选取M帧图像的方法并不限于此，也可以选取2帧图像或4帧图像等。在M为4时，可以选取当前帧、当前帧的一帧、当前帧的后两帧图像，或者选取当前帧、当前帧的两帧、当前帧的后一帧图像等。当然，也可以选取当前帧的前3帧图像或者当前帧的后3帧图像，在此不做限定。

其中，M帧图像的获取方法具体可以为：首先，可以获取待处理视频中的L帧图像，L为大于M的整数。之后再对L帧图像进行分组，每组可以划分为M帧图像。由于M为大于1的整数，在按照上述方式进行分组时，最终得到的分组数量小于L，最终导致在对待处理视频进行增强处理时，前几帧图像和后几帧图像可能未被处理。为了避免该问题，可以在L帧图像的第一帧图像之前，以及最后一帧图像之后分别增加

帧图像，得到L+M-1帧图像；将L+M-1帧图像划分为L组M帧图像。可以看出，增加的图像的数量可以根据M的数值来确定。在第一帧图像之前增加的图像均可以为第一帧图像，在最后一帧图像之后增加的图像均可以为最后一帧图像。

针对每组M帧图像，均可以执行将M帧图像输入预先建立的视频处理模型，得到M帧图像中至少一帧图像的增强图像的步骤。对于每组M帧图像，由于对其处理的方式相同，在此以一组M帧图像为例进行说明。可以理解的是，对于待处理视频，在对L组M帧图像进行增强处理之后，即可得到增强视频。例如，对于一个包含5帧原始图像的视频，即L＝5，如果M＝3，将5帧原始图像表示为P1-P5(即第一帧原始图像P1到第二帧原始图像P5)；那么此时的可将5帧原始图像按以下方式分为5组：第一组P1、P1、P2；第二组P1、P2、P3；第三组P2、P3、P4；第四组P3、P4、P5；第五组P4、P5、P5；以预先建立的视频处理模型用于输入3帧图像输出中间帧对应的增强图像为例，那么将上述五组图像分别输入到预先建立的视频处理模型分别得到P1对应的增强图像P11(对应第一组的输出)、P2对应的增强图像P21(对应第二组的输出)、P3对应的增强图像P31(对应第一组的输出)、P4对应的增强图像P41(对应第一组的输出)，P5对应的增强图像P51，根据这5帧增强图像P11-P51就可以得到增强后的视频。

参见图4，图4示出了本公开实施例中视频处理模型的一种网络结构示意图，可以看出，视频处理模型的网络结构可以是U型网络。下面结合图4，对视频处理模型的处理过程进行介绍。

具体的，假设每帧图像的尺度为(H,W)，也就是该图像分辨率为H×W。若M帧图像均为RGB图像，那么图像的通道数C的值为3。若M帧图像均为灰度图像，那么C的值为1。M帧图像可以在C通道进行合并，则输入视频处理模型的M帧图像可以表示为(H,W,C*M)。其中，C*M表示特征层数，例如在M为3，C为3时，特征层数为9。

在对M帧图像进行特征提取时，可以对特征层数进行扩展，而不改变图像的分辨率。因此，第一尺度即为(H,W)。例如，可以将特征层数由C*M扩展为F。这样，输入的M帧图像由(H,W,C*M)变为(H,W,F)。其中，F是预先设置的值，例如可以是64或128等。

在本公开的一种实现方式中，可以通过卷积操作来改变特征层数，具体的，可以对M帧图像进行卷积处理，得到第一尺度的图像特征，卷积处理过程中卷积核的大小可以是3×3等。由于激活函数可以给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数。因此，在对M帧图像进行卷积处理后，还可以进行激活操作，得到第一尺度的图像特征。激活函数可以是ReLU(线性整流函数)函数或者sigmoid函数等。需要说明的是，本公开对M帧图像进行特征提取的方式不限于此。

需要说明的是，第一尺度的图像特征的数量可以是一个，也可以是多个。在第一尺度的图像特征的数量为多个时，每个第一尺度的图像特征可以对应不同图像的特征。例如，在M为5时，第一尺度的图像特征可以包括：第2帧图像的特征和第3帧图像的特征。针对每个第一尺度的图像特征，均可以执行步骤S320～步骤S340，这样，可以得到第2帧图像的增强图像以及第3帧图像的增强图像。最终得到的增强图像的数量与第一尺度的图像特征的数量相同，本公开实施例中，以一个第一尺度的图像特征为了进行说明。

步骤S320，对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征，N为大于1的整数。

本公开实施例中，N级下采样指的是进行N次下采样。每经过一次下采样，就可以得到比原先图像更小的特征，相当于对图像进行了压缩，单位面积能被感知的区域变大了。这样，经过N级下采样之后，可以获取更多的轮廓信息。在本公开的一种实现方式中，为了保留更多的细节信息，步长的取值可以为2，即下采样的倍数可以是2倍。例如，第一尺度(H,W)的图像特征，经过2倍下采样之后，可以得到尺度为

的图像特征，其中，[]表示取整操作。当然，本公开对下采样的倍数不做具体限定。

可以理解的是，N的值越大，也就是下采样的次数越多，单位面积能被感知的区域越大，可以获取的轮廓信息也就越多。但是，下采样的次数越多，也就意味着需要更多的计算资源。通过实验表明，在N的值为4时，可以使用较少计算资源的同时，获取较多的轮廓信息。因此，本公开实施例中，N的值可以为4。参见图4，其中的网络结构即为N为4时的U型网络。这样，在下采样倍数为2时，通过4级下采样处理得到的图像特征的尺度依次为：

和

此时，第二尺度的图像特征即为

需要说明的是，在每级下采样处理之后，还可以对下采样之后的图像特征进行激活操作以及卷积处理。参见图4，在下采样层之后还可以包括：激活层、第一卷积层以及又一个激活层，激活层中的激活函数可以是ReLU函数等，第一卷积层中卷积核的大小可以3×3等。当然，除了图4所示的网络结构外，在下采样层后，还可以包括：卷积层、激活层、池化层等其他网络结构。

步骤S330，对第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征。第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；i为2～N的整数。

本公开实施例中，N级上采样与上述N级下采样相对应，N级上采样指的是进行N次上采样，第1级上采样指的是进行第一次上采样，第1级上采样处理的输入为第二尺度的图像特征。其中，第j级下采样与第N+1-j级上采样位于U型网络的同一层，第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，这样，第j级下采样处理之前的图像，和第N+1-j级上采样处理之后的图像的分辨率相同。或者，第j级下采样处理之后的图像，和第N+1-j级上采样处理之前的图像的分辨率相同。其中，j为1～N的整数。

在上采样过程中，对于第i级上采样，可以将第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加之后，作为第i级上采样处理的输入。例如，在图4中，第2级上采样处理的输入，即为第3级下采样处理的输出和第1级上采样处理的输出的叠加。本公开实施例中，叠加处理指的是将两个特征进行融合处理，可以是特征叠加等。例如，第3级下采样处理的输出为(a1，a2，a3)，第1级上采样处理的输出为(b1，b2，b3)，两者叠加处理后为(a1+b1，a2+b2，a3+b3)。

这样，下采样各个阶段的图像特征可以在上采样过程中进行叠加，也就是在上采样的过程中，可以结合各个层次的图像特征，从而可以提高图像特征提取的准确性。

需要说明的是，在下采样处理时存在取整操作，那么在叠加时，第N+1-i级下采样处理的输出所对应的尺度，可能与第i-1级上采样处理的输出所对应的尺度存在差异。此时可以先对第N+1-i级下采样处理的输出进行裁剪，使裁剪后的尺度与第i-1级上采样处理的输出所对应的尺度相同。

举例而言，假设第3级下采样处理的输出所对应的分辨率为10×10，第1级上采样处理的输出所对应的分辨率为8×8，为了使这两个特征能够顺利拼接，可以裁剪10×10的中间部分(8×8的大小)，然后拼接。

需要说明的是，经过上述N级下采样和N级上采样之后，得到的图像特征的尺度小于或等于第一尺度。也就是说，第三尺度可以小于或等于第一尺度。例如，在下采样过程中，不存在取整操作时，第三尺度与第一尺度相同，即(H,W)。在存在取整操作时，由于存在特征的裁剪，第三尺度将小于第一尺度。

本公开实施例中，与下采样处理过程相对应，在上采样处理之后，还可以进行卷积处理和激活操作。参见图4，在上采样层之后还可以包括：激活层、第二卷积层和又一个激活层，激活层中的激活函数可以是ReLU函数等，第二卷积层中卷积核的大小可以4×4等。当然，除了图4所示的网络结构外，在上采样层之后，还可以包括其他网络结构，在此不做限定。

本公开实施例中，可以直接将第三尺度的图像特征和第一尺度的图像特征进行叠加处理，得到叠加特征；将叠加特征转换为三个通道的图像特征，得到该第一尺度的图像特征对应的增强图像。具体的，在上述过程中F值一直不变，因此可以通过卷积处理，将叠加特征转换为包含三个通道的图像特征。例如，可以输出三通道的RGB图像。

值得一提的是，本公开实施例中，每级上采样之后均可以对应一个卷积操作，该卷积操作可以用于将特征层数由F转换为3，即输出三通道的图像特征。并且，各级上采样之后的该卷积操作中的参数可以是共享的。例如，如图4所示，各级上采样之后均包含相同的第三卷积层。这样，通过参数共享可以减少视频处理模型中的参数，加快网络的训练过程。

其中，视频处理模型可以是通过目标损失对原始视频处理模型进行训练得到；原始视频处理模型被配置为对输入原始视频处理模型的视频进行视频增强处理；目标损失包括多级尺度的损失，多级尺度的损失中每级尺度的损失为N级上采样处理中每级上采样处理的损失。

具体的，每级上采样处理的损失是第一图像和第二图像之间的损失，第一图像是将M帧样本图像输入原始视频处理模型进行对应级的上采样处理得到的，也就是说，在每级上采样之后均可以对应输出一个第一图像，当然不同级上采样对应的第一图像的分辨率是不同的。并且，每级上采样还对应有第二图像，第二图像是每级上采样处理的目标图像，第一图像和第二图像的分辨率是相同的。

在训练时，还可以获取M帧样本图像对应的样本增强图像，对样本增强图像进行N-1级下采样，可以得到N-1个不同分辨率的图像。N-1个不同分辨率的图像和样本增强图像可以作为N个目标图像。例如，对样本增强图像进行N-1级下采样，可以得到第一级上采样处理的目标图像；对样本增强图像进行1级下采样，可以得到第N-1级上采样处理的目标图像；该样本增强图像可以作为第N级上采样处理的目标图像。

以下对视频处理模型的训练方法进行详细介绍。

参见图5，图5示出了本公开实施例中视频处理模型的训练方法的一种流程图，可以包括以下步骤：

步骤S510，获取多组M帧样本图像以及每组M帧样本图像对应的至少一帧样本增强图像。

由于视频处理模型的输入可以是多帧图像，输出是一帧或多帧增强图像。相应地，在训练过程中，可以获取包含M帧样本图像和对应的一帧或多帧样本增强图像的样本数据。在视频处理模型的输出是一帧增强图像时，每组M帧样本图像对应的一帧样本增强图像，具体可以为该组M帧样本图像的中间帧样本图像对应的增强图像。当然，也可以是非中间帧样本图像对应的增强图像。在视频处理模型的输出是多帧增强图像时，每组M帧样本图像对应的多帧样本增强图像，具体可以为该组M帧样本图像的中间帧样本图像对应的增强图像以及与中间帧相邻的样本图像的增强图像，当然也可以是其他样本增强图像的增强图像。本公开以视频处理模型输出一帧增强图像为例进行说明。

需要说明的是，视频处理模型的目的不同，所使用的样本增强图像也可以不同。例如，如果要训练的视频处理模型用于视频去噪，那么，每组M帧样本图像的中间帧样本图像对应的增强图像具体为：中间帧样本图像对应的去噪图像。如果要训练的视频处理模型用于视频去模糊，那么，每组M帧样本图像的中间帧样本图像对应的增强图像具体为：中间帧样本图像对应的去模糊图像。当然，本公开实施例的视频处理模型并不以此为限。

步骤S520，针对每组M帧样本图像，对该组M帧样本图像进行特征提取，得到至少一个第一尺度的样本图像特征。

针对每个第一尺度的样本图像特征，均执行步骤S530～步骤S560：

步骤S530，针对每个第一尺度的样本图像特征，对第一尺度的样本图像特征进行N级下采样处理，得到第二尺度的样本图像特征。

本公开实施例中，可以设置模型训练的batch size(块尺寸)，即同时输入模型中的样本数据的数量。假设块尺寸为B，则最终输入模型的尺寸为(B,H,W,C*M)。

由于步骤S520～步骤S530中对每组M帧样本图像的处理过程，与上述步骤S310～步骤S320的处理过程类似，具体可参见步骤S310～步骤S320中的描述，在此不再赘述。

步骤S540，对第二尺度的样本图像特征进行N级上采样处理，得到每级上采样对应的预测输出图像。

如前所述，每级上采样之后均可以对应一个卷积操作，根据该卷积操作可以对该级上采样的输出特征进行卷积处理，从而可以得到多尺度的预测输出图像。假设对于N为4的网络，在训练过程中，从上到下，分别可以输出F1、F2、F3、F4、F5五个不同尺度的图像，其中该五个尺度分别为：(H,W)、

和

步骤S550，针对每级上采样，将该级上采样对应的目标输出图像与该级上采样对应的预测输出图像的差值作为该级上采样的损失；其中，第i级上采样对应的目标输出图像为对该组M帧样本图像对应的样本增强图像进行N+1-i级下采样处理的输入。

本公开实施例中，第i级上采样对应的目标输出图像是在理想情况下可以输出的图像，具体可以是对该组M帧样本图像对应的样本增强图像进行N+1-i 级下采样处理的输入。

例如，对于任意的M帧样本图像和对应的样本增强图像，第1级上采样对应的目标输出图像，可以是对该样本增强图像进行N级下采样处理的输入，也就是，对该样本增强图像进行N-1级下采样处理的输出。

在训练过程中，得到的预测输出图像和目标输出图像之间通常会存在偏差，差值越大，表示预测输出图像与目标输出图像越不一致；差值越小，表示预测输出图像与目标输出图像越一致。

步骤S560，将各级上采样的损失之和作为目标损失，根据目标损失更新原始视频处理模型中的网络参数值。

在训练的过程中，可以通过梯度下降法，根据反向传播原理，不断计算损失，并根据损失更新网络参数值。在训练完成之后，在损失值符合要求时，例如，小于预设阈值等，可以得到视频处理模型。其中，预设阈值可以根据实际应用进行设置，在此不做限定。本公开实施例中，使用多尺度损失，可以从小尺度特征进行逐层逼近，有助于更好的还原高清图像的细节，从而可以提高视频增强的效果。

参见图6，图6示出了本公开实施例中视频处理模型的又一种网络结构示意图。可以看出，与图4所示的网络结构相比，在第N级上采样处理之后，增加了一个上采层，此时，该视频处理模型可以用于视频的超分辨率处理。

在此基础上，步骤S350中，具体可以包括，对第三尺度的图像特征和第一尺度的图像特征进行叠加处理之后进行超分辨率处理，得到第一尺度的图像特征对应的超分辨率图像。这样，如果输入分辨率为H×W的M帧图像，可以输出分辨率为2H×2W的一帧或多帧超分辨率图像。

相应地，在训练时所使用的样本数据中的样本增强图像，可以是对应的M帧样本图像的中间帧的超分辨率图像。并且，对于图6所示的网络结构，其训练过程与图4所示网络结构的训练过程类似，例如，各级上采样之后的卷积操作中的参数可以是共享的，可以将各级上采样的损失之和作为最终损失，根据最终损失更新网络参数值等，具体参见图5实施例中的描述即可，在此不再赘述。在经过训练之后，可以得到用于超分辨处理的视频处理模型。

本公开实施例的视频增强方法，通过U型网络可以很好的节省计算速度，提升计算效率。并且在多尺度计算损失，可以最大程度的提高输出图像的效果。本公开可用于视频去噪、视频去模糊、视频超分辨率处理等多种视频增强功能。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种视频增强装置700，参考图7所示，包括：

图像增强处理器710，被配置为将M帧图像输入预先建立的视频处理模型，得到M帧图像中至少一帧图像的增强图像，M为大于1的整数；

图像增强处理器710，具体被配置为对M帧图像进行特征提取，得到至少一个第一尺度的图像特征；

针对每个第一尺度的图像特征，均执行以下过程：

对第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征；其中，第1级上采样处理的输入为第二尺度的图像特征，第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，i为2～N的整数，j为1～N的整数；

对第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像。

在本公开的一种示例性实施例中，视频处理模型是通过目标损失对原始视频处理模型进行训练得到；原始视频处理模型被配置为对输入原始视频处理模型的视频进行视频增强处理；目标损失包括多级尺度的损失，多级尺度的损失中每级尺度的损失为N级上采样处理中每级上采样处理的损失。

在本公开的一种示例性实施例中，每级上采样处理的损失是第一图像和第二图像之间的损失，第一图像是将M帧样本图像输入原始视频处理模型进行对应级的上采样处理得到的，第二图像是每级上采样处理的目标图像，第一图像和第二图像的分辨率是相同的。

在本公开的一种示例性实施例中，上述视频增强装置，还包括：

样本获取处理器，被配置为获取多组M帧样本图像以及每组M帧样本图像对应的至少一帧样本增强图像；

针对每个第一尺度的样本图像特征，均执行以下过程：

对第二尺度的样本图像特征进行N级上采样处理，得到每级上采样对应的预测输出图像；

将各级上采样的损失之和作为目标损失，根据目标损失更新原始视频处理模型中的网络参数值。

在本公开的一种示例性实施例中，每组M帧样本图像对应一帧样本增强图像，一帧样本增强图像具体为该组M帧样本图像的中间帧样本图像对应的增强图像，其中，M为大于1的奇数。

在本公开的一种示例性实施例中，该组M帧样本图像的中间帧样本图像对应的增强图像具体为：

中间帧样本图像对应的去噪图像；或者

中间帧样本图像对应的去模糊图像。

在本公开的一种示例性实施例中，M的值为3、5或7。

在L帧图像的第一帧图像之前，以及最后一帧图像之后分别增加

帧图像，得到L+M-1帧图像；

视频帧划分处理器，被配置为将L+M-1帧图像划分为L组M帧图像，L为大于M的整数；

图像增强处理器，具体被配置为针对每组M帧图像将M帧图像输入预先建立的视频处理模型，得到M帧图像中至少一帧图像的增强图像。

在本公开的一种示例性实施例中，图像增强处理器通过下述步骤实现对第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像：

将第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到叠加特征；

将叠加特征转换为三个通道的图像特征，得到该第一尺度的图像特征对应的增强图像。

在本公开的一种示例性实施例中，图像增强处理器通过下述步骤实现对第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像，包括：

对第三尺度的图像特征和第一尺度的图像特征进行叠加处理之后进行超分辨率处理，得到该第一尺度的图像特征对应的超分辨率图像。

需要说明的是本公开所有实施例中的尺度可以理解为对应图像的分辨率。

在本公开的一种示例性实施例中，N的值为4。

上述装置中各处理器的具体细节已经在对应的方法中进行了详细的描述，因此此处不再赘述。

需要说明的是，上述装置中各处理器可以是通用处理器，包括：中央处理器、网络处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述装置中的各处理器可以是独立的处理器，也可以集成在一起。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行本示例实施方式中的视频增强方法的全部或者部分步骤。

图8示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理器801，其可以根据存储在只读存储器802中的程序或者从存储部分808加载到随机访问存储器803中的程序而执行各种适当的动作和处理。在随机访问存储器803中，还存储有系统操作所需的各种程序和数据中央处理器801、只读存储器802以及随机访问存储器803通过总线804彼此相连。输入/输出接口805也连接至总线804。

以下部件连接至输入/输出接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至输入/输出接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理器801执行时，执行本申请的装置中限定的各种功能。

在本公开的示例性实施例中，还提供一种非易失性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

需要说明的是，本公开所示的非易失性计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。非易失性计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，非易失性计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是非易失性计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频等等，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

一种视频增强方法，其中，包括：

将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，M为大于1的整数；

所述将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，包括：

对所述M帧图像进行特征提取，得到至少一个第一尺度的图像特征；

针对每个所述第一尺度的图像特征，均执行以下过程：

对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征，N为大于1的整数；

对所述第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征；其中，第1级上采样处理的输入为所述第二尺度的图像特征，第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，i为2～N的整数，j为1～N的整数；

对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像。
根据权利要求1所述的方法，其中，所述预先建立的视频处理模型是通过目标损失对原始视频处理模型进行训练得到；所述原始视频处理模型被配置为对输入所述原始视频处理模型的视频进行视频增强处理；所述目标损失包括多级尺度的损失，所述多级尺度的损失中每级尺度的损失为N级上采样处理中每级上采样处理的损失。
根据权利要求2所述的方法，其中，所述每级上采样处理的损失是第一图像和第二图像之间的损失，所述第一图像是将M帧样本图像输入所述原始视频处理模型进行对应级的上采样处理得到的，所述第二图像是每级上采样处理的目标图像，所述第一图像和所述第二图像的分辨率是相同的。
根据权利要求2所述的方法，其中，对所述原始视频处理模型进行训练得到所述预先建立的视频处理模型，包括：

获取多组M帧样本图像以及每组所述M帧样本图像对应的至少一帧样本增强图像；

针对每组M帧样本图像，对所述每组M帧样本图像进行特征提取，得到至少一个第一尺度的样本图像特征；

针对每个第一尺度的样本图像特征，均执行以下过程：

对第一尺度的样本图像特征进行N级下采样处理，得到第二尺度的样本图像特征；

对所述第二尺度的样本图像特征进行N级上采样处理，得到每级上采样对应的预测输出图像；

针对每级上采样，将所述每级上采样对应的目标输出图像与该级上采样对应的预测输出图像的差值作为该级上采样的损失；其中，第i级上采样对应的目标输出图像为对该组M帧样本图像对应的样本增强图像进行N+1-i级下采样处理的输入；

将各级上采样的损失之和作为所述目标损失，根据所述目标损失更新所述原始视频处理模型中的网络参数值。
根据权利要求4所述的方法，其中，每组M帧样本图像对应一帧样本增强图像，所述一帧样本增强图像具体为所述每组M帧样本图像的中间帧样本图像对应的增强图像，其中，M为大于1的奇数。
根据权利要求1所述的方法，其中，M的值为3、5或7。
根据权利要求6所述的方法，其中，在所述将M帧图像输入预先建立的视频处理模型之前，所述方法还包括：

获取待处理视频中的L帧图像；

在所述L帧图像的第一帧图像之前，以及最后一帧图像之后分别增加
帧图像，得到L+M-1帧图像；

将所述L+M-1帧图像划分为L组M帧图像，L为大于M的整数；

其中，针对每组M帧图像，执行所述将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像的步骤。
根据权利要求1所述的方法，其中，所述对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像，包括：

将所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到叠加特征；

将所述叠加特征转换为三个通道的图像特征，得到该第一尺度的图像特征对应的增强图像。
根据权利要求1所述的方法，其中，所述对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像，包括：

对所述第三尺度的图像特征和所述第一尺度的图像特征进行叠加处理之后进行超分辨率处理，得到所述第一尺度的图像特征对应的超分辨率图像。
根据权利要求1所述的方法，其中，N的值为4。
一种视频增强装置，其中，包括：

图像增强处理器，被配置为将M帧图像输入预先建立的视频处理模型，得到所述M帧图像中至少一帧图像的增强图像，M为大于1的整数；

所述图像增强处理器，具体被配置为对所述M帧图像进行特征提取，得到至少一个第一尺度的图像特征；

针对每个所述第一尺度的图像特征，均执行以下过程：

对该第一尺度的图像特征进行N级下采样处理，得到第二尺度的图像特征，N为大于1的整数；

对所述第二尺度的图像特征进行N级上采样处理，得到第三尺度的图像特征；其中，第1级上采样处理的输入为所述第二尺度的图像特征，第i级上采样处理的输入为第N+1-i级下采样处理的输出和第i-1级上采样处理的输出进行叠加处理后的图像特征；第j级上采样处理的放大倍数和第N+1-j级下采样处理的缩小倍数相同，i为2～N的整数，j为1～N的整数；

对所述第三尺度的图像特征和该第一尺度的图像特征进行叠加处理，得到该第一尺度的图像特征对应的增强图像。
根据权利要求11所述的装置，其中，所述预先建立的视频处理模型是通过目标损失对原始视频处理模型进行训练得到；所述原始视频处理模型被配置为对输入所述原始视频处理模型的视频进行视频增强处理；所述目标损失包括多级尺度的损失，所述多级尺度的损失中每级尺度的损失为N级上采样处理中每级上采样处理的损失。
根据权利要求12所述的装置，其中，所述每级上采样处理的损失是第一图像和第二图像之间的损失，所述第一图像是将M帧样本图像输入所述原始视频处理模型进行对应级的上采样处理得到的，所述第二图像是每级上采样处理的目标图像，所述第一图像和所述第二图像的分辨率是相同的。
一种电子设备，其中，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～10任一项所述的方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1～10任一项所述的方法。