WO2022077417A1

WO2022077417A1 - 图像处理方法、图像处理设备和可读存储介质

Info

Publication number: WO2022077417A1
Application number: PCT/CN2020/121405
Authority: WO
Inventors: 陈冠男; 段然; 高艳
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-21
Also published as: CN114641792A

Abstract

公开一种图像处理方法、图像处理设备和计算机可读存储介质，图像处理方法包括：利用训练好的第一神经网络对输入图像进行处理，得到目标输出图像；训练好的第一神经网络是对待训练的第一神经网络进行第一训练方法训练得到，第一训练方法包括：对待训练的第二神经网络和待训练的判别网络进行交替训练，得到训练好的第二神经网络和训练好的判别网络；将第一样本图像分别提供给训练好的第二神经网络和待训练的第一神经网络，以使待训练的第一神经网络输出第一输出图像，训练好的第二神经网络输出第二输出图像；将第一输出图像提供给训练好的判别网络，以使判别网络生成第一判别结果；根据总损失调整第一神经网络的参数，得到更新后的第一神经网络。

Description

图像处理方法、图像处理设备和可读存储介质

技术领域

本公开涉及图像处理技术领域，具体涉及一种图像处理方法、图像处理设备和可读存储介质。

背景技术

视频在传输前，由于带宽限制，需要进行压缩编码。而压缩后的视频会产生多种压缩噪声，影响人们在显示终端对视频的观感体验。

深度学习技术的兴起，为视频压缩修复方向带来了技术上的突破。其通过对大量视频数据的训练学习，可以很好地提高修复效果。但深度学习的算法模型一般参数量越大，并且，网络结构越深，处理效果越好，这就会导致计算量过大，无法满足视频在显示终端的实时处理要求。

发明内容

本公开的多个方面提供一种图像处理方法、图像处理设备和可读存储介质。

本公开实施例提供了一种图像处理方法，包括：

利用训练好的第一神经网络对输入图像进行处理，得到目标输出图像；所述目标输出图像的清晰度大于所述输入图像的清晰度；

其中，训练好的所述第一神经网络是对待训练的第一神经网络进行第一训练方法训练得到，所述第一训练方法包括：

对待训练的第二神经网络和待训练的判别网络进行交替训练，得到训练好的第二神经网络和训练好的判别网络；其中，训练好的所述第二神经网络的参数多于待训练的所述第一神经网络的参数；训练好的所述第二神经网络配置为将接收到的、具有第一清晰度的图像变换为具有第二清晰度的图像，所述第二清晰度大于所述第一清晰度；待训练的所述第一神经网络包括：多个第一特征提取子网络和位于所述多个第一特征提取子网络之后的第一输出子网络，训练好的所述第二神经网络包括：多个第二特征提取子网络和位于所述多个第二特征提取子网络之后的第二输出子网络，所述第一特征提取子网络与所述第二特征提取子网络一一对应；

将第一样本图像分别提供给训练好的所述第二神经网络和待训练的所述第一神经网络，以使待训练的所述第一神经网络输出第一输出图像，训练好的所述第二神经网络输出第二输出图像；

将所述第一输出图像提供给训练好的所述判别网络，以使训练好的所述判别网络生成基于所述第一输出图像的第一判别结果；

根据总损失调整所述第一神经网络的参数，以得到更新后的所述第一神经网络；其中，所述总损失包括第一损失、第二损失和第三损失，所述第一损失是基于所述第一输出图像和所述第二输出图像的差异得到的；所述第二损失是基于所述第一判别结果与第一目标结果的差异得到的；所述第三损失是基于至少一个所述第一特征提取子网络的输出图像与相应的所述第二特征提取子网络的输出图像的差异得到的。

在一些实施例中，所述第一特征提取子网络的输出图像的通道数小于相应的第二特征提取子网络的输出图像的通道数；

所述第一训练方法还包括：将多个所述第二特征提取子网络的输出图像一一对应地提供给多个降维层，以使每个降维层生成中间图像；所述中间图像的通道数与所述第一特征提取子网络的输出图像的通道数相同；

根据总损失函数调整所述第一神经网络的参数，包括：对所述第一神经网络和所述降维层的参数都进行调整；其中，所述第三损失是基于每个所述中间图像与相应的所述第一特征提取子网络的输出图像之间的差异的总和得到的。

在一些实施例中，所述总损失还包括：第四损失，所述第四损失是基于所述第一输出图像与所述第二输出图像的感知损失得到的。

在一些实施例中，所述第一输出图像与所述第二输出图像的感知损失

根据以下公式计算：

其中，y1为所述第一输出图像，y2为所述第二输出图像，

为训练好的所述判别网络中的预设网络层，j为所述预设网络层在所述判别网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度。

在一些实施例中，所述第一损失包括所述第一输出图像与所述第二输出图像的L1损失。

在一些实施例中，所述第二损失包括所述第一判别结果与第一目标结果的交叉熵损失。

在一些实施例中，所述第三损失项包括每个第一特征提取子网络的输出图像与相应的中间图像的L2损失的总和。

在一些实施例中，将所述第一输出图像提供给训练好的所述判别网络，以使训练好的所述判别网络生成基于所述第一输出图像的第一判别结果，包括：

将所述第一输出图像设置为带有真值标签，并将具有真值标签的第一输出图像提供给训练好的所述判别网络，以使所述判别网络输出第一判别结果。

在一些实施例中，对待训练的第二神经网络和待训练的判别网络进行交替训练的步骤中，对待训练的判别网络进行训练，包括：

将第二样本图像提供给当前的所述第二神经网络，以使当前的所述第二神经网络生成第一清晰度提升图像；

将所述第一清晰度提升图像以及与所述第二样本图像对应的原始样本图像提供给当前的所述判别网络，并根据当前的所述判别网络的损失函数来调节当前的所述判别网络的参数，使得调参后的所述判别网络输出能够表征所述判别网络的输入为所述第二神经网络的输出图像还是所述原始样本图像的判别结果。

在一些实施例中，对待训练的第二神经网络和待训练的判别网络进行交替训练的步骤中，对待训练的第二神经网络进行训练，包括：

将第三样本图像提供给当前的所述第二神经网络，以使当前的所述第二神经网络生成第二清晰度提升图像；

将所述第二清晰度提升图像输入调参后的所述判别网络，以使调参后的所述判别网络生成基于所述第二清晰度提升图像的第二判别结果；

基于当前的所述第二神经网络的损失函数，调整当前的所述第二神经网络的参数，以得到更新后的第二神经网络；当前的所述第二神经网络的损失函数中的第一项基于所述第二清晰度提升图像与其对应的原始样本图像之间的差异，当前的所述第二神经网络的损失函数中的第二项基于所述第二判别结果与第二目标结果之间的差异。

在一些实施例中，当前的所述第二神经网络的损失函数中的第一项为λ ₁LossG1，λ ₁为预设的权值，LossG1为所述第二清晰度提升图像与其对应的原始样本图像之间的L1损失；

当前的所述第二神经网络的损失函数中的第二项为λ ₂L _D，λ ₂为预设的权值，L _D为所述第二判别结果与所述第二目标结果的交叉熵；

当前的所述第二神经网络的损失函数中的第三项为

λ ₃为预设的权值，y为所述第二清晰度提升图像所对应的原始样本图像，

为所述第二清晰度提升图像；

为预设优化网络中的预设网络层，j为预设网络层在所述预设优化网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度；所述预设优化网络采用VGG-19网络。

在一些实施例中，待训练的所述第一神经网络包括：多个第一上采样层、多个第一下采样层和多个单层卷积层，每个所述第一上采样层和每个所述第一下采样层均位于两个所述单层卷积层之间；倒数第i个所述单层卷积层的输入数据包括倒数第i个所述第一上采样层的输出数据和正数第i个所述单层卷积层的输出数据的叠加；其中，所述单层卷积层的数量为偶数，i大于0且小于所述单层卷积层的数量的一半；

训练好的所述第二神经网络包括：多个第二上采样层、多个第二下采样层和多个残差块，所述多个第二上采样层与所述多个第一上采样层一一对应，所述多个第二下采样层与所述多个第一下采样层一一对应，所述多个残差块与所述多个单层卷积层一一对应；倒数第i个所述残差块的输入数据为倒数第i个所述第二上采样层的输出数据和正数第i个所述残差块的输出数据的叠加；

所述第一特征提取子网络包括：所述第一上采样层、或者所述第一下采样层、或者所述单层卷积层；所述第一输出子网络包括所述单层卷积层；所述第二特征提取子网络包括：所述第二上采样层、或者所述第二下采样层、或者所述残差块；所述第二输出子网络包括所述残差块。

本公开实施例还提供一种图像处理设备，包括存储器和处理器，所述存储器上存储有计算机程序，其中，所述计算机程序被所述处理器执行时实现上述的图像处理方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现上述的图像处理方法。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为一种卷积神经网络的示意图。

图2为本公开实施例中提供的图像处理方法示意图。

图3为本公开实施例中提供的第一训练方法的示意图。

图4为本公开实施例中提供的包括第一神经网络和第二神经网络的网络架构示意图。

图5为残差块的示例图。

图6为本公开实施例中提供的训练好的判别网络的结构示意图。

图7为本公开实施例中提供的步骤S21的一种可选实现方式流程图。

图8为采用本公开实施例的图像处理方法对图像处理前后的效果图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

视频在传输前，由于带宽限制，需要进行压缩编码。而压缩后的视频会产生多种压缩噪声，影响人们在显示终端对视频的观感体验。基于深度学习的视频压缩修复技术，能够提高对视频压缩噪声的修复效果。但是，深度学习的算法模型的参数量较大，从而造成显示终端的计算量过大。

深度学习系统的主要组成部分是卷积神经网络，图1为一种卷积神经网络的示意图。该卷积神经网络可以用于图像处理，其使用图像作为输入和输出，并通过滤波器(即，卷积)替代标量权重。图1中仅示出了具有3层结构的卷积神经网络，本公开的实施例对此不作限制。如图1所示，卷积神经网络包括输入层101、隐藏层102和输出层103。在输入层101输入4个输入图像，在中间的隐藏层102存在3个单元以输出3个输出图像，而在输出层103存在2个单元以输出2个输出图像。

如图1所示，卷积层具有权重w _ij ^k和偏置b _i ^k，权重w _ij ^k表示卷积核，偏置是叠加到卷积层的输出的标量，其中，k是表示输入层101号的标签，i和j分别是输入层101的单元和隐藏层102的单元的标签。例如，第一卷积层201包括第一组卷积核(图1中的w _ij ¹)和第一组偏置(图1中的b _i ¹)。第二卷积层202包括第二组卷积核(图1中的w _ij ²)和第二组偏置(图1中的b _i ²)。通常，每个卷积层包括数十个或数百个卷积核，若卷积神经网络为深度卷积神经网络，则可以包括至少五层卷积层。

如图1所示，该卷积神经网络还包括第一激活层203和第二激活层204。第一激活层203位于第一卷积层201之后，第二激活层204位于第二卷积层202之后。激活层包括激活函数，激活函数用于给卷积神经网络引入非线性因素，以使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。激活层可以单独作为卷积神经网络的一层，或者激活层也可以被包含在卷积层中。

图1的卷积神经网络可以用于提高图像的清晰度，经过训练的卷积神经网络将输入的低清晰度图像进行清晰度的提升，得到高清晰度的图像。卷积神经网络的训练过程即为对卷积神经网络的参数的优化过程。其中，卷积神经网络的损失有助于优化卷积神经网络的参数 (权重)，训练过程的目标是通过优化神经网络的参数来最大程度地减小神经网络的损失。其中，神经网络的损失用于衡量网络模型预测的好坏，即，用来表现预测结果与实际数据的差距程度。

本公开实施例提供一种图像处理方法，图2为本公开实施例中提供的图像处理方法示意图，如图2所示，图像处理方法包括：S10、利用训练好的第一神经网络对输入图像进行处理，得到目标输出图像。目标输出图像的清晰度高于输入图像的清晰度。

需要说明的是，本公开的实施例中，“清晰度”例如是指图像中各细部影纹及其边界的清晰程度，清晰度越高，人眼的感观效果越好。目标输出图像的清晰度高于输入图像的清晰度，例如是指采用本公开实施例提供的图像处理方法对输入图像进行处理，例如进行去噪和/或去模糊处理，从而使处理后得到的目标输出图像比输入图像更清晰。

在本公开实施例中，其中，训练好的所述第一神经网络是对待训练的第一神经网络进行第一训练方法训练得到，图3为本公开实施例中提供的第一训练方法的示意图，如图3所示，第一训练方法包括：

S21、对待训练的第二神经网络和待训练的判别网络进行交替训练，得到训练好的第二神经网络和训练好的判别网络。

在本公开实施例中，训练好的第二神经网络的参数多于待训练的第一神经网络的参数。图4为本公开实施例中提供的包括待训练的第一神经网络和训练好的第二神经网络的网络架构示意图，待训练的第一神经网络10包括：多个第一特征提取子网络ML1和位于多个第一特征提取子网络ML1之后的第一输出子网络OL1，训练好的第二神经网络20包括：多个第二特征提取子网络ML2和位于多个第二特征提取子网络ML2之后的第二输出子网络OL2，第一特征提取子网络ML1与第二特征提取子网络ML2一一对应。

在一些实施例中，待训练的第一神经网络10包括：多个第一上采样层13、多个第一下采样层12和多个单层卷积层11，每个第一上采样层13和每个第一下采样层12均位于两个单层卷积层11之间；倒数第i个单层卷积层11的输入数据包括倒数第i个第一上采样层13的输出数据和正数第i个单层卷积层11的输出数据的叠加。其中，单层卷积层11的数量为偶数，i大于0且小于单层卷积层的数量的一半。第二神经网络20包括：多个第二上采样层23、多个第二下采样层22和多个残差块21，多个第二上采样层23与多个第一上采样层13一一对应，多个第二下采样层22与多个第一下采样层12一一对应，多个残差块21与多个单层卷积层11一一对应；倒数第i个残差块21的输入数据包括倒数第i个第二上采样层23的输出数据和正数第i个残差块21的输出数据的叠加。

单层卷积层11、第一上采样层13和第一下采样层12均采用3*3的卷积核，卷积核数均为128。第二上采样层23的采样倍率与第一上采样层13相同，第二下采样层22的采样倍率与第一下采样层12相同。示例性地，第一上采样层13和第一下采样层12均为2倍采样。第一下采样层12和第二下采样层22可以包括反向Muxout层、条纹卷积(Strided Convolution)、最大池化层(Maxpool Layer)或标准的每通道下采样器(如双三次插值)。第一上采样层13和第二上采样层23可以包括Muxout层、条纹反向卷积(Strided Transposed Convolution)或标准的每通道上采样器(如双三次插值)。

图5为残差块的示例图，如图5所示，每个残差块21包括三个依次连接的子残差块21a。每个子残差块21a采用两个具有3*3卷积核的卷积层，两个卷积层之间连接有激活层，每个子残差块21a中，其输入叠加到最后一个卷积层的输出结果上，从而作为子残差块21a的输出。激活层包括激活函数，激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。激活层可以单独作为卷积神经网络的一层，或者激活层也可以被包含在卷积层中。在第一卷积网络10中，以单层卷积层11代替第二神经网络20中的残差块21，从而减少第一卷积网络10的参数量。

第一特征提取子网络ML1包括：第一上采样层13、或者第一下采样层12、或者所述单层卷积层11；所述第一输出子网络OL1包括单层卷积层21；所述第二特征提取子网络ML2包括：第二上采样层23、或者第二下采样层22、或者残差块21；第二输出子网络OL2包括残差块21。另外，第一特征提取子网络ML1的输出图像的通道数大于第二特征提取子网络ML2的输出图像的通道数。示例性地，第一特征提取子网络ML1的输出图像的通道数为128，第二特征提取子网络ML2的输出图像的通道数为32。需要说明的是，在神经网络中，输入每个网络层的图像均是以矩阵进行表示的，神经网络中的第一层接收到的图像可以为R、G、B三通道的图像矩阵，即，每个通道的图像矩阵表示图像的红色分量、绿色分量或蓝色分量的数据。而每个网络层用于对图像进行特征提取，经过特征提取后，网络层的输出数据包括多个矩阵，每个矩阵即表示图像的一个通道。

在本公开实施例中，待训练的第二神经网络和待训练的判别网络进行交替训练，从而相互竞争，获得最佳模型。具体地，训练好的第二神经网络配置为将接收到的、具有第一清晰度的图像变换为具有第二清晰度的图像，第二清晰度大于第一清晰度。训练好的判别网络配置为，确定第二神经网络的输出结果与预设标准图像的匹配度，该匹配度在0～1之间。其中，对待训练的第二神经网络进行训练时，通过调整当前的第二神经网络的参数，以使参数调整后的第二神经网络的输出结果输入当前的判别网络后，判别网络输出尽量接近1的匹配度；对待训练的判别网络进行训练时，通过调整当前的判别网络的参数，以使得预设标准图像输入当前的判别网络后，当前的判别网络输出结果尽量接近1(即，判别网络判定其输入为“真”样本)，且当前的第二神经网络的输出结果进入判别网络后，判别网络输出结果尽量接近0(即，判别网络判定其输入为“假”样本)。通过第二神经网络和判别网络的交替训练，使得判别网络不断优化，以尽量判别区分开第二神经网络的输出结果与预设标准图像，而第二神经网络不断优化，以使输出结果尽可能接近预设标准图像。这种方法使得两个神经网络在每次训练中基于另一网络越来越好的结果而进行竞争和不断改进，以得到越来越优的网络模型。

图6为本公开实施例中提供的训练好的判别网络的结构示意图，如图6所示，训练好的判别网络30包括多个卷积层31～34和全连接层35，示例性地，每个卷积层31～34采用2倍下采样卷积层，每个卷积层31～34后面连接一个激活层，激活层包括激活函数，激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。每个卷积层31～34中采用3*3的卷积核，卷积层31输出的图像的通道数为32，卷积层32输出的图像的通道数为64，卷积层33输出的图像的通道数为128，卷积层34输出的图像的通道数为192。全连接层35输出1024*1的向量，之后通过激活层(例如，该激活层采用sigmoid作为激活函数)后，输出0～1之间的值。

应当理解的是，训练好的判别网络和待训练的判别网络的结构(即，卷积层数，卷积层中的卷积核数量)相同，区别在于卷积层中的权重不同。

需要说明的是，图4、图5中的训练好的第一神经网络10和训练好的判别网络30中的网络层的层数仅为示例性说明，在实际应用中，可以根据需要对网络结构进行调整。

S22、将第一样本图像分别提供给训练好的第二神经网络和待训练的第一神经网络，以使待训练的第一神经网络输出第一输出图像，训练好的第二神经网络输出第二输出图像。

在一些示例中，可以对原始视频进行低码率的压缩(例如，压缩码率为1Mbps)，得到压缩后的视频，压缩后的视频中的每一帧图像均可以作为带有噪声的第一样本图像，所述噪声可以为高斯噪声。

S23、将第一输出图像提供给训练好的判别网络，以使训练好的判别网络生成基于第一输出图像的第一判别结果。

S24、根据总损失调整第一神经网络的参数，以得到更新后的第一神经网络。其中，总损失包括第一损失、第二损失和第三损失，第一损失是基于第一输出图像和第二输出图像的差异得到的；第二损失是基于第一判别结果与第一目标结果的差异得到的；第三损失是基于至少一个第一特征提取子网络的输出图像与相应的第二特征提取子网络的输出图像的差异得到的。

如上所述，训练好的判别网络30的输出为0～1之间的匹配度，这种情况下，第一目标结果为接近1或等于1的匹配度。

需要说明的是，“根据总损失调整第一神经网络的参数”是指，调整第一神经网络的参数，使得在多次进行第一训练方法时，总损失的值整体上呈减小的趋势。第一训练方法的执行次数可以预先设定，或者，当总损失小于预设值时，不再进行第一训练方法。还需要说明的是，不同次的第一训练方法中，所利用的第一样本图像可以不同。

在本公开实施例中，两个图像之间的差异为两个图像的低频信息的差异，其可以采用L1损失值、均方误差(MSE)、相似度(SSIM) 等来进行表征。

在一些实施例中，第一损失包括第一输出图像与第二输出图像的L1损失，具体可为x ₁Loss1，其中，x ₁为预设的权值，Loss1为第一输出图像与第二输出图像的L1损失，即，Loss1＝||y1-y2|| ₁，y1为第一输出图像，y2为第二输出图像。

在一些实施例中，第二损失包括第一判别结果与第一目标结果的交叉熵损失，具体为x ₂Loss2，x ₂为预设的权值，Loss2为判别网络的第一判别结果与第一目标结果的交叉熵损失。

具体地，Loss2＝-[PlogP’+(1-P)log(1-P’)]，其中，P为第一目标结果，P’为第一判别结果。在一些实施例中，步骤S23具体包括：将第一输出图像设置为带有真值标签，并将具有真值标签的第一输出图像提供给训练好的判别网络，以使判别网络输出第一判别结果。其中，真值标签用于表示图像为“真”样本，第一目标结果为真值标签对应的概率。例如，第一目标结果为1。

在一些实施例中，第三损失具体是基于至少一个第一特征提取子网络的输出图像的变换图像与相应的第二特征提取子网络的输出图像的差异得到的。例如，包括第一神经网络和第二神经网络的网络架构还包括多个降维层40。降维层40与第一特征提取子网络ML1一一对应，降维层40配置为对相应的第一特征提取子网络的输出图像进行通道降维，生成中间图像；中间图像的通道数与所述第二特征提取子网络的输出图像的通道数相同。

第一训练方法还包括：将多个所述第二特征提取子网络的输出图像一一对应地提供给多个降维层，以使每个降维层生成中间图像；中间图像的通道数与第一特征提取子网络的输出图像的通道数相同。这种情况下，在步骤S24中，对所述第一神经网络和所述降维层的参数都进行调整。其中，第三损失是基于每个所述中间图像与相应的所述第一特征提取子网络的输出图像之间的差异的总和得到的。

在一些实施例中，中间图像与第二特征提取子网络的输出图像之间的差异以二者的L2损失来表示。第三损失为x ₃Loss3，其中，Loss3为每个第一特征提取子网络的输出图像与相应的中间图像的L2损失的总和。具体地，Loss3根据以下公式计算：

其中，x ₃为预设的权值；T为第一特征提取子网络的数量，S _n(z)为第一神经网络中第n层第二特征提取子网络的输出图像，G _n(z)为第二神经网络中第n层第一特征提取子网络的输出图像，f(G _n(z))为第二神经网络中第n层第一特征提取子网络所对应的降维层输出的中间图像。

在本公开实施例中，和训练好的第二神经网络相比，训练好的第一神经网络得到了简化，训练好的第一神经网络具有更少的参数和更简单的网络结构，使得训练好的第一神经网络在其运行时占用较少的资源(例如计算资源、存储资源等)，因而可以应用于轻量级的终端。并且，在对待训练的第一神经网络训练时所采用的总损失中，第一损失是基于第一神经网络的输出结果与第二神经网络的输出结果的差异得到的，第二损失是基于训练好的判别网络的判别结果与第一目标结果的差异得到的，第三损失是基于至少一个第一特征提取子网络的输出图像与相应的第二特征提取子网络的输出图像的差异得到的，从而使得训练好的第一神经网络的性能尽量与第二神经网络相同。因此，本公开实施例可以在保证图像处理效果的前提下，减少图像处理模型的参数，从而提高图像处理速度。

在一些实施例中，总损失还包括：第四损失，第四损失是基于第一输出图像与第二输出图像的感知损失得到的。其中，感知损失用于表征两个图像高频信息(例如，图像上的纹理、毛发等细节特征)的差异。

可选地，第四损失为：

x ₄为预设的权值。

为第一输出图像与第二输出图像的感知损失，其根据以下公式计算：

其中，y1为第一输出图像，y2为第二输出图像，

为训练好的所述判别网络中的预设网络层，j为所述预设网络层在所述判别网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度。可以理解的是，

为第一输出图像输入至训练好的判别网络后，预设网络层的输出图像；

为第二输出图像输入至预设优化网络后，预设网络层的输出图像。可选地，预设网络层可以输出图像通道数为128的卷积层。

图7为本公开实施例中提供的步骤S21的一种可选实现方式流程图，如图7所示，步骤S21具体包括：交替进行步骤S21a和步骤S21b，直至达到预设训练条件。预设训练条件例如为：步骤S21a和步骤S21b的交替次数达到预设次数。

S21a、将第二样本图像提供给当前的所述第二神经网络，以使第二神经网络生成第一清晰度提升图像。将第一清晰度提升图像以及与第二样本图像对应的原始样本图像提供给当前的判别网络，并根据当前的判别网络的损失函数来调节判别网络的参数，使得调参后的判别网络输出能够表征判别网络的输入为第二神经网络的输出图像还是原始样本图像的判别结果。

S21b、将第三样本图像提供给当前的第二神经网络，以使第二神经网络生成第二清晰度提升图像。将第二清晰度提升图像输入调参后的判别网络，以使调参后的判别网络生成基于第二清晰度提升图像的第二判别结果。基于第二神经网络的损失函数，调整第二神经网络的参数，以得到更新后的第二神经网络。

需要说明的是，将第n次步骤S21a和第n次步骤S21b作为一轮训练过程，那么，在第一轮训练过程中，当前的第二神经网络是待训练的第二神经网络；在第一轮之后的每轮训练过程中，当前的第二神经网络均是上一轮训练过程的步骤S21b中所更新后的第二神经网络。在第一轮训练过程中，当前的判别网络是待训练的判别网络；在第一轮之后的每轮训练过程中，当前的判别网络均是上一轮训练过程的步骤S21a中所调参后的判别网络。

其中，所述第二神经网络的损失函数中的第一项基于所述第二清晰度提升图像与其对应的原始样本图像之间的差异，所述第二神经网络的损失函数中的第二项基于所述第二判别结果与第二目标结果之间的差异。

在一些实施例中，第二神经网络的损失函数LossG中的第一项为λ ₁LossG1，λ ₁为预设的权值，LossG1为第二清晰度提升图像与其对应的原始样本图像之间的L1损失。具体地，

y为第二清晰度提升图像所对应的原始样本图像，

为所述第二清晰度提升图像。

第二神经网络的损失函数中的第二项为λ ₂L _D，λ ₂为预设的权值，L _D为第二判别结果与第二目标结果的交叉熵。其中，第二目标结果用于表征判别网络的输入为第二清晰度提升图像对应的原始图像，即，用于表示判别网络的输入为“真”样本。例如，第二目标结果为1。

第二神经网络的损失函数中的第三项为

其中，λ ₃为预设的权值。

为预设优化网络中的预设网络层，j为预设网络层在所述预设优化网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度；所述预设优化网络采用VGG-19网络。需要说明的是，在神经网络中，每层网络层所输出的图像并不是视觉可见的图像，而是以矩阵进行表示的，图像的高度可以看做矩阵的行数，图像的宽度可以看做矩阵的列数。

也就是说，在第二神经网络进行多次训练后，更新后的第二神经网络所输出的图像与原始样本图像的L1损失值尽量接近，并且，第二神经网络所输出的图像与原始样本图像的感知损失尽量接近，同时，第二神经网络所输出的图像提供给判别网络后，判别网络输出的结果接近1。

可选地，在同一轮训练过程中的步骤S21a和S21b中，第二样本图像和第三样本图像可以是相同的。而在不同轮的训练过程中的第二样本图像不同，第三样本图像也不同。

需要说明的是，在每一轮训练过程中，可以先进行判别网络的训练步骤，也可以先进行生成网络的训练步骤。

在一些示例中，可以对原始视频进行无损压缩得到无损压缩视频，将无损压缩视频图像中的图像帧作为原始样本图像；对原始视频进行第一码率的压缩得到低损压缩视频，将低损压缩视频中的图像帧作为第二样本图像或第三样本图像。

在一些示例中，步骤S21的训练过程可以采用Adam优化器，学习率为1e-4。

在本公开实施例中，训练好的第一神经网络具有比第二神经网络更少的参数和更简单的网络结构，使得第一神经网络在其运行时占用较少的资源(例如计算资源、存储资源等)，因而可以应用于轻量级的终端。并且，待训练的第一神经网络的训练方法能够使训练好的第一神经网络的性能与训练好的第二神经网络接近，因此，本公开实施例的图像处理方法能够获得清晰度较高的图像的同时，提高图像处理速度。

图8为采用本公开实施例的图像处理方法对图像处理前后的效果图，图8中的左图为处理前的输入图像，右图为处理后的目标输出图像。如图8所示，经过图像处理后，图像的清晰度提高。并且，和第二卷积网络相比，第一卷积网络的参数量压缩倍数大于50倍，处理速度提高15倍左右。

本公开还提供一种图像处理设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序被所述处理器执行时实现上述图像处理模型的训练方法。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述图像处理模型的训练方法。

上述存储器和所述计算机可读存储介质包括但不限于以下可读介质：诸如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、闪存、磁或光数据存储、寄存器、磁盘或磁带、诸如光盘(CD)或DVD(数字通用盘)的光存储介质以及其它非暂时性介质。处理器的示例包括但不限于通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

一种图像处理方法，包括：

利用训练好的第一神经网络对输入图像进行处理，得到目标输出图像；所述目标输出图像的清晰度大于所述输入图像的清晰度；

其中，训练好的所述第一神经网络是对待训练的第一神经网络进行第一训练方法训练得到，所述第一训练方法包括：

对待训练的第二神经网络和待训练的判别网络进行交替训练，得到训练好的第二神经网络和训练好的判别网络；其中，训练好的所述第二神经网络的参数多于待训练的所述第一神经网络的参数；训练好的所述第二神经网络配置为将接收到的、具有第一清晰度的图像变换为具有第二清晰度的图像，所述第二清晰度大于所述第一清晰度；待训练的所述第一神经网络包括：多个第一特征提取子网络和位于所述多个第一特征提取子网络之后的第一输出子网络，训练好的所述第二神经网络包括：多个第二特征提取子网络和位于所述多个第二特征提取子网络之后的第二输出子网络，所述第一特征提取子网络与所述第二特征提取子网络一一对应；

将第一样本图像分别提供给训练好的所述第二神经网络和待训练的所述第一神经网络，以使待训练的所述第一神经网络输出第一输出图像，训练好的所述第二神经网络输出第二输出图像；

将所述第一输出图像提供给训练好的所述判别网络，以使训练好的所述判别网络生成基于所述第一输出图像的第一判别结果；

根据总损失调整所述第一神经网络的参数，以得到更新后的所述第一神经网络；其中，所述总损失包括第一损失、第二损失和第三损失，所述第一损失是基于所述第一输出图像和所述第二输出图像的差异得到的；所述第二损失是基于所述第一判别结果与第一目标结果的差异得到的；所述第三损失是基于至少一个所述第一特征提取子网络的输出图像与相应的所述第二特征提取子网络的输出图像的差异得到的。
根据权利要求1所述的图像处理方法，其中，所述第一特征提取子网络的输出图像的通道数小于相应的第二特征提取子网络的输出图像的通道数；

所述第一训练方法还包括：将多个所述第二特征提取子网络的输出图像一一对应地提供给多个降维层，以使每个降维层生成中间图像；所述中间图像的通道数与所述第一特征提取子网络的输出图像的通道数相同；

根据总损失函数调整所述第一神经网络的参数，包括：对所述第一神经网络和所述降维层的参数都进行调整；其中，所述第三损失是基于每个所述中间图像与相应的所述第一特征提取子网络的输出图像之间的差异的总和得到的。
根据权利要求1所述的图像处理方法，其中，所述总损失还包括：第四损失，所述第四损失是基于所述第一输出图像与所述第二输出图像的感知损失得到的。
根据权利要求3所述的图像处理方法，其中，所述第一输出图像与所述第二输出图像的感知损失
根据以下公式计算：

其中，y1为所述第一输出图像，y2为所述第二输出图像，
为训练好的所述判别网络中的预设网络层，j为所述预设网络层在所述判别网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度。
根据权利要求1至4中任意一项所述的图像处理方法，其中，所述第一损失包括所述第一输出图像与所述第二输出图像的L1损失。
根据权利要求1至4中任意一项所述的图像处理方法，其中，所述第二损失包括所述第一判别结果与第一目标结果的交叉熵损失。
根据权利要求2至4中任意一项所述的图像处理方法，其中，所述第三损失项包括每个第一特征提取子网络的输出图像与相应的中间图像的L2损失的总和。
根据权利要求1至4中任意一项所述的图像处理方法，其中，将所述第一输出图像提供给训练好的所述判别网络，以使训练好的所述判别网络生成基于所述第一输出图像的第一判别结果，包括：

将所述第一输出图像设置为带有真值标签，并将具有真值标签的第一输出图像提供给训练好的所述判别网络，以使所述判别网络输出第一判别结果。
根据权利要求1至4中任意一项所述的图像处理方法，其中，对待训练的第二神经网络和待训练的判别网络进行交替训练的步骤中，对待训练的判别网络进行训练，包括：

将第二样本图像提供给当前的所述第二神经网络，以使当前的所述第二神经网络生成第一清晰度提升图像；

将所述第一清晰度提升图像以及与所述第二样本图像对应的原始样本图像提供给当前的所述判别网络，并根据当前的所述判别网络的损失函数来调节当前的所述判别网络的参数，使得调参后的所述判别网络输出能够表征所述判别网络的输入为所述第二神经网络的输出图像还是所述原始样本图像的判别结果。
根据权利要求9所述的图像处理方法，其中，对待训练的第二神经网络和待训练的判别网络进行交替训练的步骤中，对待训练的第二神经网络进行训练，包括：

将第三样本图像提供给当前的所述第二神经网络，以使当前的所述第二神经网络生成第二清晰度提升图像；

将所述第二清晰度提升图像输入调参后的所述判别网络，以使调参后的所述判别网络生成基于所述第二清晰度提升图像的第二判别结果；

基于当前的所述第二神经网络的损失函数，调整当前的所述第二神经网络的参数，以得到更新后的第二神经网络；当前的所述第二神经网络的损失函数中的第一项基于所述第二清晰度提升图像与其对应的原始样本图像之间的差异，当前的所述第二神经网络的损失函数中的第二项基于所述第二判别结果与第二目标结果之间的差异。
根据权利要求10所述的图像处理方法，其中，当前的所述第二神经网络的损失函数中的第一项为λ ₁LossG1，λ ₁为预设的权值，LossG1为所述第二清晰度提升图像与其对应的原始样本图像之间的L1损失；

当前的所述第二神经网络的损失函数中的第二项为λ ₂L _D，λ ₂为预设的权值，L _D为所述第二判别结果与所述第二目标结果的交叉熵；

当前的所述第二神经网络的损失函数中的第三项为
λ ₃为预设的权值，y为所述第二清晰度提升图像所对应的原始样本图像，
为所述第二清晰度提升图像；

为预设优化网络中的预设网络层，j为预设网络层在所述预设优化网络中的层数，C为所述预设网络层的输出图像的通道数，H为所述预设网络层的输出图像的高度，W为所述预设网络层的输出图像的宽度；所述预设优化网络采用VGG-19网络。
根据权利要求1至4中任意一项所述的图像处理方法，其中，待训练的所述第一神经网络包括：多个第一上采样层、多个第一下采样层和多个单层卷积层，每个所述第一上采样层和每个所述第一下采样层均位于两个所述单层卷积层之间；倒数第i个所述单层卷积层的输入数据包括倒数第i个所述第一上采样层的输出数据和正数第i个所述单层卷积层的输出数据的叠加；其中，所述单层卷积层的数量为偶数，i大于0且小于所述单层卷积层的数量的一半；

训练好的所述第二神经网络包括：多个第二上采样层、多个第二下采样层和多个残差块，所述多个第二上采样层与所述多个第一上采样层一一对应，所述多个第二下采样层与所述多个第一下采样层一一对应，所述多个残差块与所述多个单层卷积层一一对应；倒数第i个所述残差块的输入数据为倒数第i个所述第二上采样层的输出数据和正数第i个所述残差块的输出数据的叠加；

所述第一特征提取子网络包括：所述第一上采样层、或者所述第一下采样层、或者所述单层卷积层；所述第一输出子网络包括所述单层卷积层；所述第二特征提取子网络包括：所述第二上采样层、或者所述第二下采样层、或者所述残差块；所述第二输出子网络包括所述残差块。
一种图像处理设备，包括存储器和处理器，所述存储器上存储有计算机程序，其中，所述计算机程序被所述处理器执行时实现权利要求1至12中任意一项所述的图像处理方法。
一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的图像处理方法。