WO2020108336A1

WO2020108336A1 - 图像处理方法、装置、设备及存储介质

Info

Publication number: WO2020108336A1
Application number: PCT/CN2019/119087
Authority: WO
Inventors: 揭泽群
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-11-30
Filing date: 2019-11-18
Publication date: 2020-06-04
Also published as: CN113902921B; US11798145B2; US20210192701A1; CN113902921A; CN109361934A; CN109361934B

Abstract

本申请实施例公开了一种图像处理方法、装置、设备及存储介质。所述方法包括：根据图像变换指令，将原始图像输入解码网络，输出该原始图像的第一特征图；将该第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图；将该第二特征图输入重建网络，输出目标图像。

Description

图像处理方法、装置、设备及存储介质

本申请要求于2018年11月30日提交中国专利局，申请号为201811457745.5，申请名称为“图像处理方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及互联网领域，特别涉及一种图像处理方法、装置、设备及存储介质。

背景技术

随着多媒体技术和网络技术的飞速发展和广泛应用，人们在日常生活和生产活动大量使用图像信息。在很多情况下需要对图像进行处理，例如变换图像的颜色等。

目前，可以采用生成式对抗网络(generative adversarial networks，GAN)的深度学习模型实现图像处理，在GAN中，欲实现对输入图像进行多个特征的变换处理时，通常为每个单一的特征训练一个GAN，再将训练好的多个GAN依次作用于输入图像。

然而，在上述过程中，当特征数量越多时，需要的训练数据也就多，训练多个GAN所耗费的时间就越长，进行了多次解码和多次重建，使得图像处理的过程繁琐冗长。

发明内容

根据本申请提供的各种实施例，提供一种图像处理方法、装置、设备及存储介质。

一方面，提供了一种图像处理方法，由计算机设备执行，包括：

根据图像变换指令，将原始图像输入解码网络，输出该原始图像的第一特征图，该解码网络用于提取图像的特征；

将该第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；及

将该第二特征图输入重建网络，输出目标图像，该重建网络用于将输入的特征图重建为二维图像。

构建初始化的对抗网络，该对抗网络包括图像处理网络以及多个判别网络，所述图像处理网络包括解码网络、多个变换网络和重建网络；

根据多个图像集，训练该多个判别网络，根据该多个判别网络的训练结果，迭代训练该对抗网络；及

当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像处理的目标图像。

一方面，提供了一种图像处理装置，包括：

解码模块，用于根据图像变换指令，将原始图像输入解码网络，输出该原始图像的第一特征图，该解码网络用于提取图像的特征；

变换模块，用于将该第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；及

重建模块，用于将该第二特征图输入重建网络，输出目标图像，该重建网络用于将输入的特征图重建为二维图像。

一方面，提供了一种图像处理装置，包括：

构建模块，用于构建初始化的对抗网络，该对抗网络包括图像处理网络以及多个判别网络，所述图像处理网络包括解码网络、多个变换网络和重建网络；

训练模块，用于根据多个图像集，训练该多个判别网络，根据该多个判别网络的训练结果，迭代训练该对抗网络；及

处理模块，用于当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像处理的目标图像。

一方面，提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如上述任一种可能实现方式的图像处理方法。

一方面，提供了一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一种可能实现方式的图像处理方法所执行的操作。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图；

图2是本申请实施例提供的图像处理方法的流程图；

图3是本申请实施例提供的图像处理方法的示意图；

图4是本申请实施例提供的变换网络的结构示意图；

图5是本申请实施例提供的图像处理方法的流程图；

图6是本申请实施例提供的对抗网络的结构示意图；

图7是本申请实施例提供的图像处理装置的结构示意图；

图8是本申请实施例提供的图像处理装置的结构示意图；及

图9是本申请实施例提供的计算机设备102的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术等技术，具体通过如下实施例进行说明:

图1是本申请实施例提供的一种图像处理方法的实施环境示意图，参见图1，在该实施环境中，可以包括至少一个用户设备101和计算机设备102，其中，该至少一个用户设备101上可以安装有应用客户端，该应用客户端可以是任一能够进行图像处理的客户端，当用户设备101检测到图像变换指令的触发操作时，向计算机设备102发送携带原始图像的图像变换指令，使得计算机设备102根据该图像变换指令，对该原始图像进行多个特征变换的图像处理。

其中，该计算机设备102可以是能够提供图像处理服务的服务器，该服务器可以通过多个图像集训练GAN的处理能力，从而通过训练完毕的GAN实现图像处理，该计算机设备102可以维护有训练数据库，每当接收图像变换指令时，将该图像变换指令携带的原始图像存储至训练数据库中的图像集，以进行训练数据的维护和储备。计算机设备102可以是终端。

在一些实施例中，GAN中包括解码网络、变换网络、重建网络和判别网络，通过对各个网络的参数调整，从而根据输入图像，能够通过GAN得到进行了某个特征变换的输出图像。当采用GAN模型进行图像处理，欲实现对输入图像进行多个特征的变换处理时，可以为每个单一的特征训练一个GAN，再将训练好的多个GAN依次作用于输入图像，也即是，先基于解码网络对输入图像进行解码，再基于变换网络对输入图像进行变换，最后基于重建网络对输入图像进行重建，之后再进入下一个GAN中重复上述过程，直到得到对该输入图像进行了上述多个特征变换的输出图像。然而这种方法，当特征数量越多时，需要的训练数据也就多，训练多个GAN所耗费的时间就越长，进行了多次解码和多次重建，使得图像处理的过程繁琐冗长，故可以将原始图像输入解码网络进行特征提取，再依次输入多个变换网络，实现对多个特征的变换，再输入重建网络进行重建为目标图像，使得特征数量越多时，也整体只需经过一次解码和一次重建，使得图像处理的过程变得简洁流畅。

图2是本申请实施例提供的一种图像处理方法的流程图。参见图2，以该计算机设备102为提供图像处理服务的服务器为例进行说明，该实施例包括：

201、服务器根据图像变换指令，将原始图像输入解码网络，输出该原始图像的第一特征图，该解码网络用于提取图像的特征。

在一种可能实施方式中，原始图像是指待处理的图像。该图像变换指令用于指示服务器对所携带的原始图像进行图像变换，例如，对原始图像进行五官形态的变换、头发颜色的变换等。该图像变换指令可以是由用户设备通过应用客户端所发送的图像变换指令，也可以是在训练时由服务器默认触发的图像变换指令，本申请实施例不对该图像变换指令的获取方式进行具体限定。

在一些实施例中，该图像变换指令可以携带待处理图像，服务器将该待处理图像作为该原始图像，其中，该原始图像可以具有多个可变换的特征，例如，该特征可以是头发、人脸五官以及配饰等等。

在一些实施例中，服务器也可以从本地存储的数据库中随机或按照预设规则获取该原始图像，本申请实施例不对该原始图像的获取方式进行具体限定；可选地，该预设规则可以是先获取像素高的原始图像，也可以是先获取人像等，本申请实施例不对该预设规则进行具体限定。

其中，该解码网络可以通过第一目标数量的卷积层来提取图像的特征，该第一目标数量可以是预设的，也可以是在对解码网络进行训练的过程中调整的，本申请实施例不对该第一目标数量的来源进行具体限定。

以该原始图像进入的第一个卷积层为例，假设原始图像的高度为H ₀，宽度为W ₀，深度为D ₀，其中，H ₀、W ₀和D ₀为正整数，该深度D ₀可以是该原始图像的通道数，例如，选取RGB通道时D ₀＝3，分别为红、绿、蓝通道，对该第一个卷积层在初始化时至少预设下述超参数：卷积核尺寸F，卷积核个数K。其中，每个卷积核(filter)用于指示对原始图像的特征进行加权时的权重，每个卷积核可以是尺寸大小为F*F*D ₀的权值矩阵，各个卷积核的深度与原始图像的深度保持匹配，其中，F为小于H ₀和W ₀中的最小值的正整数，卷积核个数K为正整数，K用于指示该第一个卷积层所能够提取的特征数，也即是该第一个卷积层所输出的特征图的个数也为K。在GAN训练中，根据各个网络损失函数指示的偏差，从而调整各个卷积核的参数，当训练完成后即可得到各个卷积核的最终的矩阵取值。在一些实施例中，该原始图像也可以是单通道的，本申请实施例不对该原始图像的通道数进行限定。

可选地，为增加卷积运算的处理速度，在初始化时还可以指定步长S，以使得在进行卷积运算时，步长S可以为大于等于1，且小于等于H ₀和W ₀中的最小值的任一正整数；可选地，为更加准确的提取该原始图像的边缘信息，在初始化时还可以指定边界填充P，该边界填充P为大于等于0的整数，P用于指示在该原始图像外周的补零层数(zero padding)，当没有指定步长S和边界填充P时，默认S＝1，P＝0。

基于上述参数，该第一个卷积层根据该K个卷积核，对该原始图像的各个通道以S为步幅进行卷积加权运算，从而可以得到K个第一层特征图(feature map)，将该K个第一层特征图作为第二个卷积层的输入，也即是第二个卷积层的输入图像的深度为K，那么第二个卷积层中各个卷积核的深度也为K，依此类推，每一个卷积层的输出图像作为下一个卷积层的输入图像，直到经过了第一目标数量的卷积层的特征提取后，从而得到高度为H，宽度为W，深度为D的第一特征图，其中H、W和D为正整数，该第一特征图的深度D可以用于指示该解码网络所提取到的特征信息的个数。

在一种可能实施方式中，在预设超参数时，令步长S＝1，边界填充P＝(F-1)/2，可以使得该第一个卷积层输出的特征图与该原始图像的高度和宽度相同，从而该解码网络中的每个卷积层都设置为步长S＝1，边界填充P＝(F-1)/2，使得该解码网络输出的第一特征图的高度H＝H ₀，W＝W ₀。

202、服务器获取与至少一个变换需求信息对应的多个变换网络。

服务器可以根据至少一个变换需求信息，从已有的多个变换网络中，获取与至少一个变换需求信息对应的多个变换网络。其中，该至少一个变换需求信息可以是该图像变换指令所携带的信息，也可以是服务器默认设置的信息，还可以是与某种变换需求对应的至少一个变换需求信息，本申请实施例不对该至少一个变换需求信息的获取方式进行具体限定。

在上述对多个变换网络的获取过程中，服务器可以基于该至少一个变换需求信息，一次性从已有的多个变换网络中，获取与该至少一个变换需求信息对应的多个变换网络，而可选地，服务器还可以每处理一个变换需求信息，就获取与该变换需求信息对应的变换网络，本申请实施例不对获取该多个变换网络的方式进行具体限定。

在一些实施例中，当服务器一次性获取与该至少一个变换需求信息对应的多个变换网络后，服务器还可以将与该至少一个变换需求信息对应的多个变换网络进行排序，可选地，服务器可以根据变换需求信息的细节程度，对与该至少一个变换需求信息对应的多个变换网络进行排序，例如，先处理细节要求低的特征，本申请实施例不对与该至少一个变换需求对应的多个变换网络的排序规则进行具体限定，上述排序可以是指将一个变换网络的输出作为下一个变换网络的输入。

其中，每个变换需求信息用于指示基于一个特征类别进行变换的需求，每个变换需求信息可以对应于一个或多个变换网络，每个训练好的变换网络，可以用于根据相应的变换需求信息进行特征变换，例如，该变换需求信息C _i为将头发颜色变为绿色，则该特征类别为头发颜色，该变换网络T _i用于将输入特征图中的头发颜色变换为绿色。

图3是本申请实施例提供的图像处理方法的示意图，以所获取的变换网络数目为N为例，参见图3，原始图像经过经过N个变换网络后，得到了经过N个特征变换的目标图像，下述步骤203-209以获取的第i个变换网络为例，i为小于等于N的正整数，对第i个变换网络如何进行第i个特征变换进行说明，在进行图像处理过程中，对于每个变换网络都具有类似的特征变换过程，在此不作赘述，直到对全部的变换需求信息都实现了相应地特征变换，输出第二特征图，执行下述步骤211。

203、服务器获取第i个条件向量，该第i个条件向量为行向量或列向量。

图4是本申请实施例提供的变换网络的结构示意图，参见图4，在该第i个变换网络中可以包括n个卷积层和目标卷积层，其中n为正整数，该第i个条件向量用于指示对第i个特征类别的目标变换需求信息，该第i个条件向量可以是外界输入的参量，也可以是根据该目标变换需求信息生成的，且该第i个条件向量为非零向量。本申请实施例不对该第i个条件向量的获取方式进行限定。

基于上述示例，条件向量可以用于表示图像变换需求的变换类型。当该目标变换需求信息为将头发颜色变为绿色时，该条件向量的长度可以用于指示该GAN所能够实现头发颜色变换的色彩数量，例如，该GAN能实现5种色彩的头发颜色的变换，那么该条件向量的长度d _i＝5，该条件向量的每一位可以用于指示一个色彩，如果第三位指示为绿色，则该条件向量的第三位数字置为1，其余所有值置为0，也即是，该条件向量为[0,0,1,0,0]，本申请实施例不对该条件向量的长度进行具体限定。

204、服务器将该第i个条件向量拓展到与第i-1个变换网络输出的特征图的宽度W _i-1和高度H _i-1相同，得到第i个条件张量。

在一种可能实施方式中，可以先将该第i个条件向量在宽度方向上复制W _i-1行，从而拓展得到尺寸为d _i*W _i-1的二维矩阵，进而将该二维矩阵在高度方向上复制H _i-1列，从而拓展得到尺寸为d _i*H _i-1*W _i-1的三维张量，也即是该第i个条件张量，其中d _i、H _i-1和W _i-1为正整数。

可选地，还可以将该第i个条件向量先在高度方向上复制拓展，再将得到的二维矩阵在宽度方向上复制拓展，或，将第i个条件向量同时向宽度方向和高度方向复制拓展，在一些实施例中，条件向量也可以不是行向量以及列向量，只要能够表示指示第i个特征类别的目标变换需求信息即可，例如可以是条件张量本身，即可以不通过条件向量的拓展，直接将外界输入的三维矩阵获取为条件张量，本申请实施例不对该第i个条件张量的获取方式进行限定。

205、服务器将第i个条件张量与该第i-1个变换网络输出的特征图在深度方向上相连，得到第i个扩展张量。

其中，由于该第i个条件张量的宽度与该第i-1个变换网络输出的特征图相同，且该第i个条件张量的高度也与该第i-1个变换网络输出的特征图相同，使得该条件张量与该第i-1个变换网络输出的特征图能够在深度方向上直接相连，假设该第i-1个变换网络输出的特征图的深度为D _i-1，从而得到的该扩展张量的尺寸即为(D _i-1+d _i)*H _i-1*W _i-1，其中D _i-1为正整数。

206、服务器将该第i个扩展张量依次输入多个卷积层，直到该第i个扩展张量的深度降维到与该第i-1个变换网络输出的特征图的深度相同，输出第i个降维张量。

在上述步骤中，通过该第i个变换网络中的多个卷积层的作用，将该第i个扩展张量的深度从D _i-1+d _i降低到D _i-1，进而得到尺寸为D _i-1*H _i-1*W _i-1的第i个降维张量，该多个卷积层的内部结构可以和上述步骤201中的解码网络中卷积层的结构类似，也即是每个卷积层中都包括卷积核，各个卷积层的超参数可以相同，也可以不同，在此不作赘述。

可选地，在变换网络中的各个卷积层之间，还可以引入残差块(residual block)，例如，如果第j个卷积层的输入，也即是第j-1个卷积层的输出为x _j，那么第j个卷积层的输出可以表示为f _j(x _j)，在第j个卷积层和第j+1个卷积层之间引入第j个残差块，该第j个残差块可以表示为f _j(x _j)+x _j，并以该第j个残差块作为第j+1个卷积层的输入，通过引入残差块，解决了神经网络的退化问题，使得第i个变换网络的卷积层越深，对图像处理的效果越好。

在一种可能实施方式中，该多个卷积层的数量可以为服务器所预设的超参数，也可以是在GAN的训练中调整的数值，本申请实施例不对该多个卷积层的数量的获取方式进行具体限定。

207、服务器将该第i个降维张量输入该第i个变换网络的目标卷积层，对该第i个降维张量进行卷积处理。

在一些实施例中，该目标卷积层的内部结构也和上述多个卷积层的结构类似，再次不做赘述。可选地，当对每个变换网络的多个卷积层和目标卷积层的参数进行预设，使得步长S＝1，边界填充P＝(F-1)/2时，能够使得第一特征图经过多个变换网络进行特征变换后，输出的第二特征图的高度和宽度与原始图像保持相等。

208、服务器将卷积处理后的张量输入激活函数，输出第i个掩膜，该激活函数用于对输入的张量进行非线性处理。

其中，该第i个掩膜用于指示在该第i-1个变换网络输出的特征图中该第i个变换需求信息所对应的变换区域，基于上述示例，该第i个掩膜用于指示该第i-1个变换网络输出的特征图中的表示头发的区域。

可选地，该第i个掩膜可以为尺寸H _i-1*W _i-1的二维矩阵，则可以将该第i个掩膜拓展至与该第i个降维张量的深度相同，以便于进行后续的变换处理，在一些实施例中，还可以直接通过对该目标卷积层的参数调整，从而直接获取拓展后的掩膜。

可选地，该激活函数可以是Sigmoid，可以是tanh，还可以是ReLU等，能够对该目标卷积层的输出进行非线性处理，从而提升GAN变换的细节表达能力，本申请实施例不对该激活函数的函数表达式进行具体限定。

209、服务器将该第i个降维张量中与该第i个掩膜对应的区域保留，将该第i个降维张量中除了该第i个掩膜外的区域，替换为该第i-1个变换网络输出的特征图中的相应区域，得到第i个变换网络输出的特征图。

在上述步骤中，假设该第i-1个变换网络输出的特征图表示为f _i-1，该第i个降维张量表示为f _i’，该第i个掩膜表示为g _i，则该第i个变换网络输出的特征图可以表示为f _i＝g _i*f _i’+(1-g _i)*f _i-1，也即是，仅将第i-1个变换网络输出的特征图中与该第i个变换需求信息对应的区域进行特征变换。

210、服务器重复执行上述步骤203-209，直到每个变换需求信息都进行了相应变换，输出第二特征图。

上述步骤203-209示例了第i个变换网络进行第i个变换需求信息的方法，在203至209的步骤完成后，可以基于第i+1个变换网络来继续进行图像变换，通过各个变换网络的串行连接，将上一个变换网络的输出作为下一个变换网络的输入，直到与每个变换需求信息对应的变换网络进行了特征变换，最后一个变换网络输出的图像即为该第二特征图。

211、服务器将该第二特征图输入重建网络，输出目标图像，该重建网络用于将输入的特征图重建为二维图像。

在一种可能实施方式中，在重建网络中通过多个卷积层可以将该第二特征图重建为目标图像，该目标图像为经过了该至少一个变换需求信息的处理后的原始图像。

本申请实施例提供的方法，通过服务器根据图像变换指令，将原始图像输入解码网络进行特征提取，再依次输入多个变换网络，实现对多个特征的变换，再输入重建网络进行重建为目标图像，使得特征数量越多时，也整体只需经过一次解码和一次重建，使得图像处理的过程变得简洁流畅；进一步地，通过引入条件向量和掩膜，使得每个变换网络都能够无需判别网络参与，实现对相应变换需求信息的变换，精简了GAN的网络架构；进一步地，通过设置步长S和边界填充P为合适的数值，能够使得输出的第二特征图的高度和宽度与原始图像相同，避免了丢失细节信息。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图5是本申请实施例提供的图像处理方法的流程图。参见图5，该实施例包括：

501、服务器构建初始化的对抗网络，该对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络。

可以将解码网络、多个变换网络以及重建网络称为图像处理网络，图像处理网络用于对图像进行处理。可选地，图6是本申请实施例提供的对抗网络的结构示意图，参见图6，在构建初始化的对抗网络时，可以在该解码网络后并行接入多个变换网络，在该多个变换网络后接入该重建网络，在该重建网络后并行接入该多个判别网络，其中，每个判别网络与该多个变换网络中的变换网络一一对应。

在上述过程中，在该多个变换网络和多个判别网络进行训练时，由于连接了同一个解码网络和重建网络，所以能够实现在训练过程中共享解码网络和重建网络的训练数据，以缩短训练所需数据，优化对抗网络的资源配置。

可选地，在构建初始化的对抗网络时，还可以对各个网络的超参数进行预设，对不同的变换网络，可以设置为相同的初始化数值，也可以设置为不同的初始化数值，对不同的判别网络也是如此，在此不作赘述，本申请实施例不对该初始化过程中各个网络的超参数的初始化数值进行具体限定。

502、服务器将第i个图像集输入第i个判别网络，根据第i个判别网络的损失函数的数值，调整该第i个判别网络的参数。

可选地，该第i个判别网络为多个判别网络中的任一判别网络，在步骤502-504中，以该对抗网络中的一条分支的训练情况为例进行说明，也即是解码网络、第i个变换网络、重建网络和第i个判别网络所组成的分支，对于对抗网络中的任一分支，都有类似的训练步骤，且该对抗网络中每一条分支都共享了解码网络和重建网络的训练数据，在此不作赘述。

在一些实施例中，每个图像集可以对应于一个特征类别，每个特征类别可以对应于一个判别网络，每个图像集都可以包括真样本集和假样本集，以第一特征类别对应的图像集为例，真样本集可以是经过了该第一特征类别变换的图像，假样本集可以是经过了第二特征类别变换的图像，其中，该第二特征类别可以是可变换类别组中除了该第一特征类别之外的任一特征类别，通过对该判别网络的训练，使得对于该真样本集，判别网络可以输出1，对假样本集，判别网络可以输出0，从而实现判别功能。

在对GAN的训练中，该第i个判别网络可以用于对经过了该解码网络、第i个变换网络以及该重建网络处理后的输出结果进行判断，从而对各个网络的参数进行连动调整，以得到优化的GAN，当训练完毕后进行图像处理的过程中，可以无需使用多个判别网络。

可选地，对第i个判别网络而言，损失函数可以包括三类，第一类损失函数可以是该第i个判别网络D _i，判别经过解码网络E、第i个变换网络T _i以及重建网络R的处理后所输出的图像是否为真的函数L _adv,i，该函数的形式可以表示为：

其中，y为真样本集内的图像，x为GAN网络生成的图像，当该GAN网络重建的图片越逼真时，使得该损失函数L _adv,i数值越小，也即是损失越小。

第二类损失函数可以是在进行判别的过程中，对真样本集内的图像进行特征分类的函数

该函数的形式可以表示为：

其中，c _i为第i个判别网络所对应的特征类别，使得当该判别网络对特征的分类越准确，该损失函数

数值越小，也即是损失越小。

第三类损失函数可以是在进行判别的过程中，对GAN网络生成的图像进行特征分类的函数

该函数的形式可以表示为：

其中，当该判别网络对特征的分类越准确，该损失函数

数值越小，也即是损失越小。

503、服务器根据解码网络、重建网络以及第i个变换网络的损失函数的数值，调整该解码网络、重建网络以及第i个变换网络的参数。

可选地，该重建网络和解码网络的损失函数

可以采用如下形式表示：

该损失函数

用于表示原始图像经过解码网络后直接输入重建网络所得到的图像，与原始图像之间的损失，当重建网络和解码网络越准确时，

数值越小。

可选地，该第i个变换网络的损失函数

可以采用如下形式表示：

该损失函数

用于表示经过第i个变换网络后的图像，与经过变换、解码和重建后再解码的图像之间的损失，当第i个变换网络越准确时，

数值越小。

504、重复执行上述步骤502-503，直到各个网络的损失函数的数值与理想值的差值小于预设值。

可选地，该预设值是服务器默认的参数，也可以是人为设定的数值。上述步骤502-504通过该第i个图像集，先对第i个判别网络的参数进行调整，而由于对判别网络的参数调整后，会影响解码网络、重建网络和第i个变换网络的损失函数的数值，从而对上述网络进行参数调整，进而又影响了该第i个判别网络的损失函数的数值，使得重复执行连动调整参数的操作，实现对抗网络中一个分支的迭代训练，对于该对抗网络中的每一个分支，都可以执行步骤502-504所执行的操作，以实现对初始化网络的训练，从而得到能够进行多个特征变换的神经网络，以备后续的图像处理。

在一些实施例中，还可以对上述所有的损失函数加权求和，得到该对抗网络的损失函数L _G：

其中，判别网络的第三类损失函数的权重为μ _cls，解码网络和多个变换网络的损失函数相加的数值所占的权重为μ _cyc。在一种可能实施方式中，当该对抗网络的损失函数L _G的数值与理想值的差值小于预设值时，视为该对抗网络训练完毕，其中，各个损失函数的权重可以是服务器预设的数值。

505、当接收图像变换指令时，根据至少一个变换需求信息，获取与该至少一个变换需求信息对应的多个变换网络。

506、将原始图像依次输入解码网络、与该至少一个变换需求信息对应的多个变换网络和重建网络，输出目标图像。

在上述步骤505-506中，通过训练完毕的GAN，实现了对原始图像进行多个特征变换的图像处理，从而输出目标图像，可选的实施过程在上一个实施例中已经详述，再次不做赘述。

本申请实施例提供的方法，通过构建初始化的对抗网络，从而根据多个图像集，训练该多个判别网络，再根据该多个判别网络的训练结果，迭代训练该对抗网络，直到对该对抗网络训练完毕后，当接收图像变换指令时，将原始图像输入训练完毕的对抗网络，输出经过图像处理的目标图像，由于多个判别网络和多个变换网络共享了解码网络和重建网络的训练数据，使得缩短了进行多个特征变换的GAN所需的训练数据，从而缩短了训练GAN的时间；进一步地，通过对各个网络的损失函数的数值调整，能够指示获取更准确的对抗网络的参数，实现精准的特征变换；进一步地，当接收到图像变换指令时，选取与变换需求信息对应的变换网络，实现图像处理，优化了GAN在训练时以及使用时的网络架构和资源配置。

应该理解的是，本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图7是本申请实施例提供的图像处理装置的结构示意图。参见图7，该装置包括：

解码模块701，用于根据图像变换指令，将原始图像输入解码网络，输出该原始图像的第一特征图，该解码网络用于提取图像的特征；

变换模块702，用于将该第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；

重建模块703，用于将该第二特征图输入重建网络，输出目标图像，该重建网络用于将输入的特征图重建为二维图像。

本申请实施例提供的装置，根据图像变换指令，将原始图像输入解码网络进行特征提取，再依次输入多个变换网络，实现对多个特征的变换，再输入重建网络进行重建为目标图像，使得特征数量越多时，也整体只需经过一次解码和一次重建，使得图像处理的过程变得简洁流畅。

在一种可能实施方式中，基于图7的装置组成，该变换模块702包括：

确定单元，用于对于每个变换网络，根据该变换网络对应的变换需求信息，确定条件张量，该条件张量与该变换网络对应的输入特征图的宽度和高度相同；

变换单元，用于基于该变换网络对应的条件张量，对上一个变换网络输出的特征图中该变换网络对应的区域进行变换，输出该变换网络的特征图。

在一种可能实施方式中，该确定单元还用于获取条件向量，该条件向量为行向量或列向量；

将该条件向量拓展到与该输入特征图的宽度和高度相同，得到该条件张量。

在一种可能实施方式中，基于图7的装置组成，该变换单元包括：

相连子单元，用于将该条件张量与该输入特征图在深度方向上相连，得到扩展张量；

降维子单元，用于将该扩展张量依次输入多个卷积层，直到该扩展张量的深度降维到与该输入特征图的深度相同，输出降维张量；

第一获取子单元，用于根据该降维张量获取掩膜，该掩膜用于指示在该输入特征图中该变换需求信息所指示的区域；

第二获取子单元，用于根据该降维张量、该掩膜和该输入特征图，获取该变换网络的输出特征图。

在一种可能实施方式中，基于图7的装置组成，该第一获取子单元还用于将该降维张量输入该变换网络的目标卷积层，对该降维张量进行卷积处理；

将卷积处理后的张量输入激活函数，输出该掩膜，该激活函数用于对输入的张量进行非线性处理。

在一种可能实施方式中，基于图7的装置组成，该第二获取子单元还用于将该降维张量中与该掩膜对应的区域保留，将该降维张量中除了该掩膜外的区域替换为该输入特征图中的相应区域，得到该输出特征图。

图8是本申请实施例提供的图像处理装置的结构示意图。参见图8，该装置包括：

构建模块801，用于构建初始化的对抗网络，该对抗网络包括解码网络、多个变换网络、重建网络和多个判别网络；

训练模块802，用于根据多个图像集，训练该多个判别网络，根据该多个判别网络的训练结果，迭代训练该对抗网络；

处理模块803，用于当接收图像变换指令时，将原始图像输入训练完毕的对抗网络，输出经过图像处理的目标图像。

本申请实施例提供的装置，通过构建初始化的对抗网络，从而根据多个图像集，训练该多个判别网络，再根据该多个判别网络的训练结果，迭代训练该对抗网络，直到对该对抗网络训练完毕后，当接收图像变换指令时，将原始图像输入训练完毕的对抗网络，输出经过图像处理的目标图像，由于多个判别网络和多个变换网络共享了解码网络和重建网络的训练数据，使得缩短了进行多个特征变换的GAN所需的训练数据，从而缩短了训练GAN的时间。

在一种可能实施方式中，该处理模块803还用于当接收该图像变换指令时，根据至少一个变换需求信息，获取与该至少一个变换需求信息对应的多个变换网络；

将该原始图像依次输入该解码网络、该与该至少一个变换需求信息对应的多个变换网络和该重建网络，输出该目标图像。

在一种可能实施方式中，该训练模块802还用于对每个判别网络，输入与该判别网络对应的图像集，根据该判别网络的损失函数的数值，调整该判别网络的参数；

根据该解码网络、该重建网络以及与该判别网络对应的变换网络的损失函数的数值，调整该解码网络、该重建网络以及该变换网络的参数；

重复执行上述调整该判别网络的参数，以及调整该解码网络、该重建网络以及该变换网络的参数的步骤，直到各个网络的损失函数的数值与理想值的差值小于预设值。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见图像处理方法实施例，这里不再赘述。

图9示出了一个实施例中计算机设备的内部结构图。如图9所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图像处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图像处理方法

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中图像处理方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过硬件来完成，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种图像处理方法，由计算机设备执行，包括：

根据图像变换指令，将原始图像输入解码网络，输出所述原始图像的第一特征图，所述解码网络用于提取图像的特征；

将所述第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；及

将所述第二特征图输入重建网络，输出目标图像，所述重建网络用于将输入的特征图重建为二维图像。
根据权利要求1所述的方法，其特征在于，所述将所述第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图包括：

对于每个变换网络，根据所述变换网络对应的变换需求信息，确定条件张量；及

基于所述变换网络对应的条件张量，对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换，输出所述变换网络的特征图。
根据权利要求2所述的方法，其特征在于，所述根据所述变换网络对应的变换需求信息，确定条件张量包括：

获取条件向量；及

将所述条件向量拓展到与所述变换网络对应的输入特征图的宽度和高度相同，得到所述条件张量。
根据权利要求2所述的方法，其特征在于，所述基于所述变换网络对应的条件张量，对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换，输出所述变换网络的特征图包括：

将所述条件张量与所述输入特征图在深度方向上相连，得到扩展张量；

将所述扩展张量依次输入多个卷积层，直到所述扩展张量的深度降维到与所述输入特征图的深度相同，输出降维张量；

根据所述降维张量获取掩膜，所述掩膜用于指示在所述输入特征图中所述变换需求信息所指示的区域；及

根据所述降维张量、所述掩膜和所述输入特征图，获取所述变换网络的输出特征图。
根据权利要求4所述的方法，其特征在于，所述根据所述降维张量获取掩膜包括：

将所述降维张量输入所述变换网络的目标卷积层，对所述降维张量进行卷积处理；及

将卷积处理后的张量输入激活函数，输出所述掩膜，所述激活函数用于对输入的张量进行非线性处理。
根据权利要求4所述的方法，其特征在于，所述根据所述降维张量、所述掩膜和所述输入特征图，获取所述变换网络的输出特征图包括：

将所述降维张量中与所述掩膜对应的区域保留，将所述降维张量中除了所述掩膜外的区域替换为所述输入特征图中的相应区域，得到所述输出特征图。
一种图像处理方法，包括：

构建初始化的对抗网络，所述对抗网络包括图像处理网络以及多个判别网络，所述图像处理网络包括解码网络、多个变换网络和重建网络；

根据多个图像集，训练所述多个判别网络，根据所述多个判别网络的训练结果，迭代训练所述对抗网络；及

当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像处理的目标图像。
根据权利要求7所述的方法，其特征在于，所述当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像变换的目标图像包括：

当接收所述图像变换指令时，根据至少一个变换需求信息，获取与所述至少一个变换需求信息对应的多个变换网络；及

将所述原始图像依次输入所述解码网络、所述与所述至少一个变换需求信息对应的多个变换网络和所述重建网络，输出所述目标图像。
根据权利要求7所述的方法，其特征在于，所述根据多个图像集，训练所述多个判别网络，根据所述多个判别网络的训练结果，迭代训练所述对抗网络包括：

对每个判别网络，输入与所述判别网络对应的图像集，根据所述判别网络的损失函数的数值，调整所述判别网络的参数；

根据所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数的数值，调整所述解码网络、所述重建网络以及所述变换网络的参数；及

重复执行上述调整所述判别网络的参数，以及调整所述解码网络、所述重建网络以及所述变换网络的参数的步骤，直到各个网络的损失函数的数值与理想值的差值小于预设值。
一种图像处理装置，包括：

解码模块，用于根据图像变换指令，将原始图像输入解码网络，输出所述原始图像的第一特征图，所述解码网络用于提取图像的特征；

变换模块，用于将所述第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；及

重建模块，用于将所述第二特征图输入重建网络，输出目标图像，所述重建网络用于将输入的特征图重建为二维图像。
一种图像处理装置，包括：

构建模块，用于构建初始化的对抗网络，所述对抗网络包括图像处理网络以及多个判别网络，所述图像处理网络包括解码网络、多个变换网络和重建网络；

训练模块，用于根据多个图像集，训练所述多个判别网络，根据所述多个判别网络的训练结果，迭代训练所述对抗网络；及

处理模块，用于当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像处理的目标图像。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

根据图像变换指令，将原始图像输入解码网络，输出所述原始图像的第一特征图，所述解码网络用于提取图像的特征；

将所述第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图，每个变换网络用于进行图像变换处理；及

将所述第二特征图输入重建网络，输出目标图像，所述重建网络用于将输入的特征图重建为二维图像。
根据权利要求12所述的设备，其特征在于，所述将所述第一特征图依次输入与至少一个变换需求信息对应的多个变换网络，输出第二特征图包括：

对于每个变换网络，根据所述变换网络对应的变换需求信息，确定条件张量；及

基于所述变换网络对应的条件张量，对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换，输出所述变换网络的特征图。
根据权利要求13所述的设备，其特征在于，所述根据所述变换网络对应的变换需求信息，确定条件张量包括：

获取条件向量；及

将所述条件向量拓展到与所述变换网络对应的输入特征图的宽度和高度相同，得到所述条件张量。
根据权利要求13所述的设备，其特征在于，所述基于所述变换网络对应的条件张量，对上一个变换网络输出的特征图中所述变换网络对应的区域进行变换，输出所述变换网络的特征图包括：

将所述条件张量与所述输入特征图在深度方向上相连，得到扩展张量；

将所述扩展张量依次输入多个卷积层，直到所述扩展张量的深度降维到与所述输入特征图的深度相同，输出降维张量；

根据所述降维张量获取掩膜，所述掩膜用于指示在所述输入特征图中所述变换需求信息所指示的区域；及

根据所述降维张量、所述掩膜和所述输入特征图，获取所述变换网络的输出特征图。
根据权利要求15所述的设备，其特征在于，所述根据所述降维张量获取掩膜包括：

将所述降维张量输入所述变换网络的目标卷积层，对所述降维张量进行卷积处理；及

将卷积处理后的张量输入激活函数，输出所述掩膜，所述激活函数用于对输入的张量进行非线性处理。
根据权利要求15所述的设备，其特征在于，所述根据所述降维张量、所述掩膜和所述输入特征图，获取所述变换网络的输出特征图包括：

将所述降维张量中与所述掩膜对应的区域保留，将所述降维张量中除了所述掩膜外的区域替换为所述输入特征图中的相应区域，得到所述输出特征图。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

构建初始化的对抗网络，所述对抗网络包括图像处理网络以及多个判别网络，所述图像处理网络包括解码网络、多个变换网络和重建网络；

根据多个图像集，训练所述多个判别网络，根据所述多个判别网络的训练结果，迭代训练所述对抗网络；及

当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像处理的目标图像。
根据权利要求18所述的设备，其特征在于，所述当接收图像变换指令时，将原始图像输入训练完毕的图像处理网络，输出经过图像变换的目标图像包括：

当接收所述图像变换指令时，根据至少一个变换需求信息，获取与所述至少一个变换需求信息对应的多个变换网络；及

将所述原始图像依次输入所述解码网络、所述与所述至少一个变换需求信息对应的多个变换网络和所述重建网络，输出所述目标图像。
根据权利要求18所述的设备，其特征在于，所述根据多个图像集，训练所述多个判别网络，根据所述多个判别网络的训练结果，迭代训练所述对抗网络包括：

对每个判别网络，输入与所述判别网络对应的图像集，根据所述判别网络的损失函数的数值，调整所述判别网络的参数；

根据所述解码网络、所述重建网络以及与所述判别网络对应的变换网络的损失函数的数值，调整所述解码网络、所述重建网络以及所述变换网络的参数；及

重复执行上述调整所述判别网络的参数，以及调整所述解码网络、所述重建网络以及所述变换网络的参数的步骤，直到各个网络的损失函数的数值与理想值的差值小于预设值。
一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器如权利要求1至6或权利要求7至9中任一项所述的图像处理方法。