WO2020172838A1

WO2020172838A1 - 一种改进辅助分类器gan的图像分类方法

Info

Publication number: WO2020172838A1
Application number: PCT/CN2019/076429
Authority: WO
Inventors: 王进; 陈沅涛; 王磊; 何施茗; 张经宇; 邹勇松; 夏卓群; 张建明
Original assignee: 长沙理工大学
Priority date: 2019-02-26
Filing date: 2019-02-28
Publication date: 2020-09-03
Also published as: CN109948660A

Abstract

本发明公开了一种改进辅助分类器GAN的图像分类方法，包括：在ACGAN网络结构的基础上，将判别器的部分卷积层改为池化层，让生成样本在判别器中的特征输出与真实样本在判别器中的特征输出相匹配，在判别网络的输出层连接Softmax分类器，输出样本标签的后验概率估计值；将真实样本看成有标签的监督数据，生成样本看成有标签的假数据，利用样本的真假属性以及样本的输出标签与输入标签的交叉熵损失函数重构生成器和判别器的损失函数。该方法与原始ACGAN方法及同等深度网络结构的卷积神经网络相比，具有更好的分类准确率。

Description

一种改进辅助分类器GAN的图像分类方法

技术领域

本发明涉及图像分类技术领域，具体涉及一种改进辅助分类器GAN的图像分类方法。

背景技术

图像分类是图像处理的热点研究问题，目前最优的方法是深度卷积神经网络(DCNN)方法。DCNN本质上是一种更加有效的特征提取方法，将提取的特征作为分类器的输入从而实现分类。此类网络最大的缺点是只能利用人工提供的样本，模型不能学习样本的空间分布，不能更深层次地理解样本的内在结构，这无疑会影响模型的最终分类效果。

生成模型是一种能够学习到数据的潜在分布并生成新样本的模型。传统的生成模型有高斯模型、贝叶斯网络、S型信度网、高斯混合模型GMM、多项混合模型MMM、隐马尔科夫模型和隐马尔科夫随机场模型等。2014年，Ian J.Goodfellow在总结传统生成网络的优缺点的基础上，提出了生成对抗网络(Generative Adversarial Network,GAN)。GAN的核心思想是同时训练两个相互对抗的网络：生成网络(Generative Network，G)和判别网络(Discriminative Network，D)。训练判别网络使其能将真实样本和生成网络生成的伪样本区分开，其本质是一个二分类问题；训练生成网络使其生成尽可能看似真实的样本，让判别器错误的将其判别为真样本，达到以假乱真的效果。然而，GAN属于无监督学习范围，与其他生成式模型相比，这种不需要预先建模的方式存在可控性不佳的缺点。

为此，现有技术提出了一种将GAN与卷积神经网络(Convolutional Neural Network，CNN)相结合的生成网络模型DCGAN(Deep Convolutional GANs)，从而达到生成网络训练过程更加稳定，生成图像更加清晰的目的。条件生成式对抗网络(Conditional Generative Adversarial Networks，CGAN)训练时在生成器和判别器中都加入了图像的类别标签，从而实现图像的定向生成；基于辅助分类器生成对抗网络(Auxiliary Classifier Generative Adversarial Networks,ACGAN)与CGAN一样，也是利用图像的标签信息进行训练，但此时只是在生成器中加入标签信息，从而实现图像的定向生成。CGAN、ACGAN的应用将GAN带入到监督学习的范畴，可以达到标签与生成图像相对应的效果，其中ACGAN在CGAN的基础上做了进一步改进，并结合了InfoGAN中最大互信息的思想，实验表明，ACGAN能生成更加高清的样本。但是传统的ACGAN网络的判别器是一个天然的分类器，用于图像分类时，存在训练速度慢、训练过程不稳定、判别效果不佳等诸多问题。

发明内容

针对现有技术的上述不足，本发明的目的是提供一种改进辅助分类器GAN的图像分类算法(Image Classification Based on Auxiliary Classifier GAN,IC-ACGAN)。

为实现上述目的，本发明采用以下技术方案：

一种改进辅助分类器GAN的图像分类方法，包括：

在ACGAN网络结构的基础上，将判别器的第3卷积层、第5卷积层分别改为池化层，并引入特征匹配(FM)，使生成样本在判别器中的特征输出与真实样本在判别器中的特征输出相匹配，FM的目标函数如式(1)所示：

式中，f(x)表示判别器中间层的输出，x为输入，z～p _z为噪声，G(z；θ _g)为生成样本空间；

将真实样本看成有标签的监督数据，生成样本看成有标签的假数据，然后在判别器的输出层连接Softmax分类器，输出样本标签的后验概率估计值；

其中，真实样本的监督损失函数L _supervised，表示为式(2)：

式中，N为训练中一个batch内的样本数，<·,·>表示内积，y为样本标签，y'为样本标签预测值，p为预测函数，CE(y,y')为y与y'的交叉熵损失值；

真实数据的损失函数L _real表示为式(3)：

L _real＝L _supervised (3)；

判别生成样本为假样本类的概率期望损失L _unsupervised如式(4)所示：

式中，K为类别；

生成样本的输入标签与样本标签y一致，得到生成样本的输出标签y' _fake与输入标签之间的交叉熵损失值为CE(y,y' _fake)，生成样本的损失函数L _fake如式(5)所示：

L _fake＝0.5×(L _unsupervised+CE(y,y' _fake)) (5)；

利用样本的真假属性以及样本的输出标签与输入标签的交叉熵损失函数重构生成器和判别器的损失函数，其中，判别器的误差L _D表示为式(6)：

L _D＝0.5×(L _real+L _fake) (6)；

生成器的误差L _G表示为式(7)：

L _G＝0.5×(L _FM+L _unsupervised) (7)；

其中

表示特征匹配的二范数损失项。

优选的，对于MNIST数据集，判别网络的卷积层结构为：kernel_size是5，stride是1，padding是1，池化层结构为kernel_size是2，stride是2。

本发明的有益效果：

(1)本发明的IC-ACGAN方法在原始ACGAN条件上进行优化，主要包括引入特征匹配、改变判别器的输出层结构，引入Softmax分类器，并采用半监督学习思想重构生成器和判别器损失函数，在判别器中引入池化方法等，测试结果表明，与比原始ACGAN方法相比，IC-ACGAN方法在MNIST、CIFAR10、CIFAR100数据集上的分类效果都有较大提高，效果也更加稳定，同时与同等深度网络结构的卷积神经网络相比，同样具有更好的分类准确率。

(2)将带池化的生成对抗网络用于解决图像分类问题，一方面可以利用池化法生成样本的多样性，另一方面又可以利用池化更加有效地提取特征，进一步提高分类效果。

附图说明

图1是GAN网络结构；

图2是ACGAN网络结构；

图3是ACGAN生成器结构(以MNIST数据为例)；

图4是ACGAN判别器结构(以MNIST数据为例)；

图5是IC-ACGAN网络结构(以MNIST数据为例)；

图6是IC-ACGAN判别器结构(以MNIST数据为例)；

图7是不同方法在MNIST训练集上的分类效果图；

图8是不同方法在MNIST测试集上的比较；

图9是不同方法在CIFAR10训练集上的分类效果图；

图10是不同方法在CIFAR10测试集上的比较；

图11是不同方法在CIFAR100训练集上的分类效果图；

图12是不同方法在CIFAR10测试集上的比较。

具体实施方式

下面通过附图及具体实施方式对本发明进行详细的说明。

生成对抗网络是生成模型的一种，是Ian J.Goodfellow于2014年提出。GAN模型是基于最小最大的二人博弈问题，其对抗训练的方式如式(8)所示：

GAN模型的网络结构图如图1所示。GAN网络模型包含生成器G和判别器D，其中生成器是噪声z～p _z(z)到生成样本空间G(z；θ _g)的一个映射，而判别器D(x；θ _d)则是判断输入x是来自真实样本还是生成样本，因此判别器本质上是一个二分类。在G与D的不断对抗中，生成分布p _g(x)不断靠近真实分布p(x)，最终达到Nash均衡。此时生成器可以完全拟合真实数据分布，即p _g(x)＝p(x)，而判别器为D(x)＝p(x)/(p _g(x)+p(x))＝1/2。从而实现生成样本的分布与真实样本分布完全一致，达到生成真实样本的目的。GAN的两个神经网络G和D都利用传统的反向传播原理，且计算过程不需要复杂的马尔科夫链、也不需要极大释然估计、没有复杂的变分下限，大大降低了网络的训练难度，更加容易达到收敛。

原始GAN属于无监督学习范围，可控性不佳。CGAN首次将生成对抗网络应用到监督型学习方法中，可以达到标签与生成图像相对应的效果。ACGAN在CGAN的基础上做了进一步改进，并结合了InfoGAN中最大互信息的思想。如图2是ACGAN的网络结构图。

式(9)、式(10)是ACGAN训练的目标函数：

L _s＝E[log p(s＝real|x _data)]+E[log p(s＝fake)|x _fake] (9)，

L _c＝E[log p(C＝c|x _data)]+E[log p(C＝c)|x _fake] (10)。

训练D，使L _s+L _c最大化；训练G，使L _c-L _s最大化。从网络结构或训练目标函数均可以看出，ACGAN损失函数在GAN的基础上增加了输入样本标签信息与标签后验概率估计值之间的交叉熵。网络训练完成后，输入一个样本x，判别器就可以输出其对应于每一类的概率p(y|x)，选择使得p(y|x)最大的类别k作为输入样本x的标签，从而实现图像分类。

以MNIST数据为例，基于ACGAN的图像分类模型生成器结构如图3所示。网络生成器包括4个全连接层和5个转置卷积层，其中1、3转置卷积层结构相同：kernel_size是4，stride是2，padding是1；2、4、5转置卷积层结构相同：kernel_size是5，stride是1，padding是1。

图4是对应的ACGAN模型的判别器结构图。判别器与生成器结构刚好相反，同样包括5个卷积层和4个全连接层，其中1、2、4卷积层结构相同：kernel_size是5，stride是1，padding是1；3、5卷积层结构相同：kernel_size是4，stride是2，padding是1。判别网络的输出层除了输出样本真假判别外，还输出样本标签的后验概率估计，也即是测试集中样本标签的估计值。

然而ACGAN图像分类算法存在训练不稳定、效果不佳等问题，本发明通过分析ACGAN高清图像的合成原理及其判别器判断能力，提出一种改进的基于ACGAN的图像分类方法(IC-ACGAN)。

本实施例中，该方法可概括为：在判别网络的输出层取消样本的真假判别，只输出样本标签的后验概率估计值；将真实样本看成监督数据，生成样本看成有标签的假数据，利用样本的真假属性以及样本的输出标签与输入标签的交叉熵损失函数重构生成器和判别器的损失函数；在判别网络中引入池化方法，更有效的提取分类特征；在判别网络中加入特征匹配，保证生成样本多样性。

特征匹配(Feature Matching，FM)是Improved GAN中提出的一种提高训练稳定性、生成样本多样性的方法。假设f(x)表示判别器中间层的输出，则FM的目标函数可表示为式(1)：

式中，f(x)表示判别器中间层的输出，x为输入，z～p _z为噪声，G(z；θ _g)为生成样本空间。即让生成样本在判别器中的特征输出与真实样本在判别器中的特征输出相匹配，提高ACGAN在图像分类上的分类效果。

直接利用ACGAN的判别网络D进行分类时，存在训练速度慢、网络不稳定、效果差等问题。因此，对图2的ACGAN网络结构进行改进，改进后网络结构如图5所示。

从网络结构上看，改进后的网络取消了判别器中的真假样本判别项，同时在判别器中引入了特征匹配，除此之外其他部分没有变化。但为了保证网络有效利用真假样本各自特征，在生成器和判别器的损失函数上做了较大改变。将真实样本看成带标签的监督数据，生成样本看成有标签的假数据，然后在判别网络的输出层连接Softmax分类器，得到真实样本的监督损失函数L _supervised，表示为式(2)：

式中，N为训练中一个batch内的样本数，<·,·>表示内积，y为样本标签，y'为样本标签预测值，p为预测函数，CE(y,y')为y与y'的交叉熵损失值。所以，真实数据的损失函数L _real表示为式(3)：

L _real＝L _supervised (3)；

对生成数据，其误差包括两部分：一部分为判别生成样本为第K+1类，也即是假样本类的概率损失值；另一部分是生成样本的输出标签y' _fake与输入标签y之间的交叉熵损失值。令L _unsupervised表示判别生成样本为假样本类的概率期望损失，利用Softmax函数性质，令y' _K+1＝0得到式(4)：

同时，因为使用ACGAN网络，所以每个batch内生成样本的输入标签与样本标签y一致，故生成样本的输出标签y' _fake与输入标签之间的交叉熵损失值为CE(y,y' _fake)。综上可知，生成样本的损失函数L _fake如式(5)所示：

L _fake＝0.5×(L _unsupervised+CE(y,y' _fake)) (5)。

训练中不断更新生成器与判别器参数，因此，需要分别构建生成器和判别器的误差。对判别器D，误差L _D表示为式(6)：

L _D＝0.5×(L _real+L _fake) (6)；

对生成器G，误差L _G表示为式(7)：

L _G＝0.5×(L _FM+L _unsupervised) (7)；

其中

表示特征匹配的二范数损失项。

卷积神经网络在图像分类方法中取得巨大成功，池化方法发挥重要作用。作为卷积神经网络的重要步骤，池化不仅可以有效的提取特征，还可以实现数据降维，防止过拟合现象。池化是卷积神经网络特征提取的关键步骤，它具有保持平移、旋转、伸缩不变性等特点。常用的池化方法包括均值池化、最大池化和随机池化等方法。

在GAN应用过程中，为了使得生成的图片更加高清，在判别网络中使用转置卷积(Deconv)来替代池化，使得池化在生成网络中遭到弃用。本实施例的IC-ACGAN方法将生成对抗网络与池化方法相结合，将带池化的生成对抗网络专用于解决分类问题，这样一方面可以利用生成样本的多样性；另一方面又可以利用池化更加有效的提取特征。

具体地，IC-ACGAN在引入特征匹配和重构损失函数的基础上进一步改进，将ACGAN中判别器的部分卷积层改为池化层，而生成器结构保持不变。是即将原判别网络(对应图4)中的第3、5卷积层改为池化层，池化层结构为kernel_size是2，stride是2，改进后判别网络的结构如图6所示。

为验证本发明提出算法有效性，计划在MNIST、CIFAR10、CIFAR100数据集上分别进行实验。在所有实验中，IC-ACGAN方法中池化层均采用均值池化。

MNIST为手写字体数据集，共60000条训练数据以及10000条测试数据，每条数据对应0-9中的一个数字，每条数据是28*28的二维图像数据，展开成向量后为784维度。为了增强结果的可比性，本实验的ACGAN中判别器的网络结构如图4所描述，IC-ACGAN中判别器的网络结构如图6所示。每次训练的batchsize为100，每组实验共训练100个epoch。实验中生成器和判别器均采用Adam优化，学习率均为0.0002。实验采用Pytorch深度学习框架，并且在GPU条件下实现。

对于图像分类问题，目前最优的方法之一是CNN方法，所以本实验将IC-ACGAN方法与同等深度网络结构的CNN方法进行比较。为使实验具有更高可比性，对CNN的均值池化和最大池化均进行了实验比较。如图7是训练完100个epoch后，各种不同方法在MNIST训练集上的分类效果图。如图8是不同方法在MNIST测试集上的比较。

表1是训练50个epoch后，网络训练趋于平稳时，不同方法在MNIST上的平均预测准确率与方差。

表1不同方法训练50到100个epoch的MNIST预测均值与方差

模型	均值	方差
均值池化CNN	0.99498	6e-09
最大池化CNN	0.994144	3.264e-09
ACGAN	0.994116	4.06944e-07
IC-ACGAN	0.995604	1.92384e-07

如表2是训练完成后各种不同方法在不同的数据集上的最高准确率。

表2不同方法在MNIST、CIFAR10、CIFAR100上的最高预测准确率

模型	MNIST	CIFAR10	CIFAR100
均值池化CNN	0.9951	0.7796	0.4594
最大池化CNN	0.9943	0.7639	0.4283
ACGAN	0.9950	0.7306	0.3989
IC-ACGAN	0.9962	0.7907	0.4803

综合图8、表1、表2可见：与ACGAN相比，IC-ACGAN具有更小的方差，因此具有更好的训练与测试稳定性。同时IC-ACGAN的最高预测准确率为99.62％，高于ACGAN的99.50％，50个epoch后的平均预测准确率同样也更高；与CNN方法相比，IC-ACGAN方法比均值池化CNN和最大池化CNN都有更好的最高预测准确率和平均预测准确率。

CIFAR10是比MNIST更加复杂的数据，每张图像是32*32的彩色图像，即图像大小为3*32*32。共包含10个类别，每个类别5000张图像，即共50000张训练图像，另有10000张测试图片。实验的网络结构与MNIST实验结构完全相同，只是生成器最后的输出层输出特征数变为3，判别器的输入层特征也为3。如图9是训练完100个epoch后，各种不同方法在CIFAR10训练集上的效果图。如图10是不同方法在CIFAR10测试集上的比较。

如表3是50个epoch后，不同方法的平均预测准确率与方差。

表3不同方法训练50到100个epoch的CIFAR10预测均值与方差

模型	均值	方差
均值池化CNN	0.775686	3.935204e-06
最大池化CNN	0.755746	3.878884e-06
ACGAN	0.719572	5.7500464e-05
IC-ACGAN	0.782244	3.1517216e-05

通过图10、表2、表3分析可知：ACGAN方法在MNIST上表现出不错的效果，但当面对复杂的CIFAR10数据时，效果却很差，远不如CNN方法。改进后的IC-ACGAN方法表现出极强的适应能力，面对复杂的CIFAR10数据时，预测准确率同样比相同结构的CNN方法要好得多。

CIFAR100是与CIFAR10类似的数据，都是三通道的彩色图形。但CIFAR100共有100个类别，每个类别共500张训练图片，也即共有50000张训练图片，另有10000测试图片。此时每个类别训练样本数更少，因此，在测试集上的表现也就稍差。CIFAR100实验中各种分类方法网络结构与CIFAR10、MNIST实验中的结构完全一样。如图11是训练完100个epoch后不同方法在CIFAR100训练集上的分类效果图。图12是不同方法在CIFAR100测试集上的比较。

如表4是训练了50个epoch，网络逐渐趋于稳定后，各种不同方法的平均预测准确率与方差：

表4不同方法训练50到100个epoch的CIFAR100预测均值与方差

模型	均值	方差
均值池化CNN	0.452368	4.916176e-06
最大池化CNN	0.40943	5.2557e-06
ACGAN	0.38845	3.04989e-05
IC-ACGAN	0.462822	4.7516916e-05

分析图12、表2、表4可知：与CIFAR10结论相似，与同等结构的CNN方法相比，ACGAN面对复杂的CIFAR100数据时同样表现出较差的效果。本发明提出的IC-ACGAN方法在CIFAR100上同样表现出强大的适应能力，与同等结构的CNN相比，预测准确率有大幅度的提升。

综上可知，当面对相对简单MNIST数据集时，ACGAN、IC-ACGAN均表现出优良分类效果；当面对复杂高维数据时，ACGAN表现则不如CNN方法，本发明提出的IC-ACGAN方法同样表现出较好的分类效果。因此，本发明方法增强了网络对于复杂数据的适应能力，且与同等结构的CNN方法相比，预测准确率也有显著提高。

以上实施例是对本发明的解释，但是，本发明并不局限于上述实施方式中的具体细节，本领域的技术人员在本发明的技术构思范围内进行的多种等同替代或简单变型方式，均应属于本发明的保护范围。

Claims

一种改进辅助分类器GAN的图像分类方法，其特征在于，包括：

在ACGAN网络结构的基础条件下，将判别器的第3卷积层、第5卷积层分别改为池化层，并引入特征匹配(FM)，使生成样本在判别器中的特征输出与真实样本在判别器中的特征输出相匹配，FM的目标函数如式(1)所示：

式中，f(x)表示判别器中间层的输出，x为输入，z～p _z为噪声，G(z；θ _g)为生成样本空间；

将真实样本看成有标签的监督数据，生成样本看成有标签的假数据，然后在判别器的输出层连接Softmax分类器，输出样本标签的后验概率估计值；

其中，真实样本的监督损失函数L _supervised，表示为式(2)：

式中，N为训练中一个batch内的样本数，<·,·>表示内积，y为样本标签，y'为样本标签预测值，p为预测函数，CE(y,y')为y与y'的交叉熵损失值；

真实数据的损失函数L _real表示为式(3)：

L _real＝L _supervised  (3)；

判别生成样本为假样本类的概率期望损失L _unsupervised如式(4)所示：

式中，K为类别；

生成样本的输入标签与样本标签y一致，得到生成样本的输出标签y' _fake与输入标签之间的交叉熵损失值为CE(y,y' _fake)，生成样本的损失函数L _fake如式(5)所示：

L _fake＝0.5×(L _unsupervised+CE(y,y' _fake))  (5)；

利用样本的真假属性以及样本的输出标签与输入标签的交叉熵损失函数重构生成器和判别器的损失函数，其中，判别器的误差L _D表示为式(6)：

L _D＝0.5×(L _real+L _fake)  (6)；

生成器的误差L _G表示为式(7)：

L _G＝0.5×(L _FM+L _unsupervised)  (7)；

其中
表示特征匹配的二范数损失项。
根据权利要求1所述的改进辅助分类器GAN的图像分类方法，其特征在于，对于MNIST数据集，判别网络的卷积层结构为：kernel_size是5，stride是1，padding是1，池化层结构为kernel_size是2，stride是2。