WO2017096758A1

WO2017096758A1 - 图像分类方法、电子设备和存储介质

Info

Publication number: WO2017096758A1
Application number: PCT/CN2016/083064
Authority: WO
Inventors: 徐昆; 郭晓威; 黄飞跃; 张睿欣; 王巨宏; 胡事民; 刘斌
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2015-12-11
Filing date: 2016-05-23
Publication date: 2017-06-15
Also published as: CN106874921B; CN106874921A; EP3388978A1; EP3388978B1; US10325181B2; US20180012107A1; EP3388978A4

Abstract

一种图像分类方法，所述方法包括：将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征；将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的所述待分类的图像包含预设类别的物体图像的概率值；所述线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的；根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像。

Description

图像分类方法、电子设备和存储介质

本申请要求于2015年12月11日提交中国专利局，申请号为201510921073.9，发明名称为“图像分类方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种图像分类方法、电子设备和存储介质。

背景技术

图像分类方法是根据在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法，具体利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。对图像进行分类后，便可以根据分类结果做进一步应用，比如图像检索、视频监控以及涉及图像的语义分析等各种应用。

目前利用神经网络模型可以实现较为准确的图像分类，但随着图像分类应用的不断扩展和细化，对图像分类准确性的要求不断提高，因此如何提高图像分类的准确性成为目前需要解决的一个重要问题。

发明内容

根据本申请的各种实施例，提供一种可提高图像分类准确性的图像分类方法、电子设备和存储介质。

一种图像分类方法，包括：

将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征；

将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的所述待分类的图像包含预设类别的物体图像的概率值；所述线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的；及

根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像。

一种电子设备，包括存储器和处理器，所述存储器中储存有指令，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

一个或多个存储有计算机可读指令的计算机可读非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

本发明的一个或多个实施例的细节在下面的附图和描述中提出。本发明的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中用于实现图像分类方法的电子设备的结构示意图；

图2为一个实施例中图像分类方法的流程示意图；

图3为一个具体实例中简化的神经网络模型的结构示意图；

图4为一个实施例中一种映射函数的曲线示意图；

图5为一个实施例中将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征的步骤的流程示意图；

图6为一个实施例中重新训练神经网络模型时输入大于标准尺寸的训练图像时输出概率值矩阵的示意图；

图7为一个实施例中根据获得的各个概率值判别待分类的图像是否包含预设类别的物体图像的步骤的流程示意图；

图8为一个实施例中电子设备的结构框图；

图9为一个实施例中电子设备的图像特征提取模块的结构框图；

图10为另一个实施例中电子设备的结构框图；

图11为一个实施例中电子设备的判别模块的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种用于实现图像分类方法的电子设备，包括通过系统总线连接的处理器、非易失性存储介质和内存储器。其中处理器具有计算功能和控制该电子设备工作的功能，该处理器被配置为执行一种图像分类方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种，非易失性存储介质存储有操作系统。非易失性存储介质和内存储器可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种图像分类方法。

如图2所示，在一个实施例中，提供了一种图像分类方法，本实施例以该方法应用于上述图1所示的电子设备来举例说明。该方法具体包括如下步骤：

步骤202，将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征。

其中，待分类的图像是指需要进行分类的图像，可承载于预设格式的图片中，预设格式比如JPEG格式、PNG格式、BMP格式或者GIF格式等。神经网络模型也称为人工神经网络模型(Artificial Neural Networks，简写为ANNs)，是一种模拟大脑结构的机器学习模型。在机器学习领域，神经网络经常被用来对较复杂的任务建模。神经网络的规模，包括深度和宽度都是可以调节的，视应用领域和问题规模而定。因为神经网络超强的表达能力，在语音识别、图像分类、人脸识别、自然语言处理以及广告投放等应用领域被广泛应用。

如图3所示的简化的神经网络模型，神经网络模型的结构包括多层，第一层是输入层，最后一层是输出层，中间包括零个或者多个中间层，每一层包括一个或多个节点。输入层规模根据输入变量的数量决定，输出层规模则取决于分类类别数目。隐含层包括多个神经元，调整神经元数量就可以调整神经网络模型的复杂度和表达能力。一般来说，神经网络越宽越深，其建模能力越强。

多个神经网络模型至少为2个神经网络模型，不同的神经网络模型主要是训练所采用的训练集不同，训练集不同是指训练集中的训练图像不同，当然不同的训练集中存在少部分相同的训练图像也是可以接受的，训练图像则是已知了所属类别的图像。不同的神经网络模型的非输出层的架构可以是统一的，具体非输出层的层数和宽度可以是相同的，这里的架构不包括连接不同层的系数。非输出层是指输入层和中间层，而非输入层则是指中间层和输出层。输出层的节点数量为多个。

神经网络模型优选可以是卷积神经网络模型。卷积神经网络模型中相邻两层神经元之间的连接关系，由原来的全连接变为每个神经元只与少数几个神经元连接，并且连接的系数(或称为权值)在神经元之间是相同的，称为共享卷积核，或共享权值。这种类似于卷积的连接方式能极大减少学习的参数，学到一些具有不变性的特征，很适合处理图像数据，用于图像分类时可进一步提高分类准确性。

将待分类的图像输入多个不同的神经网络模型的输出层，获取各神经网络模型的中间层和输出层中的至少一层输出的数据，优选可获取各神经网络模型的中间层和输出层中的至少两层输出的数据，根据获取的数据生成与各神经网络模型一一对应的多个图像特征。神经网络模型的输出层输出的可以是待分类的图像属于预设类别的概率，输出层的每个节点代表一种预设类别。

获取非输入层输出的数据时的非输入层优选可从输出层向输入层的方向选择，比如选择输出层和倒数第二层，或者选择输出层、倒数第二层以及倒数第三层。

步骤204，将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的待分类的图像包含预设类别的物体图像的概率值；线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的。

具体地，各神经网络模型对于每个预设类别分别训练了用于判别相应预设类别的线性分类器，该预设类别的线性分类器是根据已知包含该预设类别的物体图像的真实概率值的训练图像经过该线性分类器所对应的神经网络模型提取图像特征后训练得到的，提取图像特征时。如果要判别待分类的图像是否包含特定的预设类别的物体图像，则可以将多个图像特征分别输入各神经网络模型对应的用于判别特定的预设类别的线性分类器；如果要判别待分类的图像包含哪种或哪些预设类别，则可以将多个图像特征分别输入各神经网络模型对应的所有线性分类器，每个线性分类器用于判别一种预设类别。包含预设类别的物体图像比如包含电视机的图像、包含狗的图像或者包含人类的图像等。

线性分类器输出的结果可以是一个实数范围，可以利用一个自变量为实数集而因变量为[0，1]的映射函数将线性分类器输出的结果映射为待分类的图像包含预设类别的物体图像的概率值。线性分类器是基于SVM(Support Vector Machine，支持向量机)的线性分类器。其中映射函数的因变量与自变量正相关，即因变量随着自变量的增大而增大，随着自变量的减小而减小。比如映射函数可以采用Sigmoid函数，Sigmoid函数具体为

其中e为自然底数，x为自变量，S(x)为因变量。Sigmoid函数的曲线如图4所示。映射函数可以集成到线性分类器中使得线性分类器直接输出待分类的图像包含预设类别的物体图像的概率值。

步骤206，根据获得的各个概率值判别待分类的图像是否包含预设类别的物体图像。

具体地，可以将步骤204中获得的各个概率值求平均值或者加权平均值获得综合的概率值，从而判断该综合的概率值与相应预设类别的概率值阈值的大小，若大于或等于则判定待分类的图像包含预设类别的物体图像；若小于则判定待分类的图像不包含预设类别的物体图像。其中计算加权平均值时各个概率值的权重，可以预先准备若干权重组合，利用验证集分别验证每种权重组合下的图像分类准确率，选取图像分类准确率最高的权重组合作为计算加权平均值时各概率值的权重。

上述图像分类方法，利用神经网络模型多个非输入层输出的数据来提取待分类的图像的特征，可以更加准确地表达图像的特性。再将图像特征输入相应的神经网络模型对应的用于判别预设类别的线性分类器，利用线性分类器输出的结果获得的概率值能够更加准确地反映出待分类的图像包含预设类别的物体图像的概率值。综合不同的神经网络模型各自对应的用于判别预设类别的线性分类器所对应的概率值，可以进一步提高图像分类的准确性。

如图5所示，在一个实施例中，步骤202具体包括以下步骤：

步骤502，将待分类的图像输入每个神经网络模型。

在一个实施例中，步骤502包括：将待分类的图像按照多个尺度分别输入每个神经网络模型。其中多个尺度的图像均由待分类的图像进行长宽等比例缩放获得。比如可将待分类的图像等比例缩放至较短边为256、384和512三个尺度分别输入每个神经网络模型。

步骤504，获取每个神经网络模型的中间层和输出层中指定的多个层输出的向量。

其中，每个神经网络模型的中间层和输出层中指定的多个层，是指从中间层和输出层构成的层的集合中选择预先指定的至少两个层。比如可以获取每个神经网络模型的输出层、倒数第二层和倒数第三层输出的向量。每个层输出的向量为固定长度的向量。

步骤506，将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征。

具体地，按照预先确定的拼接顺序，将每个神经网络模型的不同层的向量进行拼接，获得与每个神经网络模型一一对应的图形特征，获得的图像特征的数量与神经网络模型的数量是一致的。

在一个实施例中，步骤506具体包括：将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得分别与每个神经网络模型对应的多个图像特征。

具体地，不同尺度的图像输入神经网络模型后，各个神经网络模型的同一层输出的向量长度是固定的，可以通过求取平均值来综合不同尺度的图像的特征。而各个神经网络模型的不同层输出的向量长度一般是不同的，可以通过拼接来综合不同层的图像的特征。将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，以及将不同尺度的图像对应的向量求平均值并不限定先后顺序，均可以实现。最终获得的图像特征能够准确地表达待分类的图像的特性。

本实施例中，利用神经网络模型的非输入层中多个层输出的向量来生成图像特征，使得图像特征可以更好地表达待分类图像的特性，从而有利于获得更好的分类准确性。

在一个实施例中，该图像分类方法还包括：将采用一种训练集训练的原始的神经网络模型的输出层的系数清空，调整输出层与另外的训练集适配，并采用另外的训练集重新训练得到重新训练的神经网络模型。

其中一种训练集是指训练原始的神经网络模型时所采用的训练集，其中包括若干已知包含预设类别的物体图像的真实概率值的训练图像。另外的训练集则是与训练原始的神经网络模型时所采用的一种训练集不同的训练集。训练集不同预设类别的数目也不同，因此需要根据另外的训练集的预设类别的数量来调整输出层的节点，并清空输出层的系数重新进行训练。

原始的神经网络模型可以采用牛津大学VGG实验室所公布的用ImageNet训练集训练过的神经网络模型，在其它实施例中还可以采用其它公开的神经网络模型，比如谷歌公司开源的神经网络模型。ImageNet是一个计算机视觉系统识别项目，是美国的计算机科学家模拟人类的识别系统建立的，用于从图片识别物体的深度学习模型的建立。

原始的神经网络模型训练采用的ImageNet训练集具有1000个类别，输出层系数的规模是4096*1000(其中4096是倒数第二层的输出个数)。另外的数据集不一定是1000个类别，假如有20类，那输出层的系数的规模是4096*20，所以应当调整输出层与另外的训练集适配再重新进行训练。重新训练时可以采用FCN(Fully Convolutional Networks，参见Fully Convolutional Networks for Semantic Segmentation，arxiv：1411.4038v2)算法进行训练。

在一个实施例中，在重新训练神经网络模型时，可将调整了输出层的神经网络模型输出层的系数初始化，并将相应训练集中的每个训练图像缩放至相同尺寸输入到该神经网络模型，由输出层输出包含预设类别的物体图像的概率值。其中真实概率值可采用预设类别的物体图像占相应训练图像中的比例。将输出的概率值与相应训练图像的真实概率值进行比较来调整重新训练的神经网络模型的系数，使得输出层输出的概率值与相应的真实概率值的差异减小，并最终完成训练。

将相应训练集中的每个训练图像缩放至相同尺寸输入到该神经网络模型时，若长宽比不同则可以较短边为边长的正方形遍历缩放后的图像获得子图像输入该神经网络模型，直到缩放后的图像的所有像素被遍历。比如可将训练图像按照较短边缩放到256，并根据较长边的大小以每次16像素的间隔多次输入256*256的子图像，直到缩放后的图像的所有像素被遍历。

在一个实施例中，在重新训练神经网络模型时，可基于OverFeat算法，得到训练图像的每个预设类别的物体图像的密集概率空间分布，根据训练图像中物体图像的真实位置可以计算真实的密集概率空间分布，根据OverFeat算法得到的密集概率空间分布和真实的密集概率空间分布可以计算反向传播梯度，从而根据反向传播梯度来调整重新训练的神经网络模型的系数，使得输出层输出的概率值与相应的真实概率值的差异减小。

举例说明，假设重新训练的神经网络模型的系数为向量X，输入的训练图像为I，输出层输出的概率值为y(X，I)，给定X和I可以计算出y，而真实的概率值y’是已知的，需要调整向量X使得y与y’尽可能接近。于是优化X使得代价函数E＝|y-y’|²最小化。对E求关于X的偏导，得到梯度方向ΔX，与梯度方向ΔX相反的方向-ΔX调整X的值，使得E减小。

假设重新训练的神经网络模型的输入图像的标准尺寸为224*224，那么若输入大于标准尺寸的训练图像，输出层输出相应预设类别的概率值矩阵。例如输入256*256的图像会得到2*2的概率值矩阵，概率值矩阵中的每个概率值对应输入的训练图像的一个子图像。如图6所示，概率值矩阵的左上角的值只决定于训练图像左上角尺寸为224*224的子图像。概率值矩阵中的概率值，可以取预设类别的物体图像在相应的子图像中的部分占物体图像整体的比例。比如在图6左上角尺寸为224*224的子图像中三角形全部位于该子图像中，相应概率值为1；五角星不在该子图像中故相应概率值为0；圆形有一半在该子图像中则相应概率值为0.5。

本实施例中，通过调整已有的神经网络模型并重新训练可以快速训练获得进行图像分类所需的神经网络模型，大大节省了训练所需时间。

如图7所示，在一个实施例中，步骤206具体包括如下步骤：

步骤702，采用窗口遍历待分类的图像以提取窗口图像并缩放至相同尺寸。

具体地，可对待分类的图像采用Selective Search(选择性搜索)算法从待分类的图像中提取100个窗口图像，并统一缩放至256*256的尺寸。缩放后的尺寸应满足神经网络模型输入图像所需的尺寸。

步骤704，将各个窗口图像输入到重新训练的神经网络模型，并获取非输入层输出的数据生成窗口图像特征。

具体地，可将各个窗口图像输入到重新训练的神经网络模型，获取中间层和输出层中指定的多个层输出的向量，将不同层的向量拼接获得窗口图像特征。

在一个实施例中，可将各个窗口图像分别按照多个尺度输入到重新训练的神经网络模型，将相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得窗口图像特征。

步骤706，将各个窗口图像特征分别输入重新训练的神经网络模型对应的用于判别预设类别的线性分类器，并根据相应的线性分类器输出的结果获得各个窗口图像包含预设类别的物体图像的概率值。

步骤708，从各个窗口图像对应的概率值中选择值最大的概率值。具体地，这里记从各个窗口图像对应的概率值中选择值最大的概率值为P3，另外记与原始的神经网络模型对应的概率值为P2，与重新训练的神经网络模型对应的概率值为P1。

步骤710，从选择的概率值和原始的神经网络模型对应的概率值中选取值最大的概率值。具体地，从P2和P3中选择值最大的概率值记为max(P2，P3)。

步骤712，计算选取的概率值和重新训练的神经网络模型对应的概率值的加权平均值。

具体地，计算P1与max(P2，P3)加权平均值。其中P1与max(P2，P3)的权重可以通过验证集验证图像分类准确性来确定。具体地，可预先准备若干权重组合，比如0.1和0.9，0.2和0.8以及0.3和0.7，利用验证集分别验证在不同的权重组合下的图像分类准确率，从而选取图像分类准确率最高的权重组合作为步骤712中计算加权平均值的权重组合。验证集包括若干已知包含预设类别的物体图像的真实概率值的图像的集合。

步骤714，根据加权平均值与预设类别对应的概率值阈值的大小关系判别待分类的图像是否包含预设类别的物体图像。

具体地，比较加权平均值与预设类别的概率值阈值的大小，若加权平均值大于等于概率值阈值，则判定待分类的图像包含预设类别的物体图像；若加权平均值小于概率值阈值，则判定待分类的图像不包含预设类别的物体图像。其中概率值阈值比如可取0.5。

在一个实施例中，当待分类的图像尺寸大于训练图像的尺寸时，可将待分类的图像划分成若干可部分重叠的子图像，分别通过上述步骤202、204以及步骤702至步骤712得到每个子图像的加权平均值，该加权平均值表示的是综合了各个神经网络模型的综合概率值，各个子图像的综合概率值构成概率空间分布。通过待分类图像的概率空间分布的最大概率值可以代表整个待分类的图像包含预设类别的物体图像的概率，而通过不同预设类别的最大概率值就可以判断待分类的图像包含哪些预设类别的物体图像。

本实施例中，考虑到有些类别的判别依赖于上下文信息，如船的判别经常需要有海当背景，相应的P2的值就比P3大；而有些类别的识别不依赖于上下文信息，那么P3的值就比P2大；但如果不包括预设类别的物体图像，则P2和P3都比较低。因此只要P2或P3有一个很高，基本可以判定待分类的图像中包含预设类别的物体图像的可能性就非常大，可以进一步提高图像分类准确性。

如图8所示，在一个实施例中，提供了一种电子设备800，电子设备800的内部结构可对应于如图1所示的电子设备的结构，下述每个模块可全部或部分通过软件、硬件或其组合来实现。电子设备800包括图像特征提取模块810、线性分类器分类模块820和判别模块830。

图像特征提取模块810，用于将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征。

神经网络模型优选可以是卷积神经网络模型。卷积神经网络模型中相邻两层神经元之间的连接关系，由原来的全连接变为每个神经元只与少数几个神经元连接，并且连接的系数在神经元之间是相同的，称为共享卷积核，或共享权值。这种类似于卷积的连接方式能极大减少学习的参数，学到一些具有不变性的特征，很适合处理图像数据，用于图像分类时可进一步提高分类准确性。

图像特征提取模块810用于将待分类的图像输入多个不同的神经网络模型的输出层，获取各神经网络模型的中间层和输出层中的至少一层输出的数据，优选可获取各神经网络模型的中间层和输出层中的至少两层输出的数据，根据获取的数据生成与各神经网络模型一一对应的多个图像特征。神经网络模型的输出层输出的可以是待分类的图像属于预设类别的概率，输出层的每个节点代表一种预设类别。

图像特征提取模块810获取非输入层输出的数据时的非输入层优选可从输出层向输入层的方向选择，比如选择输出层和倒数第二层，或者选择输出层、倒数第二层以及倒数第三层。

线性分类器分类模块820，用于将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的待分类的图像包含预设类别的物体图像的概率值；线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的。

具体地，各神经网络模型对于每个预设类别分别训练了用于判别相应预设类别的线性分类器，该预设类别的线性分类器是根据已知包含该预设类别的物体图像的真实概率值的训练图像经过该线性分类器所对应的神经网络模型提取图像特征后训练得到的。如果要判别待分类的图像是否包含特定的预设类别的物体图像，则可以将多个图像特征分别输入各神经网络模型对应的用于判别特定的预设类别的线性分类器；如果要判别待分类的图像包含哪种或哪些预设类别，则可以将多个图像特征分别输入各神经网络模型对应的所有线性分类器，每个线性分类器用于判别一种预设类别。包含预设类别的物体图像比如包含电视机的图像、包含狗的图像或者包含人类的图像等。

线性分类器输出的结果可以是一个实数范围，可以利用一个自变量为实数集而因变量为[0，1]的映射函数将线性分类器输出的结果映射为待分类的图像包含预设类别的物体图像的概率值。其中映射函数的因变量与自变量正相关，即因变量随着自变量的增大而增大，随着自变量的减小而减小。比如映射函数可以采用Sigmoid函数，Sigmoid函数具体为

其中e为自然底数，x为自变量，S(x)为因变量。映射函数可以集成到线性分类器中使得线性分类器直接输出待分类的图像包含预设类别的物体图像的概率值。

判别模块830，用于根据获得的各个概率值判别待分类的图像是否包含预设类别的物体图像。

具体地，可以将线性分类器分类模块820获得的各个概率值求平均值或者加权平均值获得综合的概率值，从而判断该综合的概率值与相应预设类别的概率值阈值的大小，若大于或等于则判定待分类的图像包含预设类别的物体图像；若小于则判定待分类的图像不包含预设类别的物体图像。其中计算加权平均值时各个概率值的权重，可以预先准备若干权重组合，利用验证集分别验证每种权重组合下的图像分类准确率，选取图像分类准确率最高的权重组合作为计算加权平均值时各概率值的权重。

上述电子设备800，利用神经网络模型多个非输入层输出的数据来提取待分类的图像的特征，可以更加准确地表达图像的特性。再将图像特征输入相应的神经网络模型对应的用于判别预设类别的线性分类器，利用线性分类器输出的结果获得的概率值能够更加准确地反映出待分类的图像包含预设类别的物体图像的概率值。综合不同的神经网络模型各自对应的用于判别预设类别的线性分类器所对应的概率值，可以进一步提高图像分类的准确性。

如图9所示，在一个实施例中，图像特征提取模块810包括：输入模块811、向量获取模块812和图像特征生成模块813。

输入模块811，用于将待分类的图像输入每个神经网络模型。

向量获取模块812，用于获取每个神经网络模型的中间层和输出层中指定的多个层输出的向量。

图像特征生成模块813，用于将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征。

具体地，图像特征生成模块813用于按照预先确定的拼接顺序，将每个神经网络模型的不同层的向量进行拼接，获得与每个神经网络模型一一对应的图形特征，获得的图像特征的数量与神经网络模型的数量是一致的。

在一个实施例中，输入模块811具体用于将待分类的图像按照多个尺度分别输入每个神经网络模型。其中多个尺度的图像均由待分类的图像进行长宽等比例缩放获得。比如可将待分类的图像等比例缩放至较短边为256、384和512三个尺度分别输入每个神经网络模型。

图像特征生成模块813具体用于将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得分别与每个神经网络模型对应的多个图像特征。

如图10所示，在一个实施例中，电子设备800还包括训练模块840，用于将采用一种训练集训练的原始的神经网络模型的输出层的系数清空，调整输出层与另外的训练集适配，并采用另外的训练集重新训练得到重新训练的神经网络模型。

原始的神经网络模型训练采用的ImageNet训练集具有1000个类别，输出层系数的规模是4096*1000(其中4096是倒数第二层的输出数量)。另外的数据集不一定是1000个类别，假如有20类，那输出层的系数的规模是4096*20，所以应当调整输出层与另外的训练集适配再重新进行训练。重新训练时可以采用FCN(全卷积网络的语义分割)算法进行训练。

在一个实施例中，训练模块840在重新训练神经网络模型时，可将调整了输出层的神经网络模型输出层的系数初始化，并将相应训练集中的每个训练图像缩放至相同尺寸输入到该神经网络模型，由输出层输出包含预设类别的物体图像的概率值。其中真实概率值可采用预设类别的物体图像占相应训练图像中的比例。将输出的概率值与相应训练图像的真实概率值进行比较来调整重新训练的神经网络模型的系数，使得输出层输出的概率值与相应的真实概率值的差异减小，并最终完成训练。

训练模块840将相应训练集中的每个训练图像缩放至相同尺寸输入到该神经网络模型时，若长宽比不同则可以较短边为边长的正方形遍历缩放后的图像获得子图像输入该神经网络模型，直到缩放后的图像的所有像素被遍历。比如可将训练图像按照较短边缩放到256，并根据较长边的大小以每次16像素的间隔多次输入256*256的子图像，直到缩放后的图像的所有像素被遍历。

在一个实施例中，训练模块840在重新训练神经网络模型时，可基于OverFeat算法，得到训练图像的每个预设类别的物体图像的密集概率空间分布，根据训练图像中物体图像的真实位置可以计算真实的密集概率空间分布，根据OverFeat算法得到的密集概率空间分布和真实的密集概率空间分布可以计算反向传播梯度，从而根据反向传播梯度来调整重新训练的神经网络模型的系数，使得输出层输出的概率值与相应的真实概率值的差异减小。

如图11所示，在一个实施例中，判别模块830包括：窗口图像提取模块831、窗口图像特征生成模块832、概率值获得模块833、概率值筛选模块834、计算模块835和执行模块836。

窗口图像提取模块831，用于采用窗口遍历待分类的图像以提取窗口图像并缩放至相同尺寸。

具体地，窗口图像提取模块831可用于对待分类的图像采用Selective Search算法从待分类的图像中提取100个窗口图像，并统一缩放至256*256的尺寸。缩放后的尺寸应满足神经网络模型输入图像所需的尺寸。

窗口图像特征生成模块832，用于将各个窗口图像输入到重新训练的神经网络模型，并获取非输入层输出的数据生成窗口图像特征。

具体地，窗口图像特征生成模块832可将各个窗口图像输入到重新训练的神经网络模型，获取中间层和输出层中指定的多个层输出的向量，将不同层的向量拼接获得窗口图像特征。

在一个实施例中，窗口图像特征生成模块832可将各个窗口图像分别按照多个尺度输入到重新训练的神经网络模型，将相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得窗口图像特征。

概率值获得模块833，用于将各个窗口图像特征分别输入重新训练的神经网络模型对应的用于判别预设类别的线性分类器，并根据相应的线性分类器输出的结果获得各个窗口图像包含预设类别的物体图像的概率值。

概率值筛选模块834，用于从各个窗口图像对应的概率值中选择值最大的概率值；从选择的概率值和原始的神经网络模型对应的概率值中选取值最大的概率值。具体地，这里记从各个窗口图像对应的概率值中选择值最大的概率值为P3，另外记与原始的神经网络模型对应的概率值为P2，与重新训练的神经网络模型对应的概率值为P1。从P2和P3中选择值最大的概率值记为max(P2，P3)。

计算模块835，用于计算选取的概率值和重新训练的神经网络模型对应的概率值的加权平均值。

执行模块836，用于根据加权平均值与预设类别对应的概率值阈值的大小关系判别待分类的图像是否包含预设类别的物体图像。

具体地，执行模块836比较加权平均值与预设类别的概率值阈值的大小，若加权平均值大于等于概率值阈值，则判定待分类的图像包含预设类别的物体图像；若加权平均值小于概率值阈值，则判定待分类的图像不包含预设类别的物体图像。其中概率值阈值比如可取0.5。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

一种图像分类方法，包括：

将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征；

将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的所述待分类的图像包含预设类别的物体图像的概率值；所述线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的；及

根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像。
根据权利要求1所述的方法，其特征在于，所述将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征包括：

将待分类的图像输入每个神经网络模型；

获取每个神经网络模型的中间层和输出层中指定的多个层输出的向量；

将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求2所述的方法，其特征在于，所述将待分类的图像输入每个神经网络模型包括：

将待分类的图像按照多个尺度分别输入每个神经网络模型；

所述将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征，包括：

将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求1所述的方法，其特征在于，还包括：

将采用一种训练集训练的原始的神经网络模型的输出层的系数清空，调整输出层与另外的训练集适配，并采用所述另外的训练集重新训练得到重新训练的神经网络模型。
根据权利要求4所述的方法，其特征在于，所述根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像包括：

采用窗口遍历待分类的图像以提取窗口图像并缩放至相同尺寸；

将各个窗口图像输入到重新训练的神经网络模型，并获取非输入层输出的数据生成窗口图像特征；

将各个窗口图像特征分别输入重新训练的神经网络模型对应的用于判别预设类别的线性分类器，并根据相应的线性分类器输出的结果获得各个窗口图像包含预设类别的物体图像的概率值；

从各个窗口图像对应的概率值中选择值最大的概率值；

从选择的概率值和原始的神经网络模型对应的概率值中选取值最大的概率值；

计算选取的概率值和重新训练的神经网络模型对应的概率值的加权平均值；及

根据所述加权平均值与预设类别对应的概率值阈值的大小关系判别所述待分类的图像是否包含预设类别的物体图像。
一种电子设备，包括存储器和处理器，所述存储器中储存有指令，其特征在于，所述指令被所述处理器执行时，使得所述处理器执行以下步骤：

将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征；

将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的所述待分类的图像包含预设类别的物体图像的概率值；所述线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的；及

根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像。
根据权利要求6所述的电子设备，其特征在于，所述将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征包括：

将待分类的图像输入每个神经网络模型；

获取每个神经网络模型的中间层和输出层中指定的多个层输出的向量；

将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求7所述的电子设备，其特征在于，所述将待分类的图像输入每个神经网络模型包括：

将待分类的图像按照多个尺度分别输入每个神经网络模型；

所述将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征，包括：

将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求6所述的电子设备，其特征在于，所述指令被所述处理器执行时，还使得所述处理器执行以下步骤：

将采用一种训练集训练的原始的神经网络模型的输出层的系数清空，调整输出层与另外的训练集适配，并采用所述另外的训练集重新训练得到重新训练的神经网络模型。
根据权利要求9所述的电子设备，其特征在于，所述根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像包括：

采用窗口遍历待分类的图像以提取窗口图像并缩放至相同尺寸；

将各个窗口图像输入到重新训练的神经网络模型，并获取非输入层输出的数据生成窗口图像特征；

将各个窗口图像特征分别输入重新训练的神经网络模型对应的用于判别预设类别的线性分类器，并根据相应的线性分类器输出的结果获得各个窗口图像包含预设类别的物体图像的概率值；

从各个窗口图像对应的概率值中选择值最大的概率值；

从选择的概率值和原始的神经网络模型对应的概率值中选取值最大的概率值；

计算选取的概率值和重新训练的神经网络模型对应的概率值的加权平均值；及

根据所述加权平均值与预设类别对应的概率值阈值的大小关系判别所述待分类的图像是否包含预设类别的物体图像。
一个或多个存储有计算机可读指令的计算机可读非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征；

将多个图像特征分别输入各神经网络模型对应的用于判别预设类别的线性分类器，获得相应的所述待分类的图像包含预设类别的物体图像的概率值；所述线性分类器是根据由相应的神经网络模型提取的相应的训练图像的特征进行训练得到的；及

根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像。
根据权利要求11所述的计算机可读非易失性存储介质，其特征在于，所述将待分类的图像输入多个不同的神经网络模型，获取各神经网络模型的指定的多个非输入层输出的数据生成相应的多个图像特征包括：

将待分类的图像输入每个神经网络模型；

获取每个神经网络模型的中间层和输出层中指定的多个层输出的向量；

将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求12所述的计算机可读非易失性存储介质，其特征在于，所述将待分类的图像输入每个神经网络模型包括：

将待分类的图像按照多个尺度分别输入每个神经网络模型；

所述将每个神经网络模型的不同层的向量拼接，获得分别与每个神经网络模型对应的多个图像特征，包括：

将每个神经网络模型的相同尺度的图像对应的不同层的向量拼接，并将不同尺度的图像对应的向量求平均值，获得分别与每个神经网络模型对应的多个图像特征。
根据权利要求11所述的计算机可读非易失性存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，还使得所述一个或多个处理器执行以下步骤：

将采用一种训练集训练的原始的神经网络模型的输出层的系数清空，调整输出层与另外的训练集适配，并采用所述另外的训练集重新训练得到重新训练的神经网络模型。
根据权利要求14所述的计算机可读非易失性存储介质，其特征在于，所述根据获得的各个概率值判别所述待分类的图像是否包含预设类别的物体图像包括：

采用窗口遍历待分类的图像以提取窗口图像并缩放至相同尺寸；

将各个窗口图像输入到重新训练的神经网络模型，并获取非输入层输出的数据生成窗口图像特征；

将各个窗口图像特征分别输入重新训练的神经网络模型对应的用于判别预设类别的线性分类器，并根据相应的线性分类器输出的结果获得各个窗口图像包含预设类别的物体图像的概率值；

从各个窗口图像对应的概率值中选择值最大的概率值；

从选择的概率值和原始的神经网络模型对应的概率值中选取值最大的概率值；

计算选取的概率值和重新训练的神经网络模型对应的概率值的加权平均值；及

根据所述加权平均值与预设类别对应的概率值阈值的大小关系判别所述待分类的图像是否包含预设类别的物体图像。