WO2021184902A1

WO2021184902A1 - 图像分类方法、装置、及其训练方法、装置、设备、介质

Info

Publication number: WO2021184902A1
Application number: PCT/CN2020/140711
Authority: WO
Inventors: 吴艳红; 陈冠男; 张丽杰
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-03-19
Filing date: 2020-12-29
Publication date: 2021-09-23
Also published as: US20220165053A1; CN111368937B; CN111368937A; US11854248B2

Abstract

一种图像分类方法、装置、设备以及可读存储介质，所述图像分类方法包括：利用第一卷积网络对待处理图像进行处理，得到第一特征图(S101)；利用残差网络对所述第一特征图进行处理，得到第二特征图(S102)，其中，所述残差网络中包括深度可分离卷积层；以及利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签(S103)。

Description

图像分类方法、装置、及其训练方法、装置、设备、介质

相关申请的交叉引用

本申请要求于2020年03月19日提交的中国专利申请第202010194826.1号的优先权。该中国专利申请的全文通过引用的方式结合于此以作为本申请的一部分。

技术领域

本公开涉及图像处理技术领域，更具体地，涉及一种图像分类方法、装置、设备以及可读存储介质。

背景技术

基于人工智能技术，可以实现对于图像类别的识别，即实现图像分类。例如，识别图像中的人脸的表情类别，以应用于诸如安防、金融、娱乐以及日常生活等方面。然而，利用机器学习的方法对图像进行分类的准确率一直难以有实质性突破。对于现有的用于图像分类的神经网络，为了保证分类的准确性而一般具有较为复杂的网络结构，参数计算量大，这不利于在诸如手机等的终端设备上应用，而且无法满足实时处理的要求。

发明内容

根据本公开的一方面，提供了一种图像分类方法，包括：利用第一卷积网络对待处理图像进行处理，得到第一特征图；利用残差网络对所述第一特征图进行处理，得到第二特征图，其中，所述残差网络中包括深度可分离卷积层；以及利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签。

根据本公开的一些实施例，所述残差网络包括串联连接的至少一个残差模块，所述至少一个残差模块中的每一残差模块包括第一处理路径和第二处理路径，其中，所述第一处理路径中包括所述深度可分离卷积层，所述第二处理路径中包括卷积层和批归一化层。

根据本公开的一些实施例，在所述残差网络包括串联连接的N个残差模块的情况下，其中，N为大于1的正整数，所述利用残差网络对所述第一特征图进行处理包括：利用所述残差网络中的第1个残差模块中的第一处理路径和第二处理路径单独对接收的所述第一特征图进行处理，得到第一残差特征图；利用所述残差网络中的第i个残差模块中的第一处理路径和第二处理路径单独对接收的所述第i-1个残差特征图进行处理，得到第i残差特征图，其中，i为大于1小于等于N的正整数。

根据本公开的一些实施例，所述第一卷积网络包括卷积层、批归一化层和非线性处理层，所述第二卷积网络包括卷积层和全局平均池化层。

根据本公开的另一方面，还提供了一种图像分类模型的训练方法，包括：获取训练样本；利用第一卷积网络对所述训练样本进行处理，得到第一训练特征图；利用残差网络对所述第一训练特征图进行处理，得到第二训练特征图；按照局部保持损失函数基于所述第二训练特征图计算局部损失值；利用优化器基于所述局部损失值训练所述第一卷积网络、所述残差网络和第二卷积网络，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。

根据本公开的一些实施例，所述训练方法还包括：利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。

根据本公开的另一方面，还提供了一种图像分类装置，包括：第一卷积网络单元，配置成利用第一卷积网络对待处理图像进行处理，得到第一特征图；残差网络单元，配置成利用残差网络对所述第一特征图进行处理，得到第二特征图，其中，所述残差网络中包括深度可分离卷积层；以及第二卷积网络单元，配置成利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签。

根据本公开的另一方面，还提供了一种图像分类模型的训练装置，配置成：获取训练样本；利用第一卷积网络对所述训练样本进行处理，得到第一训练特征图；利用残差网络对所述第一训练特征图进行处理，得到第二训练特征图；按照局部保持损失函数基于所述第二训练特征图计算局部损失值；利用优化器基于所述局部损失值训练所述第一卷积网络、所述残差网络和第二卷积网络，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。

根据本公开的一些实施例，所述训练装置还配置成：利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。

根据本公开的又一方面，还提供了一种图像处理设备，包括：处理器；存储器，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如上所述的图像分类方法或者执行如上所述的图像分类模型的训练方法。

根据本公开的又一方面，还提供了一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如上所述的图像分类方法或者执行如上所述的图像分类模型的训练方法。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开实施例的图像分类方法的流程示意图；

图2示出了根据本公开实施例的分类神经网络的示意性结构图；

图3示出了根据本公开实施例的分类神经网络的网络结构图；

图4示出了卷积层的示意性处理流程图；

图5示出了根据本公开实施例的残差模块的网络结构图；

图6A示出了常规卷积的参数示意图；

图6B示出了深度可分离卷积层的参数示意图；

图7A示出了最大池化层的处理流程图；

图7B示出了平均池化层的处理流程图；

图8A示出了根据本公开实施例的图像分类模型的训练方法的流程示意图；

图8B示出了根据本公开实施例的分类神经网络的另一网络结构图；

图9示出了根据本公开实施例的图像分类装置的示意性框图；

图10示出了根据本公开实施例的图像处理设备的示意性框图；

图11示出了根据本公开实施例的示例性计算设备的架构的示意图；

图12示出了根据本公开实施例的计算机存储介质的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

本公开中使用了流程图来说明根据本公开的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。通过基于训练样本来训练神经网络，例如可以实现图像分类等处理，以识别图像的类别。

如上所述的，现有的用于图像分类的网络结构较为复杂，计算参数量大，不适于终端设备，并且无法满足实时处理的需求。

为未解决上述问题，本公开提供了一种图像分类方法，其中采用的分类神经网络(或者简称为分类网络)的网络结构简单，参数计算量小，在保证分类准确性的基础上，更便于应用在终端设备上，并且提高了图像处理速率，以实现实时处理。

图1示出了根据本公开实施例的图像分类方法的流程示意图，图2示出了根据本公开实施例的分类神经网络的示意性结构图，以下将结合图1和图2详细描述根据本公开提供的图像分类方法以及采用的分类网络的网络结构。

如图1所示，首先，在步骤S101，利用第一卷积网络对待处理图像进行处理，得到第一特征图。

作为一个应用示例，所述待处理图像201可以是包括人脸的图像，所述图像分类方法用于识别人脸表情以对图像201中的人脸表情进行分类，例如，可以将人脸表情分类为高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧等类别。以下将以对人脸表情进行分类作为一个具体示例来描述根据本公开的方法，需要注意的是，根据本公开提供的方法可以用于其他图像分类处理，在此不作限制。

第一卷积网络202可以接收待处理图像201，以对其进行图像处理。所述第一卷积网络202例如可以包括至少一个卷积层。如图2中示出的，所述第一特征图A表示由第一卷积网络202对待处理图像201进行处理得到的处理结果，并用于传递给残差网络203。

接着，在步骤S102，利用残差网络对所述第一特征图进行处理，得到第二特征图。如图2中示出的，所述第一特征图B表示由残差网络203对第一卷积网络202输出的第一特征图A进行处理得到的处理结果。根据本公开实施例，所述残差网络203中包括深度可分离卷积层，关于所述深度可分离卷积层的网络结构以及处理流程将在下文详细描述。

接着，在步骤S103，利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签，所述类别标签指示所述待处理图像所属于的类别。具体的，如图2所示，第二卷积网络204对第二特征图B进行处理，并得到待处理图像201的类别标签。例如，所述第二卷积网络204可以得到对应于人脸表情类别的概率分布，并将概率分布中概率值最高的类别确定为所述待处理图像的类别标签。作为一个示例，在要识别的人脸表情类别包括高兴、惊讶、平静、悲伤、生气、厌恶以及恐惧这七个类别的情况下，所述概率分布可以是[0.2,0.2,0.1,0.3,0.2,0.1,0.7]，由此可以将概率值最高(即，0.7)的恐惧类别确定为待处理图像的类别标签，表示待处理图像中的人脸表情为恐惧。

在根据本公开的图像分类方法中，结合了残差网络的设计理念以及深度可分离卷积处理，用于平衡网络处理性能和模型尺寸，在保证图像分类准确性的前提下，简化网络模型大小，使得该模型能够在终端上实现实时的图像分类处理，例如，用于识别人脸表情。

图3示出了根据本公开实施例的分类神经网络的网络结构图。以下将结合图3详细描述根据本公开的方法所应用的分类神经网络的具体结构。

根据本公开实施例，所述第一卷积网络包括卷积层、批归一化层和非线性处理层。

如图3所示，所述第一卷积网络202包括第一卷积子网络Conv1以及第二卷积子网络Conv2。根据本公开实施例，第一卷积子网络Conv1以及第二卷积子网络Conv2可以具有相同的网络结构，例如，每个子网络中均包括依次连接的卷积层、批归一化层(Batch Normalization,BN)和非线性处理层(ReLU)。

作为一个示例，第一卷积网络202的输入图像可以是长为H1，宽为H2，通道数为C的人脸图像，例如，输入的图像大小可以是7*7*3，即，长为7，宽为7，通道数为3。

图4示出了卷积层的示意性处理流程图，例如，卷积层的卷积核大小设置为3*3，并接收如上所述的大小为7*7*3的人脸图像。作为一个示例，卷积层输出的通道数为2，则有两个卷积参数W0和W1，用于分别得到两个特征图。在卷积过程中，卷积参数对输入的3个通道的图像分别进行卷积运算，每个通道的卷积核对应于W0、W1中的方框，卷积核与输入图像中的对应位置的数值(即，像素值)相乘再相加，然后再加上一个偏置值(b0或b1)即可得到输出特征图中的数值。

根据本公开实施例，BN层用于对网络中的一批数据进行归一化处理，用于加快模型的收敛速度，并用于在一定程度缓解深层网络中“梯度弥散”的问题，以提高训练速度，具有快速收敛性。输入的人脸表情经过卷积层的处理后得到的是一系列的特征图，假设最小批次(min-batch)为M，那么网络中某一层的输入数据可以表示为四维矩阵(M,F,W,H)，其中，M为min-batch，F为特征图的个数，W、H分别为特征图的长和宽。例如，在图4中示出的卷积层中，特征图的个数为2，即，F＝2。

在卷积神经网络中，可以将每个特征图看成是一个特征处理单元(即，一个神经元)，在使用BN层时，最小批次尺寸(mini-batch size)可以是M*W*H。此外，对于每个特征图具有可学习参数：γ、θ。BN层对于每个神经元做归一化处理，所述BN层的处理过程可以表示为：求取一个特征图的所有神经元的平均值、方差，然后对这个特征图神经元做归一化处理。具体的，BN层的公式如下所示：

其中，i∈(1,2,…,F)，表示第i个特征图，x _m,w,h表示mini-batch中第m个批次，坐标位置为[w,h]的像素值。μ _i表示x _m,w,h的平均值，

表示x _m,w,h的方差，∈为不等于0的小值，以保住分母不为0。y _m,w,h为与x _m,w,h对应的输出数值，γ _i和θ _i表示第i个输入特征图的一对可学习的超参数。

根据本公开实施例，ReLU层包括非线性函数。卷积操作是线性操作，所述非线性函数用于对神经元进行激活，以克服梯度消失的问题，加快训练速度。

根据本公开实施例，所述残差网络203可以包括串联连接的至少一个残差模块，所述至少一个残差模块中的每一残差模块包括第一处理路径和第二处理路径，其中，所述第一处理路径中包括所述深度可分离卷积层，所述第二处理路径中包括卷积层和批归一化层。所述串联连接可以是指所述残差模块依次连接。

根据本公开实施例，在所述残差网络包括串联连接的N个残差模块的情况下，其中，N为大于1的正整数，所述利用残差网络对所述第一特征图进行处理包括：利用所述残差网络中的第1个残差模块中的第一处理路径和第二处理路径单独对接收的所述第一特征图进行处理，得到第一残差特征图；利用所述残差网络中的第i个残差模块中的第一处理路径和第二处理路径单独对接收的所述第i-1个残差特征图进行处理，得到第i残差特征图，其中，i为大于1小于等于N的正整数。

返回到图3，所述残差网络由4个残差模块组成，即，Resblock1、Resblock2、Resblock3和Resblock4，其中，上述4个残差模块串联连接，即依次连接。在图3中的示例中，N＝4，需要注意的是，根据本公开的残差网络还可以具有其他数目的残差模块，在此不作限制。

根据本公开实施例，各个残差模块可以具有相同的网络结构。图5示出了根据本公开实施例的残差模块的网络结构图。如图5所示，残差模块包括第一处理路径和第二处理路径。所述第一处理路径包括依次连接的卷积层(Conv)、BN层、ReLU层、深度可分离卷积层(DW_Conv)、BN层以及池化层(Pooling)。第一处理路径对输入的参数x进行处理，得到的输出可以表示为H(x)，其中，H(x)表示由第一处理路径对输入的参数x进行处理得到的中间结果。所述第二处理路径中包括卷积层(Conv)和BN层。第二处理路径对输入的参数x进行处理，得到的输出可以表示为x′，其中，x′表示由第二处理路径对输入的参数x进行处理得到的中间结果。残差模块的输出为上述两个处理路径输出的中间处理结果的相加，即H(x(+x′，即，作为所述第一残差特征图。此外，上述卷积层(Conv)、BN层、ReLU层的处理流程与上文关于第一卷积网络202中描述的相同，在此不再重复描述。

具体的，如图5所示，在残差模块的第一处理路径中，卷积操作不改变输入的特征图的大小，而是将输出通道数增加到输入通道数的2倍，并利用池化层将特征图的大小缩小为原来的1/2。在残差模块的第二处理路径中，采用步长为2的卷积层对输入的特征图进行降维，使特征图的通道数变为输入的通道数的2倍，并将特征图的大小缩小为原来的1/2。通过将两个处理路径的处理结果相加来得到残差模块的输出。

根据本公开实施例，图6A示出了常规卷积的参数示意图，在进行常规卷积的操作时，每个输出特征图对应全部的输入特征图。假设输入特征图的大小为D _F×D _F×N1，输出特征图大小为D _F×D _F×N2，卷积核大小为D _K×D _K，则常规卷积的参数量为：

N1×N2×D _K×D _K (5)

相比较地，图6B示出了根据本公开实施例的深度可分离卷积层的参数示意图。如图6B所示，所述深度可分离卷积层将如图6A中示出的常规卷积分解为一个深度卷积(depthwise convolution)和一个1×1的点卷积(pointwise convolution)。在深度可分离卷积操作中，首先将每个输入特征图进行一次卷积得到中间结果，然后再用1×1的点卷积将所有中间结果组合成最后的输出。深度可分离卷积层的参数量为深度卷积和1×1卷积的参数量之和：

N1×D _K×D _K+N1×N2 (6)

由此，可以确定深度可分离卷积与常规卷积的参数量之比为：

以图4中的参数为例，其中，输入为7*7*3，输出为3*3*2，卷积核大小为3*3，则深度可分离卷积与常规卷积的参数量之比为：

卷积的参数量可以表征网络的计算量。当输出通道的个数N2足够大时，深度可分离卷积的计算量接近于常规卷积的1/9左右。

根据本公开实施例，池化层(Pooling)的作用是降低参数，一般放在卷积层后面。所以池化可以包括分为最大池化和平均池化。图7A和图7B分别示出了最大池化层和平均池化层的处理流程图。作为一个示例，图5中示出的池化层可以是平均池化层。

如图3所示，残差网络中的第1个残差模块Resblock1对接收的第一特征图A进行处理，得到第1残差特征图。接着，所述残差网络中的第2个残差模块Resblock2对接收的所述第1残差特征图进行处理，得到第2残差特征图，依次类推。将最后一个残差模块Resblock4得到的第4残差特征图作为残差网络的输出，即，所述第二特征图B。

根据本公开实施例，所述第二卷积网络包括卷积层和全局平均池化层。

如图3所示，第二卷积网络204对接收的第二特征图B进行处理并得到输入的人脸图像的类别标签。根据本公开实施例，所述第二卷积网络204包括卷积层(Conv4)和全局平均池化层(GlobalAveragePooling)。所述全局平均池化层属于平均池化层的一种，其池化核的大小等于输入特征图的大小，经过池化处理后，特征图大小变为1×1。

根据本公开的图像分类方法，可以利用例如图3中示出的分类网络模型来实现准确、快速的图像分类，例如用于识别人脸表情的类别，该分类网络模型中利用残差模块来进行图像处理，简化网络模型，降低模型的复杂度。此外，在根据本公开的方法中，残差网络包括深度可分离卷积层，其可以进一步地减小参数的计算量。由此，根据本公开的方法可以用于实现快速地图像分类处理，并且，由于降低了网络的参数计算量，使得本方法能够应用于计算能力有限的终端设备。

作为一个应用示例，利用根据本公开的方法可以对输入的人脸图像进行多种表情的分类。按照如图3中示出的网络结构，人脸图像经过2层卷积子网络、4个残差模块、以及卷积层和全局平均池化层的处理，可以得到人脸表情的识别结果，所述方法执行速度较快，可达到实时表情识别。

在利用如图3中示出的分类网络模型进行图像分类之前，需要对网络参数进行训练。本公开还提供了一种图像分类模型的训练方法，用于训练分类网络模型。图8A示出了根据本公开实施例的图像分类模型的训练方法的流程示意图，以下将结合图8A描述所述训练方法。

如图8A所示，所述训练方法包括步骤S201-S205。S201：获取训练样本；S202：利用第一卷积网络对所述训练样本进行处理，得到第一训练特征图；S203：利用残差网络对所述第一训练特征图进行处理，得到第二训练特征图；S204：按照局部保持损失函数基于所述第二训练特征图计算局部损失值；以及S205：利用优化器基于所述局部损失值训练所述第一卷积网络、所述残差网络和第二卷积网络，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。所述第一卷积网络、残差网络和第二卷积网络组成图像分类的模型，用于按照如上所述的图像分类方法实现图像分类处理，各个网络的具体结构参见上文结合图2-图7B的描述，在此不再重复。

在利用训练样本对分类网络模型进行训练的过程中，网络的整体损失值将受到单个样本的影响，例如，在人脸表情识别这个处理任务中，同一类别的类内差距比较大，比如在开心表情类别中，大笑和微笑之间的区别较大，这会直接影响网络的整体损失值。根据本公开的方法提出了一种局部保持的损失函数，即，局部保持损失函数，用来保持每个训练样本之间的特征局部性。此外，所述局部损失函数表征所述训练样本与同类别的至少一个样本之间的特征距离，例如，使得与训练样本相同类别中的K个相近样本的特征距离尽可能地靠近，以监督网络的学习过程。根据本公开的局部保持损失函数表示为：

其中，x _i表示当前进行训练处理的样本特征，即，由训练样本得到的第二训练特征图，S _j,j表示同一类别中样本特征x _j是否属于x _i的相近样本，n表示mini-batch中样本的数量。

按照如上公式(9)所示的局部保持损失函数可以计算网络的局部损失值，利用优化器基于所述局部损失值来训练所述第一卷积网络、残差网络和第二卷积网络。作为一个示例，可以采用小批量随机梯度下降法作为所述优化器。

根据本公开实施例，所述图像分类模型的训练方法还包括：利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。相比于所述局部保持损失函数用于计算样本特征之间的局部损失值，所述交叉熵损失函数用于计算分类网络的整体损失值。

作为一个示例，所述交叉熵损失函数可以是采用softmax函数。softmax函数用于将数组转换为概率分布，假设y _i是数组中的第i个元素，则softmax的输出表示为：

其中，∑ _jS _j＝1。利用softmax函数计算损失值表示为：

L2＝-∑ _jt _j*lnS _i (11)

其中，t _i表示训练样本的真实标签，在对第j个训练样本进行处理时，可以认为t _j＝1，t _j≠j＝0，由此，损失函数可以简化为:

L2＝-lnS _j (12)

按照如上公式(12)所示的损失函数可以计算网络的整体损失值，利用优化器基于所述整体损失值来训练所述第一卷积网络、残差网络和第二卷积网络。作为一个示例，可以采用小批量随机梯度下降法作为所述优化器。

图8B示出了根据本公开实施例的分类神经网络的另一网络结构图，相比于图3中示出的网络结构，图8B中还包括了分类神经网络的训练流程。如图8B所示，按照如公式(9)中示出的局部损失函数L1，基于残差网络输出的第二训练特征图可以计算网络的局部损失值，接着，按照如公式(12)所示的损失函数可以计算网络的整体损失值。最终的损失值可以表示为以上两部分损失值的加权和，表示为：

L＝αL1+βL2

其中，α∈(0,1)和β∈(0,1)表征权重值，α和β为一组超参数。

接着，优化器基于计算得到的损失值L来对分类网络进行训练，例如，调整网络中的参数。

在根据本公开的图像分类模型的训练方法中，提出了一种局部损失函数，用于计算网络的局部损失值，以表征所述训练样本与同类别的至少一个样本之间的特征距离，这有利于保证图像分类的准确性。

本公开还提供了一种图像分类装置。具体的，图9示出了根据本公开实施例的图像分类装置的示意性框图。

如图9所示，所述装置1000可以包括第一卷积网络单元1010、残差单元1020以及第二卷积网络单元1030。

根据本公开的一些实施例，所述第一卷积网络单元1010可以配置成利用第一卷积网络对待处理图像进行处理，得到第一特征图。所述残差网络单元1020可以配置成利用残差网络对所述第一特征图进行处理，得到第二特征图，其中，所述残差网络中包括深度可分离卷积层。所述第二卷积网络单元1030可以配置成利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签。

根据本公开的另一方面，还提供了一种图像分类模型的训练装置，配置成：获取训练样本；利用所述第一卷积网络对所述训练样本进行处理，得到第一训练特征图；利用所述残差网络对所述第一训练特征图进行处理，得到第二训练特征图；按照局部保持损失函数基于所述第二训练特征图计算局部损失值；利用优化器基于所述局部损失值训练所述第一卷积网络、残差网络和第二卷积网络，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。

根据本公开的一些实施例，所述训练装置还配置成：利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。根据本公开实施例的图像分类模型的训练装置进行训练的步骤可以参照上文结合图8A-图8B的描述，在此不再重复。

根据本公开的又一方面，还提供了一种图像处理设备。图10示出了根据本公开实施例的图像处理设备的示意性框图。

如图10所示，所述设备2000可以包括处理器2010以及存储器2020。根据本公开实施例，所述存储器2020中存储有计算机可读代码，所述计算机可读代码当由所述处理器2010运行时，执行如上所述的图像分类方法或者执行如上所述的图像分类模型的训练方法。

处理器2010可以根据存储在存储器2020中的程序执行各种动作和处理。具体地，处理器2010可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器2020存储有计算机可执行指令代码，该指令代码在被处理器2010执行时用于实现根据本公开实施例的图像分类方法或者执行如上所述的图像分类模型的训练方法。存储器2020可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

根据本公开实施例的方法或装置也可以借助于图11所示的计算设备3000的架构来实现。如图11所示，计算设备3000可以包括总线3010、一个或多个CPU 3020、只读存储器(ROM)3030、随机存取存储器(RAM)3040、连接到网络的通信端口3050、输入/输出组件3060、硬盘3070等。计算设备3000中的存储设备，例如ROM 3030或硬盘3070可以存储本公开提供的图像分类方法或者图像分类模型的训练方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备3000还可以包括用户界面3080。当然，图5所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图5示出的计算设备中的一个或多个组件。

根据本公开的又一方面，还提供了一种计算机可读存储介质。图12示出了根据本公开的存储介质的示意图4000。

如图12所示，所述计算机存储介质4020上存储有计算机可读指令4010。当所述计算机可读指令4010由处理器运行时，可以执行参照以上附图描述的图像分类方法或者图像分类模型的训练方法，从而实现利用经过训练的分类神经网络进行图像类别的识别，特别是用于人脸表情的识别。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。例如，所述计算机存储介质4020可以连接于诸如计算机等的计算设备，接着，在所述计算设备运行所述计算机存储介质4020上存储的计算机可读指令4010的情况下，可以进行如上所述的根据本公开提供的图像分类方法或者图像分类模型的训练方法。

本领域技术人员能够理解，本公开所披露的内容可以出现多种变型和改进。例如，以上所描述的各种设备或组件可以通过硬件实现，也可以通过软件、固件、或者三者中的一些或全部的组合实现。

此外，虽然本公开对根据本公开的实施例的系统中的某些单元做出了各种引用，然而，任何数量的不同单元可以被使用并运行在客户端和/或服务器上。所述单元仅是说明性的，并且所述系统和方法的不同方面可以使用不同单元。

本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

一种图像分类方法，包括：

利用第一卷积网络对待处理图像进行处理，得到第一特征图(S101)；

利用残差网络对所述第一特征图进行处理，得到第二特征图(S102)，其中，所述残差网络中包括深度可分离卷积层；以及

利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签(S103)。
根据权利要求1所述的方法，其中，所述残差网络包括串联连接的至少一个残差模块，所述至少一个残差模块中的每一残差模块包括第一处理路径和第二处理路径，其中，所述第一处理路径中包括所述深度可分离卷积层，所述第二处理路径中包括卷积层和批归一化层。
根据权利要求2所述的方法，其中，在所述残差网络包括串联连接的N个残差模块的情况下，其中，N为大于1的正整数，所述利用残差网络对所述第一特征图进行处理包括：

利用所述残差网络中的第1个残差模块中的第一处理路径和第二处理路径单独对接收的所述第一特征图进行处理，得到第一残差特征图；

利用所述残差网络中的第i个残差模块中的第一处理路径和第二处理路径单独对接收的所述第i-1个残差特征图进行处理，得到第i残差特征图，其中，i为大于1小于等于N的正整数。
根据权利要求1所述的方法，其中，所述第一卷积网络包括卷积层、批归一化层和非线性处理层，所述第二卷积网络包括卷积层和全局平均池化层。
一种图像分类模型的训练方法，包括：

获取训练样本(S201)；

利用第一卷积网络对所述训练样本进行处理，得到第一训练特征图(S202)；

利用残差网络对所述第一训练特征图进行处理，得到第二训练特征图(S203)；

按照局部保持损失函数基于所述第二训练特征图计算局部损失值(S204)；

利用优化器基于所述局部损失值训练所述第一卷积网络、所述残差网络和第二卷积网络(S205)，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。
根据权利要求5所述的训练方法，还包括：

利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；

按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；

利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。
一种图像分类装置(1000)，包括：

第一卷积网络单元(1010)，配置成利用第一卷积网络对待处理图像进行处理，得到第一特征图；

残差网络单元(1020)，配置成利用残差网络对所述第一特征图进行处理，得到第二特征图，其中，所述残差网络中包括深度可分离卷积层；以及

第二卷积网络单元(1030)，配置成利用第二卷积网络对所述第二特征图进行处理，以确定所述待处理图像的类别标签。
根据权利要求7所述的装置，其中，所述残差网络包括串联连接的至少一个残差模块，所述至少一个残差模块中的每一残差模块包括第一处理路径和第二处理路径，其中，所述第一处理路径中包括所述深度可分离卷积层，所述第二处理路径中包括卷积层和批归一化层。
根据权利要求8所述的装置，其中，在所述残差网络包括串联连接的N个残差模块的情况下，其中，N为大于1的正整数，所述利用残差网络对所述第一特征图进行处理包括：

利用所述残差网络中的第1个残差模块中的第一处理路径和第二处理路径单独对接收的所述第一特征图进行处理，得到第一残差特征图；

利用所述残差网络中的第i个残差模块中的第一处理路径和第二处理路径单独对接收的所述第i-1个残差特征图进行处理，得到第i残差特征图，其中，i为大于1小于等于N的正整数。
根据权利要求7所述的装置，其中，所述第一卷积网络包括卷积层、批归一化层和非线性处理层，所述第二卷积网络包括卷积层和全局平均池化层。
一种图像分类模型的训练装置，配置成：

获取训练样本；

利用第一卷积网络对所述训练样本进行处理，得到第一训练特征图；

利用残差网络对所述第一训练特征图进行处理，得到第二训练特征图；

按照局部保持损失函数基于所述第二训练特征图计算局部损失值；

利用优化器基于所述局部损失值训练所述第一卷积网络、所述残差网络和第二卷积网络，其中，所述局部损失保持函数表征所述训练样本与同类别的至少一个样本之间的特征距离。
根据权利要求11所述的训练装置，还配置成：

利用所述第二卷积网络对所述第二训练特征图进行处理，以确定所述训练样本的类别标签；

按照交叉熵损失函数基于所述类别标签以及所述训练样本的真实标签计算网络损失值；

利用优化器基于所述网络损失值训练所述第一卷积网络、残差网络和第二卷积网络。
一种图像处理设备(2000)，包括：

处理器(2010)；

存储器(2020)，其中，所述存储器中存储有计算机可读代码，所述计算机可读代码当由所述处理器运行时，执行如权利要求1-4中任一项所述的图像分类方法，或执行如权利要求5-6中任一项所述的图像分类模型的训练方法。
一种计算机可读存储介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-4中任一项所述的图像分类方法，或执行如权利要求5-6中任一项所述的图像分类模型的训练方法。