WO2022027987A1

WO2022027987A1 - 一种图像识别模型的训练方法及图像识别方法

Info

Publication number: WO2022027987A1
Application number: PCT/CN2021/084760
Authority: WO
Inventors: 陈嘉敏; 王金桥; 唐明; 胡建国; 招继恩; 朱贵波; 赵朝阳; 林格
Original assignee: 杰创智能科技股份有限公司
Priority date: 2020-08-04
Filing date: 2021-03-31
Publication date: 2022-02-10
Also published as: CN112016591B; CN112016591A

Abstract

本发明实施例提供一种图像识别模型的训练方法及图像识别方法，该训练方法包括：记录样本图片的第一图像矩阵后，进行切分及打乱后获取第二图像矩阵；分别通过对应的卷积神经网络提取图片特征和获取图片分类结果；根据图片特征求解蒸馏损失函数，根据图片分类结果求解分类损失函数；通过优化蒸馏损失函数及分类损失函数进行模型优化，在蒸馏损失函数小于预设第一阈值以及分类损失函数小于预设第二阈值时训练结束，从而获取训练好的图像识别模型。本发明实施例有利于实现局部特征抓取以及提取更加有效的特征，不需要借助任何人工标注信息，也能达到和强监督细粒度识别一样的准确度，在模型上能够减少算法的时间和空间消耗，提高鲁棒性。

Description

一种图像识别模型的训练方法及图像识别方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种图像识别模型的训练方法及图像识别方法。

背景技术

细粒度识别也叫精细识别。它与现有的通用图像分析任务不同，细粒度图像识别所需识别的种类更加细致，识别的粒度也更为精细，需要在一个大类中区分出更加细分的子类，对存在细微差别的物体进行区分和识别。

例如，通用图像分类只需要区分出“鸟”和“花”这两个物体大类，而细粒度图像分类则要求对“花”该类类别下细粒度的子类进行区分，即区分出是“月季花”还是“玫瑰花”。因此，细粒度图像识别要求找出同类别物种的不同子类之间的细微差异，因此，使得它的难度和挑战大大增加。

目前来说，细粒度图像识别在生活和工业上都有很广泛的应用场景，它作为一项图像识别技术，是人工智能领域不可或缺的一门重要技术。同时，由于它所区分的粒度更加细致，使得细粒度图像识别技术能大幅度提升现有的识别技术，帮助提高相关上层技术精度。

现有的细粒度分类模型，按照其采用的监督信息的强弱，可分为两大类：分别是“基于强监督信息的分类模型”和“基于弱监督信息的分类模型”。

其中，基于强监督信息的分类模型在训练的过程中引入了两种额外的人工标注信息，分别是目标标注框和关键部位标注点。对于这两种额外信息，强监督分类模型可以借助目标标注框得到前景对象的检测,排除背景所带来的噪声干扰；而关键部位标注点则可以被用来定位目标具有显著区别的关键点，在这些关键点上就可以高效率地提取出图片的局部特征。因此，通过这两种额外信息所提供的定位，强监督分类模型可以更好地在精准的地方提取出物体信息，排除图片背景和其他物体上无关信息所带来的干扰，得到较高的准确度，达到比较好的效果。

而基于弱监督信息的分类模型则相反，它不使用任何额外的人工标注信息，仅仅靠图片和图片的分类标签完成整个算法的训练和学习。这种类型的算法不需要大量人工的投入，在实际应用场景上更为方便简洁。总体来说，基于弱监督信息的分类模型算法的准确度不及基于强监督信息的分类模型算法。但得益于近年来深度学习的发展，基于弱监督信息的分类模型算法引入卷积神经网络来进行训练，其精确度得到了较大的提高，并逐渐成为细粒度图像识别研究的趋势。

细粒度识别算法的关键点在于如何挖掘出图片中的细微差别，即局部特征的提取。由于难以找到鉴别性特征，细粒度识别这项任务十分具有挑战性。而对于弱监督类型的细粒度识别算法来说，无法借助人工标注信息准确定位目标位置和关键部位点，只能在图片的基础上进行局部特征的提取。而对于一张图片，提取出来的局部特征非常多，如何在众多的局部特征中排除错误干扰特征，学习到有用的特征，这是一个难题。现有的局部特征提取通常使用枚举的方法，在全图使用不同的步长或尺度截取出部件区域，再对部件区域提出特征。但这种方法十分耗时，而且容易受到背景信息的干扰而提取出大量对识别无用的区域特征。另外，图片不同的光照情况、不当的拍摄角度也会对弱监督类型的细粒度识别造成干扰。在这些情况下，弱监督类型的细粒度识别的准确度较低，且鲁棒性较差。因此，弱监督类型的细粒度识别要实现较好的鲁棒性和较高的识别率仍有较大的挑战性。

发明内容

为解决现有技术中的问题，本发明实施例提供一种图像识别模型的训练方法及图像识别方法。

第一方面，本发明实施例提供一种图像识别模型的训练方法，包括：记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。

进一步地，所述将所述样本图片进行切分及打乱，具体包括：首先，将图像分割成多个图像块；然后，先进行行方向上所述图像块的打乱操作，再进行列方向上所述图像块的打乱操作；或，先进行列方向上所述图像块的打乱操作，再进行行方向上所述图像块的打乱操作。

进一步地，所述进行行方向上所述图像块的打乱操作，包括：对于每一行的每个所述图像块，在预设的第一步长范围内，根据第一随机变量的值，与对应位置的所述图像块进行行方向上位置的互换；所述进行列方向上所述图像块的打乱操作，包括：对于每一列的每个所述图像块，在预设的第二步长范围内，根据第二随机变量的值，与对应位置的所述图像块进行列方向上位置的互换。

进一步地，所述根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，包括：根据所述第一卷积神经网络中卷积层相邻两层所提取的所述第一图片特征获取全局流矩阵，根据所述第二卷积神经网络中卷积层相邻两层所提取的所述第二图片特征获取局部流矩阵；通过计算所述全局流矩阵和所述局部流矩阵的L2范数距离，求解预设的所述蒸馏损失函数。

进一步地，通过相邻两层的图片特征得到的所述全局流矩阵和所述局部流矩阵的表达式为：

其中，F ¹∈R ^h×w×m表示相邻两层中上面c1层的图片特征，F ²∈R ^h×w×m表示相邻两层中下面c2层的图片特征，h,w,m分别表示图片特征的高度、宽度和通道数，s表示图片高度特征的序号，t表示图片宽度特征的序号，x表示输入的图片，W表示神经网络的权重参数。

进一步地，所述蒸馏损失函数的表达式为：

其中，W _global表示全局流矩阵，W _local表示局部流矩阵，L _flow(W _global,W _local)表示根据全局流矩阵和局部流矩阵得到的蒸馏损失函数；λ ₁表示权重系数；l表示流矩阵的序号，所述流矩阵包括所述全局流矩阵和所述局部流矩阵；n表示针对一张图片所述流矩阵的个数，其中，所述全局流矩阵和所述局部流矩阵的个数相同；x表示输入的图片；N表示图片个数；

表示x图片的第l个全局流矩阵；

表示x图片的第l个局部流矩阵；

表示L2范数距离计算。

第二方面，本发明实施例提供一种基于上述图像识别模型的图像识别方法，包括：记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；根据所述第一输出向量和所述第二输出向量得到图片识别结果。

进一步地，所述第一输出向量和所述第二输出向量得到图片识别结果包括：将所述第一输出向量和所述第二输出向量相加得到第三输出向量，根据所述第三输出向量得到所述图片识别结果。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第二方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。

本发明实施例提供的图像识别模型的训练方法及图像识别方法，通过在模型训练时将原始图片的图像矩阵和打乱后的图片的图像矩阵分别输入到两个卷积神经网络分支，综合两个卷积神经网络提取的特征及分类结果进行学习和训练，有利于实现局部特征抓取以及提取到更加有效的特征，不需要借助任何人工标注信息，也能达到和强监督细粒度识别一样的准确度，并且在模型上能够减少算法的时间和空间消耗，提高了系统鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的图像识别模型的训练方法流程图；

图2是本发明另一实施例提供的图像识别模型的训练方法流程图；

图3是本发明一实施例提供的图像识别方法流程图；

图4是本发明一实施例提供的图像识别模型训练装置的结构示意图；

图5是本发明一实施例提供的图像识别装置的结构示意图；

图6示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一实施例提供的图像识别模型的训练方法流程图。如图1所示，所述方法包括：

步骤101、记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵。

可以用图像矩阵对图片进行表征，图像矩阵中的元素可以是各个像素点的灰度值。本发明实施例提供的图像识别模型的训练方法得到的图像识别模型可以实现弱监督细粒度的图像识别。

精细的局部细节特征表示是细粒度识别的关键。这是因为对于细粒度的识别而言，局部细节比全局结构更重要，因为来自不同细粒度类别的图像通常具有相同的全局结构或形状，而只是局部细节不同。将图片打乱重组可以让算法丢弃全局结构信息，保留局部细节信息，迫使模型网络的注意力集中于具有区别性的局部区域来进行识别。图片打乱步骤有效地破坏了全局结构，此时分类网络要想识别这些随机打乱的图像，就必须找到可识别的局部区域，并对其进行学习。这样的操作迫使神经网络关注于图片中的细节。

本发明实施例提供的图像识别模型的训练方法，将图片原图和打算后的图片结合起来进行训练。因此，在样本图片打乱之前，需要预先存储好样本图片的第一图像矩阵，所述第一图像矩阵是样本图片打乱前的图像矩阵。然后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵，所述第二图像矩阵是所述样本图片打乱后的图像矩阵。

步骤102、将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果。

本发明实施例中采用卷积神经网络进行学习和训练，包含两个卷积神经网络，第一卷积神经网络的输入为原图片的第一图像矩阵，第二卷积神经网络的输入为打乱后图片的第二图像矩阵。

因此，特征提取部分分为两个分支，分别为全局特征提取和局部特征提取。这两个分支所使用到的基础结构是一样的，比如都可以使用resnet50来提取特征。不同的是，局部特征是由打乱后的图片φ(I)经过第一卷积神经网络，也可称为卷积神经网络f _local得到，而全局特征是由原图经过第二卷积神经网络，也可称为卷积神经网络f _global得到，提取后的全局特征(第一图片特征)和局部特征(第二图片特征)分别经过全连接层分别得到全局特征分类结果(第一图片分类结果)和局部特征分类结果(第二图片分类结果)。

步骤103、根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值。

针对上述得到的两个特征流(第一图片特征和第二图片特征)，利用两个卷积神经网络中各层的中间特征来完成知识蒸馏步骤。知识蒸馏(KD)概念首次由Hinton提出，大多使用于卷积神经网络中，其思想在于如何进行知识转换技术，即从一个完善的教师神经网络提取知识来训练学生网络，使得学生在保持模型参数少的同时提高识别的准确度。但是这种方法有其局限性，难以优化深度很深的神经网络。授之以鱼不如授之以渔，本发明实施例提出一种新的知识蒸馏算法，不直接学习教师网络的特征，而是转为学习教师网络特征计算的流程，就能跳出神经网络模型深度的约束，达到比较好的通用性，在面对细粒度识别这种计算机视觉中较难任务的时候也能很好地提升模型识别度和性能。

因此，本发明实施例中，根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值。其中，分类损失函数可以表示成第一卷积神经网络和第二卷积神经网络的输出向量之和与真值之差。

对于输入的图像I和打乱后的图片φ(I)，他们分别通过全局特征提取卷积神经网络f _global和局部特征提取卷积神经网络f _local得到对应的全局特征输出向量C(I)和局部特征输出向量C(φ(I))。因此，分类损失函数可定义为：

其中，l代表了图像的分类真值，log代表对数函数，

代表图片集。

步骤104、通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。

蒸馏损失函数和分类损失函数越小表示模型越优化。通过对神经网络进行反馈使得蒸馏损失函数和分类损失函数不断减小，从而对模型进行逐步优化。在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的图像识别模型。

本发明实施例提供的训练方法总体分为两个部分：破坏重组部分和知识蒸馏部分，破坏重组部分实现对图片的有序打乱，破坏图片中的结构信息，保证算法提取出更精细的局部信息；知识蒸馏部分对破坏后图片提取出来的特征进行蒸馏和浓缩，提取出对模型识别率提高最有效的特征，进一步提高算法的准确度。其中，知识蒸馏部分可以包括利用蒸馏损失函数和分类损失函数进行模型优化的过程。

本发明实施例通过将原始图片的图像矩阵和打乱后的图片的图像矩阵分别输入到两个卷积神经网络分支，综合两个卷积神经网络提取的特征及分类结果进行学习和训练，有利于实现局部特征抓取以及提取到更加有效的特征，不需要借助任何人工标注信息，也能达到和强监督细粒度识别一样的准确度，并且在模型上能够减少算法的时间和空间消耗，提高了系统鲁棒性。

进一步地，基于上述实施例，所述将所述样本图片进行切分及打乱，具体包括：首先，将图像分割成多个图像块；然后，先进行行方向上所述图像块的打乱操作，再进行列方向上所述图像块的打乱操作；或，先进行列方向上所述图像块的打乱操作，再进行行方向上所述图像块的打乱操作。

在将所述样本图片进行切分及打乱时，首先进行切分，然后再打乱。切分时，将图像分割成多个图像块，如M×N个图像块。切分好后进行图像块的打乱。可以先进行行方向上图像块的打乱操作，再进行列方向上图像块的打乱操作；也可以先进行列方向上图像块的打乱操作，再进行行方向上图像块的打乱操作。

在上述实施例的基础上，本发明实施例通过将图片切分后，先后进行行列方向的图像块打乱，提高了系统灵活性和有序性。

进一步地，基于上述实施例，所述进行行方向上所述图像块的打乱操作，包括：对于每一行的每个所述图像块，在预设的第一步长范围内，根据第一随机变量的值，与对应位置的所述图像块进行行方向上位置的互换；所述进行列方向上所述图像块的打乱操作，包括：对于每一列的每个所述图像块，在预设的第二步长范围内，根据第二随机变量的值，与对应位置的所述图像块进行列方向上位置的互换。

本发明实施例提出的破坏重组思想在于如何去有效破坏图片，使得图片的结构信息被打乱的同时突出图片的局部信息。对样本图片切分为不同的图像块，其实质是对第一图像矩阵切分为不同的块矩阵。图片打乱作为算法的首要步骤，其核心在于有序可控打乱图片，即在可控的范围内对图片的块矩阵进行置换，来达到控制打乱操作所引入的噪声的同时又能突出图片的局部特征。

具体地，可以限制图像块的移动步长。比如，行方向上可以设置图像块的移动步长在第一步长范围内。可以用第一随机变量来表示第一移动步长，每个图像块移动时，第一随机变量可以为不同的值，但是均在第一移动步长范围内。列方向上可以设置图像块的移动步长在第二步长范围内。可以用第二随机变量来表示第二移动步长，每个图像块移动时，第二随机变量可以为不同的值，但是均在第二移动步长范围内。每个图像块发生移动时，与相应位置的图像块位置互换。

当然，如果是方形图片，可以将图片切分为N×N块，即行方向和列方向上具有相同的块数。在移动时，行方向和列方向上图像块的移动也可以设置为统一步长。以此为例，进一步对图片打乱的方法进行说明：

图片打乱步骤可分为两个子操作：切分和打乱。首先把输入图像分割成局部的小块，然后使用随机算法来打乱它们，就可以得到打乱后的图片。具体操作如下：

对于输入图像I，首先把图像统一分割为N×N个子区域R _i,j，其中i和j分别为对应的行块号和列块号。算法通过以下机制对切割好的子区域进行打乱：对于第j行的区域，算法首先生成一个大小为N的向量q _j，其第i个元素q _j,i＝i+r，公式中的r是一个均匀分布在(-k,k)的随机变量，这里的k是算法的一个可调参数(1≤k＜N)，它刻画了打乱机制所扰动的范围。通过这样的打乱机制，可以得到新序列

各元素的变化范围：

通过上面的操作，就能完成对图片的行打乱操作。行打乱之后以类似的规则进行列打乱，则同样可得到以下关系式：

输入的图片经过行打乱和列打乱后，就得到了打乱后的图片φ(I)，其子区域σ(i,j)的值可表达为：

图片打乱步骤有效地破坏了全局结构，此时分类网络要想识别这些随机打乱的图像，就必须找到可识别的局部区域，并对其进行学习。这样的操作迫使神经网络关注于图片中的细节，并通过参数k确保了局部区域的选择在邻近区域内抖动，从而控制打乱操作所引入的噪声，突出图片的局部特征。

在上述实施例的基础上，本发明实施例通过利用预设阈值的随机变量以此进行行和列方向上图像块的打乱，在突出局部特征的基础上，确保了局部区域在邻近区域内抖动，从而控制打乱操作所引入的噪声。

进一步地，基于上述实施例，所述根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，包括：根据所述第一卷积神经网络中卷积层相邻两层所提取的所述第一图片特征获取全局流矩阵，根据所述第二卷积神经网络中卷积层相邻两层所提取的所述第二图片特征获取局部流矩阵；通过计算所述全局流矩阵和所述局部流矩阵的L2范数距离，求解预设的所述蒸馏损失函数。

在根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数时，根据所述第一卷积神经网络中卷积层相邻两层所提取的所述第一图片特征获取全局流矩阵，全局流矩阵反映第一卷积神经网络中卷积层相邻两层之间特征的变化关系；根据所述第二卷积神经网络中卷积层相邻两层所提取的所述第二图片特征获取局部流矩阵，局部流矩阵反映第二卷积神经网络中卷积层相邻两层之间特征的变化关系；通过计算所述全局流矩阵和所述局部流矩阵的L2范数距离，求解预设的所述蒸馏损失函数。L2范数距离表示出两个卷积神经网络相邻两层特征变化的接近程度，因此，L2范数距离越小、蒸馏损失函数值越小，表示两个卷积神经网络相邻两层特征变化情况越接近。

本发明实施例提出的新的知识蒸馏算法，又名流矩阵蒸馏法，通过计算两个网络之间的流矩阵求出两个网络每一层之间特征的变化关系，通过两个流矩阵之间的相互靠近和融合使得学生网络能够学习到教师网络计算特征的“解法”，从而提升细粒度识别的准确度。在本发明实施例所提出的算法流程中，并没有严格的教师网络和学生网络的角色划分，而是通过全局特征提取网络(第一卷积神经网络)和局部特征提取网络(第二卷积神经网络)之间的相互靠近、相互融合达到知识蒸馏的效果。

通过对损失函数(包括蒸馏损失函数的分类损失函数)的不断优化，本发明实施例能够不断融合图片中提取出来的全局特征和局部特征，并进行相互融合、相互蒸馏和提炼。这样的过程能够提取出对模型识别率帮助更大的特征，较好地提升细粒度识别的准确度，并且也能通过这种方式消除因图片打乱而引入的噪声。同时，流矩阵蒸馏法通过学习两个网络之间特征的变化过程使得自身拥有较好的模型泛化性，能够克服知识蒸馏的局限性，即使面对深度很深的神经网络也能完美执行。

在上述实施例的基础上，本发明实施例通过采用流矩阵蒸馏法，学习两个网络之间特征的变化过程使得自身拥有较好的模型泛化性，能够克服知识蒸馏的局限性，即使面对深度很深的神经网络也能完美执行。

进一步地，基于上述实施例，通过相邻两层的图片特征得到的所述全局流矩阵和所述局部流矩阵的表达式为：

对于一个教师网络来说，目的是学习特征在其网络中变化的过程，即网络中相邻两层所得特征之间的关系。因此定义流矩阵G∈R ^m×n为：

通过分别计算第一卷积神经网络和第二卷积神经网络的流矩阵，并不断优化两者之间的L2范数距离，就能达到知识蒸馏的效果。

在上述实施例的基础上，本发明实施例通过给出流矩阵的表达式，提高了实用性。

进一步地，基于上述实施例，所述蒸馏损失函数的表达式为：

表示x图片的第l个全局流矩阵；

表示x图片的第l个局部流矩阵；

表示L2范数距离计算。

首先分别计算出全局特征提取网络的全局流矩阵G _global(x；W _global)和局部特征提取网络的局部流矩阵G _local(x；W _local)，然后计算知识蒸馏损失函数L _flow(W _global,W _local)。由于根据两个层可以计算一个流矩阵，因此对应于一张图片流矩阵具有多个。综合各个图片的流矩阵的L2范数距离得到如上蒸馏损失函数。本发明实施例中，认为每一个流矩阵都同样重要，因此在损失函数中可以使用相同的权重系数λ ₁。

在上述实施例的基础上，本发明实施例通过综合各个图片的流矩阵的L2范数距离得到蒸馏损失函数，提高了蒸馏损失函数的可靠性。

图2是本发明另一实施例提供的图像识别模型的训练方法流程图。如图2所示，本发明实施例提出一种基于破坏重组和知识蒸馏的图像识别模型的训练方法，该方法不需要借助任何人工标注信息，也能达到和强监督细粒度识别一样的准确度，并且在模型上能够减少算法的时间和空间消耗。该方法总体分为两个部分：破坏重组部分和知识蒸馏部分，破坏重组部分实现对图片的有序打乱，破坏图片中的结构信息，保证算法提取出更精细的局部信息；知识蒸馏部分对破坏后图片提取出来的特征进行蒸馏和浓缩，提取出对模型识别率提高最有效的特征，进一步提高算法的准确度。

首先，该算法进行图片破坏步骤，对图片进行有序打乱，即在打乱的同时控制扰动幅度，以达到有效控制打乱引入噪声的效果。通过这样的步骤，使得图片原有的结构信息被破坏，而强迫算法去关注于图片中的局部信息点，提取出更加有效、更加精准的局部信息。

破坏重组部分结束后，算法进入知识蒸馏部分，此部分由两个分支共同完成。前面得到的打乱后的图片和原图分别经过卷积神经网络进行局部特征和全局特征提取，然后经过全连接层得到局部分类结果和全局分类结果，同时根据两侧卷积神经网络各层的计算结果计算出算法所需的局部流矩阵和全局流矩阵，然后利用知识蒸馏算法对提取出来的特征进行蒸馏和浓缩，进一步得到对模型识别率提高最有效的特征，并有助于卷积神经网络的参数调整，使得算法能够融合全局和局部特征来对图像进行细粒度分类，达到有效提升细粒度识别准确度。

图3是本发明一实施例提供的图像识别方法流程图。所述方法可以应用上述任一实施例训练得到的图像识别模型进行图像识别。所述方法包括：

步骤201、记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵。

记录输入图片的第一图像矩阵后，可以按照模型训练时图片切分及打乱的规则将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵。和训练时针对于样本图片不同，本发明实施例中的第一图像矩阵对应于实际需要识别的输入图片，第二图像矩阵对应于打乱后的输入图片。

步骤202、将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量。

将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量，第一输出向量中的各个元素的大小可以表示图片为相应类别的概率。将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量，第二输出向量中的各个元素的大小可以表示图片为相应类别的概率。

步骤203、根据所述第一输出向量和所述第二输出向量得到图片识别结果。

可以综合第一输出向量和第二输出向量得到图片识别结果。比如，可以将第一输出向量和第二输出向量进行加权求和，根据输出向量中元素的大小确定图片所属类别。

本发明实施例通过利用上述训练方法得到的图像识别模型进行图像识别，可以实现弱监督细粒度的图像识别，不需要借助任何人工标注信息，也能达到和强监督细粒度识别一样的准确度。

进一步地，基于上述实施例，所述根据所述第一输出向量和所述第二输出向量得到图片识别结果包括：将所述第一输出向量和所述第二输出向量相加得到第三输出向量，根据所述第三输出向量得到所述图片识别结果。

在根据所述第一输出向量和所述第二输出向量得到图片识别结果时，可以直接将所述第一输出向量和所述第二输出向量相加得到第三输出向量，根据所述第三输出向量中元素的大小确定图片所属类别，从而得到所述图片识别结果。

在上述实施例的基础上，本发明实施例通过将第一输出向量和第二输出向量相加得到第三输出向量，根据第三输出向量得到图片识别结果，提高了简便性。

图4是本发明一实施例提供的图像识别模型训练装置的结构示意图。如图4所示，所述装置包括图片打乱模块10、特征提取及分类模块20、损失函数计算模块30及模型优化模块40，其中：图片打乱模块10用于：记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；特征提取及分类模块20用于：将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；损失函数计算模块30用于：根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；模型优化模块40用于：通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。

图5是本发明一实施例提供的图像识别装置的结构示意图。如图5所示，所述装置包括图像处理模块100、输出向量获取模块200及图像识别模块300，其中：图像处理模块100用于：记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；输出向量获取模块200用于：将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；图像识别模块300用于：根据所述第一输出向量和所述第二输出向量得到图片识别结果。

本发明实施例提供的设备是用于上述方法的，具体功能可参照上述方法流程，此处不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行图像识别模型的训练方法，该方法包括：记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。或，处理器610可以调用存储器630中的逻辑指令，以执行图像识别方法，该方法包括：记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；根据所述第一输出向量和所述第二输出向量得到图片识别结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的图像识别模型的训练方法，该方法包括：记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。或，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的图像识别方法，该方法包括：记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；根据所述第一输出向量和所述第二输出向量得到图片识别结果。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的图像识别模型的训练方法，该方法包括：记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。或，该计算机程序被处理器执行时实现以执行上述各实施例提供的图像识别方法，该方法包括：记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；根据所述第一输出向量和所述第二输出向量得到图片识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种图像识别模型的训练方法，其特征在于，包括：

记录样本图片的第一图像矩阵后，将所述样本图片进行切分及打乱，从而获取打乱后所述样本图片的第二图像矩阵；

将所述第一图像矩阵输入到第一卷积神经网络，通过所述第一卷积神经网络提取第一图片特征及获取第一图片分类结果；以及，将所述第二图像矩阵输入到第二卷积神经网络，通过所述第二卷积神经网络提取第二图片特征及获取第二图片分类结果；

根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，所述蒸馏损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在特征计算流程上越接近；以及，根据所述第一图片分类结果和所述第二图片分类结果求解预设的分类损失函数，所述分类损失函数越小表示所述第一卷积神经网络和所述第二卷积神经网络在分类结果上越接近真值；

通过不断优化所述蒸馏损失函数及所述分类损失函数进行所述第一卷积神经网络和所述第二卷积神经网络的优化，在所述蒸馏损失函数小于预设第一阈值以及所述分类损失函数小于预设第二阈值时训练结束，从而获取训练好的由所述第一卷积神经网络和所述第二卷积神经网络所构建的图像识别模型。
根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述将所述样本图片进行切分及打乱，具体包括：

首先，将图像分割成多个图像块；然后，先进行行方向上所述图像块的打乱操作，再进行列方向上所述图像块的打乱操作；或，先进行列方向上所述图像块的打乱操作，再进行行方向上所述图像块的打乱操作。
根据权利要求2所述的图像识别模型的训练方法，其特征在于，所述进行行方向上所述图像块的打乱操作，包括：对于每一行的每个所述图像块，在预设的第一步长范围内，根据第一随机变量的值，与对应位置的所述图像块进行行方向上位置的互换；

所述进行列方向上所述图像块的打乱操作，包括：对于每一列的每个所述图像块，在预设的第二步长范围内，根据第二随机变量的值，与对应位置的所述图像块进行列方向上位置的互换。
根据权利要求1所述的图像识别模型的训练方法，其特征在于，所述根据所述第一图片特征和所述第二图片特征求解预设的蒸馏损失函数，包括：

根据所述第一卷积神经网络中卷积层相邻两层所提取的所述第一图片特征获取全局流矩阵，根据所述第二卷积神经网络中卷积层相邻两层所提取的所述第二图片特征获取局部流矩阵；

通过计算所述全局流矩阵和所述局部流矩阵的L2范数距离，求解预设的所述蒸馏损失函数。
根据权利要求4所述的图像识别模型的训练方法，其特征在于，通过相邻两层的图片特征得到的所述全局流矩阵和所述局部流矩阵的表达式为：

其中，F ¹∈R ^h×w×m表示相邻两层中上面c1层的图片特征，F ²∈R ^h×w×m表示相邻两层中下面c2层的图片特征，h,w,m分别表示图片特征的高度、宽度和通道数，s表示图片高度特征的序号，t表示图片宽度特征的序号，x表示输入的图片，W表示神经网络的权重参数。
根据权利要求5所述的图像识别模型的训练方法，其特征在于，所述蒸馏损失函数的表达式为：

其中，W _global表示全局流矩阵，W _local表示局部流矩阵，L _flow(W _global,W _local)表示根据全局流矩阵和局部流矩阵得到的蒸馏损失函数；λ ₁表示权重系数；l表示流矩阵的序号，所述流矩阵包括所述全局流矩阵和所述局部流矩阵；n表示针对一张图片所述流矩阵的个数，其中，所述全局流矩阵和所述局部流矩阵的个数相同；x表示输入的图片；N表示图片个数；
表示x图片的第l个全局流矩阵；
表示x图片的第l个局部流矩阵；
表示L2范数距离计算。
一种基于权利要求1至6任一所述图像识别模型的图像识别方法，其特征在于，包括：

记录输入图片的第一图像矩阵后，将所述输入图片进行切分及打乱，从而获取打乱后所述输入图片的第二图像矩阵；

将所述第一图像矩阵输入到所述第一卷积神经网络，通过所述第一卷积神经网络获取全连接层的第一输出向量；以及，将所述第二图像矩阵输入到所述第二卷积神经网络，通过所述第二卷积神经网络获取全连接层的第二输出向量；

根据所述第一输出向量和所述第二输出向量得到图片识别结果。
根据权利要求7所述的图像识别方法，其特征在于，所述根据所述第一输出向量和所述第二输出向量得到图片识别结果包括：

将所述第一输出向量和所述第二输出向量相加得到第三输出向量，根据所述第三输出向量得到所述图片识别结果。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述图像识别模型的训练方法的步骤或如权利要求7至8任一项所述图像识别方法的步骤。
一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述图像识别模型的训练方法的步骤或如权利要求7至8任一项所述图像识别方法的步骤。