WO2020073951A1

WO2020073951A1 - 用于图像识别的模型的训练方法、装置、网络设备和存储介质

Info

Publication number: WO2020073951A1
Application number: PCT/CN2019/110361
Authority: WO
Inventors: 陈卫东; 吴保元; 刘威; 樊艳波; 张勇; 张潼
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-10-10
Filing date: 2019-10-10
Publication date: 2020-04-16
Also published as: CN110163234A; CN110163234B; US20210042580A1

Abstract

一种用于图像识别的模型的训练方法、装置和存储介质，所述方法包括：获取多标签图像训练集；从多标签图像训练集中选择多个训练图像，作为用于训练当前模型的目标训练图像；采用当前模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；获取每个目标训练图像的多个样本标签对应的交叉熵损失函数，交叉熵损失函数中的正标签损失设有权重，且权重大于1以使所述正标签的损失大于负标签的损失；根据交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

Description

用于图像识别的模型的训练方法、装置、网络设备和存储介质

本申请要求于2018年10月10日提交中国专利局、申请号为201811180282.2、名称为“一种模型训练方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，具体涉及一种用于图像识别的模型的训练方法、装置、网络设备和存储介质。

背景

随着深度学习模型和训练方法的发展，计算机视觉领域也取得了很大的进步，且研究方向从低层的图像处理，图像识别逐渐向更高层的视觉理解转变。复杂的视觉任务需要利用具有更好视觉表示潜力的深度神经网络模型。

目前在大规模多标签图像训练集上训练而成的深度神经网络模型，其具有更好的视觉表现能力，大规模多标签图像数据集的质量决定着深度神经网络模型的视觉表现力和准确率。目前已公开的大规模多标签图像数据集ML-Images可以包括11166个标签，18019881幅训练图片；业内一般在该图像数据集上训练深度神经网络模型。

技术内容

本申请实施例提供一种用于图像识别的模型的训练方法，由网络设备执行，包括：

获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；

从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；

采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；

获取每个所述目标训练图像的多个样本标签所对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；

根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

本申请实施例还提供一种用于图像识别的模型训练装置，包括：

图像获取单元，用于获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；

选择单元，用于从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；

预测单元，用于采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；

函数获取单元，用于获取每个所述目标训练图像的多个样本标签所对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；

训练单元，用于根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

本申请实施例提供一种网络设备，包括处理器；与所述处理器相连接的存储器；所述存储器中存储有机器可读指令，所述机器可读指令可以由处理器执行本申请实施例所述的方法。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例所述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的模型训练方法的场景示意图；

图1B是本申请实施例提供的模型训练方法的流程示意图；

图1C是本申请实施例提供的对目标训练图像进行预处理的流程图；

图2是本申请实施例提供的残差网络的每个卷积阶段中的第一个残差块的结构示意图；

图3是本申请实施例提供的残差网络的结构示意图；

图4是本申请实施例提供的模型训练方法的另一流程示意图；

图5A是本申请实施例提供的模型训练装置的结构示意图；

图5B是本申请实施例提供的模型训练装置的另一结构示意图；

图5C是本申请实施例提供的模型训练装置的另一结构示意图；

图5D是本申请实施例提供的模型训练装置的另一结构示意图；

图6是本申请实施例提供的网络设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，深度学习是机器学习的技术和研究领域之一，通过建立具有阶层结构的人工神经网络，在计算机系统中实现人工智能(Artificial Intelligence，AI)。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

由于深度学习(Deep Learning，DL)在视觉领域的成功应用，研究者也将其引入到图像描述领域中，通过大规模多标签图像数据集来训练深度学习神经网络模型，以使其完成图像识别相关的任务。

目前大规模多标签图像数据集存在较大的类别不均衡的问题，比如，类别内的正负标签不均衡的问题，譬如，对于数据集中的某张训练图像，一般其负标签(即该图像中不存在的类别)的数量远远大于正标签(该图像中存在的类别)。由于大规模多标签图像数据集存在类别不均衡的问题，导致在大规模多标签图像数据集训练出的深度网络模型的准确率、视觉表现力较低。

本申请实施例提供一种用于图像识别的模型的训练方法、装置和存储介质。

其中，该模型训练装置具体可以集成在网络设备，如终端或服务器等设备中，例如，参考图1A，网络设备可以获取多标签图像训练集，比如，网络设备可以通过图像搜索引擎搜索多标签图像，得到多标签图像训练集(多标签图像训练集包括标注了多个标签的图像)；然后，从多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；根据每个目标训练图像对当前的模型进行训练，得到每个目标训练图像的多个预测标签；获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，交叉熵损失函数中的正标签损失设有权重，且权重大于1以使正标签的损失权重大于负标签的损失权重；根据交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。其中，当前的模型可以是深度神经网络模型。

在一些实施例中，尽管从多标签图像训练集中选择当前多个训练图像，作为用于训练当前的模型训练的目标训练图像，但在模型训练时，模型是一张一张来进行学习训练图像的。因此上述样本标签可以是模型当前学习的一个目标训练图像的所具有的标签，例如，当前的目标训练图像所具有的标签为“人”和“狗”，则上述样本标签为“人”和“狗”。

在一些实施例中，上述交叉熵损失函数是用来衡量人工神经网络(ANN：Artificial Neural Network)的预测值与实际值的一种方式。交叉熵刻画的是两个概率分布的距离，也就是说交叉熵的值越小，两个概率分布越接近，因此，可以通过交叉熵的值可以判断预测值与实际值之间的距离。

在一些实施例中，对交叉熵损失函数中的正标签损失设有权重，且该权重大于1，其作用是使正标签的损失大于负标签的损失，也即作用是设定正标签的分错代价大于负标签的分错代价，其中，正标签可以是与训练图像的一个样本标签相同的标签，例如图像中存在的物体类别，负标签可以是与训练图像的样本标签不相同的标签，例如图像中不存在的物体类别。

本申请实施例中，可以采用批量训练的方式对模型进行训练，也即每次采用多张训练图像对模型进行训练。此时，网络设备可以从多标签图像训练集中选择用于当前的批量训练的目标训练图像；根据目标训练图像对深度神经网络模型进行训练。

此外，为了进一步抑制类别间正负训练图像的不均衡的问题，网络设备还可以基于向量批量训练中标签的图像连续出现的情况，对交叉熵损失进行自适应衰减。具体地，交叉熵损失还函数还包括:交叉熵损失衰减参数；此时，网络设备可以获取相邻批量训练中样本标签的第一训练图像整体类型、以及样本标签的训练图像连续出现的次数；获取当前批量训练中样本标签的第二训练图像整体类型；根据第一训练图像整体类型、第二训练图像整体类型以及次数，对交叉熵损失衰减参数进行更新，得到更新后交叉熵损失函数；根据更新后交叉熵损失函数对目标训练图像的预测标签和样本标签进行收敛。

在本申请实施例中，将模型训练装置的角度进行描述，该模型训练装置具体可以集成在网络设备如终端或服务器等设备中。

在一实施例中，提供了一种模型训练方法，该模型训练方法得到的深度神经网络模型可以用于视觉表示任务等图像识别相关的任务，例如文章的图像质量评价与推荐，游戏内物体识别等。该方法可以由网络设备执行，如图1B所示，该模型训练方法的具体流程可以如下：

S101、获取多标签图像训练集，该多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签。

其中，多标签图像训练集可以包括至少一张标注了多个标签(如多个物体类别)的图像，该图像可以称为多标签图像。多标签图像训练集可以包括多张多标签图像，并且涵盖多个物体类别。

实际应用中，多标签图像训练集可以选择目前业内已公开的大规模多标签图像训练集；比如，可以为Open Images v3多标签图像训练集(包括9M图像，涵盖6K物体类别)，或者可以为ML-Images大规模多标签图像训练集，其涵盖共有11166个标签，18019881幅图像。

本申请实施例中，多标签图像训练集的获取方式可以有多种，比如，可以通过图像搜索引擎等搜索公开的多标签图像组成多标签图像训练集。又比如，可以直接下载或拉取已公开的多标签图像训练集，比如ML-Images等。

本申请实施例中，图像的标签内容可以包括图像所属的类别(可以为物体类别)，比如，可以包括类别编号和/或类别名称例如，标签可以包括类别编号/m/056mk、对应的类别名称metropolis(即都会、大都市)。

S102、从多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像。

比如，可以从多标签图像训练集中选择一张或者多张训练图像，用于模型训练。

在一实施例中，可以采用多批量训练图像对模型进行训练，具体可以利用不同批次的目标训练图像实现批量训练，也即，每次可以多标签图像训练集中选择多张用于模型训练的目标训练图像。比如，步骤“从多标签图像训练集中选择多个训练图像”，可以包括；从多标签图像训练集中选择所述多个训练图像，作为当前的批量训练的目标训练图像。

例如，可以每次选择100张训练图像作为目标训练图像，以对模型进行批量训练。

在实际应用中，每个批次即每个批量训练所选的训练图像数量可以相同，比如均为100张，也可以不相同，如第一次选100张训练图像，第二次选200张训练图像。

在一实施例中，为提升模型训练的效率和准确性，还可以在对模型训练之前对训练图像进行预处理；比如，在采用深度神经网络模型对目标训练图像进行标签预测之前，还可以包括：对目标训练图像进行预处理。

其中，图1C为本申请实施例对目标训练图像进行预处理的流程图，如图1C所示，预处理过程可以包括以下步骤：

S111、从目标训练图像中提取相应的区域图像。

具体地，可以从目标训练图像中截取占目标训练图像预定比例、且宽高比为预定比值的区域图像。

在本申请的一个实施例中，预定比例可以为从预定比例区间中随机选取的值，和/或预定比值可以为从预定宽高比区间中随机选取的值，比如预定比例区间可以是[0.7,1.0]，预定宽高比区间可以是[3/4,4/3]。

S112、将区域图像缩放到预定尺寸，得到缩放后图像。

其中，预定尺寸可以根据实际需求设定，比如，将提取的区域图像统一缩放到224*224大小。

S113、对缩放后图像进行随机扰动处理，得到预处理后的训练图像；

其中，随机扰动处理，可以包括：

以第一处理概率对缩放后图像进行水平翻转处理；和/或

以第二处理概率对缩放后图像进行随机角度的旋转处理，随机角度为从预定角度区间中随机选取的值；和/或

以第三处理概率对缩放后图像的属性进行扰动处理；和/或

将缩放后图像的像素值缩放到预设像素值范围内。

其中，图像的属性包括饱和度、对比度、亮度和色度等。预设像素值范围可以为[-1,1]。各个处理概率可以根据实际需求设定。预定角度区间可以根据实际需求设定，比如，可以为[-45,45]度之间。

例如，对于一副目标训练图像。该图像可以是RGB图像。预处理过程可以如下：

①从图像中随机剪裁出占图像总面积比例为[0.7,1.0]中的任一比例，宽高比为[3/4，4/3]中的任一比值的区域。

②将裁剪得到的图像尺寸调整为224*224的尺寸。

③以上述第一处理概率例如0.5的处理概率对图像进行水平翻转处理。

④以上述第一处理概率例如0.25的处理概率对图像进行随机角度的旋转处理，随机角度在[-45,45]度之间随机决定。

⑤以上述第三处理概率例如0.5的处理概率对图像的饱和度、对比度、亮度和色度进行扰动处理；

⑥将图像中像素点的像素值缩放到[-1,1]范围内，比如，在对图像进行了二值化处理的情况下，可将像素值从[0,1]缩放到[-1,1]。

S103、采用所述模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签。

比如，所述模型可以是深度神经网络模型，在标签包括图像类别时，可以采用深度神经网络模型对每个目标训练图像进行分类，得到每个目标训练图像的预测类别，即预测标签。

在一实施例中，当对各个目标训练图像进行预处理后，可以“采用所述模型对每个目标训练图像进行标签预测”，包括：采用模型对预处理后的每个目标训练图像进行标签预测。

其中，深度神经网络模型可以包括输出层，该输出层可以包括多个输出函数，每个输出函数用于输出相应标签如类别的预测结果，如预测标签、预测标签对应的预测概率等等。

比如，深度网络模型的输出层可以包括m个输出函数如Sigmoid函数，该m为多标签图像训练集对应的标签数量，例如，在标签为类别时，m为多标签图像训练集的类别数量，该m为正整数。其中，每个输出函数如Sigmoid函数的输出可以包括给定训练图像属于某一个标签如物体类别、和/或概率值，即预测概率。

其中，深度神经网络模型可以为基于深度学习网络如卷积神经网络的模型，比如，可以为残差神经网络(ResNet：Residual Neural Network)模型，ResNet是由何凯明等人提出的神经网络，ResNet的结构可以极快地加速超深神经网络的训练，模型的准确率也有非常大的提升。

在一实施例中，在原始的残差网络结构中，卷积分支中的第一个卷积层的卷积核大小为1×1、卷积步长为2，第二个卷积层的卷积核大小为3×3、卷积步长为1，那么在第一个卷积层进行卷积操作时，两次卷积过程之间会跳过一个特征点，进而会造成特征网络的损失，因此，可以对残差网络进行如下结构上的改进：

其中，残差网络包含顺次相连的多个残差块(Residual Blocks)，每个残差块包含卷积分支和残差分支，卷积分支中的第一卷积层的卷积核大小小于位于第一卷积层之后的第二卷积层的卷积核大小，第二卷积层的卷积步长大于第一卷积层的卷积步长且小于第二卷积层的卷积核宽度。其中，残差块中的残差分支是由卷积分支的输入指向卷积分支的输出。

在一实施例中，残差网络可以是深度残差网络，残差网络还包含位于多个残差块之前的初始卷积层，初始卷积层的输出作为多个残差块中第一个残差块的输入。在该实施例中，由于残差块中的第二卷积层已经能够实现下采样处理，因此可以去掉原始残差网络中位于残差块之前的池化层，简化了残差网络的结构。

在本申请的一个实施例中，残差网络中的多个残差块构成了多个卷积阶段(stages)，每个卷积阶段中的第一个残差块包含的残差分支包含顺次相连的一批量归一化处理层和一目标卷积层。

在该实施例中，对于一个残差块而言，如果其输入和输出具有相同的尺寸(包括size和channel等)，那么残差分支是一个恒等映射，但是如果其输入和输出的尺寸不相同，那么需要通过一个卷积操作来将输入和输出映射到相同的尺寸上，通常情况下在每个卷积阶段中的第一个残差块中需要通过非恒等映射(即增加一个卷积层)的残差分支来保证残差块的输入和输出一致。同时，由于卷积层的卷积操作没有偏置项，因此可以在卷积层之前添加一个BN(即Batch Normalization，批量归一化)层来添加偏置项，进而能够保证达到最优的处理效果。

由于采用残差网络的结构，可以使得残差块中的卷积层在进行卷积操作时，既保证了能够通过第二卷积层实现下采样的处理，又能够保证不会跳过任何一个特征点，进而可以保证不会造成特征网络表征能力的损失，从而能够确保图像特征提取的准确性，提高了图像识别的准确率。

基于前述实施例中所介绍的残差网络的结构，在本申请的一个具体实施例中，如图2所示，为本申请实施例的残差网络的每个卷积阶段中的第一个残差块的结构示意图，具体包括：卷积分支201和残差分支202，其中，残差分支202由卷积分支201的输入指向卷积分支201的输出。

卷积分支201包括第一卷积层2011、第二卷积层2012和第三卷积层2013，第一卷积层2011、第二卷积层2012和第三卷积层2013中的每个卷积层之前均设置有 BN层，并且在通过BN层处理之后，均会通过Relu(Rectified Linear Unit，线性整流单元)进行处理。其中，第一卷积层2011的卷积核大小为1×1、卷积步长为1；第二卷积层2012的卷积核大小为3×3、卷积步长为2；第三卷积层2013的卷积核大小为1×1、卷积步长为1。由于第二卷积层2012既可以实现下采样的处理，又能够保证不会跳过任何一个特征点，因此本申请实施例的残差块能够保证不会造成特征网络表征能力的损失。

残差分支202包括卷积层2021和卷积层之前设置的BN层，并且在通过BN层处理之后，会通过Relu函数进行处理。

卷积分支201和残差分支202的输出在元素层面上执行加法(Addition)运算，得到每个残差块的输出。

在本申请的一个实施例中，如图3所示为本申请实施例的残差网络的结构示意图，该结构包括：顺次相连的初始卷积层301、卷积阶段302、卷积阶段303、卷积阶段304、卷积阶段305、全局平均池化层(Global Average Pool Layer)306和全连接层(Fully-Connected Layer)307。其中，初始卷积层301的卷积核大小为7×7、卷积步长为2、通道数(channel)为64；卷积阶段302、卷积阶段303、卷积阶段304、卷积阶段305中的每个卷积阶段包含多个残差块，不同卷积阶段中包含的残差块的数量可能不相同，比如在ResNet101中，卷积阶段302包含3个残差块、卷积阶段303包含4个残差块、卷积阶段304包含23个残差块、卷积阶段305包含4个残差块。需要说明的是，每个卷积阶段中的第一个残差块的结构如图2所示，其它的残差块中的残差分支为恒等映射，卷积分支与图2中所示的卷积分支201相同。

从图2和图3所示的残差网络的结构可以看出，本申请实施例中的残差网络在原始的残差网络基础上去掉了初始卷积层301之后的最大池化层，并将下采样过程放到了第一个卷积阶段中，即卷积阶段302中，具体是放到了卷积阶段302中第一个残差块中的第二卷积层2012中。同时，在每个残差块中，将下采样的过程均放到了3×3的第二卷积层中，进而保证下采样过程不会跳过任何一个特征点，确保不会造成特征网络表征能力的损失。此外，不仅在卷积分支中添加了BN层，而且在非恒等映射的残差分支中也添加了BN层，这样可以通过BN层在卷积层之前添加偏置项，进而能够保证达到最优的处理效果。

根据上述描述，在实际应用中，残差网络结构主要进行了如下改进：

去掉初始的Max Pooling操作，将下采样放置到第一个stages中。

替换卷积步长等于2的block，将下采样放置到3*3的卷积操作中

不只对每个block的卷积分支进行BN操作，对于非恒等映射的residual分支也进行BN操作。

在一实施例中，考虑到标签如类别间的正负训练图像的不均衡，比如，对于大多数类别来说，在整个数据集范围内，其正图像往往小于其负图像。尤其是一些罕见的小类别，往往只有几千张正图像，与负图像的比例甚至达到1比几千。

在一些实施例中，对于目标训练图像的一个样本标签，正图像是包含该样本标签如类别对应的内容的图像，负图像是指不包含该样本标签如类别对应的内容的图像。例如，当样本标签为“狗”时，正图像是指包含狗的图像，而负图像是指不包含狗的图像。

在一些实施例中，对于目标训练图像的一个样本标签，正训练图像是用于模型训练的目标训练图像中包含该样本标签对应的内容的训练图像，也即，正训练图像是指具有的标签与该样本标签相同的训练图像；而负训练图像用于模型训练的目标训练图像中不包含样本标签对应的内容的训练图像，也即，负训练图像是指具有的标签与该样本标签不相同的训练图像。例如，从多标签图像训练集中供选择10000张用于模型训练的目标训练图像，当样本标签为“狗”时，正训练图像是指目标训练图像中包含狗的训练图像，而负图像是指目标训练图像中不包含狗的训练图像。

因此，为了抑制标签如类别间的正负训练图像的不均衡，提升模型准确率和视觉表现能力，还可以对负样本集负训练图像进行降采样等操作；比如，当深度神经网络模型包括输出层，输出层包括多个输出函数的情况下，步骤S103“采用所述模型对目标训练图像进行标签预测，得到目标训练图像的多个预测标签”，可以包括：

针对每个所述目标训练图像的每个样本标签：

当各个目标训练图像均为不具有该样本标签的负训练图像时，根据预设处理概率对所述样本标签对应的输出函数中的参数进行更新，得到更新后的模型；

在一些实施例中，对于目标训练图像的一个样本标签，当目标训练图像中的各个训练图像均不包含该样本标签，也即目标训练图像中的各个训练图像均为负训练图像时，则该样本标签所对应的输出函数的参数依据预设处理概率例如0.1的处理概率进行更新。

采用更新后的模型对各个目标训练图像进行标签预测，得到各个目标训练图像的多个预测标签。

或者，步骤“采用所述模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签”，可以包括：

针对每个所述目标训练图像的每个样本标签：

当各个目标训练图像中存在具有该样本标签的正训练图像时，对各个目标训练图像中不具有该样本标签的负训练图像进行随机降采样，得到降采样后的目标训练图像；

采用所述模型对降采样后的目标训练图像对所述模型进行标签预测，得到各个目标训练图像的多个预测标签。

其中，正训练图像为具有与样本标签相同的标签(如类别)的训练图像，负训练图像为不具有与样本标签相同的标签(如类别)的训练图像。

在一实施例中，步骤“对各个目标训练图像中不具有样本标签的负训练图像进行随机降采样”，可以包括：

根据样本标签对应的预设正负训练图像比例，对各个目标训练图像中不具有样本标签的负训练图像进行随机降采样。

其中，标签(如类别)的正负训练图像比例可以为标签(如类别)的正训练图像与负例训练图像的数量比值。可以根据实际需求设定。

比如，可以对各个目标训练图像中样本标签的负训练图像进行随机降采样，使得正负训练比例不小于预设正负训练图像比例，例如不小于1:5的预设比例。

譬如，实际应用中，在每个批量训练图像中，对于每一类别，大多数训练图像是负的，即该类别不存在于该训练图像中，甚至会出现所有训练图像对该类别都是负的情况。为了抑制数据不均衡，根据上述描述可以采取以下措施：

a)如果当前批量训练的图像中对于某一类别全部为负，也即当前批量训练的各个训练图像均不包含该类别对应的内容，则该类别所对应的Sigmoid函数的参数依据预设处理概率0.1进行更新；

b)如果存在正训练图像，我们对负训练图像进行随机降采样，使得正负训练图像的比例不小于1：5。

因此，尽管不同类别所对应的正训练图像的数量非常不均衡，但是对负训练图像的降采样保证了所有类别在近似的正负数据分布下进行训练，在一定程度上缓解了类别之间的不均衡，提升模型的准确率和视觉表现能力。

S104、获取每个所述目标训练图像的多个样本标签所对应的交叉熵损失函数，交叉熵损失函数中的正标签损失设有权重，且权重大于1以使所述正标签的损失大于负标签的损失。

其中，目标训练图像一般具有多个样本标签，交叉熵损失函数涵盖了这多个样本标签，交叉熵损失函数获取时序不受序号限制，可以根据实际需求设置在模型训练过程中相应的时序位置，比如，在选择训练图像之后，可以获取多个样本标签对应的交叉熵损失函数等等。

其中，正标签为与训练图像的样本标签相同的标签，比如，在标签为类别j时，正标签为与训练图像的类别j相同的类别；负标签为与训练图像的样本标签不相同的标签，比如，在标签为类别j时，负标签为与训练图像的类别j不相同的类别。

本申请实施例中，交叉熵损失函数可以包括正标签损失和负标签损失，该正标签损失和负标签损失可以基于训练图像的标签预测概率、样本标签得到。

对于训练图像如第i个训练图像xi的每类样本标签，本申请实施例可以采用该样本标签对应的交叉熵函数，来进行收敛。例如，以标签为物体类别为例，涵盖m个样本标签的交叉熵损失函数的定义可以如下：

其中，

表示对第j类的后验概率，即预测概率。W表示模型的可训练参数的集合。y _i∈{0，1} ^m表示第i个训练图像xi的给定标签向量(即第i个训练图像xi的样本标签组)，如果第j个物体存在于该图像中，则yi的第j个元素为1，否则为0。m为多标签图像训练集的标签种数即类别数量。

其中，η为正标签损失的权重参数，其值表示正标签损失的权重。该权重参数η＞1的作用是使所述正标签的损失大于负标签的损失，也即作用是设定正标签(即该图像中存在的物体类别)的分错代价要大于负标签(即该图像中不存在的物体类别)。这样做的原因在于：a)对于图像标注，我们更看重正标签的正确预测程度；b)负标签的数量远远大于正标签，η＞1可以在一定程度上抑制这种不均衡；c)正标签的可靠程度高于负标签，因为负标签中有很多是遗漏的正标签。在实际应用中，优先设置η为12，可以抑制类别内的正负标签的不均衡。

在一实施例中，还考虑到标签间如类别间的正图像不均衡。不同类别说对应的正图像数量的差异是非常大的，对于一些常见的大类(比如动物，植物)来说，在整个数据集内正图像所占的比例可能超过10％，而对于一些罕见的小类别来说，其正图像的比例可能几千分之一。因此，会导致训练处的模型的准确率和视觉表现力降低。

为了进一步抑制标签间如类别间的图像不均衡，提升模型准确率和视觉表现力，本申请实施例可以对某些标签如类别的交叉熵损失进行自适应衰减，比如，可以在交叉熵损失函数中加入交叉熵损失衰减参数，以对相应类别的交叉熵损失进行衰减。参考上述交叉熵损失函数，其中，r _t ^j即为交叉熵损失衰减参数。

实际应用中，每次批量训练时可以对交叉熵损失衰减参数进行更新，以对类别的交叉熵损失进行自适应性衰减。具体地，在一实施例中，在根据交叉熵损失函数对目标训练图像的预测标签和样本标签进行收敛之前，本申请实施例方法还可以包括：

获取相邻批次的各个目标训练图像的每个样本标签对应的第一训练图像整体类型、以及具有与所述样本标签相同的标签的训练图像连续出现的次数，所述每个样本标签对应的第一训练图像整体类型用于指示相邻批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

获取当前批次的各个目标训练图像的每个样本标签对应的第二训练图像整体类型，所述每个样本标签对应的所述第二训练图像整体类型用于指示当前批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

根据第一训练图像整体类型、第二训练图像整体类型以及次数，对交叉熵损失衰减参数进行更新，得到更新后交叉熵损失函数。

在一些实施例中，相邻批次是指相邻的批量训练，当前批次是指当前的批量训练。

在一些实施例中，如果相邻批次中各个目标训练图像存在一个或多个连续的训练图像具有与所述样本标签相同的标签，则对于所述样本标签，第一训练图像整体类型为正；如果相邻的批量训练中各个目标训练图像的各个训练图像均不具有与所述样本标签相同的标签，则对于所述样本标签第一训练图像整体类型为负。

在一些实施例中，如果当前批次的各个目标训练图像存在具有与所述样本标签相同的标签的一个或多个连续的训练图像，则对于所述样本标签，第二训练图像整体类型为正；如果当前批次的各个目标训练图像的各个训练图像均不具有与所述样本标签相同的标签，则对于所述样本标签，第二训练图像整体类型为负。

例如，从多标签图像训练集中选择用于模型训练的目标训练图像为10000张，当前学习的目标训练图像的样本标签为“人”和“狗”。为了便于举例，不失一般性的假设，相邻批次的目标训练图像为5张，则对于样本标签“人”的第一训练图像整体类型用于指示相邻批次的5张目标训练图像中各个训练图像分别具有以及不具有“人”的标签的结果，例如当训练图像具有“人”的标签，则其类型标识为1，当训练图像不具有“人”的标签，则其类型标识为0。如果相邻批次的5张目标训练图像中各个训练图像存在一个或多个训练图像具有“人”的标签，例如相邻批次的5张目标训练图像中各个训练图像的类型标识为01110，则对于样本标签“人”，第一训练图像整体类型为“正”；如果相邻批次的5张目标训练图像中各个训练图像均不具有“人”的标签，例如相邻批次的5张目标训练图像中各个训练图像的类型标识为00000，则对于样本标签“人”，第一训练图像整体类型可以为“负”。

同样的，第二训练图像整体类型用于指示当前批次的各个目标训练图像中是否存在具有与所述样本标签相同的标签的一个或多个连续训练图像，其确定方法与第一训练图像整体类型相同，在此不再赘述。

需要说明的是，在统计具有与样本标签相同的标签的训练图像连续出现的次数以及第一训练图像整体类型、第二训练图像整体类型时，需要针对每一个样本标签分别统计，例如样本标签为“人”和“狗”时，需要对于样本标签“人”统计具有与“人”的训练图像连续出现的次数以及对于样本标签“狗”统计具有与“狗”的训练图像连续出现的次数。

其中，整体训练图像类型可以为批量训练的训练图像中某一标签如类别的整体训练图像类型，该整体训练图像类型可以为正、或者负。比如，训练图像整体类型可以为批量训练图中物体类别j对应的整体训练图像类。

也就是说，整体训练图像类型即批量训练的训练图像中某一标签如类别的符号，可以正、或者负。

例如，以物体类别j为例，在某次批量训练中，可以获取多种训练图像即批量训练图像，如果训练图像中出现一个或者多个连续的且类别为j的训练图像，那么确定物体类别j的训练图像整体类型为正，即j的符号为正；如果全部训练图像的类别均不为j类别，那么可以确定物体类别j的训练图像整体类型为负，即符号为负。

其中，样本标签的训练图像连续出现的次数为批量训练图像中样本标签(非样本标签)对应的训练图像当前连续出现的次数，即对于某一标签，批量训练图像中正(负)训练图像连续出现的次数；在，比如，批量训练图像的类别依次为j、j+1、j、j、j、j+1、j、j、j、j、j、j，那么此时，批量训练中类别j的正训练图像当前连续出现次数为6。

其中，相邻批量训练为当前批量训练的相邻批量训练，比如，可以为当前批量训练的上一批量训练，也即上一次批次。

本申请实施例可以获取当前批量训练图像(即当前批次的训练图像)中样本标签如类别的训练图像整体类型，以及相邻批量训练图像中样本标签如类别的训练图像整体类型、以及样本标签如类别的正(负)训练图像连续出现的次数；然后，基于图像整体类型和次数对交叉熵损失衰减参数如r _t ^j进行更新。

比如，在上述交叉熵损失函数中，加入了交叉熵损失自适应衰减参数(也可以称为交叉熵损失的自适应权重参数)

其中，t表示当前批量训练图像中类别j的正(负)样本连续出现的次数。由公式可知，通过t便可以求得交叉熵损失自适应参数的值，也即通过t对交叉熵损失自适应参数进行更新。

因此，要求得交叉熵损失自适应参数需要先得到当前批量训练图像中类别j的正(负)样本连续出现的次数，即t。实际应用中t与当前批量训练与相邻批量训练的训练图像整体类型相关；具体地，步骤“根据第一训练图像整体类型、第二训练图像整体类型以及次数，对交叉熵损失衰减参数进行更新，得到更新后交叉上损失函数”，可以包括：

将第一训练图像整体类型和第二训练图像整体类型进行比较，得到比较结果；

根据比较结果和次数，获取当前批量训练中样本标签的当前训练图像连续出现的目标次数；

根据目标次数对交叉熵损失衰减参数进行更新，得到更新后交叉上损失函数。

其中，目标次数即为上述t，可以基于当前批量训练与相邻历史批量训练的图像整体类型比较结果、以及相邻历史批量训练中样本标签的正(负)训练图像连续出现的次数来得到。

比如，当第一训练图像整体类型和第二训练图像整体类型一致时，譬如都为符号均为正，那么可以将相邻历史批量训练中样本标签的正(负)训练图像连续出现的次数加1，得到当前批量训练中样本标签的正(负)训练图像连续出现的次数；也即t＝t+1；如果当第一训练图像整体类型和第二训练图像整体类型不一致时，譬如都为一个符号为正、一个符号为负，那么当前批量训练中样本标签的正(负)训练图像连续出现的次数等于1，也即t＝1。

例如，根据上述描述，对于第j类，如果在相邻批量训练图像中连续出现正样本或者连续不出现正样本(全是负样本)，则对其交叉熵损失进行自适应衰减。在上述损失函数中，加入了一个自适应权重参数

以实现交叉熵损失的自适应衰减，其中t表示正(负)样本连续出现的次数。

由于实际应用中，对于常见的大类别来说，其出现连续正样本的概率更大一些；罕见的小类别连续出现全部负样本的概率较高。因此，通过上述对相应标签如类别的交叉熵损失进行自适应衰减既可以削弱模型对大类别的过度拟合(基于正样本的更新)，又可以削弱模型对小类别的抑制(基于负样本的更新)，从而对类别间的不均衡有所抑制，从而提升模型的准确率和视觉表现能力。

S105、根据交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

比如，对于训练图像的每一样本标签如类别可以获取其对应的交叉熵损失函数，然后，基于交叉熵损失函数对该训练图像的预测标签和样本标签进行收敛，以对模型的模型参数进行训练，得到训练后的模型。

具体地，在一实施例中，根据交叉熵损失函数获取训练图像的预测标签与样本标签的交叉熵损失；根据交叉熵损失对深度神经网络模型中的模型参数进行训练。

本申请实施例，可以采用反向传播算法，配合带有动量的随机梯度下降算法来训练模型；比如，可以根据交叉熵损失函数获取训练图像的预测标签与样本标签的交叉熵损失下降梯度(可以通过对损失函数求导得到)，然后，基于交叉熵损失下降梯度对深度神经网络模型中的模型参数进行训练；具体地，可以基于交叉熵损失下降梯度以及模型参数对应的学习率(即模型参数所在层对应的学习率)对模型参数进行更新。

在一实施例中，在通过上述方式训练得到深度神经网络模型后，可以通过迁移学习，将多标签预测或输出的深度神经网络模型变为单标签预测或输出的分类模型，可以提升模型的通用性。比如，本申请实施例方法还可以包括：

将训练后深度神经网络模型的输出层中多个输出函数变为单标签分类器，得到变化后网络模型；

按照高层的学习率大于低层的学习率原则，对变化后网络模型中每层的学习率进行自适应调整，得到调整后网络模型；

根据单标签训练图像集训练调整后网络模型的模型参数，得到单标签图像分类模型。

通过上述方式可以对在多标签图像训练集ML-Images上训练到的多标签输出的ResNet-101模型进行学习迁移，使得在ML-Images上训练到的多标签输出的ResNet-101模型可以帮助其他视觉任务，比如单标签图像分类等。

具体地，可以替换在ML-Images上训练到的多标签输出的ResNet-101模型的输出层(即多个独立的Sigmoid函数)，变为单标签分类器(即单个Softmax函数)；然后，对变化后网络模型中每层的学习率进行层次自适应学习率微调；接着，在单标签训练图像集如ImageNet数据集对调整后网络模型的模型参数进行训练，得到单标签图像分类模型。其中，模型参数包括：单标签分类器(即单个Softmax函数)的参数、以及其他模型参数等等。

其中，层次自适应学习率微调方式即为按照高层的学习率大于低层的学习率原则，对变化后网络模型中每层的学习率进行自适应调整，具体地，将高层的学习率设置为大于底层。也即越靠近输出的层学习率越大。

通过上述学习迁移方式得到的单标签分类模型，相比传统方式得到的单标签分类模型，缓解了多标签数据和单标签数据集差异带来的负面影响，具有性能优越、分类精度高、质量高等优点。

本申请实施例提供的模型训练方法可以适用于视觉相关的业务中。比如文章的图像质量评价与推荐，游戏内物体识别，通过本申请实施例方法训练出的模型均取得了很好的效果。此外，该模型还将为其他更广泛的视觉业务，包括图像理解和视频理解等，提供优秀的初始模型。

由上可知，本申请实施例可以获取多标签图像训练集，多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；从多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；采用所述模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，交叉熵损失函数中的正标签损失设有权重，且权重大于1以使所述正标签的损失大于负标签的损失；根据交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。该方案可以采用带权重的交叉熵损失函数训练深度神经网络模型的模型参数，并且交叉熵函数中权重参数值大于1，因此，可以抑制类别内正负标签的不均衡问题，提升了模型的准确率和视觉表现力。

此外，该方案还可以通过交叉熵损失自适应衰减、负样本降采样的方式抑制类别不均衡的问题，进一步提升模型的准确率和视觉表现能力。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该模型训练装置具体集成在网络设备中为例进行说明。

首先，定义标签如类别对应的交叉熵损失函数，如下：

其中，

其中，η为正标签损失的权重参数，其值表示正标签损失的权重。在实际应用中，优先设置η为12，可以抑制类别内的正负标签的不均衡。

其中，r _t ^j为交叉熵损失衰减参数，在上述交叉熵损失函数中，加入了交叉熵损失自适应衰减参数(也可以称为交叉熵损失的自适应权重参数)

然后，利用上述交叉熵损失函数对模型训练，具体地模型训练方法的流程，如图4所示，如下：

S401、网络设备获取多标签图像训练集，该多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签。

其中，多标签图像训练集可以包括至少一张标注了多个标签(如多个物体类别)的图像，该图像可以称为多标签图像。多标签图像训练集可以包括多张多标签图像，并且涵盖多个物体类别。比如可以为ML-Images多标签图像训练集。

S402、网络设备从多标签图像训练集中选择多个训练图像，作为当前的批量训练的目标训练图像。

网络设备可以采用多批量训练图像对模型进行训练，也即，每次可以多标签图像训练集中选择多张用于模型训练的目标训练图像。

在实际应用中，每个批次即每个批量训练所选的训练图像数量可以相同，比如均为100张，也可以不相同，如第一次选100张训练图像，第二次选400张训练图像。

S403、网络设备对每个所述目标训练图像的多个样本标签对应的交叉熵损失函数中交叉熵损失衰减参数进行更新。

比如，网络设备获取相邻批量训练中各个目标训练图像的每个样本标签的第一训练图像整体类型、以及具有与样本标签相同标签的训练图像连续出现的次数；获取当前批量训练中各个目标训练图像的每个样本标签的第二训练图像整体类型；将第一训练图像整体类型和第二训练图像整体类型进行比较，得到比较结果；根据比较结果和次数，获取当前批量训练中具有与样本标签相同标签的训练图像连续出现的目标次数；根据目标次数对交叉熵损失衰减参数进行更新，得到更新后交叉上损失函数。

具体地交叉熵衰减参数的更新可以参考上述实施例的描述，这里不再赘述。

S404、网络设备对当前的批量训练中的每个目标训练图像进行预处理。

其中，图像的预处理可以参考上述的描述，比如，可以从目标训练图像中提取相应的区域图像，将区域图像缩放到预定尺寸，得到缩放后图像；对缩放后图像进行随机扰动处理，等等。

S405、网络设备对当前批量训练中的各个目标训练图像进行负样本降采样。

为了抑制标签如类别间的正负训练图像的不均衡，提升模型准确率和视觉表现能力，还可以对负样本集负训练图像进行降采样等操作；具体地：

当深度神经网络模型包括输出层，输出层包括多个输出函数的情况下，当目标训练图像中的各个训练图像均为不具有样本标签的负训练图像时，根据预设处理概率对样本标签对应的输出函数中参数进行更新；

在目标训练图像中存在具有样本标签的正训练图像时，对目标训练图像中不具有样本标签的负训练图像进行随机降采样。

譬如，实际应用中，在每个批量训练图像中，对于每一类别，大多数图像是负的，即该类别不存在于该图像中，甚至会出现所有图像对该类别都是负的情况。为了抑制数据不均衡，根据上述描述可以采取以下措施：

a)如果当前批量数据中对于某一类别全部为负，则该类别所对应的Sigmoid函数的参数依据概率0.1进行更新；

b)如果存在正图像，我们对负图像进行随机降采样，使得正负图像的比例不小于1：5。

S406、网络设备采用所述模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签。

S407、网络设备根据每个所述目标训练图像的多个样本标签对应的交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述深度神经网络模型的参数，得到训练后的模型。

本申请实施例可以通过不断选择对每个批次的训练图像，采用上述方式对模型参数进行训练，便可以得到训练后深度神经网络模型。

其中，交叉熵损失函数可以参考上述介绍。

其中，深度神经网络模型可以为基于深度学习网络如卷积神经网络的模型，比如，可以为ResNet(Residual Neural Network，残差神经网络)模型。具体地，残差网络的结构可以参考上述介绍。

本申请实施例中，可以采用反向传播算法，配合带有动量的随机梯度下降算法来训练模型；比如，可以根据交叉熵损失函数获取训练图像的预测标签与样本标签的交叉熵损失下降梯度(可以通过对损失函数求导得到)，然后，基于交叉熵损失下降梯度对深度神经网络模型中的模型参数进行训练；具体地，可以基于交叉熵损失下降梯度以及模型参数对应的学习率(即模型参数所在层对应的学习率)对模型参数进行更新。

下面通过实验可以验证采用本申请实施例提供的模型训练方法具有准确率高、视觉表现能力高等优点。

首选，确定训练算法和超参数：采用常用的反向传播算法，配合带有动量的随机梯度下降算法来训练ResNet-101模型。训练超参数如下。批量图像数量4096。学习率采取warm-up策略，初始学习率为0.01,每个epoch乘以1.297,直到第9epoch学习率变为0.08，随后学习率每25epoch按照0.1的乘子进行衰减，直到第60个epoch。动量大小为0.9。在更新批量归一化(batch normalization)的参数时，移动平均的衰减因子为0.9，且在分母的方差上加1e-5以避免出现0方差。另外，还可对所有训练参数加上一个L2正则项，其权重参数为0.0001。

度量准则：为了验证在多标签数据即ML-Images训练出的ResNet-101模型的性能，可以在ML-Images的验证集上进行了测试，并采用三种常用的多标签度量准则，包括精准率，召回率和F1指数。由于每个Sigmoid函数的输出都是介于0和1之间的一个连续值，也即针对每个类别的后验概率，需要先把后验概率向量转换成一个二值向量，再进行度量。给定一个连续值的后验概率向量，可以将对应前k个最大值的元素设为1，表示预测为正标签，其他元素设为0，表示预测为负标签。对于第i个测试图像，可以得到了一个二值预测向量

采样的三种度量准则定义如下：

实验结果：采用本申请实施例提供的模型训练方法展示了两种结果，分别为k＝5和k＝10。具体实验结果如下表所示。值得注意的是，各项指标的数值都不算太高，其主要原因在于：1)ML-Images中的标注本身是包含噪声的；2)对于很多类别来说，训练样本不足够(约5000类的训练图像不超过1000)。

	精准率	召回率	F1指数
Top-5预测结果	43.7％	22.9％	29.5％
Top-10预测结果	33.7％	35.6％	33.9％

表1

在一实施例中，在通过上述方式训练得到深度神经网络模型后，可以通过迁移学习，将多标签预测或输出的深度神经网络模型变为单标签预测或输出的分类模型，可以提升模型的通用性。

比如，网络设备可以将训练后深度神经网络模型的输出层中多个输出函数变为单标签分类器，得到变化后网络模型；按照高层的学习率大于低层的学习率原则，对变化后网络模型中每层的学习率进行自适应调整，得到调整后网络模型；根据单标签训练图像集训练调整后网络模型的模型参数，得到单标签图像分类模型。

下面通过实验来验证本申请提供的学习迁移方式的有效性和优点。

比如，可以设置了三种不同模型开展对比实验：

(1)、模型一：直接在ImageNet训练数据集上训练单标签输出的ResNet-101模型，并在ImageNet验证集上进行测试。

(2)、模型二：替换在ML-Images上训练到的多标签输出的ResNet-101模型的输出层(即多个独立的Sigmoid函数)，变为单标签分类器(即单个Softmax函数)，在ImageNet数据集上训练Softmax函数的参数，并对其他层参数进行学习率一致性微调(见下文)。

(3)、模型三：替换在ML-Images上训练到的多标签输出的ResNet-101模型的输出层(即多个独立的Sigmoid函数)，变为单标签分类器(即单个Softmax函数)，在ImageNet数据集上训练Softmax函数的参数，并对其他层参数进行层次自适应学习率微调(见下文)。

微调学习率：在深度神经网络的迁移学习中，对模型参数进行微调是非常重要且关键的步骤，既可以保留初始参数的视觉表达能力，又能根据原始数据集与目标数据集的差异进行调整。常用的微调算法的超参数设置为：给输出层参数设置一个较大的初始学习率，将其他所有层参数的学习率设为一个较小的值。因为除了输出层以外的学习率一致，所以将这种标准的微调算法称为学习率一致性微调算法。但是，考虑到预训练数据集ML-Images与目标数据集(即ImageNet)的差异性(包括图像和标注的差异)，本申请实施例提出了层次自适应学习率的微调算法。具体而言，高层参数与训练数据集更相关，因此设置较大的学习率；底层参数表示低层视觉信息，与训练数据集的关系更弱，因此设置较小的学习率。

其他超参数设置：以上三种模型的超参数设置如下表所示:

表2

实验结果：实验结果以及与其他方法和第三方实现的对比如下表所示。本申请实现的模型1的性能超过MSRA和谷歌实现的模型1，说明本申请改进的ResNet模型性能比原始的ResNet模型性能优越，且本申请的模型实现质量较高。本申请实现的模型2的性能相比模型1，都有很大的性能下降，这说明了ML-Images与ImageNet的差异性。本申请实现的模型3则取得了最佳的性能，甚至超过了谷歌实现的模型2，这说明本申请提出的层次自适应学习率微调算法可以有效缓解数据集之间的差异。值得注意的是，谷歌的模型2是在包含3亿图像的JFT-300M数据集上预训练的，而ML-Images只包含1800万图像。本申请只利用了约1/17的数据量，就超越了谷歌的性能，充分说明了本申请的模型实现和训练算法的有效性。

表3

由上可知，本申请实施例可以在交叉熵损失函数中增加正标签损失的权重，且权重大于1；根据交叉熵损失函数对目标训练图像的预测标签和样本标签进行收敛，得到训练后深度神经网络模型。该方案可以采用带权重的交叉熵损失函数训练深度神经网络模型的模型参数，并且交叉熵函数中权重参数值大于1，因此，可以抑制类别内正负标签的不均衡问题，提升了模型的准确率和视觉表现力。此外，该方案还可以通过交叉熵损失自适应衰减、负样本降采样的方式抑制类别不均衡的问题，进一步提升模型的准确率和视觉表现能力。

为了更好地实施以上方法，本申请实施例还提供一种模型训练装置，该模型训练装置具体可以集成在网络设备如终端或服务器等设备中，该终端可以包括手机、平板电脑、笔记本电脑或PC等设备。

例如，如图5A所示，该模型训练装置可以包括图像获取单元501、选择单元502、预测单元503、函数获取单元504、以及训练单元505，如下：

图像获取单元501，用于获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；

选择单元502，用于从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；

预测单元503，用于采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；

函数获取单元504，用于获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；

训练单元505，用于根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

在一实施例中，参考图5B，所述交叉熵损失函数还包括：交叉熵损失衰减参数；模型训练装置还可以包括：第一类型获取单元506、第二类型获取单元507以及参数更新单元508；

所述选择单元502，可以具体用于：将选择的所述多个训练图像，作为当前批次的目标训练图像；

第一类型获取单元506，用于在所述训练单元505根据所述交叉熵损失函数对所述目标训练图像的预测标签和样本标签进行收敛之前，获取相邻批次的批次的各个目标训练图像的每个样本标签的第一训练图像整体类型、以及具有与所述样本标签相同的标签的训练图像连续出现的次数，所述每个样本标签对应的第一训练图像整体类型用于指示相邻批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

第二类型获取单元507，用于获取当前批次的各个目标训练图像的每个样本标签对应的第二训练图像整体类型，所述每个样本标签对应的所述第二训练图像整体类型用于指示当前批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

参数更新单元508，用于根据所述第一训练图像整体类型、第二训练图像整体类型以及所述次数，对所述交叉熵损失衰减参数进行更新。

在一实施例中，所述参数更新单元508，可以具体用于：

将第一训练图像整体类型和所述第二训练图像整体类型进行比较，得到比较结果；

根据所述比较结果和所述次数，获取当前批量训练中样本标签的当前训练图像连续出现的目标次数；

根据所述目标次数对所述交叉熵损失衰减参数进行更新，得到更新后交叉熵损失函数。

在一实施例中，所述深度神经网络模型包括输出层，所述输出层包括多个输出函数；所述预测单元503，可以具体用于：针对每个所述目标训练图像的每个样本标签：

当所述目标训练图像均为不具有该样本标签的负训练图像时，根据预设处理概率对所述样本标签对应的输出函数中的参数进行更新，得到更新后的模型；

采用所述更新后的模型对各个所述目标训练图像进行标签预测，得到各个目标训练图像的多个预测标签。

当各个所述目标训练图像中存在具有该样本标签的正训练图像时，对各个所述目标训练图像中不具有所述样本标签的负训练图像进行随机降采样，得到降采样后的目标训练图像；

采用所述模型对所述降采样后的目标训练图像对所述模型进行标签预测，得到各个目标训练图像的多个预测标签。

在一实施例中，所述预测单元503，可以具体用于：根据样本标签对应的预设正负训练图像比例，对各个所述目标训练图像中不具有所述样本标签的负训练图像进行随机降采样。

在一实施例中，参考图5C，模型训练装置还可以包括：预处理单元509；

所述预处理单元509，可以具体用于：

从所述目标训练图像中提取相应的区域图像；

将所述区域图像缩放到预定尺寸，得到缩放后图像；

对所述缩放后图像进行随机扰动处理，得到预处理后的训练图像；

此时，所述预测单元503，可以具体用于：采用模型对预处理后的每个训练图像进行标签预测。

在一实施例中，预处理单元509对所述缩放后图像进行随机扰动处理，可以包括：

根据第一处理概率对缩放后图像进行水平翻转处理，得到翻转后图像；

根据第二处理概率对所述翻转后图像进行随机角度的旋转处理，得到旋转后图像，所述随机角度为从预定角度区间中随机选取的角度；

根据第三处理概率分别对旋转后图像的属性进行扰动处理，得到处理后图像；

将所述处理后图像的像素值缩放到预设像素值范围内。

在一实施例中，所述深度神经网络模型包括深度残差网络模型；所述深度残差网络模型包括顺次相连的多个残差块，每个所述残差块包含卷积分支和残差分支，所述卷积分支中的第一卷积层的卷积核大小小于位于所述第一卷积层之后的第二卷积层的卷积核大小，所述第二卷积层的卷积步长大于所述第一卷积层的卷积步长且小于所述第二卷积层的卷积核宽度

在一实施例中，参考图5D，模型训练装置还可以包括：迁移学习单元510；

所述迁移学习单元510，可以具体用于：

将训练后的模型的输出层中多个输出函数变为单标签分类器，得到变化后网络模型；

按照高层的学习率大于低层的学习率原则，对所述变化后网络模型中每层的学习率进行自适应调整，得到调整后网络模型；

在一些实施例中，训练单元505根据所述交叉熵损失函数获取每个所述目标训练图像的预测标签与样本标签的交叉熵损失下降梯度；

基于所述交叉熵损失下降梯度对所述模型中的模型参数进行训练，并更新所述模型中的模型参数，以得到训练后的模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的模型训练装置通过图像获取单元501获取多标签图像训练集；由选择单元502从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；由预测单元503采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；由函数获取单元504获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；由训练单元505根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。该方案可以采用带权重的交叉熵损失函数训练用于图像识别模型的模型参数，并且交叉熵函数中权重参数值大于1，因此，可以抑制类别内正负标签的不均衡问题，提升了模型的准确率和视觉表现力。

本申请实施例还提供一种网络设备，该网络设备可以为服务器或终端等设备。如图6所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解，图6中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器601是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。处理器601可包括一个或多个处理核心；处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块，处理器601通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器601对存储器602的访问。

网络设备还包括给各个部件供电的电源603，电源603可以通过电源管理系统与处理器601逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元604，该输入单元604可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器601会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能，如下：

获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的网络设备可以获取多标签图像训练集；从多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；采用所述模型对每个目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；获取每个所述目标训练图像的多个样本标签对应的交叉熵损失函数，交叉熵损失函数中的正标签损失设有权重，且权重大于1以使所述正标签的损失大于负标签的损失；根据交叉熵损失函数对每个目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。该方案可以采用带权重的交叉熵损失函数训练用于图像识别的模型参数，并且交叉熵函数中权重参数值大于1，因此，可以抑制类别内正负标签的不均衡问题，提升了模型的准确率和视觉表现力。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种模型训练方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种模型训练方法中的步骤，因此，可以实现本申请实施例所提供的任一种模型训练方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种模型训练方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种用于图像识别的模型的训练方法，由网络设备执行，包括：

获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；

从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；

采用所述模型对每个所述目标训练图像进行标签预测，得到每个所述目标训练图像的多个预测标签；

获取每个所述目标训练图像的多个样本标签所对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；

根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。
如权利要求1所述的模型训练方法，其中，所述交叉熵损失函数还包括：交叉熵损失衰减参数；

所述选择的多个训练图像为当前批次的目标训练图像；

在根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛之前，所述方法还包括：

对于相邻批次的各个目标训练图像的每个样本标签，获取所述样本标签对应的第一训练图像整体类型、以及具有与所述样本标签相同的标签的训练图像连续出现的次数，所述样本标签对应的第一训练图像整体类型用于指示相邻批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

获取当前批次的各个目标训练图像的每个样本标签对应的第二训练图像整体类型，所述每个样本标签对应的所述第二训练图像整体类型用于指示当前批次的各个目标训练图像中，是否存在具有与所述样本标签相同的标签的一个或多个连续的训练图像；

根据所述第一训练图像整体类型、第二训练图像整体类型以及所述次数，对所述交叉熵损失衰减参数进行更新。
如权利要求2所述的模型训练方法，其中，根据所述第一训练图像整体类型、第二训练图像整体类型以及所述次数，对所述交叉熵损失衰减参数进行更新，包括：

将第一训练图像整体类型和所述第二训练图像整体类型进行比较，得到比较结果；

根据所述比较结果和所述次数，获取当前批量训练中样本标签的当前训练图像连续出现的目标次数；

根据所述目标次数对所述交叉熵损失衰减参数进行更新，得到更新后交叉熵损失函数。
如权利要求1所述的模型训练方法，其中，所述模型包括输出层，所述输出层包括多个输出函数；

采用所述模型对每个所述目标训练图像进行标签预测，得到每个所述目标训练图像的多个预测标签，包括：

针对每个所述目标训练图像的每个样本标签：

当各个所述目标训练图像均为不具有该样本标签的负训练图像时，根据预设处理概率对所述样本标签对应的输出函数中的参数进行更新，得到更新后的模型；

采用所述更新后的模型对各个所述目标训练图像进行标签预测，得到各个目标训练图像的多个预测标签。
如权利要求1所述的模型训练方法，其中，采用所述模型对每个所述目标训练图像进行标签预测，得到每个所述目标训练图像的多个预测标签，包括：

针对每个所述目标训练图像的每个样本标签：

当各个所述目标训练图像中存在具有该样本标签的正训练图像时，对各个所述目标训练图像中不具有所述样本标签的负训练图像进行随机降采样，得到降采样后的目标训练图像；

采用所述模型对所述降采样后的目标训练图像进行标签预测，得到各个目标训练图像的多个预测标签。
如权利要求5所述的模型训练方法，其中，对所述各个目标训练图像中不具有所述样本标签的负训练图像进行随机降采样，包括：根据所述样本标签对应的预设正负训练图像比例，对各个所述目标训练图像中不具有所述样本标签的负训练图像进行随机降采样。
如权利要求1所述的模型训练方法，其中，在采用所述模型对所述目标训练图像进行标签预测之前，所述方法还包括：

从所述目标训练图像中提取相应的区域图像；

将所述区域图像缩放到预定尺寸，得到缩放后图像；

对所述缩放后图像进行随机扰动处理，得到预处理后的训练图像；

其中，所述模型对每个所述目标训练图像进行标签预测，包括：采用所述模型对预处理后的每个训练图像进行标签预测。
如权利要求7所述的模型训练方法，其中，对所述缩放后图像进行随机扰动处理，包括：

根据第一处理概率对缩放后图像进行水平翻转处理，得到翻转后图像；

根据第二处理概率对所述翻转后图像进行随机角度的旋转处理，得到旋转后图像，所述随机角度为从预定角度区间中随机选取的角度；

根据第三处理概率分别对旋转后图像的属性进行扰动处理，得到处理后图像；

将所述处理后图像的像素值缩放到预设像素值范围内。
如权利要求1所述的模型训练方法，其中，所述模型包括深度残差网络模型；所述深度残差网络模型包括顺次相连的多个残差块，每个所述残差块包含卷积分支和残差分支，所述卷积分支中的第一卷积层的卷积核大小小于位于所述第一卷积层之后的第二卷积层的卷积核大小，所述第二卷积层的卷积步长大于所述第一卷积层的卷积步长且小于所述第二卷积层的卷积核宽度。
如权利要求1所述的模型训练方法，其中，还包括：

将训练后的模型的输出层中多个输出函数变为单标签分类器，得到变化后网络模型；

按照高层的学习率大于低层的学习率原则，对所述变化后网络模型中每层的学习率进行自适应调整，得到调整后网络模型；

根据单标签训练图像集训练调整后网络模型的模型参数，得到单标签图像分类模型。
如权利要求1所述的模型训练方法，其中，所述根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型，包括：

根据所述交叉熵损失函数获取每个所述目标训练图像的预测标签与样本标签的交叉熵损失下降梯度；

基于所述交叉熵损失下降梯度对所述模型中的模型参数进行训练，并更新所述模型中的模型参数，以得到训练后的模型。
一种用于图像识别的模型的训练装置，包括：

图像获取单元，用于获取多标签图像训练集，所述多标签图像训练集包括多个训练图像，每个训练图像标注了多个样本标签；

选择单元，用于从所述多标签图像训练集中选择多个训练图像，作为用于训练当前的模型的目标训练图像；

预测单元，用于采用所述模型对每个所述目标训练图像进行标签预测，得到每个目标训练图像的多个预测标签；

函数获取单元，用于获取每个所述目标训练图像的多个样本标签所对应的交叉熵损失函数，所述交叉熵损失函数中的正标签损失设有权重，且所述权重大于1以使所述正标签的损失大于负标签的损失；

训练单元，用于根据所述交叉熵损失函数对每个所述目标训练图像的预测标签和样本标签进行收敛，更新所述模型的参数，得到训练后的模型。
一种网络设备，包括处理器；

与所述处理器相连接的存储器；所述存储器中存储有机器可读指令，所述机器可读指令可以由处理器执行以完成上述权利要求1至11中任一项所述的方法。
一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的方法。