WO2018153201A1

WO2018153201A1 - 深度学习训练方法及装置

Info

Publication number: WO2018153201A1
Application number: PCT/CN2018/073955
Authority: WO
Inventors: 高燕; 吕达; 罗圣美; 李伟华
Original assignee: 中兴通讯股份有限公司
Priority date: 2017-02-22
Filing date: 2018-01-24
Publication date: 2018-08-30
Also published as: CN108460464A

Abstract

本公开提供一种深度学习训练方法及装置。所述深度学习训练方法包括：在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值；根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及放弃学习非困难实例的特征，而学习所述所有困难实例的特征。摘图1

Description

深度学习训练方法及装置

技术领域

本公开涉及智能学习领域，特别涉及一种深度学习训练方法及装置。

背景技术

目前，深度学习是人工智能领域中研究重点，大量的学者和研究人员投身其中，推动着其迅速发展。尽管深度学习取得了极大的成就，但其依旧面临着很多难题。相比传统方法，更多的数据和更深的网络结构是深度学习最大的特色，也是其取得成功的关键。但这也意味着深度学习往往需要更大的训练存储空间和更多的时间。训练一个深度学习的模型通常需要数天乃至数个月的时间，因而为了节约时间成本，如何加速训练过程成为当下的一个重要研究方向。

对于加速训练，一般在硬件方面采用GPU加速和集群计算，在算法上采用数据并行和模型并行方案。现有方案虽然加快了深度网络的训练迭代速度，但仍然面临着模型收敛较慢的问题。

发明内容

本公开提供一种能够加快深度学习模型收敛的深度学习训练方法及装置。

根据本公开的一个方面，提供一种深度学习训练方法，该深度学习训练方法包括：在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值；根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及放弃学习非困难实例的特征，而学习所述所有困难实例的特征。

根据本公开的另一方面，提供一种深度学习训练装置，该深度学习训练装置包括：损失确定模块，其构造为在每次迭代训练的前向传播过程中，确定批量训练数据实例中每个训练数据实例的损失值；实例选择模块，其构造为在每次迭代训练中，根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及学习模块，其构造为放弃学习非困难实例的特征，而学习所述所有困难实例的特征。

附图说明

图1示出了根据本公开的示例性实施例的深度学习训练方法的主流程图；

图2示出了根据本公开的示例性实施例的深度学习训练方法的详细流程图；以及

图3是示出了根据本公开的示例性实施例的深度学习训练装置的结构示意图。

具体实施方式

对于深度学习的网络训练而言，加快网络收敛相较于单纯加速更为重要。因此基于训练数据考虑，为了至少解决现有深度学习领域中深度学习模型收敛较慢的问题，本公开提供了一种深度学习训练方法及装置。下文将结合附图以及示例性实施例对本公开进行进一步详细说明。应当理解，本文所描述的示例性实施例仅用以解释本公开，并不限定本公开。

根据本公开的一个方面，提供一种深度学习训练方法。如图1所示，所述方法可以包括：

S101，在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值。

具体地说，本步骤S101可以包括以下子步骤：

子步骤S1011，根据任务要求，获取足量的训练样本(即训练数据实例或数据实例)，并对所获取的训练样本进行筛选、处理、增强、均衡、标记标签等操作，构建训练样本集；

子步骤S1012，选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型；

子步骤S1013，将一定数量的训练样本组成一个BATCH(批量训练数据实例)送入深度网络进行计算，得到此BATCH中每个样本数据的分类计算值Xc；

子步骤S1014，对比每个样本的真实标签XT，计算每个样本的Loss(损失)值L。其中，计算Loss值L的方法为：

L＝-log[softmax(a _k)]k为该实例的真实类别 (1)

其中，a为类别概率，softmax(a _k)为交叉损失函数。

如图1所示，所述方法还可以包括：

S102，根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及

S103，放弃学习非困难实例的特征，而学习所述所有困难实例的特征。

本公开的示例性实施例通过计算训练迭代中训练数据实例的损失(数据实例的实际输出与理想输出的差距)值，获得对该次迭代具有较大作用数据实例(即困难实例)，并用于对模型进行训练，也就是说，集中训练困难实例，由此加快了模型的收敛速度。同时，由于学习训练过程忽略了无用数据实例(即非困难实例)，因此有效地改善了实际问题中训练数据不平衡的问题。本公开的示例性实施例通过对模型训练数据的分析，对现有的训练学习方法进行改进，而且可结合现有各种优化求解方法使用，并可以融合进当前的各个深度学习框架中。

在上述示例性实施例的基础上，进一步提出上述示例性实施例的变型实施例，在此需要说明的是，为了使描述简要，在各变型实施例中仅描述与上述示例性实施例的不同之处。

在本公开的示例性实施例中，步骤S102可以包括以下子步骤：

子步骤S1021，针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ ₁的大小关系；若该损失值不小于所述预设阈值θ ₁，则确定该训练数据实例为困难实例；以及

子步骤S1022，遍历所述批量训练数据实例，以获得所有困难实例。

详细地说，将BATCH中的每个训练样本的Loss值L与阈值θ ₁进行对比。若L超过阈值θ ₁，则确定此训练样本为困难实例，用于本次学习。反之，则舍弃此训练样本。

本公开的示例性实施例进一步加速了深度学习模型的收敛。

在本公开的示例性实施例中，步骤S103包括以下子步骤：

子步骤S1031，确定所述批量训练数据实例的平均损失值；

子步骤S1032，将所述平均损失值与预设阈值θ ₂进行比较；以及

子步骤S1033，若所述平均损失值超过所述预设阈值θ ₂，则放弃学习非困难实例的特征，而学习所述所有困难实例的特征，或者若所述平均损失值未超过所述预设阈值θ ₂，则放弃学习所述批量训练数据实例的特征。

在本公开的示例性实施例中，学习所述所有困难实例的特征的步骤包括：在学习时，将各困难实例的损失值反向传播；以及根据各损失值调整用于训练的网络参数。

在本公开的示例性实施例中，所述预设阈值θ ₂小于所述预设阈值θ ₁。

具体地说，将一个BATCH训练样本的平均损失值Lavg与阈值θ ₂进行对比，若Lavg超过阈值，则认为此BATCH中绝大多数训练样本为困难实例，将Loss值进行反向传播，微调网络参数，对模型进行训练；若Lavg未超过阈值，则认为此BATCH训练样本几乎均为非困难实例，所得Loss值不进行反向传播，舍弃该BATCH，阻止模型学习此BATCH中的训练样本特征。由此实现进一步加速。

在本公开的示例性实施例中，平均损失值Lavg为BATCH样本中所有样本的Loss值之和除以BATCH中的样本数量N。以下公式可以用于计算平均损失值Lavg。

其中，a为类别概率，softmax(a _{i_k})为交叉损失函数。

在本公开的示例性实施例中，预设阈值θ ₁和预设阈值θ ₁以这样的方式获得：针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ ₁；以及根据任一训练数据实例预设阈值θ ₁，确定所述预设阈值θ ₂。

具体地说，预设阈值θ ₁和θ ₂由选取的Loss计算公式和BATCH的大小确定。

θ ₁＝-log(a)a∈(0.9，1) (3)

其中，a为类别概率，θ ₁为单个样本评价阈值，θ ₂为整个BATCH的评价阈值，N为一个BATCH中的样本数量。

本公开的示例性实施例设计了基于数据分析的深度学习加速收敛方法，并且可应用于各个深度学习开源框架。该方法主要包括数据预处理和深度学习训练。其中，在数据预处理部分，通过运用各种图像变换方法进行数据增强，从而极大地扩充了数据，并增加了数据的多样性。在深度学习训练部分，结合支持向量思想，通过对数据的损失分析，加速了收敛。

本公开的示例性实施例基于对训练过程中的数据进行分析，根据每次迭代中数据的损失大小，使得训练集中在困难数据实例上(损失大)，从而加快了收敛的速度。相比于现有对于训练数据不加区分的学习方法，本公开的示例性实施例根据训练数据的损失大小对数据加以区分，使得训练更具有针对性。而且，现有网络训练方法将所有数据都用于学习，从而导致实际运用中训练数据不平衡的问题，使得学习模型的训练倾向于数据量更多的数据类别，而本公开的示例性实施例则对该问题起到了遏制作用，一定程度上提升了训练效果。

下面将举一具体应用例，详细说明根据本公开的深度学习训练方法。

实验数据采用ImageNet数据集，数据集训练图片共120万张，分为1000类，每类1200张样本。对于ImageNet图像识别竞赛的分类任务，采用根据本公开的深度学习训练方法进行，同时与现有Caffe(卷积神经网络框架)开源框架训练方法进行对比。

具体地说，如图2所示，在本公开的示例性实施例中，方法主要分两大过程：数据预处理、深度学习训练。下面结合该实验分别说明每个过程的具体内容。

数据预处理

数据预处理是进行数据分析、学习任务的必要过程。对于本实验而言，数据的分类、标注等任务数据集中已完成，因而所需的关键就在于数据增强。对样本进行数据增强(例如使用随机裁剪，镜像等增强方法)。图像分辨率调整至256×256，最终将数据保存为lmdb文件格式，供Caffe调用。

深度学习训练

在本公开的示例性实施例中，方法主要是针对本过程进行改进，依据训练数据实例的损失大小区分数据来进行迭代学习。该过程主要涉及通过深度网络训练得到深度模型。

具体地说，通过深度网络(本文中可以简称网络)进行训练的训练过程包括如下步骤：

(1)根据任务要求，获取足量的训练样本，并对所获取的训练样本进行筛选、处理、增强、均衡、标记标签等操作，构建训练样本集。

(2)选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型。

(3)将一定数量的训练样本组成一个BATCH送入网络进行计算，得到此BATCH中每个样本数据的分类计算值Xc。

(4)对比每个样本的真实标签XT，计算Loss(损失)值L。将BATCH中的每个训练样本的Loss值L与阈值θ ₁进行对比，若L超过阈值，则认为此训练样本为困难实例，用于本次学习，反之则将其舍弃。

损失计算公式有多种，本实验采用分类最常用的SoftmaxLoss。

SoftmaxLoss是以Softmax函数作为交叉损失函数的输入，计算公式如下：

Softmax的计算结果为一个数据实例属于各个类别的概率。

进一步根据上述公式(1)可以计算出该数据实例的损失。

(5)计算整个BATCH中所有样本数据的平均损失值Lavg。

(6)将BATCH训练样本中的困难实例的平均损失值Lavg与阈值θ ₂进行对比，若Lavg超过阈值，则认为此BATCH中绝大多数训练样本为困难实例，将Loss值进行反向传播，微调网络参数，对模型进行训练；若Lavg未超过阈值，则认为此BATCH训练样本几乎均为非困难实例，所得Loss值不进行反向传播，舍弃该BATCH，阻止模型学习此BATCH中的训练样本特征，由此实现进一步加速。

θ ₁是基于单个实例的损失判定阈值，其值根据上述公式(3)确定。在本次实验中，将a设定为0.99，则计算得到的θ ₁的值为0.01。

θ ₂用于判定批量数据的平均损失，考虑到要防止因个别实例的损失值较小而影响整体平均损失，θ ₂应小于θ ₁。随着样本数量N的增大，该影响逐渐减小，θ ₂也不断接近θ ₁，因而采用上述公式(4)确定θ ₂，计算得到的θ ₂的值为9.9×10 ^-3。

(7)若未达到终止条件，则返回步骤(3)继续训练。达到终止条件，结束学习过程。

综上，在本公开的示例性实施例中，深度学习训练部分通过对单个数据实例和批量数据实例进行控制，实现将训练学习集中于困难实例。对于单个数据实例，将单个数据实例的通过公式(1)计算出的损失值L与阈值θ ₁进行比较，若L大于阈值θ ₁，则该数据实例用于训练学习，反之，本次迭代中忽略该数据实例，即其反向传播梯度为0。对于批量数据实例，将整个批量数据的通过公式(2)计算出的损失均值Lavg与阈值θ ₂进行比较，若Lavg大于阈值θ ₂，则执行反向传播，反之，则取消，即该批量数据不用于学习。

实验结果显示，原训练方法在4367次迭代后，loss开始下降，逐渐收敛；而使用根据本公开的方法，在进行到第78次迭代后，loss开始下降。可见，本公开提供的深度学习训练方法的加速收敛效果十分明显。

根据本公开的另一方面，提供一种深度学习训练装置，如图3所示，该深度学习训练装置可以包括：

损失确定模块310，其构造为在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值；

实例选择模块320，其构造为根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及

学习模块330，其构造为放弃学习非困难实例的特征，而学习所述所有困难实例的特征。

本公开的示例性实施例通过计算训练迭代中训练数据实例的损失值，获得对该次迭代具有较大作用数据实例，并用于对模型进行训练，也就是说，集中训练困难实例，由此加快了模型的收敛速度。同时，由于学习训练过程忽略了无用数据实例，因此有效地改善了实际问题中训练数据不平衡的问题。本公开的示例性实施例通过对模型训练数据的分析，对现有的训练学习方法进行改进，而且可结合现有各种优化求解方法使用，并可以融合进当前的各个深度学习框架中。

在本公开的示例性实施例中，所述实例选择模块320构造为：针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ ₁的大小关系；若该损失值不小于所述预设阈值θ ₁，则该训练数据实例为困难实例；以及遍历所述批量训练数据实例，以获得所有困难实例。

在本公开的示例性实施例中，所述装置还包括判断模块，所述判断模块构造为：

确定所述批量训练数据实例的平均损失值；

比较所述平均损失值与预设阈值θ ₂；

若所述平均损失值超过所述预设阈值θ ₂，则触发所述学习模块放弃学习非困难实例的特征，而学习所述所有困难实例的特征，或者若所述平均损失值未超过所述预设阈值θ ₂，则触发所述学习模块放弃学习所述批量训练数据实例的特征。

在本公开的示例性实施例中，所述装置还包括阈值设置模块，所述阈值设置模块构造为：

针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ ₁；以及

根据任一训练数据实例的预设阈值θ ₁，确定所述预设阈值θ ₂。

在本公开的示例性实施例中，所述装置还包括参数调整模块，所述参数调整模块构造为：

在学习时，将各困难实例的损失值反向传播；以及

根据各损失值调整用于训练的网络参数。

上述示例性描述的深度学习训练方法可由硬件、由处理器执行的软件模块或者这二者的结合实现。例如，附图中所示功能框图中的一个或多个功能框图和/或功能框图的一个和/或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于附图所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域已知的任何其他形式的存储介质。可以将一种存储介质藕接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若移动终端采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件或者其任意适当组合。针对附图中描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算机设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其他这种配置。

本领域技术人员在不脱离本公开内容的基础上可以对本公开做出各种改进，但这些改进应当理解为仍落在本公开的保护范围之内。

Claims

一种深度学习训练方法，包括以下步骤：

S101，在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值；

S102，根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及

S103，放弃学习非困难实例的特征，而学习所述所有困难实例的特征。
如权利要求1所述的方法，其中，步骤S101包括以下子步骤：

S1011，根据任务要求，获取足量的训练数据实例，并对所获取的训练数据实例进行筛选、处理、增强、均衡、标记标签的操作，构建训练数据实例集；

S1012，选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型；

S1013，将一定数量的训练数据实例组成一个所述批量训练数据实例送入深度网络进行计算，得到所述批量训练数据实例中的每个训练数据实例的分类计算值；以及

S1014，对比每个训练数据实例的真实标签，计算每个训练数据实例的损失值。
如权利要求1所述的方法，其中，步骤S102包括以下子步骤：

S1021，针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ ₁的大小关系；若该损失值不小于所述预设阈值θ ₁，则确定该训练数据实例为困难实例；以及

S1022，遍历所述批量训练数据实例，以获得所有困难实例。
如权利要求3所述的方法，其中，步骤S103包括以下子步骤：

S1031，确定所述批量训练数据实例的平均损失值；

S1032，将所述平均损失值与预设阈值θ ₂进行比较；以及

S1033，若所述平均损失值超过所述预设阈值θ ₂，则放弃学习非困难实例的特征，而学习所述所有困难实例的特征，或者若所述平均损失值未超过所述预设阈值θ ₂，则放弃学习所述批量训练数据实例的特征。
如权利要求4所述的方法，其中，所述预设阈值θ ₂小于所述预设阈值θ ₁。
如权利要求4所述的方法，其中，针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ ₁；以及根据任一训练数据实例的预设阈值θ ₁，确定所述预设阈值θ ₂。
如权利要求4所述的方法，其中，学习所述所有困难实例的特征的步骤还包括：

在学习时，将各困难实例的损失值反向传播；以及

根据各损失值调整用于训练的网络参数。
一种深度学习训练装置，包括：

损失确定模块，其构造为在每次迭代训练的前向传播过程中，确定批量训练数据实例中的每个训练数据实例的损失值；

实例选择模块，其构造为在每次迭代训练中，根据各训练数据实例的损失值，从所述批量训练数据实例中确定出所有困难实例；以及

学习模块，其构造为放弃学习非困难实例的特征，而学习所述所有困难实例的特征。
如权利要求8所述的装置，其中，所述损失确定模块构造为：

根据任务要求，获取足量的训练数据实例，并对所获取的训练数据实例进行筛选、处理、增强、均衡、标记标签的操作，构建训练数据实例集；

选定深度网络模型结构，设定相应的训练参数，初始化深度网络模型；

将一定数量的训练数据实例组成一个所述批量训练数据实例送入深度网络进行计算，得到所述批量训练数据实例中的每个训练数据实例的分类计算值；以及

对比每个训练数据实例的真实标签，计算每个训练数据实例的损失值。
如权利要求8所述的装置，其中，所述实例选择模块构造为：

针对任一训练数据实例，对比该训练数据实例的损失值和预设阈值θ ₁的大小关系；若该损失值不小于所述预设阈值θ ₁，则确定该训练数据实例为困难实例；以及

遍历所述批量训练数据实例，以获得所有困难实例。
如权利要求10所述的装置，其中，所述装置还包括判断模块，所述判断模块构造为：

确定所述批量训练数据实例的平均损失值；

比较所述平均损失值与预设阈值θ ₂；以及

若所述平均损失值超过所述预设阈值θ ₂，则触发所述学习模块放弃学习非困难实例的特征，而学习所述所有困难实例的特征，或者若所述平均损失值未超过所述预设阈值θ ₂，则触发所述学习模块放弃学习所述批量训练数据实例的特征。
如权利要求11所述的装置，其中，所述预设阈值θ ₂小于所述预设阈值θ ₁。
如权利要求11所述的装置，其中，所述装置还包括阈值设置模块，所述阈值设置模块构造为：

针对任一训练数据实例，根据该训练数据实例的类别概率，确定该训练数据实例的预设阈值θ ₁；以及

根据任一训练数据实例的预设阈值θ ₁，确定所述预设阈值θ ₂。
如权利要求11所述的装置，其中，所述装置还包括参数调整模块，所述参数调整模块构造为：

在学习时，将各困难实例的损失值反向传播；以及

根据各损失值调整用于训练的网络参数。